Phân cấp so với phân cụm
Phân cụm là một kỹ thuật máy học để phân tích dữ liệu và phân chia thành các nhóm dữ liệu tương tự. Các nhóm hoặc bộ dữ liệu tương tự này được gọi là cụm. Phân tích cụm xem xét các thuật toán phân cụm có thể xác định các cụm tự động. Phân cấp và một phần là hai lớp thuật toán phân cụm như vậy. Các thuật toán phân cụm phân cấp phá vỡ dữ liệu thành một hệ thống phân cấp của các cụm. Các thuật toán phân chia phân chia tập dữ liệu thành các phân vùng rời rạc lẫn nhau.
Phân cụm là gì?
Các thuật toán phân cụm phân cấp lặp lại chu kỳ của việc hợp nhất các cụm nhỏ hơn thành các cụm lớn hơn hoặc chia các cụm lớn hơn cho các cụm nhỏ hơn. Dù bằng cách nào, nó tạo ra một hệ thống phân cấp của các cụm được gọi là dendogram. Chiến lược phân cụm liên kết sử dụng cách tiếp cận từ dưới lên của các cụm hợp nhất thành các cụm lớn hơn, trong khi chiến lược phân cụm sử dụng cách tiếp cận từ trên xuống của tách thành các cụm nhỏ hơn. Thông thường, cách tiếp cận tham lam được sử dụng trong việc quyết định các cụm lớn hơn / nhỏ hơn được sử dụng để hợp nhất / phân chia. Khoảng cách Euclide, khoảng cách Manhattan và độ tương tự cosin là một số số liệu tương tự được sử dụng phổ biến nhất cho dữ liệu số. Đối với dữ liệu không phải là số, các số liệu như khoảng cách Hamming được sử dụng. Điều quan trọng cần lưu ý là các quan sát thực tế (ví dụ) không cần thiết cho phân cụm theo cấp bậc, vì chỉ ma trận khoảng cách là đủ. Dendogram là một đại diện trực quan của các cụm, hiển thị phân cấp rất rõ ràng. Người dùng có thể có được phân cụm khác nhau tùy thuộc vào mức độ cắt của bản thảo.
Phân cụm một phần là gì?
Các thuật toán phân cụm một phần tạo ra các phân vùng khác nhau và sau đó đánh giá chúng theo một số tiêu chí. Chúng cũng được gọi là không phân cấp vì mỗi trường hợp được đặt trong chính xác một trong các cụm k loại trừ lẫn nhau. Do chỉ có một bộ cụm là đầu ra của thuật toán phân cụm theo từng phần điển hình, nên người dùng được yêu cầu nhập số cụm mong muốn (thường được gọi là k). Một trong những thuật toán phân cụm một phần thường được sử dụng là thuật toán phân cụm k-nghĩa. Người dùng được yêu cầu cung cấp số lượng cụm (k) trước khi bắt đầu và thuật toán trước tiên khởi tạo các trung tâm (hoặc centroid) của phân vùng k. Tóm lại, thuật toán phân cụm k-nghĩa là phân công các thành viên dựa trên các trung tâm hiện tại và các trung tâm ước tính lại dựa trên các thành viên hiện tại. Hai bước này được lặp lại cho đến khi một chức năng mục tiêu tương tự trong cụm nhất định và chức năng mục tiêu khác biệt giữa các cụm được tối ưu hóa. Do đó, khởi tạo hợp lý các trung tâm là một yếu tố rất quan trọng để có được kết quả chất lượng từ các thuật toán phân cụm một phần.
Sự khác biệt giữa phân cụm phân cấp và phân vùng?
Phân cụm theo phân cấp và phân vùng có sự khác biệt chính về thời gian chạy, giả định, tham số đầu vào và cụm kết quả. Thông thường, phân cụm một phần nhanh hơn phân cụm theo cấp bậc. Phân cụm theo phân cấp chỉ yêu cầu một biện pháp tương tự, trong khi phân cụm theo từng phần đòi hỏi các giả định mạnh hơn như số cụm và các trung tâm ban đầu. Phân cụm phân cấp không yêu cầu bất kỳ tham số đầu vào, trong khi các thuật toán phân cụm theo từng phần yêu cầu số lượng cụm để bắt đầu chạy. Phân cụm theo phân cấp trả về một phân chia cụm có ý nghĩa và chủ quan hơn nhiều nhưng phân cụm theo từng phần dẫn đến các cụm k chính xác. Các thuật toán phân cụm phân cấp phù hợp hơn cho dữ liệu phân loại miễn là có thể xác định một phép đo tương tự.