Kỹ thuật phân cụm và phân loại được sử dụng trong học máy, truy xuất thông tin, điều tra hình ảnh và các nhiệm vụ liên quan.
Hai chiến lược này là hai bộ phận chính của quy trình khai thác dữ liệu. Trong thế giới phân tích dữ liệu, đây là những điều cần thiết trong việc quản lý các thuật toán. Cụ thể, cả hai quá trình này chia dữ liệu thành các bộ. Nhiệm vụ này rất phù hợp trong thời đại thông tin ngày nay vì sự gia tăng to lớn của dữ liệu cùng với sự phát triển cần phải được tạo điều kiện thuận lợi.
Đáng chú ý, phân cụm và phân loại giúp giải quyết các vấn đề toàn cầu như tội phạm, nghèo đói và bệnh tật thông qua khoa học dữ liệu.
Về cơ bản, phân cụm liên quan đến việc nhóm dữ liệu liên quan đến sự tương đồng của chúng. Nó chủ yếu liên quan đến các biện pháp khoảng cách và thuật toán phân cụm để tính toán sự khác biệt giữa dữ liệu và phân chia chúng một cách có hệ thống.
Chẳng hạn, những sinh viên có phong cách học tập tương tự được nhóm lại với nhau và được dạy riêng biệt với những người có cách tiếp cận học tập khác nhau. Trong khai thác dữ liệu, phân cụm thường được gọi là kỹ thuật học tập không giám sát, vì việc phân nhóm dựa trên một đặc tính tự nhiên hoặc vốn có.
Nó được áp dụng trong một số lĩnh vực khoa học như công nghệ thông tin, sinh học, tội phạm học và y học.
Phân cụm không có định nghĩa chính xác đó là lý do tại sao có nhiều thuật toán phân cụm hoặc mô hình cụm khác nhau. Nói một cách đơn giản, hai loại cụm là cứng và mềm. Phân cụm cứng có liên quan đến việc ghi nhãn một đối tượng có đơn giản là thuộc về một cụm hay không. Ngược lại, phân cụm mềm hoặc phân cụm mờ chỉ định mức độ như thế nào một cái gì đó thuộc về một nhóm nhất định.
Việc xác nhận hoặc đánh giá kết quả từ phân tích phân cụm thường khó xác định do tính không chính xác vốn có của nó.
Vì nó là một chiến lược học tập không giám sát, phân tích chỉ dựa trên các tính năng hiện tại; do đó, không cần quy định nghiêm ngặt.
Phân loại đòi hỏi phải gán nhãn cho các tình huống hoặc các lớp hiện có; do đó, thuật ngữ phân loại trực tuyến. Ví dụ, học sinh thể hiện các đặc điểm học tập nhất định được phân loại là người học trực quan.
Phân loại còn được gọi là kỹ thuật học tập có giám sát của Cameron trong đó các máy học từ dữ liệu đã được dán nhãn hoặc phân loại. Nó có tính ứng dụng cao trong nhận dạng mẫu, thống kê và sinh trắc học.
Để phân tích dữ liệu, bộ phân loại là một thuật toán được xác định, ánh xạ cụ thể một thông tin đến một lớp cụ thể. Ví dụ, một thuật toán phân loại sẽ đào tạo một mô hình để xác định xem một tế bào nào đó là ác tính hay lành tính.
Chất lượng của phân tích phân loại thường được đánh giá thông qua độ chính xác và thu hồi là các quy trình số liệu phổ biến. Một bộ phân loại được đánh giá về độ chính xác và độ nhạy của nó trong việc xác định đầu ra.
Phân loại là một kỹ thuật học tập có giám sát vì nó chỉ định các danh tính được xác định trước đó dựa trên các tính năng tương đương. Nó suy ra một chức năng từ một tập huấn luyện có nhãn.
Sự khác biệt chính là việc phân cụm không được giám sát và được coi là tự học của Cameron trong khi phân loại được giám sát vì nó phụ thuộc vào các nhãn được xác định trước.
Phân cụm không sử dụng các tập huấn luyện một cách sâu sắc, đó là các nhóm các trường hợp được sử dụng để tạo các nhóm, trong khi phân loại nhất thiết cần các tập huấn luyện để xác định các tính năng tương tự.
Phân cụm hoạt động với dữ liệu chưa được gắn nhãn vì nó không cần đào tạo. Mặt khác, phân loại liên quan đến cả dữ liệu chưa được gắn nhãn và được dán nhãn trong các quy trình của nó.
Phân cụm các đối tượng với mục đích thu hẹp quan hệ cũng như tìm hiểu thông tin mới từ các mẫu ẩn trong khi phân loại tìm cách xác định nhóm rõ ràng nào mà một đối tượng nhất định thuộc về.
Mặc dù phân loại không chỉ định những gì cần phải học, phân cụm chỉ định cải tiến cần thiết vì nó chỉ ra sự khác biệt bằng cách xem xét sự tương đồng giữa các dữ liệu.
Nói chung, phân cụm chỉ bao gồm một giai đoạn duy nhất (nhóm) trong khi phân loại có hai giai đoạn, đào tạo (mô hình học từ tập dữ liệu đào tạo) và thử nghiệm (dự đoán lớp mục tiêu).
Xác định các điều kiện biên là rất quan trọng trong quá trình phân loại so với phân cụm. Chẳng hạn, việc biết phạm vi tỷ lệ phần trăm của các trò chơi điện tử thấp so với mức độ vừa phải và mức độ cao của Google là cần thiết trong việc thiết lập phân loại.
So với phân cụm, phân loại có liên quan nhiều hơn đến dự đoán vì nó đặc biệt nhắm đến việc xác định các lớp mục tiêu. Chẳng hạn, điều này có thể được áp dụng trong phát hiện điểm quan trọng trên khuôn mặt của Cameron vì nó có thể được sử dụng để dự đoán liệu một nhân chứng nào đó có nói dối hay không.
Do phân loại bao gồm nhiều giai đoạn hơn, liên quan đến dự đoán và liên quan đến mức độ hoặc cấp độ, nên bản chất của nó phức tạp hơn so với phân cụm, chủ yếu liên quan đến việc nhóm các thuộc tính tương tự.
Các thuật toán phân cụm chủ yếu là tuyến tính và phi tuyến trong khi phân loại bao gồm nhiều công cụ thuật toán hơn như phân loại tuyến tính, mạng thần kinh, ước lượng hạt nhân, cây quyết định và máy vectơ hỗ trợ.
Phân cụm | Phân loại |
Dữ liệu không được giám sát | Dữ liệu được giám sát |
Không đánh giá cao bộ đào tạo | Tập giá trị cao |
Chỉ hoạt động với dữ liệu chưa được gắn nhãn | Liên quan đến cả dữ liệu không nhãn và nhãn |
Nhằm mục đích xác định sự tương đồng giữa các dữ liệu | Nhằm xác minh vị trí của một mốc thời gian |
Chỉ định thay đổi cần thiết | Không chỉ định cải tiến cần thiết |
Có một pha | Có hai giai đoạn |
Xác định điều kiện biên không phải là tối quan trọng | Xác định các điều kiện biên là rất cần thiết trong việc thực hiện các giai đoạn |
Nói chung không đối phó với dự đoán | Giao dịch với dự đoán |
Chủ yếu sử dụng hai thuật toán | Có một số thuật toán có thể sử dụng |
Quá trình ít phức tạp hơn | Quá trình phức tạp hơn |