Học tập có giám sát và học tập không giám sát là hai khái niệm cốt lõi của học máy. Học có giám sát là một nhiệm vụ của Machine Learning là học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp đầu vào-đầu ra mẫu. Học tập không giám sát là nhiệm vụ Machine Learning trong việc suy ra một chức năng để mô tả cấu trúc ẩn từ dữ liệu không ghi nhãn. Các sự khác biệt chính giữa học máy có giám sát và không giám sát là học có giám sát sử dụng dữ liệu được dán nhãn trong khi học tập không giám sát sử dụng dữ liệu không được gắn nhãn.
Machine Learning là một lĩnh vực trong Khoa học máy tính cung cấp khả năng cho một hệ thống máy tính học từ dữ liệu mà không được lập trình rõ ràng. Nó cho phép phân tích dữ liệu và dự đoán các mẫu trong đó. Có rất nhiều ứng dụng của máy học. Một số trong số đó là nhận dạng khuôn mặt, nhận dạng cử chỉ và nhận dạng giọng nói. Có nhiều thuật toán khác nhau liên quan đến học máy. Một số trong số đó là hồi quy, phân loại và phân cụm. Các ngôn ngữ lập trình phổ biến nhất để phát triển các ứng dụng dựa trên máy học là R và Python. Các ngôn ngữ khác như Java, C ++ và Matlab cũng có thể được sử dụng.
1. Tổng quan và sự khác biệt chính
2. Học tập có giám sát là gì
3. Học tập không giám sát là gì
4. Điểm tương đồng giữa học máy có giám sát và không giám sát
5. So sánh bên cạnh - Học tập được giám sát so với học máy không giám sát ở dạng bảng
6. Tóm tắt
Trong các hệ thống dựa trên máy học, mô hình hoạt động theo một thuật toán. Trong học tập có giám sát, mô hình được giám sát. Đầu tiên, nó là cần thiết để đào tạo mô hình. Với kiến thức thu được, nó có thể dự đoán câu trả lời cho các trường hợp trong tương lai. Mô hình được đào tạo bằng cách sử dụng một bộ dữ liệu được dán nhãn. Khi một dữ liệu mẫu được đưa ra cho hệ thống, nó có thể dự đoán kết quả. Sau đây là một trích xuất nhỏ từ bộ dữ liệu IRIS phổ biến.
Theo bảng trên, chiều dài Sepal, chiều rộng Sepal, chiều dài Patel, chiều rộng Patel và Loài được gọi là các thuộc tính. Các cột được gọi là các tính năng. Một hàng có dữ liệu cho tất cả các thuộc tính. Do đó, một hàng được gọi là quan sát. Các dữ liệu có thể là số hoặc phân loại. Mô hình được đưa ra các quan sát với tên loài tương ứng làm đầu vào. Khi một quan sát mới được đưa ra, mô hình sẽ dự đoán loại loài mà nó thuộc về.
Trong học tập có giám sát, có các thuật toán để phân loại và hồi quy. Phân loại là quá trình phân loại dữ liệu được dán nhãn. Mô hình tạo ra các ranh giới phân tách các loại dữ liệu. Khi dữ liệu mới được cung cấp cho mô hình, nó có thể phân loại dựa trên điểm tồn tại. Hàng xóm gần nhất (KNN) là một mô hình phân loại. Tùy thuộc vào giá trị k, loại được quyết định. Ví dụ: khi k là 5, nếu một điểm dữ liệu cụ thể gần tám điểm dữ liệu trong loại A và sáu điểm dữ liệu trong loại B, thì điểm dữ liệu sẽ được phân loại là A.
Hồi quy là quá trình dự đoán xu hướng của dữ liệu trước đó để dự đoán kết quả của dữ liệu mới. Trong hồi quy, đầu ra có thể bao gồm một hoặc nhiều biến liên tục. Dự đoán được thực hiện bằng cách sử dụng một dòng bao gồm hầu hết các điểm dữ liệu. Mô hình hồi quy đơn giản nhất là hồi quy tuyến tính. Nó nhanh và không yêu cầu điều chỉnh các tham số như trong KNN. Nếu dữ liệu cho thấy xu hướng parabol, thì mô hình hồi quy tuyến tính là không phù hợp.
Đó là một số ví dụ về các thuật toán học tập có giám sát. Nói chung, kết quả được tạo ra từ các phương pháp học có giám sát là chính xác và đáng tin cậy hơn vì dữ liệu đầu vào được biết đến và dán nhãn. Do đó, máy chỉ phải phân tích các mẫu ẩn.
Trong học tập không giám sát, mô hình không được giám sát. Các mô hình tự làm việc, để dự đoán kết quả. Nó sử dụng các thuật toán học máy để đưa ra kết luận về dữ liệu chưa được gắn nhãn. Nói chung, các thuật toán học tập không giám sát khó hơn các thuật toán học có giám sát vì có ít thông tin. Phân cụm là một loại học tập không giám sát. Nó có thể được sử dụng để nhóm các dữ liệu chưa biết bằng thuật toán. Phân cụm k-mean và mật độ dựa trên mật độ là hai thuật toán phân cụm.
thuật toán k-mean, đặt k centroid ngẫu nhiên cho mỗi cụm. Sau đó, mỗi điểm dữ liệu được gán cho trọng tâm gần nhất. Khoảng cách Euclide được sử dụng để tính khoảng cách từ điểm dữ liệu đến tâm. Các điểm dữ liệu được phân loại thành các nhóm. Các vị trí cho k centroid được tính lại. Vị trí trung tâm mới được xác định bởi giá trị trung bình của tất cả các điểm trong nhóm. Một lần nữa, mỗi điểm dữ liệu được gán cho trọng tâm gần nhất. Quá trình này lặp lại cho đến khi trọng tâm không còn thay đổi. k-mean là một thuật toán phân cụm nhanh, nhưng không có sự khởi tạo được chỉ định của các điểm phân cụm. Ngoài ra, có một biến thể cao của các mô hình phân cụm dựa trên việc khởi tạo các điểm cụm.
Một thuật toán phân cụm khác là Phân cụm dựa trên mật độ. Nó còn được gọi là Ứng dụng phân cụm không gian dựa trên mật độ có tiếng ồn. Nó hoạt động bằng cách định nghĩa một cụm là tập hợp tối đa các điểm kết nối mật độ. Chúng là hai tham số được sử dụng để phân cụm dựa trên mật độ. Chúng là (epsilon) và điểm tối thiểu. Là bán kính tối đa của vùng lân cận. Điểm tối thiểu là số điểm tối thiểu trong vùng lân cận để xác định cụm. Đó là một số ví dụ về việc phân cụm rơi vào học tập không giám sát.
Nói chung, kết quả được tạo từ các thuật toán học tập không giám sát không chính xác và đáng tin cậy vì máy phải xác định và gắn nhãn dữ liệu đầu vào trước khi xác định các mẫu và chức năng ẩn.
Giám sát so với học máy không giám sát | |
Học có giám sát là nhiệm vụ của Machine Learning là học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp đầu vào-đầu ra mẫu. | Học không giám sát là nhiệm vụ của Machine Learning trong việc suy ra một chức năng để mô tả cấu trúc ẩn từ dữ liệu không được gắn nhãn. |
Chức năng chính | |
Trong học tập có giám sát, mô hình dự đoán kết quả dựa trên dữ liệu đầu vào được gắn nhãn. | Trong học tập không giám sát, mô hình dự đoán kết quả mà không có dữ liệu được gắn nhãn bằng cách tự xác định các mẫu. |
Độ chính xác của kết quả | |
Các kết quả được tạo ra từ các phương pháp học có giám sát là chính xác và đáng tin cậy hơn. | Kết quả được tạo ra từ các phương pháp học tập không giám sát không chính xác và đáng tin cậy. |
Các thuật toán chính | |
Có các thuật toán để hồi quy và phân loại trong học tập có giám sát. | Có các thuật toán để phân cụm trong học tập không giám sát. |
Học có giám sát và Học không giám sát là hai loại Máy học. Học có giám sát là nhiệm vụ của Machine Learning là học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp đầu vào-đầu ra mẫu. Học tập không giám sát là nhiệm vụ Machine Learning trong việc suy ra một chức năng để mô tả cấu trúc ẩn từ dữ liệu không được gắn nhãn. Sự khác biệt giữa học máy có giám sát và không giám sát là học có giám sát sử dụng dữ liệu được dán nhãn trong khi nghiêng không giám sát sử dụng dữ liệu không được gắn nhãn.
1.TheBigDataUniversity. Học máy - Học tập có giám sát VS Học tập không giám sát, Lớp nhận thức, ngày 13 tháng 3 năm 2017. Có sẵn tại đây
2. Học tập không giám sát. Wikipedia, Wikimedia Foundation, 20 tháng 3 năm 2018. Có sẵn tại đây
3. Học tập có giám sát. Wikipedia, Wikimedia Foundation, 15 tháng 3 năm 2018. Có sẵn tại đây
1.'2729781 'của GDJ (Miền công cộng) qua pixabay