Trong những năm qua, nhiều hệ thống phân loại, còn được gọi là hệ thống hòa tấu đã là một chủ đề nghiên cứu phổ biến và được chú ý ngày càng tăng trong cộng đồng trí tuệ tính toán và máy học. Nó thu hút sự quan tâm của các nhà khoa học từ một số lĩnh vực bao gồm Học máy, Thống kê, Nhận dạng mẫu và Khám phá tri thức trong Cơ sở dữ liệu. Theo thời gian, các phương pháp tập hợp đã chứng minh rằng chúng rất hiệu quả và linh hoạt trong một phạm vi rộng các lĩnh vực vấn đề và các ứng dụng trong thế giới thực. Ban đầu được phát triển để giảm phương sai trong hệ thống ra quyết định tự động, các phương pháp tập hợp đã được sử dụng để giải quyết nhiều vấn đề về máy học. Chúng tôi trình bày tổng quan về hai thuật toán tập hợp nổi bật nhất - Đóng bao và Rừng ngẫu nhiên - và sau đó thảo luận về sự khác biệt giữa hai thuật toán.
Trong nhiều trường hợp, đóng bao, sử dụng lấy mẫu bootstrap, tress phân loại đã được chứng minh là có độ chính xác cao hơn một cây phân loại duy nhất. Bagging là một trong những thuật toán dựa trên tập hợp lâu đời nhất và đơn giản nhất, có thể được áp dụng cho các thuật toán dựa trên cây để tăng cường tính chính xác của các dự đoán. Vẫn còn một phiên bản nâng cao khác của đóng bao được gọi là thuật toán Random Forest, về cơ bản là một nhóm các cây quyết định được đào tạo với cơ chế đóng bao. Chúng ta hãy xem thuật toán rừng ngẫu nhiên hoạt động như thế nào và nó khác biệt như thế nào so với việc đóng gói trong các mô hình tập hợp.
Tập hợp Bootstrap, còn được gọi là đóng gói, là một trong những thuật toán dựa trên tập hợp sớm nhất và đơn giản nhất để làm cho cây quyết định mạnh mẽ hơn và để đạt được hiệu suất tốt hơn. Khái niệm đằng sau việc đóng bao là kết hợp dự đoán của một số người học cơ sở để tạo ra một đầu ra chính xác hơn. Leo Breiman đã giới thiệu thuật toán đóng bao vào năm 1994. Ông đã chỉ ra rằng tập hợp bootstrap có thể mang lại kết quả mong muốn trong các thuật toán học tập không ổn định trong đó những thay đổi nhỏ đối với dữ liệu đào tạo có thể gây ra những thay đổi lớn trong dự đoán. Bootstrap là một mẫu của một tập dữ liệu có sự thay thế và mỗi mẫu được tạo ra bằng cách lấy mẫu thống nhất tập huấn luyện cỡ m cho đến khi có được một tập hợp mới với các thể hiện m.
Rừng ngẫu nhiên là một thuật toán học máy có giám sát dựa trên việc học tập đồng bộ và sự phát triển của thuật toán đóng bao ban đầu của Breiman. Đó là một cải tiến tuyệt vời đối với các cây quyết định được đóng gói để xây dựng nhiều cây quyết định và tổng hợp chúng để có được kết quả chính xác. Breiman đã thêm một biến thể ngẫu nhiên bổ sung vào quy trình đóng bao, tạo ra sự đa dạng lớn hơn giữa các mô hình kết quả. Các khu rừng ngẫu nhiên khác với các cây được đóng gói bằng cách buộc cây chỉ sử dụng một tập hợp con của các yếu tố dự đoán sẵn có để phân chia trong giai đoạn sinh trưởng. Tất cả các cây quyết định tạo nên một khu rừng ngẫu nhiên là khác nhau bởi vì mỗi cây được xây dựng trên một tập hợp con dữ liệu ngẫu nhiên khác nhau. Bởi vì nó giảm thiểu quá mức, nó có xu hướng chính xác hơn một cây quyết định.
- Cả rừng đóng gói và rừng ngẫu nhiên đều là các thuật toán dựa trên quần thể nhằm mục đích giảm độ phức tạp của các mô hình phù hợp với dữ liệu đào tạo. Tập hợp Bootstrap, còn được gọi là đóng bao, là một trong những phương pháp tập hợp lâu đời và mạnh mẽ nhất để ngăn chặn quá mức. Đây là một kỹ thuật meta sử dụng nhiều phân loại để cải thiện độ chính xác dự đoán. Đóng bao chỉ đơn giản là rút các mẫu ngẫu nhiên ra khỏi mẫu huấn luyện để thay thế để có được một nhóm gồm các mô hình khác nhau. Rừng ngẫu nhiên là một thuật toán học máy được giám sát dựa trên việc học tập và sự phát triển của thuật toán đóng gói ban đầu của Breiman.
- Khái niệm lấy mẫu bootstrap (đóng bao) là đào tạo một loạt các cây quyết định chưa được xử lý trên các tập hợp ngẫu nhiên khác nhau của dữ liệu huấn luyện, lấy mẫu thay thế, để giảm phương sai của cây quyết định. Ý tưởng là kết hợp các dự đoán của một số người học cơ sở để tạo ra một đầu ra chính xác hơn. Với Rừng ngẫu nhiên, một biến thể ngẫu nhiên bổ sung được thêm vào quy trình đóng bao để tạo sự đa dạng hơn giữa các mô hình kết quả. Ý tưởng đằng sau những khu rừng ngẫu nhiên là xây dựng nhiều cây quyết định và tổng hợp chúng để có được kết quả chính xác.
- Cả cây có túi và rừng ngẫu nhiên là những dụng cụ học tập phổ biến nhất được sử dụng để giải quyết nhiều vấn đề về máy học. Lấy mẫu Bootstrap là một thuật toán meta được thiết kế để cải thiện độ chính xác và ổn định của các mô hình học máy bằng cách sử dụng phương pháp học tập đồng bộ và giảm độ phức tạp của các mô hình quá mức. Thuật toán rừng ngẫu nhiên rất mạnh mẽ chống lại quá mức và nó tốt với dữ liệu không cân bằng và thiếu. Nó cũng là lựa chọn ưa thích của thuật toán để xây dựng các mô hình dự đoán. Mục tiêu là giảm phương sai bằng cách lấy trung bình nhiều cây quyết định sâu, được đào tạo trên các mẫu dữ liệu khác nhau.
Cả cây có túi và rừng ngẫu nhiên là những dụng cụ học tập phổ biến nhất được sử dụng để giải quyết nhiều vấn đề về máy học. Bagging là một trong những thuật toán dựa trên tập hợp lâu đời nhất và đơn giản nhất, có thể được áp dụng cho các thuật toán dựa trên cây để tăng cường tính chính xác của các dự đoán. Mặt khác, Rừng ngẫu nhiên là một thuật toán học máy có giám sát và một phiên bản nâng cao của mô hình lấy mẫu bootstrap được sử dụng cho cả các vấn đề hồi quy và phân loại. Ý tưởng đằng sau rừng ngẫu nhiên là xây dựng nhiều cây quyết định và tổng hợp chúng để có kết quả chính xác. Một khu rừng ngẫu nhiên có xu hướng chính xác hơn một cây quyết định vì nó giảm thiểu quá mức.