KDD vs Khai thác dữ liệu
KDD (Discovery Discovery trong cơ sở dữ liệu) là một lĩnh vực của khoa học máy tính, bao gồm các công cụ và lý thuyết để giúp con người trích xuất thông tin hữu ích và chưa biết trước đây (tức là kiến thức) từ các bộ sưu tập lớn dữ liệu số hóa. KDD bao gồm một số bước và Khai thác dữ liệu là một trong số đó. Khai thác dữ liệu là ứng dụng của một thuật toán cụ thể để trích xuất các mẫu từ dữ liệu. Tuy nhiên, KDD và Khai thác dữ liệu được sử dụng thay thế cho nhau.
KDD là gì?
Như đã đề cập ở trên, KDD là một lĩnh vực khoa học máy tính, liên quan đến việc trích xuất thông tin thú vị và chưa biết trước đây từ dữ liệu thô. KDD là toàn bộ quá trình cố gắng hiểu ý nghĩa của dữ liệu bằng cách phát triển các phương pháp hoặc kỹ thuật phù hợp. Quá trình này liên quan đến việc ánh xạ dữ liệu cấp thấp vào các dạng khác nhỏ gọn hơn, trừu tượng và hữu ích hơn. Điều này đạt được bằng cách tạo các báo cáo ngắn, mô hình hóa quá trình tạo dữ liệu và phát triển các mô hình dự đoán có thể dự đoán các trường hợp trong tương lai. Do sự tăng trưởng theo cấp số nhân của dữ liệu, đặc biệt là trong các lĩnh vực như kinh doanh, KDD đã trở thành một quy trình rất quan trọng để chuyển đổi khối lượng dữ liệu lớn này sang kinh doanh thông minh, vì việc trích xuất các mẫu thủ công dường như là không thể trong vài thập kỷ qua. Ví dụ, hiện đang được sử dụng cho các ứng dụng khác nhau như phân tích mạng xã hội, phát hiện gian lận, khoa học, đầu tư, sản xuất, viễn thông, làm sạch dữ liệu, thể thao, truy xuất thông tin và phần lớn cho tiếp thị. KDD thường được sử dụng để trả lời các câu hỏi như các sản phẩm chính nào có thể giúp thu được lợi nhuận cao trong năm tới tại Wal-Mart?. Quá trình này có một số bước. Nó bắt đầu bằng việc phát triển sự hiểu biết về miền ứng dụng và mục tiêu và sau đó tạo ra một bộ dữ liệu đích. Tiếp theo là làm sạch, tiền xử lý, giảm và chiếu dữ liệu. Bước tiếp theo là sử dụng Khai thác dữ liệu (giải thích bên dưới) để xác định mẫu. Cuối cùng, kiến thức được khám phá được củng cố bằng cách hình dung và / hoặc diễn giải.
Khai thác dữ liệu là gì?
Như đã đề cập ở trên, Khai thác dữ liệu chỉ là một bước trong quy trình KDD tổng thể. Có hai mục tiêu Khai thác dữ liệu chính được xác định bởi mục tiêu của ứng dụng và đó là mục tiêu xác minh hoặc khám phá. Xác minh đang xác minh giả thuyết của người dùng về dữ liệu, trong khi khám phá đang tự động tìm các mẫu thú vị. Có bốn nhiệm vụ khai thác dữ liệu chính: phân cụm, phân loại, hồi quy và liên kết (tóm tắt). Phân cụm là xác định các nhóm tương tự từ dữ liệu phi cấu trúc. Phân loại là các quy tắc học tập có thể được áp dụng cho dữ liệu mới. Hồi quy là tìm các hàm với lỗi tối thiểu để mô hình hóa dữ liệu. Và hiệp hội đang tìm kiếm mối quan hệ giữa các biến. Sau đó, thuật toán khai thác dữ liệu cụ thể cần phải được chọn. Tùy thuộc vào mục tiêu, các thuật toán khác nhau như hồi quy tuyến tính, hồi quy logistic, cây quyết định và Naïve Bayes có thể được chọn. Sau đó, các mẫu quan tâm trong một hoặc nhiều hình thức đại diện được tìm kiếm. Cuối cùng, các mô hình được đánh giá bằng cách sử dụng độ chính xác dự đoán hoặc mức độ dễ hiểu.
Sự khác biệt giữa KDD và khai thác dữ liệu là gì?
Mặc dù, hai thuật ngữ KDD và Khai thác dữ liệu được sử dụng thay thế cho nhau, chúng đề cập đến hai khái niệm có liên quan nhưng hơi khác nhau. KDD là toàn bộ quá trình trích xuất kiến thức từ dữ liệu trong khi Khai thác dữ liệu là một bước trong quy trình KDD, liên quan đến việc xác định các mẫu trong dữ liệu. Nói cách khác, Khai thác dữ liệu chỉ là ứng dụng của một thuật toán cụ thể dựa trên mục tiêu chung của quy trình KDD.