Khai thác dữ liệu so với OLAP
Cả khai thác dữ liệu và OLAP là hai trong số các công nghệ Business Intelligence (BI) phổ biến. Kinh doanh thông minh đề cập đến các phương pháp dựa trên máy tính để xác định và trích xuất thông tin hữu ích từ dữ liệu kinh doanh. Khai thác dữ liệu là lĩnh vực của khoa học máy tính, liên quan đến việc trích xuất các mẫu thú vị từ các bộ dữ liệu lớn. Nó kết hợp nhiều phương pháp từ trí tuệ nhân tạo, thống kê và quản lý cơ sở dữ liệu. OLAP (xử lý phân tích trực tuyến) như tên gợi ý là một cách tổng hợp các cách để truy vấn cơ sở dữ liệu đa chiều.
Khai thác dữ liệu còn được gọi là Khám phá tri thức trong dữ liệu (KDD). Như đã đề cập ở trên, đây là một lĩnh vực của khoa học máy tính, liên quan đến việc trích xuất thông tin thú vị và chưa biết trước đây từ dữ liệu thô. Do sự tăng trưởng theo cấp số nhân của dữ liệu, đặc biệt là trong các lĩnh vực như kinh doanh, khai thác dữ liệu đã trở thành công cụ rất quan trọng để chuyển đổi khối lượng dữ liệu lớn này sang kinh doanh thông minh, vì việc trích xuất các mẫu thủ công dường như là không thể trong vài thập kỷ qua. Ví dụ, nó hiện đang được sử dụng cho các ứng dụng khác nhau như phân tích mạng xã hội, phát hiện gian lận và tiếp thị. Khai thác dữ liệu thường xử lý bốn nhiệm vụ sau: phân cụm, phân loại, hồi quy và liên kết. Phân cụm là xác định các nhóm tương tự từ dữ liệu phi cấu trúc. Phân loại là các quy tắc học tập có thể được áp dụng cho dữ liệu mới và thường sẽ bao gồm các bước sau: tiền xử lý dữ liệu, thiết kế mô hình hóa, lựa chọn học tập / tính năng và đánh giá / xác nhận. Hồi quy là tìm các hàm với lỗi tối thiểu để mô hình hóa dữ liệu. Và hiệp hội đang tìm kiếm mối quan hệ giữa các biến. Khai thác dữ liệu thường được sử dụng để trả lời các câu hỏi như các sản phẩm chính có thể giúp thu được lợi nhuận cao trong năm tới tại Wal-Mart là gì.
OLAP là một lớp các hệ thống, cung cấp câu trả lời cho các truy vấn đa chiều. Thông thường OLAP được sử dụng để tiếp thị, lập ngân sách, dự báo và các ứng dụng tương tự. Không cần phải nói rằng các cơ sở dữ liệu được sử dụng cho OLAP được cấu hình cho các truy vấn phức tạp và đặc biệt với hiệu suất nhanh chóng. Thông thường, một ma trận được sử dụng để hiển thị đầu ra của OLAP. Các hàng và cột được hình thành bởi các kích thước của truy vấn. Họ thường sử dụng các phương pháp tổng hợp trên nhiều bảng để có được bản tóm tắt. Ví dụ, nó có thể được sử dụng để tìm hiểu về doanh số của năm nay tại Wal-Mart so với năm ngoái? Dự đoán về doanh số bán hàng trong quý tới là gì? Có thể nói gì về xu hướng bằng cách nhìn vào phần trăm thay đổi?
Mặc dù rõ ràng là khai thác dữ liệu và OLAP tương tự nhau vì chúng hoạt động trên dữ liệu để có được trí thông minh, sự khác biệt chính đến từ cách chúng hoạt động trên dữ liệu. Các công cụ OLAP cung cấp phân tích dữ liệu đa chiều và chúng cung cấp các bản tóm tắt dữ liệu nhưng ngược lại, khai thác dữ liệu tập trung vào các tỷ lệ, mẫu và ảnh hưởng trong bộ dữ liệu. Đó là một thỏa thuận OLAP với sự tổng hợp, giúp hiểu rõ hơn về hoạt động của dữ liệu thông qua bổ sung, nhưng việc khai thác dữ liệu tương ứng với bộ phận của Google. Sự khác biệt đáng chú ý khác là trong khi các công cụ khai thác dữ liệu mô hình hóa dữ liệu và trả về các quy tắc hành động, OLAP sẽ tiến hành các kỹ thuật so sánh và tương phản dọc theo chiều kinh doanh trong thời gian thực.