Dữ liệu phân loại so với dữ liệu số
Dữ liệu là các sự kiện hoặc thông tin được thu thập cho mục đích tham khảo hoặc phân tích. Thông thường những dữ liệu này được thu thập như một thuộc tính của chủ đề liên quan. Thuộc tính này có thể thay đổi từ cái này sang cái khác do đó thuộc tính khác nhau này có thể được coi là một biến. Các biến có thể giả định các dạng giá trị khác nhau và chúng là nội tại trong dữ liệu được thu thập.
Các biến có thể là định tính hoặc định lượng; tức là nếu biến là định lượng, câu trả lời là số và độ lớn của thuộc tính được đo có thể được nêu với một mức độ chính xác nhất định. Loại khác, các biến định tính đo lường các thuộc tính định tính và các giá trị được giả định bởi các biến không thể được đưa ra về kích thước hoặc độ lớn. Các biến được gọi là biến phân loại và dữ liệu được thu thập bằng phương tiện của biến phân loại là dữ liệu phân loại.
Thông tin thêm về dữ liệu số
Dữ liệu số về cơ bản là dữ liệu định lượng thu được từ một biến và giá trị có ý nghĩa về kích thước / độ lớn. Dữ liệu số thu được được chia thành ba loại nữa dựa trên lý thuyết được phát triển bởi Stanley Smith Stevens. Dữ liệu số có thể là thứ tự, khoảng hoặc tỷ lệ. Loại dữ liệu được xác định theo phương pháp đo lường các giá trị và các loại được gọi là mức đo lường.
Trọng lượng của một người, khoảng cách giữa hai điểm, nhiệt độ và giá của một cổ phiếu là những ví dụ về dữ liệu số.
Trong thống kê, phần lớn các phương pháp được lấy để phân tích dữ liệu số. Thống kê mô tả cơ bản và hồi quy và các phương pháp suy luận khác được sử dụng chủ yếu để phân tích dữ liệu số.
Tìm hiểu thêm về dữ liệu phân loại
Dữ liệu phân loại là các giá trị cho một biến định tính, thường là một số, một từ hoặc một ký hiệu. Họ đưa ra một thực tế rằng biến trong trường hợp được xem xét thuộc về một trong nhiều lựa chọn có sẵn. Do đó, chúng thuộc một trong các loại; do đó tên phân loại.
Sự liên kết chính trị của một người, quốc tịch của một người, màu sắc yêu thích của một người và nhóm máu của bệnh nhân là những thuộc tính định tính. Đôi khi, một số có thể được lấy làm giá trị phân loại, nhưng bản thân số đó không đại diện cho độ lớn của thuộc tính được đo. Mã bưu chính là một ví dụ.
Ngoài ra, bất kỳ giá trị phân loại nào thuộc về loại dữ liệu danh nghĩa, là loại khác dựa trên các mức đo. Các phương thức được sử dụng để phân tích dữ liệu phân loại khác với dữ liệu số, nhưng nguyên tắc cơ bản có thể giống nhau.
Sự khác biệt giữa dữ liệu phân loại và số?
• Dữ liệu số là các giá trị thu được cho biến định lượng và mang ý nghĩa về độ lớn liên quan đến bối cảnh của biến (do đó, chúng luôn là số hoặc ký hiệu mang giá trị số). Dữ liệu phân loại là các giá trị thu được cho một biến định tính; số dữ liệu phân loại không mang ý nghĩa về độ lớn.
• Dữ liệu số luôn thuộc về loại thứ tự, tỷ lệ hoặc loại khoảng, trong khi dữ liệu phân loại thuộc về loại danh nghĩa.
• Các phương thức được sử dụng để phân tích dữ liệu định lượng khác với các phương pháp được sử dụng cho dữ liệu phân loại, ngay cả khi các nguyên tắc giống nhau thì ít nhất ứng dụng có sự khác biệt đáng kể.
• Dữ liệu số được phân tích bằng các phương pháp thống kê trong thống kê mô tả, hồi quy, chuỗi thời gian và nhiều hơn nữa.
• Đối với dữ liệu phân loại thường sử dụng các phương pháp mô tả và phương pháp đồ họa. Một số xét nghiệm không tham số cũng được sử dụng.