Xu hướng trung tâm vs Phân tán
Trong thống kê mô tả và suy luận, một số chỉ số được sử dụng để mô tả một tập dữ liệu tương ứng với xu hướng trung tâm, độ phân tán và độ lệch của nó: ba thuộc tính quan trọng nhất xác định hình dạng tương đối của phân phối của tập dữ liệu.
Xu hướng trung tâm là gì?
Xu hướng trung tâm đề cập và định vị trung tâm của sự phân phối các giá trị. Giá trị trung bình, chế độ và trung vị là các chỉ số được sử dụng phổ biến nhất trong việc mô tả xu hướng trung tâm của tập dữ liệu. Nếu một tập dữ liệu đối xứng thì cả trung bình và giá trị trung bình của tập dữ liệu trùng với nhau.
Cho một tập dữ liệu, giá trị trung bình được tính bằng cách lấy tổng của tất cả các giá trị dữ liệu và sau đó chia cho số lượng dữ liệu. Ví dụ: trọng lượng của 10 người (tính bằng kilôgam) được đo là 70, 62, 65, 72, 80, 70, 63, 72, 77 và 79. Sau đó, trọng lượng trung bình của mười người (tính bằng kilôgam) có thể là tính như sau. Tổng các trọng số là 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Trung bình = (tổng) / (số lượng dữ liệu) = 710/10 = 71 (tính bằng kilôgam). Điều này được hiểu rằng các ngoại lệ (điểm dữ liệu đi chệch khỏi xu hướng bình thường) có xu hướng ảnh hưởng đến giá trị trung bình. Do đó, với sự hiện diện của các ngoại lệ có nghĩa là một mình sẽ không đưa ra một hình ảnh chính xác về trung tâm của tập dữ liệu.
Trung vị là điểm dữ liệu được tìm thấy ở giữa chính xác của tập dữ liệu. Một cách để tính toán trung vị là sắp xếp các điểm dữ liệu theo thứ tự tăng dần, sau đó xác định vị trí điểm dữ liệu ở giữa. Ví dụ: nếu một lần đặt hàng bộ dữ liệu trước đó trông giống như, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Do đó, (70 + 72) / 2 = 71 nằm ở giữa. Từ đó, người ta thấy rằng trung bình không cần phải có trong tập dữ liệu. Median không bị ảnh hưởng bởi sự hiện diện của các ngoại lệ. Do đó, trung vị sẽ phục vụ như một thước đo tốt hơn về xu hướng trung tâm với sự hiện diện của các ngoại lệ.
Chế độ là giá trị xảy ra thường xuyên nhất trong bộ dữ liệu. Trong ví dụ trước, giá trị 70 và 72 đều xảy ra hai lần và do đó, cả hai đều là chế độ. Điều này cho thấy, trong một số bản phân phối, có nhiều hơn một giá trị phương thức. Nếu chỉ có một chế độ, tập dữ liệu được cho là không chính thống, trong trường hợp này, tập dữ liệu là lưỡng kim.
Phân tán là gì?
Phân tán là lượng lan truyền dữ liệu về trung tâm phân phối. Phạm vi và độ lệch chuẩn là các biện pháp phân tán được sử dụng phổ biến nhất.
Phạm vi chỉ đơn giản là giá trị cao nhất trừ đi giá trị thấp nhất. Trong ví dụ trước, giá trị cao nhất là 80 và giá trị thấp nhất là 62, vì vậy phạm vi là 80-62 = 18. Nhưng phạm vi không cung cấp một bức tranh đầy đủ về sự phân tán.
Để tính độ lệch chuẩn, đầu tiên độ lệch của các giá trị dữ liệu từ giá trị trung bình được tính toán. Bình phương trung bình của độ lệch được gọi là độ lệch chuẩn. Trong ví dụ trước, độ lệch tương ứng so với giá trị trung bình là (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 và (79 - 71) = 8. Tổng của bình phương độ lệch là (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-số 8)2 + 12 + 62 + số 82 = 366. Độ lệch chuẩn là (366/10) = 6.05 (tính bằng kilogam). Trừ khi tập dữ liệu bị sai lệch rất nhiều, từ đó có thể kết luận rằng phần lớn dữ liệu nằm trong khoảng 71 ± 6.05 và thực sự là như vậy trong ví dụ cụ thể này.
Sự khác biệt giữa xu hướng trung tâm và phân tán? • Khuynh hướng trung tâm đề cập và định vị trung tâm phân phối các giá trị • Phân tán là mức độ lan truyền của dữ liệu về trung tâm của tập dữ liệu.
|