Sự khác biệt giữa Độ lệch chuẩn và Lỗi tiêu chuẩn

Giới thiệu

Tiêu chuẩn Dtrốn tránh (SD)Stiêu chuẩn Error (SE) là những thuật ngữ có vẻ giống nhau; tuy nhiên, về mặt khái niệm chúng rất đa dạng đến mức chúng được sử dụng gần như thay thế cho nhau trong tài liệu Thống kê. Cả hai thuật ngữ thường được đi trước bởi một biểu tượng dấu cộng (+/-), điều này cho thấy thực tế là chúng xác định một giá trị đối xứng hoặc biểu thị một phạm vi các giá trị. Lúc nào cũng vậy, cả hai thuật ngữ đều xuất hiện với mức trung bình (trung bình) của một tập hợp các giá trị đo được.

Thật thú vị, một SE không liên quan gì đến các tiêu chuẩn, với các lỗi hoặc với việc truyền đạt dữ liệu khoa học.

Một cái nhìn chi tiết về nguồn gốc và lời giải thích của SD và SE sẽ tiết lộ, tại sao các nhà thống kê chuyên nghiệp và những người sử dụng nó một cách con trỏ, cả hai đều có xu hướng sai lầm.

Độ lệch chuẩn (SD)

Một SD là một mô tả thống kê mô tả sự lây lan của một phân phối. Là một số liệu, nó rất hữu ích khi dữ liệu được phân phối bình thường. Tuy nhiên, nó ít hữu ích hơn khi dữ liệu bị lệch nhiều hoặc lưỡng kim vì nó không mô tả rất rõ hình dạng của phân phối. Thông thường, chúng tôi sử dụng SD khi báo cáo các đặc điểm của mẫu, vì chúng tôi dự định diễn tả bao nhiêu dữ liệu khác nhau xung quanh giá trị trung bình. Các số liệu thống kê hữu ích khác để mô tả sự lan truyền của dữ liệu là phạm vi giữa các phần tư, phần trăm thứ 25 và 75 và phạm vi của dữ liệu.

Hình 1. SD là thước đo mức độ lan truyền của dữ liệu. Khi dữ liệu là một mẫu từ phân phối được phân phối bình thường, thì người ta hy vọng hai phần ba dữ liệu sẽ nằm trong phạm vi 1 độ lệch chuẩn của giá trị trung bình.

Phương sai là một mô tả thống kê cũng được, và nó được định nghĩa là bình phương của độ lệch chuẩn. Nó thường không được báo cáo khi mô tả kết quả, nhưng nó là một công thức dễ tính toán hơn (a.k.a. tổng các độ lệch bình phương) và đóng một vai trò trong tính toán thống kê.

Ví dụ: nếu chúng ta có hai số liệu thống kê P & Q với phương sai đã biết var(P) & var(Q), sau đó phương sai của tổng P + Q bằng tổng phương sai: var(P) +var(Q). Bây giờ rõ ràng là tại sao các nhà thống kê thích nói về phương sai.

Nhưng độ lệch chuẩn mang một ý nghĩa quan trọng đối với sự lây lan, đặc biệt là khi dữ liệu được phân phối bình thường: Giá trị trung bình của khoảng +/ - 1 SD có thể được dự kiến ​​sẽ chiếm 2/3 mẫu và khoảng thời gian trung bình +- 2 SD có thể dự kiến ​​sẽ chiếm 95% mẫu.

SD cung cấp một dấu hiệu cho thấy các câu trả lời riêng lẻ cho một câu hỏi khác nhau như thế nào hoặc có nghĩa là khác biệt với trung bình. SD nói với nhà nghiên cứu về cách lan truyền các câu trả lời - chúng tập trung quanh trung bình, hay phân tán xa & rộng? Có phải tất cả những người được hỏi của bạn đánh giá sản phẩm của bạn ở giữa thang đo của bạn, hoặc một số người đã phê duyệt nó và một số người không chấp thuận nó?

Hãy xem xét một thử nghiệm trong đó người trả lời được yêu cầu xếp hạng sản phẩm trên một loạt các thuộc tính theo thang điểm 5. Giá trị trung bình của một nhóm mười người trả lời (được dán nhãn 'A' đến 'J' bên dưới) cho giá trị tốt của Money là 3,2 với SD là 0,4 và giá trị trung bình của độ tin cậy sản phẩm của LĐ là 3,4 với SD là 2,1.

Thoạt nhìn (chỉ nhìn vào phương tiện) có vẻ như độ tin cậy được đánh giá cao hơn giá trị. Nhưng SD cao hơn về độ tin cậy có thể chỉ ra (như thể hiện trong phân phối bên dưới) rằng các phản hồi rất phân cực, trong đó hầu hết người trả lời không có vấn đề về độ tin cậy (đánh giá thuộc tính là một 5 5), nhưng một phân khúc nhỏ hơn nhưng quan trọng một vấn đề về độ tin cậy và đánh giá thuộc tính 1 Nhìn vào ý nghĩa một mình chỉ nói lên một phần của câu chuyện, tuy nhiên, thường xuyên hơn không, đây là điều mà các nhà nghiên cứu tập trung vào. Việc phân phối các câu trả lời rất quan trọng để xem xét và SD cung cấp một thước đo mô tả có giá trị về điều này.

Bị đơn Giá trị đồng tiền Độ tin cậy của sản phẩm
Một 3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
Tôi 3 5
J 3 5
Nghĩa là 3.2 3,4
Std. Nhà phát triển. 0,4 2.1

Khảo sát thứ nhất: Người trả lời đánh giá một sản phẩm theo thang điểm 5

Hai phân phối phản hồi rất khác nhau đối với thang đánh giá 5 điểm có thể mang lại cùng một giá trị trung bình. Xem xét ví dụ sau đây cho thấy giá trị phản hồi cho hai xếp hạng khác nhau.

Trong ví dụ đầu tiên (Xếp hạng Xếp hạng A), SD bằng 0 vì TẤT CẢ các phản hồi chính xác là giá trị trung bình. Các câu trả lời riêng lẻ không đi chệch khỏi trung bình.

Trong Xếp hạng Danh sách, mặc dù ý nghĩa của nhóm là giống nhau (3.0) với phân phối đầu tiên, Độ lệch chuẩn cao hơn. Độ lệch chuẩn là 1,15 cho thấy các phản hồi riêng lẻ, trung bình *, cách trung bình hơn 1 điểm.

Bị đơn Xếp hạng Xếp hạng
Một 3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
Tôi 3 4
J 3 5
Nghĩa là 3.0 3.0
Std. Nhà phát triển. 0,00 1,15

Khảo sát thứ hai: Người trả lời đánh giá một sản phẩm theo thang điểm 5

Một cách khác để xem xét SD là bằng cách vẽ sơ đồ phân phối dưới dạng biểu đồ phản hồi. Phân phối có SD thấp sẽ hiển thị dưới dạng hẹp cao, trong khi SD lớn sẽ được biểu thị bằng hình rộng hơn.

SD nói chung không biểu thị đúng hay sai, hay tốt hơn hay kém hơn - một SD thấp hơn không nhất thiết phải được mong muốn hơn. Nó được sử dụng hoàn toàn như một thống kê mô tả. Nó mô tả phân phối liên quan đến giá trị trung bình.

Ttừ chối trách nhiệm kỹ thuật liên quan đến SD

Nghĩ về SD như một sự sai lệch trung bình của người hâm mộ là một cách tuyệt vời để hiểu khái niệm về ý nghĩa của nó. Tuy nhiên, nó không thực sự được tính ở mức trung bình (nếu có, chúng tôi sẽ gọi nó là độ lệch trung bình của LĐ). Thay vào đó, nó được chuẩn hóa, một phương pháp tính toán giá trị hơi phức tạp bằng cách sử dụng tổng bình phương.

Đối với mục đích thực tế, việc tính toán không quan trọng. Hầu hết các chương trình lập bảng, bảng tính hoặc các công cụ quản lý dữ liệu khác sẽ tính toán SD cho bạn. Quan trọng hơn là hiểu những gì các số liệu thống kê truyền đạt.

Lỗi tiêu chuẩn

Một lỗi tiêu chuẩn là một suy luận thống kê được sử dụng khi so sánh các phương tiện mẫu (trung bình) trên các quần thể. Nó là thước đo của độ chính xác của mẫu trung bình. Giá trị trung bình mẫu là một thống kê xuất phát từ dữ liệu có phân phối cơ bản. Chúng tôi không thể hình dung nó theo cùng một cách với dữ liệu, vì chúng tôi đã thực hiện một thử nghiệm duy nhất và chỉ có một giá trị duy nhất. Lý thuyết thống kê cho chúng ta biết rằng giá trị trung bình của mẫu (đối với một mẫu lớn đủ lớn và trong một vài điều kiện đều đặn) được phân phối bình thường. Độ lệch chuẩn của phân phối chuẩn này là cái mà chúng ta gọi là lỗi tiêu chuẩn.

Hình 2. Phân phối ở phía dưới represents phân phối dữ liệu, trong khi phân phối ở trên cùng là phân phối lý thuyết của trung bình mẫu. SD của 20 là thước đo mức độ lan truyền của dữ liệu, trong khi SE của 5 là thước đo độ không đảm bảo xung quanh giá trị trung bình của mẫu.

Khi chúng ta muốn so sánh các phương tiện kết quả từ một thí nghiệm hai mẫu của Điều trị A và Điều trị B, thì chúng ta cần ước tính chính xác chúng ta đã đo các phương tiện như thế nào.

Trên thực tế, chúng tôi quan tâm đến việc chúng tôi đã đo chính xác sự khác biệt giữa hai phương tiện như thế nào. Chúng tôi gọi biện pháp này là lỗi tiêu chuẩn của sự khác biệt. Bạn có thể không ngạc nhiên khi biết rằng lỗi tiêu chuẩn của sự khác biệt trong phương tiện mẫu là một hàm của các lỗi tiêu chuẩn của phương tiện:

Bây giờ bạn đã hiểu rằng lỗi tiêu chuẩn của giá trị trung bình (SE) và độ lệch chuẩn của phân phối (SD) là hai con thú khác nhau, bạn có thể tự hỏi làm thế nào chúng bị nhầm lẫn ở nơi đầu tiên. Trong khi chúng khác nhau về mặt khái niệm, chúng có mối quan hệ đơn giản về mặt toán học:

,Trong đó n là số điểm dữ liệu.

Lưu ý rằng lỗi tiêu chuẩn phụ thuộc vào hai thành phần: độ lệch chuẩn của mẫu và kích thước của mẫu n. Điều này có ý nghĩa trực quan: độ lệch chuẩn của mẫu càng lớn, chúng ta càng ít chính xác về ước tính của chúng tôi về giá trị trung bình thực.

Ngoài ra, cỡ mẫu càng lớn, chúng ta càng có nhiều thông tin về dân số và chúng ta càng có thể ước tính chính xác trung bình.

SE là một dấu hiệu cho thấy độ tin cậy của giá trị trung bình. Một SE nhỏ là một dấu hiệu cho thấy giá trị trung bình mẫu là sự phản ánh chính xác hơn về trung bình dân số thực tế. Kích thước mẫu lớn hơn thường sẽ dẫn đến SE nhỏ hơn (trong khi SD không bị ảnh hưởng trực tiếp bởi kích thước mẫu).

Hầu hết các nghiên cứu khảo sát liên quan đến việc vẽ một mẫu từ dân số. Sau đó chúng tôi đưa ra suy luận về dân số từ kết quả thu được từ mẫu đó. Nếu một mẫu thứ hai được rút ra, kết quả có thể sẽ không khớp chính xác với mẫu đầu tiên. Nếu giá trị trung bình cho thuộc tính xếp hạng là 3,2 cho một mẫu, thì đó có thể là 3,4 cho mẫu thứ hai có cùng kích thước. Nếu chúng ta rút ra vô số mẫu (có kích thước bằng nhau) từ dân số của mình, chúng ta có thể hiển thị các phương tiện quan sát được dưới dạng phân phối. Sau đó chúng tôi có thể tính trung bình của tất cả các phương tiện mẫu của chúng tôi. Điều này có nghĩa là sẽ có nghĩa là dân số thực sự. Chúng tôi cũng có thể tính SD của phân phối phương tiện mẫu. SD của phân phối phương tiện mẫu này là SE của từng trung bình mẫu riêng lẻ.

Do đó, chúng tôi có quan sát quan trọng nhất của chúng tôi: SE là SD của dân số có nghĩa là.

Mẫu vật Nghĩa là
1 3.2
lần 2 3,4
lần thứ 3 3,3
lần thứ 4 3.2
ngày 5 3,1
Giáo dục . Giáo dục .
Giáo dục . Giáo dục .
Giáo dục . Giáo dục .
Giáo dục . Giáo dục .
Giáo dục . Giáo dục .
Nghĩa là 3,3
Std. Nhà phát triển. 0,13

Bảng minh họa mối quan hệ giữa SD và SE

Bây giờ rõ ràng rằng nếu SD của phân phối này giúp chúng ta hiểu được ý nghĩa của một mẫu từ bao xa so với dân số thực, thì chúng ta có thể sử dụng điều này để hiểu mức độ chính xác của bất kỳ mẫu riêng lẻ nào có liên quan đến giá trị trung bình thực. Đó là bản chất của SE.

Trên thực tế, chúng tôi chỉ rút ra một mẫu từ dân số của mình, nhưng chúng tôi có thể sử dụng kết quả này để đưa ra ước tính về độ tin cậy của trung bình mẫu quan sát được.

Trên thực tế, SE nói với chúng tôi rằng chúng tôi có thể tin tưởng 95% rằng trung bình mẫu quan sát được của chúng tôi là cộng hoặc trừ khoảng 2 (thực tế là 1,96) Lỗi tiêu chuẩn từ trung bình dân số.

Bảng dưới đây cho thấy sự phân phối các phản hồi từ mẫu đầu tiên (và duy nhất) được sử dụng cho nghiên cứu của chúng tôi. Chỉ số SE là 0,13, tương đối nhỏ, cho chúng ta một dấu hiệu cho thấy giá trị trung bình của chúng ta tương đối gần với trung bình thực của dân số nói chung. Biên độ sai số (với độ tin cậy 95%) cho giá trị trung bình của chúng tôi là (khoảng) gấp đôi giá trị đó (+/- 0,26), cho chúng tôi biết rằng giá trị trung bình thực rất có thể nằm trong khoảng từ 2,94 đến 3,46.

Bị đơn Xếp hạng
Một 3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
Tôi 3
J 3
Nghĩa là 3.2
Std. Ơ 0,13

Tóm lược

Nhiều nhà nghiên cứu không hiểu được sự khác biệt giữa Độ lệch chuẩn và Lỗi tiêu chuẩn, mặc dù chúng thường được đưa vào phân tích dữ liệu. Mặc dù các tính toán thực tế cho Độ lệch chuẩn và Lỗi tiêu chuẩn trông rất giống nhau, nhưng chúng đại diện cho hai biện pháp rất khác nhau, nhưng bổ sung. SD cho chúng tôi biết về hình dạng phân phối của chúng tôi, mức độ gần gũi của các giá trị dữ liệu riêng lẻ từ giá trị trung bình. SE cho chúng ta biết mức độ trung bình của mẫu của chúng ta gần với trung bình thực của dân số nói chung. Cùng nhau, họ giúp cung cấp một bức tranh hoàn chỉnh hơn so với ý nghĩa một mình có thể cho chúng ta biết.