Độ lệch chuẩn và phương sai là các biện pháp thống kê phân tán
Công thức cho độ lệch chuẩn và phương sai thường được thể hiện bằng cách sử dụng:
Phương sai của một tập hợp n các giá trị có khả năng như nhau có thể được viết là:
Độ lệch chuẩn là căn bậc hai của phương sai:
Các công thức với các chữ cái Hy Lạp có một cách nhìn khó khăn, nhưng điều này ít phức tạp hơn nó có vẻ. Để đặt nó trong các bước đơn giản:
Điều đó mang lại sự khác biệt. Lấy căn bậc hai của phương sai để tìm độ lệch chuẩn.
Video xuất sắc này của Khan Academy giải thích các khái niệm về phương sai và độ lệch chuẩn:
Giả sử một bộ dữ liệu bao gồm chiều cao của sáu bồ công anh: 3 inch, 4 inch, 5 inch, 4 inch, 11 inch và 6 inch.
Đầu tiên, tìm giá trị trung bình của các điểm dữ liệu: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Vì vậy, chiều cao trung bình là 5,5 inch. Bây giờ chúng ta cần độ lệch, vì vậy chúng tôi tìm thấy sự khác biệt của từng loại cây từ giá trị trung bình: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Bây giờ bình phương mỗi độ lệch và tìm tổng của chúng: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Bây giờ chia tổng bình phương cho số điểm dữ liệu, trong trường hợp này, các nhà máy: 43,5 / 6 = 7,25
Vì vậy, phương sai của tập dữ liệu này là 7,25, đây là một con số khá tùy ý. Để chuyển đổi nó thành phép đo trong thế giới thực, lấy căn bậc hai 7,25 để tìm độ lệch chuẩn tính bằng inch.
Độ lệch chuẩn là khoảng 2,69 inch. Điều đó có nghĩa là đối với mẫu, bất kỳ bồ công anh nào trong phạm vi trung bình 2,69 inch (5,5 inch) là 'bình thường'.
Độ lệch được bình phương để ngăn các giá trị âm (độ lệch dưới giá trị trung bình) không thể loại bỏ các giá trị dương. Điều này hoạt động vì một số âm bình phương trở thành một giá trị dương. Nếu bạn có một tập dữ liệu đơn giản với độ lệch so với giá trị trung bình +5, +2, -1 và -6, tổng độ lệch sẽ bằng 0 nếu các giá trị không bình phương (nghĩa là 5 + 2 - 1 - 6 = 0).
Phương sai được thể hiện dưới dạng phân tán toán học. Vì nó là một con số tùy ý so với các phép đo ban đầu của tập dữ liệu, rất khó để hình dung và áp dụng theo nghĩa thực tế. Tìm phương sai thường chỉ là bước cuối cùng trước khi tìm độ lệch chuẩn. Giá trị phương sai đôi khi được sử dụng trong các công thức tài chính và thống kê.
Độ lệch chuẩn, được biểu thị bằng các đơn vị gốc của tập dữ liệu, trực quan hơn nhiều và gần hơn với các giá trị của tập dữ liệu gốc. Nó thường được sử dụng để phân tích nhân khẩu học hoặc mẫu dân số để hiểu được điều gì là bình thường trong dân số.
Trong một phân phối bình thường, khoảng 68% dân số (hoặc giá trị) nằm trong phạm vi 1 độ lệch chuẩn (1σ) của giá trị trung bình và khoảng 94% rơi vào khoảng 2σ. Các giá trị khác với giá trị trung bình từ 1,7σ trở lên thường được coi là ngoại lệ.
Trong thực tế, các hệ thống chất lượng như Six Sigma cố gắng giảm tỷ lệ lỗi để các lỗi trở thành ngoại lệ. Thuật ngữ "quy trình sáu sigma" xuất phát từ khái niệm rằng nếu một người có sáu độ lệch chuẩn giữa giá trị trung bình của quy trình và giới hạn thông số kỹ thuật gần nhất, thực tế sẽ không có mục nào không đáp ứng thông số kỹ thuật.[1]
Trong các ứng dụng trong thế giới thực, các tập dữ liệu được sử dụng thường đại diện cho các mẫu dân số, thay vì toàn bộ dân số. Một công thức sửa đổi một chút được sử dụng nếu rút ra kết luận toàn dân số từ một phần mẫu.
Một "độ lệch chuẩn mẫu" được sử dụng nếu tất cả những gì bạn có là một mẫu, nhưng bạn muốn đưa ra tuyên bố về độ lệch chuẩn dân số mà từ đó mẫu được rút ra
Cách duy nhất cho công thức độ lệch chuẩn của mẫu khác với công thức độ lệch chuẩn là Số -1 -1 trong mẫu số.
Sử dụng ví dụ về bồ công anh, công thức này sẽ cần thiết nếu chúng ta chỉ lấy mẫu 6 bồ công anh, nhưng muốn sử dụng mẫu đó để nêu độ lệch chuẩn cho toàn bộ trường với hàng trăm bồ công anh.
Tổng bình phương bây giờ sẽ được chia cho 5 thay vì 6 (n - 1), cho phương sai là 8,7 (thay vì 7,25) và độ lệch chuẩn của mẫu là 2,95 inch, thay vì 2,69 inch cho độ lệch chuẩn ban đầu. Thay đổi này được sử dụng để tìm ra lỗi sai trong mẫu (9% trong trường hợp này).