Trong Thống kê, thuật ngữ lấy mẫu liên quan đến việc lựa chọn một phần dữ liệu thống kê tổng hợp cho mục đích thu thập thông tin liên quan về toàn bộ. Tổng hợp hoặc toàn bộ thông tin thống kê về một nhân vật cụ thể của tất cả các thành viên được điều tra trong cuộc điều tra được gọi là 'dân số' hoặc 'vũ trụ'. (Das, N.G., 2010). Phần được chọn của dân số được sử dụng để có được các đặc điểm của dân số hoặc vũ trụ được gọi là "mẫu". Dân số được thực hiện để tạo thành các đơn vị hoặc thành viên riêng lẻ, và một số đơn vị được bao gồm trong mẫu. Tổng số đơn vị của dân số được gọi là kích thước dân số, và của đơn vị mẫu được gọi là kích thước mẫu. Dân số và mẫu có thể là hữu hạn hoặc vô hạn và tương tự chúng có thể tồn tại hoặc giả thuyết.
Phương sai: Phương sai là một giá trị số cho thấy mức độ rộng rãi của các số liệu riêng lẻ trong một tập hợp dữ liệu tự phân phối về giá trị trung bình. Đó là khoảng cách mỗi số từ trung bình, và do đó từ nhau. Phương sai của giá trị 0 có nghĩa là tất cả các dữ liệu giống hệt nhau. Nhiều phương sai hơn, nhiều hơn là các giá trị trải rộng về giá trị trung bình, do đó từ nhau. Ít phương sai hơn, ít hơn là các giá trị trải ra về giá trị trung bình, do đó từ nhau và phương sai không thể âm.
Sự khác biệt chính giữa phương sai dân số và phương sai mẫu liên quan đến tính toán phương sai. Phương sai được tính theo năm bước. Giá trị trung bình đầu tiên được tính toán, sau đó chúng tôi tính toán độ lệch so với giá trị trung bình và thứ ba là độ lệch được bình phương, thứ tư là độ lệch bình phương được tính tổng và cuối cùng tổng này được chia cho số lượng vật phẩm được tính toán. Do đó phương sai = Σ (xi - x -) / n. Trong đó xi = ith. Số, x- = trung bình và n = số mặt hàng
Bây giờ, khi phương sai được tính từ dữ liệu dân số, n bằng số lượng vật phẩm. Do đó, nếu phương sai huyết áp của tất cả 1000 người được tính từ dữ liệu về áp lực máu của tất cả 1000 người, thì n = 1000. Tuy nhiên, khi phương sai được tính từ dữ liệu mẫu 1 sẽ được khấu trừ từ n trước khi chia tổng các độ lệch bình phương. Do đó, trong ví dụ trên nếu dữ liệu mẫu có 100 mục, mẫu số sẽ là 100 - 1 = 99.
Do đó, giá trị của phương sai được tính từ dữ liệu mẫu cao hơn giá trị có thể được tìm thấy bằng cách sử dụng dữ liệu dân số. Logic của việc đó là để bù đắp sự thiếu thông tin của chúng tôi về dữ liệu dân số. Không thể tìm ra phương sai về độ cao ở con người, vì chúng ta thiếu thông tin tuyệt đối về độ cao của tất cả loài người còn sống, không nói về tương lai. Ngay cả khi chúng ta lấy một ví dụ vừa phải, như dữ liệu dân số về chiều cao của tất cả những người đàn ông sống ở Mỹ thì điều đó là có thể, nhưng chi phí và thời gian liên quan đến việc này sẽ đánh bại mục đích tính toán của nó. Đây là lý do dữ liệu mẫu được lấy cho hầu hết các mục đích thống kê và điều này đi kèm với việc thiếu thông tin về phần lớn dữ liệu. Để bù lại điều này, giá trị của phương sai và độ lệch chuẩn, căn bậc hai của phương sai cao hơn trong trường hợp dữ liệu mẫu so với phương sai của dữ liệu dân số.
Điều này hoạt động như một lá chắn tự động cho các nhà phân tích và người ra quyết định. Logic áp dụng cho các quyết định về ngân sách vốn, tài chính cá nhân và kinh doanh, xây dựng, quản lý giao thông và nhiều lĩnh vực áp dụng. Điều này giúp người nắm giữ cổ phần đứng về phía an toàn trong khi đưa ra quyết định hoặc cho các suy luận khác.
Tóm lược: Phương sai dân số đề cập đến giá trị của phương sai được tính từ dữ liệu dân số và phương sai mẫu là phương sai được tính từ dữ liệu mẫu. Do giá trị của mẫu số này trong công thức của phương sai trong trường hợp dữ liệu mẫu là 'n-1' và đó là 'n' cho dữ liệu dân số. Kết quả là cả phương sai và độ lệch chuẩn xuất phát từ dữ liệu mẫu đều nhiều hơn so với kết quả được tìm thấy từ dữ liệu dân số.