Công thức tính phương sai mẫu

Tải về bản PDF

Tải về bản PDF

Phương sai đo lường độ phân tán của bộ dữ liệu. Nó rất hữu dụng trong việc xây dựng các mô hình thống kê: phương sai thấp có thể là dấu hiệu cho thấy bạn đang mô tả lỗi ngẫu nhiên hay nhiễu thay vì mối quan hệ ẩn chứa trong dữ liệu. Với bài viết này, wikiHow sẽ hướng dẫn bạn cách tính phương sai.

  1. 1

    Viết bộ dữ liệu mẫu của bạn. Trong hầu hết trường hợp, các nhà thống kê chỉ có được thông tin của một mẫu, hay tập con của tổng thể mà họ đang nghiên cứu. Chẳng hạn như, thay vì phân tích tổng thể "chi phí của mọi xe hơi ở Đức", một nhà thống kê có thể tìm chi phí của một mẫu ngẫu nhiên với quy mô vài nghìn xe hơi. Nhà thống kê ấy có thể dùng mẫu này để có ước lượng tốt về chi phí xe hơi ở Đức. Tuy nhiên, nhiều khả năng nó sẽ không trùng khớp hoàn toàn với những con số thực tế.

    • Ví dụ: Khi phân tích số bánh nướng xốp được bán mỗi ngày ở một cửa hàng cà phê, bạn lấy mẫu sáu ngày ngẫu nhiên và có các kết quả như sau: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Đây là một mẫu, không phải tổng thể, bởi bạn không có dữ liệu cho tất cả các ngày cửa hàng mở cửa.
    • Nếu có mọi điểm dữ liệu trong tổng thể, hãy chuyển đến phương pháp bên dưới.

  2. 2

    Viết công thức phương sai mẫu. Phương sai của một bộ dữ liệu cho biết mức độ phân tán của các điểm dữ liệu. Phương sai càng gần không, các điểm dữ liệu càng nhóm lại gần nhau. Khi làm việc với bộ dữ liệu mẫu, hãy sử dụng công thức tính phương sai sau:[1]

  3. 3

    Tính giá trị trung bình của mẫu. Biểu tượng x̅ hay "x-ngang" được dùng để chỉ giá trị trung bình của mẫu.[2] Hãy tính như cách mà bạn sẽ làm với mọi giá trị trung bình: cộng tất cả các điểm dữ liệu và lấy tổng chia cho số điểm.

    • Ví dụ: Đầu tiên, cộng các điểm dữ liệu với nhau: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Tiếp đến, chia kết quả thu được cho số điểm dữ liệu, trong trường hợp này là sáu: 84 ÷ 6 = 14.
      Giá trị trung bình của mẫu = x̅ = 14.
    • Bạn có thể nghĩ về điểm trung bình như "điểm trung tâm" của dữ liệu. Nếu dữ liệu tập trung quanh giá trị trung bình, phương sai thấp. Nếu chúng phân tán xa giá trị trung bình, phương sai cao.

  4. 4

    Lấy từng điểm dữ liệu trừ đi giá trị trung bình. Giờ là lúc để tính - x̅, trong đó là từng điểm trong bộ dữ liệu của bạn. Mỗi kết quả thu được sẽ cho biết độ lệch so với giá trị trung bình của mỗi điểm tương ứng, hay nói một cách đơn giản, khoảng cách từ nó đến giá trị trung bình.[3] .

  5. 5

    Bình phương mọi kết quả. Như lưu ý ở trên, danh sách độ lệch hiện tại [ - x̅] có tổng bằng 0. Nghĩa là "độ lệch trung bình" cũng sẽ luôn bằng 0 và không thể nói lên điều gì về mức độ phân tán của dữ liệu. Để giải quyết vấn đề này, ta tìm bình phương từng độ lệch. Nhờ đó, tất cả đều là số dương, giá trị âm và giá trị dương không còn triệt tiêu nhau và cho tổng bằng 0 nữa.[4]

  6. 6

  7. 7

    Chia cho n - 1, trong đó n là số điểm dữ liệu. Rất lâu về trước, khi tính phương sai mẫu, các nhà thống kê chỉ chia cho n. Phép chia đó sẽ cho bạn giá trị trung bình của độ lệch bình phương, trùng khớp hoàn toàn với phương sai của mẫu đó. Tuy nhiên, hãy nhớ rằng mẫu chỉ là ước lượng của một tổng thể lớn hơn. Nếu lấy một mẫu ngẫu nhiên khác và thực hiện tính toán tương tự, bạn sẽ có kết quả khác. Hóa ra, chia cho n -1 thay vì n lại cho bạn ước tính tốt hơn về phương sai của tổng thể lớn hơn – điều mà bạn thật sự quan tâm. Phép hiệu chỉnh này phổ biến đến mức giờ đây, nó đã là định nghĩa được chấp nhận của phương sai mẫu.[5]

    • Ví dụ: Có sáu điểm dữ liệu trong mẫu, do đó n = 6.
      Phương sai của mẫu = 33,2

  8. 8

    Hiểu phương sai và độ lệch chuẩn. Lưu ý rằng, bởi có lũy thừa trong công thức, phương sai được đo lường bằng bình phương đơn vị tính của dữ liệu gốc. Điều này gây khó hiểu về mặt trực quan. Thay vì vậy, thường thì độ lệch chuẩn lại khá hữu dụng. Nhưng bạn cũng không hề phí công vô ích, bởi độ lệch chuẩn được xác định bằng căn bậc hai của phương sai. Đó là lý do phương sai mẫu được viết dưới dạng , và độ lệch chuẩn của một mẫu chính là .

    • Ví dụ như, độ lệch chuẩn của mẫu trên = s = √33,2 = 5,76.

    Quảng cáo

  1. 1

    Bắt đầu với bộ dữ liệu tổng thể. Thuật ngữ "tổng thể" được dùng để chỉ toàn bộ bộ quan sát liên quan. Chẳng hạn như, nếu đang nghiên cứu tuổi cư dân Hà Nội, tổng thể của bạn sẽ bao gồm tuổi của mọi cá nhân sinh sống ở Hà Nội. Thường thì bạn sẽ tạo bảng tính cho bộ dữ liệu lớn như vầy, nhưng đây là bộ dữ liệu ví dụ nhỏ hơn:

  2. 2

    Viết công thức phương sai tổng thể. Bởi tổng thể chứa toàn bộ dữ liệu ta cần, công thức này cho ta phương sai chính xác của tổng thể. Để phân biệt với phương sai mẫu [vốn chỉ là một ước tính], các nhà thống kê sử dụng các biến khác:[6]

  3. 3

    Tìm giá trị trung bình của tổng thể. Khi phân tích tổng thể, ký hiệu μ ["mu"] đại diện cho trung bình số học. Để tìm giá trị trung bình, cộng toàn bộ các điểm dữ liệu, sau đó chia cho số các điểm.

    • Bạn có thể nghĩ về giá trị trung bình như "trung bình", nhưng hãy cẩn thận, bởi từ đó có nhiều định nghĩa trong toán học.
    • Ví dụ: giá trị trung bình = μ = = 10,5

  4. 4

    Lấy từng điểm dữ liệu trừ đi giá trị trung bình. Điểm dữ liệu gần với giá trị trung bình có chênh lệch gần không hơn. Lặp lại bài toán trừ cho toàn bộ các điểm dữ liệu, và có lẽ bạn sẽ bắt đầu cảm nhận được mức độ phân tán của dữ liệu.

    • Ví dụ:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5

  5. 5

    Bình phương từng hiệu. Lúc này, một số kết quả thu được từ bước trước sẽ âm và một số sẽ dương. Nếu hình dung dữ liệu trên một đường đẳng số, hai hạng mục này đại diện cho các số nằm ở bên trái và bên phải của giá trị trung bình. Điều này sẽ chẳng có lợi gì trong việc tính phương sai, bởi hai nhóm này sẽ triệt tiêu lẫn nhau. Thay vì vậy, hãy bình phương toàn bộ để chúng đều dương.

    • Ví dụ:
      [ - μ] với mỗi giá trị của i chạy từ 1 đến 6:
      [-5,5] = 30,25
      [-5,5] = 30,25
      [-2,5] = 6,25
      [1,5] = 2,25
      [4,5] = 20,25
      [7,5] = 56,25

  6. 6

    Tìm trung bình kết quả thu được của bạn. Lúc này, bạn đã có giá trị cho từng điểm dữ liệu, liên quan [không trực tiếp] đến việc điểm dữ liệu đó cách giá trị trung bình bao xa. Hãy lấy trung bình bằng cách cộng chúng với nhau rồi chia cho số giá trị mà bạn có.

    • Ví dụ:
      Phương sai tổng thể = 24,25

  7. 7

    Liên hệ với công thức. Nếu không chắc điều này phù hợp thế nào với công thức được nêu ở đầu phương pháp, hãy viết tay cả bài toán, và đừng viết tắt:

    Quảng cáo

Lời khuyên

  • Bởi phương sai rất khó để diễn dịch, giá trị này thường được tính như là xuất phát điểm để tìm độ lệch chuẩn.
  • Dùng "n-1" thay vì "n" ở mẫu số khi phân tích mẫu là kỹ thuật được gọi là phép hiệu chỉnh Bessel. Mẫu chỉ là ước lượng của một tổng thể đầy đủ, và giá trị trung bình của mẫu có độ chệch nhất định để phù hợp với sự ước lượng đó. Phép hiệu chỉnh này giúp loại bỏ độ chệch trên.[7] Nó liên quan đến sự thật là một khi đã liệt kê n -1 điểm dữ liệu, điểm cuối cùng thứ n đã là một hằng số, bởi chỉ những giá trị nhất định được dùng để tính giá trị trung bình của mẫu [x̅] trong công thức phương sai.[8]

Về bài wikiHow này

Trang này đã được đọc 198.716 lần.

Bài viết này đã giúp ích cho bạn?

Chủ Đề