Variance và standard deviation là gì

  • Ngày đăng: 8/14/2020
  • |
  • Chuyên mục: SPSS

Bài viết được đăng tải duy nhất và thuộc bản quyền của Phạm Lộc Blog. Việc chia sẻ lại nội dung lên website khác vui lòng dẫn nguồn link bài viết gốc này. Xin cảm ơn!

Độ lệch chuẩn [Standard Deviation] hay độ lệch tiêu chuẩn là một chỉ số dùng để đo mức độ phân tán của một tập dữ liệu quanh giá trị trung bình [Mean]. Trong các phần mềm thống kê, độ lệch chuẩn thường được ký hiệu là hoặc S.D hoặc Std. Deviation. 

Khi thực hiện thống kê mô tả, chúng ta thường thấy xuất hiện giá trị độ lệch chuẩn ở phần bảng output. Vậy thì độ lệch chuẩn ở mức bao nhiêu thì chấp nhận, bao nhiêu thì không chấp nhận? Trước tiên, chúng ta cần hiểu được bản chất của độ lệch chuẩn. Độ lệch chuẩn được tính bằng cách lấy căn bậc hai của phương sai, nó biểu thị sự dao động của dữ liệu quanh giá trị trung bình là rộng hay hẹp. Nếu độ lệch chuẩn cao, đồ thị scatter biểu diễn các điểm giá trị sẽ phân tán ra xa; nếu độ lệch chuẩn thấp, các điểm giá trị sẽ phân bố tập trung quanh đường trung bình.

Lúc này chúng ta có đại lượng CV là hệ số dao động dữ liệu [Coefficient of Variation]. 

CV = [S.D/Mean]

- Nếu CV > 1, độ lệch chuẩn lớn hơn trung bình, điều này chỉ ra rằng dữ liệu dao động rất mạnh, con số trả lời của đáp viên ở biến đó chênh lệch nhau rất nhiều. Ví dụ: một câu hỏi được đo bằng Likert 1-5, thì cùng một câu hỏi đó nhiều người chọn 1,2 và nhiều người chọn 4,5. Chênh lệch điểm trả lời khá lớn, dẫn đến độ lệch chuẩn cao.

- Nếu CV < 1, độ lệch chuẩn nhỏ hơn trung bình, dữ liệu dao động trung bình yếu, con số trả lời của đáp viên chênh lệch thấp. Ví dụ: một câu hỏi được đo bằng Likert 1-5, thì cùng một câu hỏi đó phần lớn đáp viên đều chọn xoay quanh 1,2,3 hoặc xoay quanh 4,5 hoặc xoay quanh 3,4. Sự chênh lệch điểm đánh giá là không cao.

Quay lại với câu hỏi: Độ lệch chuẩn ở mức bao nhiêu thì chấp nhận được? Câu trả lời là không có ngưỡng nào là chấp nhận hay không chấp nhận. Hay nói cách khác, độ lệch chuẩn không có khái niệm là tốt hay xấu. Giá trị này chỉ chỉ ra cho bạn thấy mức độ dàn trải của dữ liệu là ít hay nhiều. Còn đánh giá là tốt hay xấu nó sẽ phụ thuộc vào sự kỳ vọng của bạn. Lấy ví dụ một câu hỏi đo theo Likert 5 mức độ đồng ý.

  • Với câu hỏi đó, bạn kỳ vọng sự ổn định từ đáp án người trả lời, bạn hy vọng rằng đáp viên sẽ cho điểm rơi nhiều vào 3,4,5 [nhánh đồng ý] thay vì tỷ lệ chọn 1,2,3,4,5 ngang nhau không rõ ràng. Lúc này cùng 1 câu hỏi, cùng một nhóm đối tượng, các thông tin nhân khẩu học khá tương đồng nhau, nhưng người A cho điểm rất cao, người B lại cho điểm rất thấp. Điều này dẫn đến độ lệch chuẩn của câu hỏi cao, khác xa với kỳ vọng của bạn hoặc lý thuyết bạn nghiên cứu, do đó độ lệch chuẩn cao trong trường hợp này là xấu.
  • Cũng với câu hỏi đó, bạn muốn xem xét sự khác nhau về hành vi của đáp viên do họ có đặc điểm nhân khẩu học khác nhau. Bạn kỳ vọng đáp án sẽ có sự chênh lệch mạnh [sự kỳ vọng này đến từ lý thuyết hoặc nghiên cứu định tính bạn đã làm trước đó] để có sự khác biệt hành vi của đáp viên với các đặc điểm nhân khẩu học khác nhau dựa trên các thông tin bạn đã thu thập được. Nhưng lúc này đáp viên chỉ trả lời thiên về một nhánh toàn 3,4,5, mức điểm đều đều. Trường hợp này, độ lệch chuẩn thấp khác xa với kỳ vọng, nó là xấu.

Nếu bạn đang gặp khó khăn trong xử lý dữ liệu trên SPSS do dữ liệu xấu, vi phạm các ngưỡng kiểm định. Bạn có thể tham khảo dịch vụ hỗ trợ SPSS của Phạm Lộc Blog để có được kết quả tốt nhất và tối ưu về thời gian nhất.

1. Phương sai là gì?

Phương sai là phép đo độ dao động của các giá trị trong mẫu dữ liệu so với giá trị trung bình của mẫu [mean], được sử dụng như một cách phổ biến để đo lường rủi ro của nhiều vấn đề từ tài chính đến khoa học. Bởi vì trong khái niệm từ xưa của xã hội, mức độ biến động của một giá trị càng lớn đồng nghĩa với rủi ro càng cao. Ví dụ: lãi suất biến động càng lớn thì nền kinh tế đó càng bất ổn, nhiệt độ tại một khu vực dao động càng lớn thì môi trường đó càng trở nên khắc nghiệt để sinh sống, một chủng virus có càng nhiều biến thể so với chủng gốc thì càng trở nên nguy hiểm,...

Đồng thời, phương sai cũng được sử dụng để lường trước những rủi ro đó để “đi trước một bước” và có sự chuẩn bị, tính toán khi đối diện với vấn đề ví dụ như biết trước được sự biến động của lãi suất để mua các công cụ đề phòng rủi ro, chuẩn bị trước các công cụ sinh tồn cần thiết để đối diện với thời tiết khắc nghiệt, hay tính toán trước các biến thể của virus để thiết kế vắc xin hiệu quả hơn.

Kí hiệu của phương sai:

Công thức tính phương sai: 

Trong đó:

χi là giá trị của một dữ liệu trong tập dữ liệu

µ là giá trị trung bình của tập dữ liệu

N là số lượng mẫu dữ liệu trong tập dữ liệu

Ví dụ cho công thức:

- Một nhà đầu tư vào cổ phiếu , lợi nhuận tháng thứ nhất là 10%, tháng thứ hai là 15% nhưng tháng thứ ba lên đến 20%. Lợi nhuận trung bình sẽ là 15 %.

- Độ lệch của lợi nhuận tháng thứ nhất so với mức lợi nhuận trung bình = 10 % - 15% = -5%, do đó dao động trong tháng thứ nhất =

[vì dao động sẽ là hai chiều tăng/giảm so với mức trung bình nên giá trị phải mũ 2]

- Tháng thứ hai: Độ lệch của lợi nhuận = 15 % - 15% =  0%, dao động =

= 0%

- Tháng thứ ba: Độc lệch của lợi nhuận = 20 % - 15% =  5%, dao động=

= 25%

- Phương sai của lợi nhuận của cổ phiếu lúc này sẽ là [25%+0%+25%]/3 = 16,7%

2. Ứng dụng của phương sai

Trong tài chính, phương sai là một phương pháp để nhà đầu tư xác định rủi ro, vì nếu giá trị của một tài sản có biến động quá lớn so với mức trung bình giá trị tài sản trong một thời gian ngắn thì việc đầu tư vào tài sản đó sẽ chứa đựng nhiều rủi ro [rủi ro thua lỗ lớn và khó dự đoán trước xu hướng].

Cũng như vậy, nếu một đất nước có mức tăng trưởng cao nhưng biến động mạnh so với mức tăng trưởng trung bình [phương sai lớn] thì có nghĩa là nền kinh tế đó rất mỏng manh và tăng trưởng kinh tế khó duy trì bền vững, cho nên sẽ thu hút được ít vốn đầu tư hơn một đất nước có mức tăng trưởng thấp nhưng phương sai nhỏ hơn.

3. Ưu điểm và nhược điểm của phương sai

Phương sai xem tất cả các sai lệch so với giá trị trung bình giống nhau bất kể là số âm hay dương, vì vậy rất tiện để áp dụng tính toán dao động cho một chuỗi biến động ngược chiều nhau. Phương sai cũng là một cách tính thông minh trong toán học, giúp lượng hóa những “rủi ro” dưới dạng số liệu và phòng tránh được nhiều tình huống xảy ra.

Các dữ liệu ngoại lai [outlier] có giá trị lớn hơn hẳn cho với các giá trị còn lại có thể sẽ làm sai lệch tập dữ liệu. Chẳng hạn như một nhà đầu tư vào một cổ phiếu , lợi nhuận tháng nhất là 10%, tháng thứ hai là 15% nhưng tháng thứ ba lên đến 80%. Lợi nhuận trung bình sẽ là 35 % và phương sai lúc này sẽ là 1016%, con số này khác xa so với các giá trị trong tập dữ liệu. Để khắc phục tình trạng này, công thức tính độ lệch chuẩn [standard deviation] được giới thiệu = Căn bậc hai của phương sai =

. Sử dụng căn bậc hai của một số sẽ giúp dễ dàng đưa số lớn về giá trị nhỏ nhất của nó. Ví dụ [Căn bậc 2 của 100 = 10]. Trong khi bình thường phải chia 10 lần của 100 ta mới ra được 10, thì căn bậc có thể dễ dàng đưa một giá trị lớn về số nhỏ nhất của chính nó, một cách để "loại trừ" ảnh hưởng của các giá trị quá lớn trong chuỗi dữ liệu và khắc phục nhược điểm của phương sai. Ví dụ như trong trường hợp kia, độ lệch chuẩn tính ra được sẽ bằng 31,8%, gần sát với số liệu thực tế. Do đó, sau khi tính ra được phương sai, người ta sẽ thường tính luôn độ lệch chuẩn để số liệu chính xác và dễ so sánh hơn.

Video liên quan

Chủ Đề