So sánh khác biệt 2 tỉ lệ stata

Như bạn thấy trong kết quả ở trên, xe trong nước có mpg thấp hơn đáng kể (19,8) so với xe nước ngoài (24,7). Nghĩa là xe trong nước chạy hau xăng hơn xe nước ngoài nhập khẩu.

Kiểm định chi bình phương Chi-square stata

Hãy so sánh xếp hạng sửa chữa (rep78) của ô tô nước ngoài và ô tô trong nước. Chúng ta có thể làm một bảng chéo crosstab của rep78 và foreign. Chúng ta có thể muốn hỏi liệu các biến này có độc lập hay không. Chúng ta có thể sử dụng tùy chọn chi2 để yêu cầu một kiểm định chi-bình phương về tính độc lập giữa hai biến đồng thời thể hiện bảng chéo crosstab tabulate rep78 foreign, chi2

So sánh khác biệt 2 tỉ lệ stata

Pearson chi2(4) = 27.2640 Pr = 0.000 Giá trị Pr =0.000 chứng tỏ có mối quan hệ giữa rep78 và foreign. Nghĩa là 2 biến này không độc lập. Chi-square không thực sự hợp lệ khi bạn có các ô trống. Trong những trường hợp như vậy khi bạn có các ô trống hoặc các ô có tần số nhỏ, bạn có thể yêu cầu kiểm định “Fisher’s exact test” với tùy chọn exact. tabulate rep78 foreign, chi2 exact

So sánh khác biệt 2 tỉ lệ stata
Do kết quả Fisher's exact = 0.000, nên ta vẫn kết luận có mối quan hệ giữa hai giá trị biến này nhé.

Tương quan correlation

Chúng ta có thể sử dụng lệnh tương quan correlation để lấy tương quan giữa các biến. Hãy xem xét mối tương quan giữa price mpg weight và rep78. (Sử dụng rep78 trong mối tương quan mặc dù nó không liên tục, nghĩa là số liệu bị thiếu missing value, để minh họa điều gì sẽ xảy ra khi ta sử dụng mối tương quan với các biến có dữ liệu bị thiếu.) correlate price mpg weight rep78

So sánh khác biệt 2 tỉ lệ stata

Lưu ý rằng kết quả ở trên đã nói (số quan sát obs = 69). Lệnh tương quan xóa drop dữ liệu theo nguyên tắt listwise, có nghĩa là nếu bất kỳ biến nào bị thiếu dữ liệu ở dòng quan sát đó, thì toàn bộ quan sát ở dòng đó sẽ bị bỏ qua khỏi phân tích tương quan. Chúng ta có thể sử dụng pwcorr (tương quan theo từng cặp pairwise correlations) nếu chúng ta muốn có được các tương quan xóa dữ liệu bị thiếu trên cơ sở từng cặp pairwise thay vì cơ sở theo danh sách listwise. Nói đơn giản, vì tương quan là xét mối quan hệ giữa hai biến, nếu hai biến đó có đầy đủ số liệu không bị thiếu thì đưa tấ cả các quan sát vào để chạy tương quan, bất chấp 1 biến khác bị thiếu. Chúng ta sẽ sử dụng tùy chọn obs để hiển thị số lượng quan sát được sử dụng để tính toán mỗi mối tương quan. pwcorr price mpg weight rep78, obs

So sánh khác biệt 2 tỉ lệ stata
Lưu ý rằng các tương quan liên quan đến rep78 có số lượng quan sát N là 69 so với các tương quan khác có N là 74. Điều này là do rep78 có 5 giá trị bị thiếu, vì vậy nó chỉ có 69 quan sát hợp lệ, nhưng các biến khác không có dữ liệu bị thiếu nên đã có 74 quan sát hợp lệ.

Hồi Quy

Hãy xem xét thực hiện phân tích hồi quy trong Stata. Đối với ví dụ này, hãy loại bỏ các trường hợp mà rep78 là 1 hoặc 2 hoặc bị thiếu.

Trong phần này ta sẽ kiểm tra xem tỷ lệ nữ giữa khu vực 1 và khu vực 2 có bằng nhau tại mức ý nghĩa 5% hay không?

Trước hết ta phải tại biến GTF dựa trên biến GT, xem tại đây

Phát biểu giả thuyết thống kê

So sánh khác biệt 2 tỉ lệ stata
với
So sánh khác biệt 2 tỉ lệ stata
lần lượt là tỷ lệ nữ ở khu vực 1 và khu vực 2.

Bước 1: Trên thanh công cụ chọn Analyze > Compare Means > Independent-Samples T Test

Bước 2: Sau khi cửa sổ Independent-Samples T Test hiện lên, đưa biến GTF vào ô Test Variable(s), đưa biến KV vào ô Grouping Variable, và chỉnh độ tin cậy trong Options

Bước 3: Nhấn Define Groups để phân nhóm dữ liệu biến GTF theo biến KV như sau:

(Biến KV có 3 giá trị là : 1, 2 và 2NT, do ta đang kiểm định tỷ lệ nữ giữa khu vực 1 và 2 nên ta điền 1 vào Group1 và 2 vào Group2). Sau đó nhấn Continue để trở về cửa sổ trước, và bấm Ok để nhận kết quả

Ta thấy:

* Nếu giả sử phương sai 2 tổng thể bằng nhau: p-value = 0.031 < 0.05 nên ta bác bỏ giả thuyết

So sánh khác biệt 2 tỉ lệ stata
tại mức ý nghĩa 5%.

* Nếu không giả sử phương sai 2 tổng thể bằng nhau: p-value = 0.032 < 0.05 nên ta bác bỏ giả thuyết

So sánh khác biệt 2 tỉ lệ stata
tại mức ý nghĩa 5%.

Hơn nữa, ta nhận thấy khoảng tin cậy cho sai khác giữa hai tổng thể là khoảng chỉ chứa các giá trị âm, nên ta suy luận rằng tỷ lệ nữ của khu vực 1 ít hơn khu vực 2 là hợp lý. (Xem lại cách kiểm định giả thuyết 1 phía tại đây)

Bây giờ ta sẽ kiểm định giả thuyết tỷ lệ nữ của khu vực 1 ít hơn khu vực 2:

So sánh khác biệt 2 tỉ lệ stata

* Nếu giả sử phương sai của 2 tổng thể bằng nhau: df= 77

Ta có

So sánh khác biệt 2 tỉ lệ stata
\= -1.664885 > t = -2.202 nên ta sẽ bác bỏ giả thuyết
So sánh khác biệt 2 tỉ lệ stata
và chấp nhận giả thuyết
So sánh khác biệt 2 tỉ lệ stata
tại mức ý nghĩa 5%

(Ta tính giá trị

So sánh khác biệt 2 tỉ lệ stata
bằng cách tra bảng hoặc dùng lệnh qt(df=77,0.95) trong phần mềm R)

* Nếu không giả sử phương sai 2 tổng thể bằng nhau: df=31.175

Ta có -

So sánh khác biệt 2 tỉ lệ stata
\= -1.695226 > t = -2.242 nên ta sẽ bác bỏ giả thuyết
So sánh khác biệt 2 tỉ lệ stata
và chấp nhận giả thuyết
So sánh khác biệt 2 tỉ lệ stata
tại mức ý nghĩa 5%.

(Ta cũng có thể tính

So sánh khác biệt 2 tỉ lệ stata
\= 1.695519 nếu dùng bảng tra)