Lỗi copy vào stata dữ liệu bị đỏ năm 2024

Trong bài báo này chúng tôi nghiên cứu các tính chất phi cổ điển như tính chất nén tổng hai mode, nén hiệu hai mode và tính chất phản kết chùm hai mode bậc cao của trạng thái kết hợp cặp thêm và bớt photon hai mode (PAASTMPCS). Các kết quả khảo sát về tính chất nén cho thấy rằng trạng thái PAASTMPCS có tính chất nén tổng hai mode nhưng không có tính chất nén hiệu hai mode. Tính chất nén tổng hai mode của trạng thái PAASTMPCS luôn xuất hiện khi thêm và bớt photon vào trạng thái kết hợp cặp (PCS). Ngoài ra, kết quả khảo sát chỉ ra rằng trạng thái PAASTMPCS còn có tính chất phản kết chùm hai mode bậc cao và tính chất này được tăng cường khi thêm và bớt photon vào PCS. Qua đó, vai trò của việc thêm và bớt photon đã được khẳng định thông qua việc tăng cường tính chất phi cổ điển của trạng thái PAASTMPCS.

Với hàm lượng mùn cao (2-10%), độ ẩm tốt (40-60%), pH hơi chua (khoảng 5-6), đất trồng sâm được coi là một trong những môi trường thích hợp cho vi khuẩn phát triển. Quần xã vi khuẩn trong đất trồng sâm rất đa dạng với nhiều loài mới đã được phát hiện và phân loại. Cho đến nay đã có 152 loài vi khuẩn mới được phân lập từ đất trồng sâm được công bố, chủ yếu ở Hàn Quốc (141 loài), tiếp theo là Trung Quốc (09 loài) và Việt Nam (02 loài). Các loài mới phát hiện được phân loại và xếp nhóm vào 5 ngành lớn gồm: Proteobacteria (48 loài), Bacteroidetes (49 loài), Actinobacteria (34 loài), Firmicutes (20 loài) và Armatimonadetes (01 loài). Ngoài tính mới, những loài được phát hiện còn có tiềm năng ứng dụng trong việc hạn chế các bệnh cây do nấm gây ra, tăng hàm lượng hoạt chất trong củ sâm hay sản xuất chất kích thích sinh trưởng thực vật...Trong đó các nghiên cứu đặc biệt quan tâm đến những loài có đặc tính chuyển hóa các ginsenoside chính (Rb1, Rb2, Rc, Re, Rg1) - chiếm tới 80% tổng số ginse...

Hiện nay, tại chùa Bảo Ninh Sùng Phúc (huyện Chiêm Hóa, Tuyên Quang) còn lưu giữ được tấm bia cổ duy nhất thuộc các tỉnh miền núi phía Bắc nước ta có niên đại từ thời nhà Lý. Nội dung văn bia chép về dòng họ Hà và những đóng góp của dòng họ này đối với vùng đất Vị Long nói riêng và đất nước nói chung ở thế kỷ XI - XII. Trong đó phải kể đến công lao to lớn của nhân vật lịch sử Hà Di Khánh.

Văn học Việt Nam nửa đầu thế kỉ XX được xem là giai đoạn “giao thời”, với sự đấu tranh giữa thơ Cũ và thơ Mới, giữa truyền thống và cách tân, tồn tại nhiều khuynh hướng, dòng phái khác nhau. Từ góc độ thể loại, không ít người cho đây là thời điểm thơ tự do thắng thế, thơ Đường luật nói chung bị xem là hết mùa, lỗi thời. Song vẫn còn đó một minh chứng hùng hồn cho sự hiện diện của thơ Nôm Đường luật Việt Nam ở nửa đầu thế kỉ XX, đó là Nôm Đường luật Phan Bội Châu. Bài viết trên cơ sở chỉ ra một vài đặc điểm về ngôn ngữ trong thơ Nôm Đường luật Phan Bội Châu thời kỳ ở Huế, từ đó cho thấy những đổi mới, cách tân của Phan Sào Nam trong việc sử dụng thể thơ truyền thống của dân tộc.

Mục tiêu của bài viết này nhằm phân tích hiệu quả hiệu quả lợi nhuận sản xuất nông nghiệp mà cụ thể là phân tích hiệu quả lợi nhuận của hộ trồng cam sành ở Hàm Yên tỉnh Tuyên Quang bằng cách tiếp cận phương pháp hồi quy. Số liệu sơ cấp của đề tài được thu thập bằng cách phỏng vấn trực tiếp 200 nông hộ trồng cam sành theo phương pháp chọn ngẫu nhiên vào thời điểm tháng 5 năm 2022. Trong giai đoạn đầu chúng tôi sử dụng phương pháp bao dữ liệu (DEA) để tính toán hiệu quả kĩ thuật của các nông hộ trồng cam sành. Ở giai đoạn 2, để khắc phục hạn chế của phương pháp bao dữ liệu nghiên cứu sử dụng mô hình hồi quy bootstrap truncated để xác định các yếu tố ảnh hưởng đến hiệu quả lợi nhuận của các hộ nói trên. Kết quả phân tích cho thấy hiệu quả lợi nhuận trung bình của các hộ sản xuất cam sành được khảo sát là 0,486, nó dao động từ 0,034 đến 1,000. Điều đó có nghĩa rằng các nông hộ có nhiều tiềm năng để cải thiện hiệu quả của lợi nhuận sản ...

TÓM TẮT: Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức. Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ (Fuzzy Rough Set FRS) nhằm nâng cao độ chính xác mô hình phân lớp. Tuy nhiên, số lượng thuộc tính thu được theo tiếp cận FRS chưa tối ưu do ràng buộc giữa các đối tượng trong bảng quyết định chưa được xem xét đầy đủ. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set IFRS) dựa trên các đề xuất mới về hàm thành viên và không thành viên. Kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính của tập rút gọn theo phương pháp đề xuất giảm đáng kể so với các phương pháp FRS và một số phương pháp IFRS khác.

Xử lý dữ liệu trong Stata là điều đầu tiên bạn cần phải làm để có được một bộ dữ liệu sạch, chẩn nhằm chuẩn bị cho việc phân tích dữ liệu được đầy đủ và chính xác nhất. Các phần xử lý dữ liệu (Data Processing) bao gồm những mục cần thông qua như sau:

  1. Kiểm tra độ hợp lý của dữ liệu
  2. Kiểm tra xử lý các giá trị không tính toán (missings)
  3. Kiểm tra xử lý các giá trị ngoại lai hay dị biệt (outliers)
  4. Kiểm tra tính chuẩn hóa của phân phối và lựa chọn kiểm định phù hợp

Cách xử lý dữ liệu trong Stata của MOSL là một công cụ tốt để làm sạch và thao tác dữ liệu, bất kể phần mềm bạn định sử dụng để phân tích. Bài viết này phù hợp cho cả những người muốn làm sạch dữ liệu trong stata lần đầu và những người đã quen với việc làm sạch dữ liệu trong stata rồi.

Hãy Tải Stata 14 Full Crack mới nhất năm 2022 nếu chưa tải phần mềm này về máy nhé!

1. Tổng hợp cách xử lý dữ liệu trong Stata

Bảng tổng hợp các thủ tục cách xử lý dữ liệu trong Stata:

Xử lý dữ liệuSTATANhập và xuất dữ liệuStataTạo biếnStataKiểm tra dữ liệu nhậpStataPhát hiện điểm dị biệtBên dướiThay thế giá trị missingBên dướiNối dữ liệuStataLọc quan sátBên dướiCách xử lý dữ liệu trong stata

Đón Xem hướng dẫn sử dụng Stata cơ bản

2. Cách xử lý dữ liệu trong Stata

Làm sạch dữ liệu là một thuật ngữ khá rộng áp dụng cho các thao tác sơ bộ trên tập dữ liệu trước khi phân tích. Đây thường sẽ là nhiệm vụ đầu tiên của một trợ lý nghiên cứu và là phần tẻ nhạt của bất kỳ dự án nghiên cứu nào khiến chúng tôi mong muốn mình trở thành trợ lý nghiên cứu.

Stata là một công cụ tốt để làm sạch và thao tác dữ liệu, bất kể phần mềm bạn định sử dụng để phân tích. Lần vượt qua đầu tiên của bạn tại một tập dữ liệu có thể liên quan đến bất kỳ hoặc tất cả những điều sau:

  • Bỏ quan sát (Dropping observations)
  • Xóa biến
  • Di chuyển biến
  • Đối phó với các yếu tố ngoại lai
  • Tạo biến mới
  • Di chuyển biến
  • Gắn nhãn biến
  • Thay đổi tên biến

MOSL sử dụng bộ dữ liệu moslauto.dta từ phần mềm Stata để trình bày và chạy mẫu cho toàn bộ bài kiến thức này. Bộ dữ liệu gồm 2 ngân hàng ABB và ACB thu thập trong thời gian từ 2010 – 2018 với các biến giải thích gồm ROA, QM (quy mô ngân hàng), TGHĐ (tỷ giá hối đái), CPDT, VT và ND.

Hãy cùng nhau Tải về dữ liệu qua nút bự chảng dưới đây rồi thực hành xử lý dữ liệu theo nhé các bạn.

2.1. Bỏ quan sát (Dropping observations)

Để loại bỏ các quan sát, bạn cần kết hợp một trong hai lệnh Stata (keep hoặc drop) với định tính “if”. Đảm bảo rằng bạn đã lưu tập dữ liệu ban đầu của mình trước khi bắt đầu.

  • Lệnh “keep” nên được sử dụng một cách thận trọng (hoặc tránh hoàn toàn) vì nó sẽ làm mất tất cả ngoại trừ những gì bạn giữ cụ thể. Đây có thể là một vấn đề nếu bạn không chắc chắn 100% về những gì bạn muốn giữ.
  • Lệnh “drop” sẽ loại bỏ khỏi tập dữ liệu của bạn những gì bạn yêu cầu Stata thả một cách cụ thể.

Bộ định tính “if” giới hạn phạm vi của lệnh đối với những quan sát mà giá trị của một biểu thức là đúng. Cú pháp để sử dụng bộ định tính này khá đơn giản:

drop if YEAR == 2017 và drop if TGHĐ == 20

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Bỏ quan sát

Kết quả thực hiện câu lệnh đã loại bỏ các quan sát của năm (YEAR) khi năm là 2017 và tỷ giá hối đoái (TGHĐ) là 20

Nếu chị muốn bỏ đi 1 hoặc nhiều biến trong mô hình thì đơn giản sử dụng câu lệnh: drop ROA TGHĐ

2.2. Chuyển đổi định dạng các biến (Transforming variables)

Đôi khi các biến không được mã hóa theo cách bạn muốn. Trong phần này, chúng ta sẽ xem xét hai phép biến đổi mà bạn có thể cần thực hiện trên một số biến trước khi sử dụng lệnh: recode và destring

Lệnh “recode” thay đổi giá trị của các biến số theo các quy tắc được chỉ định. Bạn có thể muốn mã hóa chúng thành “.” để chúng không ảnh hưởng đến bất kỳ tính toán nào mà chúng tôi dự định thực hiện với dữ liệu. Cú pháp cho lệnh này là:

recode TGHĐ ND (19 1.06=.)
  

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Đổi định dạng biến

Kết quả này là chuyển giá trị TGHĐ= 19 và ND=1.06 thành giá trị missing “.”

Trong tập dữ liệu MOSL, có biến BANK là tên của 2 ngân hàng “ACB” và “ABB”. Với biến BANK là biến dạng chữ tức string nên khi thực hiện hồi quy trong câu lệnh Stata bị lỗi. Nên cú pháp lệnh này sẽ làm cho biến BANK trở thành định dạng số:

destring BANK,gen(NGANHANG)
encode BANK,gen(NGANHANG)

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Đổi định dạng biến

Có thể thấy cột đen BANK với giá trị dạng string màu đỏ và sau khi chuyển sang dạng số kết quả ở cột đỏ NGANHANG.

Bên cạnh đó bạn hoàn toàn có thể chuyển ngược lại biến NGANHANG đang dạng số thành dạng string với cú pháp như sau:

tostring NGANHANG,gen(BANK1)

Kết quả:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Đổi định dạng biến

Vì chuyển từ dạng số (number) sang string nên dữ liệu sẽ được mã hoá thành các số nhưng mà dạng chữ màu đỏ.

Khám phá: Hồi quy mô hình dữ liệu bảng trong Stata như thế nào

2.3. Dịch chuyển vị trí của biến (Moving variables)

Trong một bộ dữ liệu với rất nhiều biến bên trong thì thật khó để so sánh hai biến trừ khi chúng ở cạnh nhau. Bạn có thể sử dụng lệnh “order” để di chuyển một biến (tức là di chuyển một cột trong tập dữ liệu của bạn). Nếu không được thì cài lệnh bằng ssc install order

order BANK1,after(BANK) (hoặc dùng before để đặt ở trước tuỳ bạn)
  order YEAR,last

Kết quả sau khi thay đổi vị trí như sau:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Dịch chuyển vị trí của biến

Biến BANK1 đã ở sau BANK và biến YEAR đã nằm ở cuối cùng. Easy phải không nào.

2.4. Đổi tên biến (Renaming variables)

Đổi tên thì rất dễ trong Stata, lệnh dạng như sau: rename oldname newname

Hoặc đơn giản chỉ cần dùng ren + oldname + newname cho nhanh nha.

2.5. Tạo biến mới trong Stata (Creating new variables)

Lệnh tạo biến mới thường sử dụng bằng lệnh tạo ra (generate) như sau:

gen TEST=1 if YEAR==2013 | YEAR ==2014 
(14 missing values generated)
replace TEST=0 if TEST==.
(14 real changes made)

Kết quả:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Tạo biến mới trong Stata

Kết quả tạo biến TEST bằng 1 nếu mà năm đó là năm 2013 và 2014. Sau khi tạo thì sẽ có những năm không nhận giá trị vì chỉ gọi cho năm 2013 & 2014 bị trả về giá trị “.”. Sau đó thì sẽ dùng lệnh biến đổi (replace) để tạo các biến “.” thành số 0.

2.6. Xử lý giá trị ngoại lai (Dealing with outliers)

Các giá trị outliers là một trong những bước quan trọng cần thực hiện. Các giá trị này có thể làm kết quả nghiên cứu sai lệch và hoàn toàn không tốt cho nghiên cứu của bạn (các bạn có thể tham khảo tác hại của nó tại các giáo trình thống kê hoặc kinh tế lượng để có cái nhìn tổng quát hơn).

Có 3 cách mà một quan sát được xem là không bình thường:

  1. Outliers: Trong hồi quy tuyến tính, một điểm outlier là một quan sát có phần dư rất lớn. Nói cách khác, một quan sát mà giá trị biến phụ thuộc của nó là không bình thường ứng với một giá trị cho trước của các biến giải thích.
  2. Leverage: Một quan sát với giá trị tột cùng (extreme) trong biến giải thích được gọi là một điểm có leverage cao. Leverage đo lường mức độ sai lệch (khoảng cách) so với giá trị trung bình của biến đó. Những điểm leverage này có thể ảnh hưởng đến ước lượng của các hệ số hồi quy.
  3. Influence: Một quan sát được cho là có ảnh hưởng nếu loại bỏ quan sát này sẽ làm thay đổi đáng kể các hệ số được ước lượng. Ảnh hưởng có thể được coi như sản phẩm của Leverage và Outlier.

Các giá trị ngoại lai là các giá trị rất lớn hoặc rất nhỏ nằm trong 1 biến và dẫn đến biến quan sát đó khi thống kê hoặc hồi quy bị sai lệch. Để phát hiện bạn chỉ cần chạy lệnh sum + biến để có cái nhìn tổng quan về biến nhằm mục đích phát hiện ra được các giá trị này.

Để loại bỏ các giá trị này, bạn có thể dùng thuật toán Winsorization trên STATA để thực hiện một cách nhanh chóng và gọn gàng.

Trước tiên, cần hiểu được biểu đồ hộp boxplot nha:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Xử lý giá trị ngoại lai

Hãy bắt đầu với một ví dụ, chúng ta có một dữ liệu và sau khi vẽ đồ thị dạng hộp (box plot), bạn nhận thấy có vài giá trị “ngoại lai” là các dấu chấm tròn tách nhau bên dưới (làm cho đồ thị hộp không đều và đẹp) và muốn loại bỏ chúng.

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Xử lý giá trị ngoại lai

Hoặc thích thì bạn dùng vẽ biểu đồ scatter cũng được nha:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Xử lý giá trị ngoại lai

Kết quả biểu đồ scatter cũng cho các giá trị không đều (nét đứt không liền) ở giá trị đầu và cuối như đồ thị Boxplot như trên.

Trước tiên, cần phải tải và cài đặt câu lệnh Winsorization vào Stata bằng lệnh: ssc install winsor2

Giả sử bạn cần loại bỏ các giá trị outliers cho biến x1 trong file data, bạn có 2 cách tiến hành

  • Cách 1: Vì giá trị ngoại lai thường là các giá trị lớn nhất hoặc nhỏ nhất trong biến nên đối với các quan sát có giá trị bé hơn 5% và 95% percentile sẽ bị loại bỏ bằng lệnh:

winsor2 x1, replace cuts(5 95) trim

  • Cách 2: Các quan sát có giá trị bé hơn 5% percentile sẽ được thay thế bằng giá trị 5% percentile, Các quan sát có giá trị lớn hơn 95% percentile sẽ được thay thế bằng giá trị tại 95% percentile:

winsor2 x1, replace cuts(5 95)

Lưu ý:

+ Bạn có thể tùy biến giá trị trong ngoặc đơn (chẳng hạn 1% hoặc 99% percentile). Đa phần trong các papers, tác giả sử dụng mức 5 và 95

+ Bạn có thể tiến hành trên nhiều biến khác nhau chỉ với 1 lệnh (Ví dụ: winsor2 x1 x2 x3 x4, replace cuts(5 95))

Sau khi đã hoàn thành quá trình winsorize như trên, bạn có thể trình bày biểu đồ hộp của biến x1 vừa rồi:

Lỗi copy vào stata dữ liệu bị đỏ năm 2024
Cách xử lý dữ liệu trong stata – Xử lý giá trị ngoại lai

Lần này các giá trị ngoại đã không còn xuất hiện và dữ liệu của bạn đã “sạch” hơn so với ban đầu nên yên tâm sử dụng các thống kê và hồi quy trong mô hình.

3. Tổng kết bài viết “Cách xử lý dữ liệu trong Stata”

Bài viết trên MOSL đã trình bày cho các bạn cách Tổng hợp các cách xử lý dữ liệu trong stata; Cùng với các cách xử lý dữ liệu trong stata cơ bản gồm cách bỏ quan sát; chuyển đổi format các biến; dịch chuyển vị trí của biến; đổi tên biến; tạo biến mới; xử lý giá trị ngoại lai trong Stata.

Cuối bài, MOSL xin chúc các bạn học tập và làm việc hiệu quả!

Xem thêm: Dịch vụ Stata của Mosl.vn

Tag: Cách xử lý dữ liệu trong Stata | Cách xử lý dữ liệu trong Stata | Cách xử lý dữ liệu trong Stata | Cách xử lý dữ liệu trong Stata