L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
1
���������������
S� D�NG STATA 10.0 �� PHÂN TÍCH TH�NG KÊ
TRONG NGHIÊN C�U KHOA H�C
GI�I THIU PHN M�M STATA 10.0
TS. BS T�ng Kim H�ng
A. CÀI ��T STATA VÀ CH �NG TRÌNH CHUY�N ��I D� LIU 1. Cài ��t STATA theo các b��c sau �ây:
1/ Ch�y file “autorun.exe”
2/ Ch�n “Next” r�i “next” n�u không mun thay �i tên, t� ch�c, và ng� i s� d�ng.
3/ Ch�n “Stata /MP” n�u laptop thu�c lo�i DuoCore. Ch�n “Stata/SE” n�u laptop không
thu�c lo�i DuoCore.
4/ Ch�n “Next”, r�i “Next”, r�i “Next” n�u không thay �i tên và v� trí th� m�c ch�a
Stata c�ng nh� Data c�a Stata. Stata s� b�t �u cài �t. 5/ Ch�n “Finish” khi Stata cài �t xong.
6/ Vào Program tìm và m� Stata 10. Xu�t hi�n b�n �ng ký.
7/ M� file “Code.doc” � dùng các codes có s�n và i�n vào b�ng �ng ký. �i�n xong
b�m “OK”. Ch��ng trình Stata 10 t �ng m� ra.
8/ Ch�n “Yes” � tr� l i “Would you like to enable automatic update checking?”
2. Cài ��t ch��ng trình StatTransfer 9
- Trên d!a CD, tìm th� m�c StatTransfer9
- Tìm t"p tin StaTransfer9Setup.exe và nh�p úp vào t"p tin này, ch�n “Run” � b�t �u
cài �t, ch�n “Next”. Ch�n “I agree” trong License agreement r�i “Next” n�u không thay
�i tên và v� trí th� m�c ch�a StaTranfer9, vi�c kh�i �ng cài �t s� b�t �u.
- Ch�n “Finish” khi Stata cài �t xong.
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
2
- L�u ý: N�u � Output File Type (Lo�i File �#c ch�n � chuy�n �i) không ph�i là
Version 10 thì vào Options(4) � ch$nh l�i cho úng
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
3
- B�ng d��i ây mô t� các lo�i STATA. Tùy vào nhu c�u và c�u hình máy tính mà ta có
th� ch�n l a lo�i STATA thích h#p nh�t � s� d�ng
B. MÔ T� S� L �C V� STATA Stata là m�t ph�n m�m thng kê dùng � nh"p, x� lý, phân tích s li�u. Theo mô t� t%
b�ng trên, Stata có th� ch�y �#c trên nhi�u h� i�u hành, nh�ng dù v�i h� i�u hành
nào, Stata c�ng có th� i�u khi�n �#c b&ng dòng l�nh (ánh l�nh vào khung command)
ho�c b&ng menu (ch�n l�nh trên thanh menu).
Do b� nh� c�a Stata b� �nh h��ng b�i kích th��c c�a file d' li�u, nên khi làm vi�c trên
b� d' li�u có kích th��c l�n chúng ta c�n t�ng l�#ng b� nh� dành cho Stata b&ng cách
dùng l�nh set memory (vi�t t�t là set mem). Ví d� chúng ta có th� t�ng b� nh� c�a Stata
lên 800 megabyte b&ng l�nh
set mem 800m
Ngoài ra n�u chúng ta mun t�ng s l�#ng bi�n s ti a có th� x� lý thì s� dùng l�nh set matsize. Ví d� chúng ta có th� t�ng s l�#ng bi�n s ti a c�n x� lý lên 800 b&ng cách
ánh l�nh nh� sau
set matsize 800
1. Kh�i ��ng Stata
Khi nh�p úp vào bi�u t�#ng Stata trên màn hình Desktop thì ch��ng trình Stata s� hi�n
ra nh� sau:
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
4
- Thanh menu có các menu File (óng m� t"p tin); Edit (hi�u ch$nh); Prefs (tùy ch�n);
Data (các x� lý trên s li�u); Graphics (v� � th�); Statistics (th c hi�n vi�c phân tích s
li�u) ; User (ng� i s� d�ng); Window (m� ra các c�a s�), Help (tr# giúp)
- Thanh công c� g�m các nút công c� sau:
+ Open (m� file data)
+ Save (L�u file data)
+ Print results (In k�t qu�) + Log begin/close log (B�t �u/óng.file log – file l�u k�t qu� phân tích)
+ New viewer (M� c�a s� viewer ra – s� d�ng ch�c n�ng help)
+ Bring graph window to front (�em c�a s� � th� ra tr��c)
+ New do-file editor (Biên t"p/t�o m�i file do – file l�u ch��ng trình phân tích –
t�c là các l�nh ch�y ch��ng trình phân tích)
+ Data editor (Biên t"p s li�u – s�a ch'a, thêm b�t s li�u)
+ Data browser (Duy�t s li�u - Xem s li�u nh�ng không s�a ch'a)
+ Clear--more—condition (Xóa l�nh more � ti�p t�c ch�y ch��ng trình)
+ Break (Ng�ng l�nh ang ch�y ho�c ng�ng ch��ng trình ang ch�y)
- Bn c�a s� t% trên xung d��i bao g�m
+ C�a s� Review (các l�nh v%a ch�y xong s� hi�n lên trên c�a s� này, mun ch�y
l�i l�nh nào, � con tr( ngay t�i l�nh ó và nh�p 1 cái, l�nh ó s� �#c chuy�n xung c�a
s� command � chu)n b� th c hi�n, n�u nh�p úp, l�nh ó s� �#c th c hi�n)
+ C�a s� Results (màu en) th� hi�n k�t qu� phân tích
+ C�a s� Variables (các bi�n s c�a file s li�u ang s� d�ng, mun ch�n phân
tích bi�n s nào thì sau khi ánh l�nh, � con tr( ngay t�i bi�n s ó, nh�p chu�t 1 l�n,
bi�n s ó s� �#c chuy�n xung c�a s� l�nh)
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
5
+ C�a s� Commands (c�a s� l�nh – là n�i ta có th� ánh các l�nh vào)
2. L�u l�nh/ch��ng trình phân tích
�ôi khi trong quá trình phân tích s li�u ta c�n ph�i th c hi�n r�t nhi�u l�nh m�i �t �#c
�n k�t qu� cui cùng (ví d� c�n ph�i t�o ra các bi�n m�i, phân tích �n bi�n r�i m�i �n
phân tích a bi�n), � không m�t nhi�u th i gian (và có th� quên các l�nh ã t�o) chúng
ta c�n l�u l�i các l�nh này.
Nh�p chu�t vào nút công c� New do-file editor, m�t c�a s� m�i s� m� ra, ó là c�a s�
Stata do-file editor.
ta
Có th� vi�t l�nh ho�c c�t/dán các l�nh ã ch�y t% c�a s� commands vào ây, b�m nút
Save � l�u (khi l�u xong trong máy tính s� có 1 file .do – ó chính là file l�nh � ch�y
ch��ng trình). M*i l�n m� file d' li�u � phân tích, l�i nh�p chu�t vào nút công c� New
do-file editor, ch�n file .do ã l�u � m�. N�u mun ch�y h�t toàn b� các l�nh ã vi�t trong ch��ng trình thì � con tr( ngay t% l�nh �u tiên sau ó th c hi�n nh� sau:
Tools -> Do to bottom
N�u ch$ mun ch�y vài l�nh trong ch��ng trình thì ánh d�u khi (các) l�nh c�n ch�y r�i
th c hi�n nh� sau:
Tools -> Do selection
3. L�u li kt qu� phân tích
K�t qu� phân tích �#c th� hi�n trên c�a s� Stata Results, nh�ng c�a s� này ch$ cho phép
xem l�i k�t qu� phân tích g�n ây. N�u ch�y m�t ch��ng trình phân tích dài thì toàn b�
k�t qu� phân tích không th� th�y h�t trên c�a s� Results. Vì v"y mun l�u tr' l�i toàn b�
k�t qu� chúng ta c�n l�u chúng trong file log. Nh�p chu�t vào nút công c� Log
begin/close log thì chúng ta th�y hi�n ra c�a s�
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
6
Có 2 lo�i file log ta có th� l�u: file lo�i formatted log (.smcl) là lo�i file �#c m�c �nh,
và file lo�i log (.log). Mun l�u file d��i d�ng nào thì ch�n � ng d+n, r�i �t tên file � l�u
Nên nh� là c�n ph�i t�o/m� log file tr��c khi ch�y l�nh k�t qu� m�i �#c l�u trong file
log. N�u không t�o/m� log file tr��c thì Stata không t �ng l�u k�t qu� trong log file
Mun xem l�i k�t qu� ã l�u thì nh�p chu�t vào nút công c� Log begin/close log, ta s� th�y hi�n ra c�a s� Stata Log Options
Ch�n View snapshot of log file r�i b�m OK � xem. Khi mun ch�m d�t vi�c l�u k�t qu�
trong log file thì ch�n close log file r�i OK. N�u sau khi ã óng log file r�i ho�c ã
ng�ng s� d�ng Stata, nh�ng sau ó ta l�i mun s� d�ng l�i và mun làm vi�c trên log fie
n'a thì l�i nh�p chu�t vào nút công c� Log begin/close log, nh�ng l�n này c�a s� Stata
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
7
Log Options có h�i khác m�t chút. N�u ta ch$ có ý �nh xem k�t qu� thì ch�n View
existing file (read-only), n�u mun ti�p t�c l�u ti�p k�t qu� phân tích (ti�p ni ph�n ã
l�u) thì ch�n Append to existing file, còn n�u quy�t �nh l�u m�i hoàn toàn thì ch�n
Overwrite existing file
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
8
BÀI T�P S� D�NG STATA �� NH�P S� LIU
- Hãy dùng Stata � nh"p 15 records �u tiên c�a b� d' li�u sau
1. ��nh ngh�a các bi�n s�
- ��t tên bin s + Nh"p giá tr� vào tr��c-> �� con tr( t�i bi�n s c�n �t tên-> Nh�p chu�t (ta th�y hi�n
ra m�t c�a s� ó là Variable Properties -> ��t tên
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
9
- ��nh ngh�a tên bin s
+ Data -> labels -> label variable -> ch�n bi�n s� c�n label tên trong ô “variable”
+ ��t label trong ô “new variable label”-> submit
+ Mun label này �#c g�n vào bi�n s ta mun �nh ngh!a thì ch�n Attach a label to a
variable
Ho�c khi nh�p chu�t vào bi�n s� � ��t tên, th�y hin ra c�a s� Variable Properties thì
cho label luôn
- ��nh ngh�a các giá tr� c�a bin s Data -> labels -> label values -> Define or modify (value labels) -> Khi nh�p chu�t vào
�ây s th�y hin ra m�t c�a s� khác �ó là c�a s� label define -> Define (� ch�n bi�n s� c�n ��nh ngh�a giá tr�)
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
10
+ Khi ta nh�p chu�t vào define thì s� th�y hi�n ra m�t c�a s� m�i ó là c�a s� Define
new label. Hãy ánh �nh ngh!a c�a bi�n s mà ta mun label -> Ok
+ Khi ta ch�n Ok thì l�i có 1 c�a s� khác xu�t hi�n, ó là c�a s� Add value. Cho giá tr� và
ch* Value và qui ��c c�a giá tr� ó vào ch* text (Ví d� Value 1, Text Nam) r�i b�m OK.
Khi xong �nh ngh!a c�a 1 giá tr� r�i thì c�a s� Add value v+n c� xu�t hi�n, ta l�i thêm
vào giá tr� và �nh ngh!a khác (Ví d� Value 2, Text Nu). C� làm ti�p t�c nh� v"y cho �n
khi ta �nh ngh!a xong t�t c� các giá tr� -> �óng c�a s� này l�i -> Close
+ Sau khi ã �nh ngh!a các giá tr� c�a bi�n s xong n�u mun g�n các �nh ngh!a c�a các
giá tr� này vào bi�n s thì làm nh� sau:
Data-> labels -> label values -> Assign value labels to variable -> Attach a value label
to a variable -> ch�n variable-> ch�n value label -> submit -> OK
+ Làm ti�p t�c cho �n khi �nh ngh!a xong các bi�n s
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
11
- Xem li các giá tr� c�a bin s Data-> labels-> label values-> list value labels
2. L�u l�i file d� li�u v�a biên t�p Sau khi ch$nh s�a s li�u xong, óng c�a s� data editor l�i thì s� th�y hi�n ra c�a s� sau:
Ch�n accept changes � l�u l�i nh'ng thay �i trên s li�u mà ta v%a làm.
3. Sort bi�n s�/Merge files/��t l�i tên bi�n s� - Sort các bin s (chu�n b� merge file)
Data -> Sort -> Ascending sort
- Merge files/merge các cases
Data -> Combine datasets -> Merge two datasets
- ��t li tên bin s Data -> Variable utilities -> Rename variable -> Rename a single variable -> Ch�n bi�n
s� c�n rename trong ô “existing variable name”-> ��t tên bi�n m�i trong ô “new
variable name”
4. T�o bi�n s� m�i/� i n!i dung bi�n s� hi�n có/T�o bi�n s� phân lo�i t� bi�n s� liên t"c
- T�o bi�n s� m�i Data -> Create or change variables -> Create a new variable -> ��t tên m�i cho bi�n s� trong ô “new variable name” -> Thay ��i “n�i dung bi�n s�” trong ô “contents of new
varble”
- � i n!i dung c#a bi�n s� hi�n có Data -> Create or change variables -> Change contents of variable-> Ch�n bi�n s� trong ô “variable”-> New contents VD: replace sex = 0 if sex==2
- T�o bi�n s� phân lo�i t� bi�n s� liên t"c Data -> Create or change variables -> Other variable transformation commands->
Recode categorical variable -> Ch�n bi�n s� trong ô”varibles”-> Ra �i�u kin
VD: recode age min/20=1 21/40=2 41/max=3
Bài t�p: S� d�ng file “framingham”
+ T�o bi�n s m�i “th%a cân” & “CHA” v�i cú pháp nh� sau:
- gen TC = bmi
- recode TC min/24.999=0 25/max=1
- gen CHA = 1 if sbp>=140 & dbp>=100
L�p Ph��ng pháp NCKH – Ch��ng trình CUD UPNT03
12
- replace CHA = 0 if sbp<140 | dbp<100
5. Gi�/b$ bi�n s�/s� cases, thay % i th& t' các bi�n s� trong b! s� li�u - Gi' ho�c b( bi�n s
Data -> Variable utilities -> Keep or drop variables
- Gi' ho�c b( s cases
Data -> Variable utilities -> Keep or drop observations
- Thay �i th� t c�a bi�n s trong b� s li�u
Data -> Variable utilities -> Change order of variables in dataset
Ho�c
Data -> Variable utilities -> Relocate variable
Recommended