56512006-Hướng-dẫn-sử-dụng-stata
Short Description
Download 56512006-Hướng-dẫn-sử-dụng-stata...
Description
Sö dông ch¬ng tr×nh Stata ®Ó khai th¸c sè liÖu §iÒu tra Møc sèng hé gia ®×nh (VLSS) *
néi dung
CH¬NG I: GIÍI THIÖU CHUNG VÒ CH¬NG TR×NH STATA...............................1 1. 2. 3. 4. 5.
TÆ CHØC LU TR÷ D÷ LIÖU TRONG STATA (DATASET IN STATA)..............................................2 KHËI ®ÉNG VΜ THO¸T KHÁI STATA (OPEN AND EXIT)...........................................................3 GIAO DIÖN STATA 7 (STATA INTERFACE).........................................................................3 BIªN B¶N LΜM VIÖC (LOG FILE)....................................................................................6 NHËP VΜ LU D÷ LIÖU (USE, INPUT AND AND SAVE) ...........................................................7
CH¬NG II: KHAI TH¸C D÷ LIÖU..............................................................................10 1. CÊU TRÓC LÖNH TRONG STATA (STATA COMMAND SYNTAX)..................................................10 2.TO¸N TÖ VΜ HΜM SÈ (OPERATORS AND FUNCTIONS)............................................................14 3. M« T¶ D÷ LIÖU (DATA REPORTING)...........................................................................15 4. BIªN TËP VΜ SÖA CH÷A D÷ LIÖU (DATA MANIPULATION)....................................................27 5. QUYÒN SÈ TRONG VHLSS (WEIGHT).........................................................................41
CH¬NG III: KIÓM ®ÞNH GI¶ THIÕT VΜ PH©N TÝCH HÅI QUY..................45 1. ¦ÍC LÎNG VΜ KIÓM ®ÞNH GI¶ THIÕT (ESTIMATION AND HYPOTHESIS TESTING)..............................45 2. PH©N TÝCH T¬NG QUAN VΜ HÅI QUY (CORRELATION AND REGRESSION)..................................53
CH¬NG IV: VÏ ®Å THÞ...............................................................................................59 1. VÏ ®Å THÞ (GRAPH)..............................................................................................59 2. MÉT SÈ LO¹I ®Å THÞ THÊNG DÏNG..............................................................................68 3. LU TR÷ VΜ HIÓN THÞ ®Å THÞ (SAVING AND GRAPH USING)................................................75
CH¬NG V: LËP TR×NH TRONG STATA................................................................77 1. 2. 3. 4. 5.
GIÍI THIÖU CHUNG VÒ CH¬NG TR×NH DO-FILE................................................................77 LOCAL VΜ GLOBAL MACROS........................................................................................82 TÝCH V« HÍNG VΜ MA TRËN (SCALAR AND MATRIX)............................................................85 LÖNH ®IÒU KIÖN VΜ VSSNG LÆP.............................................................................87 GIÍI THIÖU VÒ FILE ADO..........................................................................................89
TΜI LIÖU THAM KH¶O............................................................................................91 PHÔ LÔC.......................................................................................................................91
Ch¬ng I: Giíi thiÖu chung vÒ ch¬ng tr×nh Stata
1
1. Tæ chøc lu tr÷ d÷ liÖu trong Stata (Dataset in Stata) Stata lµ phÇn mÒm thèng kª sö dông ®Ó qu¶n lý, ph©n tÝch sè liÖu vµ vÏ ®å thÞ. Stata cho phÐp lu tr÷ th«ng tin vÒ c¸c ®Æc ®iÓm cña c¸c ®èi tîng nghiªn cøu. Sè liÖu lu tr÷ trong Stata cã thÓ ®îc hiÓn thÞ díi d¹ng b¶ng nh vÝ dô sau: hhcode headname 101 Nguyen Van A 102 Le Thi B 103 Tran Van C Quan s¸t (b¶n ghi)
hhsize 6 5 10
incomepc 2100 3210 1200
Mçi mét hµng ngang cña b¶ng sè liÖu ®îc gäi lµ mét quan s¸t (observation), hay mét b¶n ghi (record) lu tr÷ sè liÖu vÒ mét ®èi tîng nghiªn cøu. ë vÝ dô trªn cã 3 quan s¸t lu tr÷ sè liÖu vÒ M· hé (hhcode); Tªn chñ hé (headname); Quy m« hé (hhsize); Thu nhËp b×nh qu©n (incomepc) cña 3 hé gia ®×nh. BiÕn (trêng; thuéc tÝnh) Th«ng tin vÒ ®èi tîng nghiªn cøu ®îc thu thËp vµ lu tr÷ theo c¸c ®Æc ®iÓm cña chóng. C¸c ®Æc ®iÓm nµy ®îc gäi lµ biÕn (variable), hay trêng (field). BiÕn ®îc xem lµ c¸c cét cña b¶ng sè liÖu. ë vÝ dô trªn cã 4 biÕn, víi tªn lµ hhcoed, hedname, hhsize, vµ incomepc. Tªn biÕn dµi tõ 1 ®Õn 32 ký tù, ®îc b¾t ®Çu ch÷ hoÆc dÊu g¹ch díi (_). Tªn biÕn chØ bao gåm ch÷, sç vµ dÊu g¹ch díi. C¸c ký tù ®Æc biÖt kh¸c kh«ng thÓ dïng ®Ó ®Æt tªn cho biÕn. BiÕn x¸c ®Þnh (identifying variables) Th«ng thêng trong c¸c biÕn sÏ cã c¸c biÕn dïng ®Ó nhËn d¹ng quan s¸t, ®îc gäi lµ biÕn x¸c ®Þnh. Nhê cã c¸c biÕn x¸c ®Þnh nµy mµ c¸c quan s¸t cã thÓ ph©n biÖt ®îc víi nhau. Mçi mét quan s¸t cã mét gi¸ trÞ cña c¸c biÕn nµy. ë vÝ dô trªn, biÕn x¸c ®Þnh lµ hhcode, ®èi víi mçi mét quan s¸t biÕn hhcode nhËn mét gi¸ trÞ. C¸c ®Æc ®iÓm cña biÕn C¸c biÕn cã thÓ ®îc g¸n nh·n (chó thÝch). VÝ dô biÕn hhcode cã thÓ ®îc g¸n nh·n lµ “M· hé”. BiÕn cã thÓ ®îc ®Þnh d¹ng (format) lµ biÕn sè vµ biÕn ký tù víi c¸c lo¹i lu tr÷ kh¸c nhau. BiÕn sè cã thÓ lu tr÷ díi lo¹i byte; int; long; float; double. Cßn biÕn ký tù th× cã thÓ lu tr÷ díi d¹ng str1 ®Õn str80 cho c¸c ®é dµi kh¸c nhau. KiÓu lu tr÷ Dung lîng Gi¸ trÞ nhá Gi¸ trÞ lín nhÊt d¹ng sè (Byte) nhÊt byte 1 -127 126 int 2 -32,767 32,766 long 4 -2,147,483,647 2,147,483,646 float 4 -10^36 10^36
KiÓu Sè nguyªn Sè nguyªn Sè nguyªn Sè thùc 2
double 8 -10^308 10^308 Sè thùc C¸c biÕn sè cã thÓ bao gåm c¸c biÕn rêi r¹c vµ liªn tôc. C¸c biÕn nh lµ quy m« hé gia ®×nh, giíi tÝnh chñ hé, vïng ®Þa lý, tr×nh ®é gi¸o dôc lµ c¸c biÕn rêi r¹c (discrete) (hay cßn gäi lµ biÕn ph©n lo¹i (categorical)). C¸c biÕn nµy cã thÓ ®îc lu tr÷ díi d¹ng byte, int, vµ long. C¸c biÕn liªn tôc (continuous) nh thu nhËp, chi tiªu cña hé th× lu tr÷ díi d¹ng float hoÆc double. BiÕn ký tù (string) dïng ®Ó lu tr÷ c¸c lo¹i ký tù. VÝ dô biÕn headname lµ biÕn kiÓu ký tù dïng ®Ó lu tr÷ tªn cña chñ hé. KiÓu lu tr÷ d¹ng ch÷ str1 str2 ... str80
Byte
§é dµi lín nhÊt
1 2
1 2
80
80
2. Khëi ®éng vµ tho¸t khái Stata (Open and exit) Stata ®îc khëi ®éng t¬ng tù nh c¸c ch¬ng tr×nh tin häc øng dông kh¸c, b»ng c¸ch kÝch vµo biÓu tîng cña tÖp wstata.exe trong Windows explorer, hoÆc chän b»ng c¸ch chän Start -> Program -> Stata. Ch¬ng tr×nh ®îc tho¸t ra b»ng lÖnh exit tõ cöa sæ lÖnh Stata Command, hoÆc tuú chän exit trong thùc ®¬n (menu) File. 3. Giao diÖn Stata 7 (Stata interface)1 Sau khi Stata ®îc khëi ®éng, giao diÖn cña Stata sÏ ®îc hiÖn lªn, bao gåm thanh thùc ®¬n (menu bar) ë trªn cïng, díi ®ã lµ thanh c«ng cô (tool bar) vµ c¸c cöa sæ (windows).
Phiªn b¶n Stata 8 cã giao diÖn t¬ng tù nh phiªn b¶n Stata 7. Kh¸c biÖt lín nhÊt lµ Stata 8 cã thªm tuú chän Statistics trong thanh thùc ®¬n. Tuú chän nµy cho phÐp thùc hiÖn c¸c mét sè lÖnh thèng kª b»ng c¸c tuú chän qua giao diÖn cöa sæ mµ kh«ng ph¶i gâ c¸c lÖnh trong cöa sæ Command. 1
3
C¸c cöa sæ cña Stata C¸c cöa sæ cña Stata ®îc më ra b»ng viÖc lùa chän c¸c tuú chän ë thanh thùc ®¬n Windows (menu bar). C¸c cöa sæ nµy bao gåm: Results
HiÓn thÞ c¸c lÖnh vµ kÕt qu¶
Graph
HiÓn thÞ ®å thÞ
Viewer
HiÓn thÞ cöa sæ trî gióp (help) vµ hiÓn thÞ néi dung c¸c file v¨n b¶n (text)
Command
Dïng ®Ó gâ c¸c c©u lÖnh
Review
HiÓn thÞ c¸c lÖnh ®· thùc hiÖn
Variables
HiÓn thÞ danh s¸ch c¸c biÕn cña tÖp sè liÖu
Data editor
HiÓn thÞ vµ söa ch÷a sè liÖu díi d¹ng b¶ng
Do-file editor
HiÓn thÞ cöa sæ ®Ó so¹n th¶o ch¬ng tr×nh
Thanh thùc ®¬n (Menu bar) B»ng c¸ch kÝch vµo thanh thùc ®¬n vµ c¸c tuú chän trong ®ã, Stata sÏ thùc hiÖn c¸c lÖnh kh¸c nhau. Thanh thùc ®¬n bao gåm c¸c nhãm lÖnh sau ®©y: 4
File Open
Më file sè liÖu
View
Xem c¸c file cña Stata trong cöa sæ Viewer
Save
Lu file sè liÖu
Save as
Lu file sè liÖu díi tªn míi
File name
Chän tªn file ®Ó ®a vµo cöa sæ lÖnh
Log
§ãng, më, xem l¹i log file
Save graph
Lu gi÷ file ®å thÞ
Print graph
In ®å thÞ
Print results
In kÕt qu¶
Exit
Tho¸t khái Stata
Edit Copy text
Sao chÐp v¨n b¶n (text)
Copy tables
Sao chÐp b¶ng biÓu
Paste
D¸n
Table copy options
Lùa chän sao chÐp b¶ng sè liÖu
Graph copy options
Lùa chän sao chÐp ®å thÞ (kh«ng cã trong Stata 7)
Prefs cì
C¸c tuú chän vÒ mµu s¾c, ph«ng ch÷, vµ kÝch
Windows Results
Më cöa sæ kÕt qu¶
Graph
Më cöa sæ ®å thÞ
Log
Më cöa sæ log file
Viewer
Më cöa sæ trî gióp (help) vµ xem néi dung file
Command
Më cöa sæ c©u lÖnh
Review
Më cöa sæ c¸c lÖnh ®· thùc hiÖn
Variables
Më cöa sæ danh s¸ch c¸c biÕn cña tÖp sè liÖu
Help/Search
Më cöa sæ trî gióp (help)
Data editor
Më cöa ®Ó xem sè liÖu lu tr÷ díi d¹ng b¶ng
Do-file editor
Më cöa sæ viÕt ch¬ng tr×nh
Help
C¸c trî gióp liªn quan ®Õn viÖc sö dông Stata 5
Thanh c«ng cô (tool bar) C¸c tuú chän trªn thanh c«ng cô ®îc thiÕt kÕ ®Ó thùc hiÖn c¸c lÖnh th«ng dông cña Stata. NÕu chóng ta di chuyÓn con trá ®Õn c¸c nót nµy th× sÏ hiÖn lªn c¸c c©u huíng dÉn, bao gåm: Open (use)
Më file sè liÖu Stata
Save
Lu tr÷ file sè liÖu ra ®Üa
Print results
In néi dung cña cöa sæ kÕt qu¶
Begin log
Më, ®ãng vµ xem néi dung cña file log
Start viewer
Më cöa sæ trî trî (help)
Bring Dialog Window to §a cöa sæ hép tho¹i ra phÝa tríc font Bring Result Window to §a cöa sæ kÕt qu¶ ra phÝa tríc font Bring Graph Window to §a cöa sæ vÏ ®å thÞ ra phÝa tríc font Do-file editor
Më cöa sæ so¹n th¶o ch¬ng tr×nh
Data editor
Më cöa sæ söa ch÷a sè liÖu
Data browser
Më cöa sæ xem sè liÖu
Clear –more- condition
T¾t lÖnh more
Break
Dõng viÖc thùc hiÖn lÖnh hoÆc ch¬ng tr×nh
4. Biªn b¶n lµm viÖc (log file) Th«ng thêng khi lµm viÖc víi Stata, ngêi sö dông muèn ghi l¹i biªn b¶n lµm viÖc bao gåm c¸c lÖnh, c¸c th«ng b¸o vµ c¸c kÕt qu¶ ph©n tÝch thu ®îc. Stata cho phÐp ghi l¹i c¸c biªn b¶n lµm viÖc b»ng lÖnh log using. Có ph¸p: log using (®êng dÉn\tªn tÖp) [, append replace [ text | smcl ] ] C¸c tuú chän: append
Ghi biªn b¶n lµm viÖc tiÕp vµo 1 file ®· cã s½n
replace
Ghi l¹i biªn b¶n lµm viÖc ®Ì lªn 1 file ®· cã s½n
text
T¹o biªn b¶n lµm viÖc díi d¹ng v¨n b¶n (text) (phÇn më réng lµ log)
smcl
T¹o biªn b¶n lµm viÖc díi d¹ng smcl (phÇn më réng lµ smcl), ®©y còng lµ tuú chän ngÇm ®Þnh
VÝ dô: log using baitap1
T¹o tÖp baitap1 ghi l¹i biªn b¶n lµm viÖc t¹i 6
th môc hiÖn thêi, phÇn më réng mÆc ®Þnh lµ smcl . log using baitap1 ------------------------------------------------------------------------------log: C:\baitap1.smcl log type: smcl opened on: 17 Feb 2004, 15:32:03 log using baitap1, replace
T¹o tÖp baitap1 ghi ®Ì lªn tÖp baitap1 ®· cã s½n
log using “d:\baitap2”, text
T¹o tÖp baitap2 t¹i æ ®Üa D, díi d¹ng v¨n b¶n (text) (phÇn më réng lµ log)
log using append
“d:\baitap2”, Ghi tiÕp tôc biªn b¶n lµm viÖc ë tÖp baitap2 t¹i æ ®Üa D
C¸c tÖp víi phÇn më réng smcl cã thÓ chuyÓn thµnh c¸c tÖp text b»ng lÖnh translate. VÝ dô: translate baitap1.smcl exercise1.log log off LÖnh nµy t¹m thêi dõng viÖc ghi l¹i biªn b¶n lµm viÖc vµo tÖp log/smcl ®ang më log on LÖnh nµy tiÕp tôc ghi biªn b¶n lµm viÖc vµo tÖp log ®ang më. Lªnh nµy ®îc dïng sau lÖn log using hoÆc log off. log close LÖnh nµy ®ãng vµ lu tr÷ tÖp log ®ang më. Chó ý: -
Stata cho phÐp chØ ghi l¹i nh÷ng g× mµ ngêi sö dông ®· gâ trong cöa sæ command, viÖc nµy gióp cho viÖc sau nµy viÕt c¸c ch¬ng tr×nh dùa trªn nh÷ng biªn b¶n ®· lµm viÖc. Có ph¸p: cmdlog using (®êng dÉn\tªn tÖp) [, append replace] cmdlog {off | on | close}
-
§Ó xem c¸c file log/smcl vµo thanh thùc ®¬n: file/log/view (hoÆc ë cöa sæ lÖnh command gâ: view (tªn tÖp)); hoÆc cã thÓ më b»ng c¸c ch¬ng tr×nh so¹n thao v¨n b¶n kh¸c nh MS-Word; Notepad
5. NhËp vµ lu d÷ liÖu (Use, input and and save) Më tÖp sè liÖu ®ang cã: 7
Có ph¸p: use (®êng dÉn\tªn tÖp) LÖnh nµy më tÖp Stata, víi phÇn réng lµ .dta, ®îc chØ ra ë tªn tÖp. VÝ dô: use ho1.dta
më tÖp ho1.dta ë th môc hiÖn thêi
use "D:\VHLSS 2004\ho1.dta", clear
më tÖp ho1.ta ë th môc VHLSS 2004 trªn æD
TÖp sè liÖu Stata cã thÓ ®îc më b»ng lùa chän Open trªn thùc ®¬n File; hoÆc nót Open (use) trªn thanh c«ng cô tool bar. NÕu file sè liÖu cã dung lîng lín th× chóng ta ph¶i thiÕt lËp bé nhí cÇn dïng cho Stata b»ng lÖnh: set memory #[k|m] VÝ dô: set mem 32m set mem 32000k NhËp sè liÖu Cã mét sè c¸ch ®Ó nhËp sè liÖu tõ bµn phÝm vµo bé nhí cña Stata. -
Sö dông cöa sæ Stata editor ®Ó nhËp sè liÖu. HoÆc tõ cöa sæ command, gâ lÖnh edit. Sau ®ã nhËp sè liÖu theo kiÓu biÓu b¶ng trong cöa sæ nµy.
-
Sö dông lÖnh: input [danh s¸ch biÕn + ®Þnh d¹ng nÕu cÇn] Sau ®ã sö dông bµn phÝm ®Ó nhËp sè liÖu lÇn lît cho c¸c biÕn cña tõng quan s¸t. Gi¸ trÞ ®îc nhËp c¸ch nhau 1 ký tù trèng. KÕt thóc nhËp sè liÖu b»ng lÖnh end. VÝ dô: . input hhcode str15 name income hhcode
name
income
1. 101 "Nguyen Van A" 1200 2. 102 "Nguyen Van B" 1350 3. 103 "Tran Thi C" 2310 4. end Stata cho phÐp nhËp sè liÖu tõ c¸c file c¬ së d÷ liÖu kh¸c. Tríc hÕt c¸c file sè liÖu nµy cÇn ®îc lu tr÷ díi d¹ng text (cã thÓ b»ng ch¬ng tr×nh Excel), c¸c quan s¸t ®îc c¸c nhau 1 dßng vµ c¸c gi¸ trÞ c¸ch nhau 1 dÉu phÈy
8
(commas) hoÆc dÊu c¸ch (tab). Sau ®ã dïng lÖnh insheet ®Ó nhËp sè liÖu nµy vµo Stata. Có ph¸p: insheet [danh s¸ch biÕn] using (tªn tÖp text) [, [no]names comma tab clear] LÖnh nµy sÏ ®äc vµo bé nhí cña Stata c¸c quan s¸t cña tÖp text, vµ chØ ra tªn c¸c biÕn sÏ ®îc t¹o ra. C¸c tuú chän: [no]names
Cho phÐp nhËp tªn biÕn ®îc chØ ra ë dßng thø nhÊt cña file text
comma
Th«ng b¸o lµ c¸c gi¸ trÞ cña file text ®îc ph©n c¸ch b»ng dÊu phÈy
tab
Th«ng b¸o lµ c¸c gi¸ trÞ cña file text ®îc ph©n c¸ch b»ng dÊu tab
clear
Sè liÖu ®îc ®äc vµo sÏ thay thÕ sè liÖu ®ang ®îc thêng tró trong bé nhí cña Stata
VÝ dô: . insheet using c:\income.txt (3 vars, 4 obs) . insheet maho hoten thunhap using c:\income.txt (note: variable names in file ignored) (3 vars, 4 obs) Lu tr÷ sè liÖu Có ph¸p: save (®êng dÉn\tªn tÖp) [,replace] LÖnh nµy lu tr÷ sè liÖu ®ang ë trong bé nhí cña Stata thµnh tÖp chØ ®Þnh díi tªn tÖp. NÕu tuú chän replace ®îc chØ ra th× tÖp sè liÖu nµy sÏ ghi ®Ì lªn tÖp hiÖn thêi (tÊt nhiªn tªn tÖp sè liÖu lµ gièng nhau). ViÖc lu tr÷ sè liÖu cã thÓ thùc hiÖn b»ng c¸c tïy chän Save vµ Save as ë trong thanh thùc ®¬n (menu bar); hoÆc nót Save trªn thanh c«ng cô (tool bar). Chó ý: Xem thªm lÖnh infile vµ outfile
9
Ch¬ng II: Khai th¸c d÷ liÖu
1. CÊu tróc lÖnh trong Stata (Stata command syntax) CÊu tróc c¬ b¶n cña mét lÖnh trong Stata nh sau: [by danh s¸ch biÕn:] Có ph¸p lÖnh [danh s¸ch biÕn] [biÓu thøc] [®iÒu kiÖn] [ph¹m vi] [quyÒn sè] [, tuú chän] Trong phÇn Híng dÉn s dông (Help) cña Stata, có ph¸p lÖnh tr×nh bµy b»ng tiÕng Anh nh sau: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] Trong ®ã dÊu ngoÆc vu«ng ký hiÖu c¸c tuú chän. Chó ý:
-
C¸c c©u lÖnh Stata ®îc viÕt b»ng ch÷ thêng.
-
§èi víi tªn biÕn, Stata ph©n biÖt ch÷ viÕt thêng víi ch÷ viÕt hoa. VÝ dô, trong cïng mét tÖp sè liÖu, biÕn “Ho_ten” vµ biÕn “ho_ten” lµ 2 biÕn kh¸c nhau.
-
C¸c tuú chän ®îc ký hiÖu trong dÊu ngoÆc vu«ng [ ]. C¸c tuú chän nµy cã thÓ cã hoÆc kh«ng trong c©u lÖnh. C¸c tham sè b¾t buéc (tªn biÕn) ®îc ®Æt trong dÊu ngoÆc < >. C¸c c©u lÖnh sÏ kh«ng thùc hiÖn ®îc nÕu c¸c tham sè b¾t buéc nµy kh«ng ®îc khai b¸o.
-
Mét sè lÖnh Stata cho phÐp viÕt t¾t. VÝ dô lÖnh summarize cã thÓ viÕt t¾t lµ sum. Trong cuèn tµi liÖu nµy phÇn g¹ch ch©n díi có ph¸p cña c©u lÖnh lµ có ph¸p “viÕt t¾t” cña c©u lÖnh ®ã. 10
-
C¸c vÝ dô trong cuèn tµi liÖu nµy sö dông sè liÖu §iÒu tra Møc sèng d©n c n¨m 1998 do Tæng côc Thèng kª tiÕn hµnh. Trong ®ã TÖp chi tiªu tæng hîp Hhexp98n.dta thêng xuyªn ®îc sö dông.
by danh s¸ch biÕn (by varlist): Stata sÏ thùc hiÖn c©u lÖnh víi theo tõng gi¸ trÞ ®îc chØ ra bëi danh s¸ch biÕn. BiÕn ®îc chØ ra bëi danh s¸ch biÕn ®îc yªu cÇu s½p xÕp tríc khi thùc hiÖn lÖnh. VÝ dô: . sort sex . by sex: sum
rlpcex1
-> sex = 1 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 4375 2980.906 2430.648 357.318 45801.71 -> sex = 2 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 1624 3748.368 3231.241 376.9805 30624.77
. sort sex urban98 . by sex urban98: sum
rlpcex1
-> sex = 1, urban98 = Rural Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 3344 2308.134 1345.671 357.318 24386.43 -> sex = 1, urban98 = Urban Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 1031 5163.01 3602.245 682.9575 45801.71 -> sex = 2, urban98 = Rural Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 925 2553.448 1776.178 376.9805 25527.95 -> sex = 2, urban98 = Urban Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 699 5329.628 3962.946 1057.797 30624.77
11
Danh s¸ch biÕn (varlist) ChØ ra danh s¸ch c¸c biÕn chÞu t¸c ®éng cña c©u lÖnh. NÕu nh kh«ng cã biÕn nµo ®îc chØ ra th× lÖnh Stata sÏ cã t¸c dông lªn tÊt c¶ c¸c biÕn (all variables) VÝ dô: . sum hhsize sex reg7 Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------hhsize | 5999 4.752292 1.954292 1 19 sex | 5999 1.270712 .4443645 1 2 reg7 | 5999 4.01917 2.145305 1 7 . sum Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------househol | 5999 19617.86 11201.92 101 38820 year | 5999 97.94666 .2247337 97 98 month | 5999 6.340723 3.011082 1 12 --Break-r(1);
LÖnh sum nµy hiÓn thÞ thèng kª c¬ b¶n cña tÊt c¶ c¸c biÕn trong tÖp sè liÖu. §iÒu kiÖn (if exp) Stata chØ thùc hiÖn c©u lÖnh ®èi víi c¸c quan s¸t mµ gi¸ trÞ cña nã cho kÕt qu¶ cña biÓu thøc lµ ®óng. VÝ dô: . sum
poor if reg7==1
Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------poor | 859 .4982538 .5002882 0 1
LÖnh nµy chØ cã t¸c dông ®èi víi c¸c quan s¸t mµ biÕn reg7 cã gi¸ trÞ b»ng 1. Ph¹m vi (in range) ChØ ra ph¹m vi c¸c quan s¸t chÞu t¸c ®éng cña c©u lÖnh. Range (ph¹m vi) cã thÓ cã c¸c d¹ng sau: 12
sum poor in 10
TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t 10 (chÝnh b»ng gi¸ trÞ cña biÕn poor t¹i quan s¸t thø 10)
sum poor 10/100
in TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ 10 ®Õn 100
sum f/100
poor
in TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ ®Çu tiªn ®Õn 100
sum 100/l
poor
in TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ thø 100 ®Õn quan s¸t cuèi cïng
QuyÒn sè (weight) Cho phÐp tÝnh to¸n sñ dông quyÒn sè. Tuú chän vÒ quyÒn sè sÏ ®îc tr×nh bµy kü ë môc 5 cña ch¬ng nµy. C¸c tuú chän (Options) NhiÒu c©u lÖnh Stata cho phÐp c¸c tuú chän riªng. C¸c tuú chän nµy ®îc chØ ra sau dÊu phÈy. VÝ dô: LÖnh sum cã tuú chän lµ detail, cho phÐp tÝnh to¸n thªm mét sè thèng kª kh¸c ngoµi gi¸ trÞ trung b×nh vµ ®é lÖnh chuÈn. . sum
rlpcex1, detail comp.M&Reg price adj.pc tot exp ------------------------------------------------------------Percentiles Smallest 1% 682.9575 357.318 5% 1012.433 366.2792 10% 1238.088 376.9805 Obs 5999 25% 1671.054 381.3502 Sum of Wgt. 5999 50%
2397.042
75% 90% 95% 99%
3711.917 5940.803 8045.32 14163.04
Largest 26944.64 30624.77 31066.5 45801.71
Mean Std. Dev.
3188.667 2692.567
Variance Skewness Kurtosis
7249918 3.791027 29.21398
Chó ý:
-
Stata cho phÐp viÕt t¾t c¸c lÖnh vµ tïy chän. Trong tµi liÖu nµy, phÇn g¹ch ch©n díi c¸c lÖnh cã nghÜa lµ lÖnh ®ã cã thÓ viÕt t¾t b»ng ký tù trong phÇn g¹ch ch©n nµy. VÝ dô nh lÖnh use cã nghÜa lµ cã thÓ ®îc viÕt t¾t bëi u.
-
Có ph¸p cña c¸c c©u lÖnh trong tµi liÖu nµy ®îc viÕt b»ng tiÕng Anh, cho phÐp ngêi ®äc cã thÓ ®èi chiÕu víi phÇn híng dÉn sö dông trong Stata.
13
2.To¸n tö vµ hµm sè (Operators and functions) C¸c to¸n tö (operators) C¸c to¸n tö trong Stata ®îc ký hiÖu nh sau: Ký hiÖu
ý nghÜa
Sè häc +
Céng
-
Trõ
*
Nh©n
/
Chia
^
Luü thõa
Quan hÖ >
Lín h¬n
<
Nhá h¬n
>=
Lín h¬n hoÆc b»ng
tabulation of urban98 1:urban 98; | 0:rural 98 |
Freq.
Percent
Cum.
19
------------+----------------------------------Rural | 4269 71.16 71.16 Urban | 1730 28.84 100.00 ------------+----------------------------------Total | 5999 100.00 -> tabulation of reg7 Code by 7 | regions | Freq. Percent Cum. ------------+----------------------------------region1 | 859 14.32 14.32 region2 | 1175 19.59 33.91 region3 | 708 11.80 45.71 region4 | 754 12.57 58.28 region5 | 368 6.13 64.41 region6 | 1023 17.05 81.46 region7 | 1112 18.54 100.00 ------------+----------------------------------Total | 5999 100.00
T¹o b¶ng tÇn suÊt 2 chiÒu Có ph¸p: tabulate [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing nofreq cell column row] tab2 [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing nofreq cell column row] LÖnh tablulate nµy tÝnh vµ hiÓn thÞ b¶ng tÇn suÊt 2 chiÒu cña 2 biÕn ®îc chØ ra. LÖnh tab2 t¹o b¶ng tÇn suÊt 2 chiÒu cña tõng cÆp biÕn ®îc chØ ra trong danh s¸ch biÕn. VÝ dô: . tab urban98 farm 1:urban | Type of HH (1:farm; 98; | 0:nonfarm) 0:rural 98 | non farm farm | Total -----------+----------------------+---------Rural | 1021 3248 | 4269 Urban | 1540 190 | 1730 -----------+----------------------+---------Total | 2561 3438 | 5999
C¸c tuú chän: chi2
Thùc hiÖn kiÓm ®Þnh gi¶ thiÕt lµ hai biÕn ®éc lËp
missing
Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ ®îc xÕp vµo 1 lo¹i 20
nofreq
Kh«ng hiÓn thÞ tÇn suÊt
cell
HiÓn thÞ tÇn suÊt t¬ng ®èi (tû lÖ %) cña c¸c «
column
HiÓn thÞ tÇn suÊt t¬ng ®èi (tû lÖ %) cña c¸c « theo cét
row
HiÓn thÞ tÇn suÊt t¬ng ®èi (tû lÖ %) cña c¸c « theo hµng
VÝ dô: . tab
reg7 urban98, cell nof
| 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 11.20 3.12 | 14.32 region2 | 13.05 6.53 | 19.59 region3 | 10.00 1.80 | 11.80 region4 | 8.37 4.20 | 12.57 region5 | 6.13 0.00 | 6.13 region6 | 8.57 8.48 | 17.05 region7 | 13.84 4.70 | 18.54 -----------+----------------------+---------Total | 71.16 28.84 | 100.00 . tab farm urban98, column row Type of HH | 1:urban 98; 0:rural (1:farm; | 98 0:nonfarm) | Rural Urban | Total -----------+----------------------+---------non farm | 1021 1540 | 2561 | 39.87 60.13 | 100.00 | 23.92 89.02 | 42.69 -----------+----------------------+---------farm | 3248 190 | 3438 | 94.47 5.53 | 100.00 | 76.08 10.98 | 57.31 -----------+----------------------+---------Total | 4269 1730 | 5999 | 71.16 28.84 | 100.00 | 100.00 100.00 | 100.00
3.11. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh tabulate…summarize Có ph¸p: tabulate [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] , summarize(tªn biÕn 3) [means standard freq missing ] LÖnh nµy t¹o b¶ng mét hoÆc hai chiÒu ®Þnh nghÜa bëi biÕn 1 hoÆc biÕn 2 vµ mçi « cho gi¸ trÞ thèng kª trung b×nh, ®é lÖch chuÈn vµ tÇn suÊt cña biÕn 3. VÝ dô: 21
. tab
farm urban98, sum(poor) Means, Standard Deviations and Frequencies of poor
Type of HH | 1:urban 98; 0:rural (1:farm; | 98 0:nonfarm) | Rural Urban | Total -----------+----------------------+---------non farm | .2791381 .06168831 | .14837954 | .44879538 .24066673 | .35554523 | 1021 1540 | 2561 -----------+----------------------+---------farm | .42302956 .12105263 | .4063409 | .4941161 .32705022 | .49122109 | 3248 190 | 3438 -----------+----------------------+---------Total | .3886156 .06820809 | .29621604 | .48749275 .25217555 | .45662551 | 4269 1730 | 5999
C¸c tuú chän: means
HiÓn thÞ mçi gi¸ trÞ trung b×nh
standard
HiÓn thÞ mçi gi¸ trÞ ®é lÖch chuÈn
freq
HiÓn thÞ mçi gi¸ trÞ tÇn suÊt
missing
Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ ®îc xÕp vµo 1 lo¹i
VÝ dô: . replace poor=poor*100 (1777 real changes made) . format poor %4.2f . tab reg7 urban98, sum(poor) means Means of poor | 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 61.46 8.02 | 49.83 region2 | 32.57 5.87 | 23.66 region3 | 44.83 10.19 | 39.55 region4 | 37.25 11.51 | 28.65 region5 | 47.28 . | 47.28 region6 | 12.45 2.16 | 7.33 region7 | 35.78 10.28 | 29.32 -----------+----------------------+---------Total | 38.86 6.82 | 29.62
3.12. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh tabstat 22
Có ph¸p: tabstat [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, statistics(có ph¸p tkª [...]) by(tªn biÕn) missing format[(%fmt)]] LÖnh nµy tÝnh to¸n c¸c thèng kª cña c¸c biÕn ®îc chØ ra bëi danh s¸ch biÕn cho tõng gi¸ trÞ cña biÕn ph©n lo¹i (categorical) ®îc chØ ra bëi by(tªn biÕn). VÝ dô: . tabstat
rlfood rlhhex1, stats(mean median) by(reg7)
Summary statistics: mean, p50 by categories of: reg7 (Code by 7 regions) reg7 | rlfood rlhhex1 --------+-------------------region1 | 5595.556 9560.349 | 5350.916 8536.373 ----------------------------region2 | 6419.427 12951.14 | 5664.145 9997.146 ----------------------------region3 | 5692.201 10885.38 | 5369.411 9022.334 ----------------------------region4 | 6512.576 13525.41 | 5790.046 11077.51 ----------------------------region5 | 5894.983 11217.05 | 5380.505 9421.447 ----------------------------region6 | 9746.158 23515.01 | 8428.743 18514.39 ----------------------------region7 | 6556.616 13068.11 | 6066.128 11043.99 ----------------------------Total | 6787.898 14010.74 | 5951.567 10733.19 -----------------------------
C¸c tuú chän: statistics(statname [...])
ChØ ra thèng kª cÇn tÝnh cho danh s¸ch biÕn
by(tªn biÕn)
ChØ ra biÕn ph©n lo¹i (categorical)
Missing
Gi¸ trÞ thiÕu (mising) cña biÕn lo¹i ®îc xem nh 1 lo¹i
format[(%fmt)]
ChØ ra ®Þnh d¹ng cña sè liÖu hiÓn thÞ
23
Stata cho phÐp c¸c lo¹i thèng kª ®îc chØ ra bëi statistics(có ph¸p thèng kª [...]) nh sau: Có ph¸p thèng kª
ý nghÜa
mean
Trung b×nh mean
count
§Õm sè quan s¸t
n
Gièng nh lÖnh count (§Õm sè quan s¸t)
sum
Tæng céng
max
Gi¸ trÞ lín nhÊt
min
Gi¸ trÞ nhá nhÊt
range
Biªn ®é = Gi¸ trÞ lín nhÊt - Gi¸ trÞ nhá nhÊt
sd
§é lÖch chuÈn
sdmean
§é lÖch chuÈn cña trung b×nh = §é lÖch chuÈn / {(Sè quan s¸t)^0.5}
skewness
§é lÖch cña ph©n phèi
kurtosis
§é nhän
median
Trung vÞ (Gièng nh p50)
p1
1% ph©n vÞ
p5
5% ph©n vÞ
p10
10% ph©n vÞ
p25
25% ph©n vÞ
p50
50% ph©n vÞ (trung vÞ)
p75
75% ph©n vÞ
p90
90% ph©n vÞ
p95
95% ph©n vÞ
p99
99% ph©n vÞ
iqr
p75 - p25
q
t¬ng ®¬ng víi "p25 p50 p75"
VÝ dô: . tabstat
rlpcex1, stats(mean sd q) by(reg7) format(%5.1f)
Summary for variables: rlpcex1 by categories of: reg7 (Code by 7 regions) reg7 | mean sd p25 p50 p75 --------+--------------------------------------------------
24
region1 | 2174.8 1265.1 1328.0 1792.1 2710.8 region2 | 3294.0 2511.9 1816.7 2532.5 3822.0 region3 | 2503.3 1918.0 1489.7 2001.2 2808.1 region4 | 2933.7 2260.5 1697.9 2362.2 3471.4 region5 | 2087.3 1285.4 1217.3 1850.8 2700.5 region6 | 5257.5 4005.7 2676.7 4154.1 6431.8 region7 | 2931.1 2137.2 1680.1 2321.9 3414.7 ----------------------------------------------------------Total | 3188.7 2692.6 1671.1 2397.0 3711.9 -----------------------------------------------------------
3.13. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh table Có ph¸p: table [biÕn cét [biÕn cét trªn cïng]] [®iÒu kiÖn] [ph¹m vi] [quyÒn sè] [, contents(néi dung) row col format(%fmt) missing] LÖnh nµy cho phÐp tÝnh c¸c thèng kª cña c¸c biÕn ®îc chØ ra trong contents theo d¹ng b¶ng, trong ®ã c¸c hµng ®îc ®Þnh nghÜa bëi biÕn dßng, cßn c¸c cét ®îc ®Þnh nghÜa bëi biÕn cét (vµ biÕn cét trªn cïng). C¸c biÕn hµng vµ cét nµy lµ c¸c biÕn ph©n lo¹i (categorical). VÝ dô: . table reg7 urban98 farm, contents(mean poor) ---------------------------------------------------| Type of HH (1:farm; 0:nonfarm) and | 1:urban 98; 0:rural 98 Code by 7 | ---- non farm --------- farm -----regions | Rural Urban Rural Urban ----------+----------------------------------------region1 | 19.35484 6.015038 65.7377 12.96296 region2 | 26.66667 4.624278 33.96524 15.21739 region3 | 40.98361 10.11236 45.8159 10.52632 region4 | 21.6 11.63793 42.44032 10 region5 | 30.76923 49.24012 region6 | 15.04065 2.195609 10.07463 0 region7 | 38.62816 10.04184 34.35805 11.62791 ----------------------------------------------------
C¸c tuú chän: Contents(néi dung)
LiÖt kª danh s¸ch c¸c biÕn vµ c¸c thèng kª. C¸c ký hiÖu thèng kª t¬ng tù nh ë lÖnh tabstat
row
HiÓn thÞ thèng kª tæng cña c¸c dßng
col
HiÓn thÞ thèng kª tæng cña c¸c cét
format(%fmt)
ChØ ra ®Þnh d¹ng cña sè liÖu hiÓn thÞ 25
missing lo¹i
Gi¸ trÞ thiÕu (mising) cña biÕn lo¹i ®îc xem nh 1
VÝ dô: . table reg7 urban98 farm, contents(mean poor) row col format(%4.2f) -----------------------------------------------------| Type of HH (1:farm; 0:nonfarm) and 1:urban | 98; 0:rural 98 Code by 7 | ----- non farm ---------- farm -----regions | Rural Urban Total Rural Urban Total ----------+------------------------------------------region1 | 19.35 6.02 10.26 65.74 12.96 61.45 region2 | 26.67 4.62 11.29 33.97 15.22 32.70 region3 | 40.98 10.11 27.96 45.82 10.53 44.47 region4 | 21.60 11.64 15.13 42.44 10.00 40.81 region5 | 30.77 30.77 49.24 49.24 region6 | 15.04 2.20 6.43 10.07 0.00 9.78 region7 | 38.63 10.04 25.39 34.36 11.63 32.72 | Total | 27.91 6.17 14.84 42.30 12.11 40.63 -----------------------------------------------------. table urban98 farm, contents(mean poor sd poor) row col format(%4.2f) ---------------------------------------1:urban | 98; | Type of HH (1:farm; 0:rural | 0:nonfarm) 98 | non farm farm Total ----------+----------------------------Rural | 27.91 42.30 38.86 | 44.88 49.41 48.75 | Urban | 6.17 12.11 6.82 | 24.07 32.71 25.22 | Total | 14.84 40.63 29.62 | 35.55 49.12 45.66 ---------------------------------------. table urban98 format(%4.2f)
farm,
contents(mean
rlpcex1
mean
rlhhex1)
row
col
---------------------------------------1:urban | 98; | Type of HH (1:farm; 0:rural | 0:nonfarm) 98 | non farm farm Total ----------+----------------------------Rural | 2835.83 2212.12 2361.29 | 13242.03 10120.89 10867.36 | Urban | 5476.86 3232.17 5230.33
26
| 22984.44 11903.19 21767.43 | Total | 4423.95 2268.49 3188.67 | 19100.41 10219.39 14010.74 ----------------------------------------
4. Biªn tËp vµ söa ch÷a d÷ liÖu (Data manipulation) 4.1.
T¹o biÕn míi
T¹o biÕn b»ng lÖnh generate Có ph¸p: generate = biÓu thøc [®iÒu kiÖn] [ph¹m vi] LÖnh nµy cho phÐp t¹o biÕn míi cã gi¸ trÞ b»ng gi¸ trÞ cña biÓu thøc ®îc chØ ra. VÝ dô: . gen poor = 1 if rlpcex1 < 1790 (4222 missing values generated) . gen nonpoor=1 if rlpcex1 >= 1790 (1777 missing values generated) LÖnh t¹o biÕn gi¶ tabulate…generate Có ph¸p: tabulate , generate(biÕn míi) LÖnh generate cã thÓ kÕt hîp víi tab ®Ó t¹o c¸c biÕn gi¶ . BiÕn míi t¹o ra sÏ cã d¹ng lµ “biÕn míi 1”, “biÕn míi 2”, “biÕn míi 3”, v..v. BiÕn nµy chÝnh lµ c¸c biÕn gi¶ ®îc t¹o ra trªn c¬ së cña biÕn ph©n lo¹i. VÝ dô:
. tab reg7, gen(region) Code by 7 | regions | Freq. Percent Cum. ------------+----------------------------------region1 | 859 14.32 14.32 region2 | 1175 19.59 33.91 region3 | 708 11.80 45.71 region4 | 754 12.57 58.28 region5 | 368 6.13 64.41 region6 | 1023 17.05 81.46 region7 | 1112 18.54 100.00 ------------+----------------------------------Total | 5999 100.00 . tab1 region1 region2
27
-> tabulation of region1 reg7==regio | n1 | Freq. Percent Cum. ------------+----------------------------------0 | 5140 85.68 85.68 1 | 859 14.32 100.00 ------------+----------------------------------Total | 5999 100.00 -> tabulation of region2 reg7==regio | n2 | Freq. Percent Cum. ------------+----------------------------------0 | 4824 80.41 80.41 1 | 1175 19.59 100.00 ------------+----------------------------------Total | 5999 100.00
ë ®©y biÕn reg7 cã 7 gi¸ trÞ tõ 1 ®Õn 7 t¬ng øng víi 7 biÕn gi¶ tõ region1 ®Õn region7 sÏ ®îc t¹o ra. BiÕn region1 nhËn gi¸ trÞ b»ng 1 nÕu nh biÕn reg7 nhËn gi¸ trÞ 1, nÕu kh«ng th× b»ng 0. T¬ng tù biÕn region7 nhËn gi¸ trÞ 1 nÕu nh biÕn reg7 b»ng 7. ë vÝ dô trªn lÖnh tabulate…generate t¬ng ®¬ng víi 7 lÖnh sau: gen region1=(reg7==1) gen region2=(reg7==2) … gen region7=(reg7==7) T¹o biÕn b»ng lÖnh egen Có ph¸p: egen = fcn(tham sè) [®iÒu kiÖn] [ph¹m vi] [, by(biÕn)] LÖnh nµy cho phÐp t¹o biÕn míi theo gi¸ trÞ cña hµm sè ®îc chØ ra bëi fcn. BiÕn míi nµy sÏ nhËn gi¸ trÞ cè ®Þnh cho mäi quan s¸t. Hµm sè ë ®©y cã thÓ lµ: count(exp)
§Õm sè quan s¸t cña biÓu thøc
mean(exp)
Cho gi¸ trÞ trung b×nh cña biÓu thøc
median(exp)
Cho gi¸ trÞ trung vÞ cña biÓu thøc
sd(exp)
Cho gi¸ trÞ ®é lÖch chuÈn cña biÓu thøc
C¸c hµm sè kh¸c cã thÓ xem ë phÇn help egen. VÝ dô: . egen sumexp=sum(rlpcex1) . sum sumexp
28
Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------sumexp | 5999 1.91e+07 0 1.91e+07 1.91e+07 . egen g=median( food+ nonfood1) . sum g Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------g | 5999 11063.6 0 11063.6 11063.6
Thay thÕ gi¸ trÞ cña biÕn Có ph¸p: replace = biÓu thøc [®iÒu kiÖn] [ph¹m vi] LÖnh nµy thay thÕ gi¸ trÞ cña biÕn hiÖn cã b»ng gi¸ trÞ míi x¸c ®Þnh bëi biÓu thøc exp. VÝ dô: replace poor=poor*100 replace pcexp = hhexp/hhsize T¹o biÕn ph©n lo¹i b»ng lÖnh encode Có ph¸p: encode [®iÒu kiÖn] [ph¹m vi], generate(biÕn míi) LÖnh nµy cho phÐp t¹o biÕn ph©n lo¹i míi (categorical) kiÓu sè t¬ng øng víi c¸c gi¸ trÞ cña biÕn kiÓu ch÷ chØ ra bëi tªn biÕn (®îc xÕp theo vÇn ch÷ c¸i). VÝ dô: . gen str15(mucsong) = "Kha" . drop
mucsong
. gen mucsong="Rat ngheo" type mismatch r(109); . gen str15(mucsong)="Rat ngheo" . replace mucsong="Ngheo" if (1087 real changes made)
rlpcex11290
rlpcex1>=1790
. tab mucsong
29
mucsong | Freq. Percent Cum. ----------------+----------------------------------Khong ngheo | 4222 70.38 70.38 Ngheo | 1087 18.12 88.50 Rat ngheo | 690 11.50 100.00 ----------------+----------------------------------Total | 5999 100.00 . sum mucsong Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------mucsong | 0 . encode mucsong, gen(ma_ms) . tab ma_ms ma_ms | Freq. Percent Cum. ------------+----------------------------------Khong ngheo | 4222 70.38 70.38 Ngheo | 1087 18.12 88.50 Rat ngheo | 690 11.50 100.00 ------------+----------------------------------Total | 5999 100.00 . sum ma_ms Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------ma_ms | 5999 1.411235 .6871957 1 3
T¹o biÕn b»ng lÖnh xtile Có ph¸p: xtile = biÓu thøc [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, nquantiles(#)] LÖnh nµy t¹o biÕn ph©n nhãm cho biÓu thøc theo ph©n vÞ. nquantiles(#) chØ ra sè lîng ph©n vÞ.
Trong ®ã
VÝ dô: T¹o biÕn ngò vÞ ph©n theo chi tiªu . xtile quinexp= rlpcex1, nq(5) . tab quinexp 5 quantiles | of rlpcex1 | Freq. Percent Cum. ------------+----------------------------------1 | 1200 20.00 20.00 2 | 1200 20.00 40.01 3 | 1200 20.00 60.01 4 | 1200 20.00 80.01
30
5 | 1199 19.99 100.00 ------------+----------------------------------Total | 5999 100.00 . tab
quinexp, sum( rlpcex1) | Summary of comp.M&Reg price adj.pc 5 quantiles | tot exp of rlpcex1 | Mean Std. Dev. Freq. ------------+-----------------------------------1 | 1184.3975 261.20537 1200 2 | 1803.6331 151.66604 1200 3 | 2408.4867 211.5407 1200 4 | 3390.1065 403.08913 1200 5 | 7160.021 3690.3672 1199 ------------+-----------------------------------Total | 3188.6671 2692.5673 5999
4.2.
§æi tªn biÕn
Có ph¸p: rename LÖnh nµy thùc hiÖn viÖc ®æi tªn cò cña mét biÕn sang tªn míi. VÝ dô: rename poor nguoingheo rename rpcexp1 chitieu 4.3. LÖnh xo¸ biÕn, xo¸ quan s¸t Có ph¸p: drop s¸ch biÕn
LÖnh nµy xo¸ biÕn ®îc chØ ra bëi danh
drop biÓu thøc
LÖnh nµy xo¸ quan s¸t tho¶ m·n ®iÒu kiÖn
drop [®iÒu kiÖn] LÖnh nµy xo¸ quan s¸t ®îc chØ ra bëi ph¹m vi (vµ cã thÓ ph¶i tho¶ m·n ®iÒu kiÖn biÓu thøc) keep LÖnh nµy gi÷ l¹i c¸c biÕn ®îc chØ ra bëi danh s¸ch biÕn, c¸c biÕn kh«ng ®îc chØ ra sÏ bÞ xo¸ ®i keep
LÖnh nµy gi÷ l¹i c¸c quan s¸t tho¶ m·n ®iÒu kiÖn biÓu thøc, c¸c quan s¸t kh¸c sÏ bÞ xo¸ ®i
keep [®iÒu kiÖn] LÖnh nµy gi÷ l¹i c¸c quan s¸t ®îc chØ ra bëi ph¹m vi (vµ cã thÓ tho¶ m·n ®iÒu kiÖn biÓu thøc), c¸c quan s¸t kh¸c sÏ bÞ xo¸ ®i. VÝ dô: 31
drop poor urban98 drop if sex==1 b»ng 1 drop in 1/20
Xo¸ 2 biÕn poor vµ urban98 Xo¸ c¸c quan s¸t cã biÕn sex nhËn gi¸ trÞ Xo¸ quan s¸t tõ 1 ®Õn 20
keep househol xo¸ ®i
ChØ gi÷ l¹i biÕn househol, c¸c biÕn kh¸c bÞ
keep in f/50 kh¸c bÞ xo¸ ®i
Gi÷ l¹i quan s¸t tõ ®Çu tiªn ®Õn 50, c¸c quan s¸t
4.4. LÖnh ®æi gi¸ trÞ cña biÕn ph©n lo¹i Có ph¸p: recode gi¸ trÞ cò = gi¸ trÞ míi [®iÒu kiÖn] [ph¹m vi] LÖnh nµy ®æi gi¸ trÞ cña biÕn ph©n lo¹i theo c¸c quy t¾c ®îc chØ ra ë sau ®ã. VÝ dô: . recode sex 0=1 (0 changes made) . recode sex . = 0 (0 changes made) . recode hhsize 1/5=1 6/10 = 2 * = 3 (5785 changes made) . tab hhsize Household | size | Freq. Percent Cum. ------------+----------------------------------1 | 4164 69.41 69.41 2 | 1786 29.77 99.18 3 | 49 0.82 100.00 ------------+----------------------------------Total | 5999 100.00 . tab urban98 1:urban 98; | 0:rural 98 | Freq. Percent Cum. ------------+----------------------------------Rural | 4269 71.16 71.16 Urban | 1730 28.84 100.00 ------------+----------------------------------Total | 5999 100.00
. recode urban98 0=1 1=0 (5999 changes made)
32
. tab urban98 1:urban 98; | 0:rural 98 | Freq. Percent Cum. ------------+----------------------------------Rural | 1730 28.84 28.84 Urban | 4269 71.16 100.00 ------------+----------------------------------Total | 5999 100.00
4.5. LÖnh g¸n nh·n cho biÕn G¸n nh·n cho biÕn Có ph¸p: label variable “Nh·n cña biÕn” LÖnh nµy g¸n nh·n lµ mét dÉy ký tù cho biÕn. VÝ dô: . gen ngheo=poor . des ngheo storage display value variable name type format label variable label --------------------------------------------------------------------------ngheo float %9.0g . tab ngheo ngheo | Freq. Percent Cum. ------------+----------------------------------0 | 4222 70.38 70.38 1 | 1777 29.62 100.00 ------------+----------------------------------Total | 5999 100.00 . label var ngheo "Nguoi co thu nhap duoi chuan ngheo" . tab ngheo Nguoi co | thu nhap | duoi chuan | ngheo | Freq. Percent Cum. ------------+----------------------------------0 | 4222 70.38 70.38 1 | 1777 29.62 100.00 ------------+----------------------------------Total | 5999 100.00 . des ngheo storage display value variable name type format label variable label ---------------------------------------------------------------------------ngheo float %9.0g Nguoi co thu nhap duoi chuan ngheo
33
G¸n gi¸ trÞ cho biÕn ph©n lo¹i label define # "nh·n" [# "nh·n" ...] [, add modify] label dir label list label drop {tªn bé nh·n [tªn bé nh·n ...] | _all} label values [tªn bé nh·n] LÖnh label define g¸n nh·n cho mét bé gi¸ trÞ sè. Tªn cña bé nh·n ®îc chØ ra sau tõ kho¸ define, # lµ gi¸ trÞ sè, “nh·n” lµ chuçi ký tù t¬ng øng víi gi¸ trÞ sè ®Êy. Cã hai tuú chän ë ®©y: tuú chän add thªm gi¸ trÞ vµ nh·n t¬ng øng vµo 1 bé nh·n ®· cã s½n. Tuú chän modify cho phÐp söa ch÷a gi¸ trÞ vµ nh·n cña 1 bé nh·n ®· cã s½n. LÖnh label dir hiÓn thÞ nh÷ng bé nh·n cã s½n, cßn lÖnh label list hiÓn thÞ gi¸ trÞ cña bé nh·n ®îc chØ ra. LÖnh label drop xo¸ c¸c bé nh·n cã s½n. VÝ dô: T¹o nh·n cã tªn lµ nngheo víi gi¸ trÞ 1 cã nghÜa lµ ngêi nghÌo, cßn 0 cã nghÜa lµ ngêi kh«ng nghÌo. . label define nngheo 0 "Ngheo" 1 "Khong ngheo" . label dir nngheo region loaiho diploma urban agegroup . label list nngheo nngheo: 0 Khong ngheo 1 Ngheo . label drop _all . label dir
LÖnh label values sÏ g¸n c¸c nh·n cña 1 bé nh·n cho c¸c gi¸ trÞ sè cña 1 biÕn ph©n lo¹i. VÝ dô: . tab ngheo ngheo |
Freq.
Percent
Cum.
34
------------+----------------------------------0 | 4222 70.38 70.38 1 | 1777 29.62 100.00 ------------+----------------------------------Total | 5999 100.00 . list ngheo in 1/5
1. 2. 3. 4. 5.
ngheo 1 0 1 1 0
. label values ngheo nngheo . tab ngheo ngheo | Freq. Percent Cum. ------------+----------------------------------Ngheo | 4222 70.38 70.38 Khong ngheo | 1777 29.62 100.00 ------------+----------------------------------Total | 5999 100.00 . list ngheo in 1/5 ngheo 1. Khong ngheo 2. Ngheo 3. Khong ngheo 4. Khong ngheo 5. Ngheo
4.6. S¾p xÕp sè liÖu Có ph¸p: sort [ph¹m vi] gsort [+|-]tªn biÕn [[+|-]tªn biÕn [...]] LÖnh sort s½p xÕp quan s¸t theo thø tù t¨ng dÇn cña gi¸ trÞ cña c¸c biÕn ®îc chØ ra trong danh s¸ch biÕn. LÖnh gsort cho phÐp s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña cña c¸c biÕn (danh s¸ch biÕn), nÕu dÊu + ®îc chØ ra (®©y còng lµ gi¸ trÞ ngÇm ®Þnh), hoÆc theo thø tù gi¶m dÇn, nÕu dÊu - ®îc chØ ra. VÝ dô:
35
sort reg7 hhsize
LÖnh nµy s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña biÕn vïng reg7, trong mçi vïng c¸c quan s¸t l¹i ®îc s½p xÕp theo thø tù t¨ng dÇn cña biÕn quy m« hé hhsize.
gsort reg7 –hhsize LÖnh nµy s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña biÕn vïng reg7, nhng trong mçi vïng c¸c quan s¸t l¹i ®îc s½p xÕp theo thø tù gi¶m dÇn cña biÕn quy m« hé hhsize. 4.7. Trén sè liÖu LÖnh thu gän sè liÖu - collapse Có ph¸p: collapse [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, by(danh s¸ch biÕn)] trong ®ã: BiÓu thøc thèng kª lµ danh s¸ch c¸c thèng kª vµ c¸c biÕn t¬ng øng. C¸c thèng kª ®îc ký hiÖu nh môc 3.12 cña ch¬ng nµy. LÖnh collapse sÏ t¹o ra mét tÖp sè liÖu míi bao gåm c¸c biÕn ®îc chØ ra bëi danh s¸ch biÕn, víi c¸c gi¸ trÞ ®îc tÝnh theo thèng kª t¬ng øng. C¸c quan s¸t cña tÖp sè liÖu cò sÏ ®îc nhãm l¹i theo c¸c gi¸ trÞ cïng lo¹i cña biÕn ®îc chØ ra bëi by(danh s¸ch biÕn). VÝ dô: Chóng ta cã file sè liÖu vÒ thu nhËp vµ chi tiªu cña c¸c hé thµnh viªn trong gia ®×nh: ma_tv ma_ho thunhap Chitieu 1 101 200 500 2 101 1200 400 3 101 0 200 4 101 0 200 1 102 3200 500 2 102 1200 320 3 102 200 200 1 103 300 500 2 103 2100 250 3 103 0 300 4 103 0 300 1 104 4300 800 2 104 3500 500 3 104 300 500 4 104 0 300 5 104 0 200 6 104 0 200 Chóng ta sÏ dïng lÖnh collapse ®Ó t¹o file vÒ thu nhËp vµ chi tiªu b×nh qu©n cña c¸c hé, vµ t¹o thªm 1 biÕn vÒ qui m« hé. 36
. gen quimo=1 . collapse (mean) thunhap (mean) chitieu (sum) quimo, by(ma_ho) TÖp sè liÖu míi cã d¹ng: ma_ho thunhap chitieu quimo 101 350 325 4 102 1533.33 340 3 103 600 337.5 4 104 1350 416.667 6 KÕt hîp sè liÖu - lÖnh merge Có ph¸p: merge [danh s¸ch biÕn] using [, update replace] LÖnh merge sÏ nèi c¸c quan s¸t cña tÖp sè liÖu ®ang më trong Stata (gäi lµ tÖp chñ (master dataset)) víi c¸c quan s¸t t¬ng øng cña tÖp sè liÖu kh¸c ®îc chØ ra sau tõ kho¸ using (gäi lµ tÖp sö dông (using dataset)) thµnh 1 tÖp míi. C¸c biÕn chØ ra trong danh s¸ch biÕn ®îc gäi lµ biÕn x¸c ®Þnh (identifying variables), vµ ph¶i ®îc s½p xÕt b»ng lÖnh sort (hoÆc gsort) tríc khi thùc hiÖn lÖnh merge. VÝ dô: Chóng ta cã 2 tÖp sè liÖu nh sau: thunhap.dta ma_ho thunhap chitieu 101 350 325 102 1533.33 340 103 600 337.5 104 1350 416.667 dialy.dta
quimo 4 3 4 6
ma_ho thanhthi vung 204 0 1 102 1 4 103 0 3 104 0 6 LÖnh merge sÏ ®îc thùc hiÖn nh sau: . use "C:\dialy.dta", clear . sort ma_ho . save "C:\dialy.dta" file C:\dialy.dta saved . use "C:\thunhap.dta", clear . sort ma_ho . merge ma_ho using "C:\dialy.dta" 37
ma_ho was byte now int . edit TÖp kÕt qu¶ cã d¹ng nh sau: ma_ho thunhap chitieu quimo thanhthi vung _merge 101 350 325 4 . . 1 102 1533.33 340 3 1 4 3 103 600 337.5 4 0 3 3 104 1350 416.667 6 0 6 3 204 . . . 0 1 2 Trong tÖp kÕt qu¶ cã thªm 1 biÕn tªn lµ _merge, biÕn nµy nhËn c¸c gi¸ trÞ nh sau: _merge==1 NÕu nh quan s¸t chØ ®îc t¹o tõ tÖp chñ _merge==2
NÕu nh quan s¸t chØ ®îc t¹o tõ sö dông
_merge==3
NÕu nh quan s¸t ®îc t¹o tõ c¶ tÖp chñ vµ tÖp sö dông
C¸c tuú chän: Trong trêng hîp hai tÖp sè liÖu cã c¸c biÕn trïng nhau, c¸c tuú chän sau ®©y cho phÐp xö lý sè liÖu theo c¸c c¸ch kh¸c nhau: update
NÕu sè liÖu cña biÕn trïng nhau cña tÖp chñ cã gi¸ trÞ thiÕu th× gi¸ trÞ thiÕu nµy nhËn gi¸ trÞ cña biÕn trïng nhau cña tÖp sö dông.
replace
Gi¸ trÞ cña biÕn trïng nhau cña tÖp chñ sÏ nhËn gi¸ trÞ cña biÕn trïng nhau cña tÖp sö dông.
NÕu kh«ng tuú chän nµo ®îc chØ ra th× theo ngÇm ®Þnh, gi¸ trÞ cña biÕn cña tÖp chñ sÏ kh«ng thay ®æi. Nèi sè liÖu – lÖnh append Có ph¸p: append using LÖnh nµy cho phÐp nèi tÖp ®îc chØ ra bëi using vµo víi tÖp ®ang ®îc më theo c¸c biÕn cã cïng tªn vµ ®Þnh d¹ng. Sè quan s¸t cña tÖp míi b»ng tæng sè sè quan s¸t cña 2 tÖp. VÝ dô: cã tÖp thunhap2.dta nh sau ma_ho thunhap chitieu gioitinh 105 1350 425 1 106 1500 370 0 107 800 556 0 108 1500 417 0 109 2500 540 1 Hai tÖp nµy sÏ ®îc nèi víi nhau b»ng lÖnh append nh sau: . use "C:\thunhap.dta", clear 38
. append using "C:\thunhap2.dta" . edit TÖp kÕt qu¶ cã d¹ng: ma_ho thunhap chitieu quimo gioitinh 101 350 325 4 102 1533.33 340 3 103 600 337.5 4 104 1350 416.667 6 105 1350 425 1 106 1500 370 0 107 800 556 0 108 1500 417 0 109 2500 540 1 Chó ý: Xem thªm lÖnh expand dung ®Ó t¹o ra c¸c quan s¸t gièng nhau. 4.8. ChuyÓn d¹ng sè liÖu Có ph¸p: reshape wide , i(danh s¸ch biÕn) [ j(tªn biÕn [values]) ... ] reshape long [values]) ... ]
,
i(danh
s¸ch
biÕn)
[
j(tªn
biÕn
reshape wide reshape long LÖnh nµy cho phÐp chuyÓn sè liÖu tõ d¹ng ngang sang sè liÖu d¹ng däc (tuú chän long), vµ tõ d¹ng däc sang d¹ng ngang (tuú chän wide). i(danh s¸ch biÕn) chØ ra biÕn x¸c ®Þnh (indentifying variables) dïng ®Ó ph©n biÖt c¸c quan s¸t víi nhau trong sè liÖu d¹ng ngang (gäi lµ quan s¸t cÊp 1). j(tªn biÕn) chØ ra biÕn dïng ®Ó ph©n biÖt gi÷a c¸c quan s¸t cÊp 2 ë sè liÖu d¹ng däc. VÝ dô 1: Chóng ta cã thÓ sè liÖu d¹ng b¶ng ngang nh mét ma trËn nh sau: -i-
-------------------- xÞj ------------------mah quim thunhap thunhap thunhap o o 95 96 97 101 5 4500 4400 5400 102 4 3400 3300 3700 103 6 5000 5400 5500 sè liÖu nµy sÏ ®îc chuyÓn sang d¹ng b¶ng däc nh sau: -imaho 101
quimo 5
-jnam 95
- xji thunhap 4500 39
101 5 96 101 5 97 102 4 95 102 4 96 102 4 97 103 6 95 103 6 96 103 6 97 Vµ lÖnh reshape sÏ ®îc viÕt nh sau:
4400 5400 3400 3300 3700 5000 5400 5500
. reshape long thunhap, i(maho) j(nam) (note: j = 95 96 97) Data wide -> long --------------------------------------------------------------------Number of obs. 3 -> 9 Number of variables 5 -> 4 j variable (3 values) -> nam xij variables: thunhap95 thunhap96 thunhap97 -> thunhap --------------------------------------------------------------------* Va chuyen nguoc lai tu dang doc sang dang ngang nhu sau . reshape wide thunhap, i(maho) j(nam) (note: j = 95 96 97) Data long -> wide -----------------------------------------------------------------------Number of obs. 9 -> 3 Number of variables 4 -> 5 j variable (3 values) nam -> (dropped) xij variables: thunhap -> thunhap95 thunhap96 thunhap97 ----------------------------------------------------------------------
VÝ dô 2: Chóng ta cã sè liÖu d¹ng b¶ng sau ®©y: maho 101
sotien 1 1200
nguon1
sotien 2 2000
“Ngan hang A” 102 1300 “Ngan hang . B” 103 2500 “Ngan hang 1000 A” 104 3000 “Ngan hang 2000 A” B¶ng nµy ®îc chuyÓn sang b¶ng d¹ng däc nh
nguon2 “Ngan hang A” . “Ngan hang C” “Ngan hang B” sau:
. reshape long sotien nguon, i(maho) j(lanvay)
40
(note: j = 1 2) Data wide -> long --------------------------------------------------------------------Number of obs. 4 -> 8 Number of variables 5 -> 4 j variable (2 values) -> lanvay xij variables: sotien1 sotien2 -> sotien nguon1 nguon2 -> nguon ---------------------------------------------------------------------
B¶ng däc cã d¹ng nh sau: maho 101 101 102 102 103 103 104 104
lanvay 1 2 1 2 1 2 1 2
sotien 1200 2000 1300
nguon Ngan hang A Ngan hang A Ngan hang B
2500 1000 3000 2000
Ngan hang A Ngan hang C Ngan hang A Ngan hang B
5. QuyÒn sè trong VHLSS (Weight) 5.1. QuyÒn sè trong ®iÒu tra chän mÉu Trong ®iÒu tra chän mÉu, c¸c quan s¸t ®îc lùa chän mét c¸ch ngÉu nhiªn nhng th«ng thêng c¸c quan s¸t thêng cã x¸c suÊt lùa chän kh¸c nhau. QuyÒn sè b»ng gi¸ trÞ nghÞch ®¶o cña x¸c suÊt ®îc chän vµo mÉu. NÕu nh quan s¸t i cã quyÒn sè lµ wi th× cã thÓ nãi quan s¸t i trong mÉu ®¹i diÖn cho wi phÇn tö trong tæng thÓ. C¸c íc lîng suy diÔn vÒ tæng thÓ cÇn ph¶i tÝnh ®Õn quyÒn sè chän mÉu, nÕu kh«ng th× kÕt qu¶ sÏ bÞ sai lÖch. VÝ dô: Gi¶ sö miÒn §ång b»ng S«ng Hång gåm 2 tØnh lµ Hµ Néi vµ B¾c Ninh víi d©n sè t¬ng øng lµ 4.5 triÖu vµ 500 ngh×n ngêi. Chóng ta muèn chän mét mÉu ngÉu nhiªn víi cì mÉu lµ 500 quan s¸t ®Ó nghiªn cøu vÒ thu nhËp cña §ång b»ng S«ng Hång còng nh 2 tØnh nµy. NÕu nh theo tû lÖ vÒ d©n sè gi÷a 2 tØnh th× chóng ta sÏ thu ®îc mÉu gåm 450 hé t¹i Hµ Néi vµ 50 hé t¹i Nam §Þnh. Tuy nhiªn mÉu ®îc chän mét c¸ch ngÉu nhiªn trªn c¶ vïng nªn sÏ cã kh¶ n¨ng lµ chóng ta thu ®îc mét mÉu mµ kh«ng cã quan s¸t nµo cña tØnh Nam §Þnh, hoÆc cã víi sè lîng rÊt nhá. §Ó cho mÉu mang tÝnh ®¹i diÖn cho c¸c tØnh th× nªn chän 400 quan s¸t t¹i Hµ Néi vµ 100 quan s¸t t¹i Nam §Þnh. NÕu thu nhËp b×nh qu©n cña Hµ Néi lµ 900 ngh×n/ th¸ng, vµ cña Nam §Þnh lµ 300 ngh×n/th¸ng th× thu nhËp b×nh qu©n cña c¶ vïng §ång b»ng S«ng Hång kh«ng thÓ tÝnh lµ (900 + 300)/2, v× c¸c quan s¸t trong mÉu 41
kh«ng ®îc chän tû lÖ víi c¸c tØnh. Mçi quan s¸t t¹i Hµ néi ®¹i diÖn cho 11250 hé trong vïng (4500000/400). §©y chÝnh lµ quyÒn sè cña quan s¸t, b»ng gi¸ trÞ nghÞch ®¶o cña x¸c suÊt ®îc chän vµo mÉu. Cßn mçi quan s¸t t¹i Nam §Þnh ®¹i diÖn cho 50000 quan s¸t cña vïng (500000/100). Thu nhËp cña vïng §ång b»ng S«ng Hång sÏ ®îc tÝnh nh sau: Thu nhap =
900 × 400 ×11250 + 300 ×100 × 50000 = 840 400 ×11250 + 100 × 50000
Trong VLSS 1998 cã 2 quyÒn sè. Thø nhÊt lµ quyÒn sè hé, biÕn wt, chÝnh lµ sè hé cña ViÖt Nam mµ mçi hé ®¹i diÖn. QuyÒn sè thø hai lµ quyÒn sè cña thµnh viªn hé, hhsizewt lµ sè ngêi ViÖt Nam mµ mçi thµnh viªn cña hé ®¹i diÖn. QuyÒn sè cña thµnh viªn hé b»ng quyÒn sè hé nh©n víi quy m« hé. VÝ dô: QuyÒn sè trong VLSS 1998 . tab reg7, sum(wt) Code by 7 | Summary of sample quyÒn sè regions | Mean Std. Dev. Freq. ------------+-----------------------------------region1 | 3218.4296 850.74246 859 region2 | 3133.7277 849.12325 1175 region3 | 3185.1794 801.74266 708 region4 | 2199.37 492.37202 754 region5 | 1336.3098 269.14747 368 region6 | 1963.8964 528.69328 1023 region7 | 2938.2122 547.72125 1112 ------------+-----------------------------------Total | 2688.5003 900.01379 5999 . tab reg7, sum(hhsizewt) Code by 7 | Summary of =hhsize*wt regions | Mean Std. Dev. Freq. ------------+-----------------------------------region1 | 15790.857 7555.7552 859 region2 | 12656.003 5970.9089 1175 region3 | 14814.504 7236.7592 708 region4 | 10794.537 5235.562 754 region5 | 7564.731 3185.9336 368 region6 | 9447.7077 4535.0816 1023 region7 | 14653.702 6639.8297 1112 ------------+-----------------------------------Total | 12636.546 6597.6574 5999 . di 2688.5003*5999 16128313 . di 12636.546*5999 75806639
5.2. C¸c lùa chän vÒ quyÒn sè 42
Stata cho phÐp sö dông 4 lo¹i lo¹i quyÒn sè sau ®©y: fweights:
quyÒn sè tÇn suÊt (frequency weights), Stata sÏ hiÓu quyÒn sè ë ®©y cã nghÜa lµ sè lÇn mµ mçi quan s¸t mçi quan s¸t ®îc lÆp l¹i trong tÝnh to¸n.
pweights:
quyÒn sè chän mÉu (sampling weights), Stata sÏ hiÓu quyÒn sè lµ gi¸ trÞ nghÞch ®¶o cña x¸c suÊt ®îc chän vµo mÉu, hay sè phÇn tö trong t«ng thÓ mµ mçi quan s¸t trong mÉu ®¹i diÖn.
aweights
quyÒn sè ph©n tÝch (analytical weights), Stata sÏ hiÓu quyÒn sè tû lÖ nghÞch víi ph¬ng sai cña quan s¸t.
iweights
quyÒn sè quan träng (importance weights), ®©y lµ quyÒn sè chØ møc ®é quan träng cña c¸c quan s¸t.
§èi víi §iÒu tra møc sèng c¸c lÖnh sö dông quyÒn sè pweights vµ fweights. VÝ dô: . sum poor Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------poor | 5999 29.6216 45.66255 0 100 . sum poor [fw=hhsize] Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------poor | 28509 34.17517 47.43051 0 100 . . .
tab
reg7 urban98
| 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 672 187 | 859 region2 | 783 392 | 1175 region3 | 600 108 | 708 region4 | 502 252 | 754 region5 | 368 0 | 368 region6 | 514 509 | 1023 region7 | 830 282 | 1112 -----------+----------------------+---------Total | 4269 1730 | 5999
. .
tab
reg7 urban98 [fw= hhsizewt] |
1:urban 98; 0:rural
43
Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 11993763 1570583 | 13564346 region2 | 11057932 3812871 | 14870803 region3 | 9582621 906048 | 10488669 region4 | 5618709 2520372 | 8139081 region5 | 2783821 0 | 2783821 region6 | 4545303 5119702 | 9665005 region7 | 13220727 3074190 | 16294917 -----------+----------------------+---------Total | 58802876 17003766 | 75806642
. tab reg7 urban98 , sum(hhsize) means Means of Household size | 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 5.1205357 3.7326203 | 4.8183935 region2 | 4.045977 4.0459184 | 4.0459574 region3 | 4.6666667 4.6759259 | 4.6680791 region4 | 4.8027888 5.1190476 | 4.9084881 region5 | 5.7065217 . | 5.7065217 region6 | 5.0719844 4.7131631 | 4.8934506 region7 | 5.1373494 4.3971631 | 4.9496403 -----------+----------------------+---------Total | 4.8702272 4.4612717 | 4.752292 . tab reg7 urban98 [fw=wt], sum(hhsize) means Means and Number of Observations of Household size | 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban | Total -----------+----------------------+---------region1 | 5.1328749 3.6698008 | 4.9063857 | 2336656 427975 | 2764631 -----------+----------------------+---------region2 | 4.0564115 3.987975 | 4.0386415 | 2726038 956092 | 3682130 -----------+----------------------+---------region3 | 4.6508908 4.6530097 | 4.6510738 | 2060384 194723 | 2255107 -----------+----------------------+---------region4 | 4.8136253 5.132367 | 4.9080132 | 1167251 491074 | 1658325 -----------+----------------------+---------region5 | 5.6609112 . | 5.6609112 | 491762 0 | 491762 -----------+----------------------+---------region6 | 5.0486426 4.6174858 | 4.8106956
44
| 900302 1108764 | 2009066 -----------+----------------------+---------region7 | 5.1494132 4.3925283 | 4.9872852 | 2567424 699868 | 3267292 -----------+----------------------+---------Total | 4.8003065 4.3841133 | 4.7002214 | 12249817 3878496 | 16128313 . . table reg7 urban98 , c(mean poor) col row format(%4.1f) ------------------------------| 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban Total ----------+-------------------region1 | 61.5 8.0 49.8 region2 | 32.6 5.9 23.7 region3 | 44.8 10.2 39.5 region4 | 37.3 11.5 28.6 region5 | 47.3 47.3 region6 | 12.5 2.2 7.3 region7 | 35.8 10.3 29.3 | Total | 38.9 6.8 29.6 ------------------------------. table reg7 urban98 [pw=hhsizewt], c(mean poor) col row format(%4.1f) ------------------------------| 1:urban 98; 0:rural Code by 7 | 98 regions | Rural Urban Total ----------+-------------------region1 | 65.2 8.3 58.6 region2 | 36.1 7.0 28.7 region3 | 51.3 14.3 48.1 region4 | 43.6 16.6 35.2 region5 | 52.4 52.4 region6 | 13.0 2.9 7.6 region7 | 42.0 15.3 36.9 | Total | 45.5 9.2 37.4 -------------------------------
Ch¬ng III: KiÓm ®Þnh gi¶ thiÕt vµ ph©n tÝch håi quy
1. ¦íc lîng vµ kiÓm ®Þnh gi¶ thiÕt (Estimation and hypothesis testing) 1.1.
¦íc lîng gi¸ trÞ trung b×nh b»ng kho¶ng tin cËy
Có ph¸p: 45
ci [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, level(#) binomial poisson exposure(tªn biÕn) total] LÖnh nµy tÝnh sai sè chuÈn vµ kho¶ng tin cËy cho gi¸ trÞ trung b×nh cña mÉu theo quy luËt chuÈn, nhÞ thøc vµ Poatx«ng. C¸c tuú chän: level(#)
chØ ®Þnh møc ®é tin cËy cho íc lîng kho¶ng tin cËy. # nhËn gi¸ trÞ tõ 10 ®ªn 99, gi¸ trÞ ngÇm ®Þnh lµ 95.
binomial
¸p dông cho quy luËt nhÞ thøc
poisson
¸p dông cho quy luËt Poatx«ng
exposure(tªn biÕn)
¸p dông cho quy luËt Poatx«ng, tªn biÕn chØ ra biÕn “thêi lîng” (th«ng thêng lµ thêi gian hoÆc diÖn tÝch) mµ trong ®ã x¶y ra c¸c “sù kiÖn” ®îc chØ ra bëi danh s¸ch biÕn
total
dïng khi ma “by prefix” ®îc sö dung, yªu cÇu íc lîng kho¶ng tin cËy cho toµn bé nhãm.
VÝ dô: . ci
poor
Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 5999 29.6216 .5895501 28.46587 30.77733 . . . sort reg7 . by reg7: ci poor, total _______________________________________________________________________________ -> reg7 = region1 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 859 49.82538 1.706961 46.47507 53.17569 _______________________________________________________________________________ -> reg7 = region2 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 1175 23.65957 1.240357 21.22601 26.09314 _______________________________________________________________________________ -> reg7 = region3
46
Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 708 39.54802 1.838899 35.93767 43.15838 _______________________________________________________________________________ -> reg7 = region4 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 754 28.64721 1.64759 25.4128 31.88163 _______________________________________________________________________________ -> reg7 = region5 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 368 47.28261 2.606121 42.1578 52.40741 _______________________________________________________________________________ -> reg7 = region6 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 1023 7.331378 .8153306 5.731465 8.931292 _______________________________________________________________________________ -> reg7 = region7 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 1112 29.31655 1.365709 26.63689 31.99621 _______________________________________________________________________________ -> Total Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------poor | 5999 29.6216 .5895501 28.46587 30.77733
Chó ý: C¸c lÖnh íc lîng cã thÓ ®îc sö dông khi biÕt c¸c tham sè vÒ mÉu. §©y cã thÓ ®îc gäi lµ “c¸c lÖnh sö dông tham sè trùc tiÕp” (Commands using immediate arguments). C¸c lÖnh nµy rÊt h÷u dông khi chóng ta kh«ng cã sè liÖu gèc vÒ biÕn. cii [, level(#) ] (ph©n phèi chuÈn) cii [, level(#) ] (ph©n phèi nhÞ thøc)
47
#obs chØ ra sè quan s¸t, #succ chØ ra sè lÇn gi¸ trÞ biÕn nhËn gi¸ trÞ t¬ng øng víi phÐp thö thµnh c«ng (th«ng thêng nhËn gi¸ trÞ b»ng 1) cii poisson [ level(#) ] (ph©n phèi Poatx«ng) VÝ dô: . cii 5999 1777, level (90) -- Binomial Exact -Variable | Obs Mean Std. Err. [90% Conf. Interval] -------------+------------------------------------------------------------| 5999 .296216 .005895 .2865107 .3060676 . cii 12 27, poisson -- Poisson Exact -Variable | Exposure Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------| 12 2.25 .4330127 1.483144 3.273587
1.2.
KiÓm ®Þnh gi¶ thuyÕt thèng kª
1.2.1. KiÓm ®Þnh gi¸ trÞ trung b×nh cña mÉu Ph©n phèi kh«ng mét Có ph¸p: prtest = # [®iÒu kiÖn] [ph¹m vi] [, level(#)] LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ tû lÖ gi¸ trÞ cña biÕn ph©n phèi theo quy luËt kh«ng mét (Ho: p = p0). VÝ dô: . prtest poor=0.44 if reg7==1 One-sample test of proportion
poor: Number of obs =
859
---------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-----------------------------------------------------------------poor | .4982538 .0170597 29.2065 0.0000 .4648174 .5316901 ---------------------------------------------------------------------------Ho: proportion(poor) = .44 Ha: poor < .44 z = 3.440 P < z = 0.9997
Ha: poor ~= .44 z = 3.440 P > |z| = 0.0006
Ha: poor > .44 z = 3.440 P > z = 0.0003
prtest = [®iÒu kiÖn] [ph¹m vi] [, level(#)] 48
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai gi¸ trÞ biÕn ®îc chØ ra bëi tªn biÕn (Ho: pX = pY). VÝ dô: KiÓm ®Þnh xem tû lÖ nghÌo ®ãi gi÷a vïng 2 vµ vïng 4 cã khac nhau kh«ng: . gen poor2=poor if reg7==2 (4824 missing values generated) . gen poor4=poor if reg7==4 (5245 missing values generated) . prtest poor2 = poor4 Two-sample test of proportion
poor2: Number of obs = poor4: Number of obs =
1175 754
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------poor2 | .2365957 .0123983 19.0829 0.0000 .2122955 .2608959 poor4 | .2864721 .016465 17.3989 0.0000 .2542014 .3187429 ---------+-------------------------------------------------------------------diff | -.0498764 .020611 -.0902732 -.0094796 | under Ho: .0203666 -2.44893 0.0143 -----------------------------------------------------------------------------Ho: proportion(poor2) - proportion(poor4) = diff = 0 Ha: diff < 0 z = -2.449 P < z = 0.0072
prtest [level(#)]
Ha: diff ~= 0 z = -2.449 P > |z| = 0.0143
[®iÒu
kiÖn]
[ph¹m
Ha: diff > 0 z = -2.449 P > z = 0.9928
vi],
by(biÕn
ph©n
nhãm)
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai nhãm ®îc chØ ra bëi biÕn ph©n nhãm (Ho: pX1 = pX2). VÝ dô: . prtest poor, by(sex) Two-sample test of proportion
1: Number of obs = 2: Number of obs =
4375 1624
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------1 | .3248 .00708 45.8755 0.0000 .3109234 .3386766 2 | .2192118 .0102661 21.353 0.0000 .1990906 .239333 ---------+-------------------------------------------------------------------diff | .1055882 .0124708 .0811459 .1300304 | under Ho: .0132673 7.95855 0.0000 -----------------------------------------------------------------------------Ho: proportion(1) - proportion(2) = diff = 0
49
Ha: diff < 0 z = 7.959 P < z = 1.0000
Ha: diff ~= 0 z = 7.959 P > |z| = 0.0000
Ha: diff > 0 z = 7.959 P > z = 0.0000
Ph©n phèi nhÞ thøc Có ph¸p: bitest = #p [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] LÖnh nµy kiÓm ®Þnh gi¶ thuyÕt vÒ tham sè p trong quy luËt nhÞ thøc (x¸c suÊt thµnh c«ng cña phÐp thö) cña biÕn ®îc chØ ra bëi tªn biÕn. (Ho: p = p0) VÝ dô: . bitest poor=0.44 if reg7==1 Variable | N Observed k Expected k Assumed p Observed p -------------+-----------------------------------------------------------poor | 859 428 377.96 0.44000 0.49825 Pr(k >= 428) = 0.000344 Pr(k = 428) = 0.000344 Pr(k |t| = 0.7444
Ha: mean > 3200 t = -0.3260 P > t = 0.6278
ttest = [®iÒu kiÖn] [ph¹m vi] [, unpaired unequal level(#) ] LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt r»ng hai biÕn cã gi¸ trÞ trung b×nh b»ng nhau. (Ho: µ
X
= µ Y).
C¸c tuú chän: unpaired
Sè liÖu cña hai biÕn kh«ng cïng cÆp
unequal
Phu¬ng sai cña hai biÕn kh«ng b»ng nhau
VÝ dô: . ttest poor2=poor4, unpaired unequal Two-sample t test with unequal variances -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------poor2 | 1175 .2365957 .0124036 .425173 .2122601 .2609314 poor4 | 754 .2864721 .0164759 .4524128 .254128 .3188163 ---------+-------------------------------------------------------------------combined | 1929 .2560912 .0099404 .436586 .2365962 .2755863 ---------+-------------------------------------------------------------------diff | -.0498764 .0206229 -.0903285 -.0094243 -----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 1532.64 Ho: mean(poor2) - mean(poor4) = diff = 0 Ha: diff < 0 t = -2.4185 P < t = 0.0079
Ha: diff ~= 0 t = -2.4185 P > |t| = 0.0157
Ha: diff > 0 t = -2.4185 P > t = 0.9921
ttest [®iÒu kiÖn] [ph¹m vi], by(biÕn ph©n nhãm) [ unequal level(#) ] LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña gi¸ trÞ trung b×nh cña hai nhãm ®îc chØ ra bëi biÕn ph©n nhãm (Ho: µ
X1
=µ
X2
).
VÝ dô: 51
. ttest
rlpcex1, by(sex)
Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------1 | 4375 2980.906 36.74795 2430.648 2908.862 3052.951 2 | 1624 3748.368 80.18189 3231.241 3591.097 3905.638 ---------+-------------------------------------------------------------------combined | 5999 3188.667 34.76379 2692.567 3120.518 3256.817 ---------+-------------------------------------------------------------------diff | -767.4613 77.6155 -919.6156 -615.3071 -----------------------------------------------------------------------------Degrees of freedom: 5997 Ho: mean(1) - mean(2) = diff = 0 Ha: diff < 0 t = -9.8880 P < t = 0.0000
Ha: diff ~= 0 t = -9.8880 P > |t| = 0.0000
Ha: diff > 0 t = -9.8880 P > t = 1.0000
1.2.2. KiÓm ®Þnh gi¸ trÞ ®é lÖch chuÈn Có ph¸p: sdtest = # [®iÒu kiÖn] [ph¹m vi] [, level(#) ] sdtest = [®iÒu kiÖn] [ph¹m vi] [, level(#) ] sdtest [®iÒu kiÖn] [ph¹m vi] , by(biÕn ph©n nhãm) [ level(#) ] LÖnh nµy kiÓm dÞnh tham sè ®é lÖch chuÈn cña biÕn ngÉu nhiªn tu©n theo quy luËt chuÈn ®îc chØ ra bëi tªn biÕn. Có ph¸p cña lÖn nµy t¬ng tù víi có ph¸p cña lÖnh ttest VÝ dô: . sum
rlpcex1
Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------rlpcex1 | 5999 3188.667 2692.567 357.318 45801.71 . sdtest rlpcex1=2700 One-sample test of variance -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------rlpcex1 | 5999 3188.667 34.76379 2692.567 3120.518 3256.817 -----------------------------------------------------------------------------Ho: sd(rlpcex1) = 2700 chi2(5998) = 5965.022 Ha: sd(rlpcex1) < 2700
Ha: sd(rlpcex1) ~= 2700
Ha: sd(rlpcex1) > 2700
52
P < chi2 = 0.3838
2*(P < chi2) = 0.7676
P > chi2 = 0.6162
2. Ph©n tÝch t¬ng quan vµ håi quy (Correlation and regression) 2.1. Ph©n tÝch t¬ng quan Có ph¸p: correlate [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, means covariance _coef wrap] LÖnh nµy tÝnh ma trËn hÖ sè tong quan (correlation coefficient), hoÆc hiÖp ph¬ng sai (covariance) cho c¸c biÕn ®îc liÖt kª trong danh s¸ch biÕn. Sè quan s¸t ®îc dïng lµ sè quan s¸t cña biÕn cã Ýt quan s¸t nhÊt. C¸c tuú chän: means
HiÓn thÞ c¸c thèng kª kh¸c nh gi¸ trÞ trung b×nh, ®é lÖch chuÈn, gi¸ trÞ lín nhÊt, nhá nhÊt
covariance
§a ra ma trËn hiÖp ph¬ng sai thay v× hÖ sè t¬ng quan
_coef
TÝnh ma trËn tu¬ng quan cña c¸c hÖ sè cña íc lîng gÇn nhÊt
wrap
HiÓn thÞ c¸c dßng cña ma trËn liÒn nhau nÕu cã qua nhiÒu c¸c biÕn ®îc liÖt kª
VÝ dô: . corr hhsize poor (obs=5999)
rlpcex1 sex
| hhsize poor rlpcex1 sex -------------+-----------------------------------hhsize | 1.0000 poor | 0.2425 1.0000 rlpcex1 | -0.2172 -0.4452 1.0000 sex | -0.2570 -0.1028 0.1267 1.0000
. corr hhsize poor (obs=5999)
rlpcex1 sex, means cov
Variable | Mean Std. Dev. Min Max -------------+---------------------------------------------------hhsize | 4.752292 1.954292 1 19 poor | .296216 .4566255 0 1 rlpcex1 | 3188.667 2692.567 357.318 45801.71 sex | 1.270712 .4443645 1 2
| hhsize poor rlpcex1 sex -------------+------------------------------------
53
hhsize poor rlpcex1 sex
| 3.81926 | .216435 .208507 | -1142.93 -547.335 | -.223195 -.020849
7.2e+06 151.543
.19746
pwcorr [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, obs sig print(#) star(#)] LÖnh nµy tÝnh hÖ sè t¬ng quan cho tõng cÆp biÕn ®îc chØ ra bëi danh s¸ch biÕn. C¸c tuú chän: obs
HiÓn thÞ sè quan s¸t dïng ®Ó tÝnh hÖ sè t¬ng quan
sig
HiÓn thÞ møc ý nghÜa cña c¸c hÖ sè t¬ng quan
print(#)
ChØ ra møc ý nghÜa theo ®ã chØ c¸c hÖ sè t¬ng quan cã møc ý nghÜa nhá h¬n møc nµy míi ®îc hiÓn thÞ
star(#)
§¸nh dÊu sao ®èi víi c¸c hÖ sè t¬ng quan cã møc ý nghÜ nhá h¬n møc ®îc chØ ra bëi star
VÝ dô: . pwcorr hhsize poor rlpcex1 sex, obs sig star(5) | hhsize poor rlpcex1 sex -------------+-----------------------------------hhsize | 1.0000 | | 5999 | poor | 0.2425* 1.0000 | 0.0000 | 5999 5999 | rlpcex1 | -0.2172* -0.4452* 1.0000 | 0.0000 0.0000 | 5999 5999 5999 | sex | -0.2570* -0.1028* 0.1267* 1.0000 | 0.0000 0.0000 0.0000 | 5999 5999 5999 5999 |
pcorr [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] LÖnh nµy tÝnh hÖ sè t¬ng quan cña biÕn ®îc chØ ra bëi tªn biÕn víi c¸c biÕn ®îc trong danh s¸ch biÕn VÝ dô: 54
. pwcorr poor hhsize
rlpcex1 sex
| poor hhsize rlpcex1 sex -------------+-----------------------------------poor | 1.0000 hhsize | 0.2425 1.0000 rlpcex1 | -0.4452 -0.2172 1.0000 sex | -0.1028 -0.2570 0.1267 1.0000
2.2. Ph©n tÝch håi quy Ph¬ng ph¸p b×nh ph¬ng nhá nhÊt (Ordinary-Least Square) Có ph¸p: regress [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, option] LÖnh nµy íc lîng c¸c hÖ sè cña hµm biÕn phô thuéc (dependent variable) theo c¸c biÕn ®éc lËp (danh s¸ch biÕn) theo ph¬ng ph¸p b×nh ph¬ng nhá nhÊt. VÝ dô: . reg
rlpcex1
reg7
sex
hhsize
Source | SS df MS -------------+-----------------------------Model | 3.8639e+09 3 1.2880e+09 Residual | 3.9621e+10 5995 6609032.15 -------------+-----------------------------Total | 4.3485e+10 5998 7249918.40
Number of obs F( 3, 5995) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
5999 194.88 0.0000 0.0889 0.0884 2570.8
-----------------------------------------------------------------------------rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------reg7 | 240.9633 15.5905 15.46 0.000 210.4003 271.5263 sex | 403.2984 77.38324 5.21 0.000 251.5994 554.9974 hhsize | -305.6382 17.70692 -17.26 0.000 -340.3501 -270.9263 _cons | 3160.201 155.6576 20.30 0.000 2855.056 3465.346 ------------------------------------------------------------------------------
C¸c tuú chän: level(#)
ChØ ra møc tin cËy cho íc lîng kho¶ng tin cËy cña hÖ sè
noconstant
Kh«ng cã hÖ sè (intercept) trong hµm håi quy
noheader
ChØ hiÓn thÞ kÕt qu¶ ph©n tÝch vÒ c¸c hÖ sè
beta
HiÓn thÞ hÖ sè ®îc chuÈn ho¸, dïng ®Ó so s¸nh møc ®é ¶nh hëng cña c¸c hÖ sè víi nhau
Ph¬ng ph¸p kh¶ n¨ng lín nhÊt (Maximum-Likelihood) Có ph¸p: 55
probit [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, tuú chän] LÖnh nµy thùc hiÖn håi quy biÕn phô thuéc theo c¸c biÕn ®îc chØ ra trong danh s¸ch biÕn theo ph¬ng ph¸p kh¶ n¨ng lín nhÊt. BiÕn phô thuéc thêng lµ biÕn gi¶ víi hai gi¸ trÞ 0 vµ 1. VÝ dô: . probit
poor
Iteration Iteration Iteration Iteration
0: 1: 2: 3:
reg7 sex log log log log
hhsize
likelihood likelihood likelihood likelihood
= = = =
-3645.1363 -3367.2185 -3364.8032 -3364.8025
Probit estimates
Log likelihood = -3364.8025
Number of obs LR chi2(3) Prob > chi2 Pseudo R2
= = = =
5999 560.67 0.0000 0.0769
-----------------------------------------------------------------------------poor | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------reg7 | -.116342 .0084551 -13.76 0.000 -.1329136 -.0997703 sex | -.1284525 .0422247 -3.04 0.002 -.2112113 -.0456937 hhsize | .1808115 .0095806 18.87 0.000 .1620338 .1995892 _cons | -.8088731 .0824798 -9.81 0.000 -.9705306 -.6472157 ------------------------------------------------------------------------------
¦íc lîng gi¸ trÞ biÕn phô thuéc vµ phÇn d Có ph¸p: predict [®iÒu kiÖn] [ph¹m vi] [, xb stdp resid] LÖnh nµy ®îc thùc hiÖn sau lÖnh regress (hoÆc probit) ®Ó t¹o ra 1 biÕn míi cã gi¸ trÞ ®îc tÝnh tuú theo tuú chän ®îc chØ ra. C¸c tuú chän: xb quy:
cho phÐp íc lîng gi¸ trÞ cña biÕn phô thuéc thu ®îc tõ hµm håi ˆ +β ˆ X ˆ =β Y i 0 1 i
stdp
íc lîng sai sè chuÈn cña gia trÞ íc lîng: 2 SE i = Var (β0 ) + X i Var (βˆ 1 ) − 2X i Cov (β0 , β1 )
redid
íc lîng gi¸ trÞ phÇn d: ˆ e i = Yi − Y i
VÝ dô: 56
predict exphat, xb T¹o ra biÕn míi exphat cã gi¸ trÞ íc lîng cña biÕn phô thuéc (fitted value) theo hÖ sè thu ®îc tõ hµm håi quy. predict expres, resid T¹o ra biÕn expres cã gi¸ trÞ cña phÇn d. KiÓm ®Þnh vÒ hÖ sè cña hµm håi quy Có ph¸p: test [gi¸ trÞ biÓu thøc] test [danh s¸ch biÕn] testparm [, equal ] LÖnh test kiÓm ®Þnh c¸c gi¶ thiÕt vÒ hÖ sè cña hµm håi quy võa míi ®îc íc lîng VÝ dô: test urban98 =2000 KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn urban98 = 0 test region1 = region2 KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1 b»ng hÖ sè cña biÕn region2 test region1 = (region2+region3)/2 KiÓm ®Þnh gi¶ thiÕt vÒ quan hÖ gi÷a c¸c hÖ sè cña biÕn region1, region2, va region3 test region1 region2 region3 KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1, region2, va region3 ®Òu b»ng 0 testparm region* KiÓm ®Þnh gi¶ thiÕt vÒ cña hÖ sè cña biÕn region1 ®Õn region7 ®Òu b»ng 0
. tab reg7, gen(region) Code by 7 | regions | Freq. Percent Cum. ------------+----------------------------------region1 | 859 14.32 14.32 region2 | 1175 19.59 33.91 region3 | 708 11.80 45.71 region4 | 754 12.57 58.28 region5 | 368 6.13 64.41 region6 | 1023 17.05 81.46 region7 | 1112 18.54 100.00
57
------------+----------------------------------Total | 5999 100.00 . reg
rlpcex1 urban98 region* sex
educyr98 hhsize
Source | SS df MS -------------+-----------------------------Model | 1.6960e+10 10 1.6960e+09 Residual | 2.6525e+10 5988 4429712.49 -------------+-----------------------------Total | 4.3485e+10 5998 7249918.40
Number of obs F( 10, 5988) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
5999 382.87 0.0000 0.3900 0.3890 2104.7
-----------------------------------------------------------------------------rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------urban98 | 1995.163 66.46943 30.02 0.000 1864.859 2125.467 region1 | -923.7066 132.8334 -6.95 0.000 -1184.108 -663.3052 region2 | -362.6047 130.2254 -2.78 0.005 -617.8934 -107.316 region3 | -558.0354 137.1551 -4.07 0.000 -826.9089 -289.1619 region4 | -100.7586 135.8372 -0.74 0.458 -367.0486 165.5313 region5 | (dropped) region6 | 1742.688 131.9928 13.20 0.000 1483.934 2001.441 region7 | 151.9854 128.0272 1.19 0.235 -98.99396 402.9648 sex | 270.9142 66.61031 4.07 0.000 140.3339 401.4944 educyr98 | 153.3281 6.836934 22.43 0.000 139.9253 166.731 hhsize | -257.691 14.73741 -17.49 0.000 -286.5816 -228.8004 _cons | 2362.355 178.3197 13.25 0.000 2012.784 2711.926 -----------------------------------------------------------------------------. test ( 1)
urban98 =2000 urban98 = 2000.0 F(
. test ( 1)
( 1)
region1 - region2 = 0.0
( 1) ( 2) ( 3)
1, 5988) = Prob > F =
34.57 0.0000
region1 = (region2+region3)/2 region1 - .5 region2 - .5 region3 = 0.0 F(
. test
0.01 0.9420
region1 = region2
F(
. test
1, 5988) = Prob > F =
1, 5988) = Prob > F =
27.80 0.0000
region1 region2 region3 region1 = 0.0 region2 = 0.0 region3 = 0.0 F(
3, 5988) = Prob > F =
20.22 0.0000
58
. testparm ( ( ( ( ( ( (
1) 2) 3) 4) 5) 6) 7)
region*
region1 = 0.0 region2 = 0.0 region3 = 0.0 region4 = 0.0 region5 = 0.0 region6 = 0.0 region7 = 0.0 Constraint 5 dropped F(
6, 5988) = Prob > F =
148.55 0.0000
Ch¬ng IV: VÏ ®å thÞ
1. VÏ ®å thÞ (graph) Có ph¸p: graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, lo¹i_®å_thÞ tuú_chän_riªng tuú_chän_chung] Trong ®ã: lo¹i_®å_thÞ (graph_type)
ChØ ra lo¹i ®å thÞ cÇn vÏ
tuú_chän_riªng (specific_options) ®å thÞ
C¸c tuú chän liªn quan ®Õn tõng lo¹i
tuú_chän_chung (common_options) C¸c tuú chän cã thÓ sö dông chung cho c¸c lo¹i ®å thÞ nh tuú chän vÒ ®¸nh nh·n trªn c¸c trôc cña ®å thÞ
Stata cho phÐp vÏ 8 lo¹i ®å thÞ nh sau (graph_type): 59
(1) §å thÞ 2 chiÒu (two-way scatterplots) . graph rlpcex1 age
comp.M&Reg price adj.pc tot exp
45801.7
357.318 16
95
Age of household head
(2) Ma trËn ®å thÞ 2 chiÒu (two-way scatterplot matrices) . gr rlpcex1 age educyr98 hhsize, matrix 16
95
1
19 45801.7
comp.M&Reg price adj.pc tot exp 357.318 95
Age of household head 16 22
schooling year of HH.head 0 19
Household size
1 357.318
45801.7
0
22
(3) §å thÞ tÇn suÊt (histograms) . gr rlpcex1, bin(50) normal
60
Fraction
.329888
0 357.318
comp.M&Reg price adj.pc tot exp
45801.7
(4) §å thÞ r¶i mét chiÒu (one-way scatterplots) . gr rlpcex1, oneway
357.318
comp.M&Reg price adj.pc tot exp
45801.71
(5) §å thÞ h×nh hép (box-and-whisker plots)
61
comp.M&Reg price adj.pc tot exp 45801.7
357.318
(6) §å thÞ cét (bar chart) . sort reg7 . gr poor, bar means by(reg7) poor .498254
0
1
2
3
4
5
6
7
(7) §å thÞ h×nh trßn (pie charts) . for num 1/7: gen poorX=poor if reg7==X -> gen poor1=poor if reg7==1 (5140 missing values generated) -> gen poor2=poor if reg7==2 (4824 missing values generated) -> gen poor3=poor if reg7==3 62
(5291 missing values generated) -> gen poor4=poor if reg7==4 (5245 missing values generated) -> gen poor5=poor if reg7==5 (5631 missing values generated) -> gen poor6=poor if reg7==6 (4976 missing values generated) -> gen poor7=poor if reg7==7 (4887 missing values generated) . graph poor1-poor7, pie 24% poor1 16% poor2 16% poor3 12% poor4 10% poor5 4% poor6 18% poor7
(8) §å thÞ h×nh sao (star charts) chart_type lµ star
63
Audi 5000
Audi Fox
BMW 320i
Datsun 200
Datsun 210
Price Mileage (mpg) Repair Record 1978
Datsun 510
Datsun 810
Fiat Strada
Honda Accord
Honda Civic
Headroom (in.) Trunk space (cu. ft.) Weight (lbs.) Length (in.)
Mazda GLC
Renault
Subaru
Toyota Celica
Toyota Corolla
Turn Circle (ft.) Displacement (cu. in.)
Toyota Corona
VW Dasher
VW Diesel
VW Rabbit
VW Scirocco
Volvo 260
C¸c lùa chän chung (common_options) * T¹o tÖp sè liÖu . tabulate
hhsize, sum
(rlpcex1)
| Summary of comp.M&Reg price adj.pc Household | tot exp size | Mean Std. Dev. Freq. ------------+-----------------------------------1 | 4696.0254 4619.5012 214 2 | 4131.4892 3677.2297 497 3 | 3834.8615 2913.8177 731 4 | 3428.8011 2599.7301 1404 5 | 2930.5486 2168.0644 1318 6 | 2626.6848 2277.1893 867 7 | 2501.0912 2186.1605 480 8 | 2329.7009 1803.7873 255 9 | 2207.0166 1380.5607 126 10 | 2252.3772 1423.7576 58 11 | 2370.7034 1404.7148 29 12 | 1747.3691 924.72977 9 13 | 2114.1337 2109.0077 4 14 | 1579.78 990.81152 4 16 | 2994.5771 2061.6804 2 19 | 4833.936 0 1 ------------+-----------------------------------Total | 3188.6671 2692.5673 5999 . tab hhsize, | Household | size |
sum(educyr98) Summary of schooling year of HH.head Mean Std. Dev. Freq.
64
------------+-----------------------------------1 | 3.7897196 4.3956537 214 2 | 5.7545272 4.7225549 497 3 | 7.3023256 4.6396425 731 4 | 8.2578348 4.2659841 1404 5 | 7.7243298 4.2998488 1318 6 | 6.8788927 4.0778062 867 7 | 6.3348958 4.1241759 480 8 | 5.7333333 3.9623557 255 9 | 5.7936508 3.4878474 126 10 | 6.1724138 3.1851516 58 11 | 4.7931034 3.1665586 29 12 | 4.4444444 3.6438685 9 13 | 5 5.0990195 4 14 | 3 2.1602469 4 16 | 4 1.4142136 2 19 | 2 0 1 ------------+-----------------------------------Total | 7.0944185 4.4160917 5999 . replace meanexp= meanexp/1000 (16 real changes made) . replace meanexp= meanexp/1000 . rename var71 ahhsize . rename var72 meanexp . rename var73 meanedu . replace meanexp= meanexp/1000 . label var meanexp “Chi tieu binh quan” . label var meanedu “So nam hoc” . label var ahhsize “Quy mo ho”
* C¸c tuú chän vÒ tiªu ®Ò vµ trôc to¹ ®é LÊy vÝ dô ®å thÞ 2 chiÒu, trôc tung thÓ hiÖn chi tiªu b×nh qu©n vµ sè n¨m häc b×nh qu©n cña chñ hé, trôc hoµnh thÓ hiÖn quy m« hé gia ®×nh. . gr meanexp meanedu ahhsize meanexp
meanedu
8.25783
1.57978 1
ahhsize
19
65
* Lùa chän vÒ tiªu ®Ò: title("chuçi ký tù") t1title("chuçi ký tù") t2title("chuçi ký tù") b1title("chuçi ký tù") b2title("chuçi ký tù") l1title("chuçi ký tù") l2title("chuçi ký tù") r1title("chuçi ký tù") r2title("chuçi ký tù") LÖnh nµy ghi c¸c tiªu ®Ò trªn phÝa trªn (top), phÝa díi (bottom), bªn tr¸i (left) vµ bªn ph¶i (right) ®å thÞ. VÝ dô: gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) Chi tieu binh quan
So nam hoc
Chi tieu binh quan (tr dong) So nam hoc cua chu ho
8.25783
1.57978 1
Quy mo ho gia dinh
19
Do thi chi tieu va hoc van chu ho
* HiÓn thÞ gi¸ trÞ trôc ®å thÞ xlabel[(gi¸ trÞ sè)] ylabel[(gi¸ trÞ sè)] rlabel[(gi¸ trÞ sè)] tlabel[(gi¸ trÞ sè)] VÝ dô: gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel
66
Chi tieu binh quan
So nam hoc
Chi tieu binh quan (tr dong) So nam hoc cua chu ho
8
6
4
2 0
5
10 Quy mo ho gia dinh
15
20
Do thi chi tieu va hoc van chu ho Chó ý: C¸c lùa chän kh¸c cã thÓ xem ë phÇn help b»ng lÖnh: help graxes C¸c tuú chän vÒ ®êng nèi xline[(gi¸ trÞ sè)] yline[(gi¸ trÞ sè)] rline[(gi¸ trÞ sè)] tline[(gi¸ trÞ sè)] connect(c[[p]] ... c[[p]]) VÝ dô: . gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20) yline(2 4 to 8) connect(ll)
67
Chi tieu binh quan
So nam hoc
Chi tieu binh quan (tr dong) So nam hoc cua chu ho
8
6
4
2 0
5
10 Quy mo ho gia dinh
15
20
Do thi chi tieu va hoc van chu ho 2. Mét sè lo¹i ®å thÞ thêng dïng 2.1. §å thÞ 2 chiÒu Có ph¸p: graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], twoway [tuú_chän_chung rescale] Tuú chän rescale cho phÐp hiÖn thÞ hai trôc tung víi gi¸ trÞ kh¸c nhau . gen meanexp1=meanexp*1000 . label var meanexp1 "Chi tieu binh quan" . gr meanexp1 meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (nghin dong)) b2title (Quy mo ho gia dinh) xlabel ylabel rlabel(2 4 to 8) connect(ll) rescale
68
Chi tieu binh quan
So nam hoc 8
4000 6 3000
So nam hoc
Chi tieu binh quan (nghin dong)
5000
4 2000
1000
2 0
5
10 Quy mo ho gia dinh
15
20
Do thi chi tieu va hoc van chu ho
2.2. §å thÞ tÇn suÊt Có ph¸p: graph [biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], [tuú_chän_chung bin(#) freq normal[(#,#)] density(#)]
histogram
C¸c tuú chän: bin(#)
ChØ ra sè lîng kho¶ng cho ®å thÞ, gi¸ trÞ ngÇm ®Þnh lµ bin(5)
Freq
Gi¸ trÞ tÇn suÊt sÏ ®îc hiÓn thÞ trªn trôc tung
normal[(#,#)]
VÏ hµm ph©n phèi chuÈn
density(#)]
§îc dïng víi lùa chän normal, chØ ra sè lîng ®iÓm ®Ó íc lîng hµm mËt ®é theo ph©n phèi chuÈn
VÝ dô: §å thÞ tÇn suÊt cña chi tiªu binh qu©n ®Çu ngêi . gr rlpcex1, hist bin(20) normal
69
Fraction
.56026
0 357.318
comp.M&Reg price adj.pc tot exp
45801.7
. gr rlpcex1, hist bin(50) normal freq
Frequency
1979
0 357.318
comp.M&Reg price adj.pc tot exp
45801.7
. gr rlpcex1, hist bin(50) normal freq by(reg7)
70
region1
region2
region3
region4
region5
region6
415
0
Frequency
415
0 357.318
region7
45801.7
357.318
45801.7
415
0 357.318
45801.7
comp.M&Reg price adj.pc tot exp
Histograms by Code by 7 regions
2.3. §å thÞ h×nh cét Có ph¸p: graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], bar [tuú_chän_chung [no]alt means stack] VÝ dô: §å thÞ gi¸ trÞ trung b×nh häc vÊn cña chñ hé vµ quy m« hé gia ®×nh theo 7 vïng . gr educyr98 hhsize, bar means by(reg7) schooling year of HH.head
Household size
8.64426
0
1
2
3
4
5
6
7
71
. label define region 1 "region1" 2 "region2" 3 "region3" 4 "region4" 5 "region5" 6 "region6" 7 "region7" . label values reg7 region . tab reg7 Code by 7 | regions | Freq. Percent Cum. ------------+----------------------------------region1 | 859 14.32 14.32 region2 | 1175 19.59 33.91 region3 | 708 11.80 45.71 region4 | 754 12.57 58.28 region5 | 368 6.13 64.41 region6 | 1023 17.05 81.46 region7 | 1112 18.54 100.00 ------------+----------------------------------Total | 5999 100.00 . gr educyr98 hhsize, bar means by(reg7) ylabel( 2 4 to 10) alt schooling year of HH.head
Household size
10
8
6
4
2
region1
region2
region3
region4
region5
region6
region7
Lùa chän stack . gen persons=1 . gr persons urban98, bar ylabel by(reg7) stack alt
72
persons
1:urban 98; 0:rural 98
1500
1000
500
0
region1
region2
region3
region4
region5
region6
region7
VÝ dô: H·y vÔ ®å thÞ sau: foodpoor
poor
600
400
200
0
region1
region2
region3
region4
region5
region6
region7
2.4. §å thÞ h×nh trßn Có ph¸p: graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], pie [tuú_chän_chung] LÖnh nµy vÏ ®å thÞ h×nh trßn Mèi biÕn sÏ chiÕm 1 phÇn cña h×nh trßn vµ tû lÖ cña phÇn nµy do tæng gi¸ trÞ cña c¸c quan s¸t cu¶ biÕn ®ã quyÕt ®Þnh. VÝ dô: VÏ ®å thÞ tû lÖ phÇn tr¨m sè ngêi nghÌo cña mçi vïng trªn tæng sè ngêi nghÌo cña c¶ níc. 73
. gr poor1-poor7, pie 24% poor1 16% poor2 16% poor3 12% poor4 10% poor5 4% poor6 18% poor7
. gen nonfpood=poor- foodpoor . label var nonfpood "poor but still above food poverty line" . gen nonpoor=( rlpcex1>=1790) . gr foodpoor nonfpood nonpoor, pie . set textsize 90 12% foodpoor 18% poor but still above food povert 70% nonpoor
. set textsize 100 . gr foodpoor nonfpood nonpoor, pie by(reg7) total
74
region1
region2
region3
12% foodpoor 18% poor but still above food povert 70% nonpoor
region4
region5
region7
region6
Total
3. Lu tr÷ vµ hiÓn thÞ ®å thÞ (Saving and graph using) §Ó lu tr÷ ®å thÞ th× t¹i cöa sæ graph, vµo thùc ®¬n File, chän Save graph, sau ®ã lùa chän ®êng dÉn vµ tªn file cho ®å thÞ, phÇn më réng ngÇm ®Þnh lµ gph. §å thÞ còng cã thÓ ®îc lu tr÷ b»ng tuú chän saving(tªn tÖp [,replace]) viÕt sau lÖnh graph VÝ dô: . gr educyr98 hhsize, bar means by(reg7) ylabel( 2 4 to 10) alt saving ("c:\ do thi 1") . gr persons urban98, bar ylabel by(reg7) stack alt saving("c:\do thi 2") §Ó kh«ng hiÓn thÞ ®å thÞ th× cã thÓ dïng lÖnh t¾t chÕ ®é hiÓn thÞ ®å thÞ b»ng lÖnh set graphics { on | off } . set graphics off . gr poor1-poor7, pie saving ("c:\do thi 3", replace) (note: file c:\do thi 3.gph not found) Stata cho phÐp hiÓn thÞ c¸c ®å thÞ ®· lu tr÷ b»ng lÖnh: graph using [tÖp tÖp ®å thÞ 2 ...] [, margin(#)] 75
margin(#) chØ ra kho¶ng c¸ch lÒ bao quanh ®å thÞ theo gi¸ trÞ phÇn tr¨m cña diÖn tÝch ®å thÞ. Gi¸ trÞ ngÇm ®Þnh lµ 0. VÝ dô: . set graphics on . graph using "c:\do thi 1" "c:\do thi 2" "c:\do thi 3", margin(10) title("Mot so dac diem cua ho gia dinh") region1
region2
region3
persons
1:urban 98; 0:rural 98
12% foodpoor 18% poor but still above food povert
1500
70% nonpoor
region4
region7
region5
region6
1000
500
Total
0
region1
region2
region3
region4
region5
region6
region7
24% poor1 16% poor2 16% poor3 12% poor4 10% poor5 4% poor6 18% poor7
Mot so dac diem cua ho gia dinh Chó ý: Chóng ta co thÓ kÕt hîp lÖnh saving víi using ®Ó lu tr÷ ra ®å thÞ míi. VÝ dô: . graph using "c:\do thi 1" "c:\do thi 2" "c:\do thi 3", margin(10) title("Mot so dac die m cua ho gia dinh") saving("c:\do thi tong hop") . graph using "c:\do thi tong hop"
76
Ch¬ng V: LËp tr×nh trong Stata
1. Giíi thiÖu chung vÒ ch¬ng tr×nh do-file 1.1. Më vµ lu tr÷ do-file Stata cho phÐp viÕt c¸c tÖp ®îc gäi lµ do-file bao gåm c¸c lÖnh cña Stata. Thay v× thùc hiÖn tõng lÖnh mét tõ cöa sæ lÖnh command, c¸c tÖp do-file sÏ lÇn lît thùc hiÖn c¸c lÖnh ®ã. Ch¬ng tr×nh Stata ®îc so¹n th¶o trong cöa sæ do-file editor. Cöa sæ nµy ®îc më b»ng c¸ch kÝch vµo thùc ®¬n Windows vµ chän tuú chän do-file editor. Mét c¸ch kh¸c ®Ó më cöa sæ nµy lµ gâ lÖnh doedit t¹i cöa sæ lÖnh command. VÝ dô: Mét ch¬ng tr×nh cã thÓ ®îc so¹n th¶o trong cöa sæ do-file editor nh sau: ---------------clear set mem 32m use "C:\VLSS98\Hhexp98n.dta", clear tab urban98 sum hhsize gen new=hhsizet gen new=hhsize ----------------
Sau khi so¹n th¶o, do-file sÏ ®îc lu tr÷ b»ng tuú chän Save as trong thùc ®¬n File cña cöa sæ do-file editor. Tªn cña do-file cã thÓ ®îc chØ ra ngay t¹i lÖnh doedit nh sau: doedit (tªn do-file) TÖp do-file cã phÇn më réng lµ do. ë vÝ dô trªn chóng ta cã thÓ lu tr÷ ®o¹n ch¬ng tr×nh díi tªn lµ “ch¬ng tr×nh 1” t¹i th môc Vlss98 trªn æ ®Üa C. 77
1.2. Thùc hiÖn c¸c tÖp do-file §Ó ch¹y do-file th× t¹i cöa sæ lÖnh chóng ta gâ mét trong hai lÖnh sau: do filename [, nostop] run filename [, nostop] LÖnh run thùc hiÖn c¸c lÖnh trong do-file nhng kh«ng hiÓn thÞ kÕt qu¶ ra mµn h×nh. Trong qu¸ tr×nh thùc hiÖn do-file, nÕu cã c©u lÖnh sai th× Stata sÏ b¸o lçi vµ ngõng viÖc thùc hiÖn c¸c c©u lÖnh sau ®ã. Tuy nhiªn nÕu tuú chän nostop ®îc chØ ra th× Stata sÏ bá qua c©u lÖnh bÞ lçi vµ tiÕp tôc thùc hiÖn c¸c lÖnh sau c©u lÖnh lçi ®ã. VÝ dô: . do "c:\vlss98\chuong trinh 1" . clear . set mem 32m (32768k) . use "C:\VLSS98\Hhexp98n.dta", clear . tab urban98 1:urban 98; | 0:rural 98 |
Freq.
Percent
Cum.
------------+----------------------------------Rural | Urban |
4269 1730
71.16 28.84
71.16 100.00
------------+----------------------------------Total |
5999
100.00
. sum hhsize Variable |
Obs
Mean Std. Dev.
Min
Max
-------------+----------------------------------------------------hhsize |
5999
4.752292 1.954292
1
19
. gen new=hhsizet hhsizet not found r(111); 78
end of do-file r(111);
Víi tuú chän nostop . do "c:\vlss98\chuong trinh 1", nostop . clear . set mem 32m (32768k) . use "C:\VLSS98\Hhexp98n.dta", clear . tab urban98 1:urban 98; | 0:rural 98 |
Freq.
Percent
Cum.
------------+----------------------------------Rural |
4269
Urban |
1730
71.16 28.84
71.16 100.00
------------+----------------------------------Total |
5999
100.00
. sum hhsize Variable |
Obs
Mean Std. Dev.
Min
Max
-------------+----------------------------------------------------hhsize |
5999
4.752292 1.954292
1
19
. gen new=hhsizet hhsizet not found r(111); . gen new=hhsize . end of do-file Thùc hiÖn (ch¹y) b»ng lÖnh run . run "c:\vlss98\chuong trinh 1", nostop hhsizet not found
79
C¸c do-file cã thÓ thùc hiÖn b»ng tuú chän Do trong thùc ®¬n File, hoÆc thùc hiÖn trùc tiÕp trong cöa sæ Do-file editor b»ng tuú chän Do hoÆc Run trong thùc ®¬n Tool. 1.3. Mét sè lu ý khi so¹n th¶o do-file version # Khi so¹n th¶o c¸c tÖp do-file chóng ta nªn ®a dßng lÖnh nµy vµo ®Çu ch¬ng tr×nh ®Ó th«ng b¸o phiªn b¶n Stata ®îc dïng ®Ó so¹n th¶o do-file. VÝ dô nÕu nh chóng ta dïng Stata 7.0 ®Ó so¹n th¶o do-file th× c©u lÖnh nµy sÏ ®îc ®a vµo ®Çu ch¬ng tr×nh nh sau: version 7.0 clear use Hhexp98n.dta tab reg7 …. C¸c phiªn b¶n Stata kh¸c nhau sÏ cã thÓ cã sù kh¸c nhau vÒ có ph¸p hoÆc ý nghÜa cña c¸c c©u lÖnh. LÖnh version cho phÐp ch¬ng tr×nh Stata ch¹y cã thÓ hiÓu ®óng ®îc néi dung cña tÖp do-file ®îc viÕt bëi c¸c phiªn b¶n kh¸c. set memory #[k|m] NÕu nh file sè liÖu ®ßi hái bé nhí lín h¬n bé nhí mµ Stata ®ang sö dông th× chóng ta ph¶i thiÕt lËp bé nhí lín h¬n cho Stata b»ng lÖnh trªn. Chó ý lµ kh«ng nªn thiÕt lËp bé nhí lín h¬n bé nhí cña RAM m¸y tÝnh. VÝ dô: . use "C:\Hhexp98n.dta", clear no room to add more observations r(901); . set mem 32m (32768k) . use "C:\Hhexp98n.dta", clear set more off/on Theo chÕ ®é ngÇm ®Þnh, khi thùc hiÖn mét lÖnh nÕu nh kÕt qu¶ cña viÖc xö lý lÖnh ®ã dµi h¬n cöa sæ kÕt qu¶ (Stata Results), mµn h×nh sÏ dõng l¹i vµ chóng ta sÏ ph¶i Ên phÝm (ch¼ng h¹n Enter hoÆc Space bar) ®Ó kÕt qu¶ tiÕp tôc ®îc hiÓn thÞ. LÖnh set more off cho phÐp kÕt qu¶ kh«ng bÞ dõng l¹i mµ ®îc hiÓn thÞ liªn tôc cho ®Õn khi thùc hiÖn xong c©u lÖnh hoÆc do-file. LÖnh set more on kh«i phôc l¹i chÕ ®é ngÇm ®Þnh. Ký tù * vµ /* */ 80
Stata sÏ kh«ng thùc hiÖn c¸c c©u lÖnh ®îc b¾t ®Çu b»ng ký tù * hoÆc n»m ë gi÷a hai nhãm ký tù /* */. C¸c ký tù nµy dïng ®Ó viÕt chó thÝch trong do-file. VÝ dô: -------------------version 7.0 set mem 32m use "C:\Hhexp98n.dta", clear * Tao bien thu nhap cua ho gia dinh /* Bien nay bang Thu nhap binh quan nhan voi Quy mo ho*/ gen hhexp = rlpcex1 * hhsize #delimit ; Khi c©u lÖnh trong do-file editor qu¸ dµi th× chóng ta cã thÓ dïng lÖnh nµy ®Ó th«ng b¸o r»ng 1 c©u lÖnh ®îc kÕt thóc b»ng ký tù (;). Theo chÕ ®é ngÇm ®Þnh th× c©u lÖnh ®îc kÕt thóc khi xuèng dßng b»ng viÖc gâ phÝm Enter. §Ó kh«i phôc l¹i chÕ ®é ngÇm ®Þnh th× dïng lÖnh #delimit cr VÝ dô: ë lÖnh vÏ ®å thÞ ë ch¬ng tríc: graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20) yline(2 4 to 8) connect(ll) tu¬ng ®¬ng víi: #delimit ; graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20) yline(2 4 to 8) connect(ll) ; gen hhexp = rlpcex1 * hhsize ; …….. Sau ®ã chóng ta nªn kh«i phôc l¹i chÕ ®é ngÇm ®Þnh nÕu nh c¸c c©u lÖnh sau ®ã cã thÓ viÕt trªn 1 dßng b»ng lÖnh: #delimit cr Chó ý: -
Chóng ta cã thÓ dïng ký tù /* */ ®Ó viÕt c©u lÖnh dµi nh sau: 81
graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) /* */ l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) /* */ b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20) yline(2 4 to 8) connect(ll); -
C¸c lÖnh # delimit vµ c¸ch viÕt c©u lÖnh dµi sö dông ký tù /* */ chØ dïng ®îc trong do-file chø kh«ng dïng ®îc t¹i cöa sæ lÖnh command.
2. Local vµ global macros Macros lµ c¸c biÕn ®îc dïng trong c¸c ch¬ng tr×nh Stata. BiÕn macros ®îc xem nh 1 ®o¹n ký tù - gäi lµ macroname (tªn cña macros) - t¬ng øng víi 1 d·y ký tù kh¸c - ®îc gäi lµ macro contents (néi dung cña macro). Cã hai lo¹i macros lµ local macros (macros néi bé) vµ global macros (macros toµn bé). 2.1. Local macros NÕu chóng ta gâ: . local hogd “age hhsize rlpcex1” (DÊu nh¸y kÐp co thÓ bá qua, tøc lµ cã thÓ gâ: local hogd age hhsize rlpcex1) Khi ®ã th× `hogd’ sÏ ®îc hiÓu t¬ng ®¬ng víi: age hhsize rlpcex1. hogd ®îc gäi lµ tªn cña macros, cßn age hhsize rlpcex1 lµ néi dung cña macros. §Ó sö dông néi dung cña macros, chóng ta gâ tªn cña macros ë gi÷a dÊu trÝch dÉn bªn tr¸i ( ‘ ) – n»m ë phÝa trªn bªn tr¸i bµn phÝm - vµ dÊu trÝch dÉn bªn ph¶i ( ‘ ) – n»m ë phÝa ph¶i bªn díi cña bµn phÝm. Nh vËy nÕu chóng ta gâ: . summarize `hogd’ th× t¬ng ®¬ng víi gâ: . summarize age hhsize rlpcex1 NÕu chóng ta gâ: . local tb “summarize” th× chóng ta cã thÓ thùc hiÖn lÖnh summarize b»ng c¸ch gâ:
age
hhsize
rlpcex1
. `tb' `hogd' Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------------82
age | 5999 48.01284 13.7702 hhsize | 5999 4.752292 1.954292 rlpcex1 | 5999 3188.667 2692.567
16 95 1 19 357.318 45801.71
§Ó hiÓn thÞ néi dung cña local macros th× chóng ta gâ lÖnh macros list _(tªn local macros) VÝ dô: . macro list _hogd _hogd:
age hhsize rlpcex1
§Ó xo¸ local macros th× chóng ta cã thÓ dung lªnh macros drop _(tªn local macros) VÝ dô: . macro drop _hogd . macro list _hogd local macro `hogd' not found r(111); 2.2. Global macros NÕu chóng ta gâ: . global diaban “reg7 province commune” (hoÆc cã thÓ bá qua dÊu ngoÆc kÐp: global diaban reg7 province commune) Khi ®ã th× $diaban t¬ng ®¬ng víi: reg7 province commune. diaban ®îc gäi lµ tªn cña macros, cßn reg7 province commune lµ néi dung cña macros. §Ó sö dông ®îc néi dung cña global macros chóng ta gâ ký hiÖu $ liÒn tríc tªn cña macros. Nh vËy nÕu chóng ta gâ: . describe $diaban th× t¬ng ®¬ng víi gâ: . describe : reg7 province commune . describe $diaban storage display value variable name type format label variable label ------------------------------------------------------------------------------reg7 int %8.0g Code by 7 regions province float %9.0g Province code commune float %9.0g commune code PSU-SVY commands 83
. global mota "describe" . $mota $diaban storage display value variable name type format label variable label ------------------------------------------------------------------------------reg7 int %8.0g Code by 7 regions province float %9.0g Province code commune float %9.0g commune code PSU-SVY commands §Ó hiÓn thÞ néi dung cña global macros th× chóng ta gâ lÖnh macros list (tªn global macros) VÝ dô: . global diaban "reg7 province commune" . macro list diaban diaban:
reg7 province commune
§Ó xo¸ global macros th× chóng ta cã thÓ dïng lÖnh macros drop (tªn local macros) VÝ dô: . macro drop diaban . macro list diaban global macro $diaban not found r(111); 2.3. Sù kh¸c nhau gi÷a local macros vµ global macros Local macros chØ tån t¹i trong 1 ch¬ng tr×nh. Mét ch¬ng tr×nh sÏ kh«ng hiÓu ®îc c¸c local macros ®îc sö dông ë c¸c ch¬ng tr×nh kh¸c. Trong khi ®ã, mét khi ®· ®îc khai b¸o, global macros ®îc hiÓu bëi tÊt c¶ c¸c ch¬ng tr×nh vµ tån t¹i trong bé nhí cña Stata trong suèt qu¸ tr×nh ho¹t ®éng. VÝ dô: Thùc hiÖn ®o¹n ch¬ng tr×nh khai b¸o local macros a. Sau ®ã thùc hiÖn lÖnh hiÓn thÞ néi dung local macros nµy, nhng macros nµy kh«ng tån t¹i ë ®o¹n ch¬ng trinh kh¸c hay ë bé nhí cña Stata. . do "C:\WINDOWS\TEMP\STD010000.tmp" . local a "chuong trinh thong ke Stata" . end of do-file 84
. macro list _a local macro `a' not found r(111); Trong khi ®ã ®èi víi global macros . do "C:\WINDOWS\TEMP\STD010000.tmp" . global b "chuong trinh thong ke Stata" . end of do-file . macro list b b:
chuong trinh thong ke Stata
3. TÝch v« híng vµ ma trËn (scalar and matrix) 3.1. Ma trËn (matrix) Stata ®Þnh nghÜa ma trËn A[r, c] lµ mét m¶ng h×nh ch÷ nhËt gåm r hµng (row) vµ c cét (column). VÝ dô: NÕu ma trËn A ®· ®îc t¹o ra th× chóng ta cã thÓ xem néi dung cña ma trËn ®ã nh sau: . matrix list A
A[3,3] c1 c2 c3 r1
1
2
4
r2
3
4
7
r3 10 11 14 ë ®©y ma trËn A bao gåm 9 phÇn tö (element): 1, 2, 4, 3, 4, 7, 10, 11, 14. C¸c cét ®îc ®Æt tªn lµ c1, c2, vµ c3, vµ c¸c hµng lµ r1, r2, vµ r3. PhÇn tö lµ giao ®iÓm cña dßng 1 vµ cét 2 ®îc ký hiÖu lµ A[1, 2]. Trong vÝ dô nµy A[1, 2] chøa gi¸ trÞ b»ng 2. 3.2. TÝch v« híng (scalar) TÝch v« híng chøa 1 phÇn tö lµ sè. TÝch v« híng ®îc ®Þnh nghÜa b»ng lÖnh sau: scalar scalar_name = expression VÝ dô: . scalar a = 10 . scalar list a 85
a = 10 . scalar b = a* 2 . scalar list b b=
20
Trong chõng mùc nµo ®ã, tÝch v« híng cã thÓ xem nh mét trêng hîp ®Æc biÖt cña ma trËn chØ cã 1 ph©n tö (mét hµng vµ mét cét). 3.3. Mét sè lÖnh lµm viÖc víi ma trËn ThiÓt lËp kÝch thíc ma trËn Gia trÞ ngÇm ®Þnh cña kÝch thíc ma trËn lµ tèi ®a 40 hµng vµ 40 cét. Chóng ta cã thÓ thay ®æi kÝch thíc tèi ®a nµy b»ng lÖnh: . set matsize 500 LÖnh nµy cho phÐp c¸c ma trËn ®îc t¹o ra cã thÓ bao gåm 500 hµng vµ 500 cét. T¹o ma trËn Ma trËn cã thÓ t¹o ra b»ng c¸c c©u lÖnh trùc tiÕp. VÝ dô: matrix mymat (1,2\3,4)
= C¸c phÇn tö ®îc ph©n biÖt bëi dÊu phÈy, cßn c¸c hµng ®îc ph©n biÖt bëi dÊu g¹ch chÐo
matrix myvec = (1 5 T¹o ra vÐct¬ hµng 3 1 3) matrix mycol (1/5/3/1/3)
= T¹o ra vÐct¬ cét
Ma trËn còng cã thÓ ®îc t¹o ra tõ sè liÖu b»ng lÖnh: mkmat [®iÒu kiÖn] [ph¹m vi] [, matrix(tªn ma trËn) ] VÝ dô: . input maho quymo thunhap maho
quymo
thunhap
1. 101 6 1200 2. 103 5 1400 3. 105 5 3200 4. 107 9 1000 5. 109 4 2500 6. end 86
. mkmat maho quymo thunhap, matrix(A) . matrix list A A[5,3] maho
quymo thunhap
r1
101
6
1200
r2
103
5
1400
r3
105
5
3200
r4
107
9
1000
r5
109
4
2500
TÝnh to¸n ma trËn matrix D
=B
T¹o ra ma trËn D b»ng ma trËn B
matrix C
= (C+C)/2
TÝnh l¹i ma trËn C dùa trªn gi¸ trÞ cña cña nã
matrix D = A*A’
T¹o ra ma trËn D b»ng tÝch ma trËn A vµ ma trËn chuyÓn vÞ A’
Xo¸ ma trËn Ma trËn vµ tÝch v« híng cã thÓ xo¸ khái bé nhí b»ng lÖnh: matrix drop scalar drop VÝ dô: . matrix drop A . scalar drop B 4. LÖnh ®iÒu kiÖn vµ vßng lÆp 4.1. LÖnh if…else Có ph¸p: ®iÒu kiÖn (®iÓu kiÖn logic) { Nhãm c©u lÖnh 1 } else C©u lÖnh Stata sÏ kiÓm tra ®iÒu kiÖn logic (expression), nÕu ®iÒu kiÖn nµy ®óng th× c¸c lÖnh ë Nhãm c©u lÖnh 1 sÏ ®îc thùc hiÖn, nÕu ®iÒu kiÖn sai th× lÖnh ë ®»ng sau else sÏ ®îc thùc hiÖn, trong trêng hîp else kh«ng ®îc chØ ra th× Stata sÏ thùc hiÖn c¸c lÖnh sau lÖnh if {…}. VÝ dô: 87
----------------local a=invnorm(uniform()) if `a'>=0 { display "So ngau nhien tao ra lon hon hoac bang 0" } else di "So ngau nhien tao ra nho hon 0" macro list _a Chó ý:
-
Sö ký hiÖu { } cho phÐp viÕt nhiÒu c©u lÖnh sau else ®iÒu kiÖn (®iÓu kiÖn) { commands 1
} else { comands 2 } -
C¸c lÖnh if…else cã thÓ ®îc sö dông lång víi nhau ®iÒu kiÖn (®iÓu kiÖn) { Nhãm c©u lÖnh 1
} else ®iÒu kiÖn (®iÒu kiÖn) { …. 4.2. LÖnh while Có ph¸p: while { Nhãm c©u lÖnh } Stata sÏ kiÓm tra ®iÒu kiÖn logic (expression), nÕu ®iÒu kiÖn nµy ®óng th× c¸c lÖnh ë “Nhãm c©u lÖnh” sÏ ®îc thùc hiÖn, nÕu ®iÒu kiÖn sai th× c¸c lÖnh nµy sÏ kh«ng ®îc thùc hiÖn. VÝ dô: local i=1 while `i’
View more...
Comments