Manual Stata Basico - Juan Carlos Abanto Orihuela

September 30, 2021 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Manual Stata Basico - Juan Carlos Abanto Orihuela...

Description

Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

Juan Carlos Abanto Orihuela 25 de enero de 2013

2

Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

´Indice general ´Indice general

3

1. Introducci´ on al Stata 1.1. Iniciando Stata . . . . . . . . . . . 1.2. Tipos de Archivos en Stata . . . . . 1.3. Estructura B´asica de Stata . . . . . 1.4. Principales Comandos de Trabajo y 1.4.1. Las Bit´acoras . . . . . . . . 1.4.2. La Base de Datos . . . . . . 1.4.3. Append, Merge, Collapse . .

. . . . . . . . . . . . . . . An´alisis . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

5 5 6 6 7 7 7 9

2. Manejo de Datos 2.1. Cargando los Datos en Stata . . . . 2.2. Etiquetas . . . . . . . . . . . . . . 2.3. Comando IF . . . . . . . . . . . . . 2.4. Comando SUMMARIZE . . . . . . 2.5. Comando SPLIT . . . . . . . . . . 2.6. Creando Variables . . . . . . . . . . 2.7. KEEP y DROP . . . . . . . . . . . 2.8. Reestructurando los Datos . . . . . 2.9. Muestreos Probabil´ısticos . . . . . . 2.10. Generaci´on de N´ umeros Aleatorios 2.11. Percentiles, Cuartiles, Deciles . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

15 15 15 17 18 18 19 22 24 26 26 27

. . . . . . . .

31 31 33 38 40 40 40 43 47

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

3. An´ alisis Grafico con Stata 3.1. Visualizando Algunos Comandos . . . . . . . . . 3.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . . 3.3. TWOWAY y SCATTERPLOT . . . . . . . . . . 3.4. Combinando TWOWAY Y SCATTERPLOT . . . 3.4.1. Filtro de Gr´aficos . . . . . . . . . . . . . . 3.4.2. Uni´on de Gr´aficos . . . . . . . . . . . . . . 3.5. Opciones para Edici´on de Gr´aficos . . . . . . . . . 3.6. Trabajando con Esquemas y Gr´aficos Adicionales 3

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

´INDICE GENERAL

4 3.6.1. 3.6.2. 3.6.3. 3.6.4. 3.6.5.

Esquemas . . . . . . . . . . . . Gr´aficos de Barras Verticales . . Gr´aficos de Barras Horizontales Gr´aficos de Cajas . . . . . . . . Gr´aficos de Pastel . . . . . . . .

4. An´ alisis de Regresi´ on Lineal 4.1. Regresi´on Lineal . . . . . . . 4.2. Diagnostico de los Resultados 4.2.1. Efecto Influencia . . . 4.3. Normalidad del Residuo . . . 4.4. Homocedasticidad del Residuo 4.5. Multicolinealidad . . . . . . . 4.6. Linealidad . . . . . . . . . . . 4.7. Especificaci´on del modelo . . 4.8. Independencia . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

5. Variables Categ´ oricas 5.1. Estimaci´on con Variables Categ´oricas 5.2. El Comando Xi . . . . . . . . . . . . 5.3. Pruebas de Hip´otesis . . . . . . . . . 5.4. Creaci´on de Variables Dummys . . . 5.5. Bucles y Programas . . . . . . . . . . Bibliograf´ıa

Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . . . . . .

. . . . .

. . . . .

47 49 49 50 51

. . . . . . . . .

55 55 59 59 62 63 64 64 65 66

. . . . .

69 69 70 72 75 75 79

www.giddea.com [email protected]

Sesi´ on 1 Introducci´ on al Stata 1.1.

Iniciando Stata

Stata es una poderosa herramienta en aplicaciones econ´omicas. Puede ayudarnos a analizar f´acil y eficientemente, series de tiempo, paneles, y data de secci´on cruzada. Nos dar´a las herramientas que necesitamos para organizar y manejar un gran tama˜ no de data, obteniendo resultados de an´alisis estad´ısticos. En esta sesi´on introduciremos las nociones b´asicas del software, para posteriormente realizar un an´alisis estad´ıstico y familiarizarnos con el manejo y modificaci´on de la base de datos. Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)

Figura 1.1: Pantalla de Inicio 5

6

1. Introducci´ on al Stata

Los comandos de stata est´an implementados en el men´ u el cual esta organizado por t´opicos. As´ı nosotros podemos trabajar interactivamente y de manera muy simple, sin embargo sigue siendo u ´til el uso de comandos para realizar el an´alisis dado que da pie al manejo de programas, o estructuras de programaci´on. (ver Figura 1.2)

Figura 1.2: Barra de Comandos

1.2.

Tipos de Archivos en Stata

En STATA, distinguimos 3 tipos de archivos importantes: Archivo de extensi´on dta, para la generaci´on de base de datos, en ella se almacenara informaci´on de las variables con su respectiva extensi´on. Archivo de extensi´on log, smcl, para la generaci´on de bit´acoras, en ella se guardaran los resultados de manera ordenada, sin tener que pasarlos a ning´ un tipo de archivo de texto. Archivo de extensi´on do, que es un archivo de ejecuci´on, donde se elabora el programa. Archivo de extensi´on gph, para la generaci´on de gr´aficos almacenados en la carpeta de trabajo

1.3.

Estructura B´ asica de Stata

Siempre que trabajemos en STATA, es recomendable que mantengamos cierta estructura. (ver Figura 1.3) Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

1.4. Principales Comandos de Trabajo y An´ alisis

7

Figura 1.3: Estructura B´asica

1.4.

Principales Comandos de Trabajo y An´ alisis

Ahora veamos los principales comandos de trabajo, los cuales har´an que los futuros an´alisis econom´etricos sean simples de realizar.

1.4.1.

Las Bit´ acoras

En estos objetos se guardara la informaci´on tal y cual aparecen en la ventana Result, aunque tambi´en podr´ıamos indicarle al programa que deseamos solo guardar los comandos y no los resultados. log using clase1.log o tambi´en cmdlog using clase1.log

1.4.2.

La Base de Datos

El uso de la base de datos es vital para nuestro an´alisis, a continuaci´on presentamos los comandos que nos ense˜ nara a trabajar con esta.

use auto.dta Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

www.giddea.com [email protected]

8

1. Introducci´ on al Stata

use auto.dta if foreign==1 use auto.dta in 1/10 use make mpg using auto.dta save auto01.dta Repasemos lo que hemos aprendido: Ya sabemos como limpiar la memoria de Stata, tambi´en sabemos como ampliar esta memoria para trabajar con data de gran capacidad. Sabemos como fijar el path de trabajo, como crear una rutina y como cargar la base de datos a nuestro espacio de trabajo. Ahora vamos a trabajar con la base de datos para empezar nuestro an´alisis. use auto01.dta browse replace mpg=20 if mpg==19 save, replace list make list make price describe codebook summarize summarize summarize summarize summarize

mpg weight mpg weight if foreign price if mpg=21.3 price, detail

tabulate mpg table table table table

mpg rep78, contents(n mpg) rep78, contents(n mpg mean mpg sd mpg median mpg) rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)

sort mpg gsort mpg gsort -mpg sort foreign by foreign: summarize price Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

1.4. Principales Comandos de Trabajo y An´ alisis

9

count count if foreign==0 count if foreign==1 by foreign: count generate orden=_n rename orden num_obs by foreign: egen prom_mill=mean(mpg) drop num_obs keep make price mpg prom_mill

1.4.3.

Append, Merge, Collapse

El comando append y merge nos ayudara a unir bases de datos integr´andolas en una sola. Append, pegara hacia abajo o verticalmente y Merge, pegara hacia el costado o de forma horizontal. clear use base1, list use base2, list use base3, list use base4, list

clear clear clear clear

Vamos a empezar observando cada una de las bases de datos que tenemos, veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que

Figura 1.4: Bases de Datos Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

www.giddea.com [email protected]

10

1. Introducci´ on al Stata

la base de datos Base1 tiene los mismos campos (columnas) que la base de datos Base2, pero diferentes filas, seria u ´til, unir ambas bases. Abramos entonces, la base de datos Base1 y peguemosla con la base de datos Base2, una uni´on vertical. use base1.dta, clear list append using base2 list save base12.dta, replace list Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos los resultados: use base3.dta, clear list append using base4 list save base34.dta, replace list ¿Por qu´e la variable la variable sexo se a˜ nadi´o 2 veces como columna?¿por qu´e no se uni´o en una sola columna? use base3.dta, clear list rename Sexo sexo list save base03.dta, replace use base03.dta, clear list append using base4 list save base034.dta, replace Ahora si resulto bien la uni´on vertical. Veamos la base12 que ten´ıamos antes. Ahora mi inter´es es fusionar ambas bases de datos, para ello, primero debemos ordenar ambas bases seg´ un la variable con la que vamos a fusionar (la variable com´ un). use base034.dta, clear list sort nombre list Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

1.4. Principales Comandos de Trabajo y An´ alisis

11

save base034s.dta, replace use base12.dta, clear list sort nombre list save base12s.dta, replace Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas clear use base12s.dta, clear list merge nombre using base034s.dta list save basetotal.dta, replace La figura1.5 nos muestra la base de datos total.

Figura 1.5: Base Total Podemos tabular la variable merge para ver si se pegaron correctamente las bases de datos, o tambi´en observar la columna final merge en caso de bases chicas como esta. tab _merge Analicemos los resultados. Hay tres posibles valores que puede tomar esta variable seg´ un lo muestra la figura1.6. Si toma el valor de 1 nos indicara que es una observaci´on que solo se encuentra en la base matriz, si toma el valor de 2 nos indicara que es una observaci´on que proviene de la base esclava, y si toma el valor de 3, nos indicara que la observaci´on proviene de ambas bases.

Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

www.giddea.com [email protected]

12

1. Introducci´ on al Stata

Figura 1.6: tab merge El comando collapse sirve para convertir una base de datos que contiene variables para diversas unidades de estudio, en una base de datos que contiene estad´ısticos de dichas variables (medias, medianas, sumas etc). Permite obtener estad´ısticos para unidades m´as grandes (en un sentido jer´arquico), como por ejemplo, pasar de datos por individuo a datos por hogar, de datos por distritos a datos por provincia (agregaci´on) En el comando se especifican aquellas variables que se ”colapsan” y las condiciones que se imponen para dicha transformaci´on. Algunas variables pueden ser colapsadas seg´ un su suma, otras seg´ un su media, etc. (ver figura1.7) Aquellas variables que no se especifican desaparecen autom´aticamente de la base de datos. Este comando crea una nueva base de datos y cierra la base de partida. Si deseamos quedarnos con esta base debemos grabarla.

Figura 1.7: Estructura del comando “split” Basado en los WDI, genere una base de datos con los totales de CO2 emitidos por regi´on, para el a˜ no 2002. Genere tambi´en una base con la poblaci´on mundial a lo largo del tiempo. Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

1.4. Principales Comandos de Trabajo y An´ alisis

13

use kids, clear list collapse age list use kids, clear collapse age, by(famid) list use kids, clear collapse(mean) avgage=age, by(famid) list use kids, clear collapse (mean) avgage=age avgwt=wt, by(famid) list use kids, clear collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid) list use kids, clear tabulate sex, generate(sexdum) list famid sex sexdum1 sexdum2 collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid) list famid boys girls numkids

Basado en los WDI, genere una base de datos con los totales de CO2 emitidos por regi´on, para el a˜ no 2002. Genere tambi´en una base con la poblaci´on mundial a lo largo del tiempo. use wdi,clear collapse (sum) co2 if year==2002, by(region) graph hbar (asis) co2, over(region) use wdi, clear collapse (sum) pop, by(year)

Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

www.giddea.com [email protected]

14

1. Introducci´ on al Stata

RETO 1 . La base “enaho01-2004-300-oct-nov.dta” contiene datos del m´odulo 300 de la ENAHO recopilados entre octubre y noviembre de 2004, mientras que “enaho01-2004-300-dic.dta” contiene los datos del mismo m´odulo para diciembre de ese mismo a˜ no. Ambas bases est´an a nivel de individuos. Se pide juntar estos datos en un solo archivo que debe ser grabado con el nombre: “Personas.dta”. . A la base “Personas.dta” a˜ nada las siguientes variables: Las 5 variables de Necesidades B´asicas Insatisfechas (nbi1 al nbi5) desde la base de datos “enaho01-2004-100.dta”. Recuerde que esta base fue recopilada a nivel de hogares en el mismo periodo. La variable sobre tipo de vivienda (p101). . Usando el archivo “enaho01-2004-300-oct-nov.dta” (m´odulo de educaci´on a nivel de individuos) realice las siguiente tarea: Obtenga una nueva base (colapsada) que contenga para cada hogar: el promedio de edad de sus miembros (ver p208a), el porcentaje de hombres en el hogar (ver p207), el m´aximo nivel educativo aprobado por alg´ un miembro del hogar (ver p301a).

Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

Sesi´ on 2 Manejo de Datos 2.1.

Cargando los Datos en Stata

Ahora vamos a empezar el tratamiento de los datos pero antes, hagamos un peque˜ no ejercicio con la base de datos auto.dta use auto.dta describe summarize generate price2=2*price describe save auto2.dta generate price3=3*price save auto2.dta save auto2.dta, replace generate price4=4*price use auto.dta use auto.dta, clear clear

2.2.

Etiquetas

Aprendamos a etiquetar a nuestras bases de datos o variables para poder identificarlas en un futuro y as´ı poder trabajar de forma mas ordenada. use auto.dta describe label data "Este archivo contiene datos de autos para el a~ no 1978" describe label variable rep78 "Record de reparaci´ on en 1978" label variable price "Precio del carro en 1958" label variable mpg "Millas por galon para el carro" 15

16

2. Manejo de Datos

label variable foreign "Origen del carro, extranjero o domestico" describe label define foreignl 0 "domestico" 1 "extranjero" label values foreign foreignl describe table foreign ttest mpg, by(foreign) save auto3.dta Hagamos un ejercicio similar con la base de datos iraninos.dta clear use iraninos.dta set more off label define sexow 0 "mujer" label define sexow 1 "hombre", add describe browse label values sexo sexow describe browse label drop sexow label label label label label

define define define define values

getareow 0 "prematuro" getareow 1 "rec.nac.", add getareow 2 "lactante", add getareow 3 "escolares", add getareo getareow

label define oliguriaw 0 "no oliguria" label define oliguriaw 1 "oliguria", add label values oliguria oliguriaw label define congenitow 0 "no congenito" label define congenitow 1 "congenito", add label values congenito congenitow label define sepsisw 0 "no sepsis" label define sepsisw 1 "sepsis", add label values sepsis sepsisw label define tipodaow 0 "asfixia neonat" Stata B´ asico Aplicado a la Investigaci´ on Econ´omica

www.giddea.com [email protected]

2.3. Comando IF label label label label

define define define values

17

tipodaow 1 "nta", add tipodaow 2 "nti", add tipodaow 3 "nefro tox", add tipodao tipodaow

label define finalw 0 "vivo" label define finalw 1 "muerto", add label values final finalw Observemos que la variable dependiente en esta base de datos es final, muerte de una persona debido a una falla renal aguda. Las variables explicativas serian sepsis y tipoda˜ no, mientras que las de control serian sexo, getareo. Probablemente oliguria y congenito sean variables que me indiquen el nivel especifico de la enfermedad (serian variables no tan claras en este ejemplo).

2.3.

Comando IF

La estructura del comando IF es f´acil de recordar, la figura2.1 nos muestra el esquema base.

Figura 2.1: Estructura del comando “if” clear use auto.dta keep make rep78 foreign mpg price tabulate rep78 foreign tabulate rep78 foreign if (rep78 >=4) tabulate rep78 foreign if (rep78 >=4), column nofreq list if (rep78 >= 4) list if (rep78 >= 4) summarize summarize summarize summarize summarize

price price price price price

if if if if if

&

!missing(rep78)

(rep78 (rep78 (rep78 (rep78 (rep78

== = >=

1) | (rep78 == 2) 2) 3) | (rep78 == 4) | (rep78 == 5) 3) 3) & !missing(rep78)

Cabe resaltar que luego de la sentencia “if” usamos “ & ” para decir “y”, usamos “ == ” para decir “igual a”, y usamos “ ! ” para negar algo o decir “no”. Stata B´ asico Aplicado a la Investigaci´ on Econ´ omica

www.giddea.com [email protected]

18

2. Manejo de Datos

2.4.

Comando SUMMARIZE

Esta estructura es mas compleja y m´as dif´ıcil de recordar, sin embargo la siguiente forma general (ver figura2.2), nos ayudara a recordarla y usarla de manera m´as apropiada.

Figura 2.2: Estructura del comando “summarize”

use auto summarize summarize summarize summarize summarize

price mpg mpg price if (foreign == 1) mpg price if (foreign == 1) & (mpg
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF