Introducción al Análisis y Modelación de Datos con Stata 12 en español (Rojas y Gordillo)
Short Description
Descripción: Manual de stata de Gordillo en pdf...
Description
Brayan Rojas Darwin Marcelo Gordillo
R
El Distribuidor de Software Científico Líder en Latinoamérica
SOFTWARE shop 3020 Issaquah Pine Lake Rd Sammamish WA, 98075 USA ________________________________________________________________________________ Copyright © 2013 por SOFWARE Shop Todos los derechos Reservados
Ni la totalidad ni parte de esta publicación pueden reproducirse, registrarse o transmitirse, por un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea electrónico, mecánico, fotoquímico, magnético o electroóptico, por fotocopia, grabación o cualquier otro, sin permiso previo por escrito del autor.
DARWIN MARCELO Darwin Marcelo tiene nueve años de experiencia en investigación aplicada en economía a través de distintos países de América Latina. El principal área de enfoque de su trabajo ha sido el desarrollo sostenible, con énfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza. Posee fuertes conocimientos en análisis y habilidades en econometría aplicada, métodos de evaluación de impacto, modelos estadísticos y manejo de software como Stata, Eviews, Systat, Rats, GIS, Axum y MI Win. Cuenta con cuatro años de experiencia en el departamento de economía, desarrollo sostenible para América Latina y el Caribe del Banco Mundial y 5 años de experiencia como economista en el Departamento Nacional de Planeación de Colombia. Así mismo, ha trabajado como consultor externo en el Instituto de Políticas de Desarrollo de Colombia (IPD), el Programa Nacional de Desarrollo Humano (PNDH), el Departamento Nacional de Estadística (DANE), la Presidencia de la Republica de Colombia, y se ha desempeñado como profesor en la facultad de economía de la Universidad Central y de la Universidad Javeriana.
BRAYAN ROJAS Economista de la Universidad Nacional de Colombia, con especialización en Gestión de Riesgo y Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en estadística en la Universidad Nacional de Colombia. Profesor de la Universidad del Rosario y de la Universidad Piloto, trabajó en el Área de Investigaciones del Banco de la República de Colombia. Posee fuertes conocimientos en análisis y habilidades en econometría aplicada, modelos estadísticos y manejo de software como Stata, Eviews, Risk Simualtor, Crystal Ball, @Risk, Rats, entre otros. Ha impartido varias capacitaciones en temas de estadística y riesgos financieros a importantes entidades como bancos centrales, ministerios, bancos y empresas reguladoras en el sector financiero, universidades a nivel Latinoamérica.
CONTENIDO
1.
INTRODUCCIÓN ........................................................................................................................... 1
1.1
2.
Descripción del libro ...............................................................................................................................1
MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3
2.1 2.2 2.3
Conociendo el entorno de Stata .............................................................................................................3 Barras .....................................................................................................................................................5 El menú de ayuda ...................................................................................................................................5
2.3.1 2.4 2.5 2.6 2.7 2.8 2.9 2.10
Tipos de archivo .....................................................................................................................................8 Estructura de comandos .........................................................................................................................9 Ventana de comandos ..........................................................................................................................10 Configuración de la memoria de Stata ..................................................................................................11 Cambiar el directorio de trabajo de Stata .............................................................................................11 Bases de datos de ejemplo ..................................................................................................................11 Tipos de variables.................................................................................................................................12
2.10.1 3.
3.4
Fundamentos de bases de datos..........................................................................................................15
3.1.1
Creación de un archivo log ........................................................................................ 15
3.1.2
Abrir una base de datos ............................................................................................ 16
3.1.3
Importar una base de datos .CSV o TXT .................................................................... 16
3.1.4
Importar una base de datos .XLS o .XLSX .................................................................. 17
3.1.5
Importar otros tipos de archivo ................................................................................ 20
Salvando una base de datos ................................................................................................................20 Descripción de la base de datos ...........................................................................................................20
Cargar una base de datos del programa ........................................................................... 21
Observar los datos............................................................................................................. 21
Describir los datos ............................................................................................................. 21 Creación de Variables ..........................................................................................................................22
3.4.1 3.5 3.6 3.7 3.8 3.9 3.10
Formato de las variables: .......................................................................................... 13
MANEJO DE BASE DE DATOS ..................................................................................................... 15
3.1
3.2 3.3
Actualizaciones en Stata:............................................................................................. 8
Extensiones en la creación de variables .................................................................... 26
Ordenar variables y bases de datos .....................................................................................................26 Cálculos por grupos ..............................................................................................................................27 Codebook e Inspect ..............................................................................................................................28 Conservar y recargar bases de datos ...................................................................................................29 Filtros de la base de datos ....................................................................................................................29 Administrador de variables ...................................................................................................................30
3.10.1
Rename ..................................................................................................................... 32
3.10.2
Label Variable ............................................................................................................ 32
3.10.3
Notes ......................................................................................................................... 32
3.11 3.12
3.13
3.14
3.15
3.16 3.17 3.18
3.19
Creación de categorías .........................................................................................................................32 Modificación y transformación de variables ..........................................................................................34
3.12.1
Recode ....................................................................................................................... 34
3.12.2
División de Variables de texto ................................................................................... 36
Combinación de bases de datos...........................................................................................................36
3.13.1
Combinación Vertical – Append ................................................................................ 36
3.13.2
Combinación Horizontal – Merge ............................................................................. 37
Cambio en la organización de los datos ...............................................................................................39
3.14.1
Collapse ..................................................................................................................... 39
3.14.2
Reshape ..................................................................................................................... 40
3.14.3
Xpose ......................................................................................................................... 43
3.14.4
Stack .......................................................................................................................... 44
Problemas en el manejo de bases de datos .........................................................................................45
3.15.1
Replicar información ................................................................................................ 45
3.15.2
Verificación de datos ................................................................................................. 46
3.15.3
Contador y reporte de datos repetidos..................................................................... 47
Análisis de duplicados ..........................................................................................................................47 Creación de programas – editor de texto ..............................................................................................50 Ejemplo aplicado ..................................................................................................................................51
3.18.1
Cambiando la orientación de la base de datos: De horizontal a vertical y viceversa 53
3.18.2
Ejercicio ..................................................................................................................... 53
Comandos usados ................................................................................................................................54
3.19.1
Otros comandos recomendados ............................................................................... 55
capture ...................................................................................................................................... 55 4. 4.1 4.2 4.3 4.4 4.5
4.6
4.7 4.8
ANÁLISIS ESTADÍSTICOS CON STATA ......................................................................................... 56 Estadística descriptiva ..........................................................................................................................57 Ponderadores -weight- ........................................................................................................................58 Calculo de medias ................................................................................................................................58 Intervalos de confianza .........................................................................................................................59 Pruebas de hipótesis ............................................................................................................................60
4.5.1
Media ........................................................................................................................ 60
4.5.2
Varianza ..................................................................................................................... 61
4.5.3
Proporciones ............................................................................................................. 61
Manejo de tablas de datos ....................................................................................................................61
4.6.1
Tabstat ....................................................................................................................... 62
4.6.2
Tabulate (tab) ............................................................................................................ 63
4.6.3
Table .......................................................................................................................... 64
Pruebas no paramétricas ......................................................................................................................66 Ejemplo aplicado ..................................................................................................................................68
4.9
4.8.1
Comandos Básicos ..................................................................................................... 68
4.8.2
Ayuda visual table y tabstat ..................................................................................... 69
4.8.3
Tablas de contingencia .............................................................................................. 71
4.8.4
Tablas de frecuencia.................................................................................................. 72
4.8.5
Correlaciones............................................................................................................. 73
4.8.6
Prueba para la media ................................................................................................ 74
4.8.7
Prueba para detectar normalidad ............................................................................. 75
4.8.8
Pruebas para la media: dos muestras independientes ............................................. 75
4.8.9
Comparación de k medias independientes ............................................................... 76
4.8.10
Exportar tablas .......................................................................................................... 79
4.8.11
Ejercicio ..................................................................................................................... 80
Comandos usados ................................................................................................................................80
4.9.1 5. 5.1 5.2 5.3 5.4
GRAFICAS CON STATA ............................................................................................................... 82 Histograma ...........................................................................................................................................84 Gráfico de tortas ...................................................................................................................................85 Graficas twoway ...................................................................................................................................87 Editor de gráficos de Stata ...................................................................................................................90
5.4.1 5.5 5.6 5.7 5.8 5.9 5.10 5.11
5.12
6. 6.1 6.2 6.3 6.4 6.5
Otros comandos recomendados ............................................................................... 81
Haciendo doble clic sobre el área de la grafica ......................................................... 91
Gráfico de series de tiempo ..................................................................................................................92 Gráfico de dispersión ............................................................................................................................93 Gráfico de puntos .................................................................................................................................95 Gráfico de barras ..................................................................................................................................96 Generando Funciones ..........................................................................................................................98 Combinando gráficas ............................................................................................................................98 Ejemplo aplicado ..................................................................................................................................99
5.11.1
Transformaciones Tukey ........................................................................................... 99
5.11.2
Gráficos de matriz ................................................................................................... 100
5.11.3
Gráficos de líneas .................................................................................................... 101
5.11.4
Edición de gráficos .................................................................................................. 101
5.11.5
Gráfica de histogramas............................................................................................ 102
5.11.6
Diagramas de dispersión ......................................................................................... 103
5.11.7
Exportar gráficos ..................................................................................................... 105
Comandos usados ..............................................................................................................................107
REGRESIÓN LINEAL EN STATA ................................................................................................. 108 Ejercicio ..............................................................................................................................................108 Descripción estadística de la información ...........................................................................................109 Relación lineal entre las variables dependientes e independientes ....................................................109 Representación gráfica de las relaciones entre variables ...................................................................110 Estimación del modelo lineal de regresión .........................................................................................112
6.6
6.7
6.5.1
Pruebas de hipótesis lineales .................................................................................. 114
6.5.2
Ejercicio ................................................................................................................... 114
Comprobación del cumplimiento de los supuestos de M.C.O. ...........................................................115
6.6.1
Multicolinealidad (Asociación lineal entre variables) ............................................. 115
6.6.2
Homocedasticidad ................................................................................................... 115
6.6.3
Normalidad de los residuos..................................................................................... 117
6.6.4
Exogeneidad de las variables independientes ........................................................ 119
6.6.5
Ejercicio ................................................................................................................... 120
Pronóstico ...........................................................................................................................................120
6.7.1 Representación gráfica del pronóstico de la variable dependiente y su relación con los regresores .......................................................................................................................... 120 6.7.2 6.8 6.9
6.10
7. 7.1
7.2
7.3
7.4
Exportar tabla de contenido ................................................................................................................121 Ejemplo aplicado ................................................................................................................................122
6.9.1
Prueba de hipótesis ................................................................................................. 123
6.9.2
Supuestos para mínimos cuadrados ordinarios ...................................................... 123
Comandos usados ..............................................................................................................................127
MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128 Representación de las relaciones entre variables ..............................................................................129
7.1.1
Participación y Género ............................................................................................ 129
7.1.2
Participación y Nivel Educativo ............................................................................... 130
7.1.3
Participación y Edad ................................................................................................ 131
El modelo tipo Logit encuesta Casen 2006. .......................................................................................131
7.2.1
Interpretación de resultados................................................................................... 132
7.2.2
Odds - Ratio (p/q) .................................................................................................... 133
7.2.3
Post – estimación .................................................................................................... 133
Modelo Lineal de probabilidad y modelo tipo Probit ...........................................................................135
7.3.1
Modelo Lineal .......................................................................................................... 135
7.3.2
Modelo tipo Probit .................................................................................................. 136
7.3.3
Comprobación de supuestos ................................................................................... 139
7.3.4
Pronóstico ............................................................................................................... 143
7.3.5
Ejercicio ................................................................................................................... 143
Ejemplo aplicado ................................................................................................................................144
7.4.1 7.5
8.
Ejercicio ................................................................................................................... 121
Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144
Comandos usados ..............................................................................................................................148
MODELOS DE SERIES DE TIEMPO ............................................................................................ 149
8.1
Serie de tiempo en Stata modelos autorregresivos de media movil (arma) .......................................149
8.1.1
Generación de variables con formato de fecha ...................................................... 149
8.1.2
Designando la variable que representa al tiempo .................................................. 150
8.1.3
Variables con rezago ............................................................................................... 151
8.2 Metodología Box Jenkins (BJ) aplicada al caso de selección y estimación de un modelo arma para pronóstico de la inflación. ................................................................................................................................152
8.3
8.4
9. 9.1
8.2.1
Fase de identificación .............................................................................................. 152
8.2.2
Fase de estimación .................................................................................................. 154
8.2.3
Fase de verificación y diagnostico ........................................................................... 155
8.2.4
Pronósticos .............................................................................................................. 156
8.2.5
Ejercicio ................................................................................................................... 157
8.2.6
Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158
Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado con heterocedasticidad 171
8.3.1
Antecedentes .......................................................................................................... 171
8.3.2
El modelo GARCH(1,0) ............................................................................................. 172
8.3.3
Metodología ARCH EN STATA ................................................................................. 173
8.3.4
Ejemplo aplicado ..................................................................................................... 173
Comandos usados ..............................................................................................................................179
MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 179 Análisis de datos panel .......................................................................................................................180
9.1.1 9.2
Estructura de bases de datos panel ........................................................................ 181
Ejemplo Práctico – El caso de la CASEN ...........................................................................................182
9.2.1
Gráficos de evolución .............................................................................................. 184
9.2.2
Modelos econométricos para datos de panel......................................................... 187
9.2.3
Comparación de modelos ....................................................................................... 192
9.2.4
Interpretación de los parámetros de efectos fijos. ................................................. 193
9.3
Comandos usados ..............................................................................................................................193
10.
INTRODUCCIÓN A LA PROGRAMACIÓN .............................................................................. 195
10.1 10.2
Local macros ......................................................................................................................................195 Creando ciclos ....................................................................................................................................195
10.3
10.2.1
Comando IF ............................................................................................................. 195
10.2.2
Comando For ........................................................................................................... 196
10.2.3
Comando Forvalues ................................................................................................. 196
10.2.4
Comando While: ...................................................................................................... 196
ESCALARES Y MATRICES ...............................................................................................................196
10.3.1
Ejercicio ................................................................................................................... 199
11.
TRUCOS CON STATA ............................................................................................................ 200
11.1 11.2 11.3 11.4 11.5
Algunos consejos con Stata ...............................................................................................................200 Ejecutando comandos en Stata sin resultados (quietly) .....................................................................203 Herramienta de calificación de Stata 12 .............................................................................................205 Archivos en PDF de logs y gráficas con Stata 12 ...............................................................................207 Material de apoyo ...............................................................................................................................209
12.
BIBLIOGRAFIA ...................................................................................................................... 210
1. INTRODUCCIÓN
Hoy en día es común encontrar diferentes aplicaciones computacionales capaces de realizar sin fin de procedimientos en milésimas de segundo, desde hace varios años el computador ha sido una herramienta muy útil para las diferentes áreas del conocimiento y las ciencias económicas no han sido la excepción, los grandes avances teóricos han llevado a necesitar cada vez más de las aplicaciones computacionales para poder pasar de la teoría a la práctica. Las ciencias económicas, sociales y aplicadas se han vinculado desde hace varias décadas a las ciencias puras para poder por medio de los métodos cuantitativos verificar los hechos sociales, el uso de la estadística, la matemática y la física cada día van en incremento; pero de igual forma éstos métodos han necesitado de diferentes recursos para su aplicación, es en busca de suplir estas necesidades que Stata Corp se ha comprometido día a día en apoyar al desarrollo de la teoría con la práctica haciendo uso del total de recursos disponibles. Se aclara que Stata no es un software libre ni gratuito, para poder acceder a él es necesario adquirir un plan de licenciamiento, para mayor información ingresar a www.stata.com. Una de las ventajas del software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente de comandos con una programación bastante potente, incluyendo un lenguaje de programación para matrices conocido como MATA. Este material es dirigido a todo tipo de usuario, para el estudiante que se está involucrando al mundo de la estadística y econometría, el docente que utiliza la herramienta para impartir sus clases usando para ello un software de alto nivel como es Stata y para profesionales e investigadores que día a día requieren una herramienta que les sirva para apoyar sus labores y sus investigaciones. El documento se ha dividido en 11 capítulos, el primero comprende esta introducción, los cuatro siguientes se podrá encontrar información sobre la capacidad de manejo de Stata 12, manejo en la bases de datos y manipulación de datos, estadística descriptiva, así como la presentación de resultados por medio de gráficas y tablas; en el capítulo 6 encontrará el tema de regresión, capítulo 7 modelos de regresión con variable discreta, capítulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH, capítulo 9 modelos de datos de panel y los últimos dos capítulos es introducción a la programación y algunos trucos y recomendaciones. 1.1
Descripción del libro
Este manual es de carácter académico y representa una guía para los usuarios de Stata.
1
El manual contiene 216 páginas, las cuales describe los principales usos para un usuario de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el siguiente cuadro: Descripción
Características
Comando
Tipo de Letra cursiva, fuente Arial, tamaño de letra 11.
Ejemplo del comando
Tipo de Letra cursiva, fuente Arial, tamaño de letra 9, antecedido de un “.”
Notas o recomendaciones
Resaltado en un cuadro de texto
Rutas de acceso por medio de los menús
Se describe el nombre del Menú seguido por el símbolo “”
Mensajes de Error
Color de Fuente Rojo Tabla 1. Descripción y características del manual
2
2. MANEJO FUNDAMENTAL DE STATA 12 Stata es un programa estadístico para investigadores de diferentes disciplinas, como bioestadísticos investigadores sociales y económicos. Los diferentes tipos de análisis integrados a Stata están documentados y soportados teóricamente por numerosos documentos, publicaciones y revistas. Los manuales de Stata reúnen en 21 volúmenes con ejemplos estadísticos, explicaciones teóricas, métodos, fórmulas y documentos de referencia (ver www.stata.com/manuals/). Al tratarse de un programa en ambiente Windows, su interface es similar a la de todos los programas bajo este ambiente. Nota: Además del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para los sistemas operativos en Mac y Unix, con sus respectivos manuales de introducción.
Stata está disponible en 4 tipos de versión. Small Stata
Versión estudiantil de Stata
Intercooled Stata
Versión estándar de Stata
Stata/SE
Versión especial de Stata para manejo de bases de datos grandes.
Stata/MP
Versión especial de Stata diseñada para trabajar en equipos con más de un procesador o núcleo (2 a 32 procesadores) Tabla 2. Tipos de versión Stata
A continuación se presentan las principales diferencias entre las versiones Intercooled y SE de Stata1: Small Número de observaciones Número de Variables
Stata/IC
Stata/MP and Stata/SE
1,200
2,147,483,647
2,147,483,647
99
2,047
32,767
Tabla 3. Características de versión la Stata
2.1
Conociendo el entorno de Stata
Una vez que se hace clic en el icono de Stata en el menú de inicio, se despliegan los siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo básico Stata para llevar a cabo un análisis de datos, teniendo una interface bastante amigable. 1
Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando help limits.
3
VENTANA DE REVISIÓN
VENTANA DE VARIABLES
VENTANA DE RESULTADOS
VENTANA DE COMANDOS
VENTANA DE PROPIEDADES DE VARIABLES
Figura 1. Ventana de Stata
Ventana de Variables:
Muestra el listado de variables de la base de datos activa.
Ventana de Comandos:
En este cuadro se escriben y almacenan las líneas de comandos, si se desea recuperar un comando previo puede utilizar las teclas RePág o AvPág y podrá autocompletar el nombre de la variable utilizando la tecla TAB.
Ventana de Resultados:
Permite visualizar la sintaxis, y los resultados de los procedimientos ejecutados por el usuario. Aquí encontrará el logo de Stata, indicando la versión y el tipo de licencia y el número máximo de variables a importar. Una de las características de ésta ventana es que por medio de colores el programa informa si un comando ha sido correctamente ejecutado, si aparece en color negro no hubo problema en la realización, rojo indicar error y el azul es un hipervínculo al menú de ayuda.
Ventana de Revisión:
Bitácora que permite llevar un completo registro de todos los procedimientos ejecutados durante una sesión de Stata ya sea que se ejecutaron por el ambiente GUI, por la ventana de comandos o por un editor .do. Una de las propiedades de la ventana Review es que si se desea repetir un comando simplemente debe hacer doble clic sobre el comando deseado y Stata lo ejecutará de nuevo. 4
Ventana de Propiedades: Presenta la información de cada variable, como nombre, tipo de variable, formato, las notas de la base de datos (puede usar el comando notes para verlas en la ventana de resultados), entre otras características. 2.2
Barras
Barra de Nombre
Barra de Menús Barra de Herramientas Figura 2. Menú de Stata
Barra de Nombre:
Indica la versión de Stata disponible, el nombre y la ruta de la base de datos activa.
Barra de Menús:
Es el conjunto de las diferentes herramientas que tiene Stata las cuales le permiten al usuario cargar, transformar, modificar, analizar, graficar y solicitar información y ayuda del programa.
Barra de Herramientas:
Es el conjunto de íconos de acceso rápido a herramientas fundamentales como son abrir, salvar, creación de un archivo Log, un archivo .do, abrir el editor, el visor y el administrador de variables.
2.3
El menú de ayuda
Stata ha incorporado a partir de la versión 11 un conjunto de nuevas opciones en el menú de ayuda para facilitarle al usuario la mejor forma de entender cómo funciona el programa. Una de las novedades principales es que se ha agregado la opción de tener disponibles los manuales de Stata en formato PDF. Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation El menú de ayuda de Stata le permite:
Ver el índice de contenidos del programa
5
Buscar información sobre algún tema, la rutina que permite ejecutarla en Stata, o el sitio desde donde es posible descargar la macro para alimentar el programa.
Obtener ayuda sobre algún comando de Stata
Listar y descargar las últimas actualizaciones del programa.
Instalar programas de Stata escritas por otros usuarios, desde el “Stata Journal” o del boletín técnico “Stata Technical Bulletin”.
Acceder a lugares de interés en el sitio Web de Stata.
El sistema de ayuda para los comandos de Stata es una de las herramientas que más rápidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del comando del cual desea información. Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente ventana
Figura 3. Ayuda de Stata
6
La ayuda de Stata ofrece información sobre:
La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,
Descripción del comando,
Opciones adicionales para ejecutar el comando,
Ejemplos sobre cómo usar el comando,
Hipervínculos a otros comandos relacionados y/o similares y,
El manual impreso de Stata en el que puede consultar los detalles sobre el comando.
Con frecuencia, el usuario desconoce el nombre del comando específico que realiza algún procedimiento en Stata. En estos casos es conveniente realizar una búsqueda temática por medio del comando search. A través de este comando Stata realiza una búsqueda en línea en:
Los ejemplos oficiales de Stata disponibles en su sitio web,
El sitio de preguntas frecuentes “Frequently Asked Questions” de Stata,
Ejemplos en línea compilados por la universidad de UCLA,
Las referencias bibliográficas en “Stata Journal” y “Stata Technical Bulletin”.
Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentración gini (procedimiento muy conocido en economía y estadística), pero no se sabe si Stata realiza este cálculo y, además, si es posible hacerlo, no se conoce el comando para ejecutarlo. En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el cuadro de comandos . search gini
Se despliega el siguiente cuadro de ayuda:
7
Figura 4. Comando search
En el cuadro de ayuda aparecen en azul hipervínculos a sitios oficiales (Stata Journal “SJ”, o Stata Technical Bulletin “STB”) desde donde se pueden descargar macros relacionadas con el procedimiento que calcula el coeficiente de concentración gini. 2.3.1
Actualizaciones en Stata:
Automáticamente Stata hace actualizaciones periódicas del programa. Sin embargo el usuario puede pedir manualmente al programa que se actualice a través del comando update así: . update all . adoupdate, update
2.4
Tipos de archivo
Antes de iniciar una sesión de trabajo es importante tener en cuenta que Stata opera a través de diferentes tipos de archivos.
8
Tipo de Archivo
Extensión
Archivos de datos
*.dta
Archivos gráficos
*.gph
Bitácoras de salida
*.smcl
Archivos de comandos
*.do
Archivos de programación
*.ado
Tabla 4. Tipos de archivos
2.5
Estructura de comandos
La creación de las variables se realiza por medio del comando generate, los comandos en Stata no son necesarios escribirlos en su totalidad. La mayoría de los comandos pueden ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre del comando y en la ayuda, aparecerá subrayado el nombre hasta cierto carácter indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g es igual a generate [by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options] Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras mayúsculas y minúsculas. Todos los comandos del programa se deben escribir en letras minúsculas. De lo contrario el programa no lo reconoce. Los paréntesis cuadrados indican que no es un carácter obligatorio dependiendo el comando específico. Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando regress que permite realizar el procedimiento de regresión se puede ejecutar digitando solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma función que al escribir regress. Para conocer mayor información sobre la estructura de los comandos de Stata, busque información así: help syntax
9
2.6
Ventana de comandos
Es común encontrar en las ventanas emergentes de Stata el nombre del comando que permite realizar la instrucción que se le ordenará al programa para que realice, por ejemplo, al seguir la ruta File Import Text Data created by a spreadsheet En este caso es el comando insheet. A continuación se explican algunas características generales de las ventanas emergentes de Stata para la realización de procedimientos, este manual no presentará las ventanas en las cuales se ejecutan las instrucciones sino los comandos y las opciones correspondientes.
Descripción del comando
Comando
Ayuda de la instrucción
Copiar como comando Limpiar la ventana
Ejecutar
No Ejecutar
Figura 5. Características de una ventana
Ejecutar y mantener la ventana activa
Como se menciono anteriormente en la parte superior de cada ventana aparece el nombre del comando correspondiente, si el usuario desea llamar una ventana puede hacerlo desde la ventana de comandos por medio de db nombre_comando. 10
2.7
Configuración de la memoria de Stata
Stata funciona exclusivamente desde la memoria RAM. El programa únicamente interactúa con el disco duro del computador cuando se hacen salvados de bases de datos, gráficos, archivos log, o archivos de comandos. En la versión 12, Stata configura automáticamente el tamaño de la memoria para poder trabajar con bases de datos muy grandes. Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10 megas de memoria RAM. Sin embargo, cuando se trabaja con bases de datos muy grandes, es posible configurar la cantidad de memoria RAM disponible para una sesión de trabajo a través del comando set memory.2 Por ejemplo, para trabajar con 100 megas de memoria RAM la sintaxis es3: set mem 100m
Es muy importante que antes de empezar una sesión de trabajo el usuario configure la cantidad de memoria RAM que necesita de lo contrario emergerá el siguiente error: no room to add more observations r (901); 2.8
Cambiar el directorio de trabajo de Stata
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los resultados. Una forma práctica de abreviar la sintaxis en ambos casos consiste en indicarle a Stata, antes de comenzar la sesión de trabajo, el lugar en el disco duro de donde se desean tomar los datos y donde se quieren almacenar los resultados. Este procedimiento se lleva a cabo a través del comando cd así: . cd "C:\...."
La otra opción es por medio del Menú File Change Working Directory Entre comillas se debe encontrar la dirección o ruta de la carpeta donde se encuentran las bases de datos que serán empleadas en la sesión de trabajo de Stata. 2.9
Bases de datos de ejemplo
En el momento en que Stata se instala en su equipo se incluyen bases de datos de ejemplo las cuales le permitirán trabajar con el software, tenga en cuenta estos archivos 2
Si desea conocer qué versión tiene de Stata y la configuración de la memoria y la licencia del programa escriba el comando about o creturn list. 3 Se recomienda revisar la ayuda sobre el comando set y el comando memory
11
dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software, para acceder a ellas siga la ruta File Example Datasets Example datasets installed with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual datasets pero debe tener acceso a internet. El comando asociado es: * para ver el directorio de bases de ejemplo en su equipo * cargará la base auto.dta que es una base de ejemplo de Stata
. sysuse dir . sysuse auto.dta
2.10 Tipos de variables Una de las preguntas comunes en el manejo de un software estadístico es cómo el programa clasifica o categoriza las variables, es decir que formato es posible asignarle a una variable, para ello es necesario primero que el usuario tenga claro el tipo de variable. Las variables se pueden dividir de acuerdo al siguiente esquema:
VARIABLE
CUANTITATIVA
Continua
CUALITATIVA
Discreta
Ordinal
Nominal
Figura 6. Tipo de variables F
Stata es “case sensitive”, es decir, distingue entre mayúsculas y minúsculas, de forma que las variables var1 es diferente a Var1. Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales se diferencian por el rango de los datos o por el tamaño en el número de caracteres disponibles a continuación se presenta una tabla que describa los tipos de datos.
12
RANGO TIPO DE VARIABLE
FORMATO MÍNIMO
MÁXIMO -127
100
%8.0g
-32,767
32,740
%8.0g
-2,147,483,647
2,147,483,620
%12.0g
Float
-1.70141E+38 1.70141173319*10^38
%9.0g
Double
-8.9885E+307 8.9884656743*10^307
%10.0g
Byte Int Long
Precisión para FLOAT 3.795x10^-8. Precisión para DOBLE 1.414x10^-16. Tabla 5. Tipos de Variable
El número que aparece después del símbolo % es el número máximo de dígitos enteros o ancho que soporta el formato y el número a la derecha índica el número de decimales, posteriormente se encuentra una letra. Donde [f] es aproximación al entero más cercano, [e] indica notación científica y [g] indica decimales. Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables alfanuméricas, estas variables en las que se encuentran principalmente las variables cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str# es la visualización de este formato, en el cual el carácter # indica el largo de la cadena. 2.10.1 Formato de las variables: El formato de las variables hace referencias a la forma como son almacenadas y desplegadas las variables en STATA. Para cambiar el formato de una de una variable a través del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable siempre antecedido por el símbolo “%”. Variables de cadena
% 20 s Inicio de un formato
Variable “String”
número de caracteres
Variable numérica
13
Formato general “g”, Notación científica “e”, formato fijo “f”
% 10. 0 g c
opcional, separados de miles por comas
Inicio de un formato Dígitos antes del punto decimal Dígitos después del punto decimal
Si desea cambiar el formato de una variable utilice el comando recast. . sysuse auto . describe Price . recast float price
Para mayor información: help data_types y help recast
14
3. MANEJO DE BASE DE DATOS Antes de realizar un análisis de la información ya sea de tipo descriptivo o inferencial, se debe contar con toda la información que sea pertinente para el análisis respectivo y las condiciones que deben tener cada una de las variables para poder establecer un entorno eficiente en Stata 12, para ello en esta sección podrá ver como se manipulan las bases de datos en Stata 12, por ejemplo series financieras (precio de activos) y económicas (inflación, desempleo, crecimiento económico, entre otras). Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos, principalmente porque permite al usuario administrar gran cantidad de variables y de observaciones, además, es posible realizar manipulación y transformaciones como son crear, eliminar, modificar, concatenar y también permite agregar variables y observaciones a una base de datos con otras bases, entre muchas más. Entre opciones avanzadas se encuentran la protección de bases de datos, la creación de firmas y restricciones a usuarios. Stata permite a los usuarios manejar bases de datos de formatos como son MS Excel, texto, SQL, SAS, entre otros, de igual forma permite exportar archivos a dichos formatos. 3.1
Fundamentos de bases de datos
Hay ciertas características que usted podrá aprender para el manejo de la información, entre ellas los pasos fundamentales, como son, importar una base de datos, eliminación, transformación de bases de datos, entre otros. 3.1.1
Creación de un archivo log
Un archivo tipo texto con extensión “.log” o “.smcl”4, permite guardar todo lo que usted digite y ejecute en la línea de comandos así como las salidas obtenidas en la ventana de resultados realizadas durante la sesión activa de Stata. Se recomienda que la extensión sea SMCL, dado que le permite conservar las fuentes y colores de su ventana de resultados y además podrá configurarlo para imprimir.
4
Iniciales de Stata Markup and Control Language.
15
Figura 7. Creación de un archivo Log
Para la creación de un archivo log por medio de comandos debe usar . log using tables.log, replace
3.1.2
Abrir una base de datos
El primer paso es cargar una base de datos, para ello depende el formato de la base de datos. Es común que los usuarios contengan su información en archivos tipo Excel, para ello es necesario tener claro que Stata requiere que el separador decimal debe ser el punto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o hacer cambio de la configuración de Excel o de la configuración regional de su equipo. Recuerde que las bases de datos de Stata finalizan con la extensión .dta, cuando se tiene un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado CTRL+ O y seleccionar el archivo o por el ícono abrir de la barra de herramientas, por medio de comandos podrá usar la instrucción use . use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la sección 2.8 en donde se indica como activar un directorio de trabajo para no tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un directorio activo la instrucción es: . use ipc_raw, clear
Dado que la instrucción solo importa bases de datos de formato Stata no se requiere ingresar la extensión .dta. Finalmente con el comando use podrá seleccionar solamente las variables que desea usando la opción using importar por ejemplo . use fecha ipc inflación using ipc_ra, clear
3.1.3
Importar una base de datos .CSV o TXT
Uno de los formatos más comunes en el manejo de información estadística es el formato Separado por Comas (CSV), para importar una base de dato se sigue la ruta: File Import Text Data created by a spreadsheet 16
En este caso el comando insheet tiene la siguiente estructura insheet [variables] using ruta, opciones Por ejemplo: . insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv", delimiter (":") clear
En el caso que el usuario no requiera importar la totalidad de la base de datos debe especificar después del comando insheet el nombre de las variables; entre las opciones se encuentran, los tipos de formato que separa los datos, como son tabulaciones (tab), comas (comma) o especificado por el usuario (delimiter(“x”)). La función anterior es similar para archivos con extensión .TXT. 3.1.4
Importar una base de datos .XLS o .XLSX 3.1.4.1 Editor de datos en Stata
Es común que las bases de datos y los archivos que se usan a diario por las empresas y sus trabajadores sean de hojas de cálculo, para facilitar el trabajo de uso de Stata cuando las bases son de una hoja de cálculo se puede sin mayor problema copiar los datos de la hoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar pegar o la secuencia CTRL+V, de ésta forma Stata reconoce los datos correspondientes. El software abrirá una ventana en donde se pregunta si los datos que se encuentran en la primera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de los datos se toma la decisión.
Figura 8. Pegar datos desde Excel
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata trabaja los separadores decimales con el punto y no con la coma como se usa en la configuración de los computadores con idioma español. Para ello se recomienda al usuario cambiar el formato de separador decimal y de miles en su hoja de cálculo o directamente desde la configuración regional
17
de su equipo. De igual forma usar la técnica de buscar y reemplazar le permite obtener un buen resultado.
Se recomienda ver información adicional con help input, infix e infile. Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el ícono de la ventana “Data Editor”, presionando “CTRL+8”, o haciendo clic en Data Data Editor Editor.
Filter Observations
Variable Properties
Variables Manager
Edit Mode
Snapshots
Browse Mode
Figura 9. Editor de datos.
Snapshots: Permite preservar y restaurar la base de datos a un punto predeterminado por el usuario. Filter Observations: Mientras esté abierto el editor de datos, a través de esta opción es posible mantener un filtro sobre la base la base de datos. Variable Properties: Esta opción permite renombrar variables, asignar etiquetas a variables y valores de variables categóricas, y ajustar los tipos de variables y los formatos de las variables. Variable Manager: Similar a la opción anterior, además permite visualizar simultáneamente varias variables y adicionar notas a estas. 3.1.4.2 Asistente de Importación de Excel files
La versión 12 de Stata ha incorporado una nueva herramienta para importar bases de datos tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel spreadsheet (*.xls, *.xlsx) emergerá la siguiente ventana:
18
Busque el archivo de Excel
Seleccione la hoja a importar
Active la casilla si en su hoja la primera fila contiene los nombres de las variables
Seleccione el rango de los datos
Figura 10. Asistente Importación Archivos de Excel
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el asistente no realizará la importación.
La estructura del comando es: import excel [using] filename [, import_excel_options] En las opciones podrá seleccionar:
sheet("sheetname") cellrange([start][:end]) firstrow allstring clear
Nombre de la hoja a importar Rango de celdas a cargar Tomar la primera fila como los nombres de las variables Importar todas las variables como texto Reemplazar los datos en la memoria
Para el ejemplo la instrucción es: . import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow
19
3.1.5
Importar otros tipos de archivo
Hay otro tipo de archivos que Stata le permite importar automáticamente como archivo para ello se recomienda tener en cuenta las siguientes recomendaciones: TIPO DE BASE ODBC Archivo de Texto sin diccionario (.raw) Archivo de Texto con ancho fijo (.raw) Archivo de Texto con diccionario ( Formatos SAS XPORT o .xpf Formato tipo haver XML files
COMANDO Odbc Infile Infix infile2 import sasxport Haver Xmlsave
Tabla 6. Otros comandos para importar archivos
Finalmente si tiene otro tipo de archivos se recomienda que adquiera el software Stat/Transfer, para mayor información ingrese a www.stata.com/products/stat-transfer/, este programa permite importar archivos tipo SPSS, SAS, R, RATS, Statistics, MATLAB, GAUSS, entre otros 3.2
Salvando una base de datos
Como los datos han sido cargados en la memoria RAM, sólo puede modificarse la base de datos original de tres formas
Haciendo clic en el icono de salvado en la barra de herramientas
Haciendo clic en CTRL+S
A través del cuadro de comandos empleando el comando “save”, por ejemplo:
. save base1.dta, replace
La opción replace le permite sobre escribir un archivo que tenga en el mismo directorio de trabajo activo y con el mismo nombre. Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que estos ocupan utilizando el comando compress este comando comprime la base de datos. Es muy útil cuando se trabaja con bases de datos grandes. 3.3
Descripción de la base de datos
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener información de ella, para ellos Stata le permite al usuario por medio de diferentes procedimientos entender cada variable y su contenido.
20
Lo primero que debe realizar el usuario una vez importa o abre una base de datos es observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de cálculo, la otra opción es por medio del comando list que permite visualizar la o las variables en la ventana de resultados, se recomienda usar los comandos edit, browse y list con las opciones if – in (ver más información en la sección 3.4). Adicional a esto el usuario puede recibir información específica de cada variable por medio de las opciones del menú Data Describe Data. En éste menú las opciones de describe data in memory, describe data contents e inspect variables, le da la posibilidad al usuario de obtener información correspondiente al nombre, la etiqueta, el tipo y formato de la variable, notas, etiquetas sobre valores, el número de valores perdidos, entre otras. A continuación se presenta un ejemplo del uso de estos comandos
Cargar una base de datos del programa
. sysuse auto
Observar los datos
. browse
Figura 11. Comando browse
Describir los datos
. describe make rice mpg
21
variable name
storage type
make price mpg
str18 int int
display format
value label
variable label
%-18s %8.0gc %8.0g
Make and Model Price Mileage (mpg)
.
Tabla 7. Comando describe para algunas variables
Cuando se desea aplicar un comando para todas las variables de la base de datos podrá hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomará la instrucción para toda la base de datos, otra alternativa es escribir _all posterior al comando por ejemplo: . sysuse auto . describe _all
variable name make price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign
storage type str18 int int int float int int int int int float byte
display format %-18s %8.0gc %8.0g %8.0g %6.1f %8.0g %8.0gc %8.0g %8.0g %8.0g %6.2f %8.0g
value label
variable label
origin
Make and Model Price Mileage (mpg) Repair Record 1978 Headroom (in.) Trunk space (cu. ft.) Weight (lbs.) Length (in.) Turn Circle (ft.) Displacement (cu. in.) Gear Ratio Car type
Tabla 8. Describe de todas las variables en la base de datos
3.4
Creación de Variables
Por medio del menú Data se puede encontrar opciones como crear nuevas variables Data Create or Change Data Create New Variable:
22
Figura 12. Comando generate
Figura 13. Prefijo de un comando
Algunos ejemplos de creación de variables: . generate suma = var1 + var2 . gen resta = var1 – var2 . g multiplicación = var1 * var2
Para la creación de las variables se recomienda usar el siguiente cuadro
23
Tabla 9. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los caracteres _n y _N o denominadas variables del sistema, _n es un contador del número de observaciones, y _N indica el total de observaciones de la base de datos. . gen tendencia = _n . gen totales = _N
Para la creación de variables con condiciones puede utilizar la opción de la estructura de comandos [if] [in], estas opciones le permitirán poner restricciones no solo para la creación de variables si no para la gran mayoría de comandos que contiene Stata, debe tener en cuenta que solo debe escribir una vez el carácter if o in, a continuación algunos ejemplos en el uso de estos caracteres especiales: . gen dummy = 1 if TV >5 *crea
una variable con valores = 1 si TV > 5, perdido en otro caso.
. list make mpg if mpg>25 . list price in 10/20
* crea una lista para las observaciones entre la 10 y 20
. list price in -10/l
* crea una lista con las últimas 10 observaciones
Para la opción in se puede utilizar las siguientes estructuras: #
Condición sobre una única observación
#/#
Condición sobre un rango de observaciones
#/l
Condición sobre una observación hasta la última (l) 24
f/#
Condición desde la primera observación (f) hasta una observación
-#/# Condición desde las últimas # observaciones hasta # que puede ser la última con l, *L minúscula* A continuación se listan algunas funciones matemáticas, estadísticas y de fecha importantes en la creación de variables Función ln() exp() sqrt() abs() cos() logit() runiform()
Ejemplo g lpib = ln(pib) g epib = exp(pib) g y = sqrt(epib) g x = abs(y) g coseno = cos() g logit = logit(x) g uniforme = runiform()
rnormal()
g normal = rnormal()
rnormal(m,s)
g normal = rnormal(10,2)
int() invnormal(p)
g enteros = int(pib) g inversa = invnormal(prob)
length(s)
g largo = length(nombre)
Descripción Logaritmo natural Exponencial Raíz cuadrada Valor absoluto Coseno Retorna el logaritmo de los odds ratio de x Genera números aleatorios de una distribución uniforme [0,1) Genera números aleatorios de una distribución normal estándar (0,1) Genera números aleatorios de una distribución normal con media m y desviación estándar s Convierte una variable o dato en entero Genera una variable como la inversa de la probabilidad de una distribución normal Presenta el número de caracteres de una variable string
Tabla 10. Ejemplos Funciones generate
Ejemplo: . use personas, clear
*Logaritmo natural de los ingresos laborales . gen lny=ln(i_laboral)
*Logaritmo natural de las horas de trabajo al mes . gen lnm=ln(htm)
*Años de experiencia laboral al cuadrado . gen exp2=exp^2
*Horas de trabajo al mes expresadas en números enteros . gen horas=int(htm)
*Generación de una variable aleatoria uniforme (0,1) . gen uniforme=uniform()
25
*Horas de trabajo al mes expresadas en números enteros (redondeado) . gen horasr=round(htm)
* Si cumple la condición (ser menor de 25 años) marcar con el número “1” . gen men25=1 if e025,1,0) . gen dummy = (TV>5) . egen concatenar = concat(“variable1” “variable2”)
FUNCIÓN max() min() mean() kurt() sd()
EJEMPLO egen maximo = max(ingresos) egen minimo = min(ingresos) egen promedio = mean(ingresos) egen curtosis = kurt(ingresos) egen desviación = sd(ingresos)
DESCRIPCIÓN Presenta el máximo de una variable Presenta el mínimo de una variable Presenta el promedio de una variable Presenta la curtosis de una variable Presenta la desviación estándar de una variable
Tabla 11. Funciones generate y egen.
3.5
Ordenar variables y bases de datos
Ordenar datos Data Sort Ascending Sort:
26
Figura 14. Ordenar datos
Para ordenar en forma descendente se recomienda usar el comando gsort de la siguiente forma: . gsort – var1 – var2 +var3
El comando anterior produce un ordenamiento descendente primero por la variables VAR1, seguido por la variable VAR2 y de forma ascendente por la variable VAR3, indicando que se debe ubicar un signo (-) para establecer descendente y un signo (+) para orden ascendente, aunque este último no es necesario en el comando. Existe otro caso y es en el caso que se deseé ordenar las variables, es decir cambiar el orden en la base de datos, por medio del comando order es posible realizar esto, de igual forma es posible utilizar aorder para que las variables queden ordenadas en forma alfabética. Finalmente el comando move permite modificar la ubicación de las variables, pero a partir de la versión 11, este comando es reemplazado por order. 3.6
Cálculos por grupos
En algunas ocasiones el usuario requiere de verificar la información por una característica particular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubica previo al comando estadístico, gráfico o de modelo. Ejemplo: . use http://www.Stata-press.com/data/imeus/census2d, clear . gsort region -pop . by region: generate totpop = sum(pop) . by region: list region totpop if _n = = _N . by region: egen meanpop = mean(pop) . by region popsize, sort: egen meanpop2 = mean(pop) . by sex age: regress wage expert expert2 occup
27
El comando by permite generar variables por diversas categorías, además, permite ordenar de acuerdo a alguna variable. En el último ejemplo hace una regresión por cada categoría entre el género y la edad. 3.7
Codebook e Inspect
codebook, escribe el contenido de las variables, indicando número de observaciones, valores perdidos, percentiles, entre otros. . codebook foreign
foreign
type: label:
numeric (byte) origin
range: unique values:
[0,1] 2
tabulation:
Freq. 12 3
units: missing .: Numeric 0 1
1 0/15
Label Domestic Foreign
Tabla 12. Comando codebook foreign. . codebook price price
type:
numeric (int)
range: unique values:
[12990,15906] 5
tabulation:
Freq. 3 3 3 3 3
units: missing .:
1 0/15
Value 12990 13466 13594 14500 15906
Tabla 13. Comando codebook price
El comando inspect, entrega el número de observaciones de una variable identificando los valores positivos, negativos, cero, missing, y si estos corresponden a números enteros o no. Los “missing values” se señalan en Stata mediante un punto (.). Se considera que un missing value es mayor que cualquier valor.
28
. inspect rep78 rep78:
.
Repair Record 1978
#
# # # # # #
Number of Observations Total 69
Negative Zero Positive # # #
# #
1
Total Missing
Integers 69
69 5
5
Nonintegers -
69
-
74
(5 unique values)
Tabla 14. Comando inspect rep78
3.8
Conservar y recargar bases de datos
Es importante cuidar la base de datos que se está trabajando, por eso se recomienda salvar la base de datos, pero además, Stata ofrece opciones que le permitirán al usuario guardar la base de datos de forma virtual, por medio de los comandos preserve y snapshot y para recuperar la base con el comando restore . preserve . restore . snapshot save, label("nombre del elemento guardado") . snapshot restore 1
Snapshot Remover Snapshot Cambiar el nombre Agregar Snapshot
Restaurar
Figura 15. Opción snapshot
La diferencia entre el snapshot y el preserve es que este último solo permite guardar una vez la base de datos, mientras el snapshot varias veces. 3.9
Filtros de la base de datos
Ejemplo acerca de la opción filtros: . browse if pop . browse if pop . browse if pop . browse if pop
> 10000000 > 10000000 & marriage > 100000 > 10000000 & marriage > 100000 & popurban > 10000000 > 10000000 | marriage > 100000 & popurban > 10000000
Uso del in 29
. browse pop in 1/10 . browse pop in f/10 f = FIRST, l = LAST . browse pop in 10/l hasta el último
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list. drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar los datos en una hoja de datos y podrá editar y modificar los datos, browse realiza las mismas opciones de edit pero no se puede modificar la información. El comando keep y drop tienen la misma estructura keep/drop variables keep/drop if expression keep/drop in rango Ejemplo: . sysuse census
* Elimina las variables death y divorce . keep state pop medage marriage * Conserva las variables indicadas . drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30 . drop death divorce
. sort popurban . keep in -10/l
* Conserva las últimas 10 observaciones con mayor popurban
3.10 Administrador de variables En la versión 11 de Stata se incluyó la ventana del administrador de variables, este administrador de variables permite modificar información de cada variable, principalmente el cambio de nombre, etiquetas, tipo de variable, formato, notas y creación de categorías y etiquetas. . varmanage
30
Figura 16. Administrador de variables.
Para la modificación de la variable, deberá ser seleccionada la variable y una vez modificada la información correspondiente debe dar clic en Apply. En la versión 12, Stata ha incluido una nueva ventana que es la ventana de propiedades en la cual se pueden modificar la información de cada variable:
Figura 17. Ventana de Propiedades
Entre los cambios del administrador de variables y la ventana de propiedades se encuentran las siguientes opciones, se describe el comando correspondiente para automatización de tareas.
31
3.10.1 Rename Este comando permite cambiar el nombre de una variable. Por ejemplo: rename nombreviejo nombrenuevo . rename price precio
3.10.2 Label Variable Para colocar la etiqueta a la variable, con la cual se describe la información de la misma: label var nombrevariable “etiqueta variable” . label var precio “Precio del auto”
3.10.3 Notes Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a continuación un ejemplo para cada caso: . notes divorce: 1 si la persona es divorciada, 0 en otro caso . notes _dta: Censo 1994
* nota para la variable divorce
* nota para la base de datos
3.11 Creación de categorías La forma más sencilla de crear categorías de variables es por medio del administrador de variables, la variable que seleccionará debe ser discreta, una vez inicie el administrador debe seleccionar la variable que codificará, luego debe dar clic en Manage que se encuentra a la derecha de la opción Value label
Figura 18. Manage
La figura 16 presenta el administrador de etiquetas, en el cual podrá crear, editar o eliminar etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores que se encuentran en una etiqueta creada.
32
Figura 19. Administrador de Value Labels
Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podrá agregar, eliminar y editar las categorías con su correspondiente descripción.
Figura 20. Creación de Labels
Una vez haya creado la etiqueta deberá asignarla a la(s) variable(s) que correspondan, para ello en el administrador de variable a la izquierda de Manage seleccione el nombre de la etiqueta.
33
Figura 21. Asignación de etiquetas
Por medio de comandos . label define respuestas 1 “si” 2 “no”
* Creación de la etiqueta con sus valores
. label values pregunta1 respuestas
*Se asigna a la variable pregunta1 la etiqueta respuestas
3.12 Modificación y transformación de variables En la sección anterior se presentó la forma de creación de variables por medio de los comandos gen y egen, de igual forma el comando replace. Pero existen otras formas de modificar variables ya sea en su formato, tipo de variable, codificación entre otras, a continuación se presentan las más importantes. 3.12.1 Recode Este comando permite recodificar algún valor de una variable . recode x (1=2), gen(nx) . recode x1 (1=2) (2=1), gen(nx1)
*Ejemplo 1 *Ejemplo 2
En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la variable transformada se guarda como nx.
34
Figura 22. Recode
En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1. 3.12.1.1 Variables categóricas a partir de variables continuas. Ejemplo: Suponga que se quiere generar una variable que segmente a la población en grupos de edad (menores de 18 años, entre 18 y 25 años, entre 26 y 40 años, entre 41 y 60 años, mayores de 60 años), con un numero distintivo para cada categoría. Una opción es emplear el comando recode y generate (desde el do-file editor ) así: . recode e02 (min/17=1) (18/25=2) (26/40=3) (41/60=4) (61/max=5), gen(gedad)
o en forma alternativa recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 años") (26/40=3 "Entre 26 y 40 años") (41/60=4 "Entre 41 y 60 años") (61/max=5 "Mayores de 60 años"), gen(gedad)
La variable gedad es una recodificación de e02 (edad). Note que se han aplicado etiquetas a cada una de las categorías entre comillas. . codebook gedad
35
Tabla 15. Comando codebook
3.12.2 División de Variables de texto Split divide una variable texto en nuevas variables por el espacio o un carácter específico split var1, parse(,) gen(geog) 3.13 Combinación de bases de datos La combinación de bases de datos es un problema muy común para el investigador o el analista de información, Stata le permite realizar diferentes tipos de fusiones de bases de datos, a continuación se presentan los dos formatos más importantes, la adición vertical (merge) y horizontal (append).
HOMBRES.dta
Adición casos: append No es necesaria variable llave
Adición de variables: merge Es necesaria variable llave. Las bases de datos deben estar ordenadas. Revisar la variable _merge
EDUCACION.dta
MUJERES.dta
Figura 23. Combinación de base de datos
3.13.1 Combinación Vertical – Append Este comando agrega filas a la base de datos, las variables deben como regla contener los mismos nombres, el mismo tipo de variable y además la base de datos sus variables deben estar ordenadas de igual forma. Para combinar conjuntos de datos verticalmente se emplea el comando append. En nuestro ejemplo, a la base de datos HOMBRES se va adicionar los casos correspondientes la información de las mujeres así: 36
. use hombres, clear . append using MUJERES
En la nueva base de datos se ha combinado la información hombres y mujeres en una única base de datos. .d
Tabla 16. Comando describe
En este punto se deben tener en cuenta dos aspectos. 1. El comando append debe estar acompañado de la palabra using la cual indica que el nombre a continuación corresponde a la base de datos de datos que será adicionada verticalmente. 2. Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que el usuario salve la nueva información con otro nombre así. . save PERSONAS, replace
3.13.2 Combinación Horizontal – Merge Se usa cuando se quieren traer nuevas variables de una base llamada using a una base de datos ya existente o master, éste comando une dos bases de datos utilizando una variable en común (generalmente es una ID, llave o código que identifica las observaciones de la base de datos). Las dos bases de datos deben estar guardadas en formato .dta, y deben estar ordenadas de acuerdo a la variable que se va a pegar. El objetivo de este comando es agregar variables (columnas). Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos: 1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se hará la unión de las bases, es decir de acuerdo al ID, y guardar. 2. Abrir la base A y ordenarla de acuerdo al paso 1. 37
3. Usar el comando merge 4. Guardar la base de datos (save) Si la base no está ordenada y contiene datos repetidos emerge el siguiente error: Using data not sorted Master data not sorted Para verificar que usted tenga un identificador único se recomienda que lo verifique por medio del comando isid. . isid id num
Si emerge error es porque el identificador se repite y si va hacer una fusión tendrá inconvenientes. Al momento de realizar el merge se crea una variable denominado _merge, que contiene tres valores: _merge = = 1 Las observaciones son originarias del archivo “master” o base _merge = = 2 Las observaciones son originarias del archivo “using” _merge = = 3 Las observaciones se encuentran en ambos archivos Siguiendo con el ejemplo anterior, se va a agregar a la base de datos PERSONAS.dta, nuevas variables con la información sobre el nivel educativo y los años de educación aprobados de las personas. Esta información se encuentra en la base de datos EDUCACION.dta. Los pasos a seguir para realizar este tipo de pegue son: 1. Cargar la base “using” (EDUCACION.dta) de donde se quiere traer las nuevas variables, la ordenamos de acuerdo con la(s) variable(s) identificadora(s) “numero y e01” y salvamos los cambios. El comando para ordenar las observaciones es sort así: . use EDUCACION . sort numero e01 .d . save EDUCACION, replace
En este caso, el comando save está acompañado de la opción replace la cual denota que se está sobrescribiendo en la base EDUCACION original. 2. Cargar la base “master” (PERSONAS.dta), se ordenan por el mismo criterio anterior y se guardan los cambios. . use PERSONAS . sort numero e01 .d
38
. save PERSONAS, replace
3. Se aplica el comando merge para pegar horizontalmente las dos bases así:
La base de datos PERSONAS.dta contiene ahora las variables de la base de datos EDUCACION.dta, creando automáticamente la variable _merge. 3.14 Cambio en la organización de los datos Cuando una base de datos tiene más de una observación por unidad de estudio (individuo, país, empresa, etc.) nos puede interesar sólo trabajar con una observación por unidad (collapse) o mantener las observaciones distintas para cada individuo pero que se creen como variables o columnas distintas (reshape) 3.14.1 Collapse Si se tiene una base de datos de hogares, cada observación es un miembro del hogar. Si cada hogar dispone de un identificador único, entonces se puede formar una base de datos alternativa que contenga una sola observación por hogar (en lugar de una observación por individuo) para cada una de las variables deseadas. Esta observación puede contener la media, desviación estándar, suma u otro estadístico. Ejemplo: . collapse (mean) edad (max) educación (p50) ingreso, by(hogar)
Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y educación. Con frecuencia, la información estadística tiene algún grado de reserva o confidencialidad que la hace no accesible al público en su forma original. La mayor parte de la información proveniente de bases de datos grandes, por ejemplo las encuestas (de personas, de hogares, de empresas de la industria manufacturera, etc.) o los censos (de población, de instituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y en bases de datos colapsadas o agregadas. En Stata es posible colapsar bases de datos a través del comando collapse. Debe tenerse en cuenta: 1. La(s) variable(s) de agregación: Variable(s) que definen las nuevas unidades de observación u observaciones agregadas.
39
2. El(Los) criterio(s) de agregación: Es la(s) operación(es) matemática(s) que será(n) aplicados a la base de datos original para obtener las nuevas unidades de observación colapsadas: suma, media, mediana, cuenta, percentil, etc. 3. La base de datos original ha sido modificada. Debería salvarse con un nuevo nombre. Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datos agregada por localidad y sexo así: . collapse (mean) edu007, by(localid e03)
Tabla 17. Collapse
La variable edu007 corresponde a los años de educación promedio y jefe a la suma de los jefes de hogar, en ambos casos, por localidad y sexo. 3.14.2 Reshape En algunas ocasiones dependiendo del estudio muestral y de la construcción de la base de datos, usted encontrará su información en dos formatos, ancho (wide) y largo (long), el formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un número j de variables, donde j es generalmente una variable con información para diferentes períodos de tiempo. Para mostrar un ejemplo, se utilizará la base de datos reshapeState descrita en el libro [1]: . use http://www.Stata-press.com/data/imeus/reshapeState, clear . list
40
state
pop1970
pop1980
pop1990
pop2000
area
1. 2. 3. 4. 5.
CT MA ME NH RI
.1369841 .6432207 .5578017 .6047949 .684176
.6184582 .0610638 .5552388 .8714491 .2551499
.4241557 .8983462 .5219247 .8414094 .2110077
.2648021 .9477426 .2769154 .1180158 .4079702
.871691 .4611429 .4216726 .8944746 .0580662
6.
VT
.1086679
.0445188
.5644092
.7219492
.6759487
Tabla 18. Comando list
En este caso se encuentran seis códigos de estados de nueva Inglaterra, y aparece la información de la población desde 1970 hasta el 2000 calculada cada década, a continuación se transforma la base de datos de formato wide a long por medio del comando reshape, la estructura de este comando es: reshape long variable_j, i(variable_individuos) j(nombre nueva variable) reshape wide variable_j, i(variable_individuos) j(variable_temporal) Con la base de datos actual se pasa de wide a long . reshape long pop, i(state) j(año) Data
wide
> Number of obs. 6 Number of variables 6 j variable (4 values) xij variables: pop1970 pop1980 ... pop2000
->
long
-> -> ->
24 4 año
->
pop
Tabla 19. Reshape long . list
41
state
año
pop
area
1. 2. 3. 4. 5.
CT CT CT CT MA
1970 1980 1990 2000 1970
.1369841 .6184582 .4241557 .2648021 .6432207
.871691 .871691 .871691 .871691 .4611429
6. 7. 8. 9. 10.
MA MA MA ME ME
1980 1990 2000 1970 1980
.0610638 .8983462 .9477426 .5578017 .5552388
.4611429 .4611429 .4611429 .4216726 .4216726
11. 12. 13. 14. 15.
ME ME NH NH NH
1990 2000 1970 1980 1990
.5219247 .2769154 .6047949 .8714491 .8414094
.4216726 .4216726 .8944746 .8944746 .8944746
16. 17. 18. 19. 20.
NH RI RI RI RI
2000 1970 1980 1990 2000
.1180158 .684176 .2551499 .2110077 .4079702
.8944746 .0580662 .0580662 .0580662 .0580662
21. 22. 23. 24.
VT VT VT VT
1970 1980 1990 2000
.1086679 .0445188 .5644092 .7219492
.6759487 .6759487 .6759487 .6759487
Tabla 20. Comando list después de Reshape long
Si se encuentra usted con una base de datos similar a la generada con el comando reshape, podrá pasarla a formato wide, en nuestro caso se usará la siguiente sintaxis reshape wide pop, i(state) j(year) Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientación vertical u horizontal cuando a cada una de las observaciones i en una base de datos, se las segmenta por algún criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo, cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base de datos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puede resultar más cómodo emplear una base de datos orientada horizontalmente, en particular si se quieren hacer comparaciones para cada una de las localidades entre hombres y mujeres. Se puede emplear el comando reshape, acompañado de las opciones wide (despliegue horizontal) o long (despliegue vertical), para cambiar la orientación de la base de datos colapsada así: . reshape wide edu007, i(localid) j(e03)
42
Tabla 21. Comando list después de Reshape wide
Para volver a la forma vertical . reshape long edu007, i(localid) j(e03)
Tabla 22. Comando list después de Reshape long
3.14.3 Xpose Usted podrá modificar la orientación de una forma completa en su base de datos, es decir, pasar de filas a columnas (similar a realizar un transponer en Excel), debe tener cuidado dado que no podrá retornar a la posición inicial. 43
. sysuse auto , replace . snapshot save, label(“base original”) . keep mpg foreign . xpose , clear varname
Figura 24. Antes de utilizar el comando xpose
Figura 25. Después de utilizar el comando xpose
3.14.4 Stack El comando stack le permitirá a usted fusionar variables por ejemplo tiene los meses de cada año ordenados en columnas y quiero formar una sola variable con todos los meses para todos los años.
Figura 26. Base de datos antes del comando stack . stack var2010 var2011 var2012 var2013, into(meses20102013) wide
44
Figura 27. Base de datos después del comando stack
3.14.4.1 Extraer una muestra aleatoria de su base En algunas ocasiones para hacer estudios muestrales requiere que la base de datos sea dividida por un método aleatorio, para ello podrá hacer uso del comando simple . sample 80
|| tomará el 80% de la muestra || tomará 20 observaciones a l azar
. sample 20, count
3.15 Problemas en el manejo de bases de datos Cuando usted trabaja con bases de datos en el día a día se encontrará con diferentes problemas y situaciones que lo pondrán a prueba en el manejo no solo de Stata sino en el conocimiento de su información, por eso es importante que siempre se pregunte antes de hacer cualquier cambio en su base de datos, qué quiere hacer y cuál es el resultado esperado, de esta forma podrá pensar más fácilmente que tipo de ejecución requiere en Stata para llegar a su objetivo, a continuación se presenta un conjunto de comandos que presentan algunos casos típicos en el manejo de bases de datos. 3.15.1 Replicar información Dependiendo su análisis podrá requerir replicar algún tipo de información de su base de datos, por ejemplo un cliente, un usuario, un grupo, una empresa, un país, aunque no es una alternativa muy común, Stata le ayudará a realizar la reproducción de sus datos, expand, es el comando para duplicar información, pero con la característica que lo puede hacer n veces. . sysuse auto, clear . keep if price > 12000 . list make price
45
make 1. 2. 3. 4. 5.
price
Cad. Eldorado Cad. Seville Linc. Mark V Linc. Versailles Peugeot 604
14,500 15,906 13,594 13,466 12,990
Tabla 23. List make y price . expand 3
De acuerdo al comando usado, los datos se encontrarán 3 veces en la base de datos, tal y como se presenta a continuación. . sort make price . list make price make 1. 2. 3. 4. 5.
Cad. Cad. Cad. Cad. Cad.
price Eldorado Eldorado Eldorado Seville Seville
14,500 14,500 14,500 15,906 15,906
6. 7. 8. 9. 10.
Cad. Seville Linc. Mark V Linc. Mark V Linc. Mark V Linc. Versailles
15,906 13,594 13,594 13,594 13,466
11. 12. 13. 14. 15.
Linc. Versailles Linc. Versailles Peugeot 604 Peugeot 604 Peugeot 604
13,466 13,466 12,990 12,990 12,990
Tabla 24. Comando list mpg y price después de expand 3
3.15.2 Verificación de datos El comando assert le permitirá verificar la valides de sus datos, este comando le ofrece la posibilidad de incluir en un archivo de programación una condición, si la condición se cumple parará la ejecución de la programación, y de esta forma usted podrá chequear si hay algo que no es correcto en su base de datos, por ejemplo, usted tiene una base de datos con la edad de las personas, podrá utilizar assert para verificar que en ésta variable no hayan datos extraños, como una edad mayor a 100 años o menor a 0. La estructura sería:
46
. assert edad < 0 | edad > 100
Y aún más completo se recomienda incluir evaluar valores perdidos . assert edad < 0 | edad > 100 | edad = =.
3.15.3 Contador y reporte de datos repetidos El comando count cuantifica el número de observaciones con ciertas características. La instrucción por sí sola, presenta el número total de observaciones, pero es posible determinar algunas restricciones Data Data Utilities Count obsevations . count if foreign ==1
El comando isid nos permite asegurar que una variable es una codificación única dentro de una base de datos, este comando se usa generalmente para chequear que no existan observaciones duplicadas dentro de una base de datos. Si la variable tiene exactamente valores únicos entonces no emerge ningún mensaje, de lo contrario aparece lo siguiente: . isid foreign
variable foreign does not uniquely identify the observations Otro comando que permite verificar si una variable no tiene valores duplicados es duplicates report, que entrega información respecto a la cantidad de veces que se replica la información, el comando duplicates se analiza en la siguiente sección. 3.16 Análisis de duplicados Uno de los problemas comunes en el manejo de una base de datos es analizar si hay presencia de observaciones duplicadas En muchas ocasiones el analista de la información se enfrenta con un problema muy común y es la réplica de la información, por problemas de digitación y/o captura de la información, se puede repetir un caso, para ello Stata cuenta con un grupo de diferentes opciones que le ayudarán a solucionar este problema tan común, con las herramientas vistas hasta el momento como la creación de variables, condicionales, transformación entre otras tiene a la mano diferentes formas de conocer cuándo hay un valor repetido o similar en la base de datos, Data Data utilities Manage Duplicate Observations
47
Figura 28. Administración de Duplicados
En la figura 18 puede observar las opciones disponibles para el manejo de datos duplicados, se recomienda seguir cada una de las opciones, Report Duplicates le ofrece la opción de seleccionar bajo que variable(s) desea analizar si existen duplicados o no, por ejemplo: . sysuse auto, clear . keep if price > 12000 . expand 3 . duplicates report make
Lo que nos genera el siguiente resultado
. duplicates report make Duplicates in terms of make
copies
observations
surplus
3
15
10
Tabla 25. Comando duplicates
El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso o duplicadas, indica adicionalmente que para cada observación hay 3 copias. Para ver el listado total de elementos duplicados . duplicates list make
48
Duplicates in terms of make
group:
obs:
make
1 1 1 2 2
1 6 7 2 8
Cad. Cad. Cad. Cad. Cad.
2 3 3 3 4
9 3 10 11 4
Cad. Seville Linc. Mark V Linc. Mark V Linc. Mark V Linc. Versailles
4 4 5 5 5
12 13 5 14 15
Linc. Versailles Linc. Versailles Peugeot 604 Peugeot 604 Peugeot 604
Eldorado Eldorado Eldorado Seville Seville
Tabla 26. List después de duplicates
Como se puede observar para cada marcar de automóvil hay dos valores adicionales, lo que ya nos había indicado la opción report informando que habían tres observaciones para cada categoría. La siguiente opción Tags duplicates permite crear una variable que indica el número de valores adicionales en este caso será 2, si se utiliza el tag y se realiza una lista se apreciará el resultado. . duplicates tag make, generate(duplicado) . list make duplicado make 1. 2. 3. 4. 5.
Cad. Cad. Cad. Cad. Cad.
duplic~o Eldorado Eldorado Eldorado Seville Seville
2 2 2 2 2
6. 7. 8. 9. 10.
Cad. Seville Linc. Mark V Linc. Mark V Linc. Mark V Linc. Versailles
2 2 2 2 2
11. 12. 13. 14. 15.
Linc. Versailles Linc. Versailles Peugeot 604 Peugeot 604 Peugeot 604
2 2 2 2 2
Tabla 27. Comando list make duplicado
49
Uno de los objetivos es eliminar los valores duplicados Para ello use la opción drop duplicates
Figura 29. Eliminar duplicados . duplicates drop make, force . list make
make 1. 2. 3. 4. 5.
Cad. Eldorado Cad. Seville Linc. Mark V Linc. Versailles Peugeot 604
Tabla 28. Eliminar los duplicados con respecto a make
3.17 Creación de programas – editor de texto
Figura 30. Creación de un archivo .do
El usuario puede ejecutar uno o más comandos simultáneamente, generar (macros) o crear rutinas nuevas para STATA desde un editor de texto al que se accede haciendo clic en el icono –New Do-file Editor–. A través de este editor se pueden crear archivos tipo 50
*.do y *.ado. Los archivos *.do son conjuntos de comandos y macros que únicamente se pueden ejecutar cuando el archivo está activo. En contraste, los archivos *.ado son rutinas que se incorporan a STATA permanentemente y pueden ser ejecutadas desde la el cuadro de comandos o incluso desde otros archivos *.do y *.ado. Se accede a este editor como se muestra en la siguiente ilustración, presionando CTRL+9 o haciendo clic en el submenú –Do-file Editor– en el menú –Window– en la barra de herramientas5. 3.18 Ejemplo aplicado En ocasiones las bases de datos no se encuentran completas, por un lado por datos faltantes en columnas o en filas, por lo tanto en esta sección se explica cómo añadir nuevas observaciones de bases de datos externas utilizando comandos como merge y append. 1. Se utiliza la base de datos llamada “REGION19572004”, la cual contiene datos de 1957 hasta 2004 para países de la región latinoamericana excluyendo a Chile para efectos de aprendizaje, la cual fue descargada de la base de datos de https://pwt.sas.upenn.edu/. 2. Se utiliza la base de datos llamada “POBLACION19572004”, la cual contiene la población de cada país en cada periodo de tiempo, y se aplicara el comando merge, con el objetivo de agregar esta variable a la base de datos del primer punto de forma vertical. 3. Se utiliza la base de datos llamada “CHILE19572004”, la cual contiene las misma variables que el punto uno y dos, pero solo para el país de Chile, se aplicara el comando append, con el objetivo de agregar una nueva observación de orden horizontal. 4. Se identificara algunos comandos básicos para el manejo de bases de datos tales como: browse, codebook, describe, drop in, drop, keep, sort, save, . cd "C:\Users\SOFWARESHOPFILES" . use "POBLACION19572004" . sort country year . browse . save "POBLACION19572004.dta", replace . use "REGION19572004" . sort country year . merge 1:1 country year using "POBLACION19572004" . br .codebook _merge .drop _merge
5
Es posible usar el comando doeditor para abrir el editor de programación.
51
Tabla 29. Merge 1:1
Tabla 30. Codebook .append using “CHILE19572004” .sort country year .save "DATASETALL"
En ocasiones solo se necesita la observación de un país o un determinado año, para este caso se utilizan comandos como keep y drop. keep, mantiene las variables en la memoria dependiendo de las condiciones o el rango de observaciones, drop, elimina las variables de la base de datos dependiendo de las condiciones o el rango de observaciones. Por ejemplo, se desea que se mantenga en memoria los países de Brazil y Chile para los años 2000 y 2004. . keep if country=="Brazil" | country== "Chile" . drop if year>=1957 | year=30000
Por ejemplo, se desea que se eliminen las dos primeros años para cada país. . by country: drop if year==1957 | year==1958
52
3.18.1 Cambiando la orientación de la base de datos: De horizontal a vertical y viceversa . reshape wide xrat ppp cgdp2 cc cg ci pop, i(country) j(year)
Tabla 31. Reshape wide
Para volver a la forma vertical . reshape long xrat ppp cgdp2 cc cg ci pop, i(country) j(year)
Tabla 32. Reshape long
3.18.2 Ejercicio 1. Utilizar las bases de datos de calidad de vida para el país Colombia año 2010: Dbfp_encv_547_1, Dbfp_encv_547_4, Dbfp_encv_547_5. 2. Se debe aplicar el comando merge 1:1 para consolidar las tres bases de datos, siendo la base de datos Dbfp_encv_547_1 master. 3. Recomendaciones: elegir la llave correcta, eliminar los datos que se desean excluir de la muestra (e.g. Nro_encuesta, nro_encuesta) “drop”, organizar de forma ascendente la llave “sort”, guardar la bases de datos con nombre alternos (e.g. 20101, 20102, 20103) “save”, aplicar el comando “merge”.
53
3.19 Comandos usados append browse by bysort cd clear codebook compress db decode describe destring drawnorm drop duplicates edit encode egen exit format generate gsort infile insheet
invnormal() keep label list log merge mvdecode mvencode open order outfile prefix recode rename replace reshape save snapshot sort sysuse use uniform() varmanage xpose
54
3.19.1 Otros comandos recomendados capture cf count cross datasignature expand filin format infile inspect joinby label language language
mat more notes sample seed separate split stack svy tostring translate version operators
55
4. ANÁLISIS ESTADÍSTICOS CON STATA Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posible encontrar varios comandos en diferentes menús. Por ejemplo para poder obtener las estadísticas descriptivas de una variable es posible usando inicialmente los comandos o por medio de ventanas de ejecución. Algunos comandos despliegan mucha información que se va mostrando por secciones, para que sigan apareciendo los resultados es necesario dar clic en el botón clear--more-condition, o en el mensaje de –more- que aparece en la parte inferior de la ventana de resultados.
Clear--more
Break
Figura 31. Opción More and Break
Pero es posible desactivar la opción para que aparezca todo el resultado inmediatamente por medio de set more off. Para el análisis estadístico el menú Statistics permite obtener gran cantidad de opciones para poder desarrollar los temas del manual. Por ejemplo en Statistics Summary, tables, and test Summary and descriptive statistics:
Figura 32. Análisis estadístico
56
Finalmente en Statistics Summarize, tables and test, se pueden realizar varias operaciones como son cálculo del intervalo de confianza, test para medias, varianzas, dos muestras, etc., pruebas parámetricas y no parámetrica 4.1
Estadística descriptiva
Para poder realizar este tipo de procedimiento se escribe en la barra de comandos el comando sum que es el prefacio del comando summarize es un comando estándar para generar estadísticos descriptivos, proporciona información acerca del número de observaciones, la media, la desviación típica, el mínimo y el máximo de la variable especificada, por medio de la secuencia Data Describe data Summary Statistics o en el menú Data y en Statistics Summary, tables and test
Figura 33. Estadística descriptiva
Lo que se genera:
Tabla 33. Comando summarize
Si se agrega la opción detail, se agrega el coeficiente de asimetría, y curtosis y varios percentiles de la(s) variable(s) dadas: 57
Tabla 34. Comando sum, detail
4.2
Ponderadores -weight-
fweight: frequency weights, indica el número de casos que representa realmente cada observación muestral. La variable debe contener enteros positivos. pweight: sampling weights, indica la inversa de la probabilidad de selección muestral de cada observación. Han de ser positivos, pero no necesariamente enteros. aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza de cada observación. Un uso típico de este tipo de ponderación es cuando las observaciones son medias y el peso representa el número de elementos que generan la media. Han de ser positivos, pero no necesariamente enteros. Iweight (importance weights): estos comandos no tienen definición estadística formal, simplemente representan de alguna forma la importancia que se atribuye a cada observación. Cada comando que los acepta explica cómo los utiliza puede tener cualquier forma. 4.3
Calculo de medias
Medias StatisticsSummarize, tables and testSummary and descriptive statistics Arith/Geometric/Harmonic means Esta opción permite calcular la media: aritmética, geométrica o armónica. Para una variable en específico o para toda la base de datos en caso de dejar el espacio variables en vacio. Los comandos que se pueden utilizar para realizar el cálculo son: ameans, gmeans o hmeans
58
Figura 34. Media para las variables
Tabla 35. Medias para las variables price y mpg
4.4
Intervalos de confianza
Intervalos de confianza StatisticsSummarize, tables and test Summary and descriptive statisticsConfidence Intervals.
59
Figura 35. Intervalos de confianza para las variables . ci price Variable
Obs
Mean
price
74
6165.257
Std. Err.
[95% Conf. Interval]
342.8719
5481.914
6848.6
Tabla 36. Intervalos de confianza para la variable price
4.5
Pruebas de hipótesis 4.5.1
Media
Con Stata se pueden realizar test de hipótesis sobre la media . ttest horas = 15
También realizar hipótesis de diferencia de medias cuando existe homogeneidad en varianzas . ttest horas = wporhora
Cuando no existe homogeneidad en varianzas . ttest horas = wporhora, unequeal
60
4.5.2
Varianza
Este comando realiza una prueba en la igualdad de varianzas (desviaciones estándar). Este prueba tiene tres formas para ser evaluada, en la primer forma se demuestra que la desviación estándar es igual a un número, en la segunda se demuestra si una variable1 y otra vairable2 tienen la misma desviación estándar y la última forma se realiza la misma prueba pero utilizando una variable grupo. Esta prueba utiliza la tradicional prueba F para la homogeneidad entre varianzas entre muestras con n-1 grados de libertad, donde la hipótesis nula describe la igualdad entre varianzas y una hipótesis alternativa describiendo la diferencia que existe en la varianza de las muestras . sdtest variable1=1 . sdtest variable1=variable2 . sdtest variable1, by(variablegrupal)
4.5.3
Proporciones
Este comando realiza pruebas en la igualdad de proporciones utilizando grandes muestras estadísticas. Y posee las mismas características y formas de emplear que el comando de la sección 4.5.2. . prtest variable1=variable2
4.6
Manejo de tablas de datos
Los comandos tabulate y table ofrecen a los usuarios de Stata una amplia gama de posibilidades de descripción y análisis de datos a través de diferentes tipos de estadísticos y cruces de variables en cuadros de frecuencias y tablas de resumen. Se puede encontrar en el submenú StatisticsSummary, tables, and testTables
61
Figura 36. Tablas
Gran variedad de opciones para analizar encuestas como tablas de doble y múltiple entrada, de igual forma permite ver la tabla de frecuencias y de contingencia 4.6.1
Tabstat
Para la generación de tablas descriptivas, Stata ofrece diferentes opciones, la opción tabstat puede calcular la media, desviación estándar, varianza, el número de observaciones, entre otras.
Figura 37. Tabstat
62
Figura 38. Opciones Tabstat
4.6.2
Tabulate (tab)
El comando tabulate (en forma abreviada ta o tab) produce un cuadro de frecuencias para diferentes valores o categorías de una variable. La sintaxis del comando es:
. tabulate rep78 Repair Record 1978
Freq.
Percent
Cum.
1 2 3 4 5
2 8 30 18 11
2.90 11.59 43.48 26.09 15.94
2.90 14.49 57.97 84.06 100.00
Total
69
100.00
Tabla 37. Comando tabulate rep78
Combinado con la opción plot, el comando tabulate genera un histograma horizontal que describe gráficamente la frecuencia de cada una de las categorías.
63
Se puede tabular de forma separada más de una variable con el comando tab1. Para visualizar las frecuencias de cada una de las variables creadas con el procedimiento anterior se podrá usar la siguiente sintaxis: . tab1 ed1 ed2 ed3 ed4 ed5 ed6
El comando tab permite generar cuadros de frecuencia de 2 vías (2 variables) así: . tab edu004 e03 Donde la primera variable enunciada determinará el contenido de las filas y la segunda el contenido de las columnas.
Tabla 38. Comando tabulate doble entrada.
4.6.3
Table
De otro lado, el comando table permite crear tablas de contingencia doble o múltiple y a su vez definir el tipo de contenido estadístico para los campos de una tabla. La forma más simple de una tabla de contingencia es un cuadro de frecuencias absolutas. La sintaxis para generar tablas de contingencia es:
Por ejemplo la sintaxis . table edu004
Genera una tabla de frecuencia simple con el sub-total de personas que alcanzaron cada nivel educativo. La tabla resultante tan sólo tiene en cuenta las unidades sin expansión disponibles en la muestra. Sin embargo, las opciones del comando table, permiten obtener reportes mucho más elaborados como se muestra a continuación: 1.
Con la opción [weight=…] es posible expandir la información de la muestra para que se ajuste a la población (universo) total proyectado. Esto se logra a través de 64
ponderadores de frecuencia, de muestra, ponderadores analíticos y de importancia. Siguiendo con el ejemplo: . table edu004 [pw=fex]
Genera una tabla “expandida” que reporta el total de personas “proyectadas” en la población total que alcanzan cada uno de los niveles educativos. 2.
Así mismo el comando table permite resumir información de una variable teniendo en cuenta uno o más criterios de segmentación así: . table edu004 e03 [pw=fex],
La primera variable edu004 define las categorías de cada una de las filas de la tabla de contingencia y la segunda variable e03 las categorías de cada columna. 3.
Los totales por columna y por fila para una o más variables se obtienen con las opciones col y row respectivamente así: . table edu004 e03 [pw=fex], row col
4.
La opción format permite dar formato a los contenidos de la tabla para facilitar la lectura de los resultados. Por ejemplo, para desplegar la información con separadores de miles y cero decimales la sintaxis es: . table edu004 e03 [pw=fex], row col format(%10.0fc)
Tabla 39. Comando table
5.
Además de las frecuencias absolutas, el usuario puede definir otro tipo de contenido c(…) estadístico para los campos de la tabla. Por ejemplo, se pueden obtener en una tabla de contingencia la edad promedio de hombres y mujeres por nivel educativo así:
. table edu004 e03 [pw=fex], c(mean e02) row col format(%4.2fc)
65
Tabla 40. Comando table con estadística descriptiva
Hasta 5 diferentes tipos de medición pueden ser incorporados a una tabla de contingencia. Algunos de los más usados son: ▬ ▬ ▬ ▬ ▬ ▬ ▬
mean sd sum count max min median
media de la variable desviación estándar suma conteo de observaciones máximo mínimo mediana
Finalmente puede crear una variable dummy para cada categoría, simplemente, se agrega la opción generate. . tabulate rep78, generate(dummy)
4.7
Pruebas no paramétricas
Test No parámetrico Spearman’s StatisticsSummarize, tables and test Nonparametric Test of hyphotesisSperman’s rank correlation Esta prueba es una manera de medir la correlación en una medición no paramétrica, en donde se asume que no existe ningún supuesto sobre la distribución de frecuencia de las variables. La correlación de Spearman mide el grado de asociación entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. . spearman price mpg . spearman price mpg, matrix
66
Figura 39. Prueba de Sperman
Tabla 41. Correlaciones por la prueba de Speaman
Con el anterior test se comprueba que el precio y las millas por hora de un vehículo tienen una relación dependiente negativa.
Test No parámetrico KSStatisticsSummarize, tables and testNonparametric Test of hyphotesis Two- sample Kolmogorov-Smirnov test Es una prueba de significancia estadística no paramétrica para contrastar la hipótesis nula cuando los parámetros de localización de ambos grupos son iguales. Por lo tanto, la hipótesis nula describe que las dos distribuciones son iguales y que existe evidencia de un patrón aleatorio, mientras que la hipótesis alternativa corresponderá a que existe un patrón no aleatorio.
Figura 40. Opciones de la prueba no paramétrica Kolmogorov-Smirnov
67
Tabla 42. Prueba Kolmogorov-Smirnov
A través de esta prueba se puede inferir que la distribución del precio de los vehículos es igual para el grupo de vehículos que provienen del extranjero y los nacionales. Por lo tanto se acepta la hipótesis nula de que la muestra proviene de una distribución normal. 4.8
Ejemplo aplicado
Para esta sección se utiliza la base de datos “Cenan-2009-2010-Personas”, descargada de la página web del Instituto Nacional de Estadística e Informática de Perú. Variable a utilizar año_prg mes_prg c101_edad_anio c101_sexo c104 c107 C116
Descripción Año en el cual se realiza la encuesta Mes en el cual se realiza la encuesta Edad del individuo Genero del individuo Peso neto del individuo (Kg) Talla (Cm). Ocupación profesional
Tabla 43. Descripción de las variables en el ejemplo
En la sección de manejo de bases datos se describió los comandos para mantener e eliminar variables para este caso se toma el año 2010 y el mes de abril. . use "C:\Users\Desktop\298-Modulo124 2\Cenan-2009-2010-Personas.dta" . keep if año_prg=="2010" . keep if mes_prg=="04"
4.8.1
Comandos Básicos
Sum, table, tabstat, tabulate.
68
4.8.2
Ayuda visual table y tabstat
Figura 41. Estadística descriptiva para una entrada
Figura 42. Estadística descriptiva dos entradas
Por ejemplo, se quiere saber los aspectos generales de la muestra, alguna variable en específico o algún momento estadístico de una variable. . sum . sum c101_edad_anio, d
69
Tabla 44. Estadística descriptiva para la variable años . tabstat c101_edad_anio c104 c107, stat (mean sd min max n)
Tabla 45. Estadística descriptiva teniendo en cuenta variables y momentos estadísticos . tabstat c101_edad_anio c104 c107, stat (count mean sd p50 min max skew kurt n) by ( c101_sexo)
Tabla 46. Estadística descriptiva desagregada por género
70
Nota: Puede notar que el valor máximo para talla en centímetros es igual 999.9. Para codificar esta variable se digita el siguiente comando recode c107 (999.9=.). (Ver más información en la sección 3.12.1)
4.8.3
Tablas de contingencia
Por ejemplo, se requiere el peso promedio neto por edad y sexo, teniendo como restricción aquellas personas que sean mayores de 17 y menores a 41 años. . table c101_edad_anio c101_sexo, contents(mean c104), if c101_edad_anio>=18 & c101_edad_anioz
[95% Conf.
Interval ]
_at 1
0.7362227
0.0002468
2982.78
0.000
0.7357389
0.736706
2
0.4423416
0.0002768
1598.17
0.000
0.4417992
0.442884
Tabla 93. Efectos marginales para la variable sexo.
La probabilidad de que una persona trabaje siendo hombre (1. at SEXO = 0) es el 73.6%, mientras que la probabilidad de que una persona trabaje siendo mujer es de 44.2%, manteniendo todas las demás variables en su media. Si quiere fijarse el valor de más de una variable, o fijar los intervalos de variables continuas, o en cortes de distribución de las variables independientes: . margins, at(SEXO=(0(1)1) PCO1=1) atmeans noatlegend . margins, at(ln_yh=(11 11.5 12 13 13.5) PCO1=1) atmeans noatlegend . margins, at((p25) _all) atmeans noatlegend . margins, at((p25) _all (mean) ESC ) atmeans noatlegend
134
7.3
Modelo Lineal de probabilidad y modelo tipo Probit 7.3.1
Modelo Lineal
A partir de la información proveniente de la base de datos “ECUACION INGRESO.dta”, se desarrolla un modelo de participación laboral para identificar las variables que explican el que una persona haga parte del mercado de trabajo (trabajando o buscando empleo) y el efecto de cada una de éstas variables en la probabilidad de hacer parte de la fuerza laboral. Inicialmente, para realizar el ejercicio propuesto es necesario crear la variable dicotómica dependiente que identifique a la población económicamente activa: . gen pea=(ocu==1|des==1)
La estimación de este modelo a través del procedimiento de Mínimos Cuadrados Ordinarios (MCO) generaría una serie de problemas en los resultados. Por ejemplo, supóngase que la participación en la fuerza de trabajo está determinada únicamente por la escolaridad de las personas (variable edu007) y se utiliza el comando regress para aplicar un modelo lineal: . regress pea edu007 . predict p if e(sample)
Al obtener el pronóstico de la variable dependiente y representar gráficamente los resultados del modelo se puede visualizar el ajuste de la recta de regresión a la nube de puntos. A través del comando twoway se pueden representar dos series en distintos tipos de gráficos: . tw(scatter pea edu007) (line p edu007)
Figura 104. Datos observados vs pronostico por M.C.O
El grafico anterior es una representación de los datos observados de las personas clasificadas en la pea (scatter) y los valores pronosticados por el modelo (line), según los años aprobados de educación (eje de las abscisas). Sin embargo, a partir del gráfico es 135
fácil concluir que el procedimiento de MCO no genera un modelo capaz de explicar el comportamiento de los datos. Las principales problemas de la estimación de este tipo de variables a través de MCO son: i) no se garantiza que el vector de probabilidades que resulta del pronóstico del modelo se encuentre entre 0 y 1, ii) los errores no se distribuyen normalmente, debido a que la variable dependiente solo toma dos valores, iii) no se puede suponer homocedasticidad en los errores, y iv) el R2 del modelo es muy bajo debido a que no la recta de regresión presenta un bajo ajuste a los datos observados. La alternativa es utilizar un modelo de regresión con una función no lineal que genere una estimación en el rango comprendido entre 0 y 1. Las funciones de densidad acumulada normal y logística cumplen con esta propiedad y dan origen a los modelos probit y logit respectivamente. 7.3.2
Modelo tipo Probit
Para corregir los problemas que genera la estimación del modelo de participación laboral por MCO, se supone la existencia de una variable latente Y* que es explicada por un conjunto de variables independientes y que determina el valor de la variable dicotómica que se observa. A medida que el valor de la variable latente aumenta, la probabilidad de participar en el mercado laboral Y también se incrementa así: Y 1
si
Y
*
0 P ( Y 1 ) P ( Y
*
0) P ( X e 0) F ( X )
La teoría establece que la decisión de hacer parte de la fuerza de trabajo está determinada por los años de educación, la condición de jefe de hogar, la edad y la forma cuadrática de esta última variable, modelo que se puede especificar a través de la siguiente ecuación: Y i 0 1 edu 007
i
2 edad
i
3 edad
2 i
4 jefe
i
ei
Para llevar a cabo las estimaciones de este modelo primero se debe generar la variable edad al cuadrado: . gen e02_2= e02^2
En STATA se utiliza el comando probit para estimar modelos con variable discreta a partir del método de máxima verosimilitud. Para analizar los resultados del comando, se comienza con estimar un modelo vacío: . probit pea, r
136
Tabla 94. Probit con restricciones
Luego, se estima el modelo completo: . probit pea edu007 jefe e02 e02_2, r
Tabla 95. Probit sin restricciones
Además de los coeficientes de regresión, el comando probit genera una amplia gama de estadísticas:
La prueba de Wald evalúa la significancia global del modelo, es equivalente a la prueba F en MCO. Bajo la hipótesis nula de que todos los coeficientes son estadísticamente igual a 0, el estadístico de Wald se distribuye chi2 con grados de libertad equivalentes al número de variables del modelo. También se puede utilizar el estadístico del cociente de verosimilitud, que se puede calcular manualmente través del comando display, la formula se define así: LR 2 ( Loglikelih
ood
F
Loglikelih
ood
0
)
El pseudo R2 es una medida de bondad de ajuste del modelo. Se puede obtener manualmente dividiendo el logaritmo de las verosimilitudes del modelo vacío entre el modelo completo y restado una unidad a este resultado.
Los parámetros que se obtuvieron en el modelo anterior no se pueden interpretar como efectos esperados de los regresores en la probabilidad de hacer parte del mercado de trabajo, únicamente es posible analizar si el efecto de la variable es positivo o negativo en la probabilidad de ocurrencia del evento. Para evaluar el efecto de un cambio en una variable independiente sobre la probabilidad de participar en el mercado de trabajo, es
137
necesario calcular el efecto marginal en varios valores de las variables. El cálculo que se tendría que hacer es
( X i )
, donde corresponde a la función de densidad estándar.
La función podría ser evaluada en el valor medio de la variable Xi. Por lo tanto, el primer paso consiste en calcular el valor medio de las variables que se incluyeron en el modelo probit a través del comando estat sum, que reporta las principales estadísticas de los datos utilizados en el modelo de regresión: . estat sum
Tabla 96. Estadística descriptiva de los regresores del modelo
El cálculo de las marginales se puede realizar manualmente utilizando la función normalden, que toma como argumento la multiplicación del valor medio de la variable y el parámetro y devuelve la densidad normal estándar. 7.3.2.1 Ejercicio 1. Calcule los efectos marginales de las demás variables incluidas en el modelo probit. 7.3.2.2 Efectos marginales Una de las fortalezas de STATA es que permite calcular con un comando, el efecto marginal de cada una de las variables: . dprobit pea edu007 jefe e02 e02_2, r
138
Tabla 97. Efectos marginales del modelo.
La interpretación de los efectos marginales es la siguiente: por un aumento en 1 año de escolaridad, la probabilidad de participar en el mercado laboral se incrementa en 2.7%; por cada año de experiencia la probabilidad de salir al mercado de trabajo se incrementa en 1.2% y el signo negativo de la forma cuadrática de esta variable indica que a partir del valor máximo de la variable edad, un año más reduce la probabilidad de salir del desempleo en 0,01%. Las columnas que le siguen a los coeficientes nos ayudan a realizar la inferencia de cada uno de ellos. La columna “Robust Std. Err.” muestra el error estándar de cada coeficiente a partir de una matriz de varianzas y covarianzas robusta, y la columna “z” muestra el estadístico de una normal estándar que resulta de dividir el coeficiente de cada variable sobre su propio error estándar. La columna “P>|z|” muestra la información correspondiente a la probabilidad acumulada que le pertenece a cada estadístico z y la columna “[95% Conf. Interval]” nos informan sobre los límites superior e inferior en los que podrían variar los parámetros estimados con un 95% de confianza. 7.3.3 Comprobación de supuestos 7.3.3.1 Prueba de Pearson El estadístico de Pearson es una prueba de bondad de ajuste que se distribuye chi2 con grados de libertad igual al número de patrones de covariables menos el número de parámetros. . estat gof
Tabla 98. Prueba Pearson.
139
Los resultados señalan que la hipótesis nula es rechazada y por lo tanto, el modelo no presenta un buen nivel de ajuste a los valores actuales. La principal consecuencia de este resultado, es que no se puede utilizar el modelo para hacer inferencias acerca de la relación entre las variables explicativas y la probabilidad de participar en el mercado de trabajo. Sin embargo, el modelo aún posee algún valor predictivo y puede utilizarse para pronosticar casos. 7.3.3.2 PRUEBA DE HOSMER-LEMESHOV(H-L) Al igual que la prueba de Pearson, el estadístico de Hosmer Lemeshov es una prueba de bondad de ajuste que permite comparar el valor original de los datos con el valor estimado por grupos de observación (G). En Stata la prueba de H-L puede practicarse utilizando el comando estat gof y adicionando la opción group(#), para definir el número de particiones de las observaciones que generalmente son 10 grupos iguales. . estat gof, group(10)
Tabla 99. Prueba H-L
Bajo la hipótesis nula de que el modelo presenta un buen nivel de ajuste, el estadístico de H-L sigue una distribución chi2 con G-2 grados de libertad. Al comparar las frecuencias observadas y estimadas a través del estadístico de H-L y analizar el p-valor asociado a la prueba, se rechaza la hipótesis nula. Una vez más, el modelo de participación laboral falló una prueba de bondad de ajuste. 7.3.3.3 Estadísticas de clasificación Otra prueba de bondad de ajuste de la regresión probit es la capacidad predictiva del modelo para clasificar correcta o incorrectamente los valores originales. A partir del pronóstico de la variable dependiente, el modelo clasifica como “1” los valores que tienen mayor probabilidad de ocurrencia y que son superiores a un punto de corte, en caso contrario los valores se clasifican como “0”. En general, se asume que el punto de corte es igual a 0.5. En Stata se utiliza el comando estat class para generar las estadísticas de clasificación así: . estat class
140
Tabla 100. Estadística de clasificación
El resultado general de esta prueba es que el 66% de los valores originales están clasificados correctamente. De la tabla de clasificación también se puede analizar la siguiente información:
El primer cuadro de la tabla realiza una comparación entre los valores observados y los pronosticados por el modelo. Las filas corresponden a los valores “1”(+) y “0”(-) clasificados por el modelo, y las columnas corresponden a los valores observados (D=1 y ~D=0). La sensibilidad mide el porcentaje de los valores “1” que fueron clasificados correctamente. En nuestro ejemplo el 89.11% de la población que hace parte de la Población Económicamente Activa (PEA) fue clasificada correctamente por el modelo. La especificidad corresponde al porcentaje de “0” que fueron pronosticados correctamente por el modelo. En el ejemplo, el 24.9% de los “0” observados ó la población que no hace parte de la PEA, fueron clasificados correctamente por el modelo. La predicción de los valores positivos o negativos mide el porcentaje de valores pronosticados que acertaron correctamente en la clasificación de “1” o “0”. En el caso de los “1” (+), el 67.9% de los datos pronosticados corresponden a los verdaderos valores de “1”, en otras palabras, del total de personas que fueron catalogadas como PEA por el modelo, el 67,9% de los casos realmente hacía parte de la PEA. En caso contrario, el 56.2% de los valores “0” pronosticados equivalen a los valores originales de los “0”. Los errores de clasificación miden el porcentaje de valores observados que fueron incorrectamente clasificados. Por ejemplo, el 75% de los valores “0” observados fueron clasificados incorrectamente por el modelo, es decir, del total de personas 141
que no hacen parte de la fuerza de trabajo, en el 75% de los casos el modelo las clasifico incorrectamente como población PEA. Una interpretación similar se realiza para el caso de los unos. El 10.8% de los valores “1” ó de la población que en la muestra hace parte de la PEA, fueron clasificados como 0 por la predicción del modelo. La tasa de falsos unos (ceros) corresponde al porcentaje de valores “1” (“0”) pronosticados que en realidad son valores “0”. En el ejemplo, el 32.1% de las personas que fueron clasificadas en la PEA por el modelo, no hacen parte de este grupo. De manera análoga, el 43.7% de los valores “0” pronosticados, son valores “1” De manera análoga, el 43.7% de las personas que el modelo clasificó como “0” o que no hacían parte de la PEA, corresponden a valores “1” que debieron pronosticarse como parte de la PEA. 7.3.3.4 CURVAS ROC
Las Curvas ROC (Receiver Operating Characteristic) son una representación gráfica de todos los pares posibles (1-especificidad, sensibilidad) que se generan con distintos puntos de corte. A medida que se incrementa el valor del punto de corte, el porcentaje de “1” clasificados correctamente por el modelo aumenta (sensibilidad), al tiempo que el porcentaje de “0” clasificados como “1” también se incrementa (falsos positivos). En STATA las curvas ROC se obtienen al ingresar en la ventana de comando la opción: . lroc
Figura 105. Curva ROC
La mayor precisión del modelo para pronosticar un estado o un evento correspondería al punto (0,1). Por lo tanto, cuanto más cercanas se encuentren las curvas a este punto, mejor es la capacidad predictiva del modelo. La forma más práctica de realizar esta prueba es calcular el área bajo la curva ROC, que puede tomar valores entre 0,5 y 1. 142
Cuando el área es equivalente a 0.5, la curva es cercana a la línea diagonal y el modelo es inútil, pero, si el área es cercana a 1, si tiene por lo tanto un buen modelo. En nuestro ejemplo, el área bajo la cuerva ROC (0.68) estaría indicando que el modelo tiene alguna capacidad predictiva. A través del comando lsens, es posible identificar el punto óptimo de corte que resulta de la intersección de las curvas de sensibilidad y especificidad: . lsens
Figura 106. Curvas de sensibilidad y especificidad
7.3.4
Pronóstico
El pronóstico de la probabilidad de un estado u ocurrencia de un evento se realiza empleando el comando predict y adicionando la opción pr así: . predict prob if e(sample), pr
7.3.5
Ejercicio
2. Calcule el valor de la variable latente o la función índice. (Utilice el comando invnormal). 3. Replique todo nuevamente teniendo en cuenta la variable tenencia de vivienda propia 4. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al mercado de trabajo para los jefes de hogar 5. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al mercado de trabajo para las mujeres 6. Calcule las estadísticas de clasificación 7. ¿Qué criterio emplearía para escoger entre modelos?
143
7.4
Ejemplo aplicado
Para este ejemplo aplicado se utiliza la base de datos de calidad de vida para el país de Colombia en el año 2010. Primero se evalúa un modelo lineal de probabilidad, después un modelo tipo Logit y finalmente un modelo tipo Probit, todo esto con el fin de obtener características de cada modelo. 7.4.1
Modelos con variable dependiente binaria MLP, Logit y Probit
𝑃𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎𝑐𝑖𝑜𝑛 = 𝛽 + 𝛽 𝑒𝑑𝑎𝑑 + 𝛽 𝑒𝑑𝑎𝑑 + 𝛽 𝑝𝑟𝑖 + 𝛽 𝑠𝑒𝑐 + 𝛽 𝑢𝑛𝑖 + 𝛽 𝑝𝑜𝑠𝑡 + 𝛽 𝑠𝑝𝑜𝑢𝑠𝑒 +𝛽 ℎ_ℎ𝑒𝑎𝑑 + 𝜀 Donde, Edad: edad del individuo i, Edad2: edad al cuadrado del individuo i, pri, sec, uni, post: variable binaria que toman el valor de uno cuando el individuo i ha alcanzado el nivel educativo respectivo, spouse: variable binaria que toma el valor de uno si el individuo i está casado y cero en cualquier otro caso y h_head: variable binaria que toma el valor de uno si el individuo i es jefe de hogar y cero en cualquier otro caso. Con un simple ejemplo se puede probar porque se deben utilizar otros instrumentos de estimación diferentes a M.C.O cuando la variables dependiente es binaria es decir toma el valor de 1 en un caso afirmativo y cero en caso contrario. . gen Participacion= Ln_w!=. . keep if p6040>=18 & p6040
View more...
Comments