120902 STATA - Completo Edicion

November 21, 2018 | Author: Roysenberg | Category: Probability Distribution, Random Variable, Poisson Distribution, Probability, Regression Analysis
Share Embed Donate


Short Description

Download 120902 STATA - Completo Edicion...

Description

ECONOMETRÍA APLICADA: STATA 12.0§ Guillermo Jopen Sánchez [email protected] Hiroshi Toma Uza [email protected]

Christian Colonio Cossio [email protected]

Roysenberg Sánchez Ballesteros [email protected] Departamento de Economía Pontificia Universidad Católica del Perú Agosto, 2012†

RESUMEN El presente documento tiene como objetivo principal introducir a los estudiantes de la especialidad de Economía, de Ciencias Sociales, y del lector interesado, al manejo y aplicación del software estadístico– econométrico Stata 12. Ello, mediante el repaso general y aplicación de los tópicos principales de estadística y econometría básicos. Cabe mencionar que el presente documento no pretende sustituir a los cursos de nivel universitario de Estadística y Econometría (con énfasis en la especialidad de Economía y Ciencias Sociales en general). Sino que por el contrario buscará afianzar estos conocimientos, permitiendo un mejor desenvolvimiento en cuanto al dominio de softwares estadístico–econométricos como este. Siendo así que se recomienda la revisión en paralelo de la bibliografía recomendada; así como de los textos a los que el mismo lector tenga acceso. ABSTRACT FALTA ABSTRACT Clasificación JEL: A33, C01 Palabras Claves: Manual, Econometría

§

La realización y culminación del presente documento fue lograda gracias a los invalorables comentarios recibidos de parte de XXXX y de XXXX, profesores del Departamento de Economía (PUCP). Todos los errores u omisiones son de la entera responsabilidad de los autores. † Guillermo Jopen Sánchez: Asistente de Docencia del Departamento de Economía, y Licenciado de Economía por la Pontificia Universidad Católica del Perú (Av. Universitaria 1801, San Miguel, Lima 32, Perú. Telf. (511) 626-2000, Anexo 4979). Christian Colonio Cossio, Roysenberg Sánchez Ballesteros e Hiroshi Toma Uza: Asistentes de investigación y estudiantes de la especialidad de Economía, Facultad de Ciencias Sociales de la Pontificia Universidad Católica del Perú.

1

ÍNDICE DETALLADO I.

Entorno del software Stata 12 ........................................................................................................... 4 1.

Aspectos generales ....................................................................................................................... 4

2.

Ventanas de trabajo ...................................................................................................................... 5

3.

Manejo de Bases de Datos (Data Management) ........................................................................... 6

4.

Archivos de instrucciones (DO-files) ......................................................................................... 12

5.

Bitácoras de trabajo (Log-files) .................................................................................................. 12

1.

Estadística ....................................................................................................................................... 13 Vector aleatorio .......................................................................................................................... 13

2.

Distribuciones importantes ......................................................................................................... 14

II.

III. Modelo de Regresión Lineal Clásico Multivariado ........................................................................ 17 1. El Modelo Clásico de Regresión Lineal Multivariado (MRLCK) .............................................. 17 2.

Metodología de MCO y sus propiedades .................................................................................... 17

3.

Omisión de variables relevantes ................................................................................................. 19

4.

Inclusión de variables irrelevantes .............................................................................................. 20

5.

Análisis de descomposición de varianza (ANOVA)................................................................... 20

6.

Criterios de selección entre modelos anidados ........................................................................... 21

7.

Inferencia del modelo lineal múltiple ......................................................................................... 22

IV. Levantamiento de Supuestos I ........................................................................................................ 25 1. Multicolinealidad ........................................................................................................................ 25 2.

Las variables ficticias o dummy y su interpretación ................................................................... 25

3.

Modelos lineales y no lineales .................................................................................................... 27

1.

Levantamiento de Supuestos II ....................................................................................................... 29 Perturbaciones no esféricas......................................................................................................... 29

2.

Heterocedasticidad...................................................................................................................... 30

V.

2

3.

Autocorrelación .......................................................................................................................... 32

VI. Levantamiento de Supuestos III ...................................................................................................... 36 FALTAN BASE Y EJEMPLOS ............................................................................................................... 36 1. Modelos con Problemas de Endogeneidad ................................................................................. 36 2.

Análisis del problema: causas, detección y soluciones ............................................................... 36

3.

Estimador de Variables Instrumentales (VI) y Mínimos Cuadrados Dos Etapas (MC2E). Método

de Momentos Generalizados (MGM) .......................................................................................................... 37 VII. Levantamiento de Supuestos IV ..................................................................................................... 40 1. Modelos con Variables Dependientes Limitadas ........................................................................ 40 2.

Modelos de Elección Binaria y Múltiple: Logit, Probit y extensiones. ...................................... 40

3.

Modelos con Datos Censurados y Truncados ............................................................................. 42

4.

Modelos de Selección. ................................................................................................................ 43

VIII. Series de tiempo .............................................................................................................................. 44 1. Procesos Estocásticos y Estacionariedad .................................................................................... 44 2.

Metodología Box-Jenkins ........................................................................................................... 46

3.

Series de Tiempo no Estacionarias ............................................................................................. 49

4.

Vectores Autoregresivos (VAR) ................................................................................................. 51

5.

Cointegración y Modelo de Corrección de Errores (VECM) ..................................................... 57

6.

Descomposición de una serie ...................................................................................................... 61

IX. Modelos de Datos de Panel ............................................................................................................. 63 1. Estimación Agrupada (Pooled Regression) ................................................................................ 64 2.

Datos de Panel: Efectos Aleatorios (RE) .................................................................................... 65

3.

Datos de Panel: Efectos Fijos (FE) ............................................................................................. 66

4.

Datos de Panel Estático y Extensiones ....................................................................................... 68

5.

Modelo Lineal Dinámico de Datos de Panel: Método Generalizado de Momentos ................... 70

3

I.

Entorno del software Stata 12

1. Aspectos generales El software Stata 12.01 es un paquete estadístico y econométrico cuyo formato de trabajo se basa en el uso de programación y de ejecución de comandos. Todos los comandos de Stata (excepto los de programación) se encuentran implementados en cuadros de diálogo, a los que se puede acceder mediante el menú principal, el cual está organizado por tópicos de la siguiente manera:

La interfaz también se muestran íconos de acceso rápido, desde donde se puede: abrir bases de datos de extensión “.dta”; guardar bases de datos recientemente editadas; imprimir los contenidos de la pantalla y gráficos recientes; inicio de bitácoras, mostrar ventanas de ayuda inactivas; edición de gráficos; inicio de archivos tipo DO; mostrar ventana de edición de datos; mostrar navegador de los datos; ícono de estado; y mostrar el estado de la ejecución de comandos y programación; funciones ordenadas en íconos de la siguiente manera:

Si bien Stata (en sus versiones a partir de la versión 8) permite trabajar a través de botones, sigue siendo un programa manejado por comandos (al igual que RATS 6, y versiones posteriores, entre otros programas), debido a que cada ventana se encuentra asociada a un comando (a diferencia de Eviews, en donde las ventanas desplegables están orientadas a objetos), por lo que aprender a manejar Stata 12 mediante comandos será de mucha utilidad, sobre todo si lo que se desea es programar en este lenguaje. En tal sentido, es necesario detallar previamente la sintaxis que usa Stata. El manejo de órdenes o comandos siguen el siguiente esquema: comando lista de variables [if expresión] [in expresión], [opciones] Los comandos muchas veces pueden ser reducidos a sus tres (03) primeros caracteres, seguidos de la lista de variables a utilizar como insumo para cada comando. Las extensiones de comandos entre corchetes son opcionales (las expresiones if o in, se detallarán más adelante). Conectores relacionales < menor que mayor que >= mayor o igual que != diferente a (puede usarse ~=) Conectores lógicos & y (& se evalúa antes que el | )

| o ! no es el caso (puede usarse ~ ) Operadores aritméticos + suma resta * multiplicación / división ^ potencia + concatenación de cadenas alfanuméricas

1

Para beneficio del lector, varios de los comandos y usos mostrados en el presente documento son herencia de las versiones anteriores del software. No obstante, hay que hacer la acotación de que también son varios los comandos y usos que son propios de esta versión de Stata (que se detallarán en su respectivo momento), por lo que se recomienda para estos efectos la revisión de la opción de ayuda o help del mismo software.

4

En este punto, el uso de operadores lógicos es relevante y necesario en ciertos casos. Por tal motivo se detallan en el recuadro anterior los más importantes. 2. Ventanas de trabajo Como se mencionó líneas arriba, Stata permite trabajar haciendo uso de ventanas, cada una de las cuales presenta un tipo diferente de información. Se detallan hasta cinco ventanas de trabajo: La ventana de resultados (results) donde se presenta los comandos, resultados y mensajes de error; la ventana de historial (review) donde aparecen los comandos, usualmente según el orden de ejecución; la ventana de variables (variables) que muestra la lista de variables cargada en la memoria; la ventana de comandos (command) que es la ventana en la que se ingresan los comandos; y finalmente la ventana de propiedades (properties) donde se detallan las propiedades de las variables cargadas en la memoria del software2. De esta manera, al iniciar el software, Stata muestra lo siguiente:

Adicional a ello, es posible contar con ventanas de trabajo como el editor de Stata (Stata Editor) y el navegador (Stata Browser) que permiten navegar y modificar los datos de la base como si fuese una hoja de cálculo respectivamente; la ventana de ayuda (Stata Viewer) que permite acceder a información en línea y también a la ayuda del programa; la ventana de gráficos (Stata Graphs) que presenta el último gráfico realizado; y el editor de archivos tipo DO (Stata Do-file Editor) que es una ventana separada y que funciona como un editor de textos que permite ejecutar una lista de comandos 3.

2

Esta ventana es una innovación de la versión 12. Facilita en buena cuenta la edición de ciertas características de las variables cargadas en la memoria, como cuestiones asociadas a nombres, formatos, etiquetas de las variables y de las observaciones, etc. 3 La personalización de las opciones, disposición de ventanas, etc. se realiza a través de la ruta: Pref/save windowing preferences. Mientras que si alguna ventana está cerrada podemos abrirla desde el menú Window.

5

3. Manejo de Bases de Datos (Data Management) Stata permite trabajar con bases de datos de todo tipo, incluyendo hasta bases de datos del tipo censal (que son de mayor tamaño); claro está, en función a la capacidad del ordenador en el que se utilice el software4. Asimismo, hasta versiones anteriores al Stata 12, era necesario habilitar la disposición de trabajo del software para trabajar con bases de datos de un tamaño mayor a 1024 Kb, por lo que si se requería la ampliación de la capacidad antes mencionada mediante el comando: set memory o simplemente set mem, de la siguiente manera: set memory 200m

Que, por ejemplo, permitiría ampliar la capacidad de la memoria a bases de datos con tamaño hasta de 200 Mb. A partir de la última versión (Stata 12) ya no es necesaria dicha especificación. Abrir bases de datos Antes de abrir una base de datos e iniciar una sesión de trabajo, es recomendable mantener una carpeta de registro en la que se pueda almacenar todos los archivos que en la sesión pudieren crearse (estimaciones, bases de datos, gráficos, etc.). Para tal sentido, el comando cd (change directory) permite hacer eso. cd "C:\Documents and Settings\Escritorio\Nueva carpeta"

Para abrir una base de datos desde el menú principal seguimos la siguiente ruta: File/Open. En el cuadro de diálogo que aparece a continuación se elige el archivo deseado, que en este caso tiene la extensión de los archivos de datos naturales de Stata, “dta”. También es posible utilizar el atajo “ctrl + o”.

Así, a manera de sesión modelo, se hará uso de la base de datos “mcdogasolita_iv.dta”5.

4

Al respecto cabe mencionar que son varios los tipos de Stata existentes en el mercado. Se cuenta con la versión Stata/MP, que es la versión más rápida de Stata (en función a los procesadores utilizados); la versión Stata/SE, que es la versión más común y permite trabajar con grandes conjuntos de datos; la versión Stata/IC, que se limita a bases de datos de tamaño moderado; la versión Small Stata, que se encarga de pequeños conjuntos de datos; y finamente el Stata Numérico que solo permite operar con información integrada o vía Stata WEB.

6

Nótese que una vez cargada la base de datos, se actualiza la ventana de variables, mostrándose en esta la información correspondiente a las mismas. Asimismo, nótese también que al ejecutar los comandos mediante estos menús se registran automáticamente estos en la ventana Review el(los) comando(s) equivalente(s) para la ventana Command. Característica muy útil cuando se aprende Stata porque es posible ejecutar un comando mediante la GUI y luego repetirlo empleando comandos. Inspección de los datos Para inspeccionar la información contenida en la base de datos cargada, es posible realizar una descripción rápida de los datos mediante el comando describe. Para copiar a un procesador de textos lo que acaba de aparecer en la ventana de resultados seleccionamos dicho resultado y lo copiamos como texto o como tabla, o como imagen, como se ve a continuación. describe . describe Contains data from C:\Documents and Settings\mcdogasolita_iv.dta obs: 52 vars: 11 size: 2,080

variable name year gasexp pop gasp income pnc puc ppt pd pn ps

storage type int float long float int float float float float float float

display format

value label

variable label

%8.0g %9.0g %12.0g %9.0g %8.0g %9.0g %9.0g %9.0g %9.0g %9.0g %9.0g

Sorted by:

Es posible también el uso de la versión resumida del comando describe, sería ds, que permite obtener únicamente una lista compacta de las variables con las que cuenta la base de datos. ds . ds year

gasexp

pop

gasp

income

pnc

puc

ppt

pd

pn

ps

Cabe mencionar que si se desea editar la información correspondiente a nombres de variables, etiquetas, notas de autor, tipos de variables, etc. Es posible acceder a la ventana de propiedades, liberar el seguro de edición (con forma de candado en la esquina superior izquierda de la ventana) y proceder con la misma, tal como se sigue a continuación:

5 Para los ejemplos de este documento se hace uso de la Base de Datos “mcdogasolita_iv.dta” utilizada en el texto de Greene (2006), excepto cuando se indique lo contrario. La Base de Datos se puede descargar desde el siguiente link: http://people.stern.nyu.edu/wgreene/Text/Edition6/

7

En versiones anteriores al Stata 12, era necesario hacer uso directo del comando label variable. Actualmente aún es posible realizar este tipo de procedimientos por comandos. Tipos de Variables: Stata puede manejar distintos tipos de variables separadas en: string o variables de texto. Variables que Stata por defecto le asigna formato float, al generar una variable nueva. Asimismo, Intercooled Stata8.0 en adelante soporta cadenas de hasta 80 caracteres de largo. Estas son:  str1 cadenas de 1 carácter  str240 cadenas de 240 caracteres Asimismo, las variables numéricas, que se organizan en los siguientes sub-tipos  float números reales en formato 8,5 (8 cifras enteras, cinco decimales)  double números reales en formato 16,5  byte enteros entre –127 y 100  int enteros entre –32767 y 32740  long enteros entre –3147483647 y 2147483620

De esta forma que el comando describe permitirá revisa la meta – información relacionada las variables de la base de datos. Mientras que por otro lado, el comando codebook permitirá inspeccionar información adicional. codebook . codebookgasexp gasexp pop

gasexp

(unlabeled)

type: range: unique values: mean: std. dev: percentiles:

numeric (float) [7.4,224.5] 51

units: missing .:

.1 0/52

70.1019 57.5147 10% 10.6

25% 15.4

50% 58.15

75% 111.8

pop

90% 137.9

(unlabeled)

Por otro lado, si se desea explorar la información en un formato tipo hoja de cálculo, el comando browse permite abrir la ventana de navegación de datos (Stata Browser), que en esta versión ya permite hacer uso de type:

numeric (long)

8 range: unique values: mean:

[159565,293951] 52 225374

units: missing .:

1 0/52

filtros de análisis y muestra de datos. Mientras que para editar esta información, el comando edit, abrirá en su defecto la ventana de edición de datos (Stata Editor). Cabe mencionar que en versiones anteriores no era posible seguir trabajando con los datos (generar o editar variables, etc.) mientras alguna de estas ventanas estaba abierta. A partir del Stata 12 ya es posible mantener estas ventanas abiertas y seguir con la sesión de trabajo.

Generación básica de variables El software no solamente permite trabajar con la información de las bases de datos en bruto, sino también generar variables en función a los requerimientos del usuario. Así, en principio, para las varias aplicaciones econométricas y demás se requerirá de la generación de ciertos tipos de variables. Para ello, desde el menú principal, utilizamos la siguiente ruta: Data/Create or change variables/Create new variable, luego de lo cual aparecerá un cuadro de diálogo en el cual debemos ingresar el nombre de la variable y su regla de creación.

Así, si, por ejemplo, se necesita crear el logaritmo natural de la variable income, en la casilla Generate variable se escribe el nombre de la variable (en este caso lnincome, por ejemplo), luego se pulsa el botón Create, y elige la opción Functions/mathematical, en la que se elige la opción logaritmo natural con doble click. Luego, en lugar de “x” se escribe el nombre de la variable insumo (en este caso income). Finalmente se pulsa el botón OK en los dos cuadros de diálogo.

9

Al final de este proceso se observa que ha aparecido una nueva variable (lnincome) y que el comando empleado en su creación ha aparecido en la ventana de Results y en la ventana Review. Asimismo, nótese que es posible utilizar cualquiera de las siguientes formas 6: generate float lnincome = ln(income) generate lnincome = ln(income) gen lnincome = ln(income)

De forma similar, algunas otras opciones importantes sobre generación de variables se asocian a: 

 

Reemplazos de variables, debido a que el programa no puede sobreescribir variables, la opción sería generar reemplazos sobre variables ya existentes (replace var_antigua = nuevo_contenido). Borrar una o más variables antiguas, mediante el comando drop. Se enumeran las variables que se desea borrar. Borrar una o más variables antiguas, mediante el comando keep. Se enumeran las variables que se desea mantener.

Otros comandos asociados a manipulación de datos: Algunos comandos relevantes que se suelen utilizar antes de realizar análisis estadístico y/o econométrico son los siguientes: sort: ordena las observaciones de una base de datos de manera ascendente a partir de los valores de una(s) determinada(s) variable(s): sort varlist [in] [, stable] gsort: ordena las observaciones de una base de datos de manera ascendente o descendente a partir de los

valores de una(s) determinada(s) variable(s): gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst] rename: cambia el nombre de una variable existente: rename old_varname new_varname generate: crea una nueva variable: generate [type] newvar[:lblname] =exp [if] [in] egen: extension de generate egen [type] newvar = fcn(arguments) [if] [in] [, options] replace: cambia el contenido de una variable existente: replace oldvar =exp [if] [in] [, nopromote] recode: permite recodificar los valores de una variable: recode varlist (rule) [(rule) ...] [, generate(newvar)]

Generación básica de gráficos Para crear gráficos se requiere un procedimiento similar. Desde el menú principal: Graphics/Twoway graphs aparece un cuadro de diálogo, donde se elige la opción “crear”, y finalmente la opción de tipo de grafico (en este caso se elige la opción scatter, y la variable y la variable ). Luego se presiona el botón OK.

6

En Stata 12.0 los comandos deben ir siempre en minúsculas. Además, para los nombres de las variables Stata tomará en cuenta si empleamos minúsculas o mayúsculas, no son la misma variable Modelo, modelo, MODELO ni moDelO.

10

Asimismo, nótese que es posible utilizar cualquiera de las siguientes formas:

0

50

100

150

Gasto total en gasolina

200

250

twoway (scatter gasexp income) scatter gasexp income

10000

15000 20000 25000 ingreso per cápita disponible

30000

Guardar una base de datos. Como se mencionó anteriormente, Stata emplea la extensión “.dta” para los archivos de bases de datos. Para grabar se pulsa el botón que tiene el icono de un disco o desde el menú principal: “File/ Save o File /Save as…” En este caso, grabaremos la base de datos con el nuevo nombre: “trabajo1.dta”7 Extensiones de comandos: Conectores relacionales y lógicos Es posible agregar a la gran mayoría de comandos extensiones o especificaciones de acuerdo a los requerimientos de trabajo. Estas especificaciones pueden ser principalmente condicionales: if o in, 7

Cabe mencionar, que en el caso de Stata 12 es necesario guardar las bases de datos en formato compatible si es que se desea abrir la misma en versiones anteriores. Ello se logra mediante el comando saveold.

11

con respecto a rangos o pertenencia a conjuntos. Con la peculiaridad que estos conectores relacionales no deben de ser confundidos con operadores matemáticos, siendo que “ =”, no será lo mismo que “==”, como se puede ver en el siguiente ejemplo, en el que se crea la variable logaritmo natural del ingreso (lnincome) solamente para ciertos casos en función a los años: gen gen gen gen gen

lnincome lnincome lnincome lnincome lnincome

= = = = =

ln(income) ln(income) ln(income) ln(income) ln(income)

if if if in in

year >= 2004 year == 2004 year F R-squared Adj R-squared Root MSE

P>|t| 0.000 0.005 0.011 0.000

= = = = = =

52 230.09 0.0000 0.9350 0.9309 .23417

[95% Conf. Interval] .0000925 .0079362 -.0272275 -12.26135

.0001734 .0412545 -.0037695 -11.13537

Nótese que luego de la aplicación del comando regress (o simplemente reg) se realiza una estimación mediante la metodología de MCO, obteniéndose el output o tabla de resultados de la misma.

18

(1) Source | (2) SS (6) df MS (10) -------------+-----------------------------Model |(3).51166559 (7) 1 .511665591 (11) Residual |(4)373.40990 (8)49 7.62061027 (12) -------------+-----------------------------Total |(5)373.92156 (9)50 7.47843137 (13)

Number of obs F( 1, 49) Prob > F R-squared Adj R-squared Root MSE

= 51 = 0.07 = 0.7966 = 0.0014 = -0.0190 = 2.7605

(14) (15) (16) (17) (18) (19)

-----------------------------------------------------------------------------(20) y |(23) Coef.(24)Std. Err. (25)t(26)P>|t|(27) [95% Conf. Interval] -------------+---------------------------------------------------------------(21) x | -.0034628 .0133639 -0.26 0.797 -.0303185 .0233929 (22)_cons | 12.53665 .7419461 16.90 0.000 11.04565 14.02764 ------------------------------------------------------------------------------

(1)

(2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14)

Fuentes de Varianza: En esta parte se muestral la descomposición de la varianza. La varianza total (Total) se descompone en la varianza explicada por el modelo (i. e. por las variables independientes) (Model) y en la varianza no explicada por el modelo (Residual). Nótese que 𝑇𝑜𝑡𝑎𝑙 𝑀𝑜𝑑𝑒𝑙 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 Suma de cuadrados (Sum of Squares) asociadas a las tres fuentes de varianza. Estas son las medidas de variabilidad respecto a la media. Suma de cuadrados explicada (ESS): 𝐸𝑆𝑆 𝑌𝑖 Suma de cuadrados residual (RSS): 𝑅𝑆𝑆 𝑒𝑖 Suma de cuadrados total (TSS): 𝑇𝑆𝑆 𝑌𝑖 Grados de libertad (Degrees of Freedom): estos son los grados de libertad asociados a las fuentes de la varianza. Los grados de libertad del modelo son 𝑘 , donde 𝑘 es el número de variables explicativas (incluyendo la constante) Los grados de libertad del residuo son los grados de libertad totales menos los grados de libertad del modelo: (8) (9) (7) La varianza total tiene 𝑛 grados de libertad donde 𝑛 es el número de observaciones. Mean Squares: 𝑀𝑆 𝑆𝑆 𝑑𝑓, es decir, el Mean Square es igual a la suma de cuadrados dividida por los grados de libertad respectivos. Con estos datos uno puede construir el estadístico F [desarrollado en 15] ( ) ( ) (7) ( ) (4) (8) ( ) (5) (9) Número de observaciones 𝑛

(15) Estadístico F de significancia global: 𝐹

)

( ) (7)

(

)

𝑅𝑆𝑆 (𝑛 𝑘)

𝐸𝑆𝑆 (𝑘

( ) (8)

(

)

(16) Valor p del test de significancia global (17) 𝑅 : 𝑅

𝐸𝑆𝑆

𝑅𝑆𝑆

( )

𝑇𝑆𝑆

𝑇𝑆𝑆

(5)

(

(18) 𝑅 𝑎𝑑𝑗 : 𝑅 𝑎𝑑𝑗

( ) (5) (𝑛

𝑅 ) (𝑛

) 𝑘)

((

( 7) ((

)

)

) 𝑘)

(19) Root Mean Squared Error (o Residual): es el desvío estándar del término de error. (20) Variable explicada (21) Variables explicativas: en este caso solo se tiene una variable explicativa, pero si tuviera más cada una se presenta en una fila. (22) Constante (23) Vector de los coeficientes estimados: 𝛽̂ (24) Desvío estándar de los coeficientes estimados: 𝜎𝛽 (25) Estadístico t: 𝑡

𝛽̂

𝑉(𝛽̂ )

𝑉(𝛽̂ )

(26) Valor 𝑝 del test de significancia individual (con dos colas) (27) Intervalo de confianza del coeficiente estimado: 𝛽̂ ± 𝜎𝛽 𝑡𝑑𝑓 0 0 5, donde 𝑑𝑓

𝑛

𝑘.

Realizamos la estimación en un modelo en el cual se elimina la variable

.

3.

Omisión de variables relevantes

Sea el siguiente modelo particionado:

19

Al realizar la estimación del parámetro obtenemos la siguiente media y varianza: [̂ ] [̂ ]

[(

[(

]

)

)

(

)

]

Se observa que la eliminación de variables relevantes crea sesgo en los estimadores, el cual depende de la relación entre las variables omitidas. Además, se genera un aumento de la varianza de los estimadores. 4.

Inclusión de variables irrelevantes

Se propone el siguiente modelo particionado:

Incluyendo una variable irrelevante obtenemos el siguiente modelo:

Se obtienen la siguiente media y varianza de los estimadores [̃ ] (̃ )

(

)

La inclusión de variables irrelevantes lleva a un incremento de la varianza de los estimadores y con ello a una proporción menos explicada de la regresión. 5.

Análisis de descomposición de varianza (ANOVA)

El análisis de descomposición de varianza permite observar las relaciones entre las variaciones de las variables explicativas y el cambio en la variable endógena, dejando de forma residual el cambio en el término de perturbación. Fuente de variación

Suma de cuadrados

Grados de libertad

Media de cuadrados

Regresión



)

(

)

Residuos

(

̂)

(

)

Total

(

)

y

ajustado

El coeficiente de bondad de ajuste o es la correlación al cuadrado entre los valores de la regresión estimada y los valores de . Este estadístico muestra qué tan bien explica la regresión a lo que

20

verdaderamente se observa. A través de este podemos comparar entre modelos distintos y determinar cuál es el más adecuado. Se determina de la siguiente manera: (̂ (

) )

Alternativamente se puede representar como: ( (

̂) )

Sin embargo, es conocido que el estadístico tiene el problema que no castiga la adición de variables, siempre aumentando cuando esto sucede. Esto podría llevarnos a elegir modelos incorrectos. Para solucionar esto se propone el ajustado, el cual sí castiga la adición de variables en el modelo. Se determina de la siguiente forma: ( (

(̂ (

) )

) ( ) (

) )

Visto de otra manera: ( (

6.

) )

( (

̂)

( ) (

) )

Criterios de selección entre modelos anidados

Aparte de los estadísticos propuestos en la sección anterior hay otros criterios de selección entre modelos. Los más usados son los siguientes: Criterio de Akaike ̂ ̂

(

)

Se elige aquel modelo que resulte con un AIC menor. Criterio de Schwarz o Bayesiano (

̂ ̂

)

( )

Al igual que el caso anterior, se elige el modelo que tenga el BIC menor. Se puede obtener ambos criterios de información usando el siguiente comando luego de haber realizado la regresión: estat ic

21

. estat ic

Model

Obs

ll(null)

ll(model)

df

AIC

BIC

.

52

-67.27563

3.784966

4

.4300677

8.235043

Note:

7.

N=Obs used in calculating BIC; see [R] BIC note

Inferencia del modelo lineal múltiple

Sea ̂ ̂

̂

̂ , donde

(

) . Sabemos que

̂ ̂

donde

es la traza de

, y que

̂ ̂ y ̂ son independientes, por lo cual podemos usar la siguiente expresión: ̂ Donde

es el componente

(

(

de la matriz (

̂

) )

(

)

) .

Con esta nueva expresión se puede obtener una distribución de t de Student. ̂ √





Donde √ es el desvío estándar del estimador . El resultado de esta expresión podemos utilizarlo para contrastar una hipótesis nula o para hallar un intervalo de confianza para cada . Prueba de hipótesis individual Se realiza una prueba de hipótesis para conocer la significancia de cada variable dentro del modelo. Las hipótesis individuales toman la forma siguiente: 0



Siguiendo los supuestos clásicos, se comprueban las hipótesis a través del uso del estadístico t de Student. 0

( ̂) El valor resultante del estadístico se compara con los valores de tabla para conocer la significancia de la variable. Para realizar una prueba de hipótesis de significancia en Stata se utiliza el siguiente comando (en el ejemplo se realiza la prueba para la variable income): test income . test income ( 1)

income = 0 F(

1, 48) = Prob > F =

43.70 0.0000

Prueba de hipótesis conjunta

22

Surge un problema más complicado cuando se intenta evaluar simultáneamente varias hipótesis que envuelvan a varios . Estas hipótesis pueden adoptar la forma: 0

A la cual aplicando el supuesto de normalidad y haciendo uso de la tabla Fisher se puede obtener la siguiente expresión: (( ̂

)[ (

) (

)

]( ̂

)

) ( ̂ ̂

)

La cual se puede reducir a las siguientes expresiones para el caso de una prueba de significancia conjunta: ( (

) ) (

̂ ̂

)

Si el valor obtenido a través del F estadístico es superior al F de tabla, se puede rechazar la hipótesis conjunta. A continuación se muestran algunos ejemplos de hipótesis conjuntas: test income pnc puc . test income pnc puc ( 1) ( 2) ( 3)

income = 0 pnc = 0 puc = 0 F(

3, 48) = Prob > F =

230.09 0.0000

test (income+pnc+puc=0) . test (income+pnc+puc=0) ( 1)

income + pnc + puc = 0 F(

1, 48) = Prob > F =

6.84 0.0119

test (income) (pnc+puc=0) . test (income) (pnc+puc=0) ( 1) ( 2)

income = 0 pnc + puc = 0 F(

2, 48) = Prob > F =

88.96 0.0000

Intervalos de confianza Un intervalo de confianza consta de un rango limitado dentro del cual se ubicará el valor de una variable desconocida con una determinada probabilidad. Para lo que interesa en este caso, se muestra el intervalo de confianza para el estimador ̂ : ̂ (

0

( ̂)

(

)

)

23

Aquí α es el nivel de significancia de la estimación. Por otro lado, tienen que ser comparados con la tabla de la distribución normal.

y

son los valores críticos que

Predicción en el modelo de -variables Sea el siguiente conjunto de valores de las variables explicativas: [ Donde los superíndices

]

indican que se trata de un predictor.

Se desea predecir el valor de para los valores dados de . Existen dos posibles caminos: una predicción puntual o un intervalo de confianza para la predicción. Para el caso de predicción puntual solo es necesario hacer una regresión estimada de la forma siguiente: ̂

̂

Para hallar una predicción de intervalo de confianza podemos usar la distribución de c´ ̂ : ̂

(

(

)

)

Con lo cual se obtiene: ̂

(

√ ( Esto genera un intervalo de confianza al (

) ̂ ±

) )

de confianza √ (

)

Para almacenar los valores de predicción se ingresa el siguiente comando: predict y_hat

24

IV. Levantamiento de Supuestos I Como se vio en el capítulo 3, existen múltiples supuestos en los modelos de regresión clásicos. Sin embargo, los datos de los que se disponen no siempre cumplen con esos supuestos, por lo que las estimaciones tienen que hacerse de otra manera. Es aquí en donde se empiezan a levantar algunos supuestos para poder llegar a las mejores estimaciones. 1.

Multicolinealidad

La multicolinealidad surge cuando las variables explicativas se encuentran correlacionadas entre sí y no es posible analizar con precisión los efectos individuales de cada una de ellas. Si las variables se encuentran perfectamente correlacionadas, se dice que existe multicolinealidad perfecta y se cumple la siguiente condición:

Donde

son constantes distintas de cero.

Sin embargo, lo más común es que las variables muestren correlación alta, pero no perfecta. Esta es la condición que se debe cumplir para este caso:

Para detectar si existe multicolinealidad se puede realizar la prueba VIF. Para realizarla en Stata se inserta el siguiente comando luego de la regresión: estat vif Variable

VIF

1/VIF

pnc puc income

87.82 82.54 11.60

0.011387 0.012115 0.086212

Mean VIF

60.65

Si el VIF promedio es 0 entonces no hay multicolinealidad, si está entre 0 y 10 hay multicolinealidad imperfecta baja y si es mayor a 10 hay multicolinealidad imperfecta alta. 2.

Las variables ficticias o dummy y su interpretación

Las variables ficticias o también denominadas binarias son una herramienta para introducir cambios discretos en la función de un modelo de regresión. Estas variables sirven para indicar la presencia o ausencia de una cualidad o atributo. Suelen tomar los valores de 0 y 1 para cuantificar un atributo. La siguiente ecuación representa la introducción de una variable explicativa cualitativa en un modelo de regresión.

Donde

si pertenece al grupo 1 y

si pertenece al grupo 2.

Para la generación de variables dummies en Stata se insertan los siguientes comandos.

25

gen d = 0 replace d = 1 if gasexp chi2

= =

1.93 0.1647

Si el valor obtenido a través de la prueba es superior al de tabla, entonces se rechaza la hipótesis nula de varianza constante. b)

Contraste de White

Esta es la prueba más popular para detectar heterocedasticidad. Sin embargo, tiene la desventaja de no reconocer la causa de la heterocedasticidad ni su forma. Para realizar este test, se tiene que realizar una regresión de los errores mínimos cuadráticos, elevados al cuadrado, contra: una constante, los cuadrados de , y los productos cruzados de segundo orden.

31

Esta regresión, por Teoría Asintótica, por la Ley de los Grandes Números, genera un estadístico que se puede contrastar con los valores de tabla. Para el uso de esta prueba en Stata, es necesario descargala. Para ello se inserta el siguiente comando: ssc install whitetst

Inmediatamente después de una regresión, se ingresa el comando de la prueba. . whitetst

whitetst

White's general test statistic :

26.11993

Chi-sq( 9)

P-value =

Se observa el P-value y se constata si se puede rechazar o no la presencia de heterocedasticidad. Soluciones al problema de heterocedasticidad a) Utilizacion del método de MCG Es importante especificar bien (inversa de la matriz de covarianzas) para que los estimadores de MCG sean insesgados. Aplicando el método al modelo inicial se obtiene: ̂

(

)

b) Utilización de las varianzas corregidas de White Suponiendo que el estimador obtenido por MCO es insesgado y consistente, y que el tamaño de la muestra es grande, podemos utilizar las varianzas consistentes con heterocedasticidad de White, la cual es: ̂ (̂

(

)

)

(

)

donde ̂ ̂ [

̂ ]

Y se hace referencia a los residuos de la estimación MCO del modelo original. 3.

Autocorrelación

Se afirma que existe autocorrelación cuando la covarianza entre los términos de perturbación es diferente de cero. Esto es común en muestras de series de tiempo. (

)



Dada la siguiente función de autocorrelación:



(

)

( )√

(

)

32

.002

Donde

. La matriz de varianzas y covarianzas adopta la siguiente forma:

( ) [

]

La autocorrelación surge a causa de diversas razones como la exclusión de variables correlacionadas, error de especificación, errores de medición que se acumulan y están autocorrelacionados, etc. Las perturbaciones pueden generarse de un proceso autoregresivo (AR) o de promedios móviles (MA).

Eficiencia de los estimadores MCO y MCG Al igual que en el caso de heterocedasticidad, en el caso de autocorrelación los estimadores continúan siendo lineales e insesgados, pero no son eficientes porque no poseen varianza mínima. Por lo tanto, los estimadores obtenidos mediante MCG resultan más eficientes puesto que incorporan el factor de autocorrelación. Pruebas de autocorrelación a.

Contraste de Durbin-Watson (DW) Es un constraste que toma la siguiente forma: ( ̂ ̂ )

(

̂

̂)

̂

̂ ̂

ó (

̂)

̂

̂ ̂

Donde ̂ es la autocorrelación muestral, por lo cual, si la muestra es grande: ( ̂) Notemos además que ̂ es el coeficiente MCO de regresionar ̂ sobre ̂

.

Valores del estadístico cercanos a cero indican autocorrelación positiva de primer orden, mientras que valores cercanos a cuatro indican autocorrelación negativa de primer orden. Es válido, además, afirmar que valores de que tienden a ser menores (mayores) que 2 será indicio de autocorrelación positiva (negativa) en las perturbaciones. La comparación formal de la prueba se hace con los valores de tabla de Durbin y Watson, el cual cuenta con un límite superior y un límite inferior, que dependen únicamente del tamaño de la muestra y del número de variables explicativas en la regresión. Aceptar Rechazar

si si

No se llega a una conclusión si

33

Esta prueba no es válida cuando la matriz X no es estrictamente no estocástica, cuando la regresión no incluye un término constante (intercepto) y cuando el proceso autoregresivo (AR) no es de primer orden. Se necesita contar con una base de datos de serie de tiempo para realizar esta prueba. Para ello se empleará la siguiente disponible en la web: webuse air2 air2 . webuse

(TIMESLAB: Airline passengers) Luego de contar con la base de datos, establecemos la variable tiempo de esta forma: . tsset tsset t t time variable: delta:

t, 1 to 144 1 unit

Una vez establecida la variable y realizada la regresión (regress air L.air), podemos emplear el comando para la prueba: estat dwatson

b.

Contraste de Breusch-Godfrey: Es una prueba más general que la de Durbin-Watson, puesto que es válidad para cualquier orden de correlación. Para realizar la prueba se asume que los términos de error siguen un patrón autoregresivo contra los valores rezagados de períodos atrás.

Donde

es un término estocástico.

Se plantea la hipótesis nula de no autocorrelación: 0

Luego de realizar la estimación mediante MCO al modelo que se plantee, se debe obtener los residuos ̂ . Estos últimos deben volverse a estimar de la siguiente forma: ̂ ̂ Empleamos el (

̂ ̂

̂ ̂

obtenido en esta última regresión y la empleamos en la expresión:

)

34

Este valor luego se compara con los valores de la tabla existencia de autocorrelación.

para llegar luego a una conclusión sobre la

La utilización de esta prueba en Stata debe realizarse siguiendo el comando: . estat bgodfrey, l(1) Estat bgodfrey Breusch-Godfrey LM test for autocorrelation lags(p)

chi2

1

15.439

df 1

Prob > chi2 0.0001

H0: no serial correlation

Si se desea realizar la prueba con más de un valor rezagado, debe cambiarse el número (1) por el número de rezagos empleados. Soluciones al problema de autocorrelación FALTAN SOLUCIONES

35

Levantamiento de Supuestos III8 FALTAN BASE Y EJEMPLOS

VI.

Hasta ahora hemos visto modelos en donde las variables son independientes de los residuos. Sin embargo, no siempre se encontrarán datos que concuerden con estos modelos; en algunos casos existe una correlación entre alguna de las variables explicativas y alguna variable no explicitada en el modelo (cuyo efecto se encuentra contabilizado en el término de error). Este es el problema de la endogeneidad. 1. Modelos con Problemas de Endogeneidad Uno de los supuestos del modelo clásico de regresión lineal es: ( ) Y, naturalmente: (

)

No obstante, se puede dar que los datos con los que se trabaja lleven a que no se cumpla esta condición. Por lo que se tendría en estos casos que: ( )≠ (

)≠

2. Análisis del problema: causas, detección y soluciones Las posibles causas para este problema son: a) Cuando hay variables omitidas no observables. b) Cuando hay errores en la medición en las variables. c) Estimación de sistemas de ecuaciones. La manera más simple para saber si es que se tiene un problema de endogeneidad es hacer una prueba de correlación entre las variables explicativas y el término de error. De ser esta correlación distinta a 0, entonces nos encontramos ante un problema de endogeneidad. Para hacer este test en Stata, primero se debe almacenar los residuos luego de hacer una regresión: regress lngasexppc income pnc puc predict resid

Luego se puede hacer el test de correlación de Pearson: corr income pnc puc resid

8

Para este capítulo se usará la base de datos XXXXX.

36

income pnc puc resid

income

pnc

puc

resid

1.0000 0.9556 0.9526 0.9935

1.0000 0.9939 0.9646

1.0000 0.9500

1.0000

Como se puede observar, las correlaciones entre los residuos y las variables exógenas son diferentes de 0. Entonces hay un problema de endogeneidad. Este problema no se puede solucionar desde el lado de los datos, pero sí se puede llegar a mejores estimaciones si es que se usan ciertos métodos que se mostrarán en la siguiente sección. 3. Estimador de Variables Instrumentales (VI) y Mínimos Cuadrados Dos Etapas (MC2E). Método de Momentos Generalizados (MGM) Variables instrumentales Se considera un conjunto de variables instrumentales condiciones:

, el cual cumple con las siguientes

Relevancia, es decir debe estar correlacionada con las explicativas. ( )≠ Exogeneidad, es decir no debe estar correlacionada con la perturbación. ( ) Mínimos cuadrados en 2 etapas (MC2E) Ahora se pasa a ver el método de mínimos cuadrados en 2 etapas (MC2E), que es la forma más común de usar variables instrumentales. Sea la matriz de variables independientes y regresión:

De aquí se obtiene

la matriz de instrumentos, se realiza la siguiente

de la siguiente manera: ̂

̂

̂

Al obtener se ha instrumentalizado a la variable , la cual presentaba el problema de endogeneidad. Finalmente se lleva a cabo la regresión que se tenía en mente al inicio, pero con la matriz de variables instrumentalizadas. ̂ 0 De aquí obtendremos el estimador ̂ . Para llevar a cabo la regresión de variables instrumentales en Stata, se pone el siguiente comando: ivreg lngasexppc(lnincome pnc puc = pd pn ps)

37

Donde se tiene a pd, pn y ps como instrumentos para las variables explicativas. Sin embargo, con este comando se instrumentalizan todas las variables independientes.

Si es que queremos instrumentalizar una variable en específico, se puede seguir el siguiente proceso: regress [variable a instrumentalizar] [instrumentos] predict [instrumentalizada] regress [endógena] [exógenas] [instrumentalizada]

Este proceso que se acaba de describir básicamente ha seguido los pasos descritos líneas arriba sobre el método de MC2E. Prueba de Hausman: Una manera para conocer si el estimador ̂ es más eficiente que el estimador obtenido por MCO es aplicando el test de Hausman. Dicho contraste se basa en la comparación de los estimadores MCO y VI, determinando si la diferencia entre ellos es estadísticamente significativa. Para llevar a cabo este test, primero se debe guardar los estimadores luego de las regresiones MCO y VI. Esto se hace poniendo lo siguiente inmediatamente después de cada regresión: regress lngasexppc income pnc puc estimates store mco ivreg lngasexppc(lnincome pnc puc = pd pn ps) estimates store vi

Para el test de Hausman, el comando es el siguiente: hausman mco vi

38

Método generalizado de momentos(MGM) En el caso de contar con una muestra grande, ante el problema de endogeneidad, se puede usar el Método Generalizado de Momentos (MGM). El uso de este método se da generalmente cuando se desconoce la función de distribución de las variables aleatorias. La función objetivo del MGM es: ( )

̂

[ (

)]

[ (

̂

)]

De donde se obtiene que: ̂ Además,

(

)

es la matriz de ponderadores, la cual es la inversa de la matriz de covarianzas de las

restricciones, que a su vez depende de la matriz de covarianzas poblacional de los términos de error. Para hacer uso de este método, se debe poner en Stata el siguiente comando, usando la base de datos auto: webuse auto, clear gmm (mpg - {b1}*weight - {b2}*length - {b0}), instruments(weight length)

39

VII.

Levantamiento de Supuestos IV

1. Modelos con Variables Dependientes Limitadas En capítulos anteriores se analizó a la variable dependiente cuando era cuantitativa, es decir, la variable respuesta tomaba cantidades numéricas; sin embargo, ahora se analiza a la variable dependiente tomando respuesta cualitativa, por ejemplo, la variable dependiente responde al resultado de votar a favor de Ollanta o votar en favor de Keiko, donde Ollanta =0 y Keiko = 1, incluso podemos extender el resultado de la variable respuesta a votar en favor de Toledo = 2. De esta manera, la variable dependiente no solo puede ser dicotómica o binaria, sino policótoma o múltiple pero siempre limitada.

2. Modelos de Elección Binaria y Múltiple: Logit, Probit y extensiones.

En los modelos con variables dependientes cualitativas los resultados se comportan de manera discreta, es decir, un número acotado de respuestas, por este motivo a la hora de encontrar la ocurrencia se usa la probabilidad de que el acontecimiento se dé.

En el caso de un modelo con variable regresada dicotómica, donde dicha variable toma valores de 0 o 1, sigue una distribucion de Bernoulli, de tal manera que el modelo [

]

[



]

(

[

tiene:

]

)

Existen diversos problemas con respecto al Modelo de elección binaria. Primero, la no necesaria existencia de normalidad del término de perturbación , pero este no resulta un problema mayor, pues en muestras grandes tiende a tener una distribucion normal. Segundo, la heterocedasticidad del modelo, debido a que la varianza es una función de los regresores esta no es constante, pero el problema de heterocedasticidad, al igual que el de la no normalidad, no es insuperable. Tercero, el incremento

40

marginal de [

siempre permanece constante, algo que no concuerda con la realidad. Finalmente, el que

] escape de sus intervalos 0 y 1, aunque esto a priori esto es verdadero, no hay garantía de los

estimadores de [

] cumplan necesariamente esta condición por ese motivo se formula la existencia

de una variable latente o índice, es decir, una demarcación a partir de la cual los números mayores a esta toman el valor de 1, así mismo los valores menores a esta toman el valor de 0; el segundo procedimiento es diseñar una técnica de estimación que garantice que las probabilidades condicionales se encuentren entre 0 y 1.

Se necesita de modelos probabilísticos con los que se pueda conciliar en el tercer y último problema descrito. Por ese motivo se usa los modelos Logit y Probit, ambos con función de distribucion acumulativa, debido a que [

]

(

)

(

).

Modelo Logit

La función de distribucion logística representada como:

( )

Se encuentra dentro de un rango 0 a 1, para cualquier valor de

entre

, con lo que la

probabilidad no está linealmente relacionado con Z, de esta manera se satisface los dos requisitos considerados antes.

Modelo Probit

La función de distribucion probabilística representada como:

( )



( )



41

El problema de que la probabilidad puede encontrarse fuera del rango entre 0 y 1, podemos considerar un indicador que depende de las características individuales ( individuo toma la decisión

3.

si

), de manera que el

, este indicador también conocido como variable latente.

Modelos con Datos Censurados y Truncados

Modelo con Datos Censurados

Los modelos censurados son aquellos en los valores inferiores o superiores a cierta cantidad son sustituidos por una cantidad fija, por ejemplo cero o uno; así mismo, se define como modelos en los que no se conocen algunos valores del regresando. En general, el modelo censurado es aquel done el valor de la variable endógena superior o inferior es desconocido, por ese motivo están sometido a un límite por el cual es sustituido. Por ejemplo, en los datos de nivel de ingreso, si los datos están por debajo del umbral de pobreza (extrema pobreza), entonces existe censura.

Cuando existe censura, la distribucion que siguen los datos muestrales es una combinación de distribucion discreta y continua, pues para valores inferiores o superiores al rango acotado, la variable se comporta de manera discreta, en los demás casos toma va forma de variable continua. La distribucion normal censurada sigue el siguiente comportamiento: ……….. ………..

La estimación de este modelo se realiza por el método de máxima verosimilitud, ya que el proceso de MCO presenta inconvenientes.

Modelo con Datos Truncados

Una muestra se considera truncada cuando ciertas observaciones son sistemáticamente excluidas de la muestra, esto debido a que solo ciertas observaciones satisfacen el criterio. Por ejemplo, cuando se

42

quiere analizar la ecuación de salario de los trabajadores de una empresa en función de sus características socio laborales, el criterio de selección debe tener como salario mayor o igual que el salario interprofesional mínimo vigente.

La función de Densidad de una variable truncada, parte de la definición de probabilidad condicional, es decir, el efecto de truncar equivale a acotar el rango en el cual se integre la función de densidad. La distribucion Normal truncada sigue el siguiente comportamiento: (

) (

Siendo

( ) )

[

( )]

, donde a es el límite del truncamiento

El cálculo del modelo de regresión truncado no se estima por MCO, sino mediante el método de máxima verosimilitud. El proceso de maximización de esta función, aún es muy complicado, debido a la poca linealidad de la misma.

4. Modelos de Selección.

43

VIII. Series de tiempo La información de series temporales o series de tiempo es distinta a los casos de corte transversal pues requieren de un tratamiento distinto. Específicamente, las modelaciones de variables antes mostradas pueden sufrir ciertas fallas de especificación ante estos casos. Motivo por el cual se requiere de la utilización de modelaciones distintas que tomen en cuenta especificaciones matemáticas lineales basadas en la dependencia de una variable con respecto a su información pasada. Ello porque conocer el proceso generador de datos de una serie de tiempo permitiría predecir el comportamiento de la variable, caracterizarla y, en cierta medida, conocer como afectarla, y en algunos casos controlarla.

En este tipo de casos de bases de datos (series de tiempo) se requiere realizar una declaración de la base de datos a Stata, debido a que por defecto el software reconoce todas las bases de datos como del tipo de corte transversal. Además, el comando tsset implica también el reconocimiento de una variable de tiempo (que puede ser anual, semestral, trimestral, mensual, etc.). Así por ejemplo al utilizar la base de datos “air2.dta”: webuse air2.dta, clear

tsset t

1.

Procesos Estocásticos y Estacionariedad

Sea una serie de tiempo

[

] donde el subíndice representa observaciones en el tiempo se

denomina proceso estocástico discreto. Siendo que este proceso estocástico

puede ser también estacionario

en el sentido débil 9 , en tanto que cumpla con tener media y varianza constantes, y con covarianzas que solamente dependen de la distancia entre las observaciones:   

( ) ( ) (

)

(

)

Así, un proceso estocástico en el que la media es cero, la varianza es constante y las covarianzas nulas, se denominará como Ruido Blanco (White Noise). Proceso que implica el máximo nivel de aleatoriedad y/o independencia de una variable con respecto a sus rezagos. Por ejemplo, a continuación se generará una

9

Pues la estacionariedad en el sentido fuerte, implica que tanto como tienen la misma función de probabilidad, para todo y . ) y del vector ( ) también deben de ser iguales. Además de que las funciones de probabilidad conjuntas del vector ( Motivo por el cual todos los momentos relevantes serían independientes del tiempo.

44

(

muestra de 100 observaciones de una variable ( ) que sigue una distribución normal

), tal que

representa un caso de Ruido Blanco pues ninguna observación depende de su rezago: clear set obs 100 gen time=_n tsset time gen e=invnorm(uniform()) tsline e

0

-3

-2

.2

-1

e

Density

0

.4

1

2

.6

histogram e, normal

0

20

40

60

80

100

-3

-2

-1

time

0

1

2

e

Por otro lado, si es que la serie tiene relación con sus rezagos 10, esta puede modelarse como un proceso autoregresivo. Así podría tener dependencia con respecto a su primer rezago; proceso denominado también como proceso autoregresivo de orden 1, donde se cuenta también con un término aleatorio

(

) o

Ruido Blanco:

Generalizando, también es posible especificar un caso de proceso autoregresivo de orden AR( ), que a la vez incluye un término aleatorio

(

o modelo

). Tal que:

Donde gracias al supuesto de estacionariedad, se debería de cumplir que | |

.

Por otro lado, otra forma alternativa de modelación es mediante los procesos de medias móviles de orden o modelo MA( ), que a la vez incluye un término aleatorio

(

). Tal que:

Que al igual que en los modelos AR, en los modelos MA se requiere que | |

para que el modelo sea

estacionario. En tal sentido, tanto los modelos AR como los modelos MA, pertenecen a una familia mayor de modelos estacionarios de series de tiempo denominados modelos ARMA(

) (Procesos Autoregresivos y de Medias

Móviles Estacionarias). Procesos que operan bajo la siguiente forma: 10 Para poder obtener unas primeras señales sobre si las variables muestran autocorrelación. Revisar el capítulo XX. [Ver si en el capítulo de Levantamiento de Supuestos I hay comandos sobre Durbin Watson, Ljung-Box o Estadístico Q]

45

Y que por agregación cumplen las condiciones de estacionariedad: | | 2.

y | |

.

Metodología Box-Jenkins

La metodología Box–Jenkins (1976)11 tiene como objetivo perseguir la parsimonia del modelo (i.e. usar la menor cantidad de parámetros a estimar). Por ejemplo, en la década de 1960 se observó el desarrollo de modelos macroeconómicos de gran dimensión con el propósito de describir la economía con cientos de variables y ecuaciones. Muchos modelos de este tipo mostraron un buen ajuste en el período de estimación, sin embargo, sus proyecciones (en términos de predicciones fuera de la muestra) resultaron pobres 12.Ello probablemente debido a la falta de especificación del modelo de comportamiento de las variables. La metodología Box – Jenkins propone un análisis por etapas que permitiría llegar al mejor modelo que describa la conducta de series temporales. Para efectos de un mejor entendimiento de la aplicación de Stata a este tipo de datos se utilizará la base de datos utilizada por Enders (2004, 87-93)13, que considera un modelo ARMA del Índice de Precios al por Mayor (IPM o WPI por sus siglas en inglés), utilizando datos trimestrales durante el período 1960 – 1990. webuse wpi1, clear tsset t

i.

Etapa de Identificación: El primer paso que se debe de realizar es diferenciar la(s) series(s) con la(s) que se va a trabajar, cuantas veces sea necesario para lograr que esta sea estacionaria (que cumpla con las condiciones de estacionariedad). Para ello, es posible brindar una idea del comportamiento de la serie mediante un análisis gráfico mediante el comando line. Si se intuye la no estacionariedad de la serie, resultaría necesario diferenciarla (en algunos casos como este –según el modelo – será posible simplemente obtener los logaritmos de la serie). tsline wpi

20

3.5

40

4

60

wpi

ln_wpi

80

4.5

100

5

120

tsline ln_wpi

1960q1

1970q1

1980q1

1990q1

1960q1

1970q1

t

1980q1

1990q1

t

11

Box, G. E. P., and G. M. Jenkins. 1976. Time Series Analysis: Forecasting and Control. Oakland, CA: Holden–Day.

12

Hamilton, J (1994). Time Series Analysis, pag 109. Enders, W. 2004. Applied Econometric Time Series. 2nd ed. New York: Wiley.

13

46

En este caso, ¡la serie resulta ser no estacionaria!; motivo por el cual se optaría por trabajar con las primeras diferencias de la serie. Así, se hace uso de la especificación “D.” que permite hacer uso de las primeras diferencias de una serie de datos a través del tiempo, sin necesidad de realizar transformación. Vale decir que si se desea obtener las segundas diferencias de la serie bastaría con utilizar la especificación “D2.”, y así sucesivamente. Ello con la intención de volver la serie estacionaria. Asimismo, mediante las funciones de Autocorrelación Simple y Parcial es posible obtener una mejor idea sobre la estacionariedad de la serie. Además, es posible adquirir una noción de la naturaleza del proceso, si es autoregresivo, de medias móviles, y de que orden. Es así que en este caso se utilizarían los comandos 14

corrgram, ac y pac. De tal manera que se obtendría lo siguiente : tsline D.wpi

-2

.02 -.02

0

0

D.wpi

D.ln_wpi

.04

2

.06

4

.08

tsline D.ln_wpi

1960q1

1970q1

1980q1

1960q1

1990q1

1970q1

1980q1

1990q1

t

t

corrgram D.ln_wpi, lags(20) ac D.ln_wpi, title (Autocorrelación) pac D.ln_wpi, title (Autocorrelación Parcial) Autocorrelación Parcial 0.60 -0.20

0.00

0.20

0.40

Partial autocorrelations of D.ln_wpi

0.40 0.20 0.00 -0.20 -0.40

Autocorrelations of D.ln_wpi

0.60

Autocorrelación

0

10

20 Lag

30

40

Bartlett's formula for MA(q) 95% confidence bands

0

10

20 Lag

30

40

95% Confidence bands [se = 1/sqrt(n)]

Siendo entonces que de acuerdo a estos cuadros y gráficas se obtiene para este ejemplo, que la serie muestra una conducta modelable mediante un proceso AR( ) y por un MA( ) o MA(4) o en otras palabras, el proceso puede modelar por un modelo ARMA(

) o un modelo ARMA( 4). Motivo por el cual se procede

a realizar la estimación correspondiente mediante ese modelo.

14

Cabe mencionar que con la extensión de comando “, lags(n)” es posible especificar el número de rezagos que se desea mostrar

( ).

47

ii.

Etapa de Estimación: Implica la estimación de cada uno de los modelos tentativos identificados en la etapa anterior, para luego, seleccionar mediante la utilización de los criterios AIC y BIC el más apropiado. Siendo así, el comando arima permite la estimación mediante el modelo ARMA, el comando predict permite obtener los residuos correspondientes a esa estimación, y la utilización del comando corrgram permitirá verificar el ajuste del modelo escogido. Así: arima D.ln_wpi, ar(1) ma(1) estimates store arma11 arima D.ln_wpi, ar(1) ma(4) estimates store arma14 est table arma*, stats (N ll chi2 aic bic) star style(noline) . arima D.ln_wpi, ar(1) ma(4) (setting optimization to BHHH) Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = (switching optimization to BFGS) Iteration 5: log likelihood = Iteration 6: log likelihood = Iteration 7: log likelihood = Iteration 8: log likelihood = Iteration 9: log likelihood =

380.18931 380.82961 381.18194 381.82255 381.9634 381.98513 382.12659 382.1594 382.16031 382.16034

ARIMA regression Sample:

1960q2 - 1990q4

Log likelihood =

Number of obs Wald chi2(2) Prob > chi2

382.1603

D.ln_wpi

Coef.

OPG Std. Err.

z

P>|z|

= = =

123 89.36 0.0000

[95% Conf. Interval]

ln_wpi _cons

.0110096

.0034943

3.15

0.002

.004161

.0178583

ar L1.

.5368759

.0810246

6.63

0.000

.3780705

.6956813

ma L4.

.3024168

.0688106

4.39

0.000

.1675505

.4372831

/sigma

.0107907

.0004447

24.27

0.000

.0099192

.0116622

ARMA

Así, para mayor facilidad el cuadro siguiente resume algunas de los casos que podrían suceder con la Función de Autocorrelación y de la Función de Autocorrelación Parcial, de forma que facilita la identificación del modelo ARMA a elegir: Proceso Ruido Blanco

15

Autocorrelación (AC) ( )

∀ ≠

Autocorrelación Parcial (PAC)

15



AR(1), si

Caída Exponencial

( )



AR(1), si

Caída Oscilante

( )



Donde r refiere a la raíz j-ésima del proceso autoregresivo.

48

AR(p)



Caída Exponencial u Oscilante

∀ MA(1), si

Pico positivo en ( ). ( )



Caída Oscilante

MA(1), si

Pico negativo en ( ). ( )



Caída Exponencial

ARMA(1,1), si

Caída exponencial en ( ) ( )

)

Caída oscilante en ( )

ARMA(1,1), si

( ) ARMA(p,q)

iii.

(

(

)

Caída Oscilante comenzando en ( ) Caída exponencial comenzando en ( )

Caída oscilante o exponencial

Caída oscilante o exponencial

comenzando en el rezago

comenzando en el rezago

Diagnóstico: Como se mencionó anteriormente, para medir la bondad de ajuste de un modelo estimado, los estadísticos más utilizados son los antes mencionados criterios de selección de modelos anidados (

cuadrado, el

cuadrado ajustado, el AIC y el BIC). Adicional a ello, se suele graficar los

residuos estimados del modelo para analizar el grado de ajuste del modelo; pues cualquier indicio de autocorrelación que se mantenga implicaría un mejor ajuste del modelo. predict resid_arma, resid corrgram resid_arma

Siendo que si los residuos estimados no se comportan como un Ruido Blanco, se debería de buscar outliers o comportamientos anómalos o un mejor modelo de estimación. Ante ello una sugerencia sería particionar la muestra y analizar de forma separada para encontrar cambios en la estructura de la modelización. Para el caso de outliers el comando hadimvo puede ser utilidad para su detección. Otra posibilidad es la existencia de raíces unitarias. iv.

Predicción: Como forma adicional de evaluar la correcta especificación del modelo, se puede utilizar comandos que permitan realizar predicciones de la variable dependiente a partir de los parámetros estimados. Ello, pues otra forma de analizar un modelo es a través de su capacidad predictiva (mediante un predicción fuera de la muestra), por lo que se procede a ampliar la muestra y reestimar la variable a analizar el mantenimiento de la estacionariedad. predict ln_wpiest set obs 248 replace t=_n predict ln_wpiest2

3.

Series de Tiempo no Estacionarias

Así como se mencionó en el punto anterior, es posible que las series de tiempo sean descritas por procesos no estacionarios (en los que la media y la varianza no son constantes pues dependen del tiempo). En tal sentido es posible una modelación asumiendo que: 

La serie incluye una tendencia temporal deterministica:

( )

49



La serie posee una raíz unitaria: (

)

( )

La detección de la existencia o no de raíces unitarias en series resulta relevante pues la definición de estacionariedad o no en una serie tiene implicancias importantes. Así por ejemplo los shocks que afectan a series estacionarias son temporales (i.e. se disipan con el tiempo); mientras que en casos de series no estacionarias, el efecto es permanente. Para ello algunos indicios serían: 

La no existencia de un valor medio de largo plazo al cual retorne la serie



Varianza dependiente del tiempo



Las funciones de autocorrelación teóricas no convergen; pero en muestras finitas, el correlograma

converge lentamente. Dado que la evaluación de los correlogramas es solo un indio de la estacionariedad de las variables, resulta de utilidad realizar pruebas de raíz unitaria. Siendo que para el caso de Stata se cuenta con algunos de los principales tipos de contrastes: Dickey – Fuller, Dickey – Fuller Aumentado, DF – GLS y el Phillips – Perron. Contraste Dickey – Fuller: Es este caso el modelo más sencillo es el desarrollado por Dickey y

i. Fuller:

Siendo que al restar a ambos lados

, se obtiene que: (

)

Por lo que el contraste trabaja bajo la hipótesis nula de que

. No obstante, este contraste también admite

especificaciones sobre la forma del modelo a utilizar (inclusión de tendencia lineal, intercepto, etc.) Contraste Dickey – Fuller Aumentado: permite realizar un análisis mucho más amplio ya que admite

ii.

no solamente la existencia de un proceso AR(1), sino la existencia de un AR(p). Así el comando dfuller permite la especificación del número de rezagos que se desea evaluar: . dfuller ln_wpi, regress lags(2) . dfuller ln_wpi, regress lags(2) Augmented Dickey-Fuller test for unit root Augmented Dickey-Fuller test for unit root

Z(t) Z(t)

Test Test Statistic Statistic

1% Critical 1% Critical Value Value

0.040 0.040

-3.503 -3.503

Number of obs Number of obs

= =

121 121

Interpolated Dickey-Fuller Interpolated Dickey-Fuller 5% Critical 10% Critical 5% Critical 10% Critical Value Value Value Value -2.889 -2.889

-2.579 -2.579

MacKinnon approximate p-value for Z(t) = 0.9617 MacKinnon approximate p-value for Z(t) = 0.9617 D.ln_wpi D.ln_wpi

Coef. Coef.

Std. Err. Std. Err.

t t

P>|t| P>|t|

[95% Conf. Interval] [95% Conf. Interval]

ln_wpi ln_wpi L1. L1. LD. LD. L2D. L2D.

.0000821 .0000821 .456857 .456857 .2582904 .2582904

.0020639 .0020639 .089732 .089732 .0899031 .0899031

0.04 0.04 5.09 5.09 2.87 2.87

0.968 0.968 0.000 0.000 0.005 0.005

-.0040054 -.0040054 .2791475 .2791475 .0802421 .0802421

.0041696 .0041696 .6345665 .6345665 .4363387 .4363387

_cons _cons

.0030292 .0030292

.0082969 .0082969

0.37 0.37

0.716 0.716

-.0134024 -.0134024

.0194609 .0194609

Donde se muestra evidencia para no rechazar la hipótesis nula de existencia de raíz unitaria en la serie.

50

No obstante, son varios los estudios (Enders cap 3, Hayashi cap9, Hamilton cap 15 y16) que ponen a prueba este contraste obteniéndose que la regresión por MCO aquí realizada, no permite modelar bien el comportamiento de la serie. En tal sentido se realiza una revisión a este contraste mediante el uso de la metodología MCG. Contraste DF – GLS o Contraste Elliot, Rothenberg y Stock (ERS): Utiliza el modelo propuesto por

iii.

el contraste Dickey – Fuller Aumentado, pero lo estima mediante la metodología de MCG. ∑

0

Donde se recomienda ser muy cauteloso, y evaluar la posible existencia de tendencia en los datos ( constante (

0 ),

),

o una combinación de ambas posibilidades.

. dfgls ln_wpi, maxlag(4) notrend DF-GLS for ln_wpi

Number of obs =

DF-GLS mu Test Statistic

[lags] 4 3 2 1

1% Critical Value

0.531 0.901 1.181 1.791

Opt Lag (Ng-Perron seq t) = Min SC = -8.850157 at lag Min MAIC = -8.967179 at lag

5% Critical Value

-2.597 -2.597 -2.597 -2.597

10% Critical Value

-2.058 -2.067 -2.076 -2.083

4 with RMSE 2 with RMSE 4 with RMSE

119

-1.751 -1.759 -1.767 -1.774

.010883 .0112733 .010883

Donde se entiende que bajo el criterio secuencial Ng – Perron se sugiere la utilización de 4 rezagos, mientras que el criterio de información Schwartz (SIC) sugiere 2 rezagos, y el criterio de Akaika modificado por Ng – Perron (MAIC) también sugiere 4 rezagos. Contraste Phillip – Perron: calcula una regresión sobre sus propios rezagos. Y opcionalmente la

iv.

constante puede ser excluida de la misma o una tendencia puede ser incluida. . pperron ln_wpi, regress Phillips-Perron test for unit root

Z(rho) Z(t)

Number of obs = Newey-West lags =

Test Statistic

1% Critical Value

0.231 0.403

-19.877 -3.502

123 4

Interpolated Dickey-Fuller 5% Critical 10% Critical Value Value -13.746 -2.888

-11.031 -2.578

MacKinnon approximate p-value for Z(t) = 0.9816

4.

ln_wpi

Coef.

Std. Err.

ln_wpi L1.

1.002775

.0026097

_cons

-.0003102

.010549

t

P>|t|

[95% Conf. Interval]

384.25

0.000

.9976083

1.007941

-0.03

0.977

-.0211948

.0205744

Vectores Autoregresivos (VAR)

51

El análisis de Vectores Autoregresivos (VAR) es muy utilizado desde la década de 1990 para evaluar las relaciones dinámicas macroeconómicas. Dicho análisis tiene la característica de ser multivariado; es decir, se evalúa el comportamiento de las series y su interrelación en el periodo de tiempo analizado en forma simultánea. Así, los vectores autoregresivos son utilizados para estimar sistemas de series de tiempo interrelacionadas y para analizar el impacto dinámico de “innovaciones” en dicho sistema de variables. De acuerdo a Stock y Watson16 (2001) es posible definir los elementos siguientes: 

VAR Estructural: Usa la teoría económica para establecer las relaciones contemporáneas entre las

variables. Un VAR estructural requiere de supuestos de identificación que permita que las correlaciones sean interpretadas por causalidad. Estos supuestos de identificación pueden encontrar se en todo el VAR o solo en algunas ecuaciones. El número de VAR estructurales es limitado solamente por la inventiva de cada investigador. 

VAR Reducido: Expresa cada variable como una función lineal de sus valores pasados y los valores

pasados de las demás variables, considerando los términos de error en cada ecuación no correlacionados serialmente. Pero si las diferentes variables están correlacionadas entre sí, entonces los términos de error entre las ecuaciones podrían estar contemporáneamente correlacionadas. 

VAR Recursivo: Construye los términos de error en cada regresión como no correlacionado con el

término de error de las demás ecuaciones. Se incluye algunos valores contemporáneos como regresores. La estimación de cada ecuación se hace por medio de MCO, produciéndose residuos que no se encuentran correlacionados. Los resultados dependen del orden de las variables, donde hay n representaciones de VAR. Particularmente, la forma algebraica de un VAR (en forma reducida) es:

Tal que

es un vector de k variables endógenas;

es un vector de d variables exógenas;

matrices de coeficientes que deben ser estimados; y

, …,

y

son

es un vector de “innovaciones” que pueden estar

contemporáneamente correlacionadas una con otra, pero que no están correlacionadas con las variables explicativas. Dado que aparecen solo variables predeterminadas (endógenas rezagadas) como explicativas, no hay problema de simultaneidad, además los términos de error carecen de autocorrelación serial y muestran una varianza constante, por tanto, MCO es la técnica de estimación apropiada para cada una de las ecuaciones. De este modo, los estimadores de MCO son consistentes y asintóticamente eficientes. En tal sentido Stata ofrece el comando varbasic que estima un VAR(p) y grafica la respectiva función impulso respuesta (IR), la función impulso respuesta ortogonalizada (IRO) o la descomposición de varianza de los errores predichos (FEVD, por sus siglas en inglés). Pero por defecto incluye un rezago. Asimismo, el comando var, permite estimar un VAR(p), siendo que permite incluir exógenas en el modelo; e imponer restricciones lineales a cualquiera de los coeficientes en el VAR, pero no se permite imponer restricciones a la matriz de varianzas y covarianzas de los errores (cuestión que el comando svar si permite). Para ello, se

16

J. H. Stock y M. Watson (2001) Vector Autoregressions. Journal of Economic Perspectives. Volumen 15 N°4.

52

utilizará la base de datos “lutkepohl2.dta” que incluye tres variables: la primera diferencia del logaritmo natural de la inversión, dln_inv; la primera diferencia del logaritmo natural de los ingresos, dln_inc; y la primera diferencia del logaritmo natural del consumo, dln_consump. El conjunto de datos contiene datos para el período 1960q1 – 1982q4. Pero se utilizará únicamente la muestra correspondiente al período 1960q1 – 1978q4. webuse lutkepohl2, clear tsset varbasic dln_inv dln_inc dln_consump

53

Vector autoregression Sample: 1960q4 Log likelihood = FPE = Det(Sigma_ml) = Equation dln_inv dln_inc dln_consump

1982q4 742.2131 1.84e-11 1.15e-11 Parms 7 7 7

Coef.

No. of obs AIC HQIC SBIC RMSE .044295 .011224 .009938

Std. Err.

R-sq

chi2

P>chi2

0.1051 0.1514 0.2400

10.45617 15.87886 28.09971

0.1067 0.0144 0.0001

z

P>|z|

= 89 = -16.20704 = -15.97035 = -15.61983

[95% Conf. Interval]

dln_inv dln_inv L1. L2.

-.2725654 -.1340503

.1093372 .1089367

-2.49 -1.23

0.013 0.218

-.4868623 -.3475624

-.0582684 .0794617

dln_inc L1. L2.

.3374819 .1827302

.4805209 .466292

0.70 0.39

0.482 0.695

-.6043217 -.7311852

1.279286 1.096646

dln_consump L1. L2.

.6520473 .5980687

.5450985 .5434576

1.20 1.10

0.232 0.271

-.4163261 -.4670886

1.720421 1.663226

_cons

-.0099191

.0126649

-0.78

0.434

-.0347419

.0149037

dln_inc dln_inv L1. L2.

.0433473 .0616319

.0277054 .0276039

1.56 2.23

0.118 0.026

-.0109542 .0075293

.0976488 .1157345

dln_inc L1. L2.

-.1232543 .0209769

.121761 .1181555

-1.01 0.18

0.311 0.859

-.3619015 -.2106036

.1153928 .2525573

dln_consump L1. L2.

.3050571 .0490208

.1381245 .1377087

2.21 0.36

0.027 0.722

.034338 -.2208833

.5757762 .318925

_cons

.0125949

.0032092

3.92

0.000

.0063049

.0188848

dln_consump dln_inv L1. L2.

.0027381 .0497402

.02453 .0244401

0.11 2.04

0.911 0.042

-.0453398 .0018384

.050816 .097642

dln_inc L1. L2.

.2893204 .3664341

.1078057 .1046134

2.68 3.50

0.007 0.000

.0780251 .1613955

.5006157 .5714726

dln_consump L1. L2.

-.2845172 -.1159776

.1222938 .1219257

-2.33 -0.95

0.020 0.341

-.5242086 -.3549475

-.0448257 .1229924

_cons

.0123795

.0028414

4.36

0.000

.0068104

.0179485

.

54

varbasic, dln_consump, dln_consump

varbasic, dln_consump, dln_inc

varbasic, dln_consump, dln_inv

varbasic, dln_inc, dln_consump

varbasic, dln_inc, dln_inc

varbasic, dln_inc, dln_inv

varbasic, dln_inv, dln_consump

varbasic, dln_inv, dln_inc

varbasic, dln_inv, dln_inv

.06 .04 .02 0 -.02

.06 .04 .02 0 -.02

.06 .04 .02 0 -.02 0

2

4

6

8

0

2

4

6

8

0

2

4

6

8

step 95% CI

orthogonalized irf

Graphs by irfname, impulse variable, and response variable

Identificación Debido a que la especificación de una VAR en forma estructural (de donde se origina un VAR en forma reducida) implica un mecanismo de retroalimentación o dependencia contemporánea entre las variables endógenas (i.e.

( ),

( ), en el caso de dos variables), las ecuaciones del sistema estructural no

pueden ser estimadas directamente, a diferencia de las ecuaciones en forma reducida. MCO permite obtener estimaciones de los elementos de las matrices vector de errores

, …,

y

y estimadores de las varianzas y covarianzas del

. Siendo que la pregunta relevante es si será posible recuperar los parámetros originales del

modelo estructural, ya que el número de estos es mayor al del número de parámetros del modelo reducido. Esto será posible en la medida en que se impongan las restricciones adecuadas sobre los parámetros del modelo estructural. Número de Rezagos Óptimo La elección de rezagos es muy importante, pues si se especifica un número grande de rezagos , se pierden grados de libertad en la estimación, pero por otro lado, si

es muy pequeño, habría problemas de

especificación. En tal sentido se requiere de criterios para la selección de este número de rezagos. Por ello el comando varsoc muestra el error de predicción final (FPE), el criterio de Akaike (AIC), el criterio Bayesiano (SBIC) y de Hannan y Quinn (HQIC) con el objetivo de encontrar el orden del VAR. Siendo que el número de rezagos recomendado por la mayoría de los criterios de información (marcados con asteriscos) sería el elegido. Siendo que para este ejemplo el número recomendado es de dos rezagos.

55

. varsoc dln_inv dln_inc dln_consump Selection-order criteria Sample: 1961q2 - 1982q4 lag 0 1 2 3 4

LL

LR

696.398 711.682 724.696 729.124 738.353

Endogenous: Exogenous:

30.568 26.028 8.8557 18.458*

Number of obs df

9 9 9 9

p

0.000 0.002 0.451 0.030

FPE

AIC

2.4e-11 2.1e-11 1.9e-11* 2.1e-11 2.1e-11

=

HQIC

-15.9402 -16.0846 -16.1769* -16.0718 -16.0771

-15.9059 -15.9477* -15.9372 -15.7294 -15.632

87 SBIC -15.8552* -15.7445 -15.5817 -15.2215 -14.9717

dln_inv dln_inc dln_consump _cons

Causalidad a lo Granger (Granger Causality) Permite examinar si los valores rezagados de una variable aportan en la predicción de otra variable. En tal sentido, permite evaluar si los rezagos de una variable explican o no a la otra variable. Así, el comando vargranger realiza la prueba de causalidad a lo Granger para cada una de las ecuaciones del VAR, y se

ejecuta luego de haber realizado la estimación del VAR con los comandos var o svar. . vargranger Granger causality Wald tests Equation

Excluded

chi2

df Prob > chi2

dln_inv dln_inv dln_inv

dln_inc dln_consump ALL

.55668 1.9443 7.3184

2 2 4

0.757 0.378 0.120

dln_inc dln_inc dln_inc

dln_inv dln_consump ALL

6.2466 5.1029 13.087

2 2 4

0.044 0.078 0.011

dln_consump dln_consump dln_consump

dln_inv dln_inc ALL

4.2446 16.275 21.717

2 2 4

0.120 0.000 0.000

Funciones de Impulso – Respuesta y Descomposición de Varianza Una herramienta que permite analizar las interrelaciones dinámicas entre las variables en un VAR es la representación VMA (Vector Moving Average). Debido a que todo proceso autoregresivo tiene una representación MA, un VAR puede ser representado como un VMA, de tal modo que las variables endógenas estén expresadas en función de los valores contemporáneos y pasados de los shocks o términos de error. Así, una vez obtenida la representación VMA, el objetivo es calcular lo que se conoce como función impulso – respuesta (FIR). Siendo que la FIR evalúa el efecto de un shock equivalente a una desviación estándar de alguna de las innovaciones sobre las variables endógenas. Un shock a la variable i-ésima afecta directamente a dicha variable, pero también transmite su efecto a todas las otras variables endógenas a través de la estructura dinámica del VAR. Siendo que si las innovaciones no están correlacionadas, la FIR medirá el efecto de un shock de una desviación estándar en una de las variables endógenas sobre el valor corriente y futuro de si misma y sobre los valores futuros de las otras variables.

56

Si por el contrario, las innovaciones están correlacionadas (como suele suceder), quiere decir que tienen un componente común que no puede ser asociado con alguna variable específica. Un método muy utilizado pero ciertamente arbitrario es atribuir todo el efecto de cualquier componente común a la primera variable que aparece en el sistema, de modo que las demás innovaciones son transformadas para extraerles dicho componente común. Es decir, los residuos son ortogonalizados mediante una descomposición de Choleski, de tal modo que la matriz de varianzas de los residuos o innovaciones sea diagonal. En tal sentido, el comando irf permite obtener y analizar las FIR, la descomposición de varianza y sus errores estándar, ello mediante las especificaciones graph (que permite graficar la FIR y la descomposición de varianza) y table (que crea tablas con los valores de la FIR y la descomposición de varianza. Pero antes de ello se requiere crear una carpeta de resultados con la especificación create luego de la estimación con el comando var. irf create result_nombre, set(nombre) irf graph oirf, impulse(dln_inc) response(dln_consump) . irf table table oirf fevd, impulse(dln_inc) response(dln_consump) irf oirf fevd, impulse(dln_inc) response(dln_consump) Results from resultados result_nombre

step 0 1 2 3 4 5 6 7 8

.005123 .001635 .002948 -.000221 .000811 .000462 .000044 .000151 .000091

step 0 1 2 3 4 5 6 7 8

(1) oirf

(2) oirf .005123 .001635 .002948 -.000221 .000811 .000462 .000044 .000151 .000091

(1) Lower .003403 -.000294 .001002 -.001518 -.000338 -.000191 -.000495 -.000166 -.000133

(2) Lower .003403 -.000294 .001002 -.001518 -.000338 -.000191 -.000495 -.000166 -.000133

(1) Upper .006844 .003565 .004894 .001076 .00196 .001114 .000582 .000468 .000315

(2) Upper .006844 .003565 .004894 .001076 .00196 .001114 .000582 .000468 .000315

(1) fevd 0 .288494 .294288 .322454 .319227 .322579 .323552 .323383 .323499

(2) fevd 0 .288494 .294288 .322454 .319227 .322579 .323552 .323383 .323499

(1) Lower

(1) Upper

0 .13663 .149797 .174356 .174066 .175544 .175826 .17577 .175744

0 .440357 .43878 .470552 .464389 .469613 .471277 .470995 .471253

(2) Lower

(2) Upper

0 .13663 .149797 .174356 .174066 .175544 .175826 .17577 .175744

0 .440357 .43878 .470552 .464389 .469613 .471277 .470995 .471253

95% lower and upper bounds reported (1) irfname = resultados, impulse = dln_inc, and response = dln_consump (2) irfname = result_nombre, impulse = dln_inc, and response = dln_consump

5.

Cointegración y Modelo de Corrección de Errores (VECM)

En la práctica muchas series de tiempo económicas se caracterizan por ser no estacionarias. Sin embargo, es frecuente que las combinaciones lineales parecen ser estacionarias. Esas variables son denominadas cointegradas y los pesos de la combinación lineal son denominados elementos del vector de cointegración.

57

Las relaciones de cointegración más difundidas son entre el consumo y el ingreso disponible, entre los determinantes de la demanda de dinero, relaciones entre las tasas de inter´4es de corto y largo plazo, y el contraste del concepto de paridad de poder de compra también mostraría una relación de largo plazo, entre otros. Metodología de Engle y Granger (1987) De acuerdo a esta metodología, se debería de seguir los siguientes pasos: i.

Analizar el orden de integración de cada serie: Ello debido a que para realizar una prueba de cointegración, se requiere que todas las variables sean integradas del mismo orden (a partir de ( )).

ii.

Estimar la relación de Largo Plazo: Si las series son todas ( ) (integradas de orden uno) o integradas del mismo orden, el siguiente paso es estimar la relación de largo plazo.

iii.

Analizar la estacionariedad de los errores de la estimación del paso anterior: Siendo que si las desviaciones de los residuos estimados del equilibrio de largo plazo son estacionarias, entonces se dice que las series cointegran (i.e. existe una relación (o más) de cointegración). Por el contrario, si los residuos son no estacionarios, la relación es espúrea; por lo que se requiere de verificar la estacionariedad de los residuos mediante el correlograma de residuos y pruebas de raíz unitaria.

iv.

Modelo de Corrección de Errores (corto plazo): Si las variables cointegran, los residuos de la relación de largo plazo, pueden ser utilizados para estimar el Modelo de Corrección de Errores. Para ello, se tomarán datos anuales sobre el promedio per cápita de renta personal disponible en logaritmos (NBER, 1948 – 2002). Siendo que luego de realizar las pruebas de raíz unitaria correspondientes, no se rechaza la hipótesis nula de que el ingreso per cápita disponible en cada región contiene una raíz unitaria. Asimismo, dado que el capital y el trabajo pueden moverse fácilmente entre las diferentes regiones de los Estados Unidos, es de esperar que no se desvíe una serie de todas las demás series y que las relaciones de cointegración existe. Así, se obtiene que: webuse rdinc, clear line ln_ne ln_se year vec ln_ne ln_se

58

Vector error-correction model Vector error-correction model Sample: 1950 - 2002

No. of obs AIC of obs No. HQIC AIC SBIC HQIC

Sample: 1950 - 2002 Log likelihood = 300.6224 Det(Sigma_ml) = 300.6224 4.06e-08 Log likelihood = Det(Sigma_ml) Equation Equation D_ln_ne D_ln_se D_ln_ne

4.06e-08 Parms Parms 4 4 4

D_ln_se

4

D_ln_ne D_ln_ne _ce1 L1. _ce1 L1. ln_ne LD. ln_ne

D_ln_se

=

RMSE

R-sq

SBIC chi2

P>chi2

RMSE .017896 .018723 .017896

R-sq 0.9313 0.9292 0.9313

chi2 664.4668 642.7179 664.4668

P>chi2 0.0000 0.0000 0.0000

.018723

0.9292

642.7179

0.0000

= = = = = = =

53 -11.00462 53 -10.87595 -11.00462 -10.67004 -10.87595

= -10.67004

Coef.

Std. Err.

z

P>|z|

[95% Conf. Interval]

Coef.

Std. Err.

z

P>|z|

[95% Conf. Interval]

-.4337524

.0721365

-6.01

0.000

-.5751373

-.2923675

-.4337524

.0721365

-6.01

0.000

-.5751373

-.2923675

.7168658

.1889085

3.79

0.000

.3466119

1.08712

.7168658

.1889085

3.79

0.000

.3466119

1.08712

LD. ln_se LD. ln_se

-.6748754

.2117975

-3.19

0.001

-1.089991

-.2597599

LD. _cons

-.6748754 -.0019846

.2117975 .0080291

-3.19 -0.25

0.001 0.805

-1.089991 -.0177214

-.2597599 .0137521

_cons

-.0019846

.0080291

-0.25

0.805

-.0177214

.0137521

D_ln_se _ce1 L1. _ce1

-.3543935

.0754725

-4.70

0.000

-.5023168

-.2064701

L1. ln_ne LD. ln_ne

-.3543935

.0754725

-4.70

0.000

-.5023168

-.2064701

.3366786

.1976448

1.70

0.088

-.050698

.7240553

LD. ln_se LD. ln_se

.3366786

.1976448

1.70

0.088

-.050698

.7240553

-.1605811

.2215922

-0.72

0.469

-.5948939

.2737317

LD. _cons

-.1605811 .002429

.2215922 .0084004

-0.72 0.29

0.469 0.772

-.5948939 -.0140355

.2737317 .0188936

_cons

.002429

.0084004

0.29

0.772

-.0140355

.0188936

Cointegrating equations Cointegrating equations Equation Parms Equation _ce1

Parms 1

_ce1

1

chi2

P>chi2

chi2 29805.02

P>chi2 0.0000

29805.02

0.0000

Identification:

beta is exactly identified

Identification:

beta is exactly identified Johansen normalization restriction imposed

beta _ce1 _ce1

Johansen normalization restriction imposed Coef. Std. Err. z P>|z| [95% Conf. Interval]

beta

Coef.

Std. Err.

z

P>|z|

[95% Conf. Interval]

ln_ne ln_se ln_ne _cons ln_se _cons

1 -.9433708 1 -.8964065 -.9433708

. .0054643 . . .0054643

. -172.64 . . -172.64

. 0.000 . . 0.000

. -.9540807 . . -.9540807

. -.9326609 . . -.9326609

-.8964065

.

.

.

.

.

.

El . output por defecto tiene tres partes. La primera proporciona información acerca de la muestra, el modelo estimado, y la identificación de los parámetros en la ecuación de cointegración. La tabla principal contiene las estimaciones de los parámetros de corto plazo, junto con sus errores estándar y los intervalos de confianza. Y finalmente se muestran los resultados sobre el número de ecuaciones cointegradas y sobre las restricciones de normalización impuestas. Metodología de Johansen y Juselius

59

Si consideramos un VAR de orden p:

Dicho sistema puede ser re-expresado de la forma: ∑ El Teorema de Representación de Granger afirma que si la matriz de coeficientes entonces existen las matrices es estacionaria. de

y

de orden (

) y de rango r de modo que

tiene rango

,

‟ y la combinación lineal

es el número de relaciones de cointegración (el rango de cointegración) y cada columna

es un vector de cointegración. Los elementos de

son conocidos como parámetros de ajuste en el

modelo de corrección de errores. El método utilizado por Johansen consiste en estimar la matriz

por

métodos de optimización (Máxima Verosímilitud), luego evaluar si se pueden rechazar las restricciones implicadas por el rango de

.

Número de Relaciones de Cointegración Si se tiene k variables endógenas, todas integradas de orden 1, sólo pueden existir hasta k-1 relaciones de cointegración linealmente independientes entre ellas. Si existen exactamente k relaciones de cointegración en el sistema, ninguna de las series tiene raíz unitaria (a pesar de que, en algunos casos, debido a problemas de especificación los tests de raíz unitaria afirman la presencia de ésta aunque los tests de Johansen muestren que el rango de cointegración es k). Las relaciones de cointegración El análisis del rango de

puede ser visto como el número de relaciones de cointegración existentes en las

series. Se obtienen r raíces características, si las variables no están cointegradas entonces el rango de

es

cero y todas las raíces son iguales a 1. Si el rango es 1, entonces ln(1-1) sería negativo y las otras cero. Cada columna de la matriz

ofrece una estimación del vector de cointegración. El vector de cointegración no

estará identificado a menos que impongamos alguna normalización arbitraria (i.e., que las r posibles relaciones de cointegración sean resueltas para las primeras r variables del vector Y T en función de las restantes k-r variables). El análisis de los estadísticos „Lambda-Max‟ y „Lambda-Trace‟ nos permiten determinar el número de relaciones de cointegración, de acuerdo a los resultados que entregue la estimación. Para ello el comando johans permite calculas los valores propios y las estadísticas del máximo valor propio “Max Lamda” y de la traza (trace), para un VAR definido. Estadisticas que pueden ser utilizadas para probar el número de vectores de cointegración en el sistema.

60

. johans ln_ne ln_se Johansen-Juselius cointegration rank test

Sample: 1948 to 2002 Number of obs = 54

H1: Eigenvalues (lambda)

H0: rankchi2 = 0.0000

4.

Datos de Panel Estático y Extensiones

Efectos Temporales Es posible agregar variables dicotómicas relacionadas al tiempo, es decir, una para cada período de la muestra. Estas variables capturarían eventos comunes a todos los grupos durante un período u otro. Siendo que la agregación de efectos temporales, la ecuación (4) se transforma en: (5) Donde representa un vector de variables dicotómicas para cada año. Estas variables dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todas las variables transversales o grupos en un período dado y, al igual que los Efectos Fijos, pueden reducir sesgos importantes. En Stata podemos incorporar efectos temporales a nuestro modelo de Efectos Fijos con la especificación “xi”. xi: xtreg ln_wage age grade not_smsa south union i.year, fe

Siendo que al igual que con los efectos entre grupos es posible realizar una prueba para conocer la significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La hipótesis nula es que . Autocorrelación La utilización de Datos de Panel suele implicar no solamente la agregación de información, sino también la agregación de problemas comunes a las series de tiempo y a los cortes transversales. Por ejemplo, cuando los errores de diferentes grupo están correlacionados (correlación contemporánea), o cuando los errores dentro de

68

la información de cada grupo se correlacionan temporalmente (correlación serial), o ambos. Asimismo, la varianza puede no ser constante (heterocedasticidad). Existen muchas maneras de diagnosticar problemas de autocorrelación; sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la naturaleza de los efectos individuales. El comando xtserial por ejemplo, tiene como hipótesis nula que no existe autocorrelación; naturalmente, si se rechaza, podemos concluir que ésta sí existe. El comando xtserial requiere que se especifiquen la variable dependiente e independientes del modelo. xtserial ln_wage age not_smsa south union, output

Luego de ello, si se tiene un problema de autocorrelación, una manera de corregirlo es a través de un modelo de Efectos Fijos con término ( ) autoregresivo de grado 1 ( ( )) que controla por la dependencia de con ( ) con Efectos Fijos se especifica de la manera: respecto a . El modelo

Donde , es decir, los errores tienen una correlación de primer grado . El modelo fácilmente ejecutable en Stata con el comando xtregar17:

( ) es

xtregar ln_wage age not_smsa south union, fe

Heterocedasticidad La prueba del Multiplicador de Lagrange de Breusch y Pagan permite también realizar una análisis de presencia de heterocedasticidad en la muestra. Sin embargo, de acuerdo a algunos autores (Greene 2008) ésta y otras pruebas son sensibles al supuesto sobre la normalidad de los errores; por tal motivo la prueba Modificada de Wald para Heterocedasticidad. La hipótesis nula de esta prueba es que no existe problema de heterocedasticidad, es decir, para toda , donde es el número de unidades transversales. Naturalmente, cuando la hipótesis nula se rechaza, tenemos un problema de heterocedasticidad. Esta prueba puede implementarse en Stata con el comando xttest3 después de estimar el modelo de Efectos Fijos: . xttest3 Modified Wald test for groupwise heteroskedasticity in fixed effect regression model H0: sigma(i)^2 = sigma^2 for all i chi2 (4150) Prob>chi2 =

=

1.1e+36 0.0000

Correlación Contemporánea Las estimaciones en datos panel pueden tener problemas de correlación contemporánea si las observaciones de ciertas unidades están correlacionadas con las observaciones de otras unidades en el mismo periodo de tiempo. Como discutimos en la sección sobre heterogeneidad, las variables dicotómicas de efectos temporales se incorporan al modelo para controlar por los eventos que afectan por igual a todas las unidades en un período dado. La correlación contemporánea es similar, pero con la posibilidad de algunas unidades estén más o menos correlacionadas que otras.

17

Si deseáramos estimar un modelo de efectos aleatorios, en vez de fe indicamos re.

69

El problema de correlación contemporánea se refiere a la correlación de los errores de al menos dos o más unidades en el mismo tiempo . En otras palabras, tenemos errores contemporáneamente correlacionados si existen características inobservables de ciertas unidades que se relacionan con las características inobservables de otras unidades. Por ejemplo, los errores de dos estados pueden relacionarse pero mantenerse independientes de los errores de los demás estados. El comando xttest2 de Stata ejecuta la prueba de Breusch y Pagan para identificar problemas de correlación contemporánea en los residuales de un modelo de efectos fijos. La hipótesis nula es que existe “independencia transversal” (cross-sectional independence); es decir, que los errores entre las unidades son independientes entre sí. Si la Ho se rechaza, entonces existe un problema de correlación contemporánea (Greene 2008). El comando xttest2 se implementa después de un modelo de efectos fijos. Correcciones antes Problemas asociados al levantamiento de supuestos en Datos de Panel Los problemas de correlación contemporánea, heterocedasticidad y autocorrelación examinados previamente pueden corregirse conjuntamente con estimadores de Mínimos Cuadrados Generalizados Factibles (Feasible Generalizad Least Squares ó FGLS), o bien con Errores Estándar Corregidos para Panel (Panel Corrected Standard Errors ó PCSE), entre otros métodos alternativos. Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las opciones que ofrecen estos comandos dependen de los problemas detectados en las pruebas que hemos revisado. 5.

Modelo Lineal Dinámico de Datos de Panel: Método Generalizado de Momentos

Una opción adicional a la modelización de Datos de Panel consiste en considerar la participación de dinámica, al incluir rezagos de la variable endógena en la parte explicativa del modelo.



Donde es la matriz de variables estrictamente exógenas, son los efectos aleatorios que son independientes e idénticamente distribuidos (iid) con varianza . Mientras que serían los rezagos de la variable endógena. No obstante, la inclusión de rezagos de la variable endógena en el modelo genera un problema de Endogeneidad como el mostrado en el capítulo XX motivo por el cual se requerirá de utilizar una estimación con instrumentos que cumplan con las condiciones de ortogonalidad del Método Generalizado de Momentos (o GMM, por sus siglas en ingles). La estimación por GMM consiste en hallar los estimadores que hagan más cierta las condiciones de ortogonalidad, pero no en el sentido de la metodología de Máxima Verosimilitud (MV), pues en GMM no se asume una forma específica para la función de densidad de las perturbaciones, sino mas bien haciendo que las condiciones de ortogonalidad muestrales se encuentren más cerca de cero. Particularmente Arellano y Bond (1991) aplican sus nuevos estimadores y pruebas estadísticas para un modelo de demanda de trabajo dinámico utilizando datos de un panel incompleto de las empresas del Reino Unido. Todas las variables son indexados sobre la empresa i y el tiempo t. En este conjunto de datos, es el logaritmo del empleo en la empresa en el interior del Reino Unido en el tiempo , es el logaritmo natural del salario producto real, es el logaritmo natural del stock de capital bruto y es el logaritmo natural de

70

producción de la industria. El modelo también incluye variables ficticias yr1980, yr1981, yr1982, yr1983 y yr1984. Para la aplicación de ello, los comandos xtdpd, xtdpdsys, xtabond, y similares. . use http://www.stata-press.com/data/r12/abdata . xtdpd L(0/2).n L(0/1).w L(0/2).(k ys) yr1980-yr1984 year, noconstant div(L(0/1).w L(0/2).(k ys) yr1980-yr1984 y . use http://www.stata-press.com/data/r12/abdata > ear) dgmmiv(n)

. xtdpd L(0/2).n L(0/1).w L(0/2).(k ys) yr1980-yr1984 year, noconstant div(L(0/1).w L(0/2).(k ys) yr1980-yr1984 y Dynamic panel-data estimation Number of obs = 611 > ear) dgmmiv(n) Group variable: id Number of groups = 140 Time variable: year Dynamic panel-data estimation Number of obs = 611 Obs per group: min = 4 Group variable: id Number of groups = 140 avg = 4.364286 Time variable: year max = 6 Obs per group: min = 4 avg = 4.364286 Number of instruments = 41 Wald chi2(16) = 1757.07 max = 6 Prob > chi2 = 0.0000 One-step results Number of instruments = 41 Wald chi2(16) = 1757.07 Prob > chi2 = 0.0000 n Coef. Std. Err. z P>|z| [95% Conf. Interval] One-step results n n Coef. Std. Err. z P>|z| [95% Conf. L1. .6862261 .1486163 4.62 0.000 .3949435 L2. -.0853582 .0444365 -1.92 0.055 -.1724523 n L1. .6862261 .1486163 4.62 0.000 .3949435 w L2. -.0853582 .0444365 -1.92 0.055 -.1724523 --. -.6078208 .0657694 -9.24 0.000 -.7367265 L1. .3926237 .1092374 3.59 0.000 .1785222 w --. -.6078208 .0657694 -9.24 0.000 -.7367265 k L1. .3926237 .1092374 3.59 0.000 .1785222 --. .3568456 .0370314 9.64 0.000 .2842653 L1. -.0580012 .0583051 -0.99 0.320 -.172277 k L2. -.0199475 .0416274 -0.48 0.632 -.1015357 --. .3568456 .0370314 9.64 0.000 .2842653 L1. -.0580012 .0583051 -0.99 0.320 -.172277 ys L2. -.0199475 .0416274 -0.48 0.632 -.1015357 --. .6085073 .1345412 4.52 0.000 .3448115 L1. -.7111651 .1844599 -3.86 0.000 -1.0727 ys L2. .1057969 .1428568 0.74 0.459 -.1741974 --. .6085073 .1345412 4.52 0.000 .3448115 L1. -.7111651 .1844599 -3.86 0.000 -1.0727 yr1980 .0029062 .0212705 0.14 0.891 -.0387832 L2. .1057969 .1428568 0.74 0.459 -.1741974 yr1981 -.0404378 .0354707 -1.14 0.254 -.1099591 yr1982 -.0652767 .048209 -1.35 0.176 -.1597646 yr1980 .0029062 .0212705 0.14 0.891 -.0387832 yr1983 -.0690928 .0627354 -1.10 0.271 -.1920521 yr1981 -.0404378 .0354707 -1.14 0.254 -.1099591 yr1984 -.0650302 .0781322 -0.83 0.405 -.2181665 yr1982 -.0652767 .048209 -1.35 0.176 -.1597646 year .0095545 .0142073 0.67 0.501 -.0182912 yr1983 -.0690928 .0627354 -1.10 0.271 -.1920521 yr1984 -.0650302 .0781322 -0.83 0.405 -.2181665 Instruments for differenced equation year .0095545 .0142073 0.67 0.501 -.0182912 GMM-type: L(2/.).n Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 Instruments for differenced equation D.year GMM-type: L(2/.).n Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 D.year

Interval] .9775088 .0017358 .9775088 .0017358 -.4789151 .6067251 -.4789151 .6067251 .4294259 .0562747 .0616408 .4294259 .0562747 .0616408 .8722031 -.3496304 .3857912 .8722031 -.3496304 .0445957 .3857912 .0290836 .0292111 .0445957 .0538664 .0290836 .0881061 .0292111 .0374002 .0538664 .0881061 .0374002 D.yr1981 D.yr1982 D.yr1983 D.yr1984

D.yr1981 D.yr1982 D.yr1983 D.yr1984

71

Arellano, M., and S. Bond. 1991. Some tests of specification for panel data: Monte Carlo evidence and an application to employment equations. Review of Economic Studies 58: 277–297. Breusch, T. S., and A. R. Pagan. 1980. The Lagrange multiplier test and its applications to model specification in econometrics. Review of Economic Studies 47: 239–253. Hausman, J. A. 1978. Specification tests in econometrics. Econometrica 46: 1251–1271. Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press.

72

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF