Econometria I- Ventosa
April 30, 2017 | Author: Jorge Luis Zataráin Lizárraga | Category: N/A
Short Description
Descripción: Notas de econometría...
Description
E CONOMETR ´I A ` DANIEL V ENTOSA -S ANTAUL ARIA Versi´on Diciembre 2012. Documento hecho en LATEX
2
´ Indice general I Econometr´ıa para primerizos
17
1. Introducci´on 1.1. Par´abola de Leamer . . . . . . . . . . . . . 1.2. Fisher tomando el t´e . . . . . . . . . . . . . 1.3. ¿ Para qu´e hacer econometr´ıa? . . . . . . . 1.4. Or´ıgenes . . . . . . . . . . . . . . . . . . . 1.4.1. La trayectoria de los cometas . . . . 1.4.2. Manchas solares y ciclos venusinos
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
21 23 24 31 32 32 33
2. El modelo de Regresi´on lineal simple 2.1. Pre´ambulo . . . . . . . . . . . . . . . . . . . . . . . . 2.2. El concepto de la regresi´on . . . . . . . . . . . . . . . 2.2.1. El diagrama de dispersi´on . . . . . . . . . . . 2.3. M´ınimos Cuadrados Ordinarios: MCO . . . . . . . . . 2.4. Propiedades de los estimadores . . . . . . . . . . . . . 2.4.1. Los supuestos del m´etodo . . . . . . . . . . . 2.4.2. Caracter´ısticas Importantes del m´etodo MCO . 2.4.3. Propiedades de los par´ametros estimados . . . 2.4.4. El Teorema de Gauss-Markov . . . . . . . . . 2.5. Otros procedimientos de Estimaci´on . . . . . . . . . . 2.5.1. El m´etodo de momentos (MOM) . . . . . . . . 2.5.2. El M´etodo de M´axima Verosimilitud . . . . . . 2.6. El estimador de la varianza . . . . . . . . . . . . . . . 2.6.1. Los grados de libertad: breve preludio . . . . . 2.6.2. El estimador insesgado de la varianza en MCO 2.6.3. Robustez del estimador de la varianza en MCO 2.7. Inferencia estad´ıstica en MCO . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
37 37 41 41 44 49 49 54 56 69 72 72 74 79 79 81 85 86
3
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
´ INDICE GENERAL
4
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
90 93 95 96 96 102 104 112 113 114 114 116 118 118 119 121 122 123
´ 3. El Modelo de Regresi´on Multiple 3.1. La especificaci´on del modelo de regresi´on m´ultiple . . . . . . . . 3.1.1. Reglas del c´alculo matricial y la manipulaci´on de matrices 3.1.2. Optimizaci´on . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza . . 3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . 3.2.1. Demostraci´on . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Intuici´on . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Estimador Insesgado de la Varianza del Error . . . . . . . . . . . 3.3.1. Una matriz idempotente muy u´ til . . . . . . . . . . . . . 3.3.2. La varianza del error . . . . . . . . . . . . . . . . . . . . 3.4. Bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. La R cuadrada . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Inflaci´on de la R cuadrada y su versi´on ajustada . . . . . . 3.4.3. Descomposici´on de la varianza por variable explicativa . . 3.5. Pruebas de Hip´otesis, Conjuntas e Individuales . . . . . . . . . . 3.5.1. Los estad´ısticos t . . . . . . . . . . . . . . . . . . . . . . 3.5.2. Pruebas conjuntas . . . . . . . . . . . . . . . . . . . . . . 3.5.3. Pruebas de desigualdad . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
127 127 130 131 132 136 137 140 141 142 144 146 147 147 154 159 159 160 170
2.8.
2.9. 2.10.
2.11.
2.7.1. Inferencia usando una distribuci´on de t de student . . . . 2.7.2. Inferencia asint´otica . . . . . . . . . . . . . . . . . . . 2.7.3. Addendum: el p-valor . . . . . . . . . . . . . . . . . . An´alisis de varianza y bondad de ajuste . . . . . . . . . . . . . 2.8.1. La medici´on de la bondad del ajuste . . . . . . . . . . . 2.8.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . 2.8.3. La prueba de significancia conjunta de la regresi´on . . . 2.8.4. An´alisis de Varianza o ANOVA . . . . . . . . . . . . . La Falacia de la regresi´on . . . . . . . . . . . . . . . . . . . . . Problemas de la Econometr´ıa . . . . . . . . . . . . . . . . . . . 2.10.1. El problema de la agregaci´on . . . . . . . . . . . . . . . 2.10.2. Una intuici´on sobre el u´ ltimo supuesto: estacionariedad . 2.10.3. Algunas observaciones al respecto . . . . . . . . . . . . Formas funcionales y especificaci´on . . . . . . . . . . . . . . . 2.11.1. El Modelo Log-Log . . . . . . . . . . . . . . . . . . . 2.11.2. El Modelo Log-Lin . . . . . . . . . . . . . . . . . . . . 2.11.3. El Modelo Lin-Log . . . . . . . . . . . . . . . . . . . . 2.11.4. El Modelo Rec´ıproco . . . . . . . . . . . . . . . . . . .
´ INDICE GENERAL 4. La multicolinealidad 4.1. Multicolinealidad perfecta . . . . . . . . . 4.2. Multicolinealidad imperfecta . . . . . . . . 4.3. Detecci´on de la multicolinealidad . . . . . 4.3.1. An´alisis informal . . . . . . . . . . 4.3.2. M´etodos m´as formales . . . . . . . 4.4. An´alisis de Componentes Principales . . . . 4.5. Regresi´on usando componentes principales
5
. . . . . . .
173 175 179 182 183 183 186 191
5. Variables Binarias y regresi´on por pedazos 5.1. Variables dicot´omicas . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Soluci´on discontinua . . . . . . . . . . . . . . . . . . . . . 5.1.2. Regresi´on por pedazos . . . . . . . . . . . . . . . . . . . .
195 195 195 202
6. Autocorrelaci´on y Heteroscedasticidad 6.1. Autocorrelaci´on y Heteroscedasticidad . . . . . . . . . . . . 6.2. M´ınimos Cuadrados Generalizados . . . . . . . . . . . . . 6.2.1. Ejemplos de aplicaci´on de MCG . . . . . . . . . . . 6.3. Consecuencias del rompimiento de supuestos sobre MCO . . 6.3.1. ¿Sesgo bajo autocorrelaci´on o heteroscedasticidad? . 6.3.2. Varianza bajo autocorrelaci´on o heteroscedasticidad 6.4. Pruebas de Detecci´on . . . . . . . . . . . . . . . . . . . . . 6.4.1. Detecci´on de la Heteroscedasticidad . . . . . . . . . 6.4.2. Detecci´on de la autocorrelaci´on . . . . . . . . . . . 6.5. Matrices de Varianza-covarianza Robustas . . . . . . . . . .
205 207 209 211 219 219 220 222 223 226 235
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . .
. . . . . . . . . .
. . . . . . . . . .
7. Ejercicios (i)
245
II Econometr´ıa para segundones
265
8. S´ıntesis de conocimientos previos
269
9. Especificaci´on y Ortogonalidad 9.1. Las variables independientes y la ortogonalidad 9.2. El supuesto de ortogonalidad . . . . . . . . . . 9.3. ¿Qu´e causa problemas de ortogonalidad? . . . . 9.3.1. Errores de Medici´on en las Variables . . 9.3.2. Efectos de simultaneidad . . . . . . . .
275 275 279 281 281 295
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
´ INDICE GENERAL
6
9.3.3. Variables relevantes omitidas . . . . . . . . . 9.3.4. Inclusi´on de variables irrelevantes. . . . . . . 9.4. Detecci´on de algunos problemas de ortogonalidad . . 9.4.1. Pruebas de variables omitidas o redundantes . 9.4.2. Prueba de especificaci´on de Ramsey . . . . . 9.4.3. Heteroscedastidad e incorrecta especificaci´on
. . . . . .
301 303 304 304 307 311
10. Variables Instrumentales 10.1. El estimador de Variables Instrumentales . . . . . . . . . . . . . . 10.2. M´ınimos Cuadrados en 2 Etapas . . . . . . . . . . . . . . . . . . 10.3. Problemas con los instrumentos . . . . . . . . . . . . . . . . . . 10.3.1. Relevancia de los instrumentos . . . . . . . . . . . . . . . 10.3.2. Exogeneidad de los instrumentos . . . . . . . . . . . . . . 10.4. La Prueba de Hausman . . . . . . . . . . . . . . . . . . . . . . . 10.4.1. La prueba de Hausman . . . . . . . . . . . . . . . . . . . 10.4.2. La prueba de Hausman multivariada . . . . . . . . . . . . 10.4.3. Detecci´on de errores de medici´on en variables explicativas
. . . . . . . . .
315 317 324 332 332 333 338 339 343 345
11. Causalidad, exogeneidad y estabilidad 11.1. La Causalidad en el sentido de Granger . . . . . . 11.1.1. Filosof´ıa detr´as de Causalidad . . . . . . . 11.1.2. Causalidad en Probabilidad . . . . . . . . . 11.1.3. Causalidad en Econometr´ıa . . . . . . . . . 11.1.4. La Granger-Causalidad . . . . . . . . . . . 11.2. Exogeneidad . . . . . . . . . . . . . . . . . . . . 11.2.1. Exogeneidad a` la Cowles Commission . . 11.2.2. Exogeneidad a` la Engle, Hendry y Richard 11.3. Mecanismo de Correcci´on de Error . . . . . . . . . 11.3.1. Estacionariedad y Ergodicidad . . . . . . . 11.3.2. Regresi´on Espuria . . . . . . . . . . . . . 11.3.3. Prueba de Ra´ız Unitaria . . . . . . . . . . 11.3.4. Cointegraci´on . . . . . . . . . . . . . . . . 11.3.5. Mecanismo de Correcci´on de Error . . . . 11.3.6. Probando exogeneidad d´ebil . . . . . . . . 11.4. Probando las dem´as exogeneidades . . . . . . . . . 11.5. Estabilidad de los par´ametros . . . . . . . . . . . . 11.5.1. Prueba quiebre de Chow . . . . . . . . . . 11.5.2. Prueba pron´ostico de Chow . . . . . . . .
. . . . . . . . . . . . . . . . . . .
349 350 350 353 355 356 358 358 359 370 371 375 384 391 396 401 402 403 403 406
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . . . . . . . . .
´ INDICE GENERAL
7
11.5.3. Prueba de Hansen . . . . . . . . . . . . . . . . . . . . . . . 407 12. Especificaciones Din´amicas y Expectativas 12.1. Expectativas naives:El modelo de Telara˜na . . . 12.1.1. Ecuaci´on homog´enea: . . . . . . . . . 12.1.2. Soluci´on particular . . . . . . . . . . . 12.1.3. Combinaci´on lineal de las soluciones . 12.1.4. Eliminaci´on de las constantes . . . . . 12.1.5. El impacto de los choques . . . . . . . 12.2. M´as sobre Expectativas naives . . . . . . . . . 12.3. Modelos con rezagos distribuidos . . . . . . . 12.4. Expectativas Adaptativas . . . . . . . . . . . . 12.5. Modelo de ajuste de inventarios . . . . . . . . 12.6. Estimaci´on de modelos din´amicos . . . . . . . 12.7. Parsimonia: metodolog´ıa de General a simple . 12.8. Expectativas Racionales . . . . . . . . . . . . . 12.8.1. La hip´otesis de Expectativas Racionales 12.8.2. Cr´ıticas a las Expectativas Racionales . 12.8.3. Probando las Expectativas Racionales . 12.8.4. La Cr´ıtica de Lucas . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
411 412 414 415 416 416 418 419 421 423 426 427 431 434 434 436 439 440
13. Modelos de ecuaciones simult´aneas 13.1. Historia de los modelos macroeconom´etricos . . . 13.2. Sinopsis Metodol´ogica . . . . . . . . . . . . . . . 13.2.1. Otra vez variables ex´ogenas y end´ogenas . 13.2.2. Un modelo de oferta y demanda . . . . . . 13.3. El problema de la identificaci´on . . . . . . . . . . 13.3.1. ¿Qu´e es la identificaci´on? . . . . . . . . . 13.3.2. M´as sobre la identificaci´on . . . . . . . . . 13.4. Incorporando m´as informaci´on . . . . . . . . . . . 13.5. Condiciones de identificaci´on . . . . . . . . . . . . 13.5.1. Restricciones de exclusi´on . . . . . . . . . 13.5.2. Restricciones homog´eneas lineales . . . . . 13.5.3. Reagrupando las restricciones estructurales 13.5.4. M´as restricciones . . . . . . . . . . . . . . 13.5.5. Elucidando la identificaci´on . . . . . . . . 13.5.6. Reglas pr´acticas . . . . . . . . . . . . . . 13.5.7. Variables Ex´ogenas: algunas sugerencias .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
445 445 447 448 448 451 451 454 455 457 459 460 460 461 463 465 468
. . . . . . . . . . . . . . . . .
´ INDICE GENERAL
8
13.6. El efecto desplazamiento (“Crowding out”) . . . . . . . . . . . . . 470 13.6.1. ¿Qu´e es el Crowding out? . . . . . . . . . . . . . . . . . . 470 13.6.2. Metodolog´ıa y datos . . . . . . . . . . . . . . . . . . . . . 471 14. Ep´ılogo
477
15. Ejercicios (ii)
479
III Ap´endices
495
A. Tendencia central y dispersi´on
497
B. Operador Esperanza 499 B.1. definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 B.2. Algunas reglas del operador esperanza . . . . . . . . . . . . . . . . 500 C. La distribuci´on normal
501
´ D. Algebra matricial
503
E. Independencia entre Par´ametros y Varianza
505
F. Origen de MCO: Legendre
509
G. MCO usando Excel 2007
515
´ Indice de figuras 1.1. 1.2. 1.3. 1.4.
Estad´ıstica y Probabilidad . . . . . . . . . . . . Distribuci´on del reto Coca-Pepsi . . . . . . . . Ciclo de Comercio seg´un Jevons (1884) . . . . Ciclo de Negocios seg´un Moore (Moore, 1914)
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
22 26 33 34
2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 2.12. 2.13. 2.14. 2.15. 2.16.
Series de tiempo del PIB real y de M2 de E.E.U.U. . . . . . . . . . 38 Relaci´on lineal entre las coordenadas de un c´ırculo . . . . . . . . . 39 Ingreso p.c. y esperanza de vida en M´exico, Francia, Jap´on y Nigeria 42 Ingreso per c´apita y esperanza de vida en 220 pa´ıses . . . . . . . . . 43 Diagrama de Dispersi´on o bien “Nube de Puntos”. . . . . . . . . . . 45 Ilustraci´on de los Supuestos . . . . . . . . . . . . . . . . . . . . . . 52 Diagrama de dispersi´on: normalidad . . . . . . . . . . . . . . . . . 53 Distribuci´on Condicional de yt . . . . . . . . . . . . . . . . . . . . 76 Distribuci´on bajo la hip´otesis nula y la alternativa . . . . . . . . . . 89 Distribuci´on de t de student . . . . . . . . . . . . . . . . . . . . . 95 Comparaci´on del ajuste entre dos regresiones . . . . . . . . . . . . 97 An´alisis de la Variaci´on . . . . . . . . . . . . . . . . . . . . . . . . 97 Distribuci´on de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 107 PIB per c´apita en M´exico, 1900-2000 . . . . . . . . . . . . . . . . 117 Ingreso per c´apita y esperanza de vida (bis) . . . . . . . . . . . . . 124 Tasa de analfabetismo vs PIB per c´apita (invertido) en Argentina. . . 126
3.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 156 3.2. Distribuci´on de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.1. Efectos de las variables dicot´omicas en la l´ınea de regresi´on . . . . 201 5.2. Ejemplo de Regresi´on por pedazos . . . . . . . . . . . . . . . . . . 203 9
´ INDICE DE FIGURAS
10 6.1. 6.2. 6.3. 6.4.
Regla de decisi´on de la Durbin-Watson . Correlograma de un AR(1) . . . . . . . Correlograma de un ruido blanco iid’ . Correlogramas muestrales . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
228 232 233 234
7.1. Diagrama de dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . 247 7.2. Variable yt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 9.1. 9.2. 9.3. 9.4. 9.5. 9.6.
Sesgo en un estimador . . . . . . . . . . . . . . . . . Indicadores de Actividad cient´ıfica . . . . . . . . . . . Sesgo de una estimaci´on por MCO bajo simultaneidad. Relaci´on entre residuales y valores ajustados . . . . . . Heteroscedasticidad, autocorrelaci´on y ortogonalidad . No-linealidad mal asumida . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
280 282 299 311 313 314
10.1. El problema de la identificaci´on y su soluci´on. . . . . . . . . . . . . 316 11.1. Posibles espacios param´etricos (modelo Telara˜na) 11.2. Diagrama de Venn en exogeneidad . . . . . . . . 11.3. Proceso aleatorio . . . . . . . . . . . . . . . . . 11.4. Regresi´on espuria . . . . . . . . . . . . . . . . . 11.5. Regresi´on espuria, especificaci´on correcta . . . . 11.6. Distribui´on de la Prueba DF . . . . . . . . . . . 11.7. Modo de empleo sugerido de la DF . . . . . . . . 11.8. Variables cointegradas y Espurias . . . . . . . . 11.9. Series cointegradas e independientes . . . . . . . 11.10.Relaci´on cointegrada . . . . . . . . . . . . . . . 11.11.Regresi´on y quiebres . . . . . . . . . . . . . . . 11.12.Regresi´on, quiebres y errores . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
364 368 371 381 384 387 392 394 397 398 404 405
12.1. Mercado de Ma´ız, seg´un el modelo de Telara˜na . . . . . . . . . . . 413 12.2. Funci´on Impulso-Respuesta en el Modelo de Telara˜na. . . . . . . . 419 13.1. Ecuaciones simult´aneas . . . . . . . . . . . . . . . . . . . . . . . . 451 13.2. Evoluci´on de la inversi´on privada y la inversi´on p´ublica . . . . . . . 472 C.1. Ejemplos de Densidad Normal . . . . . . . . . . . . . . . . . . . . 502 F.1. A.M. Portada del libro de Legendre . . . . . . . . . . . . . . . . . 510 F.2. Ap´endice del libro de Legendre (p.72) . . . . . . . . . . . . . . . . 511
´ INDICE DE FIGURAS
11
F.3. Ap´endice del libro de Legendre (p.73) . . . . . . . . . . . . . . . . 512 F.4. Ap´endice del libro de Legendre (p.74) . . . . . . . . . . . . . . . . 513 F.5. Ap´endice del libro de Legendre (p.75) . . . . . . . . . . . . . . . . 514
12
´ INDICE DE FIGURAS
´ Indice de cuadros 1.1. Combinatorias del Reto Coca . . . . . . . . . . . . . . . . . . . . . 27 2.1. Relaci´on Ingreso-Esperanza de vida . . . . . . . . . . . . . . . . . 42 2.2. An´alisis de Varianza (ANOVA) . . . . . . . . . . . . . . . . . . . . 113 11.1. 11.2. 11.3. 11.4.
Prueba DF: valores cr´ıticos de elementos deterministas (1) Prueba DF: valores cr´ıticos de elementos deterministas (2) Valores Cr´ıticos de la prueba Engle-Granger . . . . . . . . Interpretaci´on de signos en el MCE . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
391 391 396 401
13.1. C´alculo de la Condici´on de Rango . . . . . . . . . . . . . . . . . . 467
13
14
´ INDICE DE CUADROS
Agradecimientos Al escribir las m´as de 500 p´aginas de este curso descubr´ı con gran horror la frecuencia con la que me equivoco. Algunos de estos errores son tan solo tipogr´aficos; otros m´as son de plano humillantes; los peores son las pifias matem´aticas. Afortunadamente, mucha gente, primero en el seno del departamento de econom´ıa y finanzas de la Universidad de Guanajuato, y ahora en el CIDE, me ha ayudado a enmendarlos, especialmente los alumnos. Quiero agradecer—en orden cronol´ogico—con particular e´ nfasis a: Oscar Manjarrez Castro, Miguel Amador, Jos´e Alfonso Garc´ıa Campillo, Lizeth Adriana Garc´ıa Belmonte, Sandra Carolina Segovia Ju´arez, Lupita Garrido Espinoza, Liliana L´opez Renter´ıa, Berenice Mart´ınez Rivera, Gustavo Alfonso Rodr´ıguez Ayala, Guillermo Cisneros Gutierrez, Catalina Mart´ınez Hern´andez, Gustavo Salazar Monjar´as, Omar Gallardo Mart´ınez, Lizet Adriana P´erez Cort´es, Christoph Schulze, Carlos Uriel Rodr´ıguez Ram´ırez Salvador, Esmeralda Marisol Moreno Ya˜nez, Karla Elizabeth Gonz´alez Sainz, Pablo Ortiz Casillas, Juan Pablo de Botton Falc´on, Efra´ın Garc´ıa Gonz´alez, Sandra Thal´ıa Espa˜na G´omez, Luis Antonio G´omez Lara y Jean-Luc Demonsant. Para mi desgracia, los errores que a´un quedan son mi entera responsabilidad.
15
16
´ INDICE DE CUADROS
Parte I Econometr´ıa para primerizos
17
19 ‘H ACER E CONOMETR ´I A ES COMO T RATAR DE E NTENDER LAS L EYES DE LA E LECTRICIDAD U SANDO UN R ADIO DE T RANSISTORES ’. G. O RCUTT
´ M AL , PERO A LGUNOS SON M AS ´ UTILES ´ ‘T ODOS LOS M ODELOS EST AN QUE OTROS ’. G.E.P B OX
20
Cap´ıtulo 1 Introducci´on Existen dificultades al aplicar la estad´ıstica a fen´omenos sociales o empresariales. Realizar un experimento para despu´es analizar estad´ısticamente los resultados exige un elemento fundamental, que es el dise˜no de dicho experimento. Pero en econom´ıa,1 la experimentaci´on no s´olo resultar´ıa costosa, sino que en muchos casos ser´ıa poco e´ tica o sencillamente imposible. Es por eso que la estad´ıstica debe ser utilizada con sumo cuidado cuando los datos no provienen de un experimento controlado. El hecho es que en muchas ocasiones tendremos que conformarnos con registros p´ublicos o privados de poca calidad estad´ıstica. Es importante entonces conocer t´ecnicas que permitan aminorar un poco las consecuencias de la naturaleza no-experimental de nuestro a´ mbito laboral. Una rama muy versada en ello es la “E CONOMETR ´I A”. Esta u´ ltima constituye el brazo emp´ırico de la econom´ıa. El t´ermino “E CONOMETR ´I A” fue creado originalmente para designar; (1) el desarrollo de teor´ıa econ´omica pura con base en el herramental matem´atico y; (2) el desarrollo de t´ecnicas de estimaci´on e inferencia emp´ırica. Lo anterior qued´o plasmado en el acta constitutiva de la sociedad econom´etrica (Econometric Society), fundada el 29 de diciembre de 1930 cuyo objetivo primario era: ´ “E L AVANCE DE LA TEOR ´I A ECON OMICA EN LO RELATIVO A LA ´ ESTAD ´I STICA Y LAS MATEM ATICAS .” (F RISCH , 1933) Actualmente, la ciencia econom´etrica incluye u´ nicamente a la segunda a´ rea; la que corresponde a la estimaci´on y a la inferencia estad´ıstica con datos econ´omicos. En este punto resulta muy conveniente resaltar el concepto de inferencia estad´ıstica;2 1
As´ı como en astronom´ıa, en finanzas, en ecolog´ıa,. . . Secci´on inspirada de las notas del Curso “Estad´ıstica Matem´atica I” impartido por el Dr. Miguel Nakamura. 2
21
´ ´ CAPITULO 1. INTRODUCCION
22
de igual forma, resulta muy u´ til diferenciar con claridad la estad´ıstica y la probabilidad. La asociaci´on entre ambas es, virtualmente generalizada, dado el gran n´umero de cursos que las mezclan. Resulta importante tener claras las diferencias considerando que la econometr´ıa se traslapa en numerosas ocasiones con la inferencia estad´ıstica. Observe el diagrama (1.1). En e´ l se pretende establecer la diferencia entre la teor´ıa de la Probabilidad [encargada de cuantificar posibilidades] y la estad´ıstica [que se ocupa de estudiar fen´omenos aleatorios observados e inducir propiedades probabil´ısticas]. La probabilidad es de car´acter deductivo (va de lo general a lo particular) mientras que la estad´ıstica es inductiva. En ese sentido, es posible considerar al estad´ıstico (o en nuestro caso, econometrista) como un detective que, con base en evidencia (es decir, observaciones), puede descubrir al culpable (infiere cu´al es el modelo probabil´ıstico adecuado). Cuando se parte del estudio te´orico del fen´omeno estad´ıstico y se construyen resultados que posteriormente habr´ıan de cotejarse con la observaci´on de dicho fen´omeno (es nuestro diagrama, la flecha que va de izquierda a derecha), b´asicamente se est´a llevando a cabo un ejercicio deductivo, mientras que, cuando se parte de la observaci´on del fen´omeno y se intenta llegar al modelo te´orico (la flecha que va de derecha a izquierda), el ejercicio es de naturaleza inductiva. Ambos procedimientos conllevan una parte de incertidumbre, s´olo que e´ sta es diferente seg´un cu´al es. El procedimiento deductivo (en lo que nos ocupa) conlleva impl´ıcitamente una incertidumbre estoc´astica mientras que el inductivo conlleva una incertidumbre que podr´ıamos denotar como inductiva. Ambas categor´ıas ser´an mejor comprendidas a lo largo de este curso.
Teoría de la probabilidad Deducción
Observación del Fenómeno aleatorio
Fenómeno aleatorio
Inducción
Inferencia Estadística
Figura 1.1: Estad´ıstica y Probabilidad Cuando se hace teor´ıa de probabilidad, no es necesario contar con datos. Se puede, por ejemplo, imaginar que existe un dado justo (que no est´a cargado) y deducir que
´ 1.1. PARABOLA DE LEAMER
23
cada faz del dado tiene una probabilidad de ocurrencia de 16 . En ning´un momento el dado existi´o. El camino del estad´ıstico es el opuesto; partiendo de observaciones debe llegar al modelo de probabilidad “adecuado” (por ejemplo, inferir con base en las realizaciones de un dado si e´ ste est´a o no cargado). Note que hacer el camino a la inversa de la teor´ıa de probabilidad conlleva una incertidumbre que la primera no tiene. Para lo que a nosotros nos interesa, conviene quedarnos con esta definici´on de la inferencia: ´ BASADA EN OBSERVACIONES I NFERENCIA ESTAD ´I STICA : I NDUCCI ON
1.1.
Par´abola de Leamer
En un art´ıculo famoso,3 Leamer hace la comparaci´on de la ciencia econ´omica con otras ciencias llamadas “duras” (como la f´ısica). Acorde a la par´abola con la que inicia dicho art´ıculo, la ciencia cl´asica puede representarse por un granjero que tiene inter´es en confirmar la efectividad de cierto tipo de abono en el rendimiento de su cosecha. Para tal efecto, siembra su campo y a˜nade en algunos surcos seleccionados al azar el mentado abono (¿ para qu´e creen que sirve la selecci´on aleatoria?); hecho esto, espera la maduraci´on de la cosecha y mide meticulosamente el rendimiento surco por surco. Obtenidos los datos, procede a elaborar una prueba estad´ıstica de diferencia de medias y confirma que el abono efectivamente hace crecer m´as a las plantas. Escribe sus resultados y los presenta en el C ONGRESO ANUAL DE G RAN JEROS donde la comunidad de cultivadores asimila sin controversia sus resultados. El economista es otro tipo de granjero, en otras latitudes. El tambi´en est´a interesado en saber qu´e factores afectan el rendimiento de sus tierras. Lo malo es que no dispone de las mismas herramientas que el granjero anterior; de hecho, s´olo cuenta con un a´ rbol perdido en la mitad de su campo en el cual se paran a descansar unos pajaritos; mientras descansan, las aves defecan, vertiendo as´ı guano en las cercan´ıas del a´ rbol. El guano es considerado un abono natural. Nuestro granjero procede entonces a sembrar, como siempre lo ha hecho y, al momento de recoger su cosecha, mide el rendimiento de e´ sta distinguiendo arbitrariamente entre las zonas aleda˜nas al a´ rbol y las dem´as. Calcula medias, hace una prueba estad´ıstica y constata diferencias en los rendimientos; escribe sus resultados y los presenta en otro congreso, ´ el C ONGRESO B I -A NUAL DE G RANJEROS E C ONOMOS . La diferencia es que al hacerlo, el auditorio se alborota y uno de los miembros del p´ublico de plano se 3
Leamer (1983) Let’ s take the con out of Econometrics, American Economic Review, 73 (1), pp. 31-43.
´ ´ CAPITULO 1. INTRODUCCION
24
levanta y manifiesta su inconformidad. Su argumento es que la diferencia de rendimientos no est´a causado por el guano que arrojan las aves, sino por la sombra que proyecta el a´ rbol; e´ l mismo tiene un arbusto en su jard´ın y sus c´alculos as´ı lo indican. A ra´ız del comentario se gesta una agria discusi´on que s´olo es zanjada por otro granjero, muy l´ucido que se˜nala que no es posible discriminar entre las dos hip´otesis de trabajo: hay un problema de identificaci´on.
1.2.
Fisher tomando el t´e
Cuenta la leyenda que Fisher (que era ingl´es) se encontraba un d´ıa tomando el t´e a las cinco de la tarde con sus colegas de trabajo, todos ellos sendos investigadores en ciencias duras, tales como la qu´ımica. A la mitad de la conversaci´on, una de las damas presentes afirm´o que el t´e no sab´ıa igual seg´un como lo prepararan. Verter el az´ucar antes que el t´e le daba un sabor diferente al que se obten´ıa invirtiendo el orden. Todos se rieron e inclusive trataron de explicarle a la dama que la reacci´on qu´ımica en cualquier caso siempre era la misma, pero e´ sta insist´ıa en tener la raz´on. Fisher, para zanjar la discusi´on propuso llevar a cabo un peque˜no experimento. Prepar´o diez tasas de t´e. El orden de los ingredientes fue seleccionado al azar y s´olo conocido por e´ l. Procedi´o posteriormente a d´arselos a probar a la dama quien se˜nal´o en cada probada de que manera se hab´ıa preparado esa tasa. La dama supo reconocer correctamente dicho orden en todos los casos. ¿Cu´al es la probabilidad 10 de que su e´ xito sea debido al azar? 12 ≈ 0.0009. Ser´ıa demasiado inveros´ımil creer que diez aciertos fueron s´olo fruto del azar, por lo que el experimento constituye evidencia estad´ıstica de que el sabor del t´e difiere seg´un el orden con que se mezclen los ingredientes. Ejemplo 1 El reto Pepsi. No hay que irse con la finta; hacer pruebas estad´ısticas, que si bien est´an basadas en una idea simple, requiere de una mente despejada. Hagamos un ejemplo pr´actico, muy al estilo de Fisher. Hace unos a˜nos, la compa˜nia de bebidas Pepsi-Cola lanz´o una agresiva campa˜na de publicidad en la que ofrec´ıa a la gente dos vasos; un vaso conten´ıa Coca Cola, mientras que el otro Pepsi Cola. A los encuestados se les ped´ıa se˜nalar el que m´as les gustaba. La persona ten´ıa que decidir. Tiempo despu´es, anunciaron que m´as gente hab´ıa preferido la Pepsi que la Coca. ¿Esa conclusi´on es v´alida? S´ı lo piensan bien, no. Probar un s´olo vaso y luego escoger la marca del refresco de cola s´olo tiene dos conclusiones posibles...Coca o Pepsi. Imaginen a alguien que hace la prueba y descubre que no tiene idea de lo que acaba de ingerir. ¿Qu´e har´a? dir´a un nombre al azar. Nuevamente,
1.2. FISHER TOMANDO EL TE´
25
si lo piensan bien, tiene una chance entre dos de atinarle de chiripa. ¿Qu´e pasar´ıa si, en vez de probar un vaso servido al azar, probara S IETE vasos servidos al azar? ¿Cu´al ser´ıa la probabilidad de atinarle, por puro azar a la marca del refresco que est´a servido en cada vaso? Pues no es dif´ıcil calcularlo, 7 1 = 0.0078125 2 Pero nuevamente, no se vayan con la finta de este sencillo c´alculo e infieran r´apidamente que alguien que no le atina a ni un solo vaso tiene el paladar muy torpe. La probabilidad de no atinarle, tambi´en por puro azar, a la bebida en los siete vasos es: 7 1 = 0.0078125 2 De hecho, lo m´as probable es que alguien que no reconoce los sabores sea capaz de atinarle a unos cuantos vasos, por mero azar. Lo que resulta dif´ıcil de creer es que le atine a todos de chiripa (o la inversa, que no le atine a ninguno). ¿Cu´ales son las probabilidades de atinarle a un vaso? Puede que le atine al primero, pero tambi´en es posible que le atine al segundo, o bien s´olo al tercero. Existen, si lo ven 7 casos en los que le atinar´ıa a alguno de los siete vasos. S´olo hay un caso en el que le atinar´ıa a todos y tambi´en, s´olo hay un caso en el que no le atinar´ıa a ninguno. ¿Cu´antas posibilidades hay de que le atine a dos vasos cualesquiera? Ya no es tan f´acil, puede atinarle al primero y al segundo, al primero y al tercero, al segundo y al tercero,... Ya son muchos m´as. Afortunadamente es f´acil saber cuantas combinaciones hay. Simplemente necesitamos calcular la combinatoria de 7 tomados 2, es decir: 7 2 Hagamos todos los casos posibles (ver tabla 1.1). Hay, de hecho, 128 casos posibles. Ahora s´ı podemos empezar a tomar decisiones respecto al paladar de la gente. Lo primero es corroborar el primer c´alculo que hab´ıamos hecho. Dijimos que la probabilidad de atinarle a todos los vasos de chiripa—o no atinarle a ninguno—era 0.0078125. Eso es lo que se obtiene tambi´en al hacer el siguiente c´alculo: 1 = 0.0078125 128
´ ´ CAPITULO 1. INTRODUCCION
26
0.35 0.3
Probabilidad
0.25 0.2 0.15 0.1 0.05 0
0
1 2 3 4 5 6 Número de éxitos (cuantas veces le atinó a la bebida del vaso)
7
Figura 1.2: Distribuci´on del reto Coca-Pepsi. Note como el a´ rea total es igual a uno. Con base en lo anterior es f´acil ver que (i) la probabilidad de atinarle exclusivamente a un vaso es: 0.0546; (ii) atinarle a dos vasos: 0.1640; (ii) a tres: 0.2734; (iv) a cuatro: 0.2734; y luego se invierten. ¿Qu´e caso nos parece ser probatorio de que el individuo tiene un fino paladar? Si no le atina a ninguno, o bien le atina a todos, parece inveros´ımil que ello se deba al azar. Si adoptamos una filosof´ıa frecuentista, ver´ıamos que son siete casos de cada mil. As´ı pues, podemos tomar la decisi´on, en caso de encontrarnos con alguien as´ı, de decidir que eso no pudo deberse al azar y que esa persona realmente sabe distinguir la coca de la pepsi. El que falle una, o bien que las hierre todas menos una, nuestros c´alculos muestran que se trata de una probabilidad de 0.05, es decir una entre veinte. Eso no resulta tan inveros´ımil, as´ı es que, en caso de ocurrir, se lo atribuiremos al azar. Ejercicio 1 Con objeto de hacer m´as elocuente la presentaci´on del m´etodo de regresi´on, intentaremos hacer un ejemplo usando unos cuantos datos extra´ıdos de una muestra sumamente informal. La informaci´on, de hecho, ser´a provista por ustedes y, eventualmente, por sus familiares y amigos. El inter´es de este ejemplo radica en que resalta algunos de los elementos m´as importantes en todo estudio, sea e´ ste econom´etrico o no. En realidad, lo m´as fundamental en un estudio es establecer con claridad la pregunta a la que se le desea dar respuesta. En este caso, formularemos
1.2. FISHER TOMANDO EL TE´ Atinarle a: 0
1
2
3
4
5
6
7
27
Combinatoria 7 0 7 1 7 2 7 3 7 4 7 5 7 6
Casos posibles 1
7
21
35
35
21
7
7 7
1
Total
128
Cuadro 1.1: Combinatorias del Reto Coca
una sumamente sencilla y, esperemos, algo controvertida: ´ ´ I MPUNTUALES , LOS H OMBRES O LAS M UJERES ? ¿Q UI ENES S ON M AS Se trata de una pregunta en extremo trivial; al margen de si e´ sta le parece interesante o no, destaca el hecho de que el cuestionamiento es preciso. Para dar respuesta al mismo, existen varias metodolog´ıas posibles. En este caso usaremos una que nos permita ilustrar el m´etodo de estimaci´on que estudiaremos a lo largo del manual:
´ ´ CAPITULO 1. INTRODUCCION
28
M´ınimos Cuadrados Ordinarios. La idea es determinar si el g´enero tiene incidencia alguna en las costumbres de puntualidad—de los individuos que conforman la muestra (ya si la muestra fuera representativa de cierta poblaci´on, es otra historia). No obstante la unicidad de nuestra pregunta (genero-puntualidad), existen muchos otros factores que pueden explicar por qu´e la gente es impuntual/puntual: acceso a un medio de transporte eficaz, vivienda cercana al centro de estudio/trabajo, situaci´on familiar, etc. Si diera la casualidad que todos los hombres de la muestra fueran solteros mientras que todas las mujeres estuvieran casadas con 7 hijos cada una, muy posiblemente encontrar´ıamos evidencia de que las mujeres son m´as impuntuales. Pero la conclusi´on ser´ıa err´onea, pues ser´ıa la situaci´on de maternidad la que provoca la impuntualidad. Si resultara que todos los hombres viven a 200 kil´ometros de su lugar trabajo y no dispusieran de un medio de transporte r´apido mientras que las mujeres viven al lado del centro de trabajo y encima de todo pueden llegar a e´ ste usando, por ejemplo, el metro, entonces encontrar´ıamos que son los hombres los m´as impuntuales. Ello tambi´en estar´ıa mal conclu´ıdo, puesto que las diferencias en puntualidad ser´ıan en realidad debidas a otros factores. No tomar en cuenta otros factores adem´as del que nos interesa (g´enero) para estudiar la puntualidad tendr´ıa la grave consecuencia de sesgar la inferencia estad´ıstica. Por ello es importante tomar en cuenta tales factores, es decir, controlar los resultados por tales factores. Si hacemos correctamente el control de otras caracter´ısticas de los individuos, nuestro ejercicio estad´ıstico tiene muchas m´as posibilidades de arrojar resultados v´alidos. As´ı las cosas, se sugiere que se levante la siguiente encuesta entre sus conocidos y familiares: 1. ¿Qu´e distancia tiene que recorrer para llegar a su centro de trabajo/estudio? Estime la distancia en kil´ometros (podr´ıa usar “Google Maps” para ello). 2. ¿Se desplaza en autom´ovil, usa el transporte p´ublico, camina, “hace ronda” para llegar al centro de trabajo/estudio? 3. ¿Qu´e edad tiene? 4. ¿Tiene hijos? 5. Por la ma˜nana, ¿debe compartir el ba˜no con m´as de una persona? 6. En promedio, ¿qu´e tan puntual es? Responda se˜nalando cuantos minutos suele llegar tarde/temprano. 7. ¿Es usted hombre o mujer?
1.2. FISHER TOMANDO EL TE´
29
En principio, deber´ıa juntar, como m´ınimo, unas 30 respuestas a semejante cuestionario para que el ejercicio tenga alguna oportunidad de arrojar resultados relevantes; podr´ıa usted usar un cuestionario en l´ınea como este: https://docs.google.com/spreadsheet/viewform?formkey=dG95X212S2taNUFyX1l6MWV2TWFfR0E6MQ
Las respuestas de algunas personas aparecen ya en un formato de cuadro en la siguiente liga: https://docs.google.com/spreadsheet/ccc?key=0AjZR92LJVODOdG95X212S2taNUFyX1l6MWV2TWFfR0E#gid=0
Recuerde que la pregunta a la que daremos respuesta es: ¿Qui´en es m´as impuntual? ¿la mujer o el hombre? Estimaremos por MCO la siguiente relaci´on lineal: yi = α + β1 x1i + β2 x2i + . . . + β10 x10i + ui donde, 1. yi es la variable que mide la impuntualidad del i-´esimo individuo, 2. α, βi , para i = 1, 2, . . . , 10 son los par´ametros que miden la relaci´on lineal entre impuntualidad y cada una de las variables (α es s´olo la ordenada en el origen de la recta), 3. x1i es la edad del i-´esimo individuo, 4. x2i es la distancia entre el hogar y el trabajo/centro de estudio del i-´esimo individuo, 5. x3i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo tiene auto, 0 si no, 6. x4i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo usa transporte p´ublico, 0 si no, 7. x5i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo se desplaza en taxi, 0 si no, 8. x6i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo “hace ronda”, 0 si no, 9. x7i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo comparte ba˜no por las ma˜nanas, 0 si no,
30
´ ´ CAPITULO 1. INTRODUCCION
10. x8i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo tiene hijos, 0 si no, 11. x9i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo trabaja, 0 si estudia, 12. x10i es una variable que s´olo puede valer 1 o´ 0; valdr´a 1 si el i-´esimo individuo es mujer, 0 si es hombre, 13. ui es un t´ermino de error. No podemos esperar que estos factores antes enumerados puedan explicar completamente la impuntualidad; todo aquello que no podamos explicar se ir´a a este t´ermino de error. La idea es que las variables que s´ı inclu´ımos sean capaces de explicar la mayor parte del comportamiento de la gente, que lo poco que no pudimos explicar sea “poco” y por ende inocuo. Note que no inclu´ımos una variable para la posibilidad de que el individuo camine. La raz´on de ello se estudiar´a en en cap´ıtulo destinado a la “multicolinealidad”; por el momento, simplemente ignore la cuesti´on. Los resultados no los podemos adelantar, puesto que es un ejercicio que depende de datos que a´un no conocemos. Para llevarlo a cabo la estimaci´on de la recta usaremos el m´odulo de regresi´on del programa Excel 2007. Vea en el ap´endice G, en la p´agina 515 de este manual para saber como hacer funcionar dicho m´odulo. En principio, s´olo tiene que saber que y es la variable dependiente mientras que todas las dem´as, son variables independientes/explicativas. MCO le proporcionar´a estimaciones num´ericas de los par´ametros α y βi , para i = 1, 2, . . . , 10. Las f´ormulas para obtener tales estimadores ser´an objeto de escrupuloso estudio m´as adelante; de momento no se preocupe por ello tampoco. Asumamos que ya logr´o estimar la recta de regresi´on por MCO. ¿C´omo debe interpretar los resultados y as´ı, eventualmente, dar respuesta a la pregunta orginal? Pues ver´a que es una mera cuesti´on de sentido com´un. Con un par de ejemplos, quedar´a esto muy claro: Nos vamos a concentrar en el par´ametro estimado que acompa˜na a la variable G´enero, x10i . Supongamos que dicho estimador es igual a −8; supongamos igualmente que el estimador de α es igual a 5. Note como ello implicar´ıa que el i-´esimo individuo, si es mujer, deber´ıa ser, seg´un nuestro modelo, ocho minutos m´as puntual. Para ver lo anterior, olvid´emonos por un momento de todos los dem´as factores (igualemos a cero todas las dem´as variables). La ecuaci´on se reducir´ıa a
´ 1.3. ¿ PARA QUE´ HACER ECONOMETRIA?
31
yi = 5 − 8x10i , si nuestro individuo es mujer. Siendo que x10i = 1 en ese caso, obtendr´ıamos que semejante individuo suele llegar, seg´un nuestro modelo, 3 minutos antes de las citas. Si el individuo es hombre, entonces llegar´a 5 minutos tarde en promedio, seg´un nuestro modelo, no lo olvide. Ahora bien, el valor del par´ametro estimado es de suma importancia para la interpretaci´on de los resultados, econ´omica por lo general, pero no podemos dejar de lado la interpretaci´on estad´ıstica. El estimador de β10 es una variable aleatoria y, por lo mismo, est´a sujeta a cierta incertidumbre/variabilidad. Podr´ıa ser estad´ısticamente indistinguible de cero. Si as´ı fuera, nuestra conclusi´on ser´ıa que el g´enero no influye en la puntualidad de los individuos. Afortunadamente, si el par´ametro realmente es cero, entonces una normalizaci´on del mismo tendr´ıa una distribuci´on normal est´andar. Ello nos permite hacer inferencia estad´ıstica; en otras palabras, podemos hacer una prueba de significancia estad´ıstica. Notar´a que el resultado ofrecido por el programa arroja en una columna un estad´ıstico denominado “estad´ıstico t”. La hip´otesis nula de dicho estad´ıstico es que el par´ametro es igual a cero. No podremos rechazar dicha hip´otesis si el estad´ıstico t est´a entre −1.96 y 1.96.4 Con base en esta prueba, llegue a una conclusi´on respecto a la relaci´on entre el g´enero y la impuntualidad.
1.3.
¿ Para qu´e hacer econometr´ıa?
En u´ ltima instancia, el objetivo de la ciencia en general consiste en el desarrollo de instrumentos (modelos) que permitan realizar predicciones confiables de fen´omenos futuros. Siguiendo una filosof´ıa instrumentalista no se considera que el modelo sea verdadero o que la teor´ıa represente la verdad. Se considera m´as bien que los elementos y entidades que aparecen en las teor´ıas son ficciones intelectuales valiosas (Poirier). A este respecto, cabe mencionar la siguiente “an´ecdota” (Pindyck): LAS PERSONAS QUE PRETENDAN PREDECIR EL FUTURO SERAN
´ CONSIDERADAS ALBOROTADORAS BAJO LA SUBDIVISI ON
´ 901 DEL 3, SECCI ON ´ ´ ACREEDORAS A UNA MULTA DE 250 C ODIGO COMUNAL , Y SE HAR AN ´ ´ . D OLARES Y / O 6 MESES DE PRISI ON
No obstante los riesgos en los que aparentemente incurriremos, nosotros nos dedicaremos a utilizar el herramental estad´ıstico t´ıpico de los economistas para realizar 4
Las razones de ello y la teor´ıa detr´as de esta prueba ser´a detallada m´as adelante.
´ ´ CAPITULO 1. INTRODUCCION
32
predicciones. Antes de iniciar concretamente con el curso, es interesante comentar un poco cu´ales son los or´ıgenes de esta disciplina.
1.4.
Or´ıgenes
La econometr´ıa fue considerada en un principio como una s´ıntesis creativa de teor´ıa y evidencia, con la cual casi todo pod´ıa lograrse: descubrir nuevas leyes econ´omicas, desarrollo de las existentes, medici´on y confirmaci´on de estas,.... Jevons, uno de los primeros economistas abocados al estudio sistem´atico de la disciplina, afirm´o: ´ QUE LA E CONOM ´I A P OL ´I TICA SE N O DUDO EN AFIRMAR TAMBI EN CONVERTIR ´I A GRADUALMENTE EN UNA CIENCIA EXACTA , SI LA ´ COMPLETA Y PRECISA DE LO QUE ESTAD ´I STICA COMERCIAL FUERA M AS ES ACTUALMENTE . D E ESTA FORMA , LAS FORMULACIONES PODR ´I AN SER ´ RESPALDADAS CON GRAN FUERZA POR LOS DATOS ECON OMICOS , J EVONS (1871)
1.4.1. La trayectoria de los cometas Si bien el uso de la estad´ıstica en econom´ıa no comenz´o a generalizarse hasta finales del siglo XIX, vale la pena reparar en los or´ıgenes del m´etodo que posteriormente ser´ıa utilizado en infinidad de disciplinas cient´ıficas, entre ellas, repetimos, la econom´ıa. Pues su origen es franc´es, si bien hay una ligera disputa con los alemanes en lo que concierne a la paternidad. El m´etodo al que nos referimos, del que ha´ blaremos las pr´oximas 200 p´aginas, es nada menos que el famoso M ETODO DE M ´I NIMOS C UADRADOS O RDINARIOS, M CO por sus siglas en espa˜nol o bien OLS (Ordinary Least Squares) por sus siglas en ingl´es. El inventor de esta t´ecnica es el Franc´es Adrien Marie LeGendre. Los detalles de dicha t´ecnica aparecen en ´ ´ el ap´endice de su obra “N OUVELLES M ETHODES POUR L A D ETERMINATION 5 ` DES C OM ETES . Como bien lo indica el t´ıtulo, M CO fue empleado la primera vez para ajustar las trayectorias de los cometas. Es un detalle curioso que vale la pena conocer. 5
Nuevos M´etodos para determinar cometas. (traducci´on)
´ 1.4. ORIGENES
33
1.4.2. Manchas solares y ciclos venusinos Entre los economistas Jevons y Moore, se gest´o un “programa” econom´etrico pionero para explicar los ciclos econ´omicos, aunque su impacto en la comunidad cient´ıfica exigi´o bastante tiempo para materializarse. La teor´ıa de las manchas solares de Jevons (≈ 1870), por ejemplo, constituy´o uno de los primeros intentos serios por cuantificar y aportar evidencia emp´ırica referida a una teor´ıa concreta. La idea fundamental de e´ sta es la siguiente: La actividad solar est´a regida por un ciclo que dura 11.1 a˜nos. Justamente en cada pico, dicha actividad se incrementa substancialmente. Jevons cre´ıa que tales picos ten´ıan efectos sobre el clima de la tierra y, por ende, sobre las cosechas y sus rendimientos. Estos efectos repercutir´ıan en los precios de los productos agr´ıcolas y posteriormente en los dem´as precios [Jevons(1875)]. La evidencia era escasa y el propio Jevons sab´ıa que—a´un siendo cierte su hip´otesis— otros factores sociales, econ´omicos y pol´ıticos pod´ıan perturbar igualmente el ciclo.
Figura 1.3: Ciclo de Comercio seg´un Jevons (1884) La evidencia desgraciadamente nunca se materializ´o y los esfuerzos de Jevons s´olo le valieron el rechazo de los colegas. No obstante, el intento marc´o una pauta: el uso de la estad´ıstica para identificar fen´omenos econ´omicos y sociales.6 Jevons eventualmente abandon´o sus “pr´acticas econom´etricas”, pero Moore las retom´o casi 40 a˜nos despu´es. Desgraciadamente Moore lo hizo mediante una hip´otesis a´un m´as descabellada para explicar los ciclos de negocios. Moore propuso estudiar la o´ rbita de Venus y su posicionamiento con respecto a la Luna y al Sol. 6
Galton y otros autores contempor´aneos ya hab´ıan hechos sus pininos, pero ninguno de ellos era economista
´ ´ CAPITULO 1. INTRODUCCION
34
Utiliz´o t´ecnicas mucho m´as sofisticadas como el an´alisis arm´onico (frecuencias) sobre datos de pluviometr´ıa del Valle de Ohio (1839-1910); calcul´o periodogramas con los que “mostr´o” que hab´ıa ciclos que sobresal´ıan del ruido blanco; entre ellos destacaba uno de ocho a˜nos y otro m´as de treinta y tres a˜nos. Posteriormente elabor´o correlaciones de la pluviometr´ıa de Illinois con la cosecha de grano del mismo estado creyendo mostrar as´ı que la lluvia y la cosecha estaban relacionadas causalmente (con un rezago de 2 a˜nos).
Figura 1.4: Ciclo de Negocios seg´un Moore (Moore, 1914)
Posteriormente, Moore relacion´o la producci´on de grano con su precio y obtuvo— emp´ıricamente—una demanda de grano con...¡pendiente positiva! Lo anterior fue fruto, entre otras cosas, de un an´alisis de regresi´on con tres variables (considerando la ausencia de computadoras, el m´erito no es poco). Aquello no fue una debacle. Los resultados aparecieron en un libro (1914) y fueron refinados en otro que se public´o en 1923. En otro libro, Moore prob´o una hip´otesis muy desafortunada; sugiri´o que el origen de los ciclos fuera la o´ rbita de Venus; dicho planeta se coloca cada ocho a˜nos en una posici´on tal que e´ ste queda alineado con el Sol y la Tierra. Las repercusiones de estas afirmaciones no tuvieron demasiado eco sobre la comunidad cient´ıfica.7 ´ El desarrollo de la econometr´ıa persisti´o. Esta se consolid´o considerablemente con la fundaci´on de la Sociedad Econom´etrica y se defini´o con m´as precisi´on con los trabajos de Timbergen en los a˜nos treinta. La Comisi´on Cowles aport´o grandes avances 7
No obstante, Moore tuvo varios disc´ıpulos, menos destacados quiz´a individualmente, pero que en conjunto coadyuvaron a la construcci´on del cuerpo cient´ıfico de la econometr´ıa
´ 1.4. ORIGENES
35
ya en las d´ecadas de los cuarenta y cincuenta. Lo ocurrido posteriormente, si bien es de gran trascendencia, es demasiado polifac´etico para resumirlo en unos pocos p´arrafos. La econometr´ıa cl´asica sufri´o un gran descr´edito en los setenta debido a sus limitaciones predictivas y explicativas ante un escenario de fuerte crisis. La incorporaci´on y asimilaci´on de t´ecnicas de series de tiempo le permitieron salvar muchos de los escollos se˜nalados. Adicionalmente, el avance inform´atico y el acceso a bases de datos cada vez m´as grandes y completas permiti´o el desarrollo de lo que hoy se conoce como microeconometr´ıa.8
8
Ver, por ejemplo, la breve rese˜na que al respecto hace Ventosa-Santaul`aria(2006) o, mejor a´un, la soberbia investigaci´on de Morgan(1994).
36
´ ´ CAPITULO 1. INTRODUCCION
Cap´ıtulo 2 El modelo de Regresi´on lineal simple 2.1.
Pre´ambulo
La herramienta de an´alisis emp´ırico m´as com´unmente utilizada (y probablemente la m´as importante) en econom´ıa lleva por nombre M´ınimos Cuadrados Ordinarios (an´alisis de regresi´on, MCO u OLS, por sus siglas en ingl´es). Al ser empleada, se asume que la ecuaci´on a estimar es lineal en todos sus par´ametros. Antes de entrar en m´as detalles, cabe hacerse una serie de preguntas relevantes: ¿Para qu´e queremos estimar una ecuaci´on? ¿De qu´e ecuaci´on estamos hablando? ¿C´omo sabemos que los c´alculos significan algo? A esas preguntas iremos respondiendo poco a poco, pero importa m´as asimilar correctamente desde un principio el inter´es de esta materia. Mediante el an´alisis de regresi´on lineal podremos establecer emp´ıricamente una relaci´on (no necesariamente causal) entre dos o m´as variables; por ejemplo entre ingreso y consumo; y podremos caracterizarla y estudiar algunas de sus propiedades. Dichas relaciones nos son sugeridas por la teor´ıa econ´omica. La que utilizamos de ejemplo es subyacente a las ideas Keynesianas. Retom´emosla durante un momento: b´asicamente lo que sabemos acorde a dicha teor´ıa es que el consumo es una funci´on del ingreso, es decir: C = f (y) Por desgracia, a partir de este punto, las cosas se vuelven m´as complicadas. Resulta obvio que existen otras variables que tambi´en explican el comportamiento del consumo; entre ellas destacan los activos financieros, las preferencias del consumidor... En general, todo el mundo coincide al decir que la m´as importante de todas ellas es el ingreso (disponible), o en todo caso admite que algunas de las otras son 37
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
38
muy dif´ıciles de obtener (como las referidas a las preferencias). En u´ ltima instancia, resulta muy conveniente (y altamente recomendable) fundamentar el estudio en teor´ıa econ´omica que nos proporcione pistas respecto a las relaciones entre variables as´ı como al sentido de causalidad. Consideremos brevemente las variables que nos interesan. No s´olo existe una teor´ıa que nos se˜nala la relaci´on entre ellas; emp´ıricamente dicha relaci´on se antoja obvia, cuando menos estad´ısticamente.
8
6
4
2 1910
PIB real (EEUU) M2 (EEUU) 1920
1930
1940
1950
1960
1970
1980
M2 (EEUU)
8
6
4
2 4.5
5
5.5
6 PIB real (EEUU)
6.5
7
7.5
Figura 2.1: Series de tiempo del PIB real y del Agregado Monetario M2 de E.E.U.U. y Diagrama de Dispersi´on. Fuente: Base de datos hist´orica de Nelson y Plosser (1982). Pero bueno, aqu´ı nos estamos adelantando un poco. Hace un siglo le hubi´eramos hecho diferente. Propuesto a finales del siglo antepasado, el coeficiente de correlaci´on ha probado ser un instrumento simple, pero a la vez poderoso. El coeficiente de correlaci´on es una cantidad que permite medir el grado de asociaci´on entre 2 variables aleatorias. Definici´on 1 El coeficiente de correlaci´on entre dos variables aleatoria es: ρx,y = donde:
cov (x, y) [V ar(x)]1/2 [V ar(y)]1/2
´ 2.1. PREAMBULO
39
Cov(x, y) = E [(x − µx )(y − µy )] V ar(x) = E [(x − µx )2 ] El coeficiente de correlaci´on queda acotado entre −1 y 1. −1 ≤ ρx,y ≤ 1 El coeficiente de correlaci´on es una medida de intensidad de relaci´on lineal entre dos variables. Tomemos como ejemplo la relaci´on entre A˜nos de Estudio y Salario. Uno esperar´ıa que, conforme m´as a˜nos de estudio tenga un individuo, m´as alto sea su salario. Digamos que contamos con esa base de datos. Con base en la f´ormula anterior podemos calcular la correlaci´on entre ambas variables. ¿Qu´e opinar´ıan si saliera un coeficiente de correlaci´on de 0.94?, ¿y si saliera 0.02?, peor a´un ¿-0.7? El coeficiente de correlaci´on es un instrumento eficaz para indagar r´apidamente la intensidad de las relaciones entre variables. Tiene, como todo instrumento, bondades y defectos. Entre los defectos m´as notorios est´a su circunscripci´on a la linealidad:
Variable y
Variable x
Figura 2.2: Relaci´on lineal entre las coordenadas de un c´ırculo: Nula El coeficiente de correlaci´on lineal ser´ıa incapaz de darnos la m´as m´ınima pista de la relaci´on entre las coordenadas x y y que obviamente es perfecta. Es importante tomar en cuenta esto cuando se utilice el coeficiente.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
40
¿Por qu´e el coeficiente de correlaci´on est´a acotado entre −1 y 1? En realidad es f´acil demostrarlo. Antes de continuar, haremos algunas aclaraciones. E(x) = µx , E(x − µx )2 = var(x) = σx2 , E(y) = µy y E(y − µy )2 = var(y) = σy2 . Definamos ahora:
z
def
=
=
(x − µx ) (y − µy ) p −p , V ar(x) V ar(y) (x − µx ) (y − µy ) − . σx σy
Resulta obvio que: z 2 ≥ 0, y por lo tanto, aplic´andole el operador esperanza a z 2 y desarrollando:1 E(z 2 ) ≥ 0,
"
# 2 2 (x − µ ) (y − µ ) 2 (x − µ ) (y − µ ) x y x y E(z 2 ) = E + − ≥ 0. σx2 σy2 σx σy
Todos los denominadores en la expresi´on anterior son, para efectos del operador esperanza, t´erminos constantes, por los que “salen” de dicho operador. Note adem´as que el tercer elemento corresponde a la definici´on del coeficiente de correlaci´on: Desarrollando, var(x)
var(y)
z }| { z }| { E(x − µx )2 E(y − µy )2 + − 2ρ σx2 σy2 1 + 1 − 2ρx,y −2ρx,y ρx,y
≥ 0, ≥ 0, ≥ −2, ≤ 1.
Ya tenemos un lado de la desigualdad; ahora s´olo falta obtener el otro l´ımite. Definamos, como anteriormente (aunque cambiando el signo): 1
Podr´a encontrar algunas explicaciones relativas al operador esperanza en el ap´endice B en la p´agina 499, aunque se recomienda, si las dudas persisten, consultar alg´un libro de probabilidad y estad´ıstica.
´ 2.2. EL CONCEPTO DE LA REGRESION
z≡ E(z 2 ) ≥ 0
41
(x − µx ) (y − µy ) + σx σy
# 2 2 (y − µ ) 2 (x − µ ) (y − µ ) (x − µ ) y x y x ≥0 + + E(z 2 ) = E σx2 σy2 σx σy "
1 + 1 + 2ρx,y ≥ 0 2ρx,y ≥ −2 ρx,y ≥ −1 Con esto queda demostrado que: −1 ≤ ρx,y ≤ 1
2.2.
El concepto de la regresi´on
En la relaci´on mencionada al principio de este cap´ıtulo, entre ingreso y gasto, ser´ıa f´acil imaginar que existen otras variables que explican los niveles salariales: localizaci´on geogr´afica (rural/urbana); antig¨uedad laboral; g´enero (lamentablemente); etc. . . Es posible que existan muchas variables capaces de explicar parcialmente el nivel salarial de los individuos. Si utilizamos el coeficiente de correlaci´on, para medir la relaci´on lineal entre este par de variables, nos quedar´ıamos muy “cortos”. Es ah´ı que la regresi´on entra en juego, puesto que permite controlar por muchos otros factores importantes (recuerde el ejercicio 1 de puntualidad, en la p´agina 26). No obstante lo anteior, de momento haremos el ejercicio con s´olo dos variables. Ello permite introducir conceptos con suma facilidad; posteriormente generalizaremos el m´etodo a K variables independientes.
2.2.1. El diagrama de dispersi´on Desarrollemos un ejemplo sencillo para ver relaciones entre variables: Esperanza de vida e Ingreso per c´apita (Datos de 2007).2 Veamos el caso de M´exico, Francia, Jap´on y Nigeria: 2
El ingreso per c´apita est´a medido en d´olares PPC (paridad poder de Compra).
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
42
Pa´ıs M´exico Francia Jap´on Nigeria
Ingreso per c´apita $12,500 $33,800 $33,800 $2,200
Esperanza de vida 75.63 80.59 82.02 47.44
Cuadro 2.1: Relaci´on Ingreso-Esperanza de vida. Fuente: CIA World Factbook: https://www.cia.gov/library/publications/the-world-factbook/index.html
Resulta aparente una relaci´on directa entre nivel de ingreso y esperanza de vida. Los dos pa´ıses m´as ricos, Francia y Jap´on, tienen un ingreso alto y una elevada esperanza de vida; el pa´ıs pobre, Nigeria, tambi´en coincide con la esperanza de vida m´as reducida. M´exico, en tanto pa´ıs de ingreso medio, ofrece una esperanza de vida muy superior a la de Nigeria, pero no tanto como la de las otras dos naciones. As´ı pues, todo indica que hay relaci´on. Note como no se ha mencionado la palabra “C AU ´ ”. Podr´ıamos representar este hallazgo SALIDAD ”, sino simplemente “R ELACI ON gr´aficamente:
Esperanza de Vida (años)
85
Japón
México
80 75
Francia
70 65 60 55 50
Nigeria
45 40 0
5,000
10,000
15,000
20,000
25,000
30,000
Nivel de ingreso (en dólares medidos en PPP)
Figura 2.3: Ingreso per c´apita y esperanza de vida en M´exico, Francia, Jap´on y Nigeria. Fuente: CIA world factbook. La relaci´on lineal, en todo caso, no es tan obvia. Podr´ıamos representar una funci´on creciente, pero no necesariamente lineal. De hecho, con tan pocos datos (cuatro ob-
´ 2.2. EL CONCEPTO DE LA REGRESION
43
Esperanza de Vida (medida en años)
servaciones), no es posible efectuar inferencia estad´ıstica alguna. La figura anterior ´ ”y algunos autores se refieren a ella se denomina “D IAGRAMA DE D ISPERSI ON como “N UBE DE PUNTOS ”. El anterior es quiz´a una visi´on m´as po´etica (y tambi´en m´as elocuente) de la figura. Para asimilar mejor el concepto, conviene repetir el diagrama, esta vez con muchos m´as pa´ıses.
85
80
75
70
65
60
10,000
20,000 30,000 Ingreso per cápita (medido en Dólares PPP)
40,000
50,000
Figura 2.4: Ingreso per c´apita y esperanza de vida en 220 pa´ıses (excepto algunos en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook. Note como la tendencia positiva en la relaci´on es ahora m´as obvia. Tambi´en resulta mucho m´as obvio que la l´ınea es incapaz de pasar por todos los puntos (dejar´ıa de ser una l´ınea, claro est´a). Esto resulta de que nuestro an´alisis es, muy probablemente incompleto y por lo tanto, no lo desarrollaremos m´as en esta secci´on; de momento, basta con asimilar la utilidad del diagrama de dispersi´on. La t´ecnica de M´ınimos Cuadrados Ordinarios (MCO) consiste en encontrar los par´ametros de la recta anaranjada de la figura. Lo primero es recordar la forma de la ecuaci´on que genera una recta as´ı; debe tener una “O RDENADA EN EL O RIGEN ”y una “P ENDIENTE ”: yt = α + βxt + ut El t´ermino ut corresponde al error; e´ ste es necesario dado que no podemos esperar poder explicar todo con nuestra recta. Parte quedar´a como Error, o residual. Ello
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
44
corresponde a la fracci´on no explicada del comportamiento de la variable explicada, yt . Por cierto, dicho comportamiento lo estamos tratando de explicar con la variable xt , a la que usualmente se denomina variable explicativa o independiente.
2.3.
M´ınimos Cuadrados Ordinarios: MCO
Estudiaremos la t´ecnica OLS o MCO, m´as com´unmente referida como regresi´on. Este u´ ltimo t´ermino se lo debemos en buena medida a Sir Francis Galton por su estudio “Regresi´on a la mediocridad”: las estaturas de los hijos de padres muy altos o muy bajos tienden a ser menos extremas. Definici´on 2 MCO: es la t´ecnica que permite encontrar la l´ınea que mejor se ajusta a los datos; minimiza la suma de las desviaciones al cuadrado entre cada observaci´on y dicha l´ınea. En otras palabras, la suma de las distancias entre los puntos del diagrama de dispersi´on a la l´ınea de regresi´on—al cuadrado—es la menor posible (ver figura). Donde, al n´umero de observaciones con que contamos, lo denominaremos, T (tama˜no de muestra). Para poder referirnos a una observaci´on en particular, agregamos un sub´ındice a las variables. As´ı, por ejemplo, la t-´esima observaci´on de la variable x es xt , donde t = 1, 2, 3, . . . , T Es posible sugerir distintas estrategias para minimizar esas desviaciones. P 1. De entrada podr´ıamos pensar en Tt=1 desvt , pero.... P 2. Podr´ıamos probar tambi´en minimizar Tt=1 | desvt | No obstante el valor absoluto complicar´ıa despu´es los c´alculos. P ´ 3. ¿Qu´e tal minimizar desvt2 ? Esta parece ser la m´as adecuada.
´ Debemos primero tener clara la naturaleza de la funci´on a estimar. Esta debe ser ´ DE R E lineal en los par´ametros. A la siguiente expresi´on le llamaremos F UNCI ON ´ GRESI ON P OBLACIONAL I NOBSERVABLE . yt = α + βxt + ut ,
donde: yt : Variable explicada o dependiente o inclusive regresando,
´ 2.3. MINIMOS CUADRADOS ORDINARIOS: MCO
45
Diagrama de Dispersión 20 y10t 0 −10 −20 −30
−20
−10
0
10xt
20
Figura 2.5: Diagrama de Dispersi´on o bien “Nube de Puntos”. α: Constante u ordenada en el origen, β: Pendiente, xt : Variable explicativa, ex´ogena, predeterminada o aun regresor, ut : T´ermino de Error. Dada su condici´on de inobservable, tendremos que conformarnos con algo que se le parezca lo m´as posible: ˆ t + uˆt yt = α ˆ + βx
(2.1)
donde la notaci´on “ˆ” significa E STIMADO y a uˆt se le denomina R ESIDUAL. As´ı pues, ¿qu´e nos dice esta funci´on sobre la variable que queremos explicar? Emˆ t nos sit´ua en la l´ınea, pero le falta pecemos por una explicaci´on geom´etrica; α ˆ + βx recorrer una cierta distancia para alcanzar a la observaci´on, uˆt .
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
46 Definamos
ˆ t yˆt = α ˆ + βx
Retomando la ecuaci´on (2.1): yt = yˆt + uˆt uˆt = yt − yˆt ˆ t uˆt = yt − α ˆ − βx Al cuadrado...
2 ˆ t uˆ2t = yt − α ˆ − βx
Sumando...
2 X ˆ = yt − α ˆ − βxt P 2 uˆt Y ahora s´ı, optimizando arg m´ınα, ˆ βˆ P X ∂ uˆ2t ˆ t , = −2 yt − α ˆ − βx ∂α ˆ P X ∂ uˆ2t ˆ t xt . = −2 yt − α ˆ − βx ∂ βˆ X
uˆ2t
Igualamos a cero para obtener el m´ınimo—o m´aximo: X ˆ t = 0 yt − α ˆ − βx 1. − X ˆ 2. − yt − α ˆ − βxt xt = 0
Desarrollamos: 1.
X ˆ yt − α ˆ − βxt = 0 X X X yt − α ˆ − βˆ xt = 0 X X yt − α ˆ T − βˆ xt = 0
(2.2)
´ 2.3. MINIMOS CUADRADOS ORDINARIOS: MCO 2. ˆ xt yt − α ˆ − βxt = 0 X X X xt yt − α ˆ xt − βˆ x2t = 0 X
A las ecuaciones resultantes de este desarrollo se les denomina: E CUACIONES N ORMALES X
X yt − α ˆ T − βˆ xt = 0 X X X xt yt − α ˆ xt − βˆ x2t = 0
Despejamos α ˆ de la primera...
P P P P yt − βˆ xt βˆ xt − yt = α ˆ= −T T ...y reemplazamos en la segunda P P ˆ yt − β xt X X X xt yt − xt − βˆ x2t = 0 T ˆ Despejamos β: X
xt yt −
P
P yt xt βˆ X 2 ˆ X 2 + xt − β xt = 0 T T
Reacomodamos los t´erminos,
# " P 2 X X 1X X ( xt ) = − x2t yt xt − xt yt βˆ T T P P P 1 yt xt − xt yt T ˆ β = P P 1 ( xt )2 − x2t T P P P yt xt xt yt − T1 ˆ β = P 2 1 P 2 xt − T ( xt )
47
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
48
Ahora obtengamos α ˆ: P P yt βˆ xt α ˆ = − T T ˆ = y¯ − β x¯ ˆ Sustituyendo el valor de β: α ˆ = y¯ −
P P xt yt − T1 yt xt P 2 1 P 2 x¯ xt − T ( xt )
P
ˆ Al dividir arriba y abajo por 1 , obtenemos: Retomemos un poco la expresi´on de β. T P P P 1 x y − yt xt t t P 2 T1 P 2 βˆ = 1 xt − T ( xt ) T cov(x, ˆ y) = var(x) ˆ 1 T
Pero, ¿qu´e hemos obtenido? ¿un m´ınimo o un m´aximo? Retomemos las derivadas... P
X uˆ2t ˆ = −2 yt − α ˆ − βxt ∂α ˆ P X ∂ uˆ2t ˆ t xt = −2 yt − α ˆ − βx ∂ βˆ
∂
Construyamos la Hessiana, que es la matriz de Segundas Derivadas: " ∂ 2 P uˆ2 ∂ 2 P uˆ2 # P t t 2T 2 ˆ ∂ α∂ ˆ α ˆ ∂ α∂ ˆ β P 2 P 2 P x2t = P ∂2 u ˆt ∂2 u ˆt 2 xt 2 xt ˆ ˆ ˆ ∂ β∂ α ˆ
∂ β∂ β
Y veamos los determinantes de los menores: 1. Primero: 2 · T 2. Segundo: 2·T ·2
X
x2t − 4
X
xt
2
X 2 X = 4T x2t − 4 xt X X 2 2 = 4 T xt − xt
2.4. PROPIEDADES DE LOS ESTIMADORES
49
Si el determinante de ambos menores son positivos tendr´ıamos en nuestras manos una M ATRIZ DEFINIDA - POSITIVA, lo que equivale a tener la certeza de que obtuvimos un m´ınimo. P P Pero. . . ¿es acaso 4 T x2t − ( xt )2 positivo? Podr´ıamos manipular la f´ormula de la varianza muestral para demostrarlo:3 0 ≤ var(x ˆ t) ≤ T var(x ˆ t) X ≤ (xt − x¯)2 X ≤ (x2t + x¯2 − 2xt x¯ X 1 X 2 ≤ (x2t − xt T X 2 X xt ≤ T (x2t − X X 2 2 0 ≤ 4 T (xt − xt La expresi´on obtenida no es otra cosa sino 4 · V ar (xt ) · T 2 , es decir la f´ormula de la varianza, que es positiva por definici´on. As´ı pues podemos concluir que la MATRIZ H ESSIANA O D ISCRIMINANTE es definida-positiva y, por ende, al optimizar lo que obtenemos es un m´ınimo.
2.4.
Propiedades de los estimadores
2.4.1. Los supuestos del m´etodo Por medio de M´ınimos Cuadrados Ordinarios hemos ajustado una l´ınea que pasa cerca de las observaciones. Conviene ahora empezar a conocer las propiedades de dicha l´ınea, es decir de los par´ametros estimados y del residual resultante. Para ello, enunciaremos anticipadamente los supuestos que garantizan—si se cumplen—que nuestro ejercicio de estimaci´on sea exitoso.4 3
Haremos caso omiso de los grados de libertad que se pierden al estimar la varianza. Es importante mencionar que la regresi´on es como una esperanza condicional: E (yt /xt ) = α + βxt , al condicionar en x, i.e. al decir dado x asumimos, de una forma u otra, que conocemos dicha variable. Si no fuera el caso, sacar´ıamos la media, es decir, una esperanza incondicional. 4
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
50
L OS S UPUESTOS DE MCOa ´ La relaci´on entre las variables x y 1. C ORRECTA E SPECIFICACI ON y es lineal y est´a dada por: yt = α + βxt + ut 2. O RTOGONALIDAD Usaremos dos versiones de este supuesto: a) Las x′ s son variables no estoc´asticas cuyos valores son fijos (no tienen propiedades probabil´ısticas). b) la Covarianza entre x y el t´ermino de error es cero: Cov(xt , ut ) = 0 o bien xt ⊥ut ; de ah´ı el nombre del supuesto. 3. El error, u, tiene una esperanza igual a cero E(u) = 0. 4. H OMOSCEDASTICIDAD La varianza del t´ermino de error es la misma para todas las observaciones: E(u2 ) = σ 2 ´ ( INDEPENDENCIA ) El t´ermino de error 5. N O AUTOCORRELACI ON es una variable aleatoria iid: E (ui uj ) = 0 ∀ i 6= j 6. El t´ermino de error se distribuye como una variable normal: ut ∼ N (0, σ 2 ) 7. E STACIONARIEDAD ( D E´ BIL ) Las variables no tienen un componente de tendencia estoc´astico ni determin´ıstico: E (yt ) = µ para todo t E (yt − µ) (yt−j − µ) = γj para todo t y cualquier j a
Resulta de suma importancia conocerlos. Para efectos pr´acticos, recomendamos al lector que los memorice. Conforme avance el curso, la raz´on de tales supuestos se volver´a evidente y tal memorizaci´on ya no ser´a necesaria.
2.4. PROPIEDADES DE LOS ESTIMADORES
51
El supuesto m´as importante es probablemente el primero, el de Correcta Especificaci´on. Resulta obvio que si suponemos un Proceso Generador de Datos, DGP , incorrecto para la variable y, el resto de nuestro esfuerzo ser´a perfectamente in´util y la estimaci´on quedar´a viciada por construcci´on. Por desgracia, la relevancia de este supuesto s´olo queda igualada con la dificultad intr´ınseca de validarlo.5 En lo que concierne al segundo supuesto, el de Ortogonalidad, usaremos la primera versi´on (variable xt no estoc´astica) salvo que se indique lo contrario. e´ sto se impone, de momento, con fines did´acticos; muchas demostraciones quedan en extremo simplificadas al asumir que la o las variables explicativas no pertenecen a la esfera probabil´ıstica. Levantar este supuesto y reemplazarlo por la segunda versi´on, que es m´as laxa no es particularmente complicado; de hecho, tal acci´on se lleva a cabo en etapas ulteriores del curso (Econometr´ıa para segundones). El supuesto de ortogonalidad es, al igual que el primero, en extremo importante. La satisfacci´on del mismo [en su versi´on Cov(xt ut )] puede quedar en entredicho en una cantidad considerable de circunstancias, mismas que abordaremos, claro est´a; de hecho, su importancia es tal que dedicaremos gran parte de este manual a su estudio. De momento, asumiremos que s´ı se cumple y eso en su versi´on m´as sencilla [la variable x no es estoc´astica]. Los supuestos 4 y 5 resultan de gran trascendencia tambi´en, aunque menor que la de los dos primeros. El rompimiento de e´ stos (denominado heteroscedasticidad y autocorrelaci´on, respectivamente) degrada considerablemente la calidad de la estimaci´on.
Conviene tener claro algunos aspectos del tercer supuesto. Asumir que el t´ermino de error tiene esperanza cero cobra mucho sentido si recordamos que, en dicha variable, “echamos” todo aquello que no incorporamos a la especificaci´on. Lo hacemos porque creemos que los elementos no considerados tienen una importancia marginal y no alteran la medici´on del fen´omeno que realmente nos importa. La equivalencia con el dise˜no de un experimento estad´ıstico quiz´a aclare las cosas. En este u´ ltimo, incorporar el componente aleatorio a la selecci´on de muestra permite anular los efectos sobre la variable de inter´es de otras variables que no nos importan. Dicho azar permite que todo aquello que queremos excluir se “cancele por s´ı solo”. Lo P −1 que ocurre con su contrapartida emp´ırica, T uˆt , resulta obvio, si recordamos la primera ecuaci´ o n normal igualada a cero. En otras palabras, por construcci´on, P −1 T uˆt = 0. 5
Una de las funciones m´as importantes del econometrista—Am´erica Latina—u Econometra— Espa˜na—es justamente la de lograr una correcta especificaci´on de la ecuaci´on a estimar
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
52
Independencia y homoscedasticidad
20 10
10
0
0
−10
−10
−20
−20
−10
0
Autocorrelación
20
−20
10
−20
−10
0
10
Heteroscedasticidad
20 10 0 −10 −20
−20
−10
0
10
Figura 2.6: (a) Supuestos de homoscesdasticidad y no-autocorrelaci´on; (b) Autocorrelaci´on; (c) Heteroscedasticidad Existen otros resultados interesantes que vale la pena destacar. Desarrollando la especificaci´on estimada, obtenemos:
X
yt = α ˆ + βˆ · xt + uˆt X X yt = α ˆ · T + βˆ · xt + uˆt
Si dividimos de ambos lados por T :
T −1
X
y¯ = α ˆ + βˆ · x¯ + T −1
uˆt = y¯ − α ˆ − βˆ · x¯
X
uˆt (2.3)
´ N ORMAL ¿Qu´e nos recuerda eso? Pues simple y sencillamente a la 1a E CUACI ON dividida por T , que igualamos a cero: y¯ − α ˆ − βˆx¯ = 0
2.4. PROPIEDADES DE LOS ESTIMADORES
53
Como ya dijimos, el m´etodo MCO hace que, por construcci´on, la media de los residuales sea cero inequ´ıvocamente. P OR ELLO , SEA CUAL SEA NUESTRA ESTIMA ´ , TENGA LOS PROBLEMAS QUE TENGA , LA MEDIA DE LOS RESIDUALES CI ON ´ CERO. No obstante, la expresi´on anterior ESTIMADOS SIEMPRE , SIEMPRE SER A hace evidente que las medias de las variables pasan exactamente por la recta de regresi´on. Resta comentar los supuestos 6 y 7. El primero, el de normalidad nos sirve para introducir la probabilidad en el modelo de regresi´on. Con ello, es posible atribuir propiedades probabil´ısticas a nuestros estimadores y, en u´ ltima instancia, llevar a cabo inferencia estad´ıstica. Su ausencia hace del m´etodo de MCO un simple ejercicio geom´etrico.6 Supongamos que ut ∼ iidN (0, σu2 ); las implicaciones de ello pueden esgrimirse gr´aficamente:
yt
0 0 0 50
50
50 100 0 0.20.4
100 0 0.20.4
100 0 0.20.4
xt
Figura 2.7: Diagrama de Dispersi´on. Visualizaci´on de la normalidad en la distribuci´on de los errores. H OMOSCEDASTICIDAD: V ar(ut ) = E [ut − E(ut )]2 = E(u2t ) = σu2 6
Ver el papel que jug´o la Comisi´on Cowles en el desarrollo de la Econometr´ıa
54
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION ´ : Suponga τ 6= t N O AUTOCORRELACI ON Cov (ut , uτ ) = E [ut − E(ut )] [uτ − E(uτ )] = E (ut ) (uτ ) = 0
Ya para terminar, haremos algunas anotaciones sobre el supuesto No. 7, la estacio´ nariedad. T ODOS LOS M ETODOS QUE VEREMOS EN ESTE CURSO Y EN EL QUE SIGUE PIERDEN SU VALIDEZ SI LAS SERIES CON LAS QUE TRABAJAMOS PO SEEN UN ELEMENTO TENDENCIAL . E XISTEN PRUEBAS PARA DETERMINAR ´ LO ANTERIOR , PERO EL BAGAJE TE ORICO NECESARIO PARA ENTENDERLAS ´ ´ VISTO EN LA SEGUNDA PARTE DEL CURSO . S OLO SER A
2.4.2. Caracter´ısticas Importantes del m´etodo MCO Las caracter´ısticas de M´ınimos Cuadrados Ordinarios que a continuaci´on detallaremos resultan importantes pues servir´an para apuntalar demostraciones ulteriores. Sirven adem´as para acabar el proceso de familiarizaci´on con MCO. En particular, estudiaremos lo siguiente: 1. La estimaci´on de los par´ametros s´olo depende de valores muestrales (ya visto). 2. Los estimadores α ˆ y βˆ son puntuales (ya visto). 3. Las medias muestrales de los datos pasan por la recta de estimaci´on (ya visto). 4. La media de los residuales es cero (ya visto). 5. La correlaci´on entre residuales, uˆt y observaciones, xt , es cero: ρuˆ,x
P (ˆ ut − u¯ˆ)(xt − x¯) p = p var( ˆ uˆt ) var(x) ˆ
Nos concentramos en el numerador y tomaremos en consideraci´on el hecho que: 1X u¯ˆ = uˆt = 0 T
2.4. PROPIEDADES DE LOS ESTIMADORES
55
Desarrollando la expresi´on: X X X uˆ (xt − x¯) = uˆt xt − x¯ uˆt | {z } cero X = uˆt xt X ˆ t xt = yt − α ˆ − βx X X X = yt xt − α ˆ xt − βˆ x2t
La u´ ltima l´ınea del desarrollo deber´ıa resultarnos familiar; en efecto, se trata de la 2a ecuaci´on normal. Como bien sabemos, dicha expresi´on est´a igualada a cero: X
yt xt − α ˆ
As´ı pues, por construcci´on,
X
xt − βˆ
X
x2t = 0
0 ρuˆ,x = p =0 var(ˆ u)var(x)
6. La correlaci´on entre los residuales (ˆ u) y los valores estimados (yˆt ) es cero. Para mostrar lo anterior, partamos de la f´ormula: P uˆ yˆt − y¯ˆ ρuˆ,ˆy = p var ˆ (ˆ u) var ˆ (yˆt )
Nuevamente, nos ocuparemos solamente del numerador... X
uˆ yˆt − y¯ˆt
=
X
uˆyˆ − y¯ˆ
X
uˆ | {z } cero X ˆ t = uˆ α ˆ + βx X X uˆt xt = α ˆ uˆt +βˆ | {z } | {z } 0
= 0
0
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
56
Por lo anterior, podemos decir que: ρuˆ,ˆy = 0
2.4.3. Propiedades de los par´ametros estimados En esta secci´on veremos dos cuestiones fundamentales del m´etodo de MCO: su capacidad de ofrecer estimadores (1) insesgados y (2) robustos. Es importante recordar a lo largo de las demostraciones el uso sistem´atico de los supuestos antes expuestos puesto que debe quedar claro que al romperse e´ stos, en muchas ocasiones dicho insesgamiento y robustez quedan comprometidos. Antes de probar las afirmaciones anteriores, necesitamos llevar a cabo un peque˜no desarrollo que nos ser´a u´ til a lo largo de este texto. Se trata de probar que el par´ametro βˆ es resultado de una combinaci´on lineal de las observaciones muestrales: E L E STIMADOR βˆ ES UNA
´ L INEAL C OMBINACI ON
DE LAS
O BSERVACIONES M UESTRALES , “xt ”.
Podemos partir de la f´ormula antes desarrollada del estimador: P (xt − x¯)(yt − y¯) ˆ β= P (xt − x¯)2 Definimos...
(xt − x¯) Kt ≡ P (xt − x¯)2
...Y lo sustituimos en la f´ormula de βˆ βˆ =
X
Kt (yt − y¯)
Antes de continuar, veamos las propiedades de Kt 1. X
Kt = P = 0
X 1 (xt − x¯) (xt − x¯)2
2.4. PROPIEDADES DE LOS ESTIMADORES
57
2. X
Kt xt = = = =
P (xt − x¯) xt P (x − x¯)2 P 2t P xt − x¯ xt P 2 1 P 2 xt − ( xt ) P 2 T1 P 2 xt − ( xt ) P 2 T1 P 2 xt − T ( xt ) 1
3. X
Kt2
P
(xt − x¯)2 = P 2 (xt − x¯)2 X 1 (xt − x¯)2 = P 2 2 (xt − x¯) 1 = P (xt − x¯)2
Retomando el valor de βˆ y haciendo uso de las propiedades de Kt , obtenemos lo siguiente: βˆ = =
X
X
Kt (yt − y¯) X Kt yt − y¯ Kt | {z } 0
Si concebimos a Kt como un ponderador, entonces veremos que el estimador de β no es otra cosa sino una combinaci´on—ponderada, claro est´a—de la variable dependiente (y), como de hecho queda manifiesto en la primera l´ınea del siguiente
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
58 desarrollo:7 βˆ = =
X
X
K t yt
Kt (α + βxt + ut ) X X X Kt xt + K t ut = α Kt +β | {z } | {z } 0 1 X βˆ = β + K t ut Propiedad de No-Sesgo de los par´ametros estimados Aqu´ı veremos finalmente si nuestros estimadores son sesgados; si no lo son, ello ˆ = θ. Dado que α implica E(θ) ˆ y βˆ dependen de la variable aleatoria yt , ellos mismos son variables aleatorias: yt = α + βxt + ut |{z} | {z } determinista
aleatorio
ˆ recuperando la f´ormula de estimaEmpecemos por el estimador de la pendiente, β; ci´on de e´ ste.8 X βˆ = K t yt (2.4) X ˆ = E E(β) K t yt X = Kt E(yt ) X = Kt E(α + βxt + ut ) X X X = α Kt +β Kt xt + Kt E(ut ) | {z } | {z } | {z } 0
1
0
ˆ = β E(β)
Como se observa en la u´ ltima linea del desarrollo anterior, la esperanza del estimador de la pendiente es el verdadero valor de dicha pendiente. En otras palabras, 7
En lo que concierne a α, ˆ el hecho de ser tambi´en una combinaci´on de las ‘y’ quedar´a demostrado colateralmente al estudiar su varianza. 8 Intente ver en el pr´oximo desarrollo la relevancia del cumplimiento del supuesto de correcta especificaci´on. Note que, de forma impl´ıcita, tal cumplimiento resulta condici´on sine qua non para la validez de la prueba.
2.4. PROPIEDADES DE LOS ESTIMADORES
59
βˆM CO provee un estimador insesgado de β. Ahora veamos que pasa con el estimador de α:
α ˆ = y¯ − x¯
X
K t yt .
Reinsertamos la media de y en la sumatoria, P
X − x¯ K t yt , T X yt − x¯Kt yt . = T
α ˆ =
yt
Factorizamos,
α ˆ =
X1 T
− x¯Kt yt ,
(2.5)
Y ahora s´ı, sacamos esperanza... X1 − x¯Kt E(yt ) E(ˆ α) = T X1 = − x¯Kt E(α + βxt + ut ) T X1 = − x¯Kt (α + βxt ) T X X 1 X 1X α+ β xt − α¯ x Kt − x¯β xt Kt = T T E(ˆ α) = α + β x¯ − x¯β E(ˆ α) = α Propiedad de consistencia de los par´ametros estimados Ya vimos que los par´ametros son insesgados; esta propiedad es importante: incrementa nuestra confianza en la utilidad de nuestros estimadores. Ahora veamos que ˆ puestan robustos son. Lo haremos primero con el estimador de la pendiente, β, to que la consistencia del estimador de la ordenada en el origen, α ˆ , depende de la
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
60
consistencia del otro. Antes de continuar con el estudio de la consistencia, es importante hacer una aclaraci´on al respecto; e´ sta trata de las propiedades de los estimadores cuando el tama˜no de la muestra tiende a infinito, es decir, para fines pr´acticos, cuando la muestra es muy grande. ¿Por qu´e hacer esto? Pues simplemente porque existen situaciones en las que los estimadores son sesgados, pero consistentes: el estimador tiende a su verdadero valor si la muestra es suficientemente grande. Lo anterior ampl´ıa la paleta de posibilidades; veremos mucho m´as adelante que existen estimadores en extremo u´ tiles que, pese a ser sesgados, son tambi´en consistentes; su uso es por ende muy recomendable. Por eso, al momento de hacer estimaciones, si sabemos que s´olo contamos con consistencia, debemos asegurarnos que nuestra muestra sea grande.9 Definici´on 3 Sea θˆT un estimador de θ basado en una muestra de tama˜no T. θˆT es un estimador consistente si y s´olo si: l´ım P | θˆT − θ |< ε = 1 T →∞
Donde ε es un n´umero positivo arbitrariamente chico. Si la expresi´on es cierta, se dice que θˆT converge en probabilidad a la constante θ plim θˆT = θ p θˆT → θ
Ahora s´ı, retomemos: βˆ = β +
X
K t ut P (xt − x¯)ut = β+ P (xt − x¯)2
Para poder continuar esta demostraci´on, hemos de modificar uno de los supuestos de manera importante. Nuestro segundo supuesto, el que dicta que las variables explicativas no son estoc´asticas, ha resultado en extremo pr´actico en muchos de los desarrollos hasta aqu´ı expuestos. No obstante, en este apartado, resulta m´as sencillo 9
Desgraciadamente, la definici´on de una muestra grande no genera un consenso tan absoluto como quisi´eramos. Para efectos de este curso, consideremos que se requieren m´as de 300 observaciones.
2.4. PROPIEDADES DE LOS ESTIMADORES
61
asumir que las variables explicativas s´ı son estoc´asticas. Ello permite emplear Leyes de Grandes N´umeros sobre e´ stas. Concretamente, utilizaremos los siguientes resultados:10
Teorema 1 (Kolmogorov) sea {xt } una secuencia de variables aleatorias i.i.d. que satisface las siguientes condiciones: 1. E | xt |< ∞ 2. E(xt ) = µx entonces, T 1X P xt → µ x T t=1
Nota: en realidad, la convergencia que dicta el teorema es “casi segura” (almost sure) y no en probabilidad. No obstante, puesto que la primera implica la segunda, nuestra disgresi´on no resulta tan grave.
Teorema 2 Si {xt } y {ut } son secuencias aleatorias i.i.d, entonces la secuencia {xt ut } tambi´en es i.i.d.. Asumiremos por ende que la variable explicativa, xt es una variable aleatoria i.i.d.. P P Asumiremos adem´as que T1 Tt=1 (xt − x¯)2 → σx2 , algo que permite tambi´en una sencilla Ley de Grandes N´umeros. Es posible, dicho sea de paso, usar un supuesto menos estricto en esta demostraci´on, pero no resulta fundamental a est´as alturas del partido. Cabe destacar que los restantes 6 supuestos antes establecidos se cumplen tal y como los planteamos. Antes de proceder a la demostraci´on en s´ı, vale se˜nalar algunas reglas pr´acticas de los l´ımites en probabilidad: 10
Una explicaci´on y demostraci´on detallada de estos teoremas puede consultarse en el libro “Asymptotic Theory for Econometricians”, de Halbert White. Vea la bibliograf´ıa.
62
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
L AS REGLAS DE LOS PLIM 1. El plim de una constante es esa misma constante: plim (Ω) = Ω 2. El plim de un producto (o cociente) de dos variables aleatorias es igual al producto de los plim. plim (y1 · y2 ) = plim (y1 ) plim (y2 ) plim (y1 ) y1 = plim y2 plim (y2 ) 3. Teorema de Slutsky: Teorema 3 El plim de una funci´on continua g de una variable aleatoria y es igual a la funci´on aplicada al plim de y. plim [g(y)] = g [plim(y)] Como se infiere de estas sencillas reglas, el plim es un operador m´as flexible que el operador esperanza. Ahora s´ı, veamos lo que ocurre con nuestro estimador de MCO: P (xt − x¯)ut ˆ plim(β) = plim(β) + plim P (xt − x¯)2 P plim ( (xt − x¯)ut ) P = β+ plim ( (xt − x¯)2 ) P plim T1 (xt − x¯)ut P = β+ plim T1 (xt − x¯)2 El incorporar T1 permite asegurar la convergencia de ambos, el numerador y el denominador. Para tener las f´ormulas exactas, dicha normalizaci´on deber´ıa ser (T − 1), pero, dado que T −→ ∞, ese detalle carece de importancia. Ahora bien, podemos empezar a utilizar los teoremas antes expuestos:
2.4. PROPIEDADES DE LOS ESTIMADORES
ˆ = β+ plim(β)
plim
= β
P
(xt − x¯)ut σx2
1
3
{ X z }|X }|X { 1 1 1 xt ut − plim xt plim ut plim T T T {z } |
z = β+
1 T
63
2
σx2
donde, P 1. xt ut es i.i.d. por el segundo teorema y, por ende, puede aplic´arsele el primero. P 2. xt es i.i.d., por ende, puede aplic´arsele el primer teorema; queda µx . P 3. ut es i.i.d., por ende, puede aplic´arsele el primer teorema; queda 0.
Probar la consistencia del estimador de la ordenada en el origen es, en realidad, muy sencillo. Para demostrarla, nos aprovecharemos del hecho que las medias muestrales pasan por la recta de regresi´on estimada. α ˆ = y¯ − βˆx¯
(2.6)
Lo anterior no es completamente cierto cuando la especificaci´on es la verdadera, puesto que la media de los errores no necesariamente es cero:
y¯ = α + β x¯ + u¯ No, obstante, en el l´ımite, s´ı ocurre:
plim(¯ y ) = α + βplim(¯ x) + plim(¯ u) = α + βµx
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
64
Para lograr semejante simplificaci´on, basta recordar el Teorema (1) expuesto en la p´agina 61. Por un lado, seguimos asumiendo que la variable explicativa satisface los supuestos del teorema por lo que la media tiende a µx , y, por el otro, el t´ermino de error, de hecho, tambi´en los satisface, por lo que la media tiende a cero. Sabiendo eso, retomemos la ecuaci´on (2.6) y apliquemos l´ımites en probabilidad. Recuerde que el plim de βˆ es β: plim(ˆ α) = = = =
y¯ − βˆx¯ plim(¯ y ) − βµx α + βµx − βµx α
Varianza de los estimadores Hemos visto ya que los par´ametros estimados son insesgados y consistentes. Faltar´ıa ver ahora como es la varianza de e´ stos. Ello permitir´a caracterizar mejor dichos estimadores. De hecho, todas estas demostraciones pueden considerarse el pre´ambulo al teorema de Gauss-Markov, que tipifica de manera elocuente a nuestros estimadores de MCO. ˆ Anteriormente, Varianza de βˆ Empezaremos mostrando cual es la varianza de β. cuando estudiamos el no-sesgo de dicho par´ametro, llegamos a la siguiente ecuaci´on: βˆ = = = βˆ = βˆ = βˆ = βˆ =
X
Kt (yt − y¯) X K t yt − Kt y¯ X X Kt yt − y¯ Kt | {z } 0 X K t yt X Kt (α + βxt + ut ) X X X α Kt + β xt Kt + K t ut X β+ K t ut X
2.4. PROPIEDADES DE LOS ESTIMADORES
65
2 ˆ E βˆ − β , podemos manipular la expresi´on de Para calcular la varianza de β, arriba y escribirla de la siguiente manera: X βˆ − β = K t ut 2 X 2 ˆ β−β = K t ut
(2.7)
= (K1 u1 + K2 u2 + ... + KT uT )2 = K12 u21 + K22 u22 + ... + KT2 u2T + 2K1 K2 u1 u2
Los t´erminos cruzados, ui · uj para i 6= j desaparecer´an al momento de aplicarles la esperanza.11 2 ˆ E β−β = K12 E(u21 ) + K22 E(u22 ) + K32 E(u23 ) + ... + KT2 E(u2T ) Aprovechando el supuesto de homoscedasticidad, podemos reemplazar las esperanzas por σ 2 y luego factorizar:
ˆ = K 2 σ 2 + K 2 σ 2 + K 2 σ 2 + ... + K 2 σ 2 V ar(β) 1 2 3 T X 2 2 = σ Kt 2 ˆ = P σ V ar(β) (xt − x¯)2
Para entender el u´ ltimo paso, es necesario recordar que ya tenemos la primera varianza:
P
Kt2 =
σ2 V ar βˆ = P (xt − x¯)2
P
1 . As´ı pues, (xt −¯ x)2
Comentario 1 Hay una forma a´un m´as f´acil de obtener la f´ormula de la varianza ˆ 12 La prueba, adem´as, nos permite usar el operador varianza, mismo que rara de β. vez aprovechamos: 11 12
Ello ocurre debido al cumplimiento del supuesto de No autocorrelaci´on. Cortes´ıa de Pablo Ort´ız Casillas.
66
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
βˆ = β +
X
K t ut X
ˆ = 0 + var var(β) K t ut X = Kt2 var(ut ) X = σ2 Kt2 = P
σ2 (xt − x¯)2
Varianza de α ˆ El c´alculo de la varianza P de α ˆ es un poco m´as complicado. En secciones anteriores hab´ıamos visto que α ˆ = ( T1 − x¯Kt )yt . A partir de esta expresi´on aplic´abamos el operador esperanza, pero ahora no. En vez de eso, sustituimos el valor de yt : X1
− x¯Kt (α + βxt + ut ) T X1 1 1 α + βxt + ut − α¯ xKt − β x¯Kt xt − x¯Kt ut α ˆ = T T T X X X 1X α ˆ = α + β x¯t + ut − α¯ x Kt −β x¯ Kt xt −¯ x K t ut T | {z } | {z }
α ˆ =
0
X 1X x K t ut ut + β x¯ − β x¯ −¯ α ˆ−α = | {z } T
1
0
El t´ermino β x¯ se cancela; a los restantes, los reagrupamos en una sola sumatoria, no sin antes factorizar T1 ... 1 T 1 α ˆ−α = T 1 α ˆ−α = T 1 α ˆ−α = T α ˆ−α =
X
ut − x¯
X
K t ut X X 1X ut − K t ut xt T X X 1− x t K t ut X R t ut
(2.8)
2.4. PROPIEDADES DE LOS ESTIMADORES Donde Rt = 1 − ( (ˆ α − α)
2
P
67
xt ) Kt .13 Elevando al cuadrado ambos lados y desarrollando:
1 = T2 1 = T2 1 = T2
X
R t ut
2
(R1 u1 + R2 u2 + R3 u3 + ... + RT uT )2 R12 u21 + .... + RT2 u2T + 2R1 R2 u1 u2 + ...
Nuevamente, los t´erminos cruzados desaparecer´an al aplicar el operador esperanza: E (ˆ α − α)2 = = = = = =
1 2 2 2 2 E R u + .... + R u + 2R R u u + ... 1 2 1 2 1 1 T T T2 1 2 2 2 2 R σ + ..... + R σ 1 T T2 X 1 Rt2 σ 2 T2 σ2 X 2 Rt T2 X 2 σ2 X 1− xt Kt T2 X X 2 σ2 X 2 xt Kt + 1−2 xt Kt T2
σ2 = T2
X X X 2 X 2 xt Kt + xt Kt T − 2 | {z } | {z } 0
!
13
P ( xt ) 2 σ2 T+P V ar(ˆ α) = T2 (xt − x¯)2 P P ( xt ) ( xt ) 1 2 P + = σ T T · T · (xt − x¯)2 x¯2 2 1 V ar(ˆ α) = σ +P T (xt − x¯)2
P 1 (xt −¯ x) 2
Note que la u´ ltima expresi´on establece que el estimador de α es tambi´en, al igual que el de β, una combinaci´on lineal de las ‘y’.
68
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
´ Covarianza entre α ˆ y βˆ Unicamente nos falta obtener la covarianza entre estiˆ ´ madores, Cov(ˆ α, β). Esta, en realidad, exige un proceder muy sencillo. Basta tener presentes, de los desarrollos anteriores, las siguientes expresiones: 1. Ecuaci´on (2.7):
X βˆ − β = K t ut
2. Ecuaci´on (2.8):
X 1X ut − x¯ K t ut T = u¯ − x¯ βˆ − β
α ˆ−α =
Asimismo, conviene hacer estos dos sencillos c´alculos: 1. Esperanza de la media del t´ermino de error: 1X E (ut ) T = 0
E (¯ u) =
2. Esperanza de la media del error multiplicada por (βˆ − β): h i E u¯ βˆ − β =
i 1 hX X E ut K t ut T 1 = E K1 u21 + . . . KT u2T + t´ erminos cruzados T = 0
Ahora s´ı, desarrollamos la f´ormula de la covarianza... h i ˆ ˆ Cov(ˆ α, β) = E (ˆ α − α)(β − β) h i = E u¯ − x¯(βˆ − β) (βˆ − β) h i = E (βˆ − β)¯ u −¯ x E(βˆ − β)2 | {z } | {z } var (βˆ) 0 2 ˆ = − P x¯σ Cov(ˆ α, β) (xt − x¯)2
2.4. PROPIEDADES DE LOS ESTIMADORES
69
2.4.4. El Teorema de Gauss-Markov En las secciones anteriores hemos obtenido resultados importantes y de hecho, tras´ cendentales referentes a los estimadores de MCO. Estos pueden resumirse en la siguiente tabla: E(ˆ α) = α ˆ =β E(β)
plim(ˆ α) = α ˆ =β plim(β)
¯2 V ar(ˆ α) = σ 2 T1 + P(xxt −¯x)2 ˆ = P σ2 2 V ar(β)
Insesgados
Robustos
V arianzas
(xt −¯ x)
Vimos tambi´en que los estimadores de MCO son combinaciones lineales de la variable aleatoria y (y por tanto tambi´en son combinaciones lineales de la variable aleatoria u): 1. Ecuaci´on 2.5: α ˆ= 2. Ecuaci´on 2.4: βˆ =
P
P
1 T
− x¯Kt yt ,
K t yt .
Los estimadores son insesgados y por ello pertenecen a la CLASE DE ESTIMADO RES LINEALES INSESGADOS . Su gran importancia te´ orica y pr´actica se debe a que ˆ las varianzas muestrales de α ˆ y β son las m´as peque˜nas posibles en el mercado de los estimadores lineales insesgados. Esta fort´ısima aseveraci´on est´a sustentada en el teorema de Gauss-Markov: Teorema 4 Dados los Supuestos del Modelo Cl´asico de Regresi´on Lineal, los estimadores de M´ınimos Cuadrados Ordinarios, dentro de la Clase de Estimadores Lineales Insesgados, tienen Varianza M´ınima, es decir son MELI (Mejores Estimadores Lineales Insesgados). La demostraci´on de dicho teorema es, de hecho, bastante sencilla. Asuma, como siempre, la especificaci´on: yt = α + βxt + ut Para poder proseguir, es necesario definir con claridad qu´e es un estimador lineal e insesgado:
70
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Definici´on 4 Un estimador L INEAL e I NSESGADO14 debe satisfacer las siguientes condiciones: β˜ =
X
q t yt ,
˜ = β, E(β) P P donde15 qt = 0, qt xt = 1. β˜ =
= = = β˜ = ˜ = V ar(β)
X
X
q t yt
qt (α + βxt + ut ) X X qt α + β qt xt + q t ut X X α qt +β + q t ut | {z } =0 X β+ q t ut X 2 X qt2 E = σ2 q t ut
X
Ahora que ya conocemos las caracter´ısticas de un estimador lineal e insesgado gen´erico—que no es el de MCO—Comparemos su varianza con la que nos ofrece MCO. Para ello, incorporamos artificialmente el ponderador de MCO, Kt en la u´ ltima expresi´on: qt = Kt + (qt − Kt ) q 2 = Kt2 + (qt − Kt )2 + 2Kt (qt − Kt ) X t X X X qt2 = Kt2 + (qt − Kt )2 + 2 Kt (qt − Kt ) P P P 2 Tenemos un t´ermino, Kt (qt − Kt ) = Kt qt − Kt , cuyo valor a´un no hemos especificado. En realidad, dicho t´ermino es cero. ¿Por qu´e? Primero, recordemos lo que sabemos tanto de Kt como de qt : 14
Otro que no sea el de MCO. Conviene destacar que las condiciones para calificar como lineal a un estimador tienen que ver con un “ponderador” an´alogo al que encontramos para MCO, Kt . Las u´ ltimas dos condiciones, la suma del ponderador y la suma del ponderador multiplicado por la variable explicativa, resultan evidentes si reemplaza yt por la verdadera especificaci´on. S´olo as´ı puede el estimador ser insesgado. En otras palabras, son condiciones necesarias, ligeramente redundantes con la segunda condici´on. 15
2.4. PROPIEDADES DE LOS ESTIMADORES 1. 2. 3. 4. 5.
P
P
P
P
P
71
qt = 0 qt xt = 1 Kt = 0 Kt xt = 1 Kt2 =
P
1 (xt −¯ x )2
Ahora s´ı, procedamos a desarrollar la expresi´on: P X X (xt − x¯) qt 1 2 Kt qt − Kt = P 2 − P (xt − x¯) (xt − x¯)2 Ahora asumamos que dicha expresi´on es en verdad cero. Reacomodando los t´erminos... P 1 (xt − x¯) P 2 qt = P (xt − x¯) (xt − x¯)2 X 1 1 X −¯ x qt = P x q P t t 2 (xt − x¯) | {z } (xt − x¯)2 | {z } 1
0
1 1 P 2 = P (xt − x¯) (xt − x¯)2
Retomando nuestra demostraci´on, acabemos de desarrollar la varianza del estimador alternativo: X ˜ = σ2 qt2 V ar(β) X X X 2 2 2 Kt + (qt − Kt ) + 2 Kt (qt − Kt ) = σ X X ˜ = V ar(β) ˆ + σ2 (qt − Kt )2 +2 V ar(β) Kt (qt − Ky ) | | {z } {z } >0
0
˜ > V ar(β) ˆ V ar(β)
Con esto, queda demostrado el teorema de Gauss Gauss-Markov.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
72
2.5.
Otros procedimientos de Estimaci´on
Existen otras formas de estimar par´ametros; en realidad, el m´etodo de MCO, si bien es el m´as exitoso, o cuando menos el m´as conocido entre economistas, dista mucho de ser el u´ nico. En esta secci´on daremos dos procedimientos alternativos. El primero, M´etodo de Momentos—MOM, es en s´ı muy sencillo, pero constituye el pre´ambulo a una de las t´ecnicas m´as socorridas en la actualidad, M´etodo de Momentos Generalizado—GMM. El segundo, m´axima verosimilitud, es tambi´en de suma importancia en cuestiones econom´etricas. La intenci´on de esta secci´on es sobre todo dejar claro que MCO no es el u´ nico m´etodo y que su competencia es capaz de arrojar buenos resultados tambi´en.
2.5.1. El m´etodo de momentos (MOM) En muchos ejercicios de estimaci´on, sin saberlo, nos interesamos en los momentos. De hecho, para estimaciones lineales, M´ınimos Cuadrados Ordinarios, el m´etodo que hemos estudiado, puede ser visto como un problema de ajuste de momentos muestrales a los momentos poblacionales: Definici´on 5 El M´etodo de Momentos consiste en reemplazar los momentos poblacionales (o las funciones de momentos poblacionales) con los momentos muestrales correspondientes (o con las funciones de momentos muestrales correspondientes). Esta definici´on se˜nala que hay que cotejar momentos muestrales con momentos poblacionales. La intuici´on es que cada “cotejada” corresponder´a a una ecuaci´on que podemos resolver. En nuestro modelo de regresi´on tenemos que estimar dos par´ametros. Ello equivale a tener dos inc´ognitas, por lo que presumiblemente requeriremos de dos momentos te´oricos a los cuales ajustar sus correspondencias muestrales. Los supuestos requeridos en este caso son: 1. El supuesto de Ortogonalidad:16 E(xt ut ) = 0. 2. E(ut ) = 0 Tales supuestos, si lo pensamos con detenimiento, no son otra cosa m´as que dos ´ momentos. Estos podr´ıan ser cotejados con sus contrapartes emp´ıricas: 16
Es importante se˜nalar que el supuesto de ortogonalidad aqu´ı mencionado es el que reemplaza al que hicimos respecto a las propiedades deterministas de la variable x. En resumen, dicho supuesto de ortogonalidad es una versi´on m´as ligera que el de variables explicativas no-estoc´asticas (muy irrealista). Vale la pena tambi´en mencionar que usaremos el supuesto de ortogonalidad y abandonaremos el otro m´as adelante en el curso. De momento lo usamos por cuestiones pedag´ogicas.
´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION Te´orico (poblaci´on) E(ut ) = 0 E(ut xt ) = 0
1 T
73
Supuesto P (muestral) 1 uˆt = 0 P T (xt − x¯)(ˆ ut − u¯ˆ) = 0
Retomando nuestra especificaci´on, que sigue siendo la misma. . . ´ C ORRECTA (P OBLACIONAL ): yt = α + βxt + ut 1. E SPECIFICACI ON ˆ t + uˆt ´ A E STIMAR (M UESTRAL ): yt = α 2. E SPECIFICACI ON ˆ + βx Ahora empleemos la versi´on muestral del primer momento se˜nalado en el cuadro. Partiendo de e´ ste y conociendo la especificaci´on: 1X uˆt |T {z }
=
0 |{z}
momento te´ orico
momento muestral
1 X ˆ yt − α ˆ − βxt = 0 T P xt 1X ˆ = 0 yt − α ˆ−β T T y¯ − α ˆ − βˆx¯ = 0
Es el turno del segundo momento muestral. Cabe se˜nalar que aprovecharemos lo establecido por el primer momento muestral para “desaparecer” a la media de los residuales estimados, ˆ¯u: t 1X (xt − x¯)ˆ ut = 0 T 1X x¯ X xt uˆt − uˆt = 0 T T | {z } 0
1X xt uˆt = 0 T 1X ˆ t = 0 xt yt − α ˆ − βx T 1X 2 1X xt yt − α ˆ x¯ − βˆ xt = 0 T T
74
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Aquellos con buena memoria habr´an identificado en estos dos desarrollos a las E CUACIONES N ORMALES: 1. y¯t − α ˆ − βˆx¯ = 0 P P 2 2. T1 xt yt − α ˆ x¯ − βˆ T1 xt = 0
De la primera ecuaci´on despejamos α ˆ. . . α ˆ = y¯ − βˆx¯ . . . que reemplazamos en la segunda. . . βˆ X 2 1X xt yt − y¯ − βˆx¯ x¯ − xt T T 1X βˆ X 2 xt yt − y¯x¯ + βˆx¯2 − xt T T 1X xt yt − y¯x¯ T P P P 1 1 x y − xt yt t t T P 2 T1 P 2 1 xt − T ( xt ) T
= 0 = 0 X 2 X 1 1 2 xt = βˆ xt − 2 T T
= βˆ
βˆ =
P
P P xt yt − T1 xt yt P 2 1 P 2 xt − T ( xt )
Como era de suponer, la f´ormula que obtuvimos es. . . ¡id´entica a la de MCO!
2.5.2. El M´etodo de M´axima Verosimilitud Ya logramos estimar el modelo (1) minimizando la suma de residuales al cuadrado; (2) igualando los momentos te´oricos a los muestrales. Ahora es el turno de presentar ´ el enfoque de M AXIMA V EROSIMILITUD. Esta u´ ltima es—contrario a lo que se podr´ıa pensar dada la extensi´on de su tratamiento en este documento— uno de los m´etodos m´as socorridos, tanto en estad´ıstica como en econometr´ıa. Su fundamento radica en el aprovechamiento de las propiedades probabil´ısticas asumidas en un modelo. En nuestro caso en particular, conviene utilizar el supuesto (6), que estipula un t´ermino de error distribuido normalmente:
´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
75
ut ∼ iidN (0, σ 2 ) Es importante tener en mente que la especificaci´on del modelo sigue siendo la misma: yt = α + βxt + ut As´ı pues, nos concentraremos en encontrar estimadores de los par´ametros tratando de satisfacer “al m´aximo” el supuesto (6). Si el ruido, uˆt , es realmente normal, entonces, la densidad probabil´ıstica de yt nos podr´a servir de punto de partida. Obtengamos sus momentos:
E(yt ) = α + βxt V ar(yt ) = E (yt − α − βxt )2 = E(u2t ) = σ2 Conviene resaltar el uso del supuesto de homoscedasticidad en el u´ ltimo paso del desarrollo anterior. Ahora bien, es f´acil constatar que al ser ut normal, yt tiene que serlo tambi´en, puesto que dicha variable es simple y sencillamente la suma de una variable normal y una constante. As´ı, nos podemos centrar ya en la funci´on de densidad de probabilidad conjunta: f (y1 , y2 , ....yT /α + βxt , σ 2 ) Para poder trabajar con esta u´ ltima, es necesario saber si existe independencia entre las y ′ s. Por ello, sacamos la covarianza. Asuma que k es un entero distinto de t:
Cov(yt , yk ) = E [(yt − α − βxt )(yk − α − βxk )] = E(ut uk ) = 0 Nuevamente conviene se˜nalar que el u´ ltimo paso se hizo recordando el supuesto de independencia del t´ermino de error (no autocorrelaci´on). Las y son independientes entre s´ı, por lo que la funci´on de densidad de probabilidad puede separarse:
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
76
f y1 , y2 , ....yT /α + βxt , σ 2 = f y1 /α + βx1 , σ 2 · f y2 /α + βx2 , σ 2 . . .
Observemos ahora a uno de estos elementos desglosados en particular: 1 1 2 2 f yt /α + βxt , σ = √ exp − 2 (yt − α − βxt ) . 2σ 2πσ 2
Conociendo la f´ormula, procedamos a desarrollar la funci´on de densidad de probabilidad: "
T 1 X exp − 2 f (y /•)f (y2 /•) . . . f (yT /•) = (yt − α − βxt )2 {z } (2π) T2 σ T | 1 2σ
1
F uncion de verosimilitud, L
#
Procedamos ahora a dar una definici´on—informal—del procedimiento de M´axima Verosimilitud: Definici´on 6 El M´etodo de M´axima Verosimilitud (MV) se lleva a cabo optimizando la funci´on L de tal suerte que, dada la la distribuci´on que se asumi´o (en este caso, Normal), se maximiza la probabilidad de observar las variables y.
yt
xt
Figura 2.8: Distribuci´on Condicional de yt
´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
77
En palabras a´un m´as llanas, M´axima Verosimilitud funciona jugando con los valores de α ˆ , βˆ y σ ˆ 2 de tal forma que la funci´on normal cuadre lo mejor posible con los datos observados. Ahora bien, la Funci´on de Verosimilitud que tenemos resulta ligeramente compleja, lo que dificulta su manipulaci´on. Al aplicarle logaritmos, el resultado es una gran simplificaci´on. Dado que se trata de una transformaci´on mon´otona, los par´ametros que optimizan L tambi´en maximizan al logaritmo, def ln (L) = l.
T
1 X (yt − α − βxt )2 2 2σ T T T 1 X 2 = − ln(2π) − ln(σ ) − 2 (yt − α − βxt )2 2 2 2σ T
ln (L) = ln(1) − ln(2π) 2 − ln(σ T ) −
Como siempre, optimizar requiere calcular las derivadas pertinentes e igualarlas a cero: 1. Con respecto a α (de la esperanza condicionada):
2 X ∂F (•) (yt − α − βxt ) = 0 = − 2 ∂α 2σ X X yt − α ˆ T − βˆ xt = 0 2. Con respecto a β (tambi´en, de la esperanza condicionada):
∂F (•) 2 X ˆ t )xt = 0 (yt − α ˆ − βx = ∂β 2σ 2 X X X yt xt − α ˆ xt − βˆ x2t = 0 Como en el caso de MOM, constatamos sin demasiado asombro que las ecuaciones resultantes no son otras sino las E CUACIONES N ORMALES
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
78
3. Lo interesante de M´axima Verosimilitud, es que estamos ajustando una distribuci´on. En el caso de la distribuci´on Normal s´olo hacen falta dos momentos; la esperanza y la varianza. En lo que concierne al ajuste de la esperanza— condicionada en x, ello corresponde a los par´ametros estimados de α y β. Pero aun falta la varianza; queda todav´ıa por derivar con respecto a σ 2 :17
∂F (•) T 1 1 1 X ˆ t )2 = 0 (yt − α ˆ − βx = − + ∂σ 2 2 σ2 2 σ4 1 X T ˆ t )2 = 0 (yt − α ˆ − βx = − 2+ 4 2σ 2σ | {z } P
u ˆ2t
Nada m´as falta manipular la expresi´on para obtener un estimador de la varianza:
2 1 X T ˆ yt − α ˆ − βxt = 0 − 2+ 4 2σ 2σ T σ2 1 X 2 − + uˆ = 0 2 2X t uˆ2t = T σ ˆ2 P 2 uˆt 2 σ ˆ = T Note como el estimador de σ 2 es sesgado, puesto que no est´a ajustado por los grados de libertad. Dicho ajuste tiene, por el momento, una explicaci´ on intuiˆ t por uˆt . tiva. En el segundo paso del desarrollo, sustituimos yt − α ˆ − βx Para ello, debimos recurrir a los estimadores de los par´ametros. Por cada estimaci´on empleada en el c´alculo de la varianza, se pierde un grado de libertad. Esta cuesti´on quedar´a m´as clara—esperemos—en la siguiente secci´on. 17
recuerde que f ′ (ln(x) = 1/x).
2.6. EL ESTIMADOR DE LA VARIANZA
2.6.
79
El estimador de la varianza
2.6.1. Los grados de libertad: breve preludio Antes de obtener el estimador de la varianza del t´ermino de error, σ 2 , conviene recordar brevemente la raz´on de ser de los grados de libertad. Los ajustes por e´ stos en algunas normalizaciones, como es el caso de la varianza, son muy usuales. De hecho, este u´ ltimo ejemplo ser´a desarrollado para entender de d´onde viene la necesidad de ajustar por grados de libertad. Posteriormente, se dar´a un ejemplo m´as cercano a nuestra vida cotidiana para as´ı reforzar el concepto. Supongamos que y es una variable aleatoria cualquiera iid. En cursos anteriores, se aprendi´o que el estimador adecuado—insesgado—de la varianza de tal variable es:
E
"
1 T −1
X T t=1
#
(yt − y¯)2 = σy2
Pero, ¿realmente lo es? Verifiquemos la sumatoria del lado izquierdo de la expresi´on:
X
(yt − y¯)2 = = = =
X
= (yt − y¯)2 =
X
[(yt − µ) − (¯ y − µ)]2 X (yt − µ)2 + (¯ y − µ)2 − 2(yt − µ)(¯ y − µ) X X (yt − µ)2 + T (¯ y − µ)2 − 2(¯ y − µ) (yt − µ) P X yt − T µ 2 2 T (yt − µ) + T (¯ y − µ) − 2(¯ y − µ) T X (yt − µ)2 + T (¯ y − µ)2 − 2(¯ y − µ)(¯ y − µ)T X (yt − µ)2 − T (¯ y − µ)2
Si normalizamos esta expresi´on por T − 1 y le sacamos la esperanza, entonces:
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
80
1 X E (yt − y¯)2 T −1
1 X 1 = E T (¯ y − µ)2 (yt − µ)2 − T −1 T −1 T 1 X E(yt − µ)2 − E(¯ y − µ)2 = T −1| T − 1 {z }
V arianza teorica
1 X 2 T = σy − T −1 T −1
E(¯ y − µ)2 | {z }
“V arianza′′ de la media
La expresi´on que denominamos “Varianza de la media” puede desarrollarse m´as: V ar(¯ y ) = E(¯ y − µ)2 X 1 yt = V ar T
Del operador VARIANZA las constantes tambi´en salen, pero al cuadrado (¿por qu´e?): 2 X 1 V ar(¯ y) = V ar yt T La variable con la que trabajamos es iid y por ello es v´alido invertir el orden entre la sumatoria y la varianza (¿por qu´e?):
V ar(¯ y) = = = =
2 X 1 V ar(yt ) T 2 X 1 σy2 T T σy2 T2 σy2 T
Entonces, retomando la f´ormula donde estudi´abamos la esperanza de nuestro estimador de la varianza...
2.6. EL ESTIMADOR DE LA VARIANZA
"
T
1 X E (yt − y¯)2 T − 1 t=1
#
=
81
T σy2 T σy2 − T −1 T −1 T
T 1 − ) T −1 T −1 T −1 ) = σy2 ( T −1 = σy2 (
"
T
1 X (yt − y¯)2 E T − 1 t=1
#
= σy2
Queda pues demostrado formalmente que un estimador insesgado de la varianza requiere forzosamente un ajuste por grados de libertad. No obstante, en el proceso no ha sido establecida la intuici´on de dicha necesidad; pero ello encuentra soluci´on al explicitar un ejemplo sencillo. Ejemplo 2 C ALIFICACIONES : Imagine a un alumno, llamado Equis Arriaga. ´ Este recibe parcialmente sus calificaciones del semestre: curs´o 7 materias y s´olo 6 de los profesores le dieron calificaciones: [10, 9, 10, 7, 10, 4, ?] En Administraci´on Escolar, no obstante, le proporcionaron el promedio general: x¯ = 8 ¿Cu´anto se sac´o en la u´ ltima materia? En realidad, eso es muy f´acil de calcular; se trata u´ nicamente de despejar la calificaci´on desconocida de la f´ormula del promedio. Note como el hecho de conocer el promedio nos obliga a fijar—a congelar, si autorizamos la expresi´on—el valor de la u´ ltima observaci´on. Aqu´ı lo que ha ocurrido es que se perdi´o un grado de libertad.
2.6.2. El estimador insesgado de la varianza en MCO Ahora s´ı, obtengamos la f´ormula para estimar la varianza del error. Si se ha comprendido bien la secci´on anterior, probablemente se pueda intuir que dicho estimador pierde necesariamente dos grados de libertad, puesto que antes de calcularlo estimamos dos par´ametros (α y β). Ello implica que el normalizador de la varianza
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
82
deber´ıa ser T − 2. Empezaremos por trabajar con variables centradas, pues eso nos ahorra la manipulaci´on de todo lo relativo a la constante: Retomemos la especificaci´on as´ı como la expresi´on que muestra que las medias pasan por ella y rest´emoslas:
X
yt = α + βxt + ut X X yt = αT + β xt + ut y¯ = α + β x¯ + u¯
Note como, al igual que con la especificaci´on estimada, las medias pasan por la recta de regresi´on, con la salvedad de que la media de los residuales te´oricos no necesariamente es cero (como de hecho s´ı lo es, por construcci´on, la de los residuales estimados):
yt = α + βxt + ut −¯ y = − (α + β x¯ + u¯) yt′ = β · x′t + ut − u¯
(2.9)
Las variables centradas las denotamos inicialmente con prima. No obstante, para no hacer tan recargada la notaci´on, denotamos, como antes, con letras min´usculas a las variables centradas. Esto eventualmente puede causar confusi´on, as´ı es que, cada vez que usemos variables centradas se advertir´a al lector. Ahora, hagamos el mismo procedimiento de centrado con la especificaci´on estimada. Como era de suponerse, en este caso no aparece u¯ˆt . yt = βˆ · xt + uˆt
(2.10)
Despejando el residual estimado de (2.10): ˆ t uˆt = yt − βx Sustituimos (2.9) en (2.11):
(2.11)
2.6. EL ESTIMADOR DE LA VARIANZA
83
ˆ t uˆt = βxt + (ut − u¯) − βx ˆ t + (ut − u¯) = (β − β)x Elevamos al cuadrado: ˆ 2 x2 + (ut − u¯)2 + 2(β − β)x ˆ t (ut − u¯) uˆ2t = (β − β) t
Cambiamos los signos (para as´ı recuperar las expresiones ya trabajadas de βˆ − β): uˆ2t = (βˆ − β)2 x2t + (ut − u¯)2 − 2(βˆ − β)xt (ut − u¯) Ahora sumamos: X
uˆ2t = (βˆ − β)2
X
x2t +
X
(ut − u¯)2 − 2(βˆ − β)
Y para terminar, saquemos esperanza:
E
X
uˆ2t
X
xt (ut − u¯)
hX i x2t E(βˆ − β)2 + E (ut − u¯)2 h i X −2E (βˆ − β) xt (ut − u¯) h i X X ˆ + (T − 1)σ 2 − 2E (βˆ − β) = x2t V ar(β) xt (u − u¯)
=
X
P Note que el segundo t´ermino, E [ (ut − u¯)2 ] corresponde a la varianza de una variable iid, como la que vimos en el ejemplo anterior. Es por ello que la reemplaza2 mos por (T − 1)σ 2 . De igual manera, probamos con anterioridad que varβˆ = Pσ x2 : t Reemplazando:
E
X
uˆ2t
i X ˆ = + (T − 1)σ − 2E (β − β) xt (u − u¯) h i X = σ 2 + (T − 1)σ 2 − 2E (βˆ − β) xt (ut − u¯) X
σ2 x2t P 2 xt
2
h
P Ahora s´olo falta ver que pasa con el u´ ltimo t´ermino, xt (ut − u¯). Para ello, conviene retomar una expresi´on desarrollada anteriormente:
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
84
βˆ =
X
X
K t yt ,
Kt (βxt + (ut − u¯)) , X X = β Kt xt + Kt (ut − u¯), | {z } =1 X βˆ − β = Kt (ut − u¯), P xt (ut − u¯) P 2 βˆ − β = . xt =
Reacomodando los t´erminos, X
x2t X
X βˆ − β = xt (ut − u¯) X xt (ut − u¯) = x2t (βˆ − β)
P Ahora que ya tenemos una ecuaci´on equivalente a xt (ut − u¯) pero expresada en ˆ procedamos a obtener su esperanza: t´erminos de β y β, h i h i X X −2E (βˆ − β) xt (ut − u¯) = −2E (βˆ − β) x2t (βˆ − β) X = −2E(βˆ − β)2 x2t σ2 X 2 xt = −2 P 2 xt = −2σ 2 Retomando todo desde el principio: X
σ2 X 2 xt + (T − 1)σ 2 − 2σ 2 = P 2 xt 2 2 2 2 X = σ + T σ − σ − 2σ = (T − 2)σ 2 uˆ2t E P 2 uˆt = σ2 E T −2 E
uˆ2t
2.6. EL ESTIMADOR DE LA VARIANZA
85
La u´ nica forma de obtener un estimador insegado de la varianza es dividiendo por el tama˜no de muestra menos los grados de libertad perdidos al estimar α y β (ambos necesarios para obtener la esperanza condicional, por cierto). As´ı queda demostrado que
P ˆ2 ut T −2
es un estimador insesgado de σ 2 .
2.6.3. Robustez del estimador de la varianza en MCO Ya tenemos un estimador insesgado de la varianza del error. En lo que respecta a su robustez, la demostraci´on puede ser omitida si se considera que ut es un ruido iid; por ello, a su estimador de la varianza se le puede aplicar una Ley de Grandes N´umeros (Law of Large Numbers, LLN , por sus siglas en ingl´es). Cuando la muestra es muy grande, da “lo mismo” dividir entre T que entre T − 2; ambos arrojar´an un estimador arbitrariamente cercano al verdadero valor de la varianza. Si bien no entraremos en detalles, es importante saber que, cuando trabajamos con un proceso i.i.d., e´ ste tiene las propiedades necesarias para asegurar que el estimador de su varianza converge a la verdadera varianza. Note que volveremos a asumir que la variable explicativa es estoc´astica, como en el u´ ltimo desarrollo “con l´ımites en probabilidad” que hicimos (regrese a la p´agina 59).Para estudiar la robustez del estimador de la varianza, retomemos una expresi´on de e´ ste antes obtenida: 2 X X X 2 2 2 2 ˆ ˆ ˆ x2t (ut − u¯) − 2 β − β xt + ut = (β − β) P ˆ2 X 2 X ut 1 ˆ 1 2 plim −plim = plim x2t β−β (ut − u¯) T T T {z } | X
σ 2 (LLN )
2 1X 2 = σ − plim xt ·plim βˆ − β T {z } | 2
Converge
La consistencia del estimador quedar´ıa demostrada siel u´ ltimo elemento fuera cero. La nulidad de e´ ste resulta intuitiva, ya que plim βˆ = β. Es f´acil demostrar que 2 el l´ımite es cero si desarrollamos el plim βˆ − β : 2 ˆ ˆ plim β − β = plim βˆ2 + plim β 2 − 2 · plim ββ = 0
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
86
Ello nos permite afirmar que, de cumplirse los supuestos de MCO, P ˆ2 ut = σ2 plim T
2.7.
Inferencia estad´ıstica en MCO
En las anteriores secciones, hemos desarrollado detalladamente el m´etodo de M´ınimos Cuadrados Ordinarios; tambi´en presentamos, ya m´as someramente, t´ecnicas alternativas de estimaci´on (MOM y MV). En los tres casos se ha puesto mucho e´ nfasis en la importancia del cumplimiento de los supuestos. Son e´ stos los que facultan las propiedades—tan deseables—de nuestros estimadores. Ya m´as concretamente disponemos, hasta ahora, de lo siguiente: 1. Desarrollamos los estimadores, determinamos que eran insesgados y robustos y calculamos sus respectivas varianzas. 2. Establecimos que los estimadores α ˆ y βˆ son MELI, es decir, lineales, de m´ınima varianza e insesgados. 3. Encontramos un estimador insesgado de la varianza del t´ermino de error: P
uˆ2t σˆ2 = T −2 2 E σ ˆ = σ2 4. A lo largo de todos los desarrollos, nos hemos topado sistem´aticamente con el supuesto de O RTOGONALIDAD. De hecho, m´as que top´arnoslo, lo hemos empleado una y otra vez. En el pr´oximo curso de econometr´ıa confirmaremos que dicho supuesto es fundamental. Por ahora baste recordar que al ser cumplirse, tenemos:
E (xt · ut ) = 0
´ 2.7. INFERENCIA ESTADISTICA EN MCO
87
Resulta fundamental distinguir la importancia de la expresi´on y sobre todo, la diferencia que hay entre e´ sta y su contraparte muestra, Cov (xt , uˆt ) = 0. La primera constituye un supuesto, mientras que la segunda es resultado del m´etodo de estimaci´on que usamos (MCO). La importancia radica en que, a´un si el supuesto es violado (eventualidad desgraciadamente muy frecuente), la covarianza muestral seguir´a siendo siendo igual a cero. De ello se infiere que no es posible detectar el rompimiento del supuesto con tan s´olo una mirada a la covarianza entre residual estimado y variable explicativa. Toda esta explicaci´on constituye un mero avance de lo que se ver´a en la segunda parte de este curso. A partir de aqu´ı nos concentraremos exclusivamente en las propiedades probabil´ısticas de nuestro modelo de regresi´on; las que se pueden derivar del sexto Supuesto, el que establece la Normalidad en los errores. En la secci´on destinada al m´etodo de MV, explicamos como dicha normalidad se transmite a la variable yt . Dado que los estimadores no son otra cosa sino Pcombinaciones Plineales de las observaciones de las variables dependientes (ˆ α= Rt yt y βˆ = Kt yt ), e´ stos tambi´en adquirir´an la normalidad a trav´es de la variable dependiente: yt = algo no estoc´ astico +
ut |{z}
N ormal(0,σ 2 )
En MV ello nos permiti´o deducir con facilidad que: yt ∼ N (α + βxt , σ 2 )
ˆ ˆ Al P estudiar al par´ametro estimado β, recurrimos constantemente a la f´ormula β = Kt yt que es de hecho la prueba de que dicho estimador es una combinaci´on de las observaciones de la variable dependiente. Lo mismo se puede decir de la ordenada en el origen, α ˆ . Al ser los estimadores una funci´on lineal de yt , es decir una suma ponderada de las y, la normalidad se les transmite:
1 x¯2 α ˆ ∼ N α, σ +P T (xt − x¯)2 2 σ βˆ ∼ N β, P (xt − x¯)2 2
Con base en lo anterior es posible construir intervalos de confianza y contrastar hip´otesis sobre dichos par´ametros. Quiz´a la prueba m´as importante o cuando menos
88
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
la m´as socorrida, es la que eval´ua si los par´ametros son estad´ısticamente distintos de cero: yt = |{z} α ˆ + βˆ xt + uˆt |{z} =0
=0
Si α es estad´ısticamente igual a cero, entonces nuestra especificaci´on no requiere de una ordenada en el origen. Tal eventualidad no resulta particularmente importante. No obstante, si βˆ es estad´ısticamente igual a cero, entonces las consecuencias son mucho m´as relevantes: los datos de que disponemos no brindan evidencia de que nuestra especificaci´on, la que relaciona a y con x, sea adecuada. Como en todo trabajo que involucre al herramental estad´ıstico, sobra decir que tanto el dise˜no como la ejecuci´on de la estimaci´on debe hacerse con sumo cuidado. Con el paso del tiempo esta prueba se ha vuelto usual entre economistas aplicados y econometristas emp´ıricos, y por ello vale la pena recordar toda la teor´ıa que est´a detr´as: 2 1. La Normalidad de los Estimadores: βˆ ∼ N β, P (xσ −¯x)2 t
2. El Teorema del L´ımite Central (TLC):
√ Teorema 5 Conforme el tama˜no de muestra crece, la secuencia T (y¯T − µ) converge en distribuci´on a una variable gaussiana. Si yt es iid con media cero y varianza σ 2 , entonces: √ d T (¯ yT − µ) −→ N (0, σ 2 ) 3. Las propiedades de nuestro estimador de la varianza: P 2 uˆ = σ2 E T −2 P 2 uˆ p → σ2 T −2 Como ya se˜nalamos, esta prueba es utilizada muy frecuentemente en econometr´ıa. Si bien dicha utilizaci´on es sencilla y su lectura no requiere de m´as de unos cuantos segundos, conviene entender como funciona. La demostraci´on la haremos para el estimador de la pendiente, que es el caso interesante. Vamos a partir de la normalidad de dicho estimador; βˆ ∼ N (0, σ 2 ). A tal variable normal es posible transformarla para obtener una distribuci´on Normal Est´andar:
´ 2.7. INFERENCIA ESTADISTICA EN MCO
Z =
89
βˆ − β σβˆ
∼ N (0, 1) ˆ donde σβˆ es la ra´ız de la varianza de β. Nuestra prueba deber´a tener, como toda prueba decente en estad´ıstica, una hip´otesis nula y otra alternativa: Ho : β = 0 Ha : β 6= 0 Situ´emonos moment´aneamente bajo la hip´otesis nula; es decir, asumamos que el verdadero par´ametro, β, es igual a cero. En ese caso, la variable transformada, Z, ser´ıa:
Z =
βˆ σβˆ
∼ N (0, 1)
0.5
Otra distribucion, válida bajo Ha
Normal Estándard, cierta bajo Ho
0.4 0.3 Nivel
0.2 0.1 0 −5
0
5
10
Figura 2.9: Distribuci´on bajo la hip´otesis nula y la alternativa
90
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Es importante tener plena conciencia de que estamos asumiendo que la hip´otesis nula es cierta. Debido a ello, nuestro c´alculo de la variable Z se simplifica en extre´ PROBABLE es que el resultado num´erico mo. De ser cierta dicha hip´otesis, LO M AS de calcular Z caiga en la zona central de la distribuci´on. Ahora bien, cambiemos de escenario e imaginemos que, pese a haber supuesto que Ho se cumpl´ıa, la verdad es que Ha es la hip´otesis correcta. En ese caso, nuestro c´alculo de Z resultar´ıa err´oneo ´ PROBABLE es que tal c´alculo se salga de la parte gorda de la distribuy LO M AS ci´on siendo e´ sta muy distinta a cero. La parte fundamental—y quiz´a la m´as dif´ıcil—de la prueba radica en decidir a partir de d´onde nos parece improbable que el c´alculo de Z se aleje demasiado de lo que hubiera tenido que ser si en realidad fuera normal est´andar. Obviamente, las zonas alejadas se sit´uan en las colas de la distribuci´on. La regla para separar la zona en la que nos resulta razonable pensar que Z es normal est´andar o no, es arbitraria. El consenso, al menos en econometr´ıa es dejar como a´ rea probable para Ho el 95 % de la superficie abajo de la campana, mientras que el restante 5 % (distribuido equitativamente en ambas colas) lo dejamos para las Z’s que nos parezcan demasiado grandes, es decir, que nos resulte inveros´ımil que una Z tan grande haya sido generada por una distribuci´on normal est´andar. Bajo esta u´ ltima, los valores cr´ıticos que distinguen al 5 % m´as alejado del centro (2.5 % de cada lado) son: −1.96 y 1.96.
2.7.1. Inferencia usando una distribuci´on de t de student Toda la inferencia sugerida anteriormente est´a muy bonita y es muy interesante18 pero existe un problema grave que nos impide llevar a cabo satisfactoriamente la prueba: desconocemos el valor de la varianza de nuestro estimador, σβˆ. Afortunadamente, ese es un problema que sabemos resolver; de hecho, conocemos dos formas de resolver el problema. La primera exige el uso de la distribuci´on T DE STUDENT .19 A juicio del autor de estas p´aginas, este camino no es el que conviene recordar, no obstante, es importante conocerlo. Veamos primero cual es esta distribuci´on t de student: 18
Al menos para algunos. William sealy Gosset (19876-1937) fue un qu´ımico y estad´ıstico, mejor conocido por su sobrenombre literario, student. Nacido en Canterbury, Inglaterra, asisti´o a la famosa escuela privada Winchester College, antes de estudiar qu´ımica y matem´aticas en el New College Oxford. Tras graduarse en 1899, se incorpor´o a la destiler´ıa de Arthur Guinness e Hijo, en Dubl´ın. Para evitar la divulgaci´on de informaci´on confidencial, Guinness prohibi´o a sus empleados la publicaci´on de art´ıculos independientemente de la informaci´on que contuviesen. De ah´ı el uso, por parte de Gosset, de un pseud´onimo literario en sus publicaciones. 19
´ 2.7. INFERENCIA ESTADISTICA EN MCO
91
Definici´on 7 Sea Z una variable Normal con esperanza 0 y varianza 1, Z ∼ N (0, 1) y x una variable independiente de Z y distribuida χ2 con T grados de libertad, x ∼ χ2T g.l , entonces:
Z tT g.l. = p x T
Si queremos aplicar esta definici´on a nuestro problema, debemos empezar por en2 contrar a la distribuci´on normal est´andar y luego χ del denominador. Asu a la miendo que la hip´otesis nula es cierta, βˆ ∼ N 0, σβ2ˆ . S´olo hace falta dividir por σβ2ˆ para obtener una varianza unitaria:
q
βˆ 2 P σ (xt −¯ x )2
∼ N (0, 1)
Ya tenemos pues, el numerador. Sin realizar la demostraci´on moment´aneamente, establecemos que nuestro estimador de la varianza, ligeramente adaptado, del par´ametro se distribuye como una χ2 ; σ ˆ 2 · (T − 2) ∼ χ2T −2 g.l. 2 σ Tomando por cierto este u´ ltimo resultado,20 se antoja la idea de reemplazar a σβ2ˆ por σ ˆβ2ˆ en nuestra f´ormula de Z. De hecho, teniendo una normal est´andar y una χ2 , ya podemos construir nuestra t de student: 20
El resultado lo demostraremos en la secci´on correspondiente a la prueba F.
92
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
q 2 ˆ P σ β/ (xt −¯ x)2 p p = [ˆ σ 2 · (T − 2) /σ 2 ] / (T − 2) [ˆ σ 2 /σ 2 ] √P (xt −¯ x )2 βˆ · σ = σ ˆ ˆ β/
q
2 P σ (xt −¯ x )2
= βˆ · = βˆ · =
σ qP
qP
(xt − x¯)2 σ · σ σ ˆ (xt − x¯)2 σ ˆ
βˆ
√P
= q
σ ˆ (xt −¯ x)2
βˆ ˆ2 P σ (xt −¯ x )2
βˆ = q σ ˆβ2ˆ Para resumir todas las operaciones pasadas, basta se˜nalar que primero obtuvimos ˆ luego colocamos la ra´ız una distribuci´on normal en el numerador al transformar a β; 2 cuadrada de una χ dividida por sus grados de libertad en el denominador. Eso, por la definici´on (7), sabemos que es una t de student. Lo malo es que, a priori parece no ser calculable, puesto que involucra par´ametros que desconocemos. Afortunadamente, al desarrollar la expresi´on, vemos como dichos par´ametros desconocidos desaparecen. Al final, nuestro estad´ıstico de prueba es: Z=
βˆ σ ˆβˆ
Todo parece haber salido bien. No obstante, los m´as detallistas habr´an notado que no respetamos al 100 % la definici´on (7). En efecto, para realmente obtener una distribuci´on t de student falta asegurar la independencia entre la normal del numerador y la χ2 del denominador. Esto, lo establecemos en el siguiente teorema:
´ 2.7. INFERENCIA ESTADISTICA EN MCO
93
Teorema 6 Si el t´ermino de error de la especificaci´on lineal de la regresi´on, ut ˆ son estad´ısticamente se distribuye normalmente, los estimadores de MCO, α ˆ y β, independientes delPresidual estimado, uˆt y de todas las funciones de dicho residual, u ˆ2 incluyendo σ ˆ 2 = T −2t . La prueba de este teorema es un poco laboriosa, por lo que la reportamos al ap´endice E. As´ı pues, nuestro estad´ıstico de prueba, llamado habitualmente estad´ıstico t, se distribuye como una t de student. Esta distribuci´on se parece mucho a la Normal Est´andar. La diferencia estriba en que sus colas son m´as pesadas; su uso es relevante cuando el n´umero de observaciones es peque˜no.21 La mayor pesadez de las colas queda manifiesta al comparar los valores cr´ıticos, puesto que, en vez de usar −1.96 y 1.96, la t de estudent sugiere usar, para una muestra de tama˜no 20, −2.1 y 2.1.
2.7.2. Inferencia asint´otica Existe una soluci´on que, nuevamente a juicio del autor, resulta m´as apropiada; exige trabajar con muestras de tama˜no mayor. En econometr´ıa, dicho sea de paso, siempre conviene recopilar la mayor cantidad de datos posibles. Estudios con menos de 50 datos no resultan demasiado atractivos. Para explicar en que consiste, necesitaremos un teorema que ya hab´ıamos presentado antes, pero que conviene recordar: Teorema 7 Sea L una funci´on continua y Kt una expresi´on tales que: d
L (xT ) → L (x) , p
KT → K,
donde K es una constante; entonces,
d
L (KT · xT ) → L (K · x) , d
L (KT + xT ) → L (K + x) . 21
Digamos, menor a 30 observaciones.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
94
Vimos anteriormente que
ˆ ) (β−β σβˆ
se distribuye como una Normal est´andar. Incurrire-
mos en una redundancia sumamente u´ til22 escribir entonces lo siguiente: ˆ β−β σβˆ
d
→ N (0, 1)
(2.12) p
Como antes, desconocemos σβˆ, no obstante, sabemos que σ ˆβˆ → σβˆ, lo que nos permite escribir: ! σβˆ p →1 plim σ ˆβˆ Retomando la ecuaci´on (2.12), multipliquemos por βˆ − β σ ˆβˆ
=
σβˆ σβˆ
, lo cual no cambia nada:
βˆ − β σ ˆ β
σ ˆβˆ
σβˆ
Reacomodemos los t´erminos: βˆ − β σ ˆ β
σβˆ
σ ˆβˆ
Ahora apliquemos la teor´ıa asint´otica. El primer elemento, cuando el tama˜no de muestra sea suficientemente grande, se distribuir´a Normalmente, con media cero y varianza 1. El segundo (la raz´on entre varianzas) convergir´a en probabilidad a 1. El Teorema de Slutsky permite asintotear al mismo tiempo ambos elementos, por lo que: βˆ − β σ ˆβˆ
22
d
→ N (0, 1)
Si bien aqu´ı es un ox´ımoron, al ir levantando supuestos—para hacer m´as incluyente al m´etodo— deja de serlo.
´ 2.7. INFERENCIA ESTADISTICA EN MCO As´ı, calcular
ˆ ) (β−β σβˆ
equivale a calcular
ˆ ) (β−β σ ˆβˆ
·
95 σβˆ σβˆ
que a su vez, manipulando, po-
ˆ ) σˆ (β−β demos dejar como σ ˆ · σˆβˆ . Acabamos de demostrar que esta u´ ltima expresi´on β β converge a una normal est´andar. Es por el razonamiento anterior que podemos usar la expresi´on con puros estimados confiando en que asint´oticamente la distribuci´on ser´a la normal est´andar. Nos quedamos entonces con el primero, cuyos elementos s´ı tenemos. Este resultado nos permite hacer la prueba de significancia estad´ıstica de los par´ametros de manera individual (es decir sobre cada par´ametro); la distribuci´on bajo la hip´otesis nula es una Normal Est´andar, por lo que los valores cr´ıticos, con un nivel de 5 % ser´an los ya antes mencionados: −1.96 y 1.96. Es importante tener siempre presente que el resultado s´olo es v´alido para tama˜nos de muestra grandes. Lo anterior se presta a muchas arbitrariedades; se sugiere que T tenga cuando menos m´as de 100 observaciones.
2.7.3. Addendum: el p-valor El p − valor constituye una forma alternativa de leer las pruebas estad´ısticas y facilita grandemente su interpretaci´on. Supongamos que corremos una regresi´on con la especificaci´on de siempre, yt = α + β · xt + ut . Calculamos, como siempre (a partir de ahora), los estad´ısticos t correspondientes. Supongamos adem´as que el valor del estad´ıstico t de la pendiente y nos sale un estad´ıstico de prueba igual a 27.7.
0.5
0.4
Normal Estándar
0.3
0.2 t de Student, 4 g.l. 0.1
0.0
−6
−4
−1.96
0
1.96
4
6
Figura 2.10: Distribuci´on de t de student (4 grados de libertad) comparada con una normal est´andar
96
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Obviamente, se rechaza la hip´otesis nula, pero de hecho, tambi´en es evidente que el nivel, de ese lado de la curva (2.5 %), est´a muy sobrado. En realidad, el a´ rea detr´as del valor del estad´ıstico de prueba es apenas 0.0001. Es decir que, en esta ocasi´on, con un nivel inferior al 1/10, 000 Ho hubiera sido rechazada. Justamente eso es el p-valor; el a´ rea detr´as del estad´ıstico de prueba bajo la hip´otesis nula. Si dicha a´ rea es menor al nivel que escogimos (por ejemplo, 5 %), entonces, sabremos que Ho deber´a rechazarse. La definici´on formal del p-valor (p-value, en ingl´es), usando el estad´ıstico t, es la siguiente. Definamos como tvc al estad´ıstico tβˆ que obtuvimos con nuestra muestra particular:23 p − valor = Pr tβˆ ≥ tvc /β = 0 + Pr tβˆ ≤ −tvc /β = 0
2.8.
An´alisis de varianza y bondad de ajuste
Lo visto en las secciones anteriores nos ha permitido caracterizar en detalle al m´etodo de MCO. Sabemos ahora que nuestros estimadores pueden ser en extremo apropiados si—y s´olo—si los supuestos que yacen atr´as se cumplen. Vimos tambi´en que es posible empezar a verificar, al menos parcialmente, la pertinencia de nuestra especificaci´on por medio de la significancia de los par´ametros. Es momento ya de incorporar en nuestro haber, una serie de herramientas que nos permitan saber si el ajuste de nuestro modelo a los datos es correcto, adecuado y/o mejorable. Dicho herramental podr´a ser ajustado y adaptado para realizar pruebas con una significancia econ´omica. De momento, iniciaremos con los instrumentos m´as b´asicos. Para medir la calidad del ajuste de la regresi´on, tenemos que evaluar si la recta que estimamos es una representaci´on adecuada de la nube de puntos que aparece en el diagrama de dispersi´on.
2.8.1. La medici´on de la bondad del ajuste Hemos de encontrar alguna forma de medir el ajuste, o m´as t´ıpicamente denominado la bondad de ajuste. Si fu´eramos m´as “naives”,24 en vez de correr una regresi´on para 23
Note que definimos el p-valor en funci´on de una prueba de dos colas. Si se tratara de una prueba con una sola cola, como la χ2 o bien la F, entonces no es necesario hacer la suma de las dos probabilidades; basta con la primera probabilidad. 24 Ingenuos.
20
25
15
20 Variable Dependiente
Variable Dependiente
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
10 5 0 −5 −10 −15 −20
97
15 10 5 0 −5 −10
−10 0 10 Variable Explicativa
20
−15 −20
−10 0 10 Variable Explicativa
20
Figura 2.11: Comparaci´on del ajuste entre dos regresiones explicar el comportamiento de yt , podr´ıamos calcular una media ramplona.25 Lo interesante, para el caso que nos ocupa, es que con dicha media, podemos calcular la variaci´on total de yt , es decir su variabilidad: la dispersi´on de la variable con respecto a un momento central (la media); para ello, basta medir la distancia de cada punto con respecto a la media: (yt ) = yt − y¯.
yt Variacion no explicada
y
Variacion explicada
xt
Figura 2.12: An´alisis de la Variaci´on Ejemplo 3 OTRA VEZ LAS CALIFICACIONES : Imagine nuevamente a nuestro alumno, Equis Arriaga. Desea saber que determina el nivel de sus calificaciones. 25
La media es de hecho un estimador de la esperanza incondicional mientras que la regresi´on lo es, pero de una esperanza condicionada en las variables explicativas. Al fin y al cabo, todo lo visto resulta en versiones m´as o menos sofisticadas de una media
98
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
El hecho es que, de momento, nada se le ocurre; lo u´ nico que tiene es su boleta de calificaciones: en ella aparecen algunos nueves, otros dieces y bastantes sietes. Le resulta confuso, con s´olo verlas, tener idea de como va. Lo primero que le viene a la mente es sacar el promedio. A eso se dedica la estad´ıstica: a resumir informaci´on que permite tener una vista “panor´amica del fen´omeno bajo estudio”. La media es, podr´ıamos decir, un “resumidor” de informaci´on que si bien algo nos indica, no nos aporta tanta luz sobre el fen´omeno como lo hace el conjunto completo de los datos. Es una esperanza incondicional. A Equis Arriaga se le ocurre que quiz´a sus calificaciones dependan del n´umero de horas de estudio que les dedique. Puede entonces condicionar su promedio al n´umero de horas destinadas a estudiar cada una de las materias. Estimar´a entonces otro promedio, pero esta vez ser´a un promedio condicionado a las horas de estudio. ¿C´omo se llama esta estimaci´on? Pues no est´an ustedes para saberlo, pero s´ı nosotros para contarlo; es una regresi´on. En efecto, una regresi´on no es m´as que un promedio, s´olo que condicionado a informaci´on adicional que nos permita entender mejor lo que pasa con la variable que nos interesa. La regresi´on—o esperanza condicional—nos permite ordenar mejor los datos, entenderlos mejor. Si el estudio de la regresi´on est´a bien hecho, cuantificaremos con aceptable precisi´on el efecto de estudiar sobre nuestras calificaciones. Ahora bien, existen otras razones, quiz´a m´as triviales que afectan a nuestro desempe˜no acad´emico. Ello conlleva una inevitable incapacidad de explicar completamente el porqu´e de nuestras calificaciones. Lo que haremos a continuaci´on es separar la variabilidad de las calificaciones—para ponerlo en t´erminos de este ejemplo—en dos partes: (1) la que podemos explicar con las horas de estudio y, (2) la que no podemos explicar. Podr´ıamos tener una medida que nos indique que tan bueno es el ajuste de nuestra l´ınea de regresi´on. En el dibujo se capta que la variabilidad total es susceptible de ser desagregada en 2 partes; (1) la parte que el modelo de regresi´on puede explicar y, (2) la parte que qued´o sin poder ser explicada. Visto eso, procedamos a medir cada parte de esa variaci´on:
yt − y¯ = yt − y¯ + (yˆt − yˆt ) = (yt − yˆt ) + (yˆt − y¯t ) Fij´emonos con m´as detenimiento en el primer t´ermino:
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
99
ˆ t yt − yˆt = yt − α ˆ − βx ˆ t + uˆt − α ˆ t = α ˆ + βx ˆ − βx yt − yˆt = uˆt Del anterior resultado se constata que dicho elemento no es otra cosa sino el residual estimado de nuestra regresi´on. Ahora bien, lo anterior fue desarrollado para una sola observaci´on; si lo que queremos es tener en cuenta a todas, habr´ıa que sumarlas. No obstante, ya sabemos el resultado de sumar a una variable centrada: X
(yt − y¯) =
X
(y − y¯)
= y¯T − y¯T = 0
As´ı, para evitar una obviedad, mejor elevamos al cuadrado: (yt − y¯)2 = (yt − yˆt )2 + (yˆt − y¯)2 − 2 (yt − yˆt ) (yˆt − y¯) Sumamos... X X X X (yt − y¯)2 = (yt − yˆt )2 + (yˆt − y¯)2 − 2 (yt − yˆt ) (yˆt − y¯) | {z } ∗
* : Este t´ermino nos estorba. En los dos anteriores, aislamos la variabilidad explicada y la no explicada. Conviene deshacernos del tercero; desarroll´andolo:26 X
(yt − yˆt ) (yˆt − y¯) ˆ t − y¯ (ˆ ut ) α ˆ − βx X ˆ t uˆt − y¯uˆt α ˆ uˆt − βx X X X α ˆ uˆt − βˆ xt uˆt − y¯ uˆt X
Ya hemos demostrado con anterioridad que cero, por lo que: 26
P
uˆt y
P
xt uˆt son ambos iguales a
Demostraci´on simplificada por Lilia Guadalupe L´opez Renter´ıa.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
100
X
(yt − yˆt ) (yˆt − y¯) = 0
Nuestra expresi´on inicial se reduce a: X
(yt − y¯)2 =
X
(yt − yˆt )2 +
X
(yˆt − y¯)2
(2.13)
V ariacion T otal = V ar. residual + V ar. explicada SCT = SCE + SCR T SS = ESS + RSS Las u´ ltimas dos l´ıneas corresponden a los acr´onimos (en espa˜nol y en ingl´es respectivamente) de los distintos elementos de esta expresi´on. SCT (TSS) es la Suma de Cuadrados Total; SCE (ESS) es la Suma de Cuadrados del Error, y; SCR (RSS) es la Suma de Cuadrados de la Regresi´on. Pues ya desglosamos la variabilidad de y. Ahora bien, ¿Qu´e podemos hacer con eso? Como ya se˜nalamos al principio de este curso, las varianzas no tienen unidades.27 Podr´ıamos interesarnos quiz´a en medir u´ nicamente la proporci´on de la variabilidad total explicada por la regresi´on. Ello implica una normalizaci´on, de hecho, muy intuitiva. Dividiendo todo por SCT (o SCT), obtenemos: 1=
SCE SCR + SCT SCT
Si definimos R2 , una medida de la bondad de ajuste de nuestra regresi´on, como la proporci´on de varianza explicada, su f´ormula ser´ıa: R2 =
SCR SCE =1− SCT SCT
Reiteramos que la R2 es la proporci´on de la variaci´on total en y explicada por la regresi´on de y sobre x. Todos los t´erminos que la componen son sumas cuadr´aticas, ≥ 0, por lo que por lo que son, sin excepci´on, positivos. Ello implica que SCE SCT nuestra medida, R2 , no puede ser mayor a uno. Por otra parte, 27
A menos que se acepten conceptos tales como pesos al cuadrado, d´olares al cuadrado y cantidad de manzanas producidas al cuadrado.
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
101
SCT = SCE + SCR SCT ≥ SCE SCE 1 ≥ SCT SCE 1− ≥ 0 SCT Con ello, debe quedar claro que la R2 est´a acotada entre 0 y 1. Ahora que ya sabemos de d´onde sale esta medida de ajuste, propondremos otra manera de formularla que es, claro est´a, equivalente. Recordemos que al centrar los datos (restarles su media) la especificaci´on queda as´ı: ˆ t + uˆt yt = α ˆ + βx Restando las medias:28 yt =
ˆ +ˆ βx ut |{z}t yˆt
yt = yˆt + uˆt
Elevamos al cuadrado: yt2 = yˆt2 + uˆ2t + 2yˆt uˆt X X X yˆt2 + uˆ2t + yˆt uˆt yt2 = | {z } | {z } | {z } X
SCT
SCE
0
2 Reemplazamos yˆt2 por la expresi´on que lo genera, βˆ · xt : X
28
2 ˆ βxt + SCE SCT = X SCT = βˆ2 x2t + SCE
Ver desarrollos anteriores.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
102
Y manipulamos la expresi´on para as´ı recuperar la expresi´on de la R2 : βˆ2
X
x2t = SCT − SCE
Dividimos de ambos lados por SCT = P 2 x SCE 2 ˆ β P 2t = 1 − SCT} yt | {z
(2.14) P
yt2 :
R2
Con ello, obtenemos una formulaci´on alternativa para la R2 : P (xt − x¯)2 2 2 ˆ R = β P (yt − y¯)2
Note, que de la ecuaci´on (2.14), se infiere un resultado que nos ser´a u´ til posteriormente: SCR = βˆ2
X
x2t
(2.15)
La R2 representa nuestra primera medida de bondad de ajuste. Existen todav´ıa muchas m´as medidas de ajuste y sobre todo, pruebas sobre la calidad estad´ıstica de la regresi´on. En esta secci´on veremos dos m´as: los intervalos de confianza y la prueba F.
2.8.2. Intervalos de confianza Al construir las pruebas de significancia, descubrimos la naturaleza de la distribuˆ la Normal. Con base en ello, podemos ci´on de los par´ametros estimados, α ˆ y β: ahora construir intervalos de confianza; e´ stos nos proporcionan un rango de valores entre los que es probable est´en los verdaderos par´ametros. A cada intervalo le asignamos un nivel de significancia estad´ıstica. Los intervalos de confianza, como ya se sabe, se construyen de tal forma que la probabilidad de que dicho intervalo contenga el verdadero par´ametro, sea uno menos el nivel de significancia (95 % o´ 99 %, por ejemplo). En este momento, no est´a de m´as recalcar que es esta parte, la inferencia sobre los par´ametros, el meollo del trabajo de un econometrista. Dada la tecnolog´ıa
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
103
actual, correr regresiones es trivial. Lo importante es el an´alisis que se haga de los resultados. Para iniciar el desarrollo, hay que retomar lo que obtuvimos al desarrollar las pruebas de significancia: βˆ − β0 σ ˆβˆ ∼ tstudent, T −2 g.l
tβˆ = a
∼ N (0, 1)
Con las pruebas de significancia, ten´ıamos que escoger un nivel de confianza; ello nos permit´ıa determinar los valores cr´ıticos. El nivel de confianza b´asicamente se˜nala la probabilidad de equivocarnos.29 Si la hip´otesis nula es cierta, tenemos un 95 % de probabilidad de que el estad´ıstico t cae adentro del intervalo. ¿C´omo se lee nuestra prueba de significancia? Pues de hecho, la expresi´on expl´ıcita de e´ sta es:
Pr −2.05 2.05 = 0.95 | {z } < tβˆ < |{z} −V C95 %
V C95 %
Reescribiendo, para hacerlo m´as claro:
Pr −V C95 % < tβˆ < V C95 % = 0.95
Reemplazando al estad´ıstico t por su f´ormula30 :
Pr −V C95 % 29
βˆ − β < V C95 % < σ ˆβˆ
!
= 0.95
Al descartar las puntas extremas de la distribuci´on, incurrimos en el riesgo de que nuestro estad´ıstico de prueba si pertenezca a Ho pero haya ca´ıdo ah´ı. Nosotros lo descartaremos err´oneamente (asumiremos que no fue engendrado por el proceso estipulado en Ho ). Es lo que se llama N IVEL o bien E RROR T IPO I. 30 Recuerde que en la f´ormula del estad´ıstico t primig´enea, rest´abamos β0 . Despu´es, como lo que nos interesaba es que e´ ste u´ ltimo fuera cero, lo obviamos en las expresiones. A partir de aqu´ı, lo volvemos a dejar expl´ıcito.
104
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Ahora Manipulamos al interior del par´entesis con la intenci´on de aislar el verdadero par´ametro: Pr −V C95 % · σ ˆβˆ < βˆ − β < V C95 % · σ ˆβˆ = 0.95 ˆ ˆ Pr −V C95 % · σ ˆβˆ − β < −β < V C95 % · σ ˆβˆ − β = 0.95 Multiplicamos por −1: ˆβˆ > β > βˆ − V C95 % · σ ˆβˆ = 0.95 Pr βˆ + V C95 % · σ
Lo que tenemos al interior del par´entesis puede interpretarse como un intervalo de confianza; e´ ste corresponder´ıa a un nivel de confianza de 95 %. Su lectura ser´ıa la siguiente: β DEBE ESTAR INCLUIDO CON UN NIVEL DE CONFIANZA DE 95 %. i h ˆ Pr β ∈ β + / − V C95 % · σ ˆβˆ = 0.95
De forma an´aloga, al estimador de α se le puede construir tambi´en un intervalo con un nivel de confianza de 95 %: Pr [α ∈ (ˆ α + / − V C95 % · σ ˆαˆ )] = 0.95
En esta secci´on calculamos intervalos de 95 %. Al decidir la extensi´on de dicho intervalo, (95 %, 99 %, . . .), es imperativo ajustar los Valores Cr´ıticos correspondientes. Tambi´en vale la pena recordar que todo esto lo hicimos usando la distribuci´on de t de student; bien hubiera podido hacerse con el resultado asint´otico de Normalidad.
2.8.3. La prueba de significancia conjunta de la regresi´on Una parte importante del quehacer econom´etrico radica en el an´alisis del valor de los par´ametros y su interpretaci´on econ´omica. El hecho es que, para tales acciones, existe una manera relativamente sencilla de proceder: la prueba de Fisher. La distribuci´on F fue encontrada o derivada, como su nombre lo indica, por Fisher en los albores del siglo XX. Su forma se deriva de una transformaci´on de variables normales, como se indica en las siguientes definiciones:
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
105
Definici´on 8 La suma de los cuadrados de T variables aleatorias iidN (0, 1) se distribuye como una χ2T g.l. : Sea xt ∼ iidN (0, 1) para t = 1, 2, . . . , T , entonces, T X
x2t ∼ χ2T g.l.
x T1 z T2
∼ FT1 ,T2 g.l.
t=1
Definici´on 9 Sean x y z dos variables aleatorias independientes distribuidas ambas como χ2 con T1 y T2 grados de libertad respectivamente, entonces:
La comprensi´on del funcionamiento de la prueba de Fisher, pasa por la correcta asimilaci´on de la distribuci´on χ2 . Suponga, como anteriormente que: xt ∼ iidN 0, σ 2 ,
donde la variable xt es, por cierto, una variable centrada. Entonces, al estandarizar, xt ∼ iidN (0, 1). σ Si elev´aramos al cuadrado y sum´aramos, obtendr´ıamos una variable distribuida χ2 : PT 2 t=1 xt ∼ χ2 2 σ Construyamos pues, una variable con distribuci´on χ2 . Partimos del estimador de la varianza: P
x2t = σ ˆ2 T −1 X x2t = (T − 1)ˆ σ2
Multiplicamos de ambos lados por 1/σ 2 : 1 X 2 σ ˆ2 x = (T − 1) t σ2 σ2 X xt 2 σ ˆ2 = (T − 1) 2 σ {z } |σ [N (0,1)]2
∼ χ2T −1 g.l.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
106
Pero m´as importante es destacar que el lado derecho se distribuye como una χ2 :
(T − 1)
σ ˆ2 ∼ χ2T −1 g.l. 2 σ
(2.16)
¿Para qu´e sirve este resultado? Pues a´un nos faltan algunos elementos para poder responder a esta pregunta (si bien es e´ ste el que usamos para mostrar la distribuci´on de los estad´ısticos t anteriormente). Ahora suponga que tenemos dos procesos como el anterior; dos variables aleatorias independientes entre s´ı x, z, ambas N (0, σi2 ) para i = z, x. Del resultado obtenido, podemos deducir lo siguiente:
σ ˆx2 (T1 − 1) 2 ∼ χ2T1 −1 g.l. σx σ ˆ2 (T2 − 1) z2 ∼ χ2T2 −1 g.l. σz Teniendo dos χ2 y fundamentados en la definici´on (9) podemos construir una distribuci´on F: h
i 2 (T1 − 1) σσˆx2 /(T1 − 1) x h i ∼ FT1 −1,T2 −1 σ ˆz2 (T2 − 1) σ2 /(T2 − 1) z
σ ˆx2 /σx2 ∼ FT1 −1,T2 −1 σ ˆz2 /σz2
Este resultado es, al menos potencialmente, muy interesante. Pero el hecho es que no lo podr´ıamos calcular, puesto que desconocemos las verdaderas varianzas de ambas variables. No obstante, podr´ıamos formular una hip´otesis, la hip´otesis nula de hecho, que estipulara que las varianzas de ambos procesos son iguales. Con ello estar´ıamos creando una prueba estad´ıstica de igualdad de varianzas entre dos procesos: ¿Qu´e pasa si σx2 = σz2 ?
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
107
σ ˆx2 /σx2 σ ˆx2 = σ ˆz2 /σx2 σ ˆz2 σ ˆx2 ∼ FT1 −1 g.l.,T2 −1 g.l. σ ˆz2
(2.17)
De ser cierta H0 , el2 c´alculo resultado de dividir los estimadores de las varianzas de ambos procesos, σσˆˆx2 no s´olo deber´ıa distribuirse como una F de Fisher, sino que z adem´as deber´ıa ser cercano a la unidad. Es importante entender que si la hip´otesis nula no es cierta, entonces la simplificaci´on que hicimos en la ecuaci´on (2.17) resultar´ıa err´onea, por lo que nuestro estad´ıstico de prueba ya no se distribuir´ıa como F. Cabe destacar que la F se calcula por convenci´on con el estimador de varianza mayor arriba y el menor abajo, de tal forma que el coeficiente quede siempre mayor a 1, mucho mayor si la hip´otesis nula no es cierta.
0.7 0.6 0.5 0.4
Distribución F4,7,g.l.
0.3 0.2 0.1 0 0
1
2
3
4
5
6
7
8
9
Figura 2.13: Distribuci´on de Fisher
Hasta aqu´ı, sabemos hacer ya una prueba de igualdad de varianzas, pero...¿para qu´e nos puede servir e´ sta? Pues ahora veremos como aplicarla a nuestro modelo de regresi´on estimado. Al derivar la R2 , partimos de la siguiente expresi´on: X
(yt − y¯)2 =
SCT =
X
(yt − yˆt )2 + SCE
+
X
(yˆt − y¯)2 SCR
108
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Dicha expresi´on nos puede servir para asignar los grados de libertad a cada suma cuadr´atica. Los elementos que aparecen en ella constituyen, en cada caso, un preludio de c´alculo de varianza. 1. Al primero, SCT , resulta f´acil asignarle los g.l. correspondientes; Para su elaboraci´on se emplean las T observaciones de yt , por lo que hay T grados de libertad. No obstante, como empleamos en dicho c´alculo un estimador de la media, se pierde uno. As´ı pues, al final s´olo nos quedan T − 1 grados de libertad (ver demostraci´on en la secci´on anterior). 2. Ya tenemos los grados de libertad del lado izquierdo de la expresi´on. Del lado derecho, en conjunto, debe haber el mismo n´umero de g.l. Podemos empezar con el primer t´ermino de la expresi´on, SCE. e´ ste no es otra cosa m´as que la f´ormula—incompleta—del estimador de la varianza; por lo mismo, ya sabemos cuantos grados de libertad tiene: T g.l. menos los dos que se pierden por haber estimado α y β. Nos quedan pues T − 2 grados de libertad. 3. En cuanto al tercer elemento, SCR, es dif´ıcil indagar cuales son sus grados de libertad directamente. No obstante, dado que tales grados deben ser iguales a la izquierda y a la derecha del signo de igualdad, sabemos que T − 1 = g.l.SCR + T − 2. As´ı, resolviendo tan sencilla expresi´on, descubrimos que SCR tiene 1 grado de libertad.
SCT = SCR + SCE T − 1 g.l. = 1 g.l. + T − 2 g.l. Ahora bien, para acercarnos m´as a la distribuci´on F debemos encontrar, en primer lugar, variables que se distribuyan como χ2 . Empecemos con SCE, la Suma de Cuadrados del Error. Al estudiar la R2 anteriormente, hab´ıamos visto que: X SCE = uˆ2t
Dividiendo por los grados de libertad... P 2 SCE uˆt = T −2 T −2 = σ ˆ2
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
109
Manipulando un poco m´as, SCE = σ ˆ 2 · (T − 2) SCE σ ˆ2 = (T − 2) σ2 σ2 Y por lo que demostramos en la secci´on anterior: SCE ∼ χ2T −2, g.l. 2 σ Ya tenemos nuestra primera χ2 . Nada m´as falta la otra. Veamos ahora SCR, la Suma de Cuadrados de la Regresi´on. Recordemos la ecuaci´ Pon (2.15); con base en ella, podemos aprovecharnos del hecho que SCR = βˆ2 (xt − x¯)2 . Ahora bien, ¿qu´e representa esta ecuaci´on? Calculemos su esperanza:31 Necesitaremos, para ello: P 1. βˆ = β + Kt ut P 2 2. Kt = P (x1−¯x)2 t
El segundo t´ermino, lo manipulamos un poco para hacer m´as evidente su uso en las operaciones ulteriores: X
1 (xt − x¯)2 = P 2 Kt Ahora s´ı, retomando la expresi´on cuya esperanza queremos calcular y reemplazando sus elementos por lo arriba explicitado: βˆ2
X
(xt − x¯)2 =
Desarroll´andolo:
β+
X
K t ut
2
2 1 X β+ K t ut P 2 Kt
P P β2 2β Kt ut [ Kt ut ]2 1 P 2 = P 2+ P 2 + P 2 Kt Kt Kt Kt
Ahora s´ı, apliquemos el operador esperanza a cada uno de los tres t´erminos que aparecen. 31
Cortes´ıa de Adriana del Roc´ıo Montelongo Jaime.
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
110 2
1. En PβK 2 s´olo aparecen el par´ametro verdadero y las Xs que son no estoc´astit cas, por lo que todo sale del operador esperanza: β2 β2 E P 2 =P 2 Kt Kt
2. En el segundo t´ermino, pasa igual, con la excepci´on de ut cuya esperanza es nula, por lo que:
P P 2β Kt E (ut ) 2β Kt ut P 2 P 2 = Kt Kt = 0
3. El tercer elemento requiere m´as trabajo. Primero, hay que sacar a lo no estoc´astico del operador esperanza: "P # X 2 [ K t ut ] 2 1 P 2 E = P 2E K t ut Kt Kt
La esperanza sobrante, la podemos desarrollar: E
X
K t ut
2
= E K12 u21 + K22 u22 + . . . + KT2 u2T + T e´rminos Cruzados
Usando el supuesto de Homoscedasticidad as´ı como el de No-autocorrelaci´on, vemos que:
E
X
K t ut
2
= E K12 σ 2 + K22 σ 2 + . . . + KT2 σ 2 X Kt2 = σ2
Ya podemos reagruparlos. De hecho, nos queda la siguiente expresi´on:
´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE
E βˆ2
111
X X β2 1 2 2 P P (xt − x¯) = Kt2 + σ 2 2 Kt Kt 2 β = P 2 + σ2 K Xt 2 (xt − x¯)2 + σ 2 = β
Lo sorprendente es que esta u´ ltima expresi´on no es otra cosa sino un estimador— sesgado, eso s´ı—de la varianza. Supongamos ahora que el par´ametro β es igual a cero; eso nos coloca bajo lo que denominaremos la hip´otesis nula de esta prueba. Si dicho par´ametro es cero, entonces: X E βˆ2 (xt − x¯)2 = σ 2 ,
lo que convierte a la expresi´on en un estimador I NSESGADO , D ISTINTO E I NDE ´ ;32 PENDIENTE DEL OTRO E STIMADOR DE L A VARIANZA DE LA R EGRESI ON lo denominaremos, para distinguirlo del cl´asico, σ ˆa2 . Si a la expresi´on la multiplicamos por sus grados de libertad (que son iguales a 1) y la dividimos por la verdadera varianza, obtenemos: X 2 (xt − x¯) = σ ˆa2 1 X σ ˆ2 (xt − x¯)2 · 2 = a2 · 1 βˆ2 σ σ
βˆ2
Ya sabemos, como en el caso anterior, que eso tiene una distribuci´on χ2 :
βˆ2
X
1 (xt − x¯)2 · 2 ∼ χ21, g.l. σ
Ya s´olo resta construir nuestra distribuci´on F. Es importante recordar que la segunda χ2 s´olo es cierta bajo Ho : β = 0. Dividamos pues nuestras distribuciones χ2 , 32
Ver Teorema 6, 93.
112
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
no sin antes normalizarlas por sus grados de libertad, como se˜nala la definici´on de la distribuci´on F:33 (SCR/σ 2 ) /1 SCR = 2 (SCE/σ ) / (T − 2) SCE/ (T − 2) SCR = σ ˆ2 ∼ F1, T −2, g.l. ¿Todo esto de qu´e nos sirve?, ¿qu´e prueba estamos haciendo? La distribuci´on F s´olo se producir´a si, en la χ2 del numerador la hip´otesis nula es cierta. Dicho esto, podemos establecer ya formalmente la prueba: Ho : β = 0 Ha : β 6= 0 P SCR βˆ2 (xt − x¯)2 F = = ∼ F1, T −2 g.l. σ ˆ2 σ ˆ2 Resumiendo, y tambi´en abusando de la pobre lengua espa˜nola, la prueba F nos dice qu´e tanto explicamos la variabilidad de la variable dependiente con nuestra regresi´on; puede ser vista como una prueba de pertinencia del modelo. M´as adelante, este mismo enfoque nos servir´a para dise˜nar pruebas m´as complejas, que involucren a m´as par´ametros simult´aneamente.
2.8.4. An´alisis de Varianza o ANOVA Esta secci´on ser´a muy corta. En realidad nos serviremos de todos los resultados anteriores para llenar una tabla en la que estudiamos a fondo nuestro modelo. A dicho cuadro se le denomina com´unmente ANOVA; sus componentes son los siguientes: Esta tabla, como ya dijimos resume gran parte de los desarrollos anteriores. Es importante tener claro todo lo que en ella aparece, pues eso nos permitir´a leer pr´acticamente toda la informaci´on que aparece al correr una regresi´on en cualquier paquete est´andar de econometr´ıa, como lo es el G RETL. 33
Al lector inquieto le habr´a llamado la atenci´on el orden en que se dispuso el quebrado. Se coloc´o SCR en el numerador y no en el denominador porque, en caso de ser falsa la hip´otesis nula, e esto es siempre cierto? SCR > SCE T −2 . ¿Por qu´
´ 2.9. LA FALACIA DE LA REGRESION Fuente de Variaci´on Regresi´on (SCR) No explicada (SCE)
Total SCT
113
Suma de Cuadrados, SC
grados de libertad, gl
P
(yˆt − y¯)2
k−1
P
(yt − y¯)2
P ˆ2 Ut
T −2 T −1
SC gl
P βˆ2 (xt − x¯)2 σ ˆ2
σ ˆy2
Cuadro 2.2: An´alisis de Varianza (ANOVA). Enti´endase k como el n´umero de par´ametros en la especificaci´on, inclu´ıda la constante.
2.9.
La Falacia de la regresi´on “N ON C AUSA P RO C AUSA”
La falacia de la regresi´on es el resultado de un fen´omeno estad´ıstico conocido co´ A LA M EDIA”. Por “media” se entiende el promedio de alguna mo “R EGRESI ON variable en una poblaci´on determinada. “Regresi´on” en este contexto indica la tendencia de los valores o realizaci´on de la variable a acercarse a la media, o tender hacia la media, alej´andose de valores extremos. Por ende, regresi´on a la media indica la tendencia que tienen algunas variables a desplazarse hacia la media, alej´andose de tales valores extremos.34 Algunos ejemplos reveladores pueden ser: ´ M AS ´ SOBRE LAS CALIFICACIONES : Recuerde a nuestro ilustre Ejemplo 4 A UN alumno, Equis Arriaga. Finalmente obtuvo todas sus calificaciones del 7o semestre. Descubri´o que le hab´ıa ido especialmente mal (reprob´o cuatro de siete materias y en las que aprob´o lo hizo con calificaci´on apenas aprobatoria de siete). Cuando fue a enterar a sus padres adoptivos, el Sr. Ye y la Se˜nora Zeta de Ye, e´ stos lo reprendieron, le quitaron el coche y el dinero para el transporte p´ublico (que se desplazara a pie, para que meditara profundamente), le prohibieron ir a fiestas y le quitaron su “I-pod”. En octavo semestre, Equis obtuvo calificaciones muy parecidas a las que hab´ıa obtenido en los primeros 6 semestres (pas´o 1 materia en extraordinario y las 34
Fuente: Tim van Gelder, Critical Reflections y Thomas Gilovich, How We Know What Isn’t So: The Fallibility of Human Reason in Everyday Life
114
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
dem´as las volvi´o a cursar, aprob´andolas, en el peor de los casos, con 8, siendo su promedio general de 8.5). Los padres, al enterarse, se felicitaron mucho de haber impuesto un castigo tan ejemplar a su hijo, creyendo que fue e´ ste el que provoc´o la mejora de sus calificaciones. Si asumimos que las calificaciones obedecen a las leyes de la probabilidad, entonces habr´a que advertir a tales padres que el castigo impuesto nada tuvo que ver con la mejor´ıa en las calificaciones. En realidad, lo que ocurri´o fue que s´eptimo semestre fue un realizaci´on mala at´ıpica y ya despu´es, por la consabida Regresi´on a la Media, todo volvi´o a la normalidad en el 8o semestre. La tendencia de la gente a ver relaciones entre sus acciones y supuestas reacciones es, en muchas ocasiones, resultado de la falacia de la regresi´on. Es importante tomar esto en cuenta antes de saltar a conclusiones precipitadamente. Ejemplo 5 C HARLATANES Y CURAS MILAGROSAS : Uno de los campos donde el fen´omeno de la falacia de la regresi´on es m´as f´ertil, es en el de la enfermedad. ¿Qui´en no ha escuchado a personas jurar y perjurar que, estando grav´ısimos, acudieron a un medico brujo o a una terapia nada ortodoxa (ingesta de orina, intervenci´on quir´urgica “ps´ıquica”-es decir, sin bistur´ı) y sintieron en consecuencia un gran alivio en sus s´ıntomas? La explicaci´on a este fen´omeno obedece nuevamente a la regresi´on a la media. Cuando las personas acuden a tales extremos (como ir a hacerse una limpia) suele coincidir con la etapa m´as cr´ıtica de la enfermedad. En dicha etapa, los s´ıntomas son m´as virulentos, y, en tiempos posteriores, se aten´uan por su regresi´on a los s´ıntomas medios. La gente, al ver la atenuaci´on, la atribuye injusta y err´oneamente al curandero. Ejemplo 6 G ALTON Y LA ESTATURAS EN LA SOCIEDAD : El concepto de regresi´on a la media proviene de Galton, quien, en un estudio “descubri´o” que los hijos de padres altos (chaparros) no lo eran tanto como dichos padres. Es decir que las generaciones m´as j´ovenes tend´ıan a la media. A esto le llam´o la regresi´on a la mediocridad.
2.10.
Problemas de la Econometr´ıa
2.10.1. El problema de la agregaci´on Una cuesti´on espinosa en econometr´ıa es la de la agregaci´on. Generalmente, en los modelos econ´omicos se trabaja usando un agente representativo de vida infinita. Lo anterior se hace debido a obvias cuestiones de simplificaci´on y a que se puede interpretar la vida infinita como una dinast´ıa (una familia cuyos miembros muertos
´ 2.10. PROBLEMAS DE LA ECONOMETRIA
115
se van sustituyendo por otros que nacen). Tal estrategia ha resultado adecuada para poder llevar a cabo un an´alisis u´ til de la din´amica econ´omica; no obstante, como ya lo hab´ıamos se˜nalado desde el principio del curso, tarde o temprano es necesario cotejar lo dicho por la teor´ıa con los datos recolectados en la pr´actica. La econometr´ıa es un veh´ıculo para llevar a cabo tal escrutinio de la teor´ıa, pero...¿Qu´e tan f´acil es hacerlo? Las t´ecnicas son, en parte, las que hemos estado estudiando a lo largo del curso, y si bien no son elementales, su dominio tampoco resulta tan dif´ıcil. El problema que aqu´ı desarrollamos estriba en los datos. Hasta ahora los ejemplos que hemos puesto los hemos llevado a la pr´actica mediante ecuaciones macroecon´omicas cuyas variables son agregadas. Imaginemos por ejemplo una sencilla funci´on de consumo elaborada por un economista algo pasado de moda... Cit = αi + βi · yit + uit La raz´on del doble sub´ındice obedece a la inspiraci´on microecon´omica de la ecuaci´on. Se trata del consumo del individuo i en el tiempo t; e´ ste tiene su propio “Consumo M´ınimo” as´ı como su propia Propensi´on Marginal a Consumir. Cuando le muestra a su colega econometrista la funci´on que invent´o y le pide que se cerciore de su validez mediante una estimaci´on, empiezan los problemas. El econometrista tiene en mente estimar Ct = α + βyt + ut ; se dirigir´a r´apidamente a la p´agina de internet del servicio de informaci´on estad´ıstica y descargar´a los datos de consumo e ingreso de la econom´ıa que le interese. Quiz´a ni se detenga a pensar que los datos que ha obtenido corresponden a variables macroecon´omicas o agregadas. No tiene el consumo de un individuo en el tiempo t, sino la suma de los consumos de todas las personas en el tiempo t. Lo mismo ocurre con el ingreso. Lo grave del asunto es que, para pasar del individuo a la sociedad en su conjunto sin que la ecuaci´on del economista pierda validez, es necesario incluir m´as supuestos que no resultan f´aciles de digerir. Si sumamos los datos para tener la versi´on agregada de las variables, I X
def
Cit = Ct
i=1
donde I es el n´umeros de individuos que componen a la sociedad... aprovechando la especificaci´on, podemos ver que pasa del lado derecho de la expresi´on:
Ct =
I X i=1
αi +
I X i=1
βi yit +
I X i=1
uit
116
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Esta expresi´on no se parece tanto a la que el econometrista pensaba estimar; para que s´ı sea parecida, tendr´a que asumir, impl´ıcitamente lo siguiente: 1. αi = α ∀ i = 1, 2, . . . , I 2. βi = β ∀ i = 1, 2, . . . , I Expresado en palabras m´as sencillas, el econometrista asumir´a impl´ıcitamente (y a veces sin pensarlo) que todos los individuos tienen un consumo m´ınimo (supuesto no tan descabellado) as´ı como una misma propensi´on marginal a consumir , lo que resulta m´as dif´ıcil de sostener. ¿Es grave este problema? En realidad depende del escenario. En algunos casos, los supuestos adicionales requeridos para llevar a cabo la estimaci´on son razonables, pero en todo caso merman la capacidad de validaci´on que tiene la econometr´ıa. Aclaramos que esto ocurre en TODAS LAS DISCIPLINAS CIENT ´I FICAS ; los instrumentos de medici´ on usados para verificar teor´ıas en biolog´ıa, f´ısica, qu´ımica,etc... son a su vez productos derivados de alguna teor´ıa que, como siempre, usa axiomas—por definici´on no demostrables. Si el resultado de la medici´on no es favorable a la teor´ıa postulada, siempre se le puede echar la culpa a los instrumentos de medici´on. Claro est´a, en alg´un momento hay que ser razonables y aceptar que una teor´ıa no sirve, pero lo dif´ıcil es saber distinguir ese momento. El economista siempre podr´a arg¨uir que la t´ecnica econom´etrica es la causante del fallo de la evidencia, pero si los intentos por apoyar su idea recaen reiteradamente en fracasos, tendr´a que regresar y pensarle m´as a su teor´ıa. En todo caso, el problema concreto aqu´ı se˜nalado ha encontrado una soluci´on fant´astica gracias al advenimiento de la tecnolog´ıa. Hoy en d´ıa es posible encontrar datos desagregados hasta el nivel individual. Se emplea entonces una serie de t´ecnicas econom´etricas particularizadas para la naturaleza de estos datos: estamos hablando de microeconometr´ıa y para fortuna de ustedes, la podr´an estudiar en la parte m´as avanzada del curso.
´ 2.10.2. Una intuici´on sobre el ultimo supuesto: estacionariedad Poco hemos hablado hasta ahora del u´ ltimo supuesto, el de estacionariedad. El hecho es que, en series temporales, es decir, en series en las que se tiene una observaci´on particular del proceso en cada momento del tiempo, la no-estacionariedad resulta muy frecuente. Primero, recordemos en que consiste dicho supuesto:
´ 2.10. PROBLEMAS DE LA ECONOMETRIA
117
´ E STACIONARIEDAD ( D EBIL ): Las variables no tienen un componente de tendencia estoc´astico ni determinista: E (yt ) = µ para todo t E (yt − µ) (yt−j − µ) = γj para todo t y cualquier j Si leemos con cuidado las expresiones de arriba, podremos ver que la estacionariedad d´ebil b´asicamente estipula que una serie siempre tiene la misma media, ya sea que se tomen los datos del principio de la muestra, los de en medio o los del final. Lo mismo ocurre con la varianza (t´omese el sub´ındice j = 0); e´ sta no debe depender del tiempo. Pero es f´acil imaginar casos en los que esto no ocurre en econom´ıa. Suponga que usted quiere estimar una especificaci´on en la que la variable riqueza est´e involucrada. tiene datos de dicha riqueza por habitante desde 1900 hasta el 2000. Vea dicha variable en el siguiente gr´afico:
PIB per cápita en México
Dólares PPC base 1970
1400
Y = 253. − 0.232t + 0.114t^2
1200 1000 800 600 400 200 1900
1920
1940
1960
1980
2000
Año
Figura 2.14: PIB per c´apita en M´exico, 1900-2000. Fuente: The Montevideo-Oxford Latin American Economic History Database (http://oxlad.qeh.ox.ac.uk).
Notar´a cuan obvio es que la esperanza de dicho proceso no es la misma a lo largo del tiempo. Esa serie no respeta lo establecido en la definici´on de estacionariedad d´ebil; no es, por tanto, una variable estacionaria. Nuevamente, los detalles respecto
118
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
a las consecuencias de este problema se ver´an en An´alisis de Series de Tiempo, pero es importante retener que si las series con las que queremos trabajar tienen una naturaleza parecida a la que inventamos ahora, T ODA LA E CONOMETR ´I A ´ C L ASICA N O S IRVE. La soluci´on al problema, ¡porque la hay!, tambi´en se estudia en series de tiempo. En la segunda parte este manual se aborda, no obstante, con un poco m´as de detalle esta cuesti´on (vea la p´agina 371).
2.10.3. Algunas observaciones al respecto La intenci´on al mostrarles estos dos problemas ya cl´asicos en econometr´ıa es motivarlos a profundizar sus conocimientos en la materia. El hecho es que, antes de acceder a las t´ecnicas m´as avanzadas de la disciplina, es necesario conocer y entender las b´asicas. No se puede correr antes de aprender a caminar. La econometr´ıa es un m´etodo emp´ırico importante en econom´ıa. Todo aquel que desee llevar sus conocimientos a la pr´actica deber´a sopesar seriamente la posibilidad de estudiar mucha econometr´ıa.
2.11.
Formas funcionales y especificaci´on
Nuestra atenci´on ha sido puesta hasta ahora en las propiedades del modelo de regresi´on y en algunos m´etodos de inferencia estad´ıstica que de e´ l se derivan. Dicha informaci´on nos puede parecer un tanto a´ rida, pero resulta fundamental si queremos ser capaces de examinar con pericia nuestras estimaciones. El objetivo es formar un criterio verdaderamente informado y no s´olo a un usuario cuya u´ nica virtud sea saber apretar botones. Vamos a darnos un peque˜no respiro e introducirnos m´as en el terreno de la econometr´ıa aplicada. Hemos hecho un uso extensivo—y quiz´a podr´ıamos decir abusivo—del primer supuesto. e´ ste nos se˜nala que si queremos que todo salga bien, es imprescindible que la especificaci´on sea correcta. Es ya de por s´ı dif´ıcil saber cuales son las variables pertinentes al momento de dise˜nar nuestra especificaci´on, pero si a eso le agregamos el—muy restrictivo—supuesto de linealidad, entonces nuestro campo de acci´on queda verdaderamente restringido. Pocos fen´omenos en la naturaleza son lineales.35 ¿Qu´e hacer con nuestro pobre modelo lineal?,36 ¿qu´e nos asegura que la relaci´on entre x y y es lineal?, ¿Qu´e pasa si eso no es cierto? Algunas situaciones son franqueables; es posible seguir respetando 35
La naturaleza incluye, claro est´a, a los fen´omenos socio-econ´omicos. No obstante, es importante se˜nalar que muchos de los fen´omenos de inter´es s´ı que pueden aproximarse adecuadamente con especificaciones lineales; no se trata tampoco de un caso perdido. 36
´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION
119
nuestro primer supuesto mientras los par´ametros permanezcan lineales, a´un si las variables y y x ya no lo son. Otra soluci´on es utilizar m´etodos de estimaci´on NoLineales; pero esa soluci´on la estudiaremos m´as tarde. En esta secci´on hablaremos mejor de algunos trucos de que disponen los econometristas para tratar fen´omenos que se resisten a MCO por su no-linealidad. Concretamente, hablaremos de cuatro modelos distintos: 1. El modelo Log-Log 2. El modelo Log-Lin 3. El modelo Lin-Log 4. El modelo Rec´ıproco
2.11.1. El Modelo Log-Log Los logaritmos constituyen una herramienta matem´atica muy frecuentemente utilizada en ciencias aplicadas; la econom´ıa no es la excepci´on. De hecho, ya para cuestiones econom´etricas, su cercan´ıa con el important´ısimo concepto de elasticidad, hace de las especificaciones logar´ıtmicas, un arma muy usada en este campo. Consid´erese ahora la siguiente especificaci´on, yt = αo xβt exp (ut ) Bajo esta forma, no es posible usar MCO. Mas si le aplicamos logaritmos:
ln (yt ) = ln(αo ) + β ln (xt ) + ut ln (yt ) = α + β ln (xt ) + ut donde α = ln (αo ) es una simple reparametrizaci´on. Obtenemos una nueva especificaci´on, que es lineal en los par´ametros (pero no en las variables, por cierto) y por ende puede ser estimada por MCO. La popularidad de esta transformaci´on se debe a que, al llevarla a cabo, el par´ametro estimado, βˆ se convierte autom´aticamente en un estimador de la elasticidad de la variable y con respecto a la variable x. Vale la pena recordar como se calcula una elasticidad: ξy/x =
∂y x ∂x y
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
120
Pero nosotros transformamos los datos al aplicarles el logaritmo; podr´ıamos intentar sacar la derivada con lo que tenemos:37 ∂ln y ∂(α + βln x) β = = ∂x ∂x x Si usamos una regla de la cadena, podr´ıamos desarrollar de forma distinta a esta derivada: ∂ln y ∂ln y ∂y = ∂x ∂y ∂x 1 ∂y = y ∂x Igualando con el resultado anterior... 1 ∂y β = y ∂x x ... y reacomod´ando los t´erminos, obtenemos: ∂y x ∂x y ≡ ξy/x
β =
Queda claro as´ı que β es la elasticidad de y/x y que por ende βˆ se convierte en un estimador de dicha elasticidad. e´ sta es asumida constante a lo largo de toda la muestra.38 ¿C´omo podr´ıamos identificar esta especificaci´on? Si bien hay m´etodos m´as sofisticados, se sugieren dos muy f´aciles de poner en obra: 1. Visualmente, a trav´es de diagramas de dispersi´on 2. Cuantitativamente, mediante comparaci´on de medidas de bondad del ajuste, como la R2 37
En esta secci´on aplicamos la t´ecnica de diferenciaci´on logar´ıtmica, misma que resulta muy c´omoda cuando la expresi´on a derivar es complicada. 38 Lo anterior puede, de hecho, constituir un problema
´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION
121
2.11.2. El Modelo Log-Lin Es posible que la transformaci´on adecuada para hacer lineal la relaci´on entre las variables no incluya a todas las variables. Ante esta eventualidad, nace la idea de s´olo transformar una de las series. Empezaremos transformando u´ nicamente a la variable dependiente—modelo log-lin. Teniendo en cuenta lo visto en la secci´on anterior, resulta muy f´acil intuir la forma del modelo Log-lin. Su justificaci´on obedecer´ıa a especificaciones de la forma: yt = exp (α + βxt + ut ) Resulta obvio que, al aplicar logaritmos a esta u´ ltima, obtenemos: ln (yt ) = α + βxt + ut Una vez m´as, intentemos extraer de esta especificaci´on una f´ormula para la elasticidad entre y y x. Empecemos con la derivada: ∂ln yt =β ∂xt Y completemos con la regla de la cadena: ∂ln y ∂ln y ∂y = ∂x ∂y ∂x 1 ∂y = y ∂x Al igualarlo con el resultado anterior, obtenemos 1 ∂yt =β y ∂xt Dicha expresi´on, no corresponde a´un a la f´ormula de la elasticidad; para ello, habr´ıa que multiplicar por x. Se nos presentan dos opciones: 1. Multiplicar por xt :
xt ∂yt = xt · β y ∂xt xt · β ≡ ξy/x
122
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION En este caso obtendr´ıamos una elasticidad que se va modificando conforme la variable x evoluciona.
2. Multiplicar por x¯:
x¯ ∂yt = x¯ · β y ∂xt x¯ · β ≡ ξy/x Con ello obtendr´ıamos un “promedio” para todo el per´ıodo de la elasticidad. xt ∂yt yt ∂xt Podemos encontrar una elasticidad para cada observaci´on. βxt =
ˆ t ǫˆyt /xt = βx
2.11.3. El Modelo Lin-Log ´ se derivar´ıa de un modelo de la La transformaci´on opuesta tambi´en es factible. Esta siguiente naturaleza: exp (yt ) = α0 × β0 exp (ln xt ) × exp (ut ) ln exp (yt ) = ln [α0 × β0 exp (ln xt ) × exp (ut )] yt = ln α0 + ln β0 ln xt + ut | {z } |{z} α
β
= α + β ln xt + ut
Se calcula, otra vez, la derivada y se iguala con el resultado de aplicar la regla de la cadena y se obtiene: x·
∂yt =β ∂xt
En esta ocasi´on, para obtener la elasticidad, hay que multiplicar, ya sea por y1t o bien por y1¯ seg´un se desee una elasticidad cambiante o en promedio, respectivamente.
´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION
ξˆy/x =
(
βˆ yt βˆ y¯
123
V ariante P romedio
2.11.4. El Modelo Rec´ıproco El modelo rec´ıproco, como su nombre lo indica, se especifica de la siguiente manera: 1 + ut xt Si bien la relaci´on entre las variables x y y no es lineal, el modelo que las une s´ı lo es y por consiguiente, se vuelve susceptible de ser estimado por MCO. Una caracter´ıstica importante de este modelo es que, conforme la variable independiente aumente, el t´ermino β x1t tender´a a cero. Lo anterior implica que, para valores sua ficientemente grandes39 de xt , yt = α. La utilidad de este tipo de especificaci´on quiz´a no sea evidente, no obstante, no resulta muy dif´ıcil pensar en relaciones de variables que funcionen as´ı. Un extraordinario ejemplo de tal tipo de relaci´on puede encontrarse en la relaci´on que parecen guardar el PIB per c´apita por un lado y la esperanza de vida (lo mismo pordr´ıa decirse si sustituimos esta u´ ltima variable por mortalidad infantil, tasa de fertilidad, n´umero de tel´efono por cada 100 habitantes. . . ).40 Desarrollemos un ejemplo sencillo para ver esta relaci´on. aprovecharemos dicho ejemplo para hablar un poco m´as de la cuesti´on relativa a la modelizaci´on econom´etrica: Esperanza de vida e Ingreso per c´apita (Datos de 2007).41 Retomemos nuestro ejemplo (visto al principio) referente a la relaci´on entre ingreso per c´apita y esperanza de vida. Obtuvimos evidencia gr´afica de tal relaci´on. Recordamos asimismo que no se ha mencionado la palabra “C AUSALIDAD ”, sino simplemente ´ ”. Nuestro diagrama de dispersi´on era: “R ELACI ON yt = α + β ×
Note como la tendencia positiva en la relaci´on es ahora m´as obvia. Tambi´en resulta mucho m´as obvio que la l´ınea es incapaz de pasar por todos los puntos (dejar´ıa de 39
Hacemos caso omiso del t´ermino de error por un momento. Otro ejemplo t´ıpico de relaciones inversas puede encontrarse en la literatura de relativa a la Curva de Phillips. 41 Medida en Paridad Poder de Compra, PPC. 40
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
Esperanza de Vida (medida en años)
124 85
80
75
70
65
60
10,000
20,000 30,000 Ingreso per cápita (medido en Dólares PPP)
40,000
50,000
Figura 2.15: Ingreso per c´apita y esperanza de vida en 220 pa´ıses (excepto algunos en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook. ser una l´ınea, claro est´a). Esto resulta de que nuestro an´alisis es, muy probablemente, incompleto. La educaci´on y el presupuesto de cada gobierno destinado a salud podr´ıan ser otras dos variables de suma importancia que valdr´ıa la pena considerar. No obstante, a´un incorpor´andolas el ajuste no ser´ıa perfecto, ni mucho menos. Las causas que explican la esperanza de vida son, si bien no infinitas, s´ı muchas. No podemos esperar incorporarlas todas. Adem´as, no todas son tan importantes; la incidencia de algunas de ellas es marginal. Podr´ıamos tratar de encontrar un equilibrio en el que el grueso del comportamiento de la esperanza de vida est´e: explicado con relativamente pocas variables (3 o´ 4)y que lo que falte incida poco: ligeras desviaciones de la recta, unas “arriba” otras “abajo”, de manera balanceada; todas a “m´as o menos la misma distancia de dicha recta”; errores sin ning´un patr´on particular. Estas tres caracter´ısticas son, de hecho, objeto de mucho estudio. Sus nombres t´ecnicos ya los conocemos, de hecho; son: (i) Correcta especificaci´on del modelo; (ii)
´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION
125
Esperanza nula del t´ermino de error; (iii) Homoscedasticidad, e; (iv) independencia. yt = α + βxt + ut El hecho es que con datos disponibles obtenemos lo siguiente: ˆ t + uˆt yt = α ˆ + βx Los resultados num´ericos de dicha estimaci´on son: yt = 62.78 + 0.0004xt Note que no se incluye el t´ermino de error, dado que hay uno distinto para cada observaci´on y no es relevante indicar alguno en particular. ¿Qu´e nos dice esta ecuaci´on? Pues b´asicamente que, cuando el ingreso es muy bajo, la esperanza de vida ser´ıa de aproximadamente 63 a˜nos. De igual forma, por cada d´olar adicional que se obtenga de ingreso, la esperanza de vida aumenta en 0.0004 a˜nos, es decir: 3 horas con 30 minutos. Ello permite inferencia muy interesante: Si el ingreso de M´exico aumentara de 12, 500 d´olares a 15, 000, podr´ıamos esperar que la esperanza de vida creciera en un a˜no, para situarse en 76.63 a˜nos. Todo este an´alisis, si bien es sencillo, parece adecuado. Pero tiene deficiencias obvias. As´ı como est´a planteado el modelo, existen implicaciones completamente inveros´ımiles. Por ejemplo, un pa´ıs con un ingreso per c´apita de 150, 000 d´olares deber´ıa tener una esperanza de vida cercana a... ¡122.78 a˜nos! Resulta obvio que, al menos actualmente, un pa´ıs no puede esperar que su poblaci´on sea tan longeva. El aumento del ingreso per c´apita no puede tener siempre el mismo efecto sobre la edad esperada. Al contrario: entre m´as rica sea una poblaci´on, un aumento de su ingreso incidir´a cada vez menos sobre su esperanza de vida: a esto le podr´ıamos llamar: “R ENDIMIENTOS D ECRECIENTES M ARGINALES ” Podr´ıamos tratar de arreglar eso ¿Qu´e les parece la siguiente especificaci´on? yt = α + β
1 + ut xt
Supongan que β < 0. Cuando aumenta el ingreso, x1t disminuye; al multiplicarlo por nuestro par´ametro negativo, la resta se har´ıa m´as chica. Si lo estimamos as´ı, obtendr´ıamos, de hecho:
´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION
126
1 xt Esto nos da resultados m´as l´ogicos. Por ejemplo, seg´un nuestro modelo, un pa´ıs como M´exico deber´ıa tener una esperanza de vida cercana a 72.6 a˜nos, mientras que un pa´ıs con un ingreso muy alto no podr´ıa esperar a tener una esperanza de vida mayor a 74 a˜nos. Evidentemente este modelo tambi´en tiene limitaciones; hay muchos pa´ıses con esperanzas superiores a esos 74 a˜nos; no obstante, es posible que esos a˜nos adicionales no provengan de un alto ingreso, sino m´as bien de otras cuestiones, tales como el sistema de salud, la condici´on de equidad de g´enero, la educaci´on, etc... He aqu´ı otro ejemplo sencillo de relaci´on inversa. Se trata de Argentina, con datos de 1989 al a˜no 2000.42 yt = 73.92 − 16, 400
−2
−2.5
−3
−3.5 0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.3
0.31
0.32
Figura 2.16: Tasa de analfabetismo vs PIB per c´apita (invertido) en Argentina. Note que es posible hacer combinaciones del modelo inverso con las especificaciones logar´ıtmicas. Lo anterior da pie a relaciones—entre variables—en extremo no-lineales, pero susceptibles de ser modeladas mediante MCO.
42
Fuente: Oxford Latin American Economic History Database.
Cap´ıtulo 3 ´ El Modelo de Regresi´on Multiple La primera parte del curso ha sido desarrollada mediante un modelo de regresi´on con una sola variable explicativa. Este u´ ltimo permite presentar los resultados m´as importantes en un marco sumamente sencillo. Tenemos una idea clara de las propiedades del m´etodo de estimaci´on, as´ı como de sus caracter´ısticas y sus ventajas y del uso que le podemos dar. No obstante, resulta evidente que las especificaciones susceptibles de ser u´ tiles en econom´ıa aplicada rara vez son tan sencillas. A partir de aqu´ı iniciaremos la generalizaci´on de MCO al permitir m´as variables explicativas. As´ı podremos usar MCO para estimar relaciones m´as complejas y/o especificaciones m´as sofisticadas. Conviene aclarar desde un principio que T ODOS los resultados antes vistos siguen siendo v´alidos en el modelo general.
3.1.
´ La especificaci´on del modelo de regresi´on multiple
Cuando se present´o el modelo con una sola variable explicativa quiz´a se pudo vislumbrar que hacer lo mismo en un modelo m´as grande ser´ıa, si bien no m´as complicado, s´ı exageradamente m´as tedioso de resolver. Por eso, habremos de continuar nuestros desarrollos cambiando la notaci´on, de tal suerte que todo quede expresado en t´erminos de matrices. Como veremos paulatinamente, ello facilita enormemente algunas operaciones. Sea el modelo de regresi´on m´ultiple: yt = β1 + β2 x2t + β3 x3t + ... + βK xKt + ut Donde, como siempre: 127
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
128
1. yt es la variable explicada. 2. β1 es el intercepto u ordenada en el origen. 3. xit son variables explicativas, ∀ i = 1, 2, 3, . . . , K. 4. βi son los par´ametros asociados a tales variables, ∀ i = 2, 3, 4, . . . , K. 5. ut es el t´ermino de error. Los supuestos tambi´en son los mismos; no obstante, uno de ellos requiere una aclaraci´on adicional, una cl´ausula t´ecnica adicional: ´ :La relaci´on entre las variables explicativas, 1. C ORRECTA E SPECIFICACI ON Xs, y la dependiente, Y , es lineal y est´a dada por la especificaci´on. ´ , NO EXIS 2. O RTOGONALIDAD :Las x son variables no-estoc´asticas.1 A DEM AS ´ ´ ´ TE UNA R ELACI ON L INEAL ENTRE D OS O M AS VARIABLES E XPLICATI VAS ..2 3. La esperanza del t´ermino de error es nula.3 4. H OMOSCEDASTICIDAD :El t´ermino de error tiene varianza constante. ´ :Los errores son independientes entre s´ı. 5. N O - AUTOCORRELACI ON 6. N ORMALIDAD :El t´ermino de error est´a distribuido Normalmente. 7. E STACIONARIEDAD :Todas las variables son estacionarias. La obtenci´on de los par´ametros requiere el mismo proceder que antes, a saber, minimizar la suma de residuales al cuadrado.4 uˆt = yt − βˆ1 − βˆ2 x2t − . . . − βˆKt xKt 2 X X uˆ2 = yt − βˆ1 − βˆ2 x2t − . . . − βˆKt xKt t
1
Sobre este supuesto aplica la misma advertencia que en el modelo univariado; se trata de una versi´on did´actica del supuesto Cov(xt , ut ) = 0. 2 Esta es la cl´ausula t´ecnica referida anteriormente. No se trata propiamente de un supuesto, sino de una caracter´ıstica que deben poseer las variables explicativas. 3 De ello se deriva que: E(X ′ U ) = X ′ E(U ) = 0. 4 Todas las sumatorias van desde 1 hasta T excepto si se indica lo contrario.
´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 129 Tendr´ıamos que calcular K derivadas5 y resolver, en consecuencia, un sistema con K inc´ognitas. Lo anterior, hecho con esta notaci´on “escalar” resultar´ıa muy tedioso, y francamente dif´ıcil si el n´umero de par´ametros, K, es muy grande. De ah´ı la conveniencia de pasar todo a notaci´on matricial.6
y1 = β1 1 + β2 x21 + . . . + βK xK1 + u1 y2 = β1 1 + β2 x22 + . . . + βK xK2 + u2 y3 = β1 1 + β2 x23 + . . . + βK xK3 + u3 .. . yT = β1 1 + β2 x2T + . . . + βK xKT + uT Usando notaci´on matricial, esto se ver´ıa as´ı: Y = Xβ + U Donde:
y1 y2 Y = .. 1. La variable explicada |{z} . T ×1
yT
1 x12 1 x22 2. Las variables explicativas |{z} X = .. .. . . T ×K 1 xT 2
β1 β2 3. Los par´ametros β = .. |{z} . K×1
5 6
. . . x1K . . . x2K .. ... . . . . xT K
βK
Una con respecto a cada par´ametro, incluyendo la constante. Note que x1t es un vector-columna de T × 1; eso autoriza la presencia de una constante.
130
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
u1 u2 4. El t´ermino de error |{z} U = .. . T ×1
uT
3.1.1. Reglas del c´alculo matricial y la manipulaci´on de matrices Si bien esto no pretende ser un formulario exhaustivo respecto a las operaciones matriciales, ni mucho menos, s´ı mostraremos aquellas cuya utilizaci´on ser´a frecuente en las pr´oximas p´aginas: 1. Matrices traspuestas: sean A, B, y C tres matrices o vectores tales que el siguiente c´alculo sea posible: (A − BC)′ = A′ − C ′ B ′ 2. Sumas cuadr´aticas: sea D un vector T × 1; si queremos la suma de los elementos de D al cuadrado, debemos premultiplicarlo por la traspuesta: D1 D2 D′ D = D1 D2 . . DT × .. Lo anterior equivale a: . DT X D12 + D22 + ... + DT2 = Dt2
3. C´alculo infinitesimal: sea X una matriz (T × K), A un vector (K × 1) y Y un vector (T × 1), entonces: ∂A′ X ′ Y = X ′Y ∂A ∂A′ X ′ XA = 2X ′ XA ∂A
4. Matrices inversas: la matriz (X ′ X)−1 existe si y s´olo si X ′ X es una matriz cuadrada definida positiva: X ′ X tiene rango completo—en nuestro caso es K 7 —y su determinante es distinto de cero. 7
Todas las columnas y todos los renglones son linealmente independientes entre s´ı. Lo anterior se ver´a con m´as detalle en la secci´on dedicada al problema de multicolinealidad.
´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 131
3.1.2. Optimizaci´on Ahora s´ı, volviendo a nuestro problema de minimizaci´on de cuadrados, es necesario definir la suma de los errores:
U = Y − Xβ U U = (Y − Xβ)′ (Y − Xβ) ′
Teniendo ya la suma del t´ermino de error al cuadrado definida, podemos proceder a su minimizaci´on. Derivemos partiendo de la expresi´on que vamos a estimar:
Y = X βˆ + Uˆ Uˆ = Y − X βˆ ′ Uˆ ′ Uˆ = Y − X βˆ Y − X βˆ
′ = Y Y − Y ′ X βˆ − βˆ′ X ′ Y + βˆ′ X ′ X βˆ |{z} | {z } | {z } | {z } 1×1
1×1
ˆ′
1×1
′
ˆ′
1×1
= Y Y − 2β X Y + β X X βˆ ′
′
ˆ ′ Y .8 Ahora ya podemos optimiEn el u´ ltimo paso, asumimos que Y ′ X βˆ = βX zar: basta con utilizar las reglas antes explicitadas para obtener nuestras derivadas parciales:
∂ Uˆ ′ Uˆ ∂ βˆ
=
′ ′ ′ ′ ˆ ˆ ˆ ∂ Y Y − 2β X Y + β X X β ′
∂ βˆ = −2X ′ Y + 2X ′ X βˆ
Ya s´olo falta igualar a cero (as´ı, nos deshacemos del 2, que podemos factorizar): 8
Cortes´ıa de Laura Gasca Tovar: tanto Y ′ Xβ como β ′ X ′ Y son escalares, por lo que se infie′ re que estamos lidiando con “matrices” de 1 × 1. Observamos tambi´en que (Y ′ Xβ) = β ′ X ′ Y ; as´ı pues, una expresi´on es la traspuesta de la otra. Sabiendo que se trata de un escalar (sim´etrico por definici´on), resulta obvio que arrojan lo mismo.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
132
−X ′ Y + X ′ X βˆ = 0 (X ′ X)βˆ = X ′ Y βˆ = (X ′ X)−1 X ′ Y Esta u´ ltima f´ormula es tan importante y recurrente, que bien vale la pena recordarla. Muchos estimadores, que estudiaremos posteriormente, est´an derivados de e´ sta. βˆ = (X ′ X)−1 X ′ Y
Un primer resultado, copia del que ya hab´ıamos inferido para el caso univariado, puede ser obtenido facilmente: X ′ Uˆ = = = = =
ˆ X ′ (Y − X β) X ′ Y − X ′ X βˆ X ′ Y − (X ′ X)(X ′ X)−1 X ′ Y X ′Y − X ′Y 0
Al igual que antes, el m´etodo de MCO hace de los residuales estimados una variable sin relaci´on con las explicativas. Aqu´ı conviene recordar el segundo supuesto, el de ´ ortogonalidad. Este implica que el t´ermino de error debe ser independiente de las explicativas. Justamente, como MCO fuerza los residuales estimados a ser independientes con respecto a las variables explicativas, no es posible probar directamente si la especificaci´on es la correcta.
3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza Esperanza de los residuales Utilizando la notaci´on matricial, demostrar que los par´ametros estimados son insesgados es sumamente f´acil; tan solo requerimos dos expresiones, la especificaci´on y la f´ormula de los estimadores:
´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 133 1. Y = Xβ + U 2. βˆ = (X ′ X)−1 X ′ Y As´ı pues, tomando la segunda y reemplazando Y por la especificaci´on:9 βˆ = (X ′ X)−1 X ′ (Xβ + U ) = (X ′ X)−1 X ′ Xβ + (X ′ X)−1 X ′ U = β + (X ′ X)−1 X ′ U Empleamos el operador esperanza... ˆ = β + (X ′ X)−1 X ′ E(U ) E(β) = β+0 ˆ E(β) = β Para calcular las varianzas de los estimados, se requiere un peque˜no apartado: La Matriz de Varianza Covarianza de los residuales Obtener la matriz se˜nalada en el t´ıtulo de esta subsecci´on requiere, en primera instancia, saber c´omo construirla. Como bien indica su nombre, en esta matriz deben aparecer las varianzas de todo ut para todo t = 1, 2, . . . T as´ı como todas las covarianzas posibles:
9
u1 u2 ′ E(U U ) = E .. × u1 u2 . . . uT . uT u21 u1 u 2 . . . u 1 u T u2 u 1 u21 . . . u2 uT = E .. .. .. . . . . . . uT u1 uT u2 . . . u2T
Que asumimos correcta.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
134
Si aplicamos los supuestos N´umero Cuatro y Cinco, las esperanzas a calcular resultan obvias:
σ2 0 0 σ2 E(Uˆ Uˆ ′ ) = E .. .. . . 0 0
... ... ...
0 0 .. .
. . . σ2
= σ 2 IT
donde IT es una matriz identidad de dimensi´on T × T . La Varianza de los Estimadores Los dos apartados anteriores nos permiten obtener la varianza de los estimadores r´apidamente. Del c´alculo de la esperanza de e´ stos, retomamos βˆ = β+(X ′ X)−1 X ′ U . Manipulando... βˆ − β = (X ′ X)−1 X ′ U . Ahora bien, anteriormente hab´ıamos calculado las varianzas de α ˆ y de βˆ as´ı como la covarianza entre ambos. Ahora que tenemos K par´ametros estimados, habr´a K varianzas y... un gran n´umero de covarianzas:10
K−1 X i=1
K − i = K × (K − 1) −
1 (K − 1)2 + K − 1 2
1 2 K +1−2·K +K −1 2 1 = K2 − K − K2 − K 2 1 = K2 − K 2 = K2 − K −
Nuevamente conviene dejarlas todas en una matriz: M ATRIZ DE VARIANZA -C OVARIANZA DE LOS E STIMADORES . PT El desarrollo de la suma i=1 i se debe a Carl Friedrich Gauss (1777-1855), quien la ‘present´o’ a los ocho a˜nos, a su maestro. Este u´ ltimo hab´ıa encargado sumar todos los n´umeros del uno al cien. 10
´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 135
i h ˆ = E (βˆ − β)(βˆ − β)′ V ar(β) h i ˆ = E (X ′ X)−1 X ′ U (X ′ X)−1 X ′ U ′ V ar(β) = = = ˆ V ar(β) =
(X ′ X)−1 X ′ E(U U ′ )X(X ′ X)−1 (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 σ 2 (X ′ X)−1 (X ′ X)(X ′ X)−1 σ 2 (X ′ X)−1
¿Por qu´e la inversa de una matriz sim´etrica tambi´en es sim´etrica? En este apartado mostraremos que si una matriz—cuadrada—es igual a su traspuesta, A = A′ , entonces la inversa de dicha matriz tambi´en posee esa propiedad: A−1 = (A−1 )′ Para hacer m´as u´ til esta demostraci´on, utilizaremos la matriz cuya inversa aparece recurrentemente; de hecho, vamos a mostrar primero que (X ′ X) siempre es sim´etrica y luego que su inversa tambi´en lo es. Lo primero es familiarizarse con la estructura de dicha matriz:
(X ′ X)
=
=
def
=
... 1 1 x12 . . . 1 x22 . . . . . . xT 2 1 x32 . . . . . . xT 3 .. ... ... . 1 ... . 1 xT 2 . . . x1K x2K . . xT K P P T x . . . x 2t Kt P 2 P P x2t x . . . x2t xKt 2t P P P x3t x x . . . x x 2t 3t 3t Kt .. .. .. ... . . . P P 2 P x2t xKt . . . xKt xKt
1 x12 x13 . . .
A
1 x22 x23 .. .
x1K x2K x3K .. . xT K
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
136
Tan solo con ver como est´a conformada la matriz X ′ X, resulta f´acil adivinar su simetr´ıa. La demostraci´on, de hecho, es trivial. En primera instancia, definamos lo que se entiende por simetr´ıa. Una matriz—cuadrada—A es sim´etrica s´ı: A = A′ En el caso que nos interesa, X ′ X, veremos que la simetr´ıa se da “por construcci´on”. Recordemos que X es una matriz de T × K. Entonces, X ′ X ser´a de K × K. Si la trasponemos... ′
= (X)′ × (X ′ ) = X′ × X ′ X ′ X = (X ′ X)
(X ′ X)
′
As´ı queda demostrada la simetr´ıa de la matriz X ′ X. Sabi´endolo, ahora podemos proceder a mostrar que la inversa tambi´en es sim´etrica. Como es sabido una matriz, multiplicada por su inversa, nos arroja una matriz identidad: A × A−1 = Ik
Si tomamos traspuestas de la expresi´on anterior: (A−1 )′ A′ = Ik
Pasando al elemento que est´a postmultiplicando del otro lado y recordando que la matriz A s´ı es sim´etrica... (A−1 )′ = (A′ )−1 (A−1 )′ = A−1 queda la simetr´ıa de dicha matriz demostrada.
3.2.
Teorema de Gauss-Markov
El estimador de MCO, βˆ = (X ′ X)−1 X ′ Y es MELI, es decir: M EJOR ESTIMA DOR L INEAL E I NSESGADO . Lo anterior quiere decir que la diferencia entre la ma triz de varianza-covarianza de los estimadores de MCO, var βˆ y la de cualquier otro estimador lineal e insesgado, var β˜ resultar´a en una matriz semi-definida positiva, que es, en notaci´on matricial, el equivalente a una suma mayor o igual a cero en nuestra notaci´on anterior.
3.2. TEOREMA DE GAUSS-MARKOV
137
3.2.1. Demostraci´on ˜ Dado que β˜ debe ser un estimador lineal Imaginemos un estimador alternativo, β. e insesgado, tambi´en debe ser, como en el caso del estimador de MCO, una combinaci´on de la variable Y : β˜ = AY Donde A es, como anteriormente, una matriz compuesta de elementos no-estoc´asticos. Para poder hacer comparaciones con el estimador de MCO, debemos incorporar de alguna manera a e´ ste en la f´ormula anterior. Lo m´as f´acil, como siempre, es sumarlo y luego restarlo: i h −1 −1 β˜ = (X ′ X) X ′ Y + A − (X ′ X) X ′ Y | {z } C
′
−1
′
= (X X) X Y + CY h i −1 = (X ′ X) X ′ + C Y
(3.1)
Comentario 2 Resulta relevante constatar que los t´erminos que aparecen en la parte derecha de la ecuaci´on (3.1) son independientes entre s´ı: h
′
E (X X)
−1
′
′
X YY C
′
i
= E
h
′
β + (X X)
−1
′
′
XU Y C
Reemplazando Y por la especificaci´on11 y desarrollando:
′
i
h −1 = E ββ ′ X ′ C ′ + βU ′ C ′ + (X ′ X) X ′ U β ′ X ′ C ′ + . . . i −1 ′ ′ ′ ′ . . . (X X) X U U C M´as adelante se demuestra que CX = 0 (y que por tanto X ′ C ′ = 0); adem´as, como que E(U ) = 0, podemos eliminar los t´erminos que son cero y tambi´en los que de 11
´ . Impl´ıcitamente estamos haciendo uso del primer supuesto: C ORRECTA E SPECIFICACI ON
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
138
todas formas se ir´ıan al aplicar el operador esperanza. En realidad, no queda gran cosa: h
′
E (X X)
−1
′
′
X YY C
′
i
= (X ′ X)
−1
X ′ E (U U ′ ) C ′
= σ 2 (X ′ X)
−1
′ ′ |X{zC} =0
= 0
˜ (tengan en mente la ecuaci´on Este resultado indica que nuestro nuevo estimador β, ˆ m´as un componente aleato3.1) no es otra cosa sino el estimador de MCO (β) rio, CY , no relacionado con e´ ste u´ ltimo. Lo anterior pr´acticamente demuestra el teorema de Gauss-Markov, dada una de sus implicaciones sobre la varianza del estimador: cualquier estimador lineal e insesgado es igual al de MCO m´as un ‘elemento’ cuya esperanza evidentemente es cero (si no, no podr´ıa ser insesgado) pero no as´ı su varianza (y es lo que lo hace m´as ineficiente). Si retomamos la ecuaci´on (3.1) y reemplazamos Y por la verdadera especificaci´on (y desarrollamos): β˜ =
h
(X ′ X)
−1
i X ′ + C · (Xβ + U )
= β + CXβ + (X ′ X)
−1
X ′ U + CU
Recordemos que el teorema de Gauss-Markov estipula que los estimadores deben ˜ e´ ste resulte justamente insesgado, ser insesgados. Para que al sacarle esperanza a β, es necesario que CX = 0. Lo anterior nos deja con: −1 β˜ = β + (X ′ X) X ′ U + CU
(3.2)
Que, al sacarle esperanza,12 −1 E β˜ = β + (X ′ X) X ′ E (U ) + C · E (U ) = β
12
Es posible sacar a C del operador esperanza puesto que est´a compuesto por X, que es no estoc´astica y por A, que es la matriz de ponderadores; e´ sta tambi´en debe ser no-estoc´astica, como en MCO.
3.2. TEOREMA DE GAUSS-MARKOV
139
Queda claro que el estimador alternativo es insesgado (as´ı se requiere). Ahora s´ı toca el turno a su varianza: ′ ˜ ˜ ˜ var β = E β − β · β − β Reemplazamos por la expresi´on (3.2) convenientemente reacomodada: ′ −1 −1 ′ ′ ′ ′ ˜ V ar β = E (X X) X U + CU (X X) X U + CU = σ 2 (X ′ X)
−1
+ σ 2 CC ′
(3.3)
En el caso anterior (regresi´on univariada), nos hab´ıamos topado con que la varianza del estimador alternativo tambi´en era igual a la de MCO m´as un elemento mayor o igual a cero, con lo que quedaba demostrado que no exist´ıa un estimador de menor varianza que el de MCO. En este caso, habr´ıa que demostrar que CC ′ siempre es “positiva o igual a cero”. Al tratar con matrices, esta propiedad es referida como matriz semidefinida positiva. Si CC ′ es, en efecto, una matriz semidefinida positiva, el teorema estar´ıa demostrado. De hecho, afortunadamente, dicho resultado ya existe, y est´a plasmado en el siguiente teorema. Teorema 8 Sea C una matriz de rango completo, de dimensiones T × K. Entonces C ′ C es una matriz definida positiva y CC ′ es una matriz semidefinida positiva. El teorema anterior nos dice que la matriz se sumar´ıa a la varianza del estimador de MCO (o en el peor de los casos, no agregar´ıa nada, pero tampoco restar´ıa) por lo que queda demostrado que MCO provee los estimadores m´as eficientes, como en el caso de una sola variable explicativa. Para entender mejor la demostraci´on, es importante primero recordar algunas cuestiones sobre las matrices.13 En muchos problemas de optimizaci´on, la funci´on objetivo a maximizar (minimizar) tiene la siguiente forma:
q =
T X T X
xi xj aij
i=1 j=1
13
Esta explicaci´on est´a basada en la provista por el libro “Econometric Analysis” de William H. Greene (1997), 3a edici´on.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
140
´ La ecuaci´on anterior es lo que se denomina una F ORMA C UADR ATICA y puede expresarse en forma matricial:
q = x′ Ax
donde A es una matriz sim´etrica (y por ende, cuadrada). Es posible que q sea positivo, negativo o nulo, todo depende de los valores de la matriz A y de x. No obstante, existen matrices A tales que, independientemente de x 6= 0, hacen que el valor de q siempre sea negativo (o siempre sea positivo, o siempre sea no negativo). De hecho, existe una clasificaci´on:
1. Si x′ Ax > 0 para todo x 6= 0, entonces se dice que A es definida positiva 2. Si x′ Ax < 0 para todo x 6= 0, entonces se dice que A es definida negativa 3. Si x′ Ax ≥ 0 para todo x 6= 0, entonces se dice que A es semi-definida positiva 4. Si x′ Ax ≤ 0 para todo x 6= 0, entonces se dice que A es semi-definida negativa
3.2.2. Intuici´on Recu´erdese que las varianzas quedan definidas en la diagonal de la matriz. En el caso de la f´ormula expresada en la ecuaci´on (3.3), las varianzas del nuevo estimador, β˜ ser´an, al final de cuentas, el resultado de sumar los elementos de la diagonal de σ 2 (CC ′ )−1 con los de la matriz σ 2 (X ′ X)−1 . La varianza de tales estimadores s´olo podr´ıa ser menor a la de los de MCO si los elementos de la diagonal fueran negativos. Ahora bien, es f´acil ver que la matriz C tiene las dimensiones K × T . Independientemente de cual es el valor de los elementos que la componen, su forma ser´a la siguiente:
3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR
C11 C21 C = .. . C′
C12 C22
141
. . . . . . C1T C2T .. ... .
CK1 CK2 . . .
CKT
C11 C21 . . . CK1 C12 C22 CK2 . .. ... . = .. . .. .. . C1T C2T . . . CKT
Al multiplicarlas, CC ′ , no es dif´ıcil adivinar c´omo son los elementos diagonales:
CCii′
=
T X
Cij2
j=1
donde i = 1, . . . , K. Todo esto redunda en lo siguiente: sean cuales sean los valores que conforman la matriz C, los elementos de la diagonal de la matriz CC ′ son el resultado de una suma de cuadrados. Dichas sumas s´olo pueden ser positivas o bien—si los elementos que la componen son todos nulos—iguales a cero. De lo ˜ son iguales anterior se deriva que las varianzas de los estimadores alternativos (β) a las varianzas de los estimadores de MCO m´as algo que s´olo puede ser positivo o nulo. Por ende, var βˆi ≤ var β˜i ∀ i = i, . . . , K
3.3.
Estimador Insesgado de la Varianza del Error
Como en la primera parte del curso, uno de los elementos m´as importantes a desarrollar es el estimador de la varianza del error, σ ˆ 2 . Al igual que antes, una vez obtenida su f´ormula, procederemos a verificar que el estimador es insesgado. Recordemos P ˆ2 Ut que en el modelo simple T −2 = σ 2 y tambi´en que E(ˆ σ2) = σ2.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
142
Para obtener el equivalente de estas expresiones en el modelo multivariado, requeriremos de algunas expresiones de referencia. Para empezar, identificaremos en nuestros c´alculos una matriz que nos resultar´a sumamente u´ til. Recordemos lo visto hasta ahora:
´ 3.3.1. Una matriz idempotente muy util 1. El estimador: −1 βˆ = (X ′ X) X ′ Y
2. El residual estimado: Uˆ = Y − X βˆ 3. combinando estas u´ ltimas dos expresiones: Uˆ = Y − X(X ′ X)−1 X ′ Y 4. Factorizando Y: Uˆ =
I − X(X ′ X)−1 X ′ Y | {z } Mx
La matriz Mx = I − X(X ′ X)−1 X ′ —pronto lo veremos—resulta ser una matriz en extremo interesante. Entre sus propiedades destacan las siguientes: 1. Simetr´ıa: Mx = Mx′ ′ I − X(X ′ X)−1 X ′ = I − X(X ′ X)−1 X ′ = I − X (X ′ X)
−1
X′
3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR
143
2. Idempotencia: Mx Mx = (I − X(X ′ X)−1 X ′ )(I − X(X ′ X)−1 X ′ ) = I − X(X ′ X)−1 X ′ − X(X ′ X)−1 X ′ + . . . . . . X(X ′ X)−1 X ′ X(X ′ X)−1 X ′ = I − 2X(X ′ X)−1 X ′ + X(X ′ X)−1 X ′ = I − X(X ′ X)−1 X ′ = Mx
3. Ortogonalidad con las columnas de la matriz X: Mx X = 0 = I − X(X ′ X)−1 X ′ X = X −X = 0
4. Presentaci´on de algunos resultados: Uˆ = Mx Y Uˆ′ X = Y ′ Mx X = 0 Lo primero que haremos con esta nueva matriz es identificar la relaci´on existente entre los residuales estimados y los verdaderos. Esto, nuevamente, nos ser´a u´ til posteriormente: Uˆ Uˆ Uˆ Uˆ
= = = =
Mx Y Mx (Xβ + U ) Mx Xβ + Mx U Mx U
(3.4)
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
144
3.3.2. La varianza del error Por fin podemos dedicarnos a lo que interesa, σ ˆ 2 . Para empezar, construiremos la variable relevante, que no es otra sino la suma de los errores estimados al cuadrado. Como quiz´a algunos han intu´ıdo, haremos uso de nuestra nueva matriz Mx : X
uˆ2t = Uˆ′ Uˆ = U ′ Mx′ Mx U
Aprovechando el resultado expuesto en la ecuaci´on (3.4) y tambi´en de la indempotencia de la matriz Mx , podemos simplificar la expresi´on y posteriormente calcular su esperanza: E(Uˆ′ Uˆ ) = E(U ′ Mx U ) Lamentablemente, los pasos siguientes exigen el conocimiento de algunas propiedades adicionales de las matrices. En particular, necesitamos saber qu´e es la traza de una matriz y cu´ales son sus propiedades. La traza de la matriz Lo primero es definir que es la traza: Definici´on 10 Traza: es la suma de todos los elementos diagonales de una matriz cuadrada. Sea A una matriz K × K cuyo elemento n-´esimo rengl´on, m-´esima columna sea anm . Entonces, su traza es: tr (A) =
K X
aii
i=1
Las propiedades de la traza pueden llegar a ser bastante sorprendentes. Sea c una constante y A, B, C, D matrices tales que dim (AB) = K × K, dim (AC) = K × K, dim (AD) = K × K y b un vector T × 1. Entonces: 1. tr (cA) = c · tr (A) 2. tr (A′ ) = tr (A) 3. tr (A + B) = tr (A) + tr (B) 4. tr (IK ) = K
3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR
145
5. tr (AB) = tr (BA) 6. Generalizando: tr (ABCD) = tr (BCDA) = tr (CDAB) = tr (DABC)
7. b′ b = tr (b′ b) = tr (bb′ ) Ahora s´ı, ya podemos retomar nuestro c´alculo de la varianza del error. Recordemos que U es un vector T × 1: Uˆ′ Uˆ = tr Uˆ′ Uˆ Podemos aprovechar lo anterior,
E Uˆ′ Uˆ = E (U ′ Mx U ) h i ′ ˆ ˆ E UU = E [tr (U ′ Mx U )] As´ı expresada la varianza, no podemos sacar esperanza, puesto que los vectores U del t´ermino de error no est´an juntos. Por eso, tomando ventaja de las propiedades de la traza, permutamos y calculamos esperanza... E(Uˆ′ Uˆ ) = = = E(Uˆ′ Uˆ ) =
E [tr (Mx U U ′ )] tr [Mx E (U U ′ )] tr Mx σ 2 σ 2 tr (Mx )
Si sacamos del operador esperanza a la matriz Mx es porque e´ sta se compone de variables xi , que por supuesto no son estoc´asticas. Reemplazamos Mx por lo que vale y simplificamos:
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
146
h i −1 tr (Mx ) = tr IT − X (X ′ X) X ′ i h −1 ′ ′ = tr (IT ) − tr X (X X) X h i −1 = T − tr (X ′ X) X ′ X = T − tr [Ik ] = T −K
Retomando la expresi´on original de la varianza...
E(Uˆ′ Uˆ ) = σ 2 (T − K) Nos damos cuenta que, para que el estimador de la varianza sea insesgado, debe ser normalizado por T − K.
E
Uˆ′ Uˆ T −K
!
= σ2
Con esto queda demostrado que σ ˆ2 =
ˆ Uˆ′ U T −K
es un estimador insesgado de σ 2 :
E σ ˆ 2 = σ2
3.4.
Bondad del ajuste
Las medidas de bondad del ajuste no var´ıan de manera importante al generalizar el modelo y por lo mismo, nos limitaremos a expresar las f´ormulas importantes en la notaci´on matricial que ya ahora nos debe resultar familiar. No obstante, al haber m´as par´ametros con base en los cuales hacer inferencia, se abre una perspectiva halag¨ue˜na en lo que concierne a las pruebas de hip´otesis. Esto se ver´a hasta el final de la secci´on. De momento, repasaremos los conceptos ya vistos antes con objeto de confirmar lo aprendido.
3.4. BONDAD DEL AJUSTE
147
3.4.1. La R cuadrada Empecemos recordando lo que vimos anteriormente: Definici´on 11 La f´ormula que conoc´ıamos de la R2 es: SCR SCT SCE = 1− SCT P ˆ2 Ut = 1− P (yt − Y¯ )2
R2 =
Pasar las f´ormulas anteriores a notaci´on matricial nos resultar´a m´as f´acil si definimos el siguiente vector: Sea y1 − y¯ y2 − y¯ Yc = y3 − y¯ .. . yT − y¯
Entonces, la f´ormula de la R2 se convierte en: R2 = 1 −
Uˆ ′ Uˆ Yc ′ Yc
3.4.2. Inflaci´on de la R cuadrada y su versi´on ajustada La R cuadrada y la adici´on de variables Ahora bien, ¿ qu´e ocurre si decidimos agregarle m´as variables a la especificaci´on? En el peor de los casos, las nuevas variables no tendr´an poder explicativo sobre la variable dependiente; su inclusi´on ser´ıa poco m´as que in´util. Al no agregar m´as poder explicativo, la R2 no deber´ıa cambiar. No obstante, recordemos que nuestro m´etodo es estad´ıstico y tiene un sustento probabil´ıstico. Existe la posibilidad de que las nuevas variables, aunque sea por azar, pueden explicar algunos movimientos de Y ;en ese caso, por cuestiones meramente azarosas, que no econ´omicas, podr´ıamos obtener una R2 m´as alta al incluir variables nuevas, aunque e´ stas no vengan al caso. Jugando con esa posibilidad, una estrategia—poco atinada, aclaremos—ser´ıa la de
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
148
incluir much´ısimas variables explicativas en la regresi´on; al final, lograr´ıamos mejorar la bondad del ajuste, aunque sea artificialmente.14 Incluir un n´umero grande de variables explicativas terminar´a eventualmente subiendo la R2 , pero el modelo dejar´a de ser parsimonioso y se convertir´a en un gigante con pies de barro y sobre todo, en una herramienta sumamente in´util. Intuici´on En realidad, mostrar que la R2 crece, o se infla, a medida que le agregamos variables explicativas puede hacerse con relativa sencillez. Recuerde que el m´etodo de M´ınimos Cuadrados se obtiene de minimizar la Suma de Residuales al Cuadrado, SCE:
m´ın SCE = m´ın β
β
X
(yt − Xt β)2
(3.5)
donde Xt corresponde al vector-rengl´on que agrupa a las t-´esimas observaciones de las explicativas, Xt = [x1 , x2 , . . . , xk ]. Ahora imagine dos posibles regresiones. Una de ellas A NIDA a la otra, es decir, incluye sus variables y otras m´as: 1. Regresi´on anidada o restringida, K1 = 2: yt = α + βxt + ut 2. Regresi´on sin restricciones, K2 = 3: yt = α + βxt + δzt + ǫt La primera regresi´on es, de hecho igual a la segunda, s´olo que incluye una restricci´on: δ = 0. Al momento de obtener los estimadores, en ambos casos se minimizar´ıa la SCE. Podr´ıamos escribir dicha minimizaci´on en la ecuaci´on (3.5). La matriz de variables explicativas y el vector de par´ametros ser´ıan de dimensiones T × K2 y K2 × 1 respectivamente. Para trabajar con la especificaci´on restringida, s´olo habr´ıa que se˜nalar que β3 = 0 (es decir, lo restringir´ıamos a ser cero) mientras que para estimar la especificaci´on no-restringida, dejar´ıamos libre dicho par´ametro. El valor o´ ptimo de la funci´on objetivo es d´ebilmente menor conforme aumenta el n´umero de variables explicativas puesto que, con estas nuevas variables se levantan restricciones y existe la posibilidad de encontrar un m´ınimo “m´as chico”. En la f´ormula de la ′ R2 , R2 = 1 − YU∗′ UY ∗ , podr´ıamos entonces reducir U ′ U , dejando inalterado todo lo dem´as; la fracci´on disminuir´ıa y por ende, la R2 aumentar´ıa. 14
Hay que recordar, no obstante, que las pruebas de significancia individuales limitar´ıan en gran medida dicha estrategia.
3.4. BONDAD DEL AJUSTE
149
Demostraci´on formal La demostraci´on formal de lo anterior es, hay que admitirlo, mucho m´as elaborada. Trataremos de evitar las cuestiones demasiado t´ecnicas y de hacerla lo m´as fluida posible. Nuestra regresi´on multivariada se especifica y se estima de la siguiente manera: Y Y
= Xβ + U = X βˆ + Uˆ
En dicha especificaci´on, hay K variables. El hecho es que podr´ıamos particionar esas K variables de tal suerte que haya dos grupos, el primero incluyendo K1 variables y el segundo K2 , respetando obviamente la igualdad K1 + K2 = K. Al primer grupo de variables lo representaremos en la matriz X1 (T × K1 ) y al segundo X2 (T ×K2 ). Los par´ametros asociados a cada grupo ser´an β1 y β2 . Podr´ıamos entonces especificar la siguiente ecuaci´on: Y
= X1 β1 + X2 β2 + U,
(3.6)
cuya versi´on estimada ser´ıa: Y
= X1 βˆ1 + X2 βˆ2 + Uˆ .
(3.7)
El objetivo de hacer esta partici´on es representar la disyuntiva del econometrista al decidir cuantas variables explicativas usar. Lo representado por esta u´ ltima ecuaci´on conlleva el mensaje siguiente: ajustar la regresi´on de Y en funci´on solamente de X1 o bien en funci´on de X1 y X2 . Si nos inclin´aramos por la primera opci´on, ya podr´ıamos elucidar los resultados, pues son los mismos de siempre; basta reemplazar β1 por β y X1 por X. Dado que estamos corriendo una especificaci´on distinta a ˆ por lo que le pondremos la ecuaci´on (3.6), el estimador no ser´ıa necesariamente β, ˘ Las f´ormulas cl´asicas ser´ıan las siguientes... otro nombre: β. Y = X1 β1 + ǫ −1 β˘ = (X1′ X1 ) X1′ Y ǫˆ = Y − X1 β˘ i h −1 = I − X1 (X1′ X1 ) X1′ Y = M1 Y
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
150
donde M1 es nuestra famosa matriz sim´etrica e idempotente. Dicha matriz ten´ıa una serie de propiedades que nos resultar´an u´ tiles. La primera, s´olo basta recordarla: M1 X 1 = 0 La otra que utilizaremos resulta ser una propiedad muy curiosa, pues aplica, no a la regresi´on restringida, sino a la no-restringida: M1 Uˆ =
h
I − X1 (X1′ X1 )
−1
i X1′ Uˆ
−1 = Uˆ − X1 (X1′ X1 ) X1′ Uˆ |{z} =0
= Uˆ
Si el u´ ltimo t´ermino se hace cero, ello se lo debemos a la ortogonalidad—ya demostrada anteriormente—entre variables explicativas y residual estimado. As´ı pues, tenemos que: M1 Uˆ = Uˆ Retomemos ahora nuestra especificaci´on particionada (3.7) y multipliqu´emosla por M1 : M1 Y
= M1 X1 βˆ1 + M1 X2 βˆ2 + M1 Uˆ | {z } | {z } =0
ˆ =U
= M1 X2 βˆ2 + Uˆ
Elevemos esta u´ ltima expresi´on al cuadrado (al estilo matricial): (M1 Y )′ (M1 Y ) =
M1 X2 βˆ2 + Uˆ
′
M1 X2 βˆ2 + Uˆ
Lo primero es recordar que M1 Y = ǫˆ 15 y que por tanto (M1 Y )′ = ǫˆ′ . De ello deducimos que, (M1 Y )′ (M1 Y ) = ǫˆ′ ǫˆ. 15
Los residuales estimados de la regresi´on restringida.
3.4. BONDAD DEL AJUSTE
151
Pero ǫˆ′ ǫˆ no es otra cosa sino la suma cuadr´atica de los residuales de la regresi´on restringida, a la que podr´ıamos definir como: def
ǫˆ′ ǫˆ = SCEY /X1 Ahora podemos continuar con el desarrollo: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + βˆ2′ X2′ M1 Uˆ + Uˆ ′ M1 X2 βˆ2 + Uˆ ′ Uˆ ′ ′ ′ ˆ ′ ′ ′ ′ ˆ ˆ ˆ ˆ ˆ = β2 X2 M1 X2 β2 + β2 X2 U + β2 X2 U + Uˆ ′ Uˆ Nuevamente, la ortogonalidad entre explicativas y residual estimado simplifica la expresi´on: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + Uˆ ′ Uˆ Tambi´en, podemos deducir que Uˆ ′ Uˆ no es otra cosa sino la Suma de Residuales al Cuadrado de la regresi´on con todas las explicativas; la denominaremos: def Uˆ ′ Uˆ = SCEY /X1 ,X2
retomando la expresi´on, tenemos lo siguiente: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + SCEY /X1 ,X2 As´ı, finalmente hemos obtenido una expresi´on que relaciona la Suma de Residuales al Cuadrado de la regresi´on restringida con la SCE de la regresi´on no-restringida. ¿Cu´al es m´as grande? Pues todo depende del signo del primer elemento en la parte derecha de la ecuaci´on. supongamos que es mayor o igual a cero—porque de hecho lo es. En ese caso, quedar´ıa muy claro que: SCEY /X1 ≥ SCEY /X1 ,X2 Para mostrar lo anterior, hemos de concentrarnos en nuestra recurrente matriz sim´etrica e idemptotente, M1 . Tal matriz es un dechado de propiedades, entre las que destaca la siguiente:
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
152
Teorema 9 Sea M1 una matriz sim´etrica e idempotente y x un vector cualquiera no-nulo. Entonces, M1 es semidefinida-positiva: x ′ M1 x ≥ 0 P RUEBA :16 recordemos que una matriz cuadrada, M1 , es idempotente si; M1 = M12 Usemos pues nuestra matriz idempotente M1 de dimensiones K × K. Como bien sabemos, M1 es una matriz sim´etrica, porque es posible diagonalizarla:17 Λ = P ′ M1 P d´onde P es la matriz de vectores caracter´ısticos—o eigenvectores de M1 —y Λ es, claro est´a, diagonal cuyos elementos son los eigenvalores de M1 : P ′P = I Si a Λ la multiplicamos por ella misma:
Λ2 = = = = = =
(P ′ M1 P ) · (P ′ M1 P ) P ′ M1 P P ′ M 1 P P ′ M1 IM1 P P ′ M12 P P ′ M1 P Λ
Este desarrollo nos permite ver que si M1 es una matriz idempotente tambi´en lo es Λ. Pero sabemos que Λ, es una matriz diagonal cuyos elementos son los eigenvalores 16
Cortes´ıa de F´atima Castro. Si acaso no lo recuerda, puede acudir a un libro de algebra matricial o encontrarlo en los ap´endices de los libros de econometr´ıa, como en el Hamilton(1994). 17
3.4. BONDAD DEL AJUSTE
Λ11 0 . . . 0 Λ22 Λ = .. ... . 0
0
153
0 0 .. .
. . . ΛKK
Por lo tanto, Λ2 , es igual a:
Λ2
Λ211 0 . . . 0 0 Λ2 0 22 = .. .. ... . . 2 0 0 . . . ΛKK
No obstante, dado que Λ es idempotente, Λ2 = Λ. Ello implica que Λ11 = Λ211 , Λ22 = Λ222 , . . . , ΛKK = Λ2KK . Los u´ nicos valores capaces de satisfacer: Λii = Λ2ii ∀ i = 1, . . . , K son: Λii = 0 o´ Λii = 1 para toda i. Es sabido que U NA M ATRIZ CU YOS E IGENVALORES SON T ODOS M AYORES O I GUALES A C ERO ES S EMI D EFINIDA P OSITIVA. Entonces, dado que: Λii = Λ2ii 0 Λii = 1 Dado que Λ, es semi-definida positiva M1 tambi´en lo es puesto que comparten los eigenvalores. La aplicaci´on del teorema s´olo necesita reparametrizar moment´aneamente X2 βˆ2 |{z} |{z} T ×K2 K2×1
como x. Queda entonces claro, si empleamos el teorema 9, que el escalar... βˆ2′ X2′ M1 X2 βˆ2 ≥ 0 Ya nada m´as queda recordar la f´ormula de la R2 , R2 = 1 −
Uˆ ′ Uˆ Yc′ Yc
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
154
Es claro que, independientemente de la especificaci´on de la regresi´on, Yc′ Yc queda inalterada. No obstante, si una especificaci´on incluye m´as variables que otra, entonces, Uˆ ′ Uˆ eventualmente se reducir´ıa; la fracci´on tambi´en disminuir´ıa y, finalmente, la R2 aumentar´ıa. La R2 ajustada o centrada Ser´ıa conveniente encontrar una prueba de bondad de ajuste sensible al n´umero ¯ 2 , ya de par´ametros, de tal forma que penalice si hay demasiados; es la famosa R comentada anteriormente:
¯2 = 1 − R
ˆ Uˆ′ U T −K P (yt −Y¯ ) T −1
Es importante notar como, al incluir m´as par´ametros, el numerador se hace m´as grande, lo que incrementa el cociente. El efecto final no tan claro, puesto que depende del cambio en Uˆ′ Uˆ . En este sentido, nos permitimos presentar un resultado en extremo interesante:18 ¯ 2 cuando se incluye una variable adicional a la regreTeorema 10 Cambio en R ¯ 2 disminuir´a (aumentar´a) cuando la variable x si´on: En una regresi´on m´ultiple, la R sea borrada de la especificaci´on s´ı el estad´ıstico t asociado a ella es mayor (menor), en valor absoluto, a la unidad. Este resultado implica que incluir variables estad´ısticamente “significativas” a la regresi´on ser´a la u´ nica forma de aumentar la bondad del ajuste. Incluir variables “estad´ısticamente insignificantes”, o mejor dicho, “no venidas al caso” disminuir´an ¯2. a la R
3.4.3. Descomposici´on de la varianza por variable explicativa La R2 es, pese a todas las cr´ıticas, una medida de bondad del ajuste global muy socorrida. En textos de econometr´ıa m´as “viejos” era m´as com´un encontrar lo que ´ DE LA VARIANZA POR VARIABLE E XPLI aqu´ı llamaremos D ESCOMPOSICI ON CATIVA . Como lo indica este nombre, se trata de cuantificar la aportaci´ on de cada 18
Resultado no demostrado. Nuevamente, para una demostraci´on formal, buscar en “Econometric Analysis” de William H. Greene (1997), 3a edici´on.
3.4. BONDAD DEL AJUSTE
155
variable a la explicaci´on de la varianza de la dependiente. En otras palabras, si se corre una regresi´on de y contra x1 y x2 , por ejemplo, y obtenemos una R2 de 0.9, podr´ıamos saber que de ese 90 % de variabilidad explicada de y, el 35 % lo hace x1 mientras que el restante 55 % corresponde a x2 . Si las variables explicativas fueran perfectamente ortogonales, es decir, perfectamente independientes la una de la otra, entonces, calcular tales porcentajes ser´ıa en extremo f´acil. Podriamos correr dos regresiones: 1. yt = β1 x1t + u1t 2. yt = β2 x2t + u2t y recuperar en cada una la R2 , R12 y R22 . Si corri´eramos una tercera regresi´on con ambas variables explicativas, descubrir´ıamos que la R2 correspondiente ser´ıa la suma de las otras dos: R32 = R12 + R22 . Desgraciadamente esto no ocurre casi nunca en la pr´actica, puesto que las variables explicativas comparten parte de la informaci´on que conllevan y no son perfectamente ortogonales entre s´ı. Lo m´as f´acil es verlo con un D IAGRAMA DE V ENN. Si bien dicho Diagrama no es la manera m´as correcta de representar lo que ocurre en una regresi´on, si constituye una forma pr´actica de entender lo que ocurre (ver figura 3.1). El problema radica en que parte del poder explicativo de las variables independientes es compartido entre ellas. Por esa simple raz´on, no es posible correr una regresi´on con cada variable, recuperar la correspondiente R2 y lograr que la suma de e´ stas sea igual a la medida de bondad de ajuste global. Es necesario acotar el poder explicativo de cada variable, aislarlo del de las otras. Si bien la demostraci´on no es especialmente complicada, exige conocer la teoria relativa a los coeficientes de correlaci´on parciales, que no hemos abordado. Por lo mismo, y dado que e´ ste no es un tema fundamental, nos limitaremos a enunciar la forma de obtener la aportaci´on individual a la bondad del ajuste sin entrar en explicaciones demasiado profundas. Lo primero es incorporar una serie de conceptos nuevos.
Estandarizaci´on de los par´ametros En muchas ciencias sociales y afines a la medicina, donde el an´alisis estad´ıstico de datos es tan frecuente como en econom´ıa, tambi´en se ense˜na el m´etodo de M CO. Por lo general, el matiz es distinto. En muchos casos, los datos tienen su origen en experimentos dise˜nados19 por lo que el cumplimiento de los supuestos no resulta 19
Sobre todo en lo que concierne a la medicina.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
156
Varianza de y Varianza de y Varianza de x2
Varianza de x1
Varianza comun de x1 y x2 que no
Varianza de x2. Una parte explica a y
explica la de y Varianza comun de x1 y x2 que
Varianza de x1.
explica la de y
Una parte explica a y 0
0.2
0.4
0.6
0.8
1
Figura 3.1: Diagramas de Venn una cuesti´on tan cr´ıtica como en econometr´ıa.20 Por lo mismo, se pone m´as e´ nfasis, desde un principio, en la interpretaci´on de los resultados. Claro que en econometr´ıa tambi´en se hace, pero a la par que el cuidado por la satisfacci´on de los supuestos. Algo que preocupa mucho a estos cient´ıficos sociales es la interpretaci´on de los par´ametros estimados; la preocupaci´on estriba en las unidades de medici´on de las variables utilizadas. Los economistas no se preocupan demasiado al respecto, puesto que, por lo general, si vamos a utilizar los par´ametros estimados, solemos aplicar los c´alculos necesarios para que nuestros par´ametros ya no midan cambios en las unidades de las variables, sino en t´erminos porcentuales: calculamos elasticidades, pues. Digamos, por ejemplo, que estimamos la siguiente especificaci´on, yt = α + βM M¯ xt + ut , donde las unidades de x son miles de millones. ¿Qu´e pasar´ıa con nuestro estimador de la pendiente si cambiamos las unidades de x a millones? Bueno, cambiar la escala es muy f´acil, requiere multiplicar todos los datos por mil. Hagamos que κ = 1000 y recuperemos moment´aneamente nuestro estimador de la pendiente de la secci´on pasada: Cov (xt , yt ) βˆM M¯ = V ar (xt ) PT ¯) (yt − y¯) t=1 (xt − x = PT ¯ )2 t=1 (xt − x
Es muy f´acil insertar nuestro cambio de escala en la expresi´on anterior para entender 20
En este sentido, pronto descubriremos que gran parte del esfuerzo en Econometr´ıa de destina a proponer m´etodos para identificar y corregir los rompimientos de los supuestos.
3.4. BONDAD DEL AJUSTE
157
las consecuencias:
βˆM¯ =
PT
κ (xt − x¯) (yt − y¯) PT 2 ¯ )2 t=1 κ (xt − x
t=1
Dado que se trata de una constante, es posible sacarla de las sumatorias; al final, quedar´a: P 1 Tt=1 (xt − x¯) (yt − y¯) ˆ βM¯ = PT κ ¯ )2 t=1 (xt − x βˆ ¯ = MM κ En otras palabras, aumentarle tres ceros a las variables simplemente dividi´o el par´ametro estimado por 1, 000. Evidentemente, las unidades en las que est´an medidas las variables afectan el valor de los estimadores. Es por ello que, para evitarle confusiones a un econometrista novel, conviene hacer que dichas unidades pierdan relevancia. Una soluci´on, la de los economistas, es calcular elasticidades; la de otros investigadores sociales es calcular C OEFICIENTES E STANDARIZADOS. Para esto, es necesario saber que esos mismos investigadores llaman a los par´ametros estimados que hemos estado utilizando C OEFICIENTES EN B RUTO o R AW E STIMATES en ingl´es. En una regresi´on multivariada, si βˆi es el par´ametro asociado a la variable explicativa xi , entonces, dicho estimado es llamado Coeficiente en Bruto, mientras σ ˆ que a su transformaci´on σˆxyi βˆi se le denomina coeficiente estandarizado. El coeficiente en bruto mide el cambio en la variable y—en unidades de e´ sta—ante un cambio unitario en xi , mientras que el coeficiente estandarizado mide el cambio en y medido en desviaciones est´andar ante el cambio de una desviaci´on est´andar en xi . Descomposici´on de la R2 Esta transformaci´on lineal de los par´ametros no nos interesa en s´ı gran cosa, pero es el pre´ambulo para descomponer la R2 y obtener la aportaci´on de cada variable a e´ sta. En realidad, ya no hay mucho que hacer; basta con tomar los coeficientes estandarizados y multiplicarlos por la correlaci´on entre la variable dependiente y la explicativa que corresponda. Definamos Ri2 como la contribuci´on de la i-´esima variable explicativa a la R2 global; definamos tambi´en rˆyi como la correlaci´on entre y y xi . Entonces:
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
158
Ri2
σ ˆ xi ˆ = βi · rˆyi σ ˆy
Para rematar esta secci´on, pondremos un peque˜no ejemplo para asentar este concepto. Suponga que estimamos la siguiente especificaci´on: yt = α + β1 xt1 + β2 xt2 + β3 xt3 + ut La siguiente tabla resume toda la informaci´on que necesitamos: Variable Constante x1 x2 x3 y
Desv. est´andar – 1.01 1.10 0.99 13.14
Correlaci´on con y – 0.18 0.30 0, 53 1.00
Estimado 3.17 2.34 4.52 7.64 –
Estandarizado – 0.18 0.38 0.57 – Suma 2 R Global
Ri2 – 0.03 0.11 0.30 – 0.44 0.44
Como habr´an visto, la suma de las Ri2 ’s individuales coincide con nuestra R2 de siempre. Se trata de un instrumento francamente u´ til, que vale la pena emplear a la hora de evaluar una especificaci´on. Otros Criterios Recientemente (es decir, hace m´as o menos 20 a˜nos) han aparecido nuevos criterios para evaluar el ajuste de un modelo; espec´ıficamente, son criterios que permiten comparar el ajuste de distintas especificaciones. En esta secci´on presentaremos dos en extremo populares. 1. Criterio de Informaci´on de Schwarz:
SIC = ln
Uˆ ′ Uˆ K + ln T T T
(3.8)
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
159
2. Criterio de Informaci´on de Akaike:
Uˆ ′ Uˆ 2K AIC = ln + T T
(3.9)
Note c´omo es posible optimizar (minimizar) ambos criterios mediante especificaciones que reduzcan la Suma de Residuales al Cuadrado, Uˆ ′ Uˆ . No obstante, los dos ejercen una penalizaci´on considerable si tales especificaciones incluyen demasiados par´ametros.
3.5.
Pruebas de Hip´otesis, Conjuntas e Individuales
3.5.1. Los estad´ısticos t En la derivaci´on de los estad´ısticos t en el modelo multivariado, seguiremos la misma filosof´ıa con la que presentamos la nueva f´ormula de la R2 , es decir: no incurriremos en demasiados detalles. Los estad´ısticos t, u´ tiles para realizar pruebas de hip´otesis individuales sobre cada uno de los par´ametros, se derivan de la misma manera que antes:
t βi =
βˆi − βi q σ ˆβ2i
La interrogante se versa en la f´ormula de la varianza del estimador, σ ˆβ2ˆ . Recordemos i que la matriz de varianza-covarianza de los estimadores es: ˆ = σ 2 (X ′ X)−1 V ar(β) | {z } K×K
Al estudiar el Teorema de Gauss-Gauss-Markov ha quedado claro que las varianzas de cada uno de los estimadores se sit´uan en la diagonal de dicha matriz, por lo que: V ar(βˆi ) = σ 2 (X ′ X)−1 ii
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
160
donde el sub´ındice “ii” indica que extraemos el elemento del i-´esimo rengl´on, ie´ sima columna de la matriz de varianza covarianza. La f´ormula del estad´ıstico t se convierte entonces en:
t βi = p
βˆi − βi
i = 1, 2, 3, . . . , K
σ ˆ 2 (X ′ X)−1 ii
Ya s´olo falta recordar que la hip´otesis m´as com´un que se prueba con el estad´ıstico t es la de nulidad del estimador: H0 : βˆ = β = 0. No obstante, es importante tener claro que la hip´otesis nula la establece el econometrista seg´un la pregunta a la que desea dar respuesta; la hip´otesis no necesariamente es de nulidad.
3.5.2. Pruebas conjuntas Planteamiento de la prueba Incurriendo en el riesgo de ser repetitivos, resaltamos una vez m´as las ventajas de una regresi´on multivariada. Al contar con los efectos aislados de cada variable sobre aquella cuyo comportamiento queremos explicar, resulta tentador probar— estad´ısticamente—hip´otesis sobre los par´ametros. Est´a claro que si dicha hip´otesis concierne a uno solo de tales par´ametros, entonces podremos recurrir a nuestros famosos estad´ısticos t. No obstante, si la hip´otesis que nos interesa involucra a varios—por ejemplo, implica una relaci´on lineal entre varios de ellos del estilo: β1 = 4 (β3 − β2 ), entonces, necesitaremos otra forma de probarla. Es a eso a lo que nos avocaremos en esta secci´on. Dichas hip´otesis, deber´an plasmarse como una serie de restricciones lineales. Estas hip´otesis quedar´ıan reflejadas en una serie de restricciones sobre los par´ametros. Asumiremos que dichas restricciones son v´alidas bajo la hip´otesis nula y las acomodaremos en una matriz a la que denominamos R: H0 : |{z} R ·β = r M ×K
Donde M es el n´umero de restricciones que queremos someter a prueba. Esta presentaci´on, reiteramos, resulta poco intuitiva. Para entenderla, presentaremos una serie de ejemplos de pruebas de hip´otesis: Ejemplo 7 R ESTRICCIONES SENCILLAS : Suponga que se estima la siguiente especificaci´on:
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
yt = α + β1 x1t + β2 x2t + β3 x3t + β4 x4t + ut
161
(3.10)
Se desea someter a prueba dos hip´otesis sencillas: H0 :
β1 = 0 β2 = 1
Como bien se puede ver, cada una de las hip´otesis podr´ıa ponerse a prueba de forma individual mediante un estad´ıstico t. Resulta conveniente, en algunos casos, probarlas conjuntamente y no s´olo por separado. Es por ello que vamos a plantear la matriz de restricciones antes propuesta: R · β = r. Empecemos definiendo cada uno de los elementos α β1 β= β2 β3 β4 Las dimensiones de este vector son harto conocidas: K × 1. Ahora pasemos a las otras matrices. M , el n´umero de restricciones, es igual a 2, M = 2. Ahora s´ı ya podemos pasar al formato propuesto R · β = r. La u´ nica dificultad estriba en el dise˜no de R y r: α β1 0 1 0 0 0 0 · β2 = 0 0 1 0 0 1 β3 β4
Note como, al llevar a cabo operaci´on matricial, recuperamos las dos restricciones que deseamos someter a prueba; las que est´an especificadas bajo la hip´otesis nula, H0 . ´ ELABORADAS : Suponga que se estima la esEjemplo 8 R ESTRICCIONES M AS pecificaci´on estipulada en la ecuaci´on (3.10). En esta ocasi´on, se desea someter a prueba dos hip´otesis en las que dos par´ametros est´en involucrados simult´aneamente:
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
162
H0 :
β1 + β2 = 1, β3 = β4 ,
en donde, nuevamente, el n´umero de restricciones es dos, M = 2. Ahora hay que definir R y r. Aclaremos de una vez que en ninguna de esas dos matrices deben aparecer los par´ametros expl´ıcitamente; s´olo pueden incluirse en ellas valores num´ericos concretos: α β1 1 0 1 1 0 0 · β2 = 0 0 0 0 1 −1 β3 β4 Note como se reformul´o la segunda hip´otesis y en el planteamiento matricial, qued´o establecida como β3 − β4 = 0. Ejemplo 9 R ESTRICCIONES PUNTUALES : Con af´an de presentar el mayor n´umero de eventuales hip´otesis, presentamos aqu´ı una hip´otesis similar a la que se podr´ıa resolver con un estad´ıstico t. Es importante recordar que, la metodolog´ıa aqu´ı expuesta permite probar muchas hip´otesis a la vez, por lo que no debe pensarse que esto resulta un ejercicio in´util. Suponga otra vez que se estima la especificaci´on estipulada en la ecuaci´on (3.10). En esta ocasi´on, la hip´otesis a probar es : H0 : β2 = 0.7 En este caso, el n´umero de restricciones es uno, M = 1. El planteamiento matricial, quiz´a un poco excesivo para nuestras necesidades, ser´ıa: α β1 = 0.7 β 0 0 1 0 0 · 2 β3 β4
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
163
Distribuci´on de la prueba Realizar la prueba redunda en un ejercicio muy sencillo en la mayor parte de los paquetes de c´omputo que se usan habitualmente. No obstante, es importante conocer el funcionamiento de la prueba puesto que al hacerlo, restamos preponderancia a la necesidad de memorizar dicho funcionamiento ya que se reemplaza por un elemento de l´ogica. En primera instancia, recordaremos la transmisi´on de la normalidad que inicia en los residuales y termina en los par´ametros. Retomemos nuestro modelo de siempre, Y = Xβ + U . Sabiendo que U ∼ iidN (0, σ 2 ) y que las variables explicativas son no-estoc´asticas, la normalidad se transmite “sin trabas” hasta la variable dependiente. S´olo es cuesti´on de conocer su media y varianza:21 Y ∼ N Xβ, σy2
Recordemos tambi´en que el estimador no es otra cosa sino una combinaci´on lineal de la variable dependiente: βˆ = (X ′ X)−1 X ′ Y Por ello, los estimadores tambi´en tendr´an una distribuci´on normal, con la media y varianzas que calculamos antes: βˆ ∼ N β, σ 2 (X ′ X)−1
Si βˆ se distribuye Normalmente, entonces, al multiplicarlo por constantes, dicha Normalidad persistir´a. Como vimos antes, Las restricciones, fruto de las hip´otesis que queremos probar y plasmadas en la matriz R, est´an conformadas por constantes; por ello, R · β tambi´en se distribuir´a como una Normal: R · βˆ ∼ N r, σ 2 R(X ′ X)−1 R′
La esperanza y la varianza arriba explicitadas son f´aciles de obtener. Para la primera— la esperanza—usaremos la parte derecha de la ecuaci´on, mientras que para la segunda— la varianza—aprovecharemos el lado izquierdo: 1. Esperanza:
21
E R · βˆ = E(r)
Puesto que con eso basta para caracterizar a una distribuci´on Normal.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
164
No obstante, r es, bajo la hip´otesis nula, un vector de constantes sin propiedades probabil´ısticas, por lo que: E R · βˆ = r
2. Varianza: En este caso, R es una matriz tambi´en compuesta por constantes. ˆ distribuido normalmente, la nueSi R fuera un escalar, al multiplicarlo por β, va varianza ser´ıa R2 var βˆ . Como R no suele ser escalar, el cuadrado se denota como una premultiplicaci´on y postmultiplicaci´on de la varianza del estimador:
ˆ var R · β
= R · var βˆ R′
= σ 2 R(X ′ X)−1 R′
As´ı, con el resultado anterior podr´ıamos realizar una prueba estad´ıstica, puesto que, bajo la hip´otesis nula, R · βˆ se distribuye normalmente; es de suponer que si H0 no es cierta, el c´alculo que ah´ı hagamos no ser´a normal y saldr´a de nuestro cl´asico intervalo −2, 2. El problema es que no conocemos uno de los par´ametros que intervienen en la f´ormula: σ 2 . Tendremos que manipular las expresiones para sortear esa dificultad. Para ello, ser´a necesario demostrar el siguiente resultado: Teorema 11 Sea un vector Z(T × 1) tal que Z ∼ N (0, Ω), siendo Ω una matriz no-singular. Entonces: Z ′ Ω−1 Z ∼ χ2T g.l. Prueba 1 : La matriz Ω, que es una matriz de Varianza-covarianza, tambi´en es sim´etrica. Para demostrar su distribuci´on procederemos como sigue. Si todos los Eigenvectores de la matriz Ω son distintos,22 entonces admite la siguiente representaci´on: Ω = |{z} P |{z} Λ P ′, T ×T T ×T
22
Esto no lo demostraremos puesto que son elementos de a´ lgebra matricial que en teor´ıa ya deben conocer; no obstante, cabe se˜nalar que ello siempre ocurre con las matrices de Varianza-Covarianza.
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
165
donde, como vimos en la secci´on anterior, P es una matriz compuesta por los eigenvectores—vectores propios—de Ω, P ′ P = IT y Λ es una matriz diagonal cuyos elementos son los valores propios—o eigenvalores. Retomemos nuestra matriz Ω e invirt´amosla: Ω−1 = (P ΛP ′ )
−1
Ahora procedamos a multiplicarla (premultiplicar y postmultiplicar) por un vector Z no nulo de dimensiones T × 1: Z ′ Ω−1 Z = Z ′ (P ΛP ′ )
−1
Z
La inversi´on de la matriz entre par´entesis puede separarse en tres elementos:23 Z ′ Ω−1 Z = Z ′ (P ′ )−1 Λ−1 P −1 Z Definamos W = P −1 Z Z ′ Ω−1 Z = Z ′ (P ′ )−1 Λ−1 W Note que no podemos reemplazar (moment´aneamente) Z ′ (P ′ )−1 por W ′ puesto ′ que W ′ = Z ′ (P −1 ) . Para sortear esta dificultad, imagine una matriz cuadrada A ′ invertible. Entonces A×A−1 = I; pero, trasponiendo, obtendr´ıamos: (A−1 ) ×A′ = ′ I. Postmultiplicando por (A′ )−1 a la expresi´on anterior, nos dar´ıa (A−1 ) = (A′ )−1 . Esto nos permite intercambiar el orden de la operaci´on de transposici´on con la de inversi´on: (P ′ )
−1
= P −1
Retomamos...
′
Z ′ Ω−1 Z = W ′ Λ−1 W Ahora imaginemos c´omo es este c´alculo: 23
Se invierte el orden de las matrices al interior del par´entesis.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
166
′ −1 W1 Λ11 0 ... 0 W1 W2 0 Λ−1 . . . 0 W2 22 Z ′ Ω−1 Z = .. · .. .. · .. .. ... . . . . . −1 0 0 0 ΛT T WT WT | {z } | {z } 1×T T ×T W1 W2 −1 −1 −1 W Λ W Λ . . . W Λ = 1 11 2 22 T T T .. | {z } . 1×T WT | {z }
T ×1
Z ′ Ω−1 Z =
T X
Wi2
Λii |i=1{z } escalar ′ −1
= WΛ W Pues hasta ahora lo que tenemos es una matriz que potencialmente podr´ıa ser, cuando menos semi-definida positiva. En realidad, veremos dentro de poco que es definida-positiva. Pero eso de hecho importa poco. Lo que realmente nos interesa es conocer sus propiedades probabil´ısticas. ¿C´omo hacemos esto? Si los elementos del vector W , es decir los elementos Wi ∀ i = 1, . . . , T , fueran N (0, Λ2ii ), entonces la expresi´on a la que llegamos resultar´ıa ser una suma de normales estandarizadas y elevadas al cuadrado. Esto deber´ıa recordarnos a la definici´on de una χ2T g.l. . S´olo nos resta averiguar qu´e es W . Sabemos que W = P −1 · Z. Si queremos utilizar lo establecido en el teorema 11, entonces deberemos asumir que el vector Z que introducimos hace un momento se distribuye normalmente con media cero y varianza Ω. Por otra parte, conviene recordar que la matriz P est´a construida con los eigenvectores de la matriz de Varianza-Covarianza de Ω. As´ı, para construir W multiplicamos algo que se distribuye como una normal centrada por otra cosa que est´a compuesta de elementos sin propiedades probabil´ısticas.24 El resultado sigue teniendo distribuci´on normal y tambi´en est´a centrado en cero. ¿Pero cu´al es su varianza? La podemos calcular... 24
Debe quedar claro que los eigenvectores/eigenvalores no se estiman si no que se calculan.
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
167
i h −1 V ar(W ) = E P −1 ZZ ′ (P ′ )
En la matriz P no hay elementos estoc´asticos, por lo que lo podemos extraer del operador esperanza: V ar(W ) = P −1 E (ZZ ′ ) · (P ′ )
−1
Debido al supuesto concerniente a la normalidad de Z sabemos que E (ZZ ′ ) = Ω: V ar(W ) = P −1 Ω (P ′ )
−1
Ahora podemos aprovecharnos de la descomposici´on de la matriz Ω, que es con la que empezamos la demostraci´on: V ar(W ) = P −1 P ΛP ′ [P ′ ]−1 La matriz P multiplicada por su inversa arroja a la matriz identidad, que podemos obviar... V ar(W ) = Λ As´ı, Λ es la matriz de Varianza-Covarianza de W : Λ11 0 . . . 0 0 Λ22 . . . 0 Λ = .. .. .. ... . . . 0 0 . . . ΛT T P W2 Retomando nuestro c´alculo de arriba, Z ′ Ω−1 Z = Ti=1 Λiii , pues ahora s´ı ya sabemos que se trata de variables normales est´andar al cuadrado, por lo que, aplicando la definici´on de una χ2 y sabiendo que... W ∼ iidN (0, Λ)
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
168
La distribuci´on de la expresi´on que nos interesa es: ′ −1 Z ′ Ω−1 Z = W PΛ 2 W Wi = Λii 2 ∼ χT g.l.
Por desgracia, a´un no terminamos (pero ya merito). Nosotros lo que tenemos es: −1 ′ 2 ′ ˆ Rβ ∼ N r, σ R (X X) R
Si centramos...
−1 (Rβˆ − r) ∼ N 0, σ 2 R (X ′ X) R′
...y definiendo a Z de manera que sea normal est´andar... def
Z = Rβˆ − r | {z } M ×1
... as´ı como Ω:
def
Ω = σ 2 R (X ′ X)
−1
R′
...ahora s´ı podemos aplicar el Teorema 11: Z ′ Ω−1 Z =
′ h i−1 −1 Rβˆ − r σ 2 R (X ′ X) R′ Rβˆ − r
∼ χ2M g.l.
Cuando desarrollamos la prueba F en el contexto de la regresi´on simple (recuerde la ecuaci´on (2.16) en la p´agina 106) hab´ıamos mostrado que:
(T − K)
σ ˆ2 ∼ χ2T −K g.l. 2 σ
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
169
Con el resultado anterior ya tenemos dos distribuciones χ2 independientes.25 Las podr´ıamos utilizar para construir una F:
F = =
χ21 /g.l.1 χ22 /g.l.2 ′ −1 ′ −1 2 ′ ˆ ˆ Rβ − r /M Rβ − r σ R (X X) R σ ˆ 2 /σ 2
∼ Fg.l.1 ,g.l.2 Esta afortunada divisi´on permite que se cancele el elemento desconocido, σ 2 :
F =
′ −1 −1 ′ ′ Rβˆ − r R (X X) R Rβˆ − r /M
∼ FM g.l., (T −K) g.l.
σ ˆ2
Es muy importante recordar que todo este ejercicio s´olo es v´alido si y solamente si la hip´otesis nula, H0 es cierta. Si no lo es, el c´alculo de la expresi´on de arriba no tendr´a distribuci´on F. Ahora bien, esta presentaci´on de la prueba se antoja muy compleja como para ponerla en marcha f´acilmente. Existe por fortuna una manera m´as sencilla de llevarla a cabo: Teorema 12 Sea: 1. βˆ el estimador de MCO No-Restringido (es decir, sin imponer nada a los par´ametros a estimar) y SCE1 , la suma de residuales al cuadrado correspondiente:
SCE1 = U1′ U1 25
En este caso tambi´en aplica el Teorema 6.
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
170 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Figura 3.2: Distribuci´on de Fisher 2. β˜ el estimador de MCO Restringido (es decir, imponiendo las hip´otesis de H0 ) y SCE2 la suma de residuales al cuadrado correspondiente: SCE2 = U2′ U2 Entonces, el estad´ıstico de prueba F antes desarrollado puede expresarse de forma equivalente como: F=
(SCE2 − SCE1 ) /M SCE1 / (T − K)
Es f´acil llevar a cabo este c´alculo. Basta con correr dos regresiones y recuperar las sumas de residuales al cuadrado, tanto te la regresi´on restringida como de la no restringida.
3.5.3. Pruebas de desigualdad Las pruebas que hemos realizado hasta este momento siempre se han planteado en tanto igualdades, es decir: la hip´otesis nula se formula mediante una relaci´on de igualdad...
´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES
171
H0 : par´ ametro(s) = constante(s) Ello obedece a que, en muchas ocasiones, las hip´otesis que se requiere formular pueden hacerse as´ı; no obstante, es bastante razonable considerar que en otras tantas la pregunta de inter´es tendr´a una interpretaci´on matem´atica de desigualdad. Podr´ıamos plantear, a manera de ejemplo, la estimaci´on de la elasticidad-ingreso de un impuesto (es decir, su recaudaci´on). Tomemos el Impuesto al Valor Agregado (IVA) con respecto al ingreso del pa´ıs, ambos transformados en logaritmos: IV At = α + βP IBt + ut Como ya vimos anteriormente, correr la especificaci´on anterior nos brinda par´ametros que corresponden a una estimaci´on de la elasticidad, en este caso ingreso. Un estudio de esta naturaleza debe ir acompa˜nado, como bien mandan los c´anones de los economistas, de una elucidaci´on del grado de elasticidad: muy el´astica (β > 1), poco el´astica (β < 1). Huelga decir que la prueba de hip´otesis en este caso se deber´a construir en tanto desigualdad. ¿C´omo hacer tal prueba? Pues la propuesta consiste en una prueba de desigualdad conjunta. En primera instancia, como siempre, hay que plantear la hip´otesis nula y la alternativa: H0 : cβ ≤ r donde c es un vector rengl´on y r es una constante (un escalar). Note que, al establecer c, debe seguir un procedimiento an´alogo al de las pruebas de igualdad; la diferencia estriba en que aqu´ı s´olo puede probar una hip´otesis a la vez. Ello, huelga decir, no impide que dicha hip´otesis sea elaborada.26 El estad´ıstico que hemos de utilizar se construye con base en la siguiente f´ormula: cβˆ − r T =p σ ˆ 2 c(X ′ X)−1 c′
Dicho estad´ıstico tiene una distribuci´on, bajo la hip´otesis nula, t de Student no centrada:27 26
Por ejemplo, se puede plantear la hip´otesis nula siguiente: H0 : β1 + 2β3 − β4 ≤ 2 La distribuci´on de t con la que hab´ıamos trabajado hasta ahora era una t de student centrada; esta u´ ltima es un caso especial de la versi´on no centrada. 27
172
´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION
T ∼ tT −K,δ donde δ es el par´ametro de no-centralidad, cuya f´ormula es δ = √
ˆ cβ−r σ ˆ 2 c(X ′ X)−1 c′
.
La regi´on cr´ıtica de la prueba, C, es C = [t1−α , ∞); la regla de decisi´on es muy sencilla; se rechaza H0 : cβ ≤ r s´ı y s´olo s´ı T ≥ t1−α . Cabe resaltar que el valor cr´ıtico se obtiene de la distribuci´on t de student centrada (la que siempre hemos usado); s´olo recuerde que la prueba tiene nada m´as una cola. Ejercicio 2 Recupere de las bases de datos del Banco de M´exico, del INEGI y de SHCP el la recaudaci´on de IV A y el P IB, convi´ertalos ambos a precios constantes, aplique logart´ımos y estime la especificaci´on antes mencionada; con base en sus resultados ejecute una prueba conjunta de desigualdad donde la hip´otesis nula sea que la relaci´on entre el ingreso y el impuesto es inel´astica. Para cerrar el estudio est´andar del modelo multivariado, procedemos ahora a (i) estudiar con m´as detenimiento una cuesti´on t´ecnica relativa a las variables explicativas (Multicolinealidad), y; (ii) proponer un m´etodo para tomar en cuenta aspectos cualtitativos, o bien dif´ıcilmente cuantificables en nuestras especificaciones (Variables Binarias).
Cap´ıtulo 4 La multicolinealidad La cuesti´on que est´a en la palestra es el addendum que le hicimos al segundo supuesto cuando atacamos el modelo general. Los supuestos de dicho modelo resultaron ser los mismos que los del de regresi´on simple con una notable diferencia. ´ L INEAL E XACTA ENTRE CUALQUIERA DE LAS N O EXISTE R ELACI ON VARIABLES INDEPENDIENTES DEL MODELO . Lo anterior corresponde, no tanto a un rompimiento de supuesto, sino m´as bien a una cuesti´on t´ecnica relativa espec´ıficamente a los datos. Esa es la raz´on por la que no se estudia en la siguiente parte (no se trata, formalmente hablando, de un rompimiento de supuesto). Cuando no queda satisfecha esta cl´ausula (es decir que existe relaci´on lineal entre explicativas) se dice que dichas variables son colineales perfectas o bien que hay un problema de colinealidad perfecta. Ahora bien, una relaci´on lineal entre variables explicativas puede sonar un tanto extra˜no. ¿Qu´e se entiende al respecto? Como de hecho pretende explicar el ejemplo siguiente, en muchas ocasiones dicha relaci´on obedece a una cuesti´on de construcci´on de las variables que puede pasar desapercibida por los econometristas incautos o bien ajenos al procedimiento que gener´o los datos. Dicho ejemplo est´a inspirado en uno dado en el libro de Econometr´ıa escrito por Pyndick y Rubinfied:1 Ejemplo 10 Un investigador lleva a cabo un estudio sobre el desempe˜no escolar. La variable de inter´es es “Calificaciones”. La hip´otesis del investigador es que las calificaciones de los alumnos dependen de cuatro variables; el ingreso familiar, el La edici´on que usamos de este libro es: Econometric Models and Economic Forecasts, 4a edici´on, 1998. 1
173
´ CAPITULO 4. LA MULTICOLINEALIDAD
174
g´enero, el n´umero de horas de estudios al d´ıa y la dedicaci´on a cuestiones escolares (medida en horas) por parte de los alumnos a la semana. Se plantea la siguiente especificaci´on:
Calif icacionesi = α + β1 Y fi + β2 Si + β3 H1i + β4 H2i + ui donde, 1. Y fi es el ingreso familiar del i-´esimo estudiante. 2. Si es el g´enero del i-´esimo estudiante (1 si es mujer; 0 si es hombre) 3. H1i es el n´umero de horas que estudia diariamente el i-´esimo estudiante. 4. H2i es el n´umero de horas que dedica a la escuela semanalmente el i-´esimo estudiante. Dicho investigador, despu´es de levantar una encuesta entre sus alumnos, construye en primera instancia su matriz de variables explicativas, que llamaremos, como siempre, X. Las columnas correspondientes a las dos u´ ltimas variables las dejaremos expl´ıcitamente se˜naladas:
1 1 X = 1 .. . 0
Y f1 S1 0.5 3.5 Y f 2 S2 2 14 Y f3 S3 1.5 10.5 .. .. .. .. . . . . Y f i Si 3 21
¿Qu´e ocurre con estas dos columnas? pues existe una relaci´on lineal muy obvia entre ambas: H2i = 7 × H1i Nuestro investigador tiene un problema de multicolinealidad perfecta. Una interpretaci´on perfectamente aceptable de su error es la siguiente: las u´ ltimas dos variables que propuso como explicativas corresponden a la misma informaci´on. Con una de ellas bastar´ıa, puesto que la otra no aporta nada m´as.
4.1. MULTICOLINEALIDAD PERFECTA
175
Cuando no hay independencia lineal entre todas las columnas de la matriz, se dice que dicha matriz no tiene rango completo. Si denotamos al rango de la matriz con la letra ρ, podemos definirlo como:
ρ(X) = m´ın (# columnas independientes, # renglones independientes) ¿Qu´e tan grave es la multicolinealidad? Podr´ıa aducirse que no demasiado, puesto que tan s´olo estamos repitiendo la informaci´on. El hecho es que la multicolinealidad, en su modalidad “perfecta”, imposibilita el c´alculo de la regresi´on; El hecho es que las variables explicativas rara vez mantienen una relaci´on lineal perfecta; la multicolinealidad “imperfecta” degrada sensiblemente la calidad de la estimaci´on e imposibilita la inferencia correcta. La multicolinealidad es, en realidad, un fen´omeno gradual. Estudiaremos ambos casos, multicolinealidad perfecta e imperfecta.
4.1.
Multicolinealidad perfecta
La multicolinealidad perfecta ocurre cuando existen dos o m´as variables explicativas que mantienen entre s´ı una relaci´on lineal. Como ya fue mencionado, en ese caso se dice que la matriz de variables explicativas no tiene rango completo. La colinealidad entre dos o m´as variables se transmite de la matriz X a la matriz X ′ X. La forma m´as f´acil de entender esto es ver un simple ejemplo. Sea una matriz de variables explicativas de dimensiones T × K. Imagine una relaci´on lineal entre las primeras dos variables, x2 = τ x1 :
x11 x21 x31 .. . xT 1
τ x11 τ x21 τ x31 .. . τ xT 1
x13 . . . x23 . . . x33 . . . .. .. . . xT 3 . . .
x1K x2K x3K .. . xT K
Ahora procedamos a calcular la matriz X ′ X:
´ CAPITULO 4. LA MULTICOLINEALIDAD
176
x11 x21 x31 τ x11 τ x21 τ x31 x13 x23 x33 .. .. .. . . . x1K x2K x3K
. . . xT 1 x11 x21 . . . τ xT 1 . . . xT 3 × x31 .. .. .. . . . . . . xT K xT 1
τ x11 τ x21 τ x31 .. . τ xT 1
x13 . . . x23 . . . x33 . . . .. .. . . xT 3 . . .
x1K x2K x3K .. . xT K
El resultado de la operaci´on es: P 2 P P 2 x τ x 1t 1t P 2 P 2 Px1t x3t 2 τ x τ x τ x1t x3t 1t 1t P P 2 P x3t x1t x3t x1t x3t τ . . . . . .. P . P . x1t xKt τ x1t xKt ...
P ... Px1t xKt ... τ x1t xKt .. ... . .. ... . P 2 ... xKt
Observe como tanto las dos primeras columnas son linealmente dependientes, as´ı como los dos primeros renglones. ¿Por qu´e es importante esto? Lo es porque la f´ormula de los estimadores βˆ involucra a una matriz inversa, −1 βˆ = (X ′ X) X ′ Y,
y el c´alculo de dicha inversa se lleva a cabo de la siguiente manera: (X ′ X)
−1
=
1 AdjX ′ X |X ′ X|
donde |X ′ X| es el determinante de la matriz X ′ X y AdjX ′ X es la matriz adjunta de X ′ X.2 La relaci´on lineal entre dos columnas tiene un efecto muy particular sobre el determinante. Para poderlo establecer, debemos conocer primero una interesante propiedad del determinante: El determinante de una matriz—cuadrada—es el mismo que el determinante de esa misma matriz donde una de sus columnas es multiplicada por una constante y sumada a otra columna. 2
La matriz adjunta es igual a la matriz de cofactores traspuesta. La matriz adjunta—de la matriz X X, por ejemplo- es tal que el elemento en el i-´esimo rengl´on, j-´esima columna se obtiene calculando (−1)i+j | (X ′ X)(j,i) |, donde (X ′ X)(j,i) es igual a la matriz X ′ X, s´olo que habi´endole borrado el rengl´on j y la columna i. ′
4.1. MULTICOLINEALIDAD PERFECTA
177
Lo anterior lo podemos ilustrar en un caso sencillo. Sea una matriz A tal que:
A =
a b c d
Entonces el determinante es: |A| = a × d − c × b. Ahora multipliquemos la segunda columna por τ y sumemos el resultado a la primera:
A˜ =
a+b×τ b c+d×τ d
Calculemos el determinante de esta nueva matriz: ˜ A = a × d |+b × d × τ{z− b × d × τ} −c × b =0
= a×d−c×b
Apliquemos esta propiedad en la matriz que nos interesa a sabiendas que la f´ormula general del determinante es:
|X ′ X| = | {z } K×K
K X i=1
(−1)j+i (X ′ X)(i,j) (X ′ X)(i,j) ,
donde la matriz (X ′ X)(i,j) es igual a la matriz X ′ X s´olo que habiendo borrado el ie´ simo rengl´on y la j-´esima columna. Retomemos nuestra matriz X ′ X y obtengamos el determinante. La f´ormula general que nos permite obtenerlo es: Note que los sumandos en la f´ormula van multiplicados por los elementos de una columna de la matriz original (con los signos alternados). Note tambi´en que esta f´ormula permite seleccionar dicha columna al momento de realizar el c´alculo (es necesario definir el valor de j). Conviene entonces aprovechar alguna columna que tenga muchos ceros, para agilizar el c´alculo. La nuestra, de momento, no tiene, necesariamente columnas donde haya ceros. No obstante, aprovechando el problema de colinealidad y usando la propiedad mencionada hace un momento, podemos crear una columna donde sus elementos sean todos iguales a cero; tomemos la 1a columna y multipliqu´emosla por −τ ; despu´es, sum´emosla a la 2a columna:
´ CAPITULO 4. LA MULTICOLINEALIDAD
178
P P P 2 τ P x21t − τ Px21t Px1t2 τ τ 2 x21t − τ 2 x21t P x1t P P x1t x3t − τ x1t x3t x1t x3t τ . . . .. P . P P x1t xKt τ x1t xKt − τ x1t xKt
Nos queda lo siguiente: P 2 Px1t2 τ P x1t x1t x3t .. P . x1t xKt
P 0 Px1t x3t 0 τ x1t x3t P 2 0 x3t .. .. . .
0
...
P ... Px1t xKt ... τ x1t xKt .. . ... .. ... . P 2 ... xKt
P ... x x 1t Kt P ... τ x1t xKt .. ... . .. ... . P 2 ... xKt
Sabiendo que el determinante de esta matriz es el mismo que el de la que nos interesa, podemos calcularlo. Con esta matriz es muy f´acil; definimos, para efectos de la f´ormula, i = 2, lo que nos quedar´ıa
|X ′ X| = 0 |X ′ X12 | + 0 |X ′ X22 | − 0 |X ′ X32 | + . . . = 0 S I EL DETERMINANTE ES NULO , LA MATRIZ INVERSA NO EXISTE — NO SE PUEDE CALCULAR ; SE DICE QUE LA MATRIZ X ′ X ES SINGULAR ; DADO QUE ´ ´ LA F ORMULA DE LOS ESTIMADORES REQUIERE DICHA INVERSA , ESTOS TAMPOCO SE PUEDE CALCULAR . Si existe un problema de multicolinealidad perfecta nos daremos cuenta muy r´apido; simple y sencillamente el programa que usemos (sea cual sea) se˜nalar´a que no es posible realizar los c´alculos o marcar´a error o indicar´a que la matriz X ′ X es singular. En realidad, e´ ste es un problema f´acil de identificar y por lo mismo, f´acil de corregir (se puede eliminar la variable que est´e causando la multicolinealidad).
4.2. MULTICOLINEALIDAD IMPERFECTA
4.2.
179
Multicolinealidad imperfecta
Como vimos en la secci´on anterior, la multicolinealidad, en caso de ser perfecta, impide el c´alculo de los estimadores. Pero, ¿qu´e tal si nuestro fen´omeno de multicolinealidad es del tipo: x1t = 2x2t + vt Donde Vt es un ruido centrado en cero. Aqu´ı se decanta la importancia de lo dicho al inicio de la secci´on. La multicolinealidad es un fen´omeno gradual. En su m´axima expresi´on (multicolinealidad perfecta), las consecuencias son evidentes, pero todo otro caso, quiz´a no sea tan obvio poner en evidencia el fen´omeno. Una forma muy elocuente de ilustrar lo que se acaba de decir es mediante el diagrama de Ballentine o de Venn.3
Varianza de y Varianza de y Varianza de x2
Varianza de x1
Varianza comun de x1 y x2 que no
Varianza de x2. Una parte explica a y
explica la de y Varianza comun de x1 y x2 que
Varianza de x1.
explica la de y
Una parte explica a y 0
0.2
0.4
0.6
0.8
1
Figura 4.1: Diagramas de Venn
Es posible obviar los c´alculos a la luz de los obtenidos en la secci´on anterior; de repetirse e´ stos, podr´ıamos ver que la relaci´on lineal entre dos o m´as variables explicativas no ser´ıa perfecta; el grado de imperfecci´on depender´a de la intensidad del ruido blanco que le incorporamos a dicha relaci´on. Si la varianza de vt es muy grande, pr´acticamente no se resentir´a en los c´alculos la relaci´on lineal; no obstante, si dicha variable es muy chica, habr´a problemas para obtener el determinante de la matriz y por ende la inversa. 3
Extra´ıdo del Libro: Econometr´ıa, escrito por Damodar Gujarati, 4a edici´on, 2003.
´ CAPITULO 4. LA MULTICOLINEALIDAD
180
En caso de haber multicolinealidad de grado, el determinante no ser´a exactamente igual a cero,4 aunque quiz´as s´ı muy chico. En tales circunstancias, las consecuencias se dejar´an sentir en las varianzas estimadas de los estimadores ˆβˆK ˆβˆ2 , . . . , σ σ ˆβˆ1 , σ Para entender lo anterior, ilustr´emoslo con una regresi´on concreta, en la que trabajaremos con variables centradas y por ende, sin constante: yt = β1 x1t + β2 x2t + ut En ese caso, la matriz de variables explicativas ser´a:
x11 x21 X = .. .
x12 x22 .. .
xT 1 xT 2
Mientras que la matriz X ′ X ser´a: P 2 P x x x 1t 2t 1t P 2 XX = P x2t x1t x2t ′
Al invertirla, obtendremos:
′
(X X)
−1
= D
−1
P 2 P − P x1t x2t P x2t x21t − x1t x2t
P 2 P 2 P d´onde el determinante es: D = x1t x2t − ( x1t x2t )2 . Para esta ilustraci´on requeriremos incorporar o asociar el coeficiente de correlaci´on entre variables explicativas. Lo anterior es debido a que e´ ste representa una forma de medir que tan “buena” es la relaci´on lineal entre dichas variables explicativas y 4
Hay que recordar, no obstante, que las computadores trabajan una precisi´on espec´ıfica. Si el determinante es demasiado chico, a´un si no es nulo, es posible que no se pueda calcular.
4.2. MULTICOLINEALIDAD IMPERFECTA
181
nos puede dar indicios de la relaci´on entre el grado de colinealidad y la varianza estimada de los par´ametros.5 La f´ormula del coeficiente de correlaci´on es: P
x1t x2t ρx1 x2 = pP P x1t 2 · x2t 2 P ( x1t x2t )2 2 ρx 1 x 2 = P 2 P 2 x1t x2t
Ahora retomemos nuestro estimador de la varianza de βˆ1 : σβ2ˆ1 = σ 2 (X ′ X)−1 11 2
= σ P
P
x22t P P x21t x22t − ( x1t x2t )2
Lo volteamos (manipulaci´on que nos acerca a la f´ormula de la correlaci´on):
σβ2ˆ1 = σ 2
"P
x21t
P
#−1 P x22t − ( x1t x2t )2 P 2 x2t
Multiplicamos toda la expresi´on por
σβ2ˆ1
P 2 x P 21t x1t
(que no altera nada):
# " P P 2 P 2 P 2 −1 2 2 ( x1t ) x − x ( x1t x2t ) P2t 2 P 1t = σ2 x1t x22t
Las expresiones marcadas en tinta gris corresponden a lo que definimos como el coeficiente de correlaci´on al cuadrado, ρ2x1 x2 . Podemos reemplazarlo: 5
Para proceder con este c´alculo, tendr´ıamos que cambiar por un momento nuestro segundo supuesto; las variables x s´ı son estoc´asticas, pero no est´an correlacionadas con el t´ermino de error, Cov(xit , ut ) = 0 para i = 1, 2, . . . , K. Recuerde que ambos supuestos apuntan en la misma direcci´on (aunque el segundo es m´as cre´ıble mientras que el primero s´olo es c´omodo para sacar algunos resultados). Lo anterior nos permite calcular la f´ormula del coeficiente de correlaci´on sin complicaciones de orden epistemol´ogico.
´ CAPITULO 4. LA MULTICOLINEALIDAD
182
σβ2ˆ1
#−1 " P P 2 2 2 X ( x ) x x21t = σ 2 P 1t2 P 2 2t − ρ2x1 x2 x1t x2t X X −1 2 2 2 x21t x1t − ρx1 x2 = σ = P
x21t
σ2 1 − ρ2x1 x2
Un procedimiento an´alogo puede llevarse acabo con la varianza del otro estimador, βˆ2 ; de hecho, este fen´omeno ocurre tambi´en cuando hay m´as variables explicativas. Lo interesante de este u´ ltimo resultado es que facilita la compresi´on del efecto de la colinealidad entre dos de las variables independientes: 1. Si la relaci´on lineal entre x1 y x2 es pobre, esto deber´ıa quedar se˜nalado por una correlaci´on baja: ρx1 x2 peque˜no. Si dicha correlaci´on es peque˜na, su cuadrado lo es a´un m´as. El denominador se incrementa y la varianza βˆ1 disminuye. 2. Si la relaci´on lineal entre x1 y x2 es muy “precisa”, esto deber´ıa quedar se˜nalado por una correlaci´on alta: ρx1 x2 grande. Si dicha correlaci´on es grande, el denominador se reduce y la varianza de βˆ1 aumenta. Es esto u´ ltimo lo importante a retener en cuestiones de multicolinealidad; e´ sta tiende a hacer m´as grandes las varianzas de los par´ametros estimados. Se dice que la ´ multicolinealidad I NFLA LAS VARIANZAS DE LOS PAR AMETROS E STIMADOS.
4.3.
Detecci´on de la multicolinealidad
A la luz de las dos secciones inmediatamente anteriores, ha quedado claro que multicolinealidad es en esencia un problema de grado; si llega a haber multicolinealidad perfecta, ser´a f´acil darnos cuenta, debido a que no ser´a posible estimar los par´ametros; el an´alisis se concentrar´a por ende en la averiguaci´on de un posible grado de colinealidad entre variables y si e´ ste es lo suficientemente importante como para que la calidad de los estimadores y de la inferencia realmente se degrade.
´ DE LA MULTICOLINEALIDAD 4.3. DETECCION
183
4.3.1. An´alisis informal Lo primero que se debe advertir al lector es que, al momento de dise˜nar su especificaci´on sea cauteloso al a˜nadir variables explicativas y sea consciente de la definici´on de cada una de ellas; algunos errores burdos de colinealidad perfecta pueden ser as´ı evitados. En otros casos, cuando la colinealidad no es perfecta, detectarla no resulta tan evidente. Es importante tomar en cuenta que los problemas de multicolinealidad—de grado—a los que se suele enfrentar uno obedecen, o bien a deficiencias muestrales o a problemas en nuestra especificaci´on. En aras de su detecci´on, proveemos en la siguiente lista los s´ıntomas cl´asicos de un problema de multicolinealidad—de grado—serio. Dichos s´ıntomas deben presentarse simult´aneamente para que sea susceptibles de ser interpretados correctamente como evidencia de multicolinealidad: 1. R2 cercana a la unidad y estad´ısticos-t no-significativos. 2. Alta correlaci´on lineal entre variables explicativas. Lo anterior compagina con lo que vimos en las secciones anteriores. Por una parte, sabemos que la colinealidad entre variables infla las varianzas de los par´ametros asociados en la especificaci´on. El c´alculo del estad´ıstico-t implica dividir al estimador entre la ra´ız cuadrada de su varianza. Si e´ sta es grande (debido a la colinealidad), es l´ogico suponer que los estad´ısticos-t salgan peque˜nos. Dado que la multicolinealidad es un problema meramente algebraico, e´ sta no degrada el ajuste del modelo; Por eso mismo, un buen ajuste no suele ser compatible con variables explicativas no significativas. Idealmente, las variables explicativas son ortogonales entre s´ı, es decir que cada una provee de informaci´on diferente al modelo sin que haya redundancia. Al observarse ese comportamiento, se puede sospechar que hay multicolinealidad. Con respecto al c´alculo de correlaciones entre explicativas, pues no queda mucho por decir. Si alguna correlaci´on sale demasiado alta, se vuelve indicio de colinealidad entre esas variables. Estos m´etodos, as´ı como resultan de sencilla aplicaci´on, tambi´en son muy falibles. Si realmente se sospecha de la presencia de multicolinealidad, conviene aplicar estrategias m´as formales.
4.3.2. M´etodos m´as formales Mediante regresiones auxiliares Se propone a continuaci´on, a manera de receta de cocina, una prueba que hace uso de unas regresiones auxiliares:
´ CAPITULO 4. LA MULTICOLINEALIDAD
184
1. Correr cada variable explicativa X contra las dem´as explicativas. recuperar la R2 . Tendremos entonces tantas regresiones auxiliares como variables explicativas, es decir K. 2. Con cada medida de bondad de ajuste, Ri2 ∀i = 1, 2, 3....K calcular el siguiente estad´ıstico de prueba:
Ri2 /K − 1 (1 − Ri2 ) / (T − K) ∼ FK−1 g.l., T −K g.l.
Li =
Donde: H0 : No existe relaci´on lineal entre xi y las dem´as variables explicativas. Ha : S´ı existe relaci´on lineal entre xi y las dem´as variables explicativas.
La forma de lectura de la prueba es la misma que en ocasiones anteriores, por lo que ya no nos detendremos a explicarla. ´ Mediante el Numero de condici´on El problema de la multicolinealidad se refiere a la existencia de relaciones aproximadamente lineales entre las variables explicativas del modelo,6 lo que afecta considerablemente la estimaci´on de la varianza de los estimadores al usar MCO. El n´umero de Condici´on permite no s´olo detectar una posible presencia de la multicolinealidad, sino tambi´en evaluar la gravedad del asunto. El N´umero de Condici´on se define como sigue: Definici´on 12 El N´umero de Condici´on, denotado κ se construye con base en los valores propios—o eigenvalores—de la matriz de variables explicativas X ′ X. La f´ormula precisa es: κ= 6
Ma ´ximo eigenvalor M´inimo eigenvalor
Secci´on realizada por Laura X´ochitl Vel´azquez Fern´andez, Alma Aurelia Vega Aguilar, Ferm´ın Omar Reveles Gurrola y Marco Tulio Mosqueda.
´ DE LA MULTICOLINEALIDAD 4.3. DETECCION
185
Alternativamente se propone usar la ra´ız cuadrada de κ que es conocida como el ´ Indice de Condici´on; IC =
√
κ
La regla est´andar para interpretar ambas medidas es la que sigue: 1. Si κ est´a entre 100 y 1, 000, existe multicolinealidad que se caracteriza como moderada a fuerte; si κ > 1, 000, entonces se dice que hay multicolinealidad severa. 2. Alternativamente, si el IC est´a entre 10 y 30, hay multicolinealidad que va de moderada a fuerte y si el IC > 30, entonces se dice que hay multicolinealidad severa. Es necesario tomar en cuenta algunas cuestiones para calcular el n´umero de condici´on. En primera instancia es necesario conocer un par de resultados de a´ lgebra matricial: Teorema 13 Resultados de a´ lgebra matricial: Los eigenvalores de una matriz sim´etrica con elementos reales tambi´en son reales. El determinante de una matriz es igual al producto de sus eigenvalores. La matriz X ′ X es sim´etrica y semi positiva-definida, por lo que, por definici´on, sus eigenvalores son mayores o iguales a cero. El rango de una matriz sim´etrica corresponde al n´umero de eigenvalores distintos de cero que e´ sta contiene. Con base en lo anterior es f´acil entender que si nuestra matriz no tiene rango completo, uno de sus eigenvalores (el m´as chico) ser´a cero. En ese caso, nuestro n´umero de condici´on deber´ıa ser infinito (puesto que dividir´ıamos por cero). Claro est´a, si existe una relaci´on lineal imperfecta entre las variables explicativas, entonces, como ya vimos, el determinante ser´ıa muy cercano a cero o bien el eigenvalor m´as chico ser´ıa casi cero. Nuestro n´umero de condici´on corresponder´ıa a algo dividido por un n´umero muy cercano a cero, por lo que ser´ıa muy grande. Existe otra cuesti´on a considerar: Si cambiamos las unidades de medici´on de las variables obtendr´ıamos valores distintos en los eigenvalores. Ello merma la utilidad
´ CAPITULO 4. LA MULTICOLINEALIDAD
186
de la prueba puesto que siempre podr´ıamos cambiar dichas unidades para asegurar un eigenvalor m´ınimo m´as grande y por ende un n´umero de condici´on menor. Para evitar ese problema es conveniente eliminar las unidades de medidas mediante una estandarizaci´on. Esta u´ ltima consiste simplemente en dividir cada variable explicativa entre la ra´ız cuadrada de la sumatoria de las observaciones al cuadrado: xit x∗it = pP
x2it
Entonces, los eigenvalores se obtienen de la matriz X ′ X formada por las variables estandarizadas.
4.4.
An´alisis de Componentes Principales
En todo estudio emp´ırico, el investigador busca (o deber´ıa buscar) trabajar con el mayor n´umero de variables posibles. Lo anterior hace sentido, no s´olo intuitivamente, si no tambi´en por el simple hecho de que a mayor n´umero de variables, mayor el el acerbo de que se dispone para modelar el fen´omeno de inter´es. No obstante, conforme recopilamos m´as informaci´on, aumenta tambi´en la posibilidad de que algunas variables provean informaci´on ya disponible en otras. Siguiendo la jerga hasta ahora empleada, podr´ıamos deicr que aumenta el riesgo de que dos o m´as variables est´en altamente correlacionadas. Hemos visto algunas soluciones si bien ninguna es completamente convincente. la que a continuaci´on vamos a desarrollar, regresi´on por componentes principales. es una alternativa m´as: Tiene limitaciones obvias pero tambi´en ventajas innegables. En palabras de Jollife:7 , el an´alisis de componentes principales (ACP) es: La idea central del ACP es reducir la dimensionalidad de un conjunto de datos, consistente e´ ste en un n´umero grande de variables interelacionadas, manteniendo la mayor proporci´on posible de la variabilidad de dicho conjunto. Esto se logra transform´andolo a un nuevo conjunto de variables, denominadas Componentes Principales, que tienen la virtud de ser ortogonales entre s´ı y suelen estar ordenados de mayor a menor en lo que respecta a su capacidad de retener la variaci´on presente en las variables originales. Este nuevo conjunto de variables o componentes principales se obtiene mediante un m´etodo an´alogo a MCO (es decir, mediante la optimizaci´on (maximizaci´on) de una funci´on cuadr´atica). En primera instancia, se busca una funci´on lineal de las 7
Jollife, I. (2005) “Principal Components Analysis”. Traducci´on m´ıa.
´ 4.4. ANALISIS DE COMPONENTES PRINCIPALES
187
variables que tenga varianza m´axima. a1 x1t + a2 x2t + . . . + ak xkt Posteriormente, se busca otra combinaci´on lineal de las variables, que tambi´en maximice la varianza pero que adem´as sea ortogonal a la primera combinaci´on: b1 x1t + b2 x2t + . . . + bk xkt donde, si denotamos a = (a1 . . . ak )′ y b = (b1 . . . bk )′ , a⊥b. Sucesivamente, podr´ıamos buscar K combinaciones lineales, todas ortogonales. Al conjunto de tales pesos de combinaciones lo denotaremos α, donde αk es la k-´esima colecci´on de pesos para realizar una combinaci´on lineal. Cabe aclarar, de una vez, que axt y bxt son los famosos componentes principales. Ahora bien, maximizar esta funci´on, as´ı como se presenta, resulta ligeramente problem´atico. De momento nos concentraremos en la primera combinaci´on, a. Si queremos aumentar la varianza de la combinaci´on, basta con incrementar el valor de los pesos o ponderadores ai infinitamente y as´ı crecer´ıa, tambi´en infinitamente, la varianza. Si queremos poder llevar a cabo nuestro ejercicio de maximizaci´on, tendremos que poner alguna restricci´on. La m´as intuitiva en un inicio, podr´ıa ser restringir la maximizaci´on a que la suma de los pesos sea igual a uno. Pero esa no sirve, pues podr´ıamos hacer, por ejemplo, que a1 fuera arbitrariamente grande, que a2 fuera fuera igual a −a1 − 1 y con eso cumplir´ıamos la restricci´on. Tendr´ıamos entonces el mismo problema, es decir, no podr´ıamos encontrar un m´aximo al momento de optimizar. Una restricci´on m´as efectiva es: K X
ai = 1
i=1
De esta manera, ning´un peso podr´ıa aumentar (diminuir) infinitamente, puesto que no podr´ıa haber un contrapeso de signo contrario que permita satisfacer la restricci´on. Llamemos adem´as xt el t-´esimo rengl´on de la matriz X, xt = (x1t . . . xkt ). Suponga, finalmente, que la matriz de varianza-covarianza de las variables xi es Ωx que ˆ x ). Ahora es estimable (el estimador de esta se denominar´a, de aqu´ı en adelante, Ω s´ı, nuestro objetivo es encontrar un αk que maximice la varianza: argm´ axαk V ar(αk′ x)
´ CAPITULO 4. LA MULTICOLINEALIDAD
188
No obstante, V ar(αk′ x) = E(αk′ xx′ α) = αk′ Ωx αk . As´ı pues, nuestro ejercicio de optimizaci´on se queda, de momento, en: argm´ axαk αk′ Ωx αk Ahora bien, ya vimos que esta optimizaci´on no puede lograrse sin poner una restricci´on, que ya hab´ıamos definido: la suma de los pesos al cuadrado debe ser igual a uno: argm´ axαk αk′ Ωx αk
sujeto a : αk′ αk = 1
Quien dice optimizaci´on con restricci´on, piensa en la t´ecnica de los multiplicadores de Lagrange.8 El primer paso de dicha t´ecnica consiste en plantear la funci´on a optimizar, que denotaremos H: H = αk′ Ωx αk −λ(αk′ αk −1) La siguiente etapa consiste en derivar la funci´on H en t´erminos de αk . Se puede llevar a cabo el c´alculo matricialmente, recordando, como no, los que empleamos muy al principio del manual, cuando encontramos la f´omula de MCO para una regresi´on multivariada (ver 3.1.1 en la p´agina 130). As´ı, nuestra derivada queda: ∂H = Ωx αk − λαk ∂αk Igualando a cero, como siempre: Ωx αk − λαk = 0
(4.1)
Podemos factorizar, sin olvidar la matriz identidad, para que la resta haga sentido:9 (Ωx − λIk )αk = 0 8
(4.2)
En los problemas de optimizaci´on, el m´etodo de los multiplicadores de Lagrange, llamados as´ı en honor a Joseph Louis Lagrange, es un procedimiento para encontrar los m´aximos y m´ınimos de funciones de varias variables sujetas a restricciones. Este m´etodo reduce el problema restringido con n variables a uno sin restricciones de n + k variables, donde k es igual al n´umero de restricciones, y cuyas ecuaciones pueden ser resueltas m´as f´acilmente. Estas nuevas variables escalares desconocidas, una para cada restricci´on, son llamadas multiplicadores de Lagrange. Wikipedia, consultada en noviembre 2012. 9 Ω − λ, es decir, una matriz menos un escalar, suele interpretarse como Ω − λU , donde U es una matriz cuyos elementos son todos iguales a uno. No obstante, eso altera la expresi´on original de la que partimos: Ωx αk − λαk 6= Ωx αk − λU αk . Reemplazando U por la identidad, no alteramos nada
´ 4.4. ANALISIS DE COMPONENTES PRINCIPALES
189
Si se desea que este conjunto de ecuaciones tenga soluciones no-nulas, la matriz (Ωx −λIk ) no debe ser invertible y por ende su determinante debe ser igual a cero:10 | Ωx − λIk | = 0
Las K soluciones a la ecuaci´on de grado K resultante se llaman eigenvalores o valores propios o ra´ıces caracter´ısticas. Asociado a cada ra´ız caracter´ıstica, hay un ´ es llamado eigenvector, vector que da soluci´on a la ecuaci´on (Ωx −λIk )αk = 0. Este o vector caracter´ıstico. Lo m´as f´acil es verlo en un ejemplo. Ejemplo 11 Para iniciar este ejemplo, s´olo necesitamos declarar una matriz de varianza-covarianza. Hagamos una sencilla, de 2 × 2: 4 2 Ωx = 2 1
Primero hemos de encontrar los valores que hace que | Ωx − λIk |= 0. En este caso, el determinante es simplemente el producto de los elementos de la diagonal principal (donde van las varianzas) menos el producto de los elementos de la otra diagonal: (4 − λ)(1 − λ) − 4 4 − 4λ − λ + λ2 − 4 λ2 − 5λ λ(λ − 5)
= = = =
0 0 0 0
De la u´ ltima expresi´on es f´acil notar que las dos soluciones (los dos eigenvalores) son λ1 = 5 y λ2 = 0.11 . Cada una de estas dos soluciones tiene asociado un vector caracter´ıstico/eigenvector. Dichos eigenvectores, recu´erdelo, corresponden a los “pesos” de nuestras combinaciones lineales. En este caso, hay dos variables, y por lo mismo hay dos combinaciones lineales obtenidas a trav´es de este m´etodo. Cada combinaci´on lineal debe tener dos pesos, los correspondientes a x1 y x2 . Para obtenerlos, basta con (1) reemplazar, λ por 5 en la ecuaci´on (4.2), despejar para a1 y a2 ; (2) hacer lo mismo, s´olo que reemplazando λ por 0 en la misma ecuaci´on y despejar, en este caso, b1 y b2 . 10
Si la matriz tuviera inversa, podr´ıamos multiplicar la ecuaci´on de ambos lados por dicha matriz y llegar´ıamos a la soluci´on trivial de que αk = 0. Puesto que esa no nos interesa, la descartamos. Los valores de λ que hacen que el determinante sea cero, son los eigenvalores. Los αk correspondientes son los eigenvectores, adem´as de nuestros “pesos”. 11 Note como la raz´on entre el eigenvalor m´as grande y el m´as chico es una singularidad; ello se debe a que la matriz original no tiene rango completo. ¿Recuerda alguna prueba de multicolinealidad que aprovechara esta particularidad?
´ CAPITULO 4. LA MULTICOLINEALIDAD
190
Ejercicio 3 Calcule los eigenvectores y muestre que e´ stos son ortogonales. Lo importante es tener claro que los eigenvectores son ortogonales. Esto es sorprendentemente f´acil de demostrar: acabamos de obtener los eigenvectores como soluci´on al sistema (Ωx − λIk )αk . En nuestro peque˜no ejemplo, los dos eigenvectores corresponder´ıan a a y b. Lo que vamos a demostrar es que los K eigenvectores son ortogonales. Teorema 14 Si dos eigenvalores, λ1 y λ2 son distintos, entonces sus eigenvectores asociados, a y b, son ortogonales; a′ b = 0 o bien a⊥b. La prueba es sencilla. Manipulando la ecuaci´on (4.1), tenemos: Ωx αk = λαk Sabemos que tanto a como b pueden sustituir a αk y constituir una soluci´on, por tanto: Ωa = λ1 a, podemos premultiplicar por b′ , b′ Ωa = b′ λ1 a. Lo mismo podemos hacer con la otra soluci´on: a′ Ωb = a′ λ2 b. Ahora bien, a′ Ωb = b′ Ωa, puesto que se trata de un escalar (un escalar y su transpuesto son lo mismo). As´ı, podemos transponer uno, digamos el segundo, b′ Ωa = b′ λ2 a, y rest´arselo al primero: 0 = b′ λ 1 a − b′ λ 2 a Puesto que los eigenvalores son escalares, los ponemos hasta delante y factorizamos: 0 = (λ1 − λ2 )b′ a Esta operaci´on debe dar cero. Sabiendo que los eigenvalores son distintos, lo u´ nico que puede hacer cero la expresi´on es que: b′ a = 0. Ahora bien, sabiendo esto, podemos premultiplicar la u´ ltima expresi´on, b′ a = 0 por x′ y posteriormente postmultiplicarla por x:
x′ b′ ax = 0. Separando por pares es posible darse cuenta que obtuvimos los los componentes principales, z2′ z1 = 0 as´ı es que, resulta f´acil ver que todos los componnentes principales tambi´en son ortogonales entre s´ı.
´ USANDO COMPONENTES PRINCIPALES 4.5. REGRESION
4.5.
191
Regresi´on usando componentes principales
Ante el problema de multicolinealidad imperfecta, la regresi´on por componentes principales se antoja como otra soluci´on relativamente popular, o cuando menos conocida. El problema de la multicolinealidad imperfecta estriba en que dos o m´as variables aportan, esencialmente, la misma informaci´on; eso las hace altamente colineales y dificulta enormemente la inversi´on de la matriz que las contiene. Considerando lo visto en la secci´on anterior, es intuitiva la idea de reemplazar las variables (con problemas de colinealidad) con los vectores que podemos construir con base en los correspondientes eigenvectores (los “α’s”). Eso podr´ıa hacerse; no obstante, conviene conocer bien las limitaciones. Para ello, primero tenemos que construir los nuevos vectores, que denominamos componentes: z1t = a1 x1t + a2 x2t + . . . + ak xkt y as´ı sucesivamente hasta tener z1 , . . . , zk . Cada uno de ellos es capaz de reproducir una parte de la variabilidad de las variables originales. Suponga que ordenamos las z’s de mayor a menor en funci´on de ese criterio. Debemos dar, adem´as, dos propiedades del m´etodo: 1. var(x PK 1 ) + var(x2 ) + . . . + var(xk ) = var(z1 ) + var(z2 ) + . . . + var(zk ) = i=1 λi , 2. αi ⊥αj para λi 6= λj y i 6= j.
La segunda la demostramos en la secci´on anterior. De la la primera, que se˜nala que la varianza total de las K variables es igual a la varianza total de los K componentes principales, podemos inferir que cada eigenvalor, dividido entre la suma de todos los eigenvalores, representa la proporci´on de variablididad explicada por el componente principal asociado. Sabiendo esto, lo primero que debemos tener claro es que, reemplazar todas las x por los vectores ortogonales, es una mala idea. Es la misma variabilidad acomodada de otra forma. Por ello, los resultados de la nueva regresi´on no habr´ıan cambiado nada. En realidad, lo id´oneo ser´ıa utilizar s´olo algunas de las nuevas variables ortogonales, pero no todas. Podr´ıamos ordenarlos de mayor a menor en t´erminos de varianza y procurar utilizar los primeros. Las limitaciones de esta estrategia no son pocas: 1. el que una de las variables z tenga la mayor varianza, no necesariamente quiere decir que tenga la mayor correlaci´on con la variable dependiente (que es lo que interesa),
192
´ CAPITULO 4. LA MULTICOLINEALIDAD
2. Debido a lo anterior, uno podr´ıa entonces sugerir calcular las correlaciones entre las variables ortogonales y la variable dependiente y s´olo conservar las que est´an m´as relacionadas con e´ sta. Pero hacer esto equivale a descartar las variables explicativas menos significativas, lo que en todo caso, ser´ıa preferible, pues el modelo tiene una interpretaci´on m´as obvia. De hecho,... 3. Las combinaciones lineales con que est´an construidas las variables z no suelen tener interpretaci´on econ´omica obvia. 4. Modificar las unidades de medida de las variables altera los componentes principales. Por lo general, se estandarizan las variables (se les resta la media y se divide por la desviaci´on est´andar). No obstante, todo esto lejos est´a ser una p´erdida de tiempo. El m´etodo tambi´en tiene virtudes: 1. La “compresi´on” de informaci´on puede llegar a ser en extremo u´ til. Suponga una t´ıpica regresi´on de demanda por dinero. Si usted dispone de una buena base de datos, es muy posible que, entre otras cosas, tenga varias tasas de inter´es, mismas que tienden a padecer de problemas de colinealidad. La teor´ıa sugiere que hay efectos de corto y largo plazo relativos a dichas tasas. Eventualmente, un ACP sobre las variables de tasa de inter´es podr´ıa reflejar en el primer componente principal, tasas cuyos efectos son de corto plazo (tasa interbancaria, por ejemplo), y en el segundo, tasas cuyos efectos son de largo plazo (como podr´ıa ser la tasa hipotecaria). En ese caso, las combinaciones lineales entre componentes podr´ıa tener una interpretaci´on interesante y, sobre todo explotable. Huelga decir que esta eventualidad exige leer con sumo cuidado los valores de los eigenvectores. 2. El usar algunos de los componentes principales en sustituci´on de algunas de las variables originales implica una restricci´on param´etrica y podr´ıa dar pistas respecto a que tipo de pruebas conjuntas hacer. Por ejemplo, suponga que el primer componente principal en un estudio con tres variables respresenta el 70 % de la varianza total y sugiere, aproximadamente, combinar 50 % la primera variable, 50 % la segunda y nada la tercera. Suponga adem´as que el segundo componente se compone casi exclusivamente de la tercera variable y representa el 28 % de la varianza, mientras que el terver componente tiene ponderadores indescifrables, pero tan s´olo recupera el 2 % de la varianza... En ese caso, una eventual regresi´on podr´ıa incluir al primer componente (o a las otras dos variables pero restringidas) y a la tercera variable sola.
´ USANDO COMPONENTES PRINCIPALES 4.5. REGRESION
193
3. Otra bondad del m´etodo estriba en la construcci´on de ´ındices. Suponga que tiene usted cincuenta variables que miden riqueza patrimonial de una u otra forma. Suponga adem´as que emplea dichas variables en un ACP y obtiene que el primer componente representa el 85 % de la variabilidad de tales indicadores. Usted dispone en el eigenvector de los “pesos” de ese “´ındice”. Ser´ıa s´olo cuesti´on de normalizarlo para presentarlo como un ´ındice de pobreza. Los pesos as´ı obtenidos har´ıan por lo mismo sentido, pues maximizar´ıan la varianza, es decir, la cantidad de informaci´on contenida en la combinaci´on lineal. Dichos pesos ser´ıan, al menos a los ojos de un estad´ıstico, menos arbitrarios que los que a veces se suelen usar en la pr´actica como cuando asignamos pesos iguales a todos los elementos. Si bien usamos la matriz de varianza-covarianza para explicitar el m´etodo, cabe resaltar que tambi´en puede hacerse con la matriz de correlaciones. La decisi´on entre usar una matriz u otra estriba en el grado de homogeneidad entre las variables. Si los datos tienen valores homogeneos, se puede usar Ωx , si no, se puede estandarizar las series y usar Ωx o bien usar a matriz de correlaciones. Otra cosa importante radica en que no es cre´ıble que podremos usar la matriz de varianza-covarianza o bien la matriz de correlaciones poblacionales. Por esa obvia raz´on, se emplean los equivalentes muestrales.
194
´ CAPITULO 4. LA MULTICOLINEALIDAD
Cap´ıtulo 5 Variables Binarias y regresi´on por pedazos 5.1.
Variables dicot´omicas
5.1.1. Soluci´on discontinua En la pr´actica de la econometr´ıa, algunos aspectos relevantes del fen´omeno estudiado suelen ser dif´ıcilmente cuantificables.1 Ello dificulta enormemente la puesta en marcha de la investigaci´on. De hecho, cuando carecemos de informaci´on respecto al fen´omeno estudiado o a las variables que presuntamente lo explican, a veces no queda m´as remedio que abandonar el asunto en espera de que la situaci´on cambie y dispongamos de dichos datos. Afortunadamente, no siempre es necesario rendirse ante ese tipo de dificultades. Es posible estudiar situaciones en las que la informaci´on faltante puede ser “reemplazada”. M´as interesante a´un, hay situaciones en las que es justamente ese aspecto ignoto el que nos interesa. A continuaci´on, damos algunos ejemplos... 1. ¿Cu´al es el efecto sobre el Consumo/Ingreso/Inversi´on/Exportaci´on de M´exico de la Segunda Guerra Mundial? 2. ¿Es cierto que el mercado laboral ejerce una discriminaci´on por g´enero? Y si lo es, ¿qu´e tan grave es dicha discriminaci´on? 3. ¿Qu´e efectos tuvo sobre la inversi´on la crisis de 1994? 1
Piense por ejemplo en las preferencias, o en la inflaci´on esperada.
195
196
´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION
4. ¿Fue el Tratado de Libre Comercio un detonante del proceso de convergencia entre regiones de M´exico? ¿y entre M´exico y Estados Unidos? 5. ¿Aumenta realmente la demanda de dinero en Navidad (efecto estacional)? 6. La medici´on de una variable en particular (n´umero de ni˜nos nacidos vivos en la Ciudad de Aguascalientes) para una fecha espec´ıfica (julio de 1997) resulta at´ıpica, tres o cuatro veces m´as grande que las realizaciones circundantes. ¿Realmente nacieron tantos ni˜nos en ese mes? o, ¿acaso se trata de un error de captura? Es el problema de datos aberrantes. 7. ¿Hay discriminaci´on racial en el mercado laboral de Estados Unidos? Las preguntas anteriormente planteadas son muy frecuentes entre economistas y por lo mismo, las t´ecnicas de cuantificaci´on han hecho grandes esfuerzos por proponer metodolog´ıas espec´ıficas para tratarlas. En esta secci´on presentamos una de ellas, especialmente sencilla, pero a´un as´ı, en extremo poderosa: L AS VARIABLES ´ DICOT OMICAS .2 Ejemplo 12 Aprovechando el primer ejemplo dado justo arriba, supongamos la siguiente especificaci´on. Sea: It la Inversi´on medida en pesos de 1980. Rt la Tasa de Inter´es Real. Asumiendo que tenemos datos desde 1935 hasta 1970, una especificaci´on est´andar para explicar el comportamiento de la inversi´on podr´ıa ser: It = α1 + β1 Rt + ut It = α2 + β2 Rt + ut
para 1935 − 1938 y 1946 − 1970, para 1939 − 1945.
Lo establecido en esta especificaci´on es que la relaci´on entre tasa de inter´es e Inversi´on se vio alterada durante los a˜nos de la Segunda Guerra Mundial. Al final de cuentas, lo que queremos estimar es un par de especificaciones y no s´olo una para todo el per´ıodo. La soluci´on m´as obvia ser´ıa correr dos regresiones; pero las variables dicot´omicas nos permitir´an hacer uso de toda la muestra y estimar ambos escenarios en una sola corrida. 2
Encontrar´an en los textos muchos y muy diversos nombres que hacen alusi´on a tales variables; entre los que destacan, est´an: variables “dummy”, variables binarias, funciones indicatrices,. . .
´ 5.1. VARIABLES DICOTOMICAS
197
No todas las variables explicativas deben estar necesariamente definidas en un rango continuo; es posible usar variables dicot´omicas/binarias/indicatrices. Estas variables s´olo adoptan valores 0 o´ 1. Para ilustrarlas, planteemos otro ejemplo. Ejemplo 13 Suponga que se tiene acceso al desempe˜no de algunos ex-alumnos de Econometr´ıa referente a sus h´abitos de estudio, el g´enero as´ı como al salario de su primer trabajo formal. La informaci´on, la podemos resumir en el siguiente cuadro. Ex-alumno No. 1 2 3 4 5 .. .
Promedio 7.0 8.0 8.5 9.5 10.0 .. .
Primer Salario 100 125 79 140 120 .. .
Dedicaci´on escolar 3.0 3.5 4.0 7.0 6.5 .. .
sexo H H H M M .. .
¿C´omo podr´ıamos, por ejemplo, estudiar la discriminaci´on por g´enero con estos datos? Lo primero que hay que tomar en cuenta es que las razones por las que uno recibe un salario alto o bajo son muy variadas. La que expone con fervor casi religioso la econom´ıa es la productividad. Dicha productividad no siempre es tan f´acilmente medible y pueden utilizarse algunas alternativas, o variables aproximadas (variables “proxy”); dos muy obvias en este caso ser´ıan el desempe˜no escolar (promedio) y la dedicaci´on escolar. En principio, una persona con un buen promedio en la escuela suele ser una persona responsable y trabajadora y es posible presumir que eso le allanar´a el camino en su trayectoria profesional. Ahora que hemos controlado por “productividad hist´orica”3 y que podemos confiar en que eso no sesgar´a nuestro estudio de discriminaci´on, podemos atacar esto u´ ltimo. Pero para incluir la informaci´on del sexo en la especificaci´on, algo tendremos que hacer con la u´ ltima columna de datos; no podemos poner “Hs” ni “Ms”, puesto que no sabr´ıamos sumar letras a la hora de calcular nuestros estimadores. Una soluci´on sencilla es crear nuevas variables: De momento dise˜naremos dos; una que se llame “Mujer” y que valdr´a 1 si el ex-alumno es mujer y 0 si es hombre; la otra variable se llamar´a “Hombre” y adoptar´a el valor de 1 si se trata de un hombre y 0 si es mujer. Planteemos ahora la especificaci´on: 3
Levitt ha hecho estudios de discriminaci´on de g´enero para el caso norteamericano en los que controla por poblaci´on urbana o rural, educaci´on, estado civil,etc. y encontr´o el sorprendente resultado de que la discriminaci´on no es tal. ¿Qu´e quiere decir eso?
198
´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION
Salarioi = α + β1 P romedioi + β2 DedEscolari + . . . β3 M ujeri + β4 Hombrei + ui donde el sub´ındice i se refiere al i-´esimo ex-alumno. Nuestra matriz de variables explicativas quedar´a como sigue :
1 1 1 1 1 .. .
P romedio1 P romedio2 P romedio3 P romedio4 P romedio5 .. .
DedEcolar1 DedEcolar2 DedEcolar3 DedEcolar4 DedEcolar5 .. .
1 1 1 0 0 .. .
0 0 0 1 1 .. .
Pero existe un problema con la estructura de los datos en esa matriz. Note como la columna que representa a la constante (que desde ahora llamaremos ι) y nuestras variables binarias mantienen una relaci´on lineal perfecta: ι = Hombre + M ujer Estas tres columnas son linealmente dependientes. Vimos en la secci´on anterior los problemas que dicha relaci´on engendra: no es posible invertir la matriz X ′ X, por lo que tampoco resulta factible calcular los estimadores. As´ı especificado el problema, obtenemos una matriz que no es de rango completo. Como tambi´en vimos en la secci´on anteriores, el problema estriba en que una de las variables no aporta informaci´on adicional. Veamos que pasa cuando se activan y se desactivan las variables binarias en la especificaci´on: 1. Si se trata de un individuo de g´enero masculino:
Salarioi = (α + β4 ) + β1 P romedioi + β2 DedEscolari + ui 2. Si se trata de un individuo de g´enero femenino:
Salarioi = (α + β3 ) + β1 P romedioi + β2 DedEscolari + ui
´ 5.1. VARIABLES DICOTOMICAS
199
3. Si se trata de un “orangut´an”:
Salarioi = α + β1 P romedioi + β2 DedEscolari + ui Este u´ ltimo caso fue incluido para obviar el problema. La forma en la que especificamos la regresi´on b´asicamente se˜nala que la condici´on de g´enero afecta al emplazamiento de la ordenada en el origen. Esta u´ ltima ser´a α + β4 si se trata de un hombre y α + β3 si se trata de una mujer. Bajo ning´un caso, la constante permanecer´a inalterada (excepto en el caso que el individuo no sea ni hombre o mujer, cosa que no ocurrir´a nunca). En realidad, basta con tener una constante que sea asimilable a un caso (si se trata de un hombre, que la constante sea α y si se trata de una mujer, que sea α + β3 ). No es necesario poner dos variables indicatrices, con una basta:
Salarioi = α + β1 P romedioi + β2 DedEscolari + . . . + β3 M ujeri + ui As´ı, las dos especificaciones quedar´an: 1. Si se trata de un individuo de g´enero masculino:
Salarioi = α + β1 P romedioi + β2 DedEscolari + ui 2. Si se trata de un individuo de g´enero femenino:
Salarioi = (α + β3 ) + β1 P romedioi + β2 DedEscolari + ui Esta especificaci´on ya no padece del problema de la multicolinealidad y permite todav´ıa distinguir entre genero masculino y femenino.
200
´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION
Hasta aqu´ı hemos logrado, mediante el u´ ltimo ejemplo, modificar la ordenada en el origen de una regresi´on. No obstante, es posible que creamos que lo que se altera es la pendiente. ¿C´omo le har´ıamos? Ejemplo 14 Retomemos nuestro problema de la guerra. ¿Ser´ıa posible, en un marco keynesiano, pensar que la propensi´on marginal a consumir est´a alterada en tiempo de guerra? Considerando el gran n´umero de personas que se van a luchar y a las restricciones al consumo habitualmente impuestas por los gobiernos en caso de guerras importantes, no s´olo es posible sino que resulta razonable pensarlo. Definamos primero la especificaci´on:
Ct = α + βyt + ut Donde Ct es el Consumo privado y yt el Ingreso Neto Disponible. ¿Qu´e efectos tendr´a una guerra en el consumo? De entrada, podemos pensar que el consumo disminuir´a, independientemente del ingreso; adem´as, podemos asumir que la propensi´on caer´a tambi´en. En otras palabras, ni la ordenada en el origen ni la pendiente deber´an ser las mismas seg´un nos situemos en un per´ıodo de Paz o en uno de Guerra. Alterar la ordenada es algo que ya sabemos hacer desde el ejemplo anterior. Creamos la siguiente variable:
Ipaz,t =
1 si hay paz 0 e.o.c.
Incluir esta nueva variable en la especificaci´on nos permitir´ıa ver los efectos sobre la constante de la guerra; para ver tales efectos, pero esta vez en la pendiente, ser´a necesario incluir otra vez la variable binaria, pero ahora multiplicada por el ingreso: Ct = α + γ1 · Ipaz,t + βyt + γ2 · Ipaz,t · yt + ut Veamos qu´e ocurre con esta especificaci´on en cada caso: En tiempo de Guerra: Ct = α + βyt + ut
´ 5.1. VARIABLES DICOTOMICAS
201
En tiempo de Paz: Ct = (α + γ1 ) + (β + γ2 ) yt + ut Como ver´an, este sencillo truco permite alterar los par´ametros estimados acorde a la presencia—o ausencia—de alg´un evento que nos intereses. La linea de regresi´on, en este caso, se parecer´a a lo siguiente:
Consumo
Relación en tiempos de paz
Relación en tiempos de guerra Ingreso
Figura 5.1: Efectos de las variables dicot´omicas en la l´ınea de regresi´on
Pero recuerden que la alteraci´on de los par´ametros en tiempo de guerra es tan solo una hip´otesis de trabajo. Como en todo estudio de car´acter cient´ıfico, es necesario que nuestras hip´otesis sean falsables. ¿C´omo rechazar´ıamos o aceptar´ıamos la hip´otesis de alteraci´on por guerra? Pues en este caso, realizando pruebas de hip´otesis, individuales o bien conjuntas, sobre los par´ametros que miden dicha discriminaci´on. Nos referimos, claro est´a a las “γs”. Bastar´a, para efectos del presente ejemplo, evaluar la hip´otesis de nulidad de dichos par´ametros mediante el estad´ıstico t de student. Dejamos al lector la responsabilidad de evaluar una observaci´on aberrante. ¿C´omo construir´ıa la variable dicot´omica pertinente? tambi´en convendr´a pensar en un cambio permanente. Si la crisis mexicana de 1994 alter´o definitivamente la funci´on de inversi´on, ¿cu´al ser´ıa la variable dicot´omica adecuada?
202
´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION
5.1.2. Regresi´on por pedazos El u´ ltimo ejemplo visto en la secci´on anterior levanta una peque˜na inquietud. Al incluir quiebres estructurales en la especificaci´on mediante variables indicatrices, la funci´on de regresi´on estimada se vuelve discontinua. ¿Existe alguna manera de evitar dicha discontinuidad? ¿Gr´aficamente al menos? S´ı, y la soluci´on se llama ´ POR PEDAZOS .4 Consid´erese la siguiente especificaci´on en la que se R EGRESI ON sospecha de un cambio de tendencia en la fecha t0 : Ct = α + β1 yt + β2 It (t ≥ t0 )(yt − yt0 ) + ut Donde It (•) es una variable indicatriz, igual a uno si se cumple la condici´on entre par´entesis, t ≥ t0 y cero si no. ¿Cu´al es el inter´es de restar yt0 ? Para averiguarlo, lo m´as f´acil es ver qu´e le ocurre a la regresi´on en cada momento del tiempo: 1. Especificaci´on antes del quiebre estructural (la variable indicatriz no se activa, t < t0 ):
Ct = α + β1 yt + ut 2. Especificaci´on despu´es del quiebre estructural (la variable indicatriz est´a activada, t > t0 ):
Ct = α + β1 yt + β2 (yt − yt0 ) + ut = (α − β2 yt0 ) + (β1 + β2 )yt + ut 3. Especificaci´on en el quiebre estructural (la variable indicatriz se activa, t = t0 ):
Ct0 = α − β2 yt0 + β1 yt0 + β2 yt0 + ut0 = α + β1 yt0 + ut0 4
Ridge Regression en ingl´es.
´ 5.1. VARIABLES DICOTOMICAS
203
Note como esta u´ ltima especificaci´on es igual a la que obten´ıamos cuando no se hab´ıa activado a´un el rompimiento estructural. No cambia la ordenada en el origen ni la pendiente. Ya en las observaciones siguientes, la pendiente se ver´a alterada, pero partir´a del mismo punto donde se qued´o la primera.
yt
xt
Figura 5.2: Ejemplo de Regresi´on por pedazos
Ejercicio 4 Con la finalidad de disipar cualquier duda, lo recomendable es construir la recta de regresi´on “quebrada” con un ejemplo num´erico concreto. Suponga que estima la regresi´on: yt = α + β1 xt + β2 It (t ≥ t0 )(xt − xt0 ) + ut donde el quiebre est´a en la observaci´on x3 = 2 y obtiene lo siguiente: 1. α ˆ = 4, 2. βˆ1 = 0.5, 3. βˆ2 = 0.5, Lo u´ nico que necesita hacer es graficar las dos rectas de regresi´on (no olvide omitir el residual) y constatar que ambas justamente se cruzan cuando xt = 2. Valores de la variable explicativa superiores a dos corresponden a valores—ajustados—de la variable dependiente en la nueva regresi´on.
204
´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION
Ejercicio 5 Generalizar esto a m´ultiples quiebres estructurales resulta trivial, por lo que se queda como un ejercicio para el lector. Con esto terminamos la presentaci´on del modelo general de MCO. Hasta este punto hemos hecho uso extensivo de los 7 supuestos establecidos anteriormente. Lo que ahora procede es indagar las consecuencias del rompimiento de algunos de ellos.
Cap´ıtulo 6 Autocorrelaci´on y Heteroscedasticidad A lo largo de los primeros cap´ıtulos hemos llevado a cabo una serie de demostraciones que nos han ilustrado sobre la potencia del m´etodo de estimaci´on de M´ınimos Cuadrados Ordinarios. Este u´ ltimo provee estimadores insesgados (la esperanza de los estimadores MCO es el verdadero valor de los par´ametros), consistentes (dichos estimadores se aproximan a los verdaderos valores cuando el tama˜no de muestra crece) y eficientes (son de m´ınima varianza en la clase de estimadores lineales insesgados). Inclusive hemos visto la forma de llevar a cabo inferencia estad´ıstica con ellos. No obstante, todas y cada una de las demostraciones anteriores ha requerido, en su ejecuci´on, el uso de supuestos. Efectivamente, nos referimos a los famosos siete supuestos esbozados al principio. Las esperanzas que hemos calculado se resuelven muy f´acilmente puesto que asumimos que las variables x, las explicativas, no son estoc´asticas; otras esperanzas se han simplificado al extremo gracias a las propiedades que le atribuimos al t´ermino de error (homoscedasticidad e independencia); en infinidad de ocasiones reemplazamos a la variable dependiente por la especificaci´on para avanzar en la prueba, todo el edificio de pruebas de hip´otesis descansa sobre una normalidad que le atribuimos al t´ermino de error... Una pregunta deber´ıa emerger de esta breve sinopsis: ¿Q U E´ PASA SI UNO DE ESTOS SUPUESTOS NO SE CUMPLE ? Buena parte del programa de investigaci´on en econometr´ıa se ha volcado sobre la cuesti´on. Una primera respuesta, a manera de intuici´on, es que las t´ecnicas estudiadas hasta aqu´ı dejan de funcionar. La intuici´on es atinada pero yerra en detalles 205
206
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
no triviales. Por ejemplo, la no satisfacci´on del supuesto de homoscedasticidad o el de independencia de los errores no sesga a nuestros estimadores; los vuelve menos eficientes, pero siguen siendo insesgados y consistentes. ¿ Es acaso este problema devastador? Pues definitivamente resulta engorroso tener estimadores poco eficientes; la inferencia que sobre ellos se puede hacer es menos precisa, pero al menos se puede seguir haciendo... ¿Qu´e hay de la naturaleza de las variables explicativas? Ser´ıa un problema si e´ stas s´ı resultan ser estoc´asticas? En cierta medida s´ı, s´ı lo es, puesto que complica los c´alculos y merma la potencia de algunos resultados, pero el rompimiento de este supuesto tampoco representa el fin de la inferencia en modelos econom´etricos. En realidad, el—posible—rompimiento de muchos de los supuestos obliga al econometrista a emplear t´ecnicas de prevenci´on y/o correcci´on elaboradas, pero no le impide hacer su trabajo. Hay tres excepciones notables: el rompimiento del supuesto de ortogonalidad, el de correcta especificaci´on y el de estacionariedad. Las consecuencias de los primeros son tan trascendentales que, de hecho, ocupan gran parte del segundo curso de econometr´ıa al que pronto ingresar´an. En cuanto a la noestacionariedad de las series, e´ sta tambi´en afecta gravemente la validez de la inferencia econom´etrica, pero es posible detectarla y, en muchos casos corregirla o tomarla en cuenta. Los elementos te´oricos para entender esta cuesti´on ser´an estudiados en el curso de Series de Tiempo, una vez madurado el edificio b´asico de la econometr´ıa. En lo que resta de esta parte nos concentraremos en estudiar tanto la autocorrelaci´on como la heteroscedasticidad. Los nombres que enarbola el t´ıtulo de este apartado, autocorrelaci´on y Heteroscedasticidad, corresponden al rompimiento de dos supuestos del modelo de regresi´on lineal:
E(u2t ) = σ 2 E(ut uτ ) = 0 ∀ t 6= τ Dichos supuestos establecen que el t´ermino de error que acompa˜na a la especificaci´on debe ser independiente y de varianza constante. Ambos los hemos utilizado en un sinf´ın de ocasiones para avanzar en demostraciones (uno de los casos m´as ilustrativos es en el de la esperanza de los estimadores). Hist´oricamente se consideraba que el rompimiento de tales supuestos representaba un serio problema y que era indispensable corregir. Mucha tinta se vers´o al respecto durante d´ecadas; no obstante, en la actualidad la autocorrelaci´on as´ı como la heteroscedasticidad son m´as bien
´ Y HETEROSCEDASTICIDAD 6.1. AUTOCORRELACION
207
considerados como s´ıntomas de una especificaci´on incorrecta o “inacabada”.1 Lo importante es considerar, al enfrentarse a la autocorrelaci´on y a la heteroscedasticidad, que nuestra especificaci´on no logra retener adecuadamente toda la informaci´on pertinente para explicar el comportamiento de la variable dependiente. Algo nos est´a faltando. En principio, podr´ıamos incorporar m´as informaci´on al modelo; m´as informaci´on relativa a la variable que pretendemos explicar. Si bien es importante entender las t´ecnicas cl´asicas de correcci´on, le daremos a este cap´ıtulo un e´ nfasis que consideramos m´as moderno y, sobre todo, m´as adecuado. La presentaci´on del tema es por ende heterodoxa, pero, finalmente, facilita enormemente el tratamiento de estos problemas. El plan b´asico es el siguiente: 1. Entender las consecuencias de una autocorrelaci´on/heteroscedasticidad no corregidas en MCO. 2. Conocer algunas t´ecnicas para identificar dicha autocorrelaci´on/heteroscedasticidad. 3. Conocer algunos m´etodos—cl´asicos—para corregir y presentar otras alternativas para lidiar con el problema. El orden no ser´a estrictamente el se˜nalado en la lista anterior; daremos indicios de cada secci´on entremezclados a lo largo del cap´ıtulo.
6.1.
Autocorrelaci´on y Heteroscedasticidad
Lo primero que hay que saber respecto al rompimiento de estos supuestos es d´onde se materializan sus consecuencias. Lo anterior representa una interrogante a la que es f´acil responder: Todos los efectos de la autocorrelaci´on y la heteroscedasticidad quedan plasmados en la matriz de Varianza-Covarianza del t´ermino de error: def
E (U U ′ ) = Ω Usualmente, al calcular E (U U ′ ), asumiendo que se cumplen los supuestos, obten´ıamos σ 2 IT . Los elementos de la diagonal eran todos iguales (cumplimiento de la homoscedasticidad) mientras que los elementos de los “triangulos” eran todos iguales a cero (cumplimiento de la no-autocorrelaci´on o independencia). Es f´acil 1
Sus efectos sobre los estimadores, si bien no son tan inocuos, tampoco invalidan completamente los resultados.
208
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
adivinar qu´e pasar´a en caso de no cumplirse alguno de los supuestos mencionados. Empecemos con una matriz Ω afectada por HETEROSCEDASTICIDAD: u1 u2 ′ E (U U ) = E .. × u1 u2 . . . uT . uT u21 u1 u 2 . . . u 1 u T u2 u 1 u22 . . . u2 uT = E .. .. .. . . . . . . uT u1 uT u2 . . . u2T
En presencia de heteroscedasticidad, E(u2t ) = σt2 . Asumimos que no hay autocorrelaci´on, por lo que los tri´angulos quedan todos con elementos nulos.
E(Uˆ Uˆ ′ )
=
def
=
σ12 0 0 σ2 2 .. .. . . 0 0 Ω
... ... ...
0 0 .. .
. . . σT2
´ : Ahora veamos una matriz Ω afectada por AUTOCORRELACI ON
E(Uˆ Uˆ ′ )
=
σ2 a12 .. . a1T
def
=
Ω
a21 . . . aT 1 σ 2 . . . aT 2 .. .. ... . . a2T . . . σ 2
d´onde los elementos ai,j para i, j = 1, . . . , T y i 6= j son elementos no nulos (no todos, al menos.). Conviene tener muy claro cu´al es la matriz de VarianzaCovarianza ideal (la que resulta de la satisfacci´on de ambos supuestos):
´ 6.2. MINIMOS CUADRADOS GENERALIZADOS
1 0 Ω = σ 2 .. .
0 ... 1 ... .. . . . . 0 0 ...
= σ 2 IT
6.2.
209
0 0 .. . 1
M´ınimos Cuadrados Generalizados
Aqu´ı introduciremos lo que se conoce en la literatura como M´ınimos Cuadrados Generalizados, M CG. Dicho m´etodo es la respuesta a la siguiente pregunta: ¿C´omo corregir la matriz de Varianza-Covarianza2 asumiendo que realmente conocemos la matriz Ω? Sabemos, por desarrollos anteriores que Ω es una matriz definida positiva. Existe entonces una matriz no-singular, que denotamos |{z} P tal que: T ×T
′
P ΩP = IT −1 Ω = P −1 (P ′ ) = (P ′ P )−1 Ω−1 = P ′ P
Transformemos ahora la especificaci´on multiplic´andola por la matriz P . Denotaremos con un tilde a las variables as´ı transformadas: P Y = P Xβ + P U ˜ + U˜ Y˜ = Xβ
Ahora verifiquemos nuevamente nuestra matriz Ω con y sin transformaci´on de los datos: 1. Especificaci´on original: E(U U ′ ) = Ω (hay dos supuestos inv´alidos) 2
Es decir, ¿c´omo pasar de cualquiera de las versiones afectadas por autocorrelaci´on/heteroscedasticidad a la forma ideal σ 2 IT ?
210
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
2. Nueva especificaci´on: E U˜ U˜ ′ = E (P U U ′ P ′ ) = P ΩP ′ = IT
Esta simple transformaci´on nos hace recuperar todo lo “perdido” por autocorrelaci´on o heteroscedasticidad al dejar una matriz de Varianza-Covarianza diagonal. Veamos ahora cu´ales son las nuevas f´ormulas de los estimadores: β˜ =
˜ ′X ˜ X
−1
˜ ′ Y˜ X −1 = (P X)′ (P X) (P X)′ (P Y ) −1
= (X ′ P ′ P X) X ′ P ′ P Y −1 ′ −1 β˜ = X ′ Ω−1 X XΩ Y
Tales estimadores ser´ıan insesgados; para ver esto, reemplazamos Y por la especificaci´on original: −1 ′ −1 β˜ = X ′ Ω−1 X X Ω (Xβ + U ) ′ −1 = β + (X Ω X)−1 X ′ Ω−1 U | {z } N o Estoc´ astico E β˜ = β
En lo que respecta a su varianza, e´ sta ser´ıa la siguiente:3 ˜ = E V ar(β)
˜ = V ar(β) 3
h
β˜ − β
′ ˜ β−β
−1 ′ −1 −1 i X ′ Ω−1 X X Ω U U ′ Ω−1 X X ′ Ω−1 X −1 ′ −1 −1 −1 X ′ Ω−1 X X Ω ΩΩ X X ′ Ω−1 X −1 ′ −1 −1 X ′ Ω−1 X X Ω X X ′ Ω−1 X −1 X ′ Ω−1 X
= E =
Recuerde que ni X ni Ω son estoc´asticos.
´ 6.2. MINIMOS CUADRADOS GENERALIZADOS
211 ′
Note que en el segundo paso, escribimos (X ′ Ω−1 X)−1 en vez de [(X ′ Ω−1 X)−1 ] , como en principio corresponde. Lo anterior obedece a que (X ′ Ω−1 X)−1 es una matriz sim´etrica y por ello podemos obviar la trasposici´on. Para que esto quede claro, recuerde que si una matriz es sim´etrica, su inversa tambi´en lo es (vea la demostraci´on en la p´agina 136). Sabiendo eso, s´olo falta constatar que (X ′ Ω−1 X)′ = X ′ Ω−1 X (siendo Ω una matriz de varianza-covarianza, es obvio que es sim´etrica). Ahora bien, esta transformaci´on tan extraordinaria y curiosamente adecuada de la especificaci´on nos permite obtener resultados tan satisfactorios como en la primera parte del curso; ello era de esperar, puesto que dicha transformaci´on nos permite seguir satisfaciendo los supuestos del modelo. Imaginemos por un momento que no fuimos nosotros los que transformamos los datos mediante la matriz P , que alguien ˜ y apliya nos los entreg´o as´ı. As´ı, habr´ıamos partido directamente con Y˜ y con X cado MCO. Al satisfacer dichos datos todos los supuestos, lo visto en la primera parte del curso permanece v´alido, en particular el Teorema de Gauss-Markov. Por lo mismo, estos par´ametros son MELI. Al recordar m´agicamente lo de la transformaci´on, nos damos cuenta que fue gracias a ella que obtuvimos tales propiedades. Esta t´ecnica de transformaci´on a˜nadida al ya tradicional m´etodo de MCO , se llama, como ya hab´ıamos se˜nalado, M CG (GLS, por sus siglas en ingl´es).
6.2.1. Ejemplos de aplicaci´on de MCG En esta secci´on vamos a dar dos ejemplos ilustrativos muy sencillos. Recuerde que estamos asumiendo que conocemos la naturaleza del problema, es decir, que conocemos Ω. Ejemplo 15 Presencia de Heteroscedasticidad: Recuerde nuestro modelo: Y = Xβ + U yt = β1 x1t + β2 x2t + ... + βK xKt + ut Imagine que la varianza del t´ermino de error es proporcional a una de las variables explicativas, digamos x21t . Esto se podr´ıa representar de la siguiente manera: V ar(ut ) = σ 2 · x21t
De esta manera, hemos incorporado heterocedasticidad en el modelo. Su forma, reiteramos, nos es conocida. Dicha heteroscedasticidad repercutir´ıa en la matriz de Varianza-Covarianza del t´ermino de error de la siguiente manera:
212
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
V ar(U U ′ ) = σ 2
x211
0
0 .. .
x212
0
...
≡ Ω
0 .. . ... 0 0 x21t
...
Ahora que ya visualizamos Ω, ¿c´omo la transformar´ıamos (es decir, ¿c´omo aplicar´ıamos M CG?) la especificaci´on si deseamos recuperar la validez de los supuestos? Dicho de forma m´as prosaica, ¿cu´al es la matriz P ? Pues en este caso, es muy f´acil responder; la matriz P ha de adoptar la siguiente forma:
P =
1 x11
0
0 .. .
1 x12
...
...
0 .. . .. .
0
...
0
1 x1T
... ...
Dejamos al lector la tarea de comprobar que dicha matriz es la respuesta adecuada para transformar la especificaci´on: P ΩP ′ = σ 2 IT Este ejemplo, particularmente sencillo, indica que lo u´ nico que hay que hacer es dividir todas las variables, yt , xit para i = 1, . . . , K por x1t . Note como, en caso de haber una constante, e´ sta dejar´ıa de serlo para ir acompa˜nada de la variable inversa x11t y el par´ametro que originalmente acompa˜naba a x1t se convertir´a en la nueva constante de la regresi´on. Ejemplo 16 autocorrelaci´on en la especificaci´on: Este ejemplo de autocorrelaci´on es un poco m´as complejo. Cuando hay autocorrelaci´on en los residuales, E (ut uτ ) 6= 0 donde t 6= τ . La estructura de dicha autocorrelaci´on puede variar mucho. Para fines pr´acticos, usaremos la que se denomina F ORMA AUTOREGRE ´ se estudiar´a con mucho detalle en An´alisis SIVA DE PRIMER ORDEN , AR(1). Esta de Series de Tiempo. De momento, nos conformaremos con dar la especificaci´on de un t´ermino de error AR(1):
´ 6.2. MINIMOS CUADRADOS GENERALIZADOS
213
ut = ρut−1 + ǫt donde ǫ ∼ iidN (0, σǫ2 ) y |ρ| < 1.4 Empezaremos entendiendo algunas propiedades del proceso AR(1). Nos conformaremos con conocer su esperanza y su varianza; la primera es muy f´acil de obtener; la segunda,. . . tambi´en. 1. Esperanza:
E (ut ) = ρ E (ut−1 ) + E(ǫt ) Si ut es un proceso estacionario, E (ut ) = E (ut−1 ), por lo que, conociendo adem´as las propiedades del ruido ǫ, podemos decir que:
E (ut ) = ρ E (ut ) + 0 (1 − ρ) E (ut ) = 0 E (ut ) = 0 2. Varianza:
E u2t
= E (ρut−1 + ǫt )2
= E ρ2 u2t−1 + ǫ2t + 2ρ ut−1 ǫt | {z } var. indep.
= ρ
2
E(u2t−1 )
+
σǫ2
Dado que se cumple el supuesto de homoscedasticidad, E(u2t ) = E(u2t−1 ) 4
La importancia de este u´ ltimo supuesto quedar´a manifiesta en la secci´on de An´alisis de Series de Tiempo.
214
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION Lo anterior lo podemos aprovechar para acabar se simplificar la expresi´on de la varianza:
1 − ρ2 E u2t = σǫ2 E(u2t ) =
σǫ2 (1 − ρ2 )
En esta u´ ltima expresi´on se puede entender la importancia de |ρ| < 1. De ser ρ igual a uno, dividir´ıamos entre cero, lo que dar´ıa paso a una singularidad (una varianza infinita). El caso en que | ρ |> 1 es ligeramente m´as complejo y se relegar´a a la segunda parte de este manual. Baste decir por ahora que las operaciones realizadas (igualar esperanzas y varianzas para distintas realizaciones (en t y t − 1) ya no son v´alidas. Si el par´ametro fuera superior a la unidad (en valor absoluto), tendr´ıamos un proceso no-estacionario (lo que ya no corresponde al ruido blanco que definimos al principio). Construyamos ahora la matriz de Varianza-Covarianza del error, Ω: Ω = E(U U ′ ) E(u21 ) E(u1 u2 ) E(u2 u1 ) E(u2 ) 1 = .. .. . . E(uT u1 ) E(uT u2 )
. . . E(u1 uT ) . . . E(u2 uT ) .. ... . 2 . . . E(uT )
Para facilitar la construcci´on de dicha matriz, definamos λi = E (ut ut−i ) Esta notaci´on nos proporciona un veh´ıculo muy c´omodo para apuntar la varianza y todas las autocovarianzas (es decir, covarianzas entre la variable y sus propios rezagos). Veamos justamente dichas expresiones: 1. La varianza, λ0 : La varianza del ruido ya la hab´ıamos calculado; es s´olo cuesti´on de asociarla a su nuevo nombre.
´ 6.2. MINIMOS CUADRADOS GENERALIZADOS
215
λ0 = E u2t σ2 = 1 − ρ2 2. La primera autocovarianza, λ1 : Se trata de la relaci´on que hay entre ut y ut−1 .
λ1 = E(ut ut−1 ) = E [(ρut−1 + ǫt ) ut−1 ] ρE u2t−1 + E (ǫt ut−1 ) ρλ0 3. La segunda autocovarianza, λ2 : Se trata de la relaci´on que hay entre ut y ut−2 .
λ2 = = = =
E (ut ut−2 ) E [(ρut−1 + ǫt ) ut−2 ] ρλ1 ρ2 λ 0
4. La k-´esima autocovarianza, λk : Se trata de la relaci´on que hay entre ut y ut−k . Aqu´ı nos aprovecharemos de una argucia recursiva puesta en evidencia en los c´alculos anteriores:
λ k = ρk λ 0 d´onde k = 0, 1, 2, ...T .
216
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
Ya con esta informaci´on podemos rellenar con facilidad la matriz Ω: 5 . . . λT . . . λT −1 .. ... . .. λ0 . λ0 1 ρ ρ2 . . . ρT −1 1 ρ . . . ρT −2 .. 1 ρ . = λ0 .. ... . 1
λ0 λ1 λ2 λ0 λ1 λ0 Ω =
Ahora que ya conocemos la forma de Ω, podemos proceder a su descomposici´on con objeto de obtener la matriz P . Es esta u´ ltima la que usaremos para transformar la especificaci´on y as´ı poder aplicar M CG. Conviene recordar que P es una matriz tal que P ′ P = Ω−1 . La obtenci´on de P suele llevarse a cabo num´ericamente6 usando el m´etodo de Choleski. Vamos a ilustrar este m´etodo usando un ejemplo muy sencillo con T = 2. Retomando nuestra matriz Ω en este caso muy reducida... σ2 1 ρ Ω = 1 − ρ2 ρ 1 " 2 # 2 =
σ 1−ρ2 ρσ 2 1−ρ2
ρσ 1−ρ2 σ2 1−ρ2
A esta matriz tan sencilla se le puede calcular r´apidamente su inversa. Empecemos por el determinante:
|Ω| = σ = 5 6
4
1 − ρ2 (1 − ρ2 )2
σ4 (1 − ρ2 )
Dado que la matriz es sim´etrica, s´olo presentamos uno de sus tri´angulos y la diagonal. Es decir, lo hace un programa de computadora.
´ 6.2. MINIMOS CUADRADOS GENERALIZADOS
217
Ahora s´ı, calculemos la inversa:
Ω−1
# " 2 −ρσ 2 σ (1 − ρ2 ) 1−ρ 2 2 1−ρ = −ρσ 2 σ4 σ4 1−ρ2 1−ρ2 1 1 −ρ = σ 2 −ρ 1 −2 σ −ρσ −2 = −ρσ −2 σ −2
Es con esta matriz que ilustraremos la obtenci´on de la matriz P . Como ya hab´ıamos se˜nalado, se utiliza el m´etodo de Choleski, m´as precisamente el m´etodo de descomposici´on de Choleski. Recordemos que nuestro objetivo es encontrar una P tal que P ′ P = Ω−1 . La matriz de Choleski—que ser´a en u´ ltima instancia la matriz P —de hecho es triangular.7 Esto nos permite escribir lo siguiente: −2 a11 a21 a11 0 σ −ρσ −2 = 0 a22 a21 a22 −ρσ −2 σ −2 | {z } | {z } {z } |
P′
P
Ω−1
Ya nada m´as falta saber que valen los elementos a11 , a21 y a22 . En cuanto los conozcamos, sabremos como est´a compuesta la matriz P . ¿C´omo obtenerlos? Pues en este caso es muy f´acil. Podemos establecer los c´alculos matriciales elemento por elemento del producto P ′ P que permiten obtener los elementos de la matriz Ω: 1. a211 + a221 = σ −2 2. a21 a22 = −ρσ −2 3. a222 = σ −2 Esto, como podr´an ver, constituye un sistema de tres ecuaciones con tres inc´ognitas. Lo podemos resolver; manipulando adecuadamente, obtenemos:8 7
Es decir, uno de sus tri´angulos est´a compuesto por ceros. Dicha caracter´ıstica es en realidad la argucia que permite obtener la descomposici´on 8 Note que este desarrollo tambi´en nos brinda una matriz P si nos quedamos con las ra´ıces negativas. Gracias a Luis Antonio G´omez Lara por este comentario.
218
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
1. a22 = σ −1 2. a21 = −ρσ −1 p 3. a11 = σ −1 1 − ρ2
Ahora colocamos los elementos en su lugar y obtenemos la matriz P : p (1 − ρ2 ) 0 −1 P =σ −ρ 1 Como bien dijimos al principio, lo anterior es nada m´as una ilustraci´on de la descomposici´on de Choleski. Cuando la matriz es m´as grande, (T > 2), tendremos que resignarnos a que una computadora haga el c´alculo. Cuando el t´ermino de error es AR(1), pero T > 2, la matriz P es la siguiente: p (1 − ρ2 ) 0 . . . . . . ... −ρ 1 ... P = σ −1 0 −ρ 1 .. ... −ρ 1 . 0 . . . 0 −ρ
0 .. . .. . 0 1
Pues hemos obtenido por fin la matriz que nos permite transformar la especificaci´on y recuperar el supuesto de independencia de los errores. Dejamos al cuidado del lector la comprobaci´on de los c´alculos. Sugerimos, para este efecto, pensar en una matriz Ω de 3 × 3. Y es aqu´ı donde vale la pena hacer una anotaci´on trascendental. M CG padece de una peque˜na complicaci´on: ´ E N LA P R ACTICA N O C ONOCEMOS Ω. Sin conocimiento de la matriz Ω, resulta imposible calcular la otra matriz, con la que transformaremos toda la especificaci´on (P ). Es cierto que podr´ıamos estimarla, por lo que al m´etodo se le agrega una sigla y se transforma en Feasible GLS (FGLS), o bien M CG Factibles (MCGF). Pero entonces la magia de la transformaci´on ya no opera con tanta fluidez y sobre todo, es necesario preocuparse por estimar Ω. En caso de equivocarnos, o de proveer un estimador inapropiado, es muy probable que el remedio resulte peor que la enfermedad.
6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO219
6.3.
Consecuencias del rompimiento de supuestos sobre MCO
Para dimensionar adecuadamente la magnitud del problema, es necesario conocer los efectos de la autocorrelaci´on y la heteroscedasticidad sobre nuestros ya conocidos estimadores de MCO. Esto lo llevaremos a cabo recordando que todos los dem´as supuestos s´ı se cumplen; los u´ nicos que no son los siguientes: E (u2t ) = σ 2 E (ut uτ ) = 0 Recordemos tambi´en que hab´ıamos definido la matriz de Varianza-Covarianza del t´ermino de error como: def
E (U U ′ ) = Ω
6.3.1. ¿Sesgo bajo autocorrelaci´on o heteroscedasticidad? Estudiemos primero si la propiedad de no-sesgo en los par´ametros estimados de MCO se ve alterada cuando hay autocorrelaci´on y/o heteroscedasticidad. En realidad, se trata de la misma demostraci´on que cuando presentamos en modelo generalizado de MCO. Partamos de la f´ormula de los estimadores: −1 βˆ = (X ′ X) X ′ Y −1 = (X ′ X) X ′ (Xβ + U ) −1 βˆ = β + (X ′ X) X ′ U |{z} | {z } N o Estoc´ astico Esperanza nula E βˆ = β
Es importante tener claro que para obtener la esperanza de los estimadores no fue necesario tener en cuenta ni la independencia del t´ermino de error ni su homoscedasticidad; por lo mismo de concluye que el rompimiento de dichos supuestos no afecta a la propiedad de Estimadores insesgados de MCO: ´ EN L OS E STIMADORES DE MCO P ERMANECEN I NSESGADOS A UN ´ P RESENCIA DE AUTOCORRELACI ON Y / O H ETEROSCEDASTICIDAD .
220
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
6.3.2. Varianza bajo autocorrelaci´on o heteroscedasticidad En realidad estos supuestos, cuando no se cumplen, inciden particularmente en la ´ varianza de los estimadores. Estos, adelant´andonos un poco, pierden su condici´on de eficiencia. M´as grave a´un, invalidan las f´ormulas que conocemos para estimar dichas varianzas. Para ver todo esto, retomemos el modelo de regresi´on simple, pues resulta mucho m´as esclarecedor: yt = α + βxt + ut Recuperemos una de las expresiones que hab´ıamos desarrollado para dicho modelo: 2 ˆ = E βˆ − β V ar(β) X 2 = E K t ut
= E (K1 u1 + K2 u2 + . . . KT uT )2 = E K12 u21 + K22 u22 + . . . KT2 u2T + 2K1 K2 u1 u2 + 2K1 K3 u1 u3 + . . . +2Ki Kj ui uj + . . . + 2KT −1 KT uT −1 uT )
Acabemos de desarrollar esta expresi´on, s´olo que bajo diversos escenarios. Empezaremos asumiendo que se cumplen los supuestos, despu´es relajaremos uno (heteroscedasticidad), luego relajaremos otro (independencia) y remataremos relajando ambos. 1. No hay ni Heteroscedasticidad, ni autocorrelaci´on:
X V ar βˆ = σ 2 Kt 2 = P
σ2 (xt − x¯)2
6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO221 2. Hay heteroscedasticidad, pero no autocorrelaci´on:
ˆ = E K 2 u 2 + . . . + K 2 u2 V ar(β) 1 1 T T = K12 σ12 + . . . + KT2 σT2 X = Kt2 σt2 P 2 σt = P (xt − x¯)2
3. Hay autocorrelaci´on, pero no heteroscedasticidad: 2 ˆ = P σ + 2K1 K2 σ12 + 2K1 K3 σ13 + . . . V ar(β) {z } (xt − x¯)2 | 6=0
2
(x1 − x¯)(x2 − x¯) σ 2 σ12 + 2 + 2 P (xt − x¯) (xt − x¯)2 (x1 − x¯)(x3 − x¯) 2 P 2 σ13 + . . . (xt − x¯)2
= P
donde σij = E(ui uj ).
4. Hay heteroscedasticidad y autocorrelaci´on:
ˆ = P V ar(β)
P
σt2 (x1 − x¯)(x2 − x¯) 2 σ12 + 2 + 2 P (xt − x¯) (xt − x¯)2
(x1 − x¯)(x3 − x¯) 2 P 2 σ13 + . . . (xt − x¯)2 P 2 2 σt = P 2 [(x1 − x¯)(x2 − x¯)σ12 + 2 + P (xt − x¯) (xt − x¯)2 (x1 − x¯)(x3 − x¯)σ13 + . . .]
222
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
En los casos de 2-4, la f´ormula de la varianza de los par´ametros difiere de la que conoc´ıamos, que es la que aparece en el primer inciso. Ahora bien, cuando nosotros ejecutemos la regresi´on, no sabremos si los supuestos de independencia y homoscedasticidad se cumplen; impl´ıcitamente asumiremos que s´ı; por ello, utilizaremos la 2 primera f´ormula,9 P(xσt −¯x)2 . Pero si hay heteroscedasticidad y/o autocorrelaci´on, dicha f´ormula es perfectamente err´onea. El c´alculo que hagamos con ella ser´a espurio y no representar´a un buen estimador—ni de lejos—de las varianzas y covarianzas de los estimadores. Anteriormente, hab´ıamos visto que al usar MCG, recuperabamos la validez de nuestros supuestos; al transformar la especificaci´on, pod´ıamos seguir usando MCO y obtener estimadores MELI. No obstante, conviene recalcar que en los casos 2-4, la demostraci´on que hicimos del Teorema de Gauss-Markov pierde validez.10 Por ende, los estimadores bajo los casos 2,3,y 4 dejan de ser MELI, en contraste con los de M CG. Es importante rescatar que tales estimadores siguen siendo—lineales e—insesgados, pero ya no son eficientes (de m´ınima varianza). ´ Y / O H ETEROSCEDASTICIDAD , LOS E N P RESENCIA DE AUTOCORRELACI ON ´ E FICIENTES ; YA N O S ON DE E STIMADORES DEJAN DE SER LOS M AS M ´I NIMA VARIANZA .
6.4.
Pruebas de Detecci´on
Hasta ahora, hemos definido la autocorrelaci´on y la heteroscedasticidad; descubrimos tambi´en en el M´etodo de M´ınimos Cuadrados Generalizados una t´ecnica fant´astica para corregir de forma id´onea esos “problemas”. Como bien se ha dicho, M CG requiere el conocimiento de Ω,la matriz de Varianza-Covarianza del t´ermino de error. Dicha matriz, de hecho rara vez es conocida. Nosotros usualmente tomamos datos, corremos nuestra regresi´on inocentemente y ya luego nos empezamos a preocupar por la satisfacci´on de los supuestos. Existen formas de estimar Ω y corregir por M CG, pero primero nos concentraremos en conocer algunas de las t´ecnicas de detecci´on de rompimiento de supuestos. N OTE QUE CADA P RUEBA ASUME S UPUESTOS M UY E STRICTOS R ESPECTO A LA E STRUCTURA DEL E RROR. 9
Reemplazando la varianza del error por su estimador, claro est´a. En esa demostraci´on, usamos los supuestos que ahora estamos rompiendo. Vea dicha demostraci´on en las p´aginas 69 (modelo lineal simple) y 137 (modelo multivariado). 10
´ 6.4. PRUEBAS DE DETECCION
223
6.4.1. Detecci´on de la Heteroscedasticidad Existen muchas pruebas de heteroscedasticidad en el mercado. Cada una de ellas puede resultar m´as o menos adecuada seg´un el contexto. En realidad, ahora que entendemos cu´al es la filosof´ıa est´andar detr´as de una prueba de hip´otesis, nos conformaremos con proponer algunas sin entrar en detalles ni demostraciones. En particular expondremos dos; la Prueba de Goldfeld-Quandt y la Prueba de White. En todas ellas, la hip´otesis nula, H0 , es H OMOSCEDASTICIDAD mientras que la alternativa ser´a H ETEROSCEDASTICIDAD. La Prueba de Goldfeld-Quandt Retomando un poco lo dicho en la u´ ltima frase del p´arrafo anterior, definimos la hip´otesis nula y la alternativa, en este caso, de la prueba Goldfeld-Quandt. La heteroscedasticidad que sugiere esta prueba es una en la que la varianza del error es proporcional a alguna de las variables explicativas: 1. H0 : σt2 = σ 2 para todo t = 1, 2, . . . , T , 2. Ha : σt = κxi . De ser v´alida la hip´otesis alternativa, podemos esperar que la varianza del error sea grande cuando la variable xi es grande y sea chica en caso contrario. Con base en esto u´ ltimo, es razonable pensar que un estimador de la varianza del error usando u´ nicamente los estimados del residual correspondientes a valores grandes (peque˜nos) de la variable xi sea tambi´en grande (peque˜no). I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA G OLDFELD -Q UANDT: Ordenar los datos yt , x1t , ...xkt seg´un el orden creciente de la variable explicativa xi que supuestamente afecta a la varianza del error. Borrar un n´umero arbitrario de observaciones pertenecientes a la parte central de la muestra, digamos d = 51 . Se recomiendo hacer lo anterior con objeto de exacerbar la diferencia entre las varianza del principio de la muestra y la del final de la muestra. Correr dos regresiones: una para cada submuestra (las cuales son de tama˜no: (T −d·T ) ). La primera regresi´on se hace bajo el supuesto de que deber´ıa estar 2 asociada a una varianza de error chica mientras que la segunda deber´ıa estar asociada a una varianza de error grande.
224
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION Calcular para cada regresi´on la SCE: • Varianza Chica: SCE1
• Varianza Grande: SCE2
Es posible demostrar que, si se cumple los supuestos de no-autocorrelaci´on y normalidad del t´ermino de error bajo la hipotesis nula de homoscedasticidad, el estad´ıstico de Goldeld-Quandt (GF) se distribuye como una F: SCE2 ∼ F(T −dT −2K)/2, (T −dT −2K)/2 g.l. SCE1 Note que los grados de libertad corresponden a los de la suma de cuadrados del error de una regresi´on normal. Se asume que, en total, se restaron dT datos del centro de la muestra, por lo que s´olo quedan T (1−d) observaciones. Ambas submuestras son del mismo tama˜no, por lo que la muestra en ambos casos incluye T (1 − d)/2 observaciones; en ambas regresiones se estima el mismo n´umero de par´ametros, es decir, K, por lo que al final s´olo quedan T (1−d)/2−K = T −dT −2K)/2 grados de libertad, tanto para el numerador como para el denominador.11 Como ver´an, el procedimiento es bastante sencillo. La lectura de la prueba F ya ha sido estudiado con anterioridad y por lo mismo, no lo detallaremos. Ejercicio 6 Como ya se se˜nal´o, existe un sinfin de pruebas en econometr´ıa. Las relativas a heteroscedasticidad son bastante numerosas. En este ejercicio, se le pide que busque informaci´on relativa a la que propuso H. Glejser en 1969.12 Ya documentada, progr´amela en el lenguaje de su preferencia (aunque se recomienda ampliamente hacerlo en Matlab.) La prueba de White La prueba de White, como dijimos al principio, establece que la hip´otesis nula es ´ cohomoscedasticidad, mientras que en la alternativa hay heteroscedasticidad. Esta bra una forma funcional que la hace dependiente de algunas variables explicativas 11
Con agradecimientos para Sandra Thal´ıa G´omez Espa˜na, quien not´o un error en los grados de libertad (en una versi´on anterior). M´as informaci´on sobre esta prueba puede obtenerse en http://en.wikipedia.org/wiki/Goldfeld%E2%80%93Quandt_test, o bien en el art´ıculo original (ver bibliograf´ıa). 12 H. Glejser (1969) A New Test for Heteroskedasticity. Journal of the American Statistical Association, vol. 64, pp. 316-323.
´ 6.4. PRUEBAS DE DETECCION
225
(o incluso ex´ogenas a nuestra especificaci´on) al cuadrado o multiplicadas entre s´ı. Suponga la siguiente especificaci´on: Yt = Xβ + U En caso de haber heteroscedasticidad tal y como la define White, tendr´ıamos:13 2 2 u2t = γ + δ1 Z1t + δ2 Z1t + δ3 Z2t + δ4 Z2t + . . . + ǫt
Como ya se se˜nal´o, las variables Zi,t pueden ser algunas de las variables xi , un subconjunto de ellas o inclusive otras variables distintas. Las hip´otesis relevantes son: 1. H0 : E (u2t ) = σ 2 para todo t = 1, 2, . . . , T 2 2. Ha : E (u2t ) = γ + δ1 Z1t + δ2 Z1t + . . . + ǫt
I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE W HITE : Estimar la especificaci´on por MCO Obtener los residuales estimados, uˆt Estimar, tambi´en por MCO, la siguiente regresi´on:
uˆt 2 = γˆt + δˆ1 x1t + δˆ2 x21t + δˆ3 x1t x2t + . . . δˆ4 x2t + δˆ4 x22t + δˆ5 x1t x2t + δˆK x2Kt + νˆt Calcular el siguiente estadistico de prueba: d
W = T × R2 ∼ χ2Pg.l D´onde P es el n´umero de par´ametros incluidos en la regresi´on auxiliar sin tomar en cuenta la constante. 13
No se exponen en la especificaci´on, pero de hecho tambi´en es posible incluir los productos cruzados de las variables.
226
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
Existen muchas m´as pruebas de heteroscedasticidad. Su funcionamiento puede considerarse an´alogo a las aqu´ı presentadas en el sentido siguiente. Llevar a cabo una prueba de hip´otesis requiere del usuario, conocimiento de la hip´otesis nula as´ı como de la distribuci´on del estad´ıstico de prueba en caso de ser cierta. Si se entiendi´o bien como funcionan las pruebas expuestas en las primeras p´aginas de este documento, interpretar otras que no aparecen aqu´ı deber´ıa resultar relativamente f´acil.
6.4.2. Detecci´on de la autocorrelaci´on Si se revisa un poco la literatura concerniente a las pruebas de hip´otesis en econometr´ıa, se descubre con asombro la fenomenal cantidad de esfuerzos dedicados a la detecci´on de autocorrelaci´on. Hace ya m´as de 30 a˜nos, un estudio sobre la cuesti´on cobr´o gran importancia y es hoy en d´ıa utilizado: se trata de la famosa prueba de autocorrelaci´on de orden uno, la Durbin-Watson; posteriormente, muchas otras m´as han salido; e´ stas son m´as sofisticadas, m´as flexibles y eventualmente, m´as poderosas. Pero tambi´en son m´as “est´andar”. Por otra parte, la autocorrelaci´on tiene una franca conexi´on con el an´alisis de tiempo y e´ ste ha aportado mucho a su detecci´on as´ı como a su control. Por estas razones presentaremos tres pruebas: la Durbin Watson, la Breuch-Godfrey y el autocorrelograma/Estad´ıstico Q. La prueba Durbin-Watson La prueba Durbin-Watson es ya cl´asica. Actualmente todav´ıa se le toma en cuenta para estudiar un posible problema de autocorrelaci´on de primer orden14 aunque ´ E SPURIA.15 tambi´en se usa para detectar un posible problema de R EGRESI ON Justamente, Durbin y Watson asumen que, en caso de haber un problema de autocorrelaci´on, e´ ste adoptar´ıa la siguiente estructuraci´on: ut = ρut−1 + Vt donde Vt es un ruido blanco (independiente y homosced´astico). Las hip´otesis que manejan son las siguientes: 1. Independencia: H0 : ρ = 0 2. autocorrelaci´on de primer orden, AR(1): Ha : ρ 6= 1 (|ρ| < 1) 14 15
es importante recordar siempre que la DW s´olo sirve para autocorrelaci´on de primer orden. La regresi´on espuria ser´a estudiada en la secci´on de Series de Tiempo.
´ 6.4. PRUEBAS DE DETECCION
227
I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE D URBIN WATSON : Estimar la especificaci´on de inter´es por MCO y recuperar los residuales estimados, uˆt Calcular el estad´ıstico de prueba siguiente: DW =
PT
(ˆ ut − uˆt−1 )2 PT ˆ2t t=1 u
t=2
Discriminar entre la hip´otesis nula y la alternativa utilizando la tabla de valores cr´ıticos provista por Durbin y Watson. En ella aparecen los valores DL y DU necesarios:a 1. Si el Estad´ıstico DW < DL : se rechaza H0 : evidencia de autocorrelaci´on positiva. 2. Si el Estad´ıstico DL < DW < DU o bien 4 − dU < DW < 4 − DL : no hay evidencia suficiente para aceptar o rechazar H0 : sin decisi´on.
3. Si el Estad´ıstico DW > 4 − DL : se rechaza H0 : evidencia de autocorrelaci´on negativa.
a
Dichos valores son funci´on del n´umero de observaciones, T as´ı como del n´umero de par´ametros excluyendo a la constante.
La figura (6.1) explica de forma m´as elocuente esta regla de decisi´on: Es f´acil entender porque el estad´ıstico DW suele caer entre cero y cuatro. Retomemos la f´ormula y desarroll´emosla un poco... P
(ˆ ut − uˆt−1 )2 P 2 DW = uˆt P P 2 P uˆt + uˆ2t−1 − 2 uˆt uˆt−1 = P ˆ2 Ut
Las primeras dos sumas en el numerador (en gris) son virtualmente iguales. Si nos autorizamos una peque˜na imprecisi´on, podr´ıamos tomarlas como iguales, en cuyo
228
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
Se acepta H0
Indecisión
Indecisión
Se rechaza H0
Se rechaza H0
dL
dU
2
4−dU
4−dL
>4
Figura 6.1: Regla de decisi´on de la Durbin-Watson
caso ser´ıa f´acil seguir el desarrollo: P uˆ2t − 2 uˆt uˆt−1 P 2 DW ≈ uˆt P 2 P uˆt uˆt uˆt−1 ≈ 2P 2 − 2 P 2 uˆt uˆt P uˆt uˆt−1 ≈ 2−2 P 2 uˆt 2
P
La parte de la expresi´on que aparece en tinta gris no es otra cosa sino la correlaci´on entre uˆt y uˆt−1 . Esto es f´acil de entender si recordamos que, por construcci´on, el t´ermino de error estimado tiene media cero. Llamando ρˆ1 a dicha correlaci´on, podemos expresar la u´ ltima ecuaci´on de la siguiente manera: DW ≈ 2 (1 − ρˆ1 ) Aqu´ı ya nada m´as resta recordar que una correlaci´on cobra valores cernidos entre −1 y 1. Note que si la correlaci´on entre Uˆt yUˆt es cercana a la unidad en valor ab-
´ 6.4. PRUEBAS DE DETECCION
229
soluto, tendr´ıamos el problema de autocorrelaci´on. Supongamos entonces los casos extremos relevantes: 1. Si ρˆ1 = −1: autocorrelaci´on negativa y DW ≈ 4 2. Si ρˆ1 = 1: autocorrelaci´on positiva y DW ≈ 0 3. Si ρˆ1 = 0: No-autocorrelaci´on y DW ≈ 2 La prueba de Durbin-Watson constituy´o un gran avance en su tiempo; no obtante, con el paso de e´ ste, sus limitaciones se hicieron m´as evidentes; entre ellas destaca su medici´on exclusiva de la autocorrelaci´on de primer orden. Si bien este orden es probablemente el m´as pertinente en estudios emp´ıricos, otros m´as elaborados (por ejemplo, relacionados con cuestiones estacionales, por ejemplo) tambi´en pueden ser importantes. La prueba Breuch-Godfrey La prueba de Breuch-Godfrey (BF ) se ha convertido con el tiempo en uno de los instrumentos m´as socorridos para probar correlaci´on serial16 entre los residuales. Su popularidad obedece, no s´olo a la robustez de la prueba sino tambi´en a que aparece pre-programada un programa de estimaci´on muy popular. No es, reiteramos, la u´ nica prueba, pero s´ı una muy usada. Suponga, como siempre, la siguiente especificaci´on: Yt = Xβ + U En caso de haber autocorrelaci´on tal y como la supone la prueba Breuch-Godfrey, tendr´ıamos: ut = γ + δ1 x1t + δ2 x2t + . . . + δK xKt + ρ1 ut−1 + . . . + ρq ut−q + ǫt Las hip´otesis relevantes son: 1. H0 : E (ut uτ ) = 0 para todo t 6= τ 2. Ha : E (ut uτ ) 6= 0 para al menos un t 6= τ 16
Correlaci´on Serial es otro nombre que se le da a la autocorrelaci´on.
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
230
I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE B REUCH G ODFREY: Estimar la especificaci´on por MCO Obtener los residuales estimados, uˆt Estimar, tambi´en por MCO, la siguiente regresi´on:
uˆt
=
γˆ + δˆ1 x1t + δˆ2 x2t + . . . + δˆK xKt + ρˆ1 uˆt−1 + . . . +
ρˆq uˆt−q + ǫˆt Calcular el siguiente estad´ıstico de prueba:a d
BG = T × R2 ∼ χ2Lg.l D´onde L es el n´umero de par´ametros incluidos en la regresi´on auxiliar; la R2 es la asociada a la regresi´on auxiliar. a
La distribuci´on es v´alida bajo la hip´otesis nula.
La advertencia hecha en la secci´on correspondiente a las pruebas de heteroscedasticidad aplica tambi´en aqu´ı as´ı que, corriendo un grave riesgo de ser criticados por repetitivos, reiteramos lo siguiente: existen muchas m´as pruebas de autocorrelaci´on. Su funcionamiento suele ser an´alogo al de las pruebas aqu´ı presentadas. Llevar a cabo una prueba de hip´otesis requiere del usuario, conocimiento de la hip´otesis nula as´ı como de la distribuci´on del estad´ıstico de prueba en caso de ser cierta. Si se entendi´o bien como funcionan las pruebas expuestas en las primeras p´aginas de este documento, interpretar otras que no aparecen aqu´ı deber´ıa resultar relativamente f´acil. El correlograma y la Q de Ljung-Box El Correlograma En la secci´on relativa a la aplicaci´on de M CG, e´ sta se ejemplific´o asumiendo que los residuales se rigen por un proceso que denominamos AR(1): Autoregresivo de Primer Orden. Para poder “llenar” la matriz Ω calculamos ´ DE AUTOCOVARIANZA de dicho proceso. Ahora bien, si procedela F UNCI ON
´ 6.4. PRUEBAS DE DETECCION
231
mos por analog´ıa, podremos intuir que la existencia de Autocovarianzas autoriza la ´ existencia de autocorrelaciones. Estas no ser´ıan otra cosa sino las Autocovarianzas divididas por la Varianza. Recordemos primero la f´ormula cl´asica de la correlaci´on, usando la letra r para definirla: Cov(x, y) σx σy
rxy =
Si esa es la manera de obtener la correlaci´on entre dos variables, x y y, entonces, la autocorrelaci´on del ruido ser´ıa: Cov(ut , ut−i ) σu σu Cov(ut , ut−i ) = V aru
ri =
para i = 1, 2, . . . Ahora bien, ya hab´ıamos hecho el c´alculo de las autocovarianzas; las expresiones obtenidas las hab´ıamos definido en funci´on de el par´ametro del AR(1), ρ, as´ı como de la varianza, que denotamos λ0 . Podemos aprovecharnos de esos resultados para ver mejor el comportamiento de la Funci´on de autocorrelaci´on. Empecemos con la autocorrelaci´on entre ut y ut , la cual, seg´un nuestra notaci´on ser´ıa r0 : ⇒ r0 =
λ0 =1 λ0
Lo mismo puede hacerse con r1 y r2 : r1 = r2 =
ρλ0 =ρ λ0
ρ2 λ 0 = ρ2 λ0
Siguiendo un razonamiento recursivo, podemos obtener la Funci´on de autocorrelaci´on, que denominaremos F AC:
ri =
1 ρi
si i = 0 e.o.c.
232
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
1
0
1
2
3
4
−1
Figura 6.2: Correlograma de un AR(1)
Donde e.o.c. quiere decir En otro caso. La forma m´as elocuente de comprender la F AC es grafic´andola; la figura en s´ı se llama C ORRELOGRAMA: Es claro que si el proceso no s´olo no obedece a un AR(1), sino que adem´as es iid, no s´olo el supuesto de M CO se ver´ıa cumplido, sino que adem´as esto se reflejar´ıa en una F AC “sin picos”; es decir que todas las autocorrelaciones deber´an ser iguales a cero: La simple observaci´on de la F AC nos permitiria percibir la presencia de autocorrelaci´on. En este caso, el ejemplo fue un AR(1) pero lo cierto es que si el ruido no es iid, su estructura deber´ıa reflejarse en el correlograma: deber´an aparecer picos reflejando la relaci´on de ruido con su propio pasado. No es incorrecto pensar que el correlograma es una “fotograf´ıa” de la memoria de los datos. Es aqu´ı donde conviene hacer una aclaraci´on. Las F AC con las que hemos trabajado hasta ahora son te´oricas, est´an calculadas asumiendo que el ruido tiene una estructura particular, en este caso un AR(1). El hecho es que la estructura de los residuales tambi´en nos ser´a desconocida al momento de estimar nuestra regresi´on. No tiene sentido trabajar con F ACs te´oricas, puesto que no sabr´ıamos cual usar.17 17
Quiz´a el lector adivin´o, al estudiar el AR(1), que e´ ste puede generalizarse a AR(p) con p = 1, 2, . . .; cada uno de ellos tendr´ıa una F AC distinta. De hecho, el chiste es calcular la versi´on muestral de la F AC y tratar de aparejarla con una F AC te´orica, con el objeto de aproximar la estructura del residual. Todo esto ser´a visto con detalle en An´alisis de Series de Tiempo. No conviene
´ 6.4. PRUEBAS DE DETECCION
233
1
0
1
2
3
4
−1
Figura 6.3: Correlograma de un ruido blanco iid’
Por lo mismo, necesitamos estimar dicha F AC; la f´ormula para hacer esto es: PT uˆt uˆt−i rˆi = t=i+1 PT ˆ2t t=1 u Aqu´ı podemos confiar en la convergencia—en probabilidad—del estimador de la autocorrelaci´on estimada a su verdadero valor, sea este cero o no. De hecho, se ha demostrado que si las verdaderas autocorrelaciones son cero, el estimador de e´ stas se distribuye como una normal: 1 rˆi ∼ N 0, T Ello permite construir intervalos de confianza, al interior de los cuales, dicha autocorrelaci´on es cero. La f´ormula de tales intervalos se puede aproximar de la siguiente manera: 2 Iconf. ≈ +/ − √ T En las gr´aficas siguientes se puede observar el c´alculo de la F AC muestral tanto de un ruido blanco (que satisface los supuestos la regresi´on) como de un proceso AR(1) y de otro proceso AR(p) cuya memoria, p dejaremos sin aclarar: aqu´ı adelantar demasiado puesto que se correr el riesgo de confundir conceptos.
234
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION (a)
1.0 0.5 0.0 −0.5 −1.0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
8
9
10
11
12
13
14
8
9
10
11
12
13
14
(b)
1.0 0.5 1.0 0.5
0
1
2
3
4
5
6
7 (c)
1.0 0.5 0.0 −0.5 −1.0
0
1
2
3
4
5
6
7
Figura 6.4: Correlogramas muestrales de: (a) un ruido blanco iid, (b) un proceso AR(1), (c) un proceso AR(p)
Note como, a´un si no logramos identificar el proceso AR(1) en la tercera figura, si queda claro que no se trata de un ruido iid. Esta evaluaci´on visual es, de hecho, bastante certera en lo que respecta a capacidad de diagn´ostico. Para aquellos esc´epticos de la inspecci´on gr´afica, queda la formalizaci´on mediante el estad´ıstico Q de Ljung-Box. Estad´ıstico Q de Ljung-Box El estad´ıstico Q, tal y como fue referido en la secci´on anterior, es obra de Ljung y Box. Se trata de una prueba estad´ıstica cuya hip´otesis nula es que no hay autocorrelaci´on de orden k, donde k se refiere al rezago utilizado;18 su f´ormula es la siguiente: QLB,k = T · (T + 2)
k X j=1
rˆj2 T −j
Bajo la hip´otesis nula, H0 , hay evidencia de que el ruido en cuesti´on es blanco hasta 18
Siguiendo con nuestra analog´ıa, k se refiere a la extensi´on de la memoria de la serie
6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS
235
el k−´esimo rezago y QKB,k ∼ χ2k g.l. .19 El problema principal de la prueba es el mismo que el del correlograma (que no habiamos mencionado a´un): ¿C´omo definimos k? Si nuestra k es demasiado peque˜na, puede que pasemos por alto alguna autocorrelaci´on importante de orden grande, pero si k es grande, quiz´a disminuyamos la importancia de alguna autocorrelaci´on alta debido a que esta es promediada con las otras correlaciones, algunas de ellas muy bajas. En pocas palabras, escoger una k grande hace que la prueba pierda potencia y sea m´as f´acil aceptar err´oneamente la hip´otesis nula. ¿Recuerda el nombre de este tipo de error?
6.5.
Matrices de Varianza-covarianza Robustas
Hasta el momento, hemos explicado en que consiste tanto la heteroscedasticidad como la autocorrelaci´on; hemos expuesto tambi´en las consecuencias sobre la regresi´on del rompimiento de los supuestos correspondientes; hemos, finalmente, propuesto algunas pruebas para detectar dichos rompimientos y un m´etodo, M CG, para resolver la cuesti´on. Retomemos justamente ah´ı, en la u´ ltima l´ınea dedicada a M CG. Para poder utilizar esta t´ecnica de estimaci´on es necesario conocer exactamente cu´al es la naturaleza del problema que aqueja a nuestra regresi´on. En pocas palabras, necesitamos conocer Ω. Esto, a menos que se trate de datos simulados, nunca va a estar a nuestro alcance. Evidentemente, podemos formular alg´un ˆ pero esto conlleva riesgos. Si nuessupuesto heroico y construir un estimador, Ω, tro heroico supuesto est´a muy alejado de los que realmente ocurre, es posible que nuestro estimador de la matriz de varianza-covarianza diste mucho del verdadero y, por consiguiente, el remedio que le apliquemos a la especificaci´on resulte m´as da˜nino que la enfermedad misma. Ya sabemos, por otra parte, que tanto la heteroscedasticidad como la autocorrelaci´on no sesgan nuestros estimadores, ni los hacen inconsistentes; su u´ nico efecto es volverlos ineficientes (es decir que ya no son de m´ınima varianza). Debe quedar claro que esto no es tan nimio como parece, pero tampoco es el fin del mundo. Personalmente creo que m´as nos valdr´ıa conformarnos con las propiedades de no-sesgo y consistencia y buscarle una soluci´on m´as pasiva a la ineficiencia. Casi todas la inferencia estad´ıstica sobre el modelo aqu´ı expuesta se fundamenta en derivaciones probabil´ısticas de la varianza. Lo anterior quiere decir, en otros t´erminos, que la validez de la inferencia hecha con las pruebas depende de que el c´alculo de la varianza de los estimadores sea el correcto. En presencia de heteroscedasticidad y/o autocorrelaci´on esto ya no ocurre. Quiz´a lo m´as f´acil ser´ıa 19
El n´umero de grados de libertad debe ajustarse si se trata de residuales de un modelo ARIM A(p, 1, q); para m´as detalles, esperar al curso de series de tiempo.
236
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
modificar la f´ormula de la varianza de los par´ametros estimados de tal suerte que fuera robusta a ambos fen´omenos. Esto es b´asicamente lo que propusieron White (estimaci´on robusta ante heteroscedasticidad u´ nicamente) y posteriormente Newey y West (estimaci´on robusta ante ambos fen´omenos, heteroscedasticidad y autocorrelaci´on). El nivel de este curso permite s´olo explicar la propuesta de White, pero confiamos en que, una vez entendida e´ sta, la utilizaci´on de la otra resulte natural. As´ı pues, en vez de tratar ciegamente de corregir el rompimiento del supuesto de homoscedasticidad, nos hemos de resignar y calcular varianzas que tomen en cuenta la heteroscedasticidad. Como dec´ıamos en el p´arrafo anterior, ante heteroscedasticidad, las f´ormulas de las varianzas de los estimadores ya no son v´alidas. Suponga el siguiente modelo: Y = Xβ + U
σ12 0 0 0 σ22 0 ... σ32 Ω =0 . ... .. 0 ... ...
E(U ) = 0
... ... ... ... 0
0 0 .. .
E(U U ′ ) = Ω(T ×T )
0 σT2
donde, como hasta ahora, asumiremos que las variables explicativas no son estoc´asticas. Aqu´ı es importante recordar que, en presencia de heteroscedasticidad: E βˆ = β V ar βˆ = (X ′ X)−1 X ′ ΩX (X ′ X)−1
La f´ormula de la varianza que obtuvimos es muy diferente a la que solemos usar cuando asumimos que hay homoscedasticidad. La soluci´on m´as obvia es reemplazarla por la que acabamos de poner; el problema es que para calcular dicha expresi´on, necesitar´ıamos un estimador de Ω. Eso es—para todo fin pr´actico—imposible dado que implica estimar T elementos (σ12 , σ22 , . . . , σT2 ) con u´ nicamente T observaciones disponibles. Cualquier intento de estimaci´on simple y sencillamente no ser´ıa robusto. Afortunadamente, White(1980) encontr´o una manera de evitar este problema t´ecnico, un artilugio por as´ı llamarlo. En vez de estimar los T elementos de Ω,
6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS
237
podr´ıamos concentrarnos en estimar X ′ ΩX, cuyas dimensiones son muy inferiores: K × K. Como siempre, en esta vida todo se compra, todo se paga o dicho de otra manera “there is no free lunch”. Para poder hacer este c´alculo, necesitaremos hacer un supuesto, que es el que a continuaci´on expresamos: Supuesto 1 Sea X la matriz de dimensiones T × K de variables explicativas no estoc´asticas; entonces se asume que: 1 ′ XX=Q T →∞ T donde Q es una matriz no singular. l´ım
En realidad, este supuesto no es particularmente restrictivo. Si nuestras variables explicativas fueran estoc´asticas, el l´ımite arriba expuesto s´olo implicar´ıa que dichas variables tuvieran varianza finita, algo bastante plausible, excepto en el caso en que dichas variables no fueran estacionarias. Ahora s´ı, retomemos nuestra nueva f´ormula de la matriz de varianza-covarianza, V ar βˆ = (X ′ X)−1 X ′ ΩX (X ′ X)−1 y manipul´emosla de tal forma que el nor-
malizador T aparezca en todas partes.20 Dividamos la expresi´on del lado derecho en tres partes: (X ′ X)
−1
X ′ ΩX (X ′ X)
−1
Por razones que ahora parecen misteriosas, digamos que deseamos normalizar los elementos en tinta gris, mediante una divisi´on por T ; hag´amoslo pero de tal forma que dejemos inalterada la expresi´on: T −1 T −1 X ′ X
−1
T · T −1 X ′ ΩXT −1 T −1 X ′ X
−1
Note como, por cada T normalizadora que insertamos, a˜nadimos tambi´en un factor T que la elimina. Ahora reagrupemos estos u´ ltimos: T −1 X ′ X
20
−1
−1 −1 T −1 X ′ ΩX T −1 X ′ X T · T · T −1 −1 −1 ′ −1 −1 T −1 X ′ X T X ΩX T −1 X ′ X T
El objetivo de hacer esto es poner en evidencia una expresi´on en la que aparezca la f´ormula del supuesto. Con ello, al sacar l´ımites, podremos obtener Q.
238
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
¡Nos sobra un T −1 ! Eso quiere decir que al normalizar cada elemento de la expresi´on, acabamos dividi´endola sin querer por T , si queremos que el signo de igualdad siga siendo v´alido, hay que multiplicar ambos lados por T . Para efectos de notaci´on, la parte izquierda de la expresi´on incluye al operador Varianza; como sabemos, todo lo que entra en el, opera al cuadrado; por ello, si√queremos multiplicar por T , al interior del operador s´olo es necesario hacerlo por T : V ar
√
ˆ Tβ =
T −1 X ′ X
−1
T −1 X ′ ΩX T −1 X ′ X
Si aplicamos el l´ımite a esta expresi´on, obtendr´ıamos: l´ım V ar
T →∞
√
−1
T βˆ = Q−1 l´ım T −1 X ′ ΩX Q−1 T →∞
Como ver´an, ya casi tenemos resuelto el l´ımite. Tan solo con la matriz de explicativas, que s´ı tenemos, podemos contar con poder calcular dos tercios de la expresi´on. El problema, claro est´a, es el tercio restante: l´ımT →∞ [T −1 X ′ ΩX]. Si conoci´eramos Ω dicho l´ımite converger´ıa a “algo”, a una matriz espec´ıfica cuyos valores en s´ı no nos interesan. Podr´ıamos denominarla ζ: l´ım T −1 X ′ ΩX = ζ
T →∞
Pero como no conocemos Ω, habremos de darle la vuelta al problema. Concentr´emonos pues en esta expresi´on, la cual, si la desarroll´aramos se ver´ıa as´ı:
x11 x12 X ′ ΩX = .. . |
x1K
x11 x21 .. . xT 1 |
.. . . . xT 1 σ12 0 . 0 . . . xT 2 2 ... 0 0 σ · 2 .. · ... . . . . . . . . . . . .. x2K . . . xT K 2 {z } | 0 0 {z 0 σT } (K×T ) T ×T x12 . . . x1K x22 . . . x2K .. .. ... . . xT 2 . . . xT K {z } x21 x22 .. .
(T ×K)
6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS
239
La matriz resultante es K × K y un elemento t´ıpico de e´ sta, que denotaremos ǫ, es:21
ǫij =
T X
σt2 xit xjt
(6.1)
t=1
Note que esta matriz es sim´etrica (¿Por qu´e? ¡Demu´estrelo!),22 lo que reduce el n´umero de elementos a calcular:
ǫ11 ǫ21 X ′ ΩX = .. .
ǫ22 .. .
...
ǫK1 ǫK2 . . . ǫKK
De hecho, el n´umero total de elementos a calcular es:23 K X k=1
2
k=
K2 + K 2
As´ı, tenemos que calcular K 2+K expresiones como (6.1). El problema es que no conocemos las varianzas, σt2 para t = 1, 2, . . . , T . White propuso reemplazarlas de la siguiente manera: cambiar σt2 por uˆ2t . La idea no es tan intuitiva como podr´ıa parecer, puesto que se trata, de reemplazar un par´ametro con una u´ nica observaci´on. En realidad, el truco estriba en que no es eso lo que se calcula, sino una suma: 1X 2 1X 2 a uˆt xit xjt = σt xit xjt T T
Hace falta primero ver que, a´un si uˆt no es un estimador consistente de ut , s´ı es, al menos, un estimador insesgado. Retomemos desde el principio y desarrollemos para ver esto; empecemos por la especificaci´on estimada:24 21
Note que, al volver a la notaci´on escalar, invertimos el orden de los sub´ındices. Esta peque˜na incongruencia entre la notaci´on matricial y la escalar, se hace en aras de una lectura m´as c´omoda. 22 Sabemos que Ω es sim´etrica, es decir, Ω = Ω′ . Por lo mismo, (X ′ ΩX)′ = X ′ ΩX. 23 Nuevamente. . . ¿Por qu´e? ¡Demu´estrelo! 24 Recuerde que todos los supuestos menos el de homoscedasticidad se cumplen.
240
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
Y = X ′ βˆ + Uˆ Uˆ = Y − X ′ βˆ ′ Uˆ Uˆ ′ = Y − X ′ βˆ · Y − X ′ βˆ
Reemplazamos Y por la verdadera especificaci´on, Uˆ Uˆ ′ =
′ Xβ + U − X βˆ · Xβ + U − X βˆ ,
y, desarrollando la expresi´on y sacando esperanza de ambos lados obtenemos:25 E Uˆ Uˆ ′ = E (U U ′ ) = Ω
Ahora s´ı, ya sabemos que uˆ2t es un estimador insesgado de σt2 . Para continuar la demostraci´on, creemos una nueva variable, ν, que permita relacionar a nuestro residual estimado—convenientemente elevado al cuadrado—con la varianza en el periodo t: νt = uˆ2t − σt2
(6.2)
El resultado anterior, as´ı como la no aleatoriedad de las variables explicativas, nos permite hacer las siguientes dos afirmaciones: 1. E (νt ) = 0 2. E (νt xit xjt ) = 0 Manipulando la expresi´on (6.2), tendr´ıamos (ˆ u2t ) = νt + σt2 . Si reemplazamos σt2 por uˆ2t en la expresi´on (6.1), convenientemente normalizada por T , tendr´ıamos:
25
1X 2 1X uˆt xit xjt = (νt + σt2 )xit xjt T T 1X 1X 2 = νt xit xjt + σt xit xjt T T
Hay que tomar en cuenta que E βˆ = β.
6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS
241
La normalizaci´on es conveniente puesto que nos permite ahora sacarle el l´ımite a la expresi´on: 1X 2 uˆt xij xjt = T →∞ T
1X 1X 2 (νt xij xjt ) + l´ım (σt xij xjt ) T →∞ T T →∞ T P Sabiendo que E(νt xij xjt ) = 0 y que T1 (νt xij xjt ) es un estimador consistente (Gracias a la Ley de los Grandes N´umeros; revise la p´agina 61), sabemos que el primer l´ımite es cero: l´ım
l´ım
T −1
X
(νt xij xjt ) = 0
mientras que el segundo l´ımite corresponde a la expresi´on que necesit´abamos; inclusive incluye el t´ermino de normalizaci´on que nos sal´ıa. Ya s´olo es cuesti´on de ˆ Para que esto quede m´as claro, retomemos dicha expresi´on: reemplazar Ω por Ω.
l´ım V ar
T →∞
√
h i ˆ Q−1 T βˆ = Q−1 l´ım T −1 X ′ ΩX T →∞
h i ˆ Como ahora sabemos que el c´alculo l´ımT →∞ T −1 X ′ ΩX tiene como mismo l´ımite
la expresi´on [T −1 X ′ ΩX] (que por cierto denominamos ζ), ya disponemos de un estimador consistente de la matriz de varianza-covarianza de los par´ametros: √ −1 −1 ′ −1 −1 ′ −1 ′ ˆ T X ΩX T X X = l´ım V ar l´ım T X X T βˆ T →∞
T →∞
donde,
uˆ21
0 ˆ = Ω . .. 0
0 .. . uˆ22 ... ... 0 . . . 0 uˆ2T 0
... ...
Ya con esto, podemos resumir todo en un peque˜no teorema: Teorema 15 Si en una regresi´on por M CO hay heteroscedasticidad de forma desconocida y si e´ sta satisface los supuestos: la matriz de explicativas, X, es no-estoc´astica,
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
242
l´ımT →∞ T1 X ′ X = Q (Matriz no singular). h i −1 −1 ′ −1 ′ −1 −1 ˆ T X Ω X [T −1 X ′ X] , es un estimador consistente Entonces,[T (X X) ] de la expresi´on: √ ˆ l´ım V ar( T β)
T →∞
donde,
uˆ21
0 ˆ = Ω . .. 0
0 .. . uˆ22 ... ... 0 . . . 0 uˆ2T 0
... ...
En la pr´actica, no necesitamos V ar suma facilidad:26
√
T βˆ sino V ar βˆ . Esto lo resolvemos con
√ −1 −1 ′ −1 1 1 T βˆ = V ar T −1 X ′ X T X ΩX T −1 X ′ X T T 1 −1 −1 V ar βˆ = · T (X ′ X) T −1 X ′ ΩX · T (X ′ X) T −1 −1 ˆ V ar β = (X ′ X) X ′ ΩX (X ′ X) As´ı es que la f´ormula que realmente utilizaremos en la pr´actica es: −1 −1 ˆ X ′ ΩX (X ′ X) V ˆar βˆ = (X ′ X)
Que no es otra cosa sino el estimador robusto de la matriz de Varianza-Covarianza de los par´ametros en presencia de Heteroscedasticidad (m´as conocido por sus siglas en ingl´es HCCM E, Heteroskedasticity Consistent Covarianza Matriz Estimator). Posteriormente, Newey y West desarrollaron un estimador de dicha matriz que de hecho es robusto en presencia tanto de heteroscedasticidad como de autocorrelaci´on. Si bien el principio es an´alogo al usado por White, el desarrollo es considerablemente m´as complejo, por lo que no lo expondremos aqu´ı. El nombre de la matriz de Newey West es HAC, tambi´en, debido a sus siglas en ingl´es. Baste con saber 26
La utilizaci´on de las “T” obedec´ıa a la necesidad de mostrar que la expresi´on converg´ıa.
6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS
243
que es posible utilizarlo f´acilmente, ya que est´a implementado en muchos paquetes de econometr´ıa. Lo importante, lo que hay que retener es lo siguiente: ˜ S I LAS P RUEBAS E STAD ´I STICAS S E NALAN LA P RESENCIA DE H ETEROS ´ , UNA S OLUCI ON ´ S ATISFACTORIA CEDASTICIDAD Y / O AUTOCORRELACI ON PUEDE SER EL EMPLEO DE LA M ATRIZ HCCM E O BIEN LA M ATRIZ HAC. ´ SUS VARIAN L OS E STIMADORES P UNTUALES NO CAMBIAN, S I NO S OLO ZAS E STIMADAS , P UESTO QUE N O E STAMOS C ORRIGIENDO N ADA : ´ S OLO LO E STAMOS T OMANDO EN C UENTA . AUNQUE YA N O T ENDREMOS ´ I NSESGADOS Y C ONSISTEN E STIMADORES E FICIENTES , E´ STOS S ´I S ER AN ´ A S ER V ALIDA ´ TES Y L A I NFERENCIA E STAD ´I STICA VOLVER A . R ECUERDE ´ ´ ´ TAMBI EN QUE TALES E STIMADORES DE VARIANZA S OLO S ON V ALIDOS EN M UESTRAS G RANDES .
244
´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION
Cap´ıtulo 7 Ejercicios (i) P REGUNTA # 1 Considere el siguiente modelo de regresi´on lineal multivariado: yt = β1+ β2 x2t + . . . + βk xkt + ut, para t = 1, 2, . . . , T . 1. Enumere los supuestos del m´etodo de M´ınimos Cuadrados Ordinarios. 2. Muestre que βˆ es un estimador insesgado de β. 3. Explique el problema de Multicolinealidad as´ı como sus consecuencias cuando e´ sta se presenta. 4. Sabiendo que todos los supuestos de MCO se cumplen en este caso, demuestre que las medias muestrales de todas las variables pasan por la recta de la regresi´on. ¯2? 5. ¿Qu´e toma en cuenta la R P REGUNTA # 2 ¿C´omo se descompone la R2 por variable explicativa? P REGUNTA # 3 245
´ CAPITULO 7. EJERCICIOS (I)
246
Se dispone de varias series: el ´Indice de actividad Industrial (y) y la tasa de desempleo (x). Se sabe adem´as que: y¯ = 64.5 V ar(Y ) = 0.7 x¯ = 7.4 V ar(X) = 1.6 T = 50 Covar(X, Y ) = −0.04 1. Estime el modelo yt = α + βxt + ut 2. Estudie la significancia estad´ıstica y el significado econ´omico de los par´ametros estimados. En espec´ıfico, comente las implicaciones econ´omicas de lo anterior. P REGUNTA # 4 Sea el modelo yt = α + βxγ + ut , d´onde se impone la restricci´on β = 5 al momento de estimar la regresi´on. ¿ Cu´al es la f´ormula que nos dar´ıa f´acilmente el valor del estimador de α? En caso de no haber restricci´on, ¿ cu´al ser´ıa esa f´ormula? P REGUNTA # 5 Responda a las siguientes preguntas: 1. ¿Qu´e es la R2 ? Especifique la f´ormula y explique para qu´e sirve. 2. Suponga que se estima la regresi´on yt = α+βxt +ut . Los resultados de dicha estimaci´on pueden apreciarse en la siguiente figura:
Usando la observaci´on A marcada dicha figura, complete el gr´afico explicitando la descomposici´on de la variabilidad de y vista en el an´alisis de varian¯2? za. ¿Qu´e toma en cuenta la R P REGUNTA # 6 Considere el siguiente modelo de regresi´on:yt = α + β(xt − x¯) + ut donde x¯ = 3 y y¯ = 7. ¿ Cu´anto vale el estimador de la ordenada en el origen, α ˆ? P REGUNTA # 7
247
Observacion A yt
y
xt
Figura 7.1: Diagrama de dispersi´on Sabiendo que la prueba de F y la R2 , en un modelo de regresi´on m´ultiple, se obtienen mediante las siguientes f´ormulas... F=
ESS RSS
R2 = 1 −
·
T −k k−1
RSS T SS
[donde RSS es la suma de residuales al cuadrado, ESS es la suma explicada de cuadrados y T SS suma total de cuadrados], ...obtenga la relaci´on que existe entre el estad´ıstico F y la R2 . P REGUNTA # 8 Se estima la regresi´on yt = α + β1 x1t + β2 x2t + β3 x3t + β4 x4t + ut y se obtienen los siguientes resultados:
yt =
4.02 +0.96x1t −0.48x2t +0.20x3t +8.97x4t +ut (2.03) (0.07) (0.03) (0.06) (5.45)
Adem´as, se sabe que (i) RSS = 427.54, y (ii) T = 150. Las cifras entre par´entesis corresponden a la desviaci´on est´andar el par´ametro que est´a arriba. 1. Calcule los estad´ısticos t de cada par´ametro. ¿Qu´e concluye usted con base en ellos?
´ CAPITULO 7. EJERCICIOS (I)
248
2. El perspicaz econometrista, al comparar su modelo con lo establecido en cierta teor´ıa econ´omica se da cuenta de lo siguiente: No deber´ıa haber constante. El par´ametro β1 deber´ıa ser igual a uno. El par´ametro β2 deber´ıa ser igual a 0.01 + 2β3 ¿C´omo probar´ıa usted lo anterior? 3. (Continuaci´on del inciso anterior) El mismo econometrista perspicaz corri´o la regresi´on tomando en cuenta las hip´otesis se˜naladas arriba. Al hacerlo, retuvo la RSS que ahora es de 445.12. a) ¿ Qu´e nombre se le da a la regresi´on que corri´o? b) Sabiendo que el valor cr´ıtico pertinente es V.C. ≈ 2.68, diga si se acepta o rechaza la hip´otesis nula (especifique tambi´en cu´al es dicha hip´otesis nula). c) Si desea hacer una prueba de hip´otesis conjunta basada en lo dicho en el segundo inciso, ¿qu´e prueba usar´ıa? Escriba las restricciones. P REGUNTA # 9 Considere el modelo de regresi´on lineal multivariado: yt = β1+ β2 x2t + . . . + βk xkt + ut donde t = 1, 2, . . . , T y ut simN (0, σ 2 ). 1. Exprese este modelo en forma matricial, indicando las dimensiones de cada matriz o vector. 2. Derive el estimador de MCO (con la notaci´on matricial) del vector de par´ametros β. 3. Muestre que βˆ es un estimador insesgado de β. P REGUNTA # 10
249 Una agencia de viajes sabe por experiencia que las ventas de paquetes VTP Acapulco es considerablemente alta durante el verano. En un intento por modelar las ventas de estos paquetes, el director de ventas de dicha agencia propone estimar el siguiente modelo. . . vt = β1+ β2 Pt + β3 P St + β4 Yt + β5 GPt + ut, . . . con datos trimestrales de cada variable de 1993 a 2005 en donde: (i) vt representa las las ventas del VTP Acapulco; (ii) Pt es el precio del VTP; (iii) P St es el precio de un VTP a Puerto Vallarta (bien sustituto); (iv) Yt es el ingreso personal disponible, y; (v) GPt es el gasto en publicidad de los VTP. 1. El director de ventas cree que s´olo el gasto en publicidad y el precio de los VTP a Acapulco explican las ventas. ¿C´omo confirmar´ıa esta hip´otesis? 2. ¿C´omo probar´ıa que el efecto precio total (es decir de ambos VTP) es igual a uno (versus la hip´otesis alternativa de que es distinto a uno)? 3. Explique como estimar´ıa el efecto estacional del per´ıodo vacacional sobre el nivel de ventas. 4. Si quisiera estimar el efecto sobre las ventas de cada estaci´on—trimestre¿ C´omo lo har´ıa? ¿Qu´e es lo que no hay que hacer para evitar el problema de multicolinealidad? P REGUNTA # 11 Suponga el siguiente modelo no lineal en la variable x : yt = α + βx2t + ut ¿Es factible utilizar el m´etodo de MCO? Justifique su respuesta. P REGUNTA # 12 ¿Qu´e garantiza que, al utilizar adecuadamente el m´etodo de MCO, obtengamos buenos estimadores? P REGUNTA # 13 La heteroscedasticidad y la autocorrelaci´on hacen que los estimadores de MCO sean sesgados e ineficientes ¿ Cierto, falso o incierto? justifique su respuesta.
250
´ CAPITULO 7. EJERCICIOS (I) P REGUNTA # 14
Explique detalladamente c´omo se corrige la heteroscedasticidad en el modelo de regresi´on yt = α + βxt + ut cuando sabemos que las varianzas de los errores var´ıan de forma proporcional a la variable explicativa. P REGUNTA # 15 Como bien saben, el PIB (Producto Interno Bruto) se construye con base en la identidad contable siguiente: P IBt = Ct + It + Gt + Xt − Mt En d´onde C es Consumo, I es Inversi´on, G es Gasto de Gobierno, X representa a las Exportaciones y M a las Importaciones. ¿Qu´e cree usted que pasar´ıa si trat´aramos de correr la siguiente regresi´on? P IBt = β0 + βˆ1 Ct + βˆ2 It + βˆ3 Gt + βˆ4 Xt + βˆ5 Mt + uˆt P REGUNTA # 16 Enumere y explique los supuestos del modelo de regresi´on multivariado. P REGUNTA # 17 1. ¿Qu´e es el estad´ıstico Durbin-Watson? Especifique la f´ormula, diga para qu´e sirve y que valores debe adoptar—aproximadamente—bajo la hip´otesis nula y bajo la hip´otesis alternativa. 2. ¿Cu´al es el objetivo de llevar a cabo una estimaci´on robusta de la matriz de Varianza-Covarianza de los residuales? P REGUNTA # 18 Un investigador tiene dos variables y no sabe si correr, yt = α + βxt + ut o bien xt = δ + λyt + vt
251 Antes de probar ambas especificaciones, el investigador tiene una epifan´ıa y declara: ”La relaci´on entre las dos pendientes estimadas es βˆ = 1δˆ ´´. Demuestre que s´olo en un caso espec´ıfico semejante especificaci´on es cierta.1 P REGUNTA # 19
1. ¿Usted qu´e entiende por econometr´ıa? 2. Al ver la notaci´on: iid N (0, σ 2 ) ¿Qu´e entiende usted? 3. ¿En qu´e consiste el m´etodo de M´axima Verosimilitud? 4. Defina una ecuaci´on lineal entre las variables y y x. 5. Dib´ujela (invente el valor de los par´ametros) 6. ¿Qu´e es el coeficiente de correlaci´on? 7. ¿Conoce usted la cr´ıtica de Lucas? 8. ¿Qu´e es un diagrama de dispersi´on? 9. Dos variables aleatorias, x y y son independientes. ¿Eso qu´e quiere decir que? P 10. Calcule 500 t=1 t P REGUNTA # 20
En el curso se explic´o la t´ecnica de MCO utilizando la especificaci´on siguiente: yt = α + βxt + ut Con base en ella, se minimiz´o la suma de residuales al cuadrado y se encontraron los ˆ En este ejercicio, se pide que lleve a cabo dicha minimizaci´on estimadores α ˆ y β. pero para otra especificaci´on: yt = α + βxt + δzt + yt En espec´ıfico, se le solicita lo siguiente: 1
Ayuda: βˆ =
cov(xt, yt ) var(xt ) ,
δˆ =
cov(xt, yt ) var(yt ) ,
rxy = √
Cov(xt, yt ) var(xt )var(yt )
´ CAPITULO 7. EJERCICIOS (I)
252
1. Encuentre las ecuaciones normales en este caso. 2. Sabiendo que todos los supuestos vistos en el curso tambi´en se cumplen para esta especificaci´on, demuestre que las medias muestrales de las variables y, x y z pasan por la recta de regresi´on. P REGUNTA # 21 Imagine una variable aleatoria y ∼ iidN (0, σ 2 ) as´ı como dos variables no estoc´asticas x y z. Calcule las siguientes esperanzas: E(xt ) E(yt ) E(yt xt ) P E[ TT =1 yt2 zt ]
P REGUNTA # 22
Al calcular en clase la esperanza de xt ut , ¿qu´e supuestos usamos para poder obtener el resultado? P REGUNTA # 23 Se sabe que la relaci´on entre xt y yt obedece a la siguiente especificaci´on: yt = α0 xβt exp[ut ] Esta relaci´on no es lineal. 1. ¿C´omo la transformar´ıa para que si lo fuera? 2. ¿C´omo se llama el modelo que obtuvo? 3. Demuestre que β es un estimador de la elasticidad de y con respecto a x. P REGUNTA # 24 ¿Qu´e establece el Teorema de Gauss-Markov?
253 P REGUNTA # 25 Un microeconomista angustiado y poco respetuoso de la teor´ıa econ´omica desea probar que el n´umero de accidentes automovil´ısticos del individuo i, (Ai ), depende del n´umero de horas que trabaja al d´ıa (Hi ), de la edad (Ei ) y del tipo de veh´ıculo que conduce. Al ver sus datos se da cuenta que e´ stos est´an clasificados u´ nicamente en tres categor´ıas; autom´ovil, pesera y motocicleta. Con base en esos datos corre la siguiente regresi´on: Ai = α + β1 Hi + β2 Ei + β3 P Ei + β4 AUi + β5 M Oi + ui D´onde M O, AU y P E son las variables dummy o indicatrices siguientes:
P Ei =
M Oi =
AUi =
1 si conduce pecera 0 en otro caso
1 si conduce motocicleta 0 en otro caso
1 si conduce autom´ovil 0 en otro caso
1. ¿Qu´e le dir´ıa usted a este joven y novato econometrista? 2. Un mis´ogino amigo suyo le afirma con mucha autoridad que el n´umero de accidentes var´ıa seg´un el sexo del conductor ¿C´omo incorporar´ıa usted esa idea en la regresi´on? P REGUNTA # 26 Suponga que es usted el director del Banco Central de la Rep´ublica Bananera. Cuenta usted con los siguientes datos hist´oricos relativos a la cantidad de dinero y al ingreso nacional (medidos en millones de Pesares Bananeros):
´ CAPITULO 7. EJERCICIOS (I)
254 A˜no 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Cantidad de dinero 4.0 5.0 6.4 7.2 6.6 8.0 8.4 9.2 9.6 10.0
Ingreso Nacional 5.0 5.5 6.0 7.0 7.2 7.7 8.4 9.0 9.7 10.0
1. Dibuje la nube puntos (o diagrama de dispersi´on). 2. Estime una especificaci´on de la demanda de dinero: mt = α + βyt + ut 3. Proporcione una interpretaci´on de la ordenada en el origen y de la pendiente de car´acter econ´omico. 4. El primer ministro vitalicio de la Rep´ublica bananera le informa que el objetivo de Ingreso Nacional para el 2005 (esto ocurri´o en el pasado) es de 14.0 Millones de pesares bananeros. ¿En qu´e nivel fijar´ıa usted el suministro de dinero (Dar explicaciones). 5. Su asesor le informa que hubo un problema con la captura de los datos que recibi´o y que hay que multiplicar por 10 los datos relativos a la cantidad de dinero. Explique te´oricamente que efecto tiene esto sobre el estimador de la pendiente. 6. Generalice el inciso anterior para cualquier modificaci´on de los valores: ytM = k1 yt xM = k2 yt t P REGUNTA # 27 Explique que es la estacionariedad.
255 P REGUNTA # 28 ¿En qu´e consiste la Falacia de la Regresi´on? P REGUNTA # 29 Una funci´on de producci´on Cobb-Douglas relaciona la producci´on,Q , a los factores de producci´on, capital, K, trabajo,L , materia prima, M as´ı como un t´ermino de error, u. Concretamente, la forma funcional es: Q = λK β1 Lβ2 M β3 [exp u] D´onde λ, β1 , β2 y β3 son par´ametros de producci´on. Suponga que tiene usted los datos de la producci´on as´ı como de los factores de producci´on en una muestra de empresas que, se sospecha, comparten la funci´on estipulada. ¿ C´omo utilizar´ıa usted el an´alisis de regresi´on para estimar tales par´ametros? P REGUNTA # 30 Si la matrix (X′, X), donde X es la matriz de variables explicativas de dimensiones T × K, no tiene rango completo, ¿ qu´e ocurre con los estimadores de MCO? P REGUNTA # 31 1. ¿ Es correcto estimar la siguiente especificaci´on? yt = β1+ β2 x2t + ... + β17 x17t + ut, donde t = 1, 2, . . . , 17 2. Al dibujar la nube de puntos correspondiente, se obtuvo lo siguiente:
Trace la l´ınea de regresi´on. P REGUNTA # 32 ¿Cu´al es la diferencia entre uˆt y ut ?
´ CAPITULO 7. EJERCICIOS (I)
256
yt
Tiempo
Figura 7.2: Variable yt P REGUNTA # 33 Imagine que tiene dos estimadores distintos, el de MCO, βˆM CO , y el de Juan Colorado, βˆJU AN . Pretende emplear uno de ello para estimar la especificaci´on siguiente: yt = α + βxt + ut Juan—Colorado—se˜nala que V ar(βˆM CO ) > V ar(βˆJU AN ). 1. Comente tal afirmaci´on. 2. Por otra parte, Pepe Lucas invent´o otro estimador para la misma especifica´ afirma que: ci´on:βˆP EP E . El E(βˆM CO ) 6= E(βˆP EP E ) ¿Qu´e opina usted al respecto? P REGUNTA # 34 Se pretende estimar la especificaci´on yt = α + βxt + ut mediante MCO. De hecho, se conocen los siguientes resultados: x¯ = −8 y¯ = −2.5
PT x2 = 2000 PTt=1 2t t=1 yt = 15000
PT
yt xt = 0.25 T = 15 t=1
257 ˆ 1. Calcule los estimadores α ˆ y β. 2. Calcule σ ˆ2. 3. Calcule la R2 . 4. Resulta que los datos que utilizamos son en realidad transformaciones logar´ıtmicas de dos variables: y es el logaritmo del n´umero de accidentes automovil´ısticos de un individuo en 10 a˜nos. x es el logaritmo del n´umero de litros de cerveza consumido por ese individuo en esos mismos 10 a˜nos. ¿C´omo interpretar´ıa en este caso al estimador de la pendiente? 5. Ahora resulta que se tiene informaci´on respecto al g´enero (sexo) de los automovilistas de la muestra. ¿C´omo averiguar´ıa usted si el g´enero del conductor tiene efectos sobre el n´umero de accidentes? P REGUNTA # 35 1. ¿ Qu´e medidas conoce de bondad del ajuste? 2. ¿ Qu´e efecto tiene sobre la bondad del ajuste el aumentar el n´umero de variables explicativas? P REGUNTA # 36 Suponga que dispone de una muestra de 20 observaciones correspondientes al modelo: yt = α + βxt + ut donde las u’s est´an normalmente distribuidas con esperanza cero y varianza constante y son iid. Adem´as, se sabe lo siguiente: P P (¯ y − y )(x − x ¯ ) = 106.4 y − yt )2 = 86.9 t t P P(¯ 2 yt = 21.9 P(xt − x¯) = 215.4 xt = 186.2
´ CAPITULO 7. EJERCICIOS (I)
258 1. Calcule los estimadores de α y β. 2. Calcule el estimador de σ 2 .
3. Calcule la varianza del estimador de la pendiente. P REGUNTA # 37 Indique cuales son los supuestos bajo los cuales funciona MCO y explique que quiere decir cada uno (m´aximo 3 renglones por supuesto; no se acepta m´as). P REGUNTA # 38 Suponga que W y R son dos variables independientes distribuidas ambas como normal est´andar, que G es una variable no estoc´astica, que F es una constante y que T = 20. Con base en lo anterior, calcule hasta donde sea posible las siguientes expresiones: E(W ) PN F · Wt Pt=1 N t=1 Gt · Wt
PN
t=1
F·
1 2
E(G) E(T · W · R)
PN
T E(F · W · G) E(F ) t=1
P REGUNTA # 39
Imagine que la verdadera relaci´on (es decir, el verdadero Proceso Generador de Datos) entre x y y es la siguiente: yt = βxt donde β = 7. El econometrista aplicado no est´a seguro como estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre las dos siguientes especificaciones: ˆ t + uˆt yt = βx xt = α ˆ yt + wˆt 1. Olvide por un momento las las especificaciones a estimar y explique: ¿c´omo es la nube de puntos de esta relaci´on?
259 2. Ahora s´ı, retome las especificaciones y responda. Si se estima la primera esˆ ¿Y el de la R2 ? pecificaci´on, ¿ cu´al es el valor de β? 3. Derive la f´ormula del estimador de βˆ 4. Derive la f´ormula del estimador de α ˆ ˆ 5. ¿Cu´al es la relaci´on entre α ˆ y β? P REGUNTA # 40 1. Describa, en 7 renglones m´aximo, en que consiste el M´etodo de M´axima Verosimilitud en el contexto de la regresi´on. 2. Misma pregunta para el M´etodo de Momentos. Adem´as, plantear el problema. P REGUNTA # 41 Imagine 15 vasos servidos al azar con Coca cola, Pepsi Cola y Big Cola. La bebida que se sirve en cada vaso depende de un procesador de n´umeros aleatorios que asigna a cada marca la misma probabilidad de ocurrencia. Con base en ello diga: 1. ¿Cu´al es la probabilidad de que una persona pruebe los 15 vasos y acierte a la marca en todos ellos? 2. ¿Cu´al es la filosof´ıa detr´as de este experimento? Es decir ¿Cu´al es la pregunta que se puede formular (y responder) con este tipo de experimento? P REGUNTA # 42 En el marco de la regresi´on, explique la diferencia entre Cov(xt , ut ) y Cov(xt , uˆt ). P REGUNTA # 43 1. En unos antiguos papiros egipcios se encontr´o la f´ormula de un estimador: β˘ =
P
(¯ y − yt )(xt − x¯) P + (xt − x¯)2
P (¯ y−y ) P 2t xt
¿Es este estimador insesgado (asuma que todos los supuestos se cumplen)?
´ CAPITULO 7. EJERCICIOS (I)
260
2. En una estela maya encontrada en Yucat´an se encontr´o un segundo estimador: β˜ =
P
(¯ y − yt )(xt − x¯) + P (xt − x¯)2
400 T
¿Es este estimador consistente (asuma que todos los supuestos se cumplen)? P REGUNTA # 44 Suponga que tiene observaciones de dos variables, xt y yt . Con base en ellos usted elabora tres estimaciones: El coeficiente de correlaci´on entre xt y yt , ρx,y . La regresi´on: yt = α + βxt + ut . La regresi´on: xt = θ + γyt + et . Pruebe que: β · γ = (ρx,y )2 P REGUNTA # 45 Transforme las siguientes funciones de tal suerte que e´ stas sean lineales. x α · eα+βx α · eα+βx y = 1 + eα+βx
y =
P REGUNTA # 46 Imagine que la verdadera relaci´on (es decir, el verdadero Proceso Generador de Datos) entre x y y es la siguiente: yt = α + βxt ¯ = 0. El econometrista aplicado no est´a seguro como donde α = 4, β = 7 y X estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre las dos siguientes especificaciones:
261 ˆ t + uˆt yt = α ˆ + βx xt = δˆ + φyt + wˆt 1. Olv´ıdese de las especificaciones a estimar. ¿ C´omo es la nube de puntos de esta relaci´on? 2. Calcule el valor de los estimadores de α ˆ y βˆ 3. Calcule el valor de los estimadores de δˆ y φˆ ˆ δˆ y φ? ˆ 4. ¿Cu´al es la relaci´on entre α ˆ , β, P REGUNTA # 47 Suponga la siguiente especificaci´on: yt = α + βxt + δzt + ut y obtenga el estimador de δ usando la notaci´on escalar; dicha f´ormula deber´a ser expresada en t´erminos de varianzas y covarianzas. P REGUNTA # 48 Suponga la siguiente variable:
zT =
0 con probabilidad (T − 1)/T T 2 con probabilidad 1/T
1. Calcule E(ZT ), 2. Calcule l´ımT →∞ E(ZT ). P REGUNTA # 48 Suponga el modelo de regresi´on siguiente: Y = Xβ + U. Donde la variable dependiente es la demanda por dinero (agregado monetario real M 1) y las variables explicativas son, Ingreso real, It , y Tasa de inter´es real, rt , todas en logaritmos. El tama˜no de la muestra es T . Suponga adem´as que las K variables explicativas (menos la correspondiente a la constante) son aleatorias pero no son independientes al t´ermino de error, E(X ′ U ) 6= 0. En otras palabras, no se
´ CAPITULO 7. EJERCICIOS (I)
262
cumple el supuesto de ortogonalidad, pero s´ı todos los dem´as. Usted todav´ıa no sabe porque eso es grave, pero s´ı sabe que lo es. Por lo mismo, decide no estimar este modelo. Afortunadamente llega un colega y le dice que dispone de dos variables sumamente interesantes (tambi´en en logaritmos): (i) “Ingreso disponible ecol´ogico y reciclable”, Itbis , y, (ii) “Costo de intermediaci´on financiero sin enga˜nos”, rtbis . Ambas variables tambi´en tienen T observaciones as´ı como unas propiedades en extremo convenientes: 1. Itbis est´a muy relacionado con It , 2. rtbis est´a muy relacionado con rt , 3. Ninguna de las dos variables tiene relaci´on alguna con el t´ermino de error de su especificaci´on, U . Su colega le sugiere que estime una especificaci´on distinta; construye primero una nueva matriz de variables, Z = (1 Itbis rtbis ) (donde la primera columna “de puros unos”; note que Z tiene las mismas dimensiones que la matriz de explicativas original) y le propone estimar Y = Zβ + U . Le demuestra adem´as que: 1. plim T1 (Z ′ U ) = 0, 2. plim T1 (Z ′ X) = Ω. Donde Ω existe y no es singular. Usted rechaza la sugerencia (y hace bien) argumentando que esa no es la especificaci´on que se˜nala su libro de Demandas de Dinero; adem´as, se˜nala usted, el profesor penalizar´ıa mucho el cambiar las variables puesto que la interpretaci´on econ´omica ya no ser´ıa v´alida. De todas formas a usted se le antojar´ıa poder usar esa informaci´on en su proceso de estimaci´on, sin quitar las variables originales y por lo mismo, sin modificar la especificaci´on. ¿C´omo hacerle? Pues tiene usted una epifan´ıa y decide transformar las variables originales, premultiplicando la nueva matriz, Z de ambos lados de la especificaci´on original2 . Dicha transformaci´on modifica, no s´olo las variables, sino tambi´en el tama˜no de los vectores y las matrices. Ya transformadas las variables, estima la nueva regresi´on con la f´ormula de MCO de siempre y obtiene un estimador de β. 1. Haga expl´ıcita la transformaci´on de Y , X y U al premultiplicar por Z; tenga cuidado con las dimensiones. ˜ 2. A las variables Y y X tranformadas ll´ameles Y˜ y X. 2
¡¡¡Cuidado con las dimensiones!!!
263 ˜ + V . Para empe3. Podr´ıa estimar por MCO la regresi´on que resulta: Y˜ = Xβ ′ −1 ′ zar, ¿qu´e es V ? La f´ormula de MCO es (X X) X Y ; ¿C´omo queda dicha f´ormula con estas variables transformadas (no se conforme con ponerle tildes a las variables, por favor)? Recuerde que (AB)−1 = B −1 A−1 siempre y cuando A y B sean cuadradas e invertibles. A ese nueva f´ormula del estimador, ˜ ll´amele β. P
4. Demuestre que β˜ → β. Aplicar plim’s a matrices o vectores es igual que hacerlo a sumatorias. Simplemente aseg´urese que los c´alculos sean posibles (dimensiones). 5. Explique, en m´aximo, cuatro l´ıneas, como interpreta usted lo que acaba de hacer (es decir, premultiplicar por las nuevas variables la especificaci´on original y estimar por MCO la especificaci´on resultante). ¿Le ve usted alguna ventaja a este proceder? 6. ¿Se le ocurre a usted qu este proceder tenga alguna dificultad? 7. ¿Qu´e ventaja tiene usar variables en logaritmos?
264
´ CAPITULO 7. EJERCICIOS (I)
Parte II Econometr´ıa para segundones
265
267 ´ LTIMO QUE U NO S ABE ES P OR D ONDE E MPEZAR ’. B. PASCAL ‘L O U
‘D IOS NO J UEGA A LOS DADOS ’. A. E INSTEIN
´ ‘D IOS NO S OLO J UEGA A LOS DADOS : A V ECES LOS T IRA D ONDE NO SE P UEDEN V ER ’. S.W. H AWKING
268
Cap´ıtulo 8 S´ıntesis de conocimientos previos El m´etodo de M´ınimos Cuadrados Ordinarios permanece como el caballo de batalla en econometr´ıa y se emplea de manera rutinaria en el an´alisis de datos. Las bondades as´ı como el potencial de este m´etodo han debido quedar patente en la primera parte del curso , donde, asumiendo el cumplimiento de los supuestos, encontramos muchas propiedades deseables: no sesgo, consistencia, eficiencia. No obstante, siempre queda la duda si estos supuestos realmente se cumplen. Durante el desarrollo de los siguientes cap´ıtulos constataremos cuan grave puede ser la no satisfacci´on de alg´un supuesto; ya sea por variables mal medidas, por omisi´on de e´ stas o por problemas de causalidad mal modelada. A esta lista se le puede a˜nadir la no-linealidad, las observaciones aberrantes... Es muy importante no fiarse de una regresi´on que no haya sido revisada escrupulosamente: hay que aplicarle todas las pruebas habidas y por haber—en este caso, de especificaci´on. En resumen, hay que seguir el consejo de David Hendry: ¡P ROBAR , P ROBAR Y P ROBAR !1 De hecho acorde a este mismo autor, la elecci´on de un modelo econom´etrico para un an´alisis emp´ırico debe satisfacer los siguientes criterios. Ser aceptable con respecto a los datos, es decir que las predicciones hechas con base en el modelo debe ser aceptablemente buenas. Ser coherente con la teor´ıa: el valor y el signo de los par´ametros as´ı como las variables incluidas deben ser los correctos. 1
Consideradas por dicho autor como “las tres reglas de oro en econometr´ıa”.
269
270
´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS Tener regresores d´ebilmente ex´ogenos: variables explicativas y t´erminos de error deben ser ortogonales. Mostrar constancia param´etrica: estabilidad de los par´ametros. Exhibir coherencia en los datos: residuales asimilables a ruido-blanco (en caso contrario, probablemente estar´ıamos enfrentando un error de especificaci´on disfrazado de autocorrelaci´on, heteroscedasticidad,...) Ser inclusivo (encompassing en ingl´es): debe ser el mejor modelo posible, pero al mismo tiempo debe satisfacer el principio de PARSIMONIA.
Debemos tener muy claro que cualquier rompimiento de los supuestos constituye un error de especificaci´on. No obstante, no todos los errores de especificaci´on tienen las mismas consecuencias. A continuaci´on haremos una s´ıntesis de los tipos de errores posibles que, esperemos que as´ı sea, faciliten una visi´on m´as global de la cuesti´on as´ı como de buena parte de este curso. A´un no hemos lidiado con todos los problemas que mencionaremos en un instante. Por ende, algunos de ellos quiz´a lo sorprendan: ´ P ROBLEMAS POTENCIALES CON EL T ERMINO DE ERROR : 1. El t´ermino de error no se distribuye en realidad iidN (0, σ 2 ), sino m´as bien iid(0, σ 2 ). Cuando la normalidad no viene incorporada desde un principio a trav´es del t´ermino de error pero e´ ste a´un mantiene las propiedades de homoscedasticidad, esperanza nula e independencia, los estimadores de MCO siguen siendo MELI, s´olo que ahora la inferencia estad´ıstica s´olo es v´alida asint´oticamente. Vale la pena mencionar que existen pruebas para estudiar la normalidad de los residuales estimados. Una de las m´as socorridas es la P RUEBA DE N ORMALIDAD DE JARQUE -B ERA. 2. El t´ermino de error (i) no es homosced´astico, o; (ii) est´a serialmente correlacionado (no es independiente). Al romperse los supuestos relativos a la forma de la matriz de varianza-covarianza del t´ermino de error, los estimadores de MCO permanecen insesgados y consistentes, s´olo que ya no son los m´as eficientes; ya no son MELI. Si bien las consecuencias no resultan triviales, tampoco es cuesti´on de desechar de tajo el m´etodo. Vimos que existen muchas pruebas para estudiar si estos supuestos
271 se cumplen; vimos tambi´en que hay m´etodos formales para corregir estos problemas [M´ınimos Cuadrados Generalizados] as´ı como m´etodos que no los corrigen pero s´ı arreglan el c´alculo de la matriz de varianzacovarianza de los residuales de tal manera que vuelva a ser posible hacer inferencia sobre e´ stos. P ROBLEMAS POTENCIALES CON LAS VARIABLES EXPLICATIVAS: 1. Exclusi´on de variables relevantes. Cuando la especificaci´on ha omitido variables que s´ı deber´ıan aparecer, las consecuencias son graves. Nuestros estimadores se vuelven sesgados e inconsistentes. Existen estad´ısticos de prueba espec´ıficamente dise˜nados para estudiar esta cuesti´on. V´ease especialmente la prueba de Ramsey-RESET. 2. Inclusi´on de variables irrelevantes. Incluir variables no-venidas-al-caso no es tan grave; se pierde un poco en eficiencia, pero tanto la consistencia como la propiedad de no-sesgo siguen d´andose. tenemos en nuestra bater´ıa de pruebas una mir´ıada que permite evaluar si las variables que incluimos deben permanecer o no (estad´ısticos t individuales, pruebas ¯ 2 ,...) de hip´otesis conjuntas,F, R 3. Forma funcional incorrecta. Cuando la relaci´on entre las variables no es lineal, por ejemplo, es posible en algunos casos transformar las variables para forzarla a que s´ı lo sea; surgen naturalmente a la mente los modelos log-log, log-lin, lin-log, rec´ıproco, combinaci´on de e´ ste con los anteriores,... Aqu´ı nuevamente la prueba de Ramsey-RESET nos permitir´a distinguir si alguna de las formas funcionales que ensayemos es adecuada. Existen tambi´en pruebas para comparar especificaciones no anidadas (es decir, especificaciones entre las cuales no es posible transitar mediante una simple restricci´on param´etrica). En otras ocasiones tal transformaci´on no ser´a posible y tendremos que recurrir a otros m´etodos de estimaci´on como son M´ınimos Cuadrados No-Lineales o M´axima Verosimilitud. 4. La matriz de variables explicativas no tiene rango completo. Si hay 2 o´ m´as variables explicativas linealmente dependientes [Multicolinealidad], la matriz X ′ X no podr´a invertirse y el m´etodo de MCO simplemente no podr´a ejecutarse. Cuando la dependencia lineal no es perfecta (la multicolinealidad es un problema de grado) s´ı es posible invertir dicha matriz, aunque el determinante ser´a cercano a cero. Entre los s´ınto-
272
´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS mas de este problema suele estar el de obtener un buen ajuste (R2 alta) con estad´ısticos t no-significativos: inflaci´on de las varianzas de los par´ametros; tambi´en vimos pruebas para detectar este posible problema. Hay maneras muy obvias de resolverlo, entre las que destaca el quitar la variable explicativa que es linealmente dependiente de las otras; tambi´en hay forma de resumir en una sola variable la informaci´on de varias variables (componentes principales). 5. No ortogonalidad entre variables explicativas y t´ermino de error. Detallaremos algunas razones por las que puede ocurrir esto. Destacan los problemas de simultaneidad, pero tambi´en los errores de medici´on en las variables explicativas.2 La prueba de Hausman (que tambi´en estudiaremos) permite estudiar este posible problema siempre y cuando dispongamos de instrumentos v´alidos. De igual forma, otros m´etodos de estimaci´on (cuya efectividad depende de la misma condici´on que la prueba de Hausman) que hacen factible la correcci´on del problema. 6. No-estacionariedad de las variables (tanto explicativas como dependiente). La no-estacionariedad de las variables ocasiona casi siempre que la regresi´on sea espuria (es decir que los estad´ısticos habituales ya no ser´an v´alidos y no podremos saber si realmente tenemos evidencia de una relaci´on estad´ıstica o bien de,...pura basura). Solventar esta dificultad puede lograrse mediante pruebas de ra´ız unitaria a las variables (siendo la m´as famosa la de Dickey-Fuller) as´ı como de cointegraci´on y la estimaci´on de Modelos de Correcci´on de Error, mismos que ser´an vistos en el curso de Series de Tiempo. ´ P ROBLEMAS POTENCIALES CON LOS PAR AMETROS : Impl´ıcitamente hacemos el supuesto de que los par´ametros de nuestra especificaci´on se mantienen constantes a lo largo de toda la muestra. No obstante, esto puede resultar muy inadecuado en algunas ocasiones. No es una postura prudente suponer, por ejemplo, que la din´amica del comercio exterior de un pa´ıs como M´exico no ha sufrido cambios dr´asticos ante los distintos tratados internacionales que ha firmado el pa´ıs desde la d´ecada de los ochenta. Por lo mismo, tampoco suena cre´ıble asumir que la recaudaci´on de impuestos no se ve afectada por las distintas reformas fiscales (creaci´on de nuevos impuestos, cambio de las
2
Cabe destacar que veremos tambi´en que la inclusi´on de la variable dependiente rezagada en tanto explicativa puede generar problemas de eficiencia, sesgo e inconsistencia si existe simult´aneamente un problema de autocorrelaci´on. V´ease el cap´ıtulo de especificaciones din´amicas.
273 tasas impositivas, conversi´on de impuestos en subsidios,...). Afortunadamente, es posible estudiar la constancia de los par´ametros estimados a lo largo de la muestra disponible. La prueba m´as conocida es quiz´a la de Chow, aunque las que est´an basadas en estimaciones recursivas tambi´en son muy populares. A lo largo de los siguientes cap´ıtulos describimos una gran cantidad de problemas, m´etodos de detecci´on y de correcci´on (de e´ stos u´ ltimos no hay tantos). La intenci´on es formar al econometrista y dotarlo de las herramientas necesarias en su camino hacia la tan famosa especificaci´on adecuada. Es importante hacer notar que no es factible en este espacio formular un compendio de todo lo que hay en econometr´ıa. Se deber´a tener conciencia que, cuando se enfrente a un problema en particular, habr´a de investigar cual es la forma m´as pertinente de estudiarlo; en otras palabras, no deberemos circunscribirnos a lo aqu´ı expuesto.
274
´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS
Cap´ıtulo 9 Especificaci´on y Ortogonalidad En el primer curso de econometr´ıa se estudi´o el modelo de regresi´on lineal. En el proceso, obtuvimos las f´ormulas de los estimadores; tambi´en fue posible emplear diversas pruebas de hip´otesis para evaluar el ajuste del modelo as´ı como la satisfacci´on de algunos de los supuestos que sustentan la estimaci´on; adem´as, se revisaron algunas posibles dificultades inherentes al rompimiento de algunos supuestos b´asicos de MCO. En particular se vieron los efectos de: la multicolinealidad, la autocorrelaci´on y la heteroscedasticidad. En este primer cap´ıtulo de la segunda parte, persistiremos en la evaluaci´on del cumplimiento de los supuestos; de hecho, se estudiar´a dos de los m´as importantes: el supuesto de correcta especificaci´on y el de ortogonalidad. Dadas las consecuencias del rompimiento de estos supuestos, ser´a necesario emplear “nuevas formas” de estimar las relaciones de inter´es.
9.1.
Las variables independientes y la ortogonalidad
Poco se ha mencionado hasta ahora respecto a la importancia de una correcta especificaci´on; menos a´un se ha puesto hincapi´e en la dificultad intr´ınseca de obtenerla. En efecto, lograr una especificaci´on adecuada (presumir que es correcta ser´ıa quiz´a pecar de soberbia) no es trivial. Buena parte del e´ xito de un econometrista radica en su habilidad en la elaboraci´on de una especificaci´on. Tendremos, en una primera secci´on, una breve explicaci´on de dicha importancia. En esencia, al errar la tan mentada especificaci´on, los frutos de una estimaci´on son est´eriles, por no decir perjudiciales; la inferencia es incorrecta. Antes de empezar formalmente, modificaremos un supuesto hecho anteriormente cuya finalidad era simplificar los c´alculos as´ı como 275
276
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
las demostraciones. Se trata efectivamente de remover la caracter´ıstica determinista de las variables explicativas y asignarles a e´ stas propiedades probabilistas. Ello abre la puerta para entender el resto del cap´ıtulo. Como se˜nalamos anteriormente, en el curso pasado inclu´ıamos entre los supuestos b´asicos del modelo de MCO el siguiente: L AS VARIABLES INDEPENDIENTES , LAS X ’ S , SON DETERMINISTAS ¿Cu´al es la verdadera importancia de este supuesto? Pues en realidad e´ sta radica en su comodidad al momento de hacer la mayor parte de las demostraciones. El supuesto es simplificador y permite explorar “las tripas” del modelo de M´ınimos Cuadrados Ordinarios1 (MCO) sin que ello resulte excesivamente complicado; al ser la variable x no estoc´astica–y asumiendo que el t´ermino de error es normal con esperanza nula y varianza constante, Ut ∼ iidN (0, σ 2 ), tenemos: E (xt ut ) = xt E (ut ) = 0 El supuesto no s´olo es muy fuerte, sino adem´as peca de irrealista, o poco apegado a la situaci´on en ciencia econ´omica. Conviene trabajar con algo m´as apegado a lo que se podr´ıa obtener en la realidad y que hiciera m´as pertinente al modelo. Al “sustraerle” el componente estoc´astico a las variables explicativas, estamos declarando, de facto, que las controlamos. Esto es v´alido en el contexto de un laboratorio de biolog´ıa, o bien de qu´ımica. En esa disciplina, por ejemplo, pueden estudiarse los efectos de una mol´ecula o de un microorganismo (o de una c´elula) manteniendo todas las condiciones constantes excepto una, la temperatura por ejemplo. El laboratorista ir´ıa recabando datos conforme cambiara la temperatura (mediante una perilla). Eso, literalmente ser´ıa un experimento controlado y la variable de control evidente es la temperatura. Si quisi´eramos correr una regresi´on con esos datos, ser´ıa perfectamente aceptable considerar a la variable explicativa (o de control) como dada. El objetivo de este ejemplo es dejar claramente establecido porque las regresiones econom´etricas, en su mayor´ıa, no disponen de variables explicativas deterministas. En una especificaci´on de demanda de dinero, el econometrista no controla el ingreso de la gente; simplemente lo mide (de hecho, eso lo hace el INEGI). Por eso dejaremos de lado este supuesto. Ahora bien, asumir que las variables explicativas tienen 1
Recuerde que el modelo a estimar es: yt = α + βxt + ut . Los detalles los puede encontrar en la prima parte del curso.
9.1. LAS VARIABLES INDEPENDIENTES Y LA ORTOGONALIDAD
277
propiedades probabil´ısticas, si bien complica un poco las cosas, permite de todas formas recuperar el grueso de las propiedades de MCO que conocen. No obstante, no es posible asumir cualquier cosa para la variable explicativa. Tendremos que imponer un nuevo supuesto, m´as laxo, que reemplace al que estamos levantando. Dicho supuesto es, de hecho, muy intuitivo: E (X ′ U ) = 0 En otras palabras, las variables explicativas, si bien son estoc´asticas, son tambi´en ortogonales al t´ermino de error. No existe relaci´on (en este caso lineal, al menos) entre las variables explicativas y el t´ermino de error. Consideremos brevemente las consecuencias de este nuevo supuesto. Para ello, conviene recordar dos supuestos hechos en el curso anterior: ´ : 1. S UPUESTO DE C ORRECTA E SPECIFICACI ON Y = X ′β + U 2. S UPUESTO DE N ORMALIDAD : ut ∼ iidN 0, σ 2
El t´ermino de error es independiente e id´enticamente distribuido de forma Normal centrada en cero y con varianza constante.2 Ahora bien, matricialmente, el modelo de MCO, |{z} Y = |{z} X β + |{z} U arroja la |{z} T ×1
T ×K K×1
T ×1
siguiente f´ormula para obtener los estimadores:
βb = (X ′ X)−1 X ′ Y
Si desarrollamos, reemplazando la variable Y por la especificaci´on (nuestro primer supuesto), obtenemos:
2
−1 βb = (X ′ X) X ′ (Xβ + U ) = β + (X ′ X)−1 X ′ U
(9.1)
Vale la pena destacar que este supuesto abarca de facto los de homoscedasticidad y de noautocorrelaci´on.
278
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
Como ya se˜nalamos, el nuevo supuesto se escribe: E(X ′ U ) = 0. Aplicando el operador esperanza a la expresi´on anterior, dicho supuesto se activa y nos permite nuevamente encontrar que, a´un siendo estoc´asticas la matriz de variables explicativas X, el estimador es insesgado: b =β E(β)
De forma similar es posible obtener nuevamente casi todas las propiedades de MCO que se presentaron en la primera parte del curso. Pero hay excepciones; el Teorema de Gauss-Markov3 queda un poco debilitado, por ejemplo, pues requiere, para obtenerlo, sacar esperanzas condicionadas en X. Esto u´ ltimo permite obtener los mismos resultados que con variables explicativas deterministas, pero deja expl´ıcito que, para sacar esperanzas incondicionales como antes, tendr´ıamos que multiplicar por la densidad de X y luego integrar sobre X.4 Ahora procedemos a dar tres ejemplos cl´asicos, derivados esta vez mediante la esperanza condicionada en X: 1. Normalidad del estimador: b β/X ∼ N β, σ 2 (X ′ X)−1
2. Comportamiento de las sumas cuadr´aticas:
SRC ∼ σ 2 χ2 (T − K) 3. Prueba de hip´otesis mediante normalizaci´on del estimador: βbi − βi p ∼ N (0, 1) σ 2 (X ′ X)−1 ii
Note que de los tres resultados presentados, s´olo la distribuci´on del primer c´alculo, concerniente a los estimadores, conserva una referencia a las variables independientes–en la varianza. En ese caso, al sacar la esperanza incondicional de dichos estimadores tomando en cuenta la distribuci´on de las X, la distribuci´on de e´ stos podr´ıa ya no ser normal. No obstante, los otros dos resultados son independientes 3
¿Recuerda qu´e dice este teorema? Esto u´ ltimo simplemente quiere decir que, una vez obtenida la esperanza condicionada en X, es necesario tomar en cuenta tambi´en la distribuci´on de esta u´ ltima; ello podr´ıa modificar la esperanza, dependiendo de cual es dicha distribuci´on. 4
9.2. EL SUPUESTO DE ORTOGONALIDAD
279
de la distribuci´on de las X. No importa cual sea e´ sta, las distribuciones tanto de la suma de residuales al cuadrado como la de los estad´ısticos t seguir´an siendo χ2 y normal est´andar, respectivamente. Con objeto de recordar las operaciones tanto escalares como matriciales, conviene dar un ejemplo m´as sencillo con el que se llega a la misma conclusi´on. Supongamos la siguiente especificaci´on: yt = βxt + ut Al calcular el estimador de β usando MCO, obtenemos:
argminβˆ
X
P xy P t2t xt = βb
ub2t =
Teniendo ya el estimador de β, es f´acil obtener una f´ormula an´aloga la que aparece en la ecuaci´on (9.1): P x t ut βb = β + P 2 xt
Note como el segundo t´ermino, de no ser cero, implica un estimador sesgado del par´ametro. En la figura (9.1) se ilustran algunos casos en que, justamente ese t´ermino no desaparece. Es importante recordar que lo que se busca es ”la l´ınea que pase lo m´as cerca posible” de todos los puntos en el diagrama de dispersi´on.
9.2.
El supuesto de ortogonalidad
Ahora que le hemos asignado a las variables explicativas unas propiedades m´as realistas, es posible entender m´as a fondo el supuesto de ortogonalidad de e´ stas con respecto al t´ermino de error. En la f´ormula del estimador, si reemplazamos la variable dependiente por su especificaci´on, obtenemos:
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
280
Yt Relación Estimada Verdadera Relación
Xt
Figura 9.1: Sesgo en un estimador
P
xt (βxt + ut ) P 2 x P t x t ut = β+ P 2 xt
βb =
Esta f´ormula refleja la importancia de la relaci´on entre la variable explicativa y el t´ermino de error. Si el supuesto de independencia entre ambas se cumple, queda muy claro que el estimador es insesgado y consistente. Ahora bien, si existe una relaci´on entre explicativa y residual, entonces el estimador de la pendiente ser´a necesariamente sesgado y muy posiblemente inconsistente. Esto u´ ltimo depende de la naturaleza de la relaci´on. Si efectivamente, existe una relaci´on entre ambas, pero e´ sta va perdiendo importancia conforme crece el tama˜no de la muestra, el segundo t´ermino de la f´ormula desaparecer´a asint´oticamente. En este caso en particular, basta con estudiar la raz´on: si tanto numerador como denominador crecen conforme aumenta el tama˜no de la muestra pero, el numerador crece m´as lentamente que el denominador, dicha raz´on tender´a a cero. Tendremos entonces un estimador sesgado, pero consistente. ¿Puede dar otro ejemplo de un estimador as´ı (ver el cap´ıtulo que versa sobre el estimador de M´axima Verosimilitud)? Retomando nuestro problema de ortogonalidad, ¿qu´e pasar´ıa si existe una relaci´on positiva entre la explicativa y el t´ermino de error? Pues P observar´ıamos necesariamente una sobre-estimaci´on de la pendiente, ya que Pxxt u2 t > 0 y por ende, t b β = β + algo. Un ejemplo gr´afico de dicho sesgo aparece, de hecho, en la figura |{z} 6=0
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
281
(9.1) de la secci´on anterior. A todo esto podemos a˜nadir que la existencia de una relaci´on entre las variables explicativas y el t´ermino de error implicar´ıa tambi´en una estimaci´on sesgada e inconsistente de las desviaciones est´andar y de los residuales de la regresi´on. Las pruebas estad´ısticas tampoco funcionar´ıan. Ahora bien, estos sencillos desarrollos tan s´olo ilustran someramente el efecto obvio de una relaci´on entre explicativas y error. Lo importante radica en realidad en la fuente de esa relaci´on. ¿Qu´e provoca que haya relaci´on entre errores y explicativas? Esa es la cuesti´on fundamental; en el siguiente apartado estudiaremos algunas causas de esta “no-ortogonalidad”
9.3.
¿Qu´e causa problemas de ortogonalidad?
9.3.1. Errores de Medici´on en las Variables Hasta ahora siempre hemos considerado, impl´ıcitamente, que las variables no tienen errores de medici´on o que no hay equivocaciones al especificar el modelo. Pero la realidad es que estas dos eventualidades se cuentan entre los problemas m´as frecuentes a que se enfrentan los econometristas. El problema de los errores de medici´on en las variables tiene un transfondo de mucha mayor importancia en t´erminos epistemol´ogicos al grado que hasta prodr´ıa considerarse un cap´ıtulo entero a la cuesti´on. Seg´un Haavelmo (1944) uno de los precursores de la econometr´ıa moderna, las variables “verdaderas” y las muestrales rara vez coinciden. Por variables verdaderas ha de entenderse lo que el investigador aglutina mentalmente detr´as de una variable. En otras palabras, cuando uno se refiere a producci´on, piensa en la suma de todos los productos elaborados evaluados en su precio respectivo. Lo cierto es que, tan solo en una ciudad grande (digamos el Distrito Federal) existe una variedad de productos que supera los miles de millones. No resulta muy convincente la idea de que el c´alculo del INEGI los incluye todos, ni mucho menos. No obstante, cabe esperar que el ejercicio estad´ıstico del INEGI est´a muy bien dise˜nado y los errores de medici´on minimizados hasta lo humanamente posible. Eso no puede decirse de los registros contables que tambi´en se usan para generar series macroecon´omicas. Tales registros no tienen por objetivo surtir de datos a los econometristas y por lo mismo no se dise˜nan “cient´ıficamente” sino con criterios contables. En cualquier caso, eso tiene una consecuencia importante. Cuando uno prueba una teor´ıa econ´omica usando t´ecnicas econom´etricas y variables muestrales, en el caso en que se encuentre evidencia desfavorable a dicha teor´ıa, siempre se puede arg¨uir que el modelo respalda las relaciones entre variables verdaderas, pero no necesariamente entre variables
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
282
muestrales, que quiz´a est´en midiendo otra cosa.5 Un ejemplo elocuente de lo anterior radica en las cuestiones relativas al impacto de la investigaci´on y la tecnolog´ıa en la tasa de crecimiento de los pa´ıses. Muchos modelos econ´omicos apuntalan el argumento de que la investigaci´on incide positivamente en el crecimiento de una econom´ıa mediante los aumentos en productividad resultantes de la mejora de las t´ecnicas de producci´on. Si un investigador quisiera, ya no s´olo probar este argumento con datos, sino, todav´ıa m´as interesante, cuantificarlo (estimar num´ericamente el impacto de la investigaci´on en el nivel de producci´on), se encontrar´ıa con un dilema: ¿qu´e variable usar para determinar el nivel de actividad cient´ıfica del pa´ıs? ¿El n´umero de patentes aceptadas? ¿El n´umero de investigadores registrados? ¿La proporci´on del PIB destinada a investigaci´on y desarrollo? Observe la figura (9.2) (a)
(b) 18,000
# de Miembros SNI
350
# de patentes
300 250 200 150 100 1990 1992 1994 1996 1998 2000 2002 2004 2006
16,000 14,000 12,000 10,000 8,000 6,000 4,000 1990
año
1995
2000
2005
2010
año
(c)
(d)
3.5
0.5
% del PIB
% del PIB
0.4 3
2.5
0.3 0.2 0.1
2
1994
1996
1998
2000
año
2002
2004
2006
2008
0 1992 1994 1996 1998 2000 2002 2004 2006 2008
año
Figura 9.2: Indicadores de Actividad cient´ıfica. (a) N´umero de patentes aceptadas en M´exico. (b) N´umero de Miembros del Sistema Nacional de Investigadores (M´exico). (c) Gasto en investigaci´on como Proporci´on del PIB: la l´ınea naranja corresponde a Jap´on; la l´ınea azul corresponde a Alemania. (d) Gasto en investigaci´on como Proporci´on del PIB: M´exico.
Ninguno de estos indicadores es perfecto; cada uno constituye una buena/mala/regular aproximaci´on de la actividad cient´ıfica. El n´umero de investigadores registrados por 5
Se recomienda ampliamente leer la monograf´ıa de Haavelmo (1944); est´a disponible en internet.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
283
el Gobierno Mexicano (gr´afico b) es un mero registro administrativo que proyecta con poca precisi´on la producci´on cient´ıfica o la calidad de la investigaci´on. El n´umero de patentes no necesariamente refleja los resultados de investigaci´on sino m´as bien estrategias empresariales para erigir barreras de entrada a la competencia (no necesariamente justificadas por innovaci´on). En todo caso, hay conceptos de variables tales como Educaci´on e Inteligencia que simple y sencillamente no tienen correspondencia num´erica espec´ıfica. Como en el ejemplo de la investigaci´on, tales conceptos se pueden aproximar mediante, por ejemplo, a˜nos de escolaridad y resultados de pruebas de inteligencia. Estas u´ ltimas son variables P ROXY; sustituyen en la especificaci´on a variables no observables. Es importante no confundir estas u´ ltimas con las variables instrumentales o instrumentos. Mientras que las variables proxy se emplean directamente en la especificaci´on, las variables instrumentales aportan m´as informaci´on al ejercicio de estimaci´on sin aparecer nunca en la especificaci´on. En lo que concierne nuestro problema de ortogonalidad, nos limitaremos a estudiar los efectos de sencillos errores de medici´on tanto en la variable explicada como en la explicativa. Variable dependiente medida con error Empezaremos con el proceso que realmente genera los datos, o bien, la especificaci´on correcta. Esta es la manera en la que la naturaleza construy´o los datos. Asuma pues que la verdadera especificaci´on es:6
yt = βxt + ǫt
(9.2)
Esta u´ ltima es la que el investigador cree que est´a estimando. No obstante, s´olo dispone de una variable dependiente medida con un cierto error, digamos:
yt∗ = yt + ut Con objeto de simplificar la demostraci´on, estableceremos algunos supuestos (destaca que e´ stos se podr´ıan omitir o suavizar en gran medida sin que cambiara la 6
Cabe se˜nalar que le damos continuidad a la especificaci´on de la secci´on anterior al no incluir constante. Considere que las variables est´an centradas.
284
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
conclusi´on. A cambio de eso, la demostraci´on ser´ıa—innecesariamente—m´as larga y, sobre todo, m´as confusa):7 1. zt ∼ iidN (0, σz2 ) para z = ǫ, u, x, 2. Cov(ut , xt ) = 0, 3. Cov(ut , ǫt ) = 0, 4. Cov(xt , ǫt ) = 0. As´ı, el investigador, cuando estima la regresi´on, no est´a corriendo el modelo que cree estar corriendo. Partiendo de la especificaci´on original, podemos averiguar que es lo que realmente se est´a estimando:
yt = βxt + ǫt yt + ut = βxt + ǫt + ut yt∗ = βxt + (ǫt + ut ) | {z } d
=vt
Como de hecho es f´acilmente previsible, los efectos de utilizar una variable dependiente mal medida no son especialmente dram´aticos. No obstante, vale la pena conocerlos: 1. El estimador de β sigue siendo insesgado y consistente. 2. La varianza de ǫt + ut , el nuevo t´ermino de error, se incrementa, por lo que la eficiencia de nuestros estimadores queda reducida.8 Reiteramos que la mala medici´on en la variable dependiente no tiene efectos demasiado perversos al correr una regresi´on como la especificada en la ecuaci´on (9.2). La f´ormula del estimador es, de hecho: 7
Los supuestos 2,3 y 4 son un poco redundantes, puestos que los procesos son iid, pero vale la pena recalcarlos. 8 No se dio una demostraci´on de lo anterior. No obstante, la cuesti´on es obvia. Explique la raz´on de semejante afirmaci´on.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
285
P xt y ∗ βb = P 2t x P t xt (yt + ut ) P 2 = xt P xt (βxt + ǫt + ut ) P 2 = xt
Al calcular el valor esperado del estimador, obtenemos lo siguiente: =0∗ =0∗ z z }| { }| { P P 2 P x t ǫt x t ut xt ˆ E β = E β P 2 + P 2 + P 2 xt xt xt
= β
*.- Note que es posible “desprender” los ruidos ǫt y ut de las variables xt gracias a los supuestos antes se˜nalados. Note tambi´en que los u´ ltimos dos t´erminos no son otra sino covarianzas entre procesos independientes. Dado que la esperanza de los ruidos es cero, ambas razones tienen esperanza nula; por ejemplo, P X xt x t ǫt E P 2 = E P 2 E(ǫt ) xt xt | {z }
(9.3)
=0
Ahora calculemos la varianza de dicho estimador, sabiendo que: V ar(ǫt ) < V ar(ǫt + ut ) = V ar(vt ) = σv2 = V ar(ǫt ) + V ar(ut ) | {z } | {z } >0
>0
Ya podemos atacar la varianza de nuestro nuevo estimador:
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
286
P
xt (βxt + ǫt + ut ) P 2 xt P P x t ǫt x t ut = β+ P 2 + P 2 xt xt P P ( x t ǫ t + x t ut ) P 2 βb − β = xt βb =
ˆ S´olo resta construir la f´ormula de la varianza de β: P P 2 ( x t ǫ t + x t ut ) 2 b P β−β = ( x2t )2 P ( xt v t ) 2 P = ( x2t )2 2 2 (x v + x v + . . . + x v ) 1 1 2 2 T T P E βb − β = E ( x2t )2 2 2 x1 v1 + x22 v22 + . . . + x2T vT2 + 2x1 x2 v1 v2 + . . . P = E ( x2t )2
Dado que los componentes de vt son ortogonales a xt , podemos separar las esperanzas: P 2 2 x 2 b E β−β = σv E P 2t 2 ( xt ) 1 2 = σv E P 2 xt
Ya no desarrollaremos m´as el t´ermino cuya esperanza a´un hay que calcular ( P1x2 ), t puesto que no se necesita para efectoshde esta i demostraci´on. No obstante, vale la pena mencionar a este respecto que: E P1x2 no es necesariamente igual a E[P1 x2 ] . t
t
Ello se sabe gracias a la desigualdad de Jensen:9 9
Esta discusi´on fue incluida gracias a que Lizet Adriana P´erez Cort´es encontr´o un error en una versi´on anterior del documento.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
287
Teorema 16 Desigualdad de Jensen: para toda variable aleatoria z y asumiendo que la funci´on g(z) es convexa, ocurre lo siguiente: E[g(z)] ≥ g[E(z)]
P 2 Puesto que en nuestro caso z = xt > 0, la funci´on es convexa y podemos aplicar la desigualdad. Retomemos ahora nuestro problema de varianza, que al final queda as´ı: 2 1 2 2 b E β−β = (σǫ + σ )E P 2 xt
Si la hcomparamos con la varianza que obtendr´ıamos de no haber error de medici´on, i 1 2 σǫ E P x2 , t Resulta obvio que la primera (con error de medici´on) es mayor a la segunda (sin dicho error), puesto que el numerador es mayor. Queda as´ı expuesto de forma muy evidente el aumento de la varianza del estimador al haber errores de medici´on en la variable dependiente. Ser´ıa extraordinario, al lidiar con errores de medici´on, que todo fuera tan sencillo como una p´erdida de eficiencia de los estimadores. Desgraciadamente, no es el caso. En la siguiente secci´on veremos que ocurre cuando el famoso error de medici´on est´a en la variable explicativa. Variable independiente medida con error Si el error de medici´on est´a en las variables explicativas, las consecuencias cobran gran importancia. Para entenderlo, suponga que la variable explicativa que nosotros observamos est´a medida con error: x∗t = xt + vt Suponga nuevamente que la especificaci´on correcta es: yt = βxt + ǫt Nuevamente, para hacer m´as sencillo el ejercicio, haremos unos supuestos, ligeramente m´as fuertes que los anteriores, pero en extremo parecidos: 1. zt ∼ iidN (0, σz2 ) para z = ǫ, v, x,
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
288 2. xt ⊥ ǫt ,10 3. xt ⊥ vt , 4. ǫt ⊥ vt , 5. plimT −1 6. plimT −1 7. plimT −1
P
P
P
P
x2t → σx2 ,11 P
vt2 → σv2 . P
ǫ2t → σǫ2 .
Al estimar la regresi´on, en realidad estar´ıamos corriendo: yt = βx∗t + error ¿Qu´e propiedades tiene ese error? Partiendo de la verdadera especificaci´on, podemos averiguarlo:
yt = βxt + ǫt + βvt − βvt = βx∗t + (ǫt − βvt ) El hecho es que, por m´as supuestos que hagamos sobre vt (media cero, varianza constante, normalidad, etc), subsistir´a un problema. Al correr la regresi´on, yt = βx∗t + (ǫt − βvt ), | {z } ζt
tendremos un rompimiento de supuesto; existir´a una relaci´on entre el t´ermino de error y la variable explicativa: P El s´ımbolo ⊥ indica que la suma de las dos variables es igual a cero: xt ǫt = 0. Es ortogonalidad de las variables en el sentido m´as exacto. 11 Note que los u´ ltimos dos supuestos se derivan de una aplicaci´on est´andar de la Ley D´ebil de Grandes N´umeros. Vea, por ejemplo Casella & Berger (1990, p.215) “Statistical Inference” para una excelente explicaci´on y demostraci´on. 10
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
Cov(x∗t , ζt ) = = = = = =
289
E {[x∗t − E(x∗t )] [ζt − E(ζt )]} E {[xt + vt − E(xt )] ζt } E (vt ζt ) E [vt (ǫt − βvt )] E [vt ǫt ] − βE vt2 −βσv2
Queda pues confirmado que existe una relaci´on entre ambas. Este rompimiento ya lo hab´ıamos estudiado al presentar el nuevo supuesto (secci´on anterior). As´ı pues, no se cumple la ortogonalidad entre explicativa y residuales. Retomando los resultados P xt ut b concernientes al estimador de la secci´on anterior, β = β + P x2 , es f´acil ver que t e´ ste que tenemos actualmente, tambi´en ser´a sesgado e inconsistente: 1. Sesgo: b = β + algo E(β) |{z} 6=0
Sabemos que ese “algo” es distinto a cero debido a que la covarianza que calculamos anteriormente es distinta a cero. La esperanza de ese “algo” no la podemos obtener puesto que no es factible separar, al interior del operador esperanza, el numerador del denominador. 2. Inconsistencia: partiendo nuevamente de la f´ormula del estimador:
βb =
=
= ˆ = plim(β)
P ∗ xy P t∗2t x P t (xt + vt )(βxt + ǫt ) P (x + v )2 P 2 tP t P P β x t + x t ǫt + β x t v t + ǫt v t P P P 2 xt + 2 xt vt + vt2 P P 1 P 2 P (β xt + xt ǫt + β xt vt + ǫt vt ) T P 2 P P 2 plim 1 ( x + 2 x v + vt ) t t t T
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
290
Para terminar este desarrollo, es importante recordar que no existe relaci´on entre la variable explicativa y los ruidos (ni tampoco entre ellos) y que hay ortogonalidad entre todas las variables involucradas. Ello nos permite sacar el plim del estimador y con ello saber a que converge cuando el tama˜no de muestra tiende a infinito:
b = plim(β)
2 βσX 2 σV2 + σX
Con esto queda claro el problema de inconsistencia que genera esta relaci´on entre variables explicativas y t´ermino de error.
Ejercicio 7 Siendo inconsistente y sesgado el estimador, no hace ya mucho sentido ver su eficiencia. No obstante, como ejercicio es interesante. Calcule el plim de la ˆ varianza del estimador β: plim(βˆ − β)2
ˆ (ii) Reemplace yt y x∗ ; El proceder es el de siempre. (i) Parta de la f´ormula de β; t (iii) Obtenga la expresi´on sin aplicar plims; (iv) Ya que la tenga, reste de ambos lados β; (v) Ahora s´ı, aplique el plim.
Errores de medici´on en ambas variables Presentamos este u´ ltimo caso sobre todo con la finalidad de familiarizarnos con la manipulaci´on de las expresiones. Despu´es de haber trabajado los errores de medici´on en la variable explicada y posteriormente en la explicativa, deber´ıa ser muy intuitivo lo que ocurre cuando se presentan estos errores de manera simult´anea. Asuma que la relaci´on entre xt y yt es la siguiente:12 yt = βxt donde: yt∗ = yt + ut 12
¿Nota usted algo extra˜no en esta expresi´on?
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
291
x∗t = xt + vt zt ∼ iidN (0, σz2 ) para z = u, v, x x t ⊥ v t , x t ⊥ ut , v t ⊥ ut . En caso de correr una regresi´on con estas variables mal medidas, ¿obtendr´ıamos un estimador consistente? Para poder contestar a esta pregunta, lo primero ser´ıa tener claro que regresi´on estar´ıamos corriendo. Para ello, partamos de la especificaci´on correcta: u −u | t {z }t
yt = βxt +
agregamos sin desbalancear
yt∗
= βxt + ut + βvt − βvt = βx∗t + (ut − βvt )
Nuestro t´ermino de error queda por fin definido. Ahora s´ı, ya nos podemos concentrar en la f´ormula del estimador: P ∗ ∗ xy P t∗2t x P t (xt + vt )(yt + ut ) P = (xt + vt )2 P (xt + vt )(βxt + ut ) P P = P 2 xt + 2 xt vt + vt2 P P P P β x2t + xt ut + β xt vt + vt ut P 2 P P = xt + 2 xt vt + vt2
βb =
Preparada as´ı la expresi´on, ya nada m´as resta obtener el l´ımite en probabilidad: ˆ = plim plim(β) = =
1 T
βσx2 σv2 + σx2 β σv2 σx2
+1
(β
P
P P P x2t + xt ut + β xt vt + vt ut ) P P P 1 ( x2t + 2 xt vt + vt2 ) T
292
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
Tal y como hab´ıamos previsto, el estimador es inconsistente tambi´en. Con esto damos por terminada la secci´on relativa a los errores de medici´on. Sus efectos, en resumen pueden ser muy graves al momento de realizar nuestra estimaci´on. Se desprende que el manejo de los datos resulta de gran importancia. Es importante conocer las fuentes de informaci´on y asegurarse, en la medida de lo posible, de que la metodolog´ıa empleada por dichas fuentes sea confiable. Con el advenimiento de la inform´atica y la expansi´on de las pr´acticas de muestreo, es posible considerar que este problema se puede controlar mejor que antes. No obstante, no hay que olvidar que muchas bases de datos empleadas en econom´ıa se forjan mediante la recopilaci´on de registros contables cuya elaboraci´on no toma en cuenta ninguna precauci´on de corte cient´ıfico.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
293
Ejercicio 8 Suponga la siguiente relaci´on entre dos variables: yt = α + βxt + ut Donde existen versiones ambas variables con errores de medici´on: yt ∗ = yt + v t xt ∗ = xt + w t Suponga que los siguientes supuestos se cumplen:13 α = 4 β = 7 ut ∼ iidN (0, 2) ut ⊥vt ut ⊥wt vt ∼ iidN (0, 1) vt ⊥wt T = 500 wt ∼ iidN (0, 3) xt ∼ iidN (0, 2) P REGUNTAS : 1. Simule en matlab las cuatro variables, xt , xt ∗, yt y yt ∗. 2. Genera la verdadera l´ınea de regresi´on. 3. Estime las siguientes especificaciones: yt = α1 + β1 xt + u1t yt ∗ = α2 + β2 xt + u2t yt = α3 + β3 xt ∗ +u3t yt ∗ = α4 + β4 xt ∗ +u4t 4. Recupere el estimador βi para i = 1, 2, 3, 4. 13
Note que, si los ruidos son iid no hace falta decir que son independientes los unos de los otros.
294
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
5. repita los pasos anteriores 500 veces [N´umero de replicaciones: R = 500] y obtenga un histograma de cada estimador, que colocar´a en una figura con cuatro gr´aficas. 6. Comente los resultados. Para escribir el c´odigo requerir´a los siguientes comandos: clear all; randn; regress; hist; suplot; plot .
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
295
9.3.2. Efectos de simultaneidad Los errores de medici´on en las variables, como seguramente ya ha considerado, quedan en buena medida fuera de nuestro a´ mbito de control. S´olo nos queda ser cuidadosos al construir nuestra base de datos y apostar por que los institutos de estad´ıstica hagan cada vez mejor su trabajo [apuesta no muy descabellada, dicho sea de paso]. En todo caso, representan una fuente potencial de inconsistencia de nuestros par´ametros estimados y es importante saberlo (el saberlo, de hecho, nos permite recurrir a acciones correctivas bastante eficaces). Ahora atacaremos otra forma en la que el supuesto de ortogonalidad se puede romper. Lo que a continuaci´on estudiaremos representa una de las aportaciones m´as relevantes de la econometr´ıa a la estad´ıstica (por lo general, el conocimiento sol´ıa transitar en el sentido opuesto). Las cuestiones relativas al problema de simultaneidad, si bien corresponden a una problem´atica muy concreta en econom´ıa, son susceptibles de ocurrir en otros ´ a´ mbitos. Durante muchos a˜nos, las E CUACIONES S IMULT ANEAS constituyeron la gema de la corona de la econometr´ıa. Retomemos nuestro problema de ortogonalidad en notaci´on matricial, es decir, en el marco de una especificaci´on denotada Y = Xβ + U . Nuestro estimador, como ya recordamos recientemente, es: βb = (X ′ X)−1 X ′ Y = β + (X ′ X)−1 X ′ U 1. Si lo que queremos es un estimador insesgado, entonces lo que necesitamos es: E(X ′ U ) = 0 2. No obstante, como se constatar´a m´as adelante, buscar esa propiedad en nuestros estimadores es pedir demasiado. Nos conformaremos con consistencia de los mismos y para ello, lo que se requiere, es: plimT →∞ (T −1 X ′ U ) = 0 En las secciones anteriores, vimos que un error de medici´on en las variables explicativas puede provocar que el estimador sea inconsistente. La simultaneidad tambi´en tiene ese efecto. Pero hasta ahora, no hemos definido en que consiste la tan famosa simultaneidad. Es un caso de figura fundamental en econom´ıa, como ya se mencion´o, mucho m´as relevante y trascendental; en econometr´ıa se traducir´a como un
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
296
rompimiento del supuesto de ortogonalidad. Si bien este tema ser´a tratado con detenimiento m´as adelante, baste por ahora presentarlo. Suponga el siguiente sistema de ecuaciones representativo de un mercado: Qdt = αPt + Ztd β + Utd Qst = γPt + Zts δ + Uts Donde Qdt y Qst son las cantidades del producto demandadas y ofrecidas, respectivamente, en el tiempo t; Pt es el precio de dicho bien (tambi´en en el tiempo t, claro est´a) y Zti , donde i = d, s representa otras variables explicativas relativas a la demanda y a la oferta, respectivamente.14 A estas u´ ltimas tambi´en se les denomina ex´ogenas o predeterminadas.15 Si suponemos que estamos en un mercado competitivo, entonces el mercado se vac´ıa y: Qdt = Qst = Qt As´ı pues, el precio, Pt se debe determinar end´ogenamente en las dos ecuaciones. De hecho, Qt y Pt se definen simult´aneamente en este modelo. Las ecuaciones simult´aneas implican esencialmente que en cada relaci´on aparecen variables explicativas que son a su vez end´ogenas al sistema, es decir, que aparecen como explicadas en otra ecuaci´on del sistema. Asumamos el siguiente modelo, ya especificado con nuestra notaci´on habitual:
y t = b 0 + b 1 x t + ut x t = a0 + a1 y t + a2 z t + v t Donde se deben cumplir los siguientes supuestos:
E(ut ) = 0 E(ut uτ ) = 0 E(vt2 ) = σv2 E(ut vt ) = 0 14 15
E(u2t ) = σ 2 E(vt ) = 0 E(vt vτ ) = 0
precio de bienes sustitutos, complementos, costos de producci´on, etc. . . Estos apelativos quedar´an claros m´as adelante.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
297
donde t 6= τ . Note que el modelo est´a matem´aticamente completo; contiene dos ecuaciones, con dos variables end´ogenas, xt e yt (las otras variables, representadas por zt , se asumen como variables ex´ogenas o predeterminadas, lo que, en cierta forma, pretende implicar que las conocemos). Si bien esto puede parecer contradictorio en este momento, asumamos que la variable zt no tiene propiedades probabil´ısticas. Ahora sustituyamos yt en la segunda ecuaci´on: xt = a0 + a1 (b0 + b1 xt + ut ) + a2 zt + vt (1 − a1 b1 )xt = a0 + a1 b0 + a1 ut + a2 zt + vt a0 + a1 b 0 a2 a 1 ut + v t xt = + zt + 1 − a1 b 1 1 − a1 b 1 1 − a1 b 1 Reparametrizando...
xt = π 0 + π 1 z t + w t Si nosotros quisi´eramos estimar u´ nicamente la ecuaci´on en la que la variable xt es la dependiente, dudosamente estimar´ıamos la especificaci´on de arriba, que por cierto, ´ R EDUCIDA . No, estimar´ıamos una regresi´on de xt en se denomina E CUACI ON funci´on de yt y zt : xt = α + β1 zt + β2 yt + Errort Este ejercicio es muy diferente al id´oneo. El error de especificaci´on es, de hecho, evidente. Pero, ¿acaso eso rompe el supuesto de ortogonalidad? Tal y como est´a la especificaci´on de la relaci´on original, uno podr´ıa esperar que: Cov(xt , ut ) fuera cero. Desgraciadamente, e´ se no es el caso. Para entender como se rompe el supuesto de ortogonalidad, recordemos que la covarianza se resume a:
Cov(xt , ut ) = E[(xt − E(xt ))(ut − E(ut ))] = E[(xt − E(xt ))ut ] No obstante, sabemos por nuestros desarrollos anteriores que:
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
298
a0 + a1 b 0 1 − a1 b 1
xt − E(xt ) =
a 1 ut + v t 1 − a1 b 1
E(xt ) =
+
a2 1 − a1 b 1
zt
Por ende:
Entonces, la covarianza que tanto nos preocupa queda de la siguiente forma:
Cov(xt , ut ) = = = 6=
a 1 ut + v t ut E 1 − a1 b 1 1 E(a1 u2t + ut vt ) 1 − a1 b 1 a1 σ 2 1 − a1 b 1 0
Ya hemos probado en reiteradas ocasiones que si la covarianza entre explicativas y el t´ermino de error es distinta a cero, tendremos estimadores sesgados e inconsistentes (ver primera parte del curso). Este caso no ser´a la excepci´on: nuestros estimadores ser´an malos. En la figura (9.3) se muestra un ejemplo con un sistema an´alogo al que hemos venido desarrollando. Aparecen en dicha figura dos planos; uno, el plano que queda casi siempre abajo, corresponde al de la verdadera especificaci´on (xvt = a0 + a1 yt + a2 zt ) mientras que el otro, el que casi siempre est´a arriba, corresponde al de los valores ajustados usando los par´ametros estimados por MCO (ˆ xt = a ˆ0 +ˆ a1 yt +ˆ a2 zt ). Dicha figura ejemplifica bien el sesgo que hemos provocado al no tomar en cuenta la simultaneidad.
Desafortunadamente, muchos de los modelos que explican el funcionamiento de la econom´ıa suelen expresarse como sistemas interdependientes de ecuaciones, refle´ jo fiel de lo que estipula la teor´ıa econ´omica. Esta a su vez ha probado tener, en buena medida, raz´on. El problema que acabamos de estudiar es muy com´un al usar datos referentes a un mercado. Si bien, esto nuevamente puede parecer un problema
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
299
Figura 9.3: Sesgo de una estimaci´on por MCO bajo simultaneidad. infranqueable, lo cierto es que mucha agua ha pasado por debajo de los puentes desde que se identific´o. La soluci´on es de hecho, de gran elegancia y se convirti´o en el m´etodo favorito de los econometristas durante 30 a˜nos. Entre los autores a destacar en este desarrollo, se encuentran, Haavelmo,16 Koopman, Rubin y Leipnik.17 Hoy se sabe, de hecho, que es posible estimar correctamente un sistema de ecuaciones si el n´umero de restricciones impuestas a priori sobre e´ ste es suficiente. Para mejorar las propiedades de los estimadores, se han propuesto m´etodos tales como 2SLS, 3SLS, e IV . El u´ ltimo mencionado es paradigm´atico y lo estudiaremos dentro de muy poco; los dem´as los veremos posteriormente. Ejercicio 9 Suponga la siguiente relaci´on entre dos variables:
y t = b 0 + b 1 x t + b 2 w t + ut x t = a0 + a1 y t + a2 z t + v t Donde ocurre lo siguiente: 16
Famoso por sus esfuerzos por probabilizar la teor´ıa econom´etrica. El siguiente parteaguas de la teor´ıa econom´etrica fue la soluci´on al problema de la identificaci´on en Ecuaciones Simultaneas, realizada en buena medida por estos investigadores. 17
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
300
a0 = 2 b0 = 8 ut ∼ iidN (0, 4) a1 = 7 b1 = 5 vt ∼ iidN (0, 1) a2 = 4 b2 = 3 uwt , uzt ∼ iidN (0, 2) Adem´as, las ecuaciones que generan las variables ex´ogenas al sistema son:18
wt = 0.7wt−1 + uwt zt = uzt + 0.4uzt−1
P REGUNTAS : 1. Obtenga las ecuaciones en forma reducida (es decir, x y y en funci´on de variables ex´ogenas u´ nicamente). 2. Escriba un programa en matlab que las simule (las simulaciones deben estar basadas en las ecuaciones reducidas). 3. Estime por MCO la especificaci´on yt = α + βxt + γwt + uet 4. Grafique un diagrama de dispersi´on en tres dimensiones. 5. repita el experimento 500 veces (R = 500) y obtenga un histograma del estimador de β Para escribir el c´odigo requerir´a los siguientes comandos: clear all; randn; regress; hist; scatter3 as´ı como escribir ciclos: for i=1:K; [instrucciones]; end; 18
donde w0 = uz0 = 0.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
301
9.3.3. Variables relevantes omitidas Uno de los primeros supuestos que se imponen al estudiar econometr´ıa es el de correcta especificaci´on del modelo. No obstante, y pese a los avances en teor´ıa econ´omica, especificar modelos econom´etricos sigue siendo tarea ardua. Al llevar a cabo un ejercicio econom´etrico con objeto de aportar evidencia sobre el funcionamiento de un fen´omeno, se descubre que la tentaci´on de agregar y quitar variables es fort´ısima. ¿Qu´e pasar´ıa si se nos olvida alguna que es relevante? ¿Qu´e pasar´ıa si ponemos una de m´as? Omitir una variable que s´ı aparece en la verdadera especificaci´on es un error grave. Intuitivamente es posible imaginar que toda variable que no aparezca en la regresi´on pero s´ı en la especificaci´on, se mudar´a al residual; e´ ste dejar´a de ser un ruido blanco,19 pues contendr´a informaci´on relevante. Para estudiar este problema, desarrollaremos un caso. Asuma que el verdadero modelo es:20 yt = β2 x2t + β3 x3t + ǫt No obstante, suponga que un economista interesado en el tema u´ nicamente estima la siguiente—e incompleta—especificaci´on: yt = β2∗ x2t + ǫ∗t Sabiendo que la f´ormula para estimar β2∗ es: P x2t yt ∗ b β2 = P 2 , x2t
Sustituyendo en esta f´ormula la verdadera especificaci´on, obtenemos:
19
P
x2 (β2 x2t + β3 x3t + ǫt ) P 2 x2t P P P 2 β2 x2t + β3 x2t x3t + x2t ǫt P 2 = x2t P P x2t x3t x2t ǫt = β2 + β3 P 2 + P 2 x2t x2t
βˆ2∗ =
Por ruido blanco se entiende un ruido que no transmite informaci´on pero que adem´as tampoco es perjudicial; “no estorba”. 20 Todos los supuestos cl´asicos de MCO se cumplen en la especificaci´on correcta. Note como seguimos trabajando con variables centradas; por ello, sigue sin incluirse una constante.
302
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
Note que el tercer elemento del numerador, asumiendo independencia entre variables explicativas y el t´ermino de error, desaparecer´a si aplicamos el operador esperanza. Asumamos, por un momento ortogonalidad entre x2 y ǫ, x2t ⊥ ǫt . Ello permite reinterpretar la f´ormula de nuestro estimador de la siguiente manera:21 P −1 plim(T x x ) ∗ P 2t2 3t , plim(βˆ2 ) = β2 + β3 −1 x2t ) plim(T Como siempre, incluimos el normalizador T −1 con objeto de evitar que las sumas diverjan. Ello tiene adem´as la gran ventaja de explicitar las f´ormulas de covarianza y varianza (muestrales, eso s´ı): plim(βˆ2∗ ) = β2 + β3
d 2t , x3t ) Cov(x Vd ar(x2t )
Esta manipulaci´on, vale la pena recalcar, elimin´o el tercer t´ermino asumiendo ortogonalidad de la segunda variable con el error. En todo caso, deja claro el problema ´ potencial: EL ESTIMADOR NO SER A´ CONSISTENTE SI EXISTE UNA RELACI ON ENTRE VARIABLES EXPLICATIVAS . Si quisi´eramos estudiar el sesgo del estimador, nos topar´ıamos con el problema de no independencia entre numerador y denominador. Al aplicar el operador esperanza nos queda: P x2t x3t ∗ ˆ E(β2 ) = β2 + β3 E P 2 x2t La esperanza que sobrevive s´olo es igual a cero cuando x2 y x3 son independientes; en ese caso podr´ıamos separar la esperanza de la siguiente manera: X x2t ∗ ˆ E(β2 ) = β2 + β3 E P 2 E[x3t ] x2t
En ese caso resulta f´acil demostrar que E[x3t ] = 0.22 En primera instancia, cabe resaltar que nuestro estimador est´a sesgado, aunque dicho sesgo depende en realidad 21
Recuerde que las variables est´an centradas; ello, como ya se˜nalamos, obedece a razones pr´acticas para el desarrollo de esta prueba y es f´acilmente omitible. Tambi´en recuerde que, si en vez de ortogonalidad, tuvi´eramos E(x2t ǫt ) = 0, la expresi´on quedar´ıa plim(βˆ2∗ ) = β2 + P plim(T −1 P x2t x3t ) β3 plim(T −1 x2 ) + op (1), donde la notaci´on op (·), lo peque˜na “o” (little “o” en ingl´es) denota 2t un t´ermino que se colapsa (tiende a cero). 22 ¡Pru´ebelo! Recuerde que la variable est´a centrada.
9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?
303
de la existencia—y del signo—de una relaci´on lineal entre las variables x2t y x3t . Existe por ende una posibilidad de que no haya tal sesgo; tendremos un estimador insesgado y consistente si y s´olo si x2t es ortogonal a x3t .23 A sabiendas de lo anterior, se necesitar´ıa independencia entre las variables explicativas consideradas y las omitidas para poder confiar en que, a´un no incluyendo una variable relevante, nuestros estimadores resulten correctos. Como bien est´a se˜nalado en muchos libros b´asicos de econometr´ıa, tal condici´on resulta dif´ıcil de satisfacer en la pr´actica.
9.3.4. Inclusi´on de variables irrelevantes. La inclusi´on de variables irrelevantes es, de hecho, bastante menos grave que la omisi´on de aquellas que s´ı deben aparecer en la especificaci´on. Intuitivamente podemos pensar que una variable de m´as tendr´a una aportaci´on marginal (i.e. casi nula) en la explicaci´on de la varianza de la variable explicada. Adem´as, se podr´ıa pensar, sin demasiado riesgo, que la hip´otesis nula de no significancia del estad´ıstico t [por ejemplo] asociado a dicha variable ser´ıa aceptada y que por ende acabar´ıa excluida durante el proceso de afinamiento de la especificaci´on. Nuevamente, para ver lo anterior, asuma lo siguiente: Verdadero modelo: yt = β2 x2t + ǫt Modelo estimado: yt = β2∗ x2t + β3∗ x3t + ǫ∗t En realidad, poner variables de m´as no deriva en consecuencias demasiado dram´aticas. Como ya se dijo, los par´ametros asociados deber´ıan ser estad´ısticamente nulos, pero a´un al no eliminarlos de la especificaci´on, ver´ıamos que el estimador permanece insesgado. Ejercicio 10 Recordemos que la f´ormula del estimador en una regresi´on con dos variables explicativas—centradas—es la siguiente: P 2 P P P x3t (x2t yt ) − (x2t x3t ) (x3t yt ) ∗ ˆ β2 = P P 2 P 2 x2t x3t − [ (x2t x3t )]2 23
Este resultado se puede generalizar para K variables.
304
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
Demuestra que βˆ2∗ es un estimador insesgado de β2 . Asuma que el supuesto de ortogonalidad s´ı se cumple (E(ǫt xit ) = 0 para i = 2, 3). Para concluir esta secci´on, podemos se˜nalar que la inclusi´on de variables irrelevantes no tiene efectos muy perversos en nuestro procedimiento de estimaci´on. No obstante, la lecci´on relativa a la elaboraci´on de una buena especificaci´on s´ı es fundamental. Ahora que sabemos que omitir variables relevantes es mucho m´as grave que incluir otras que son irrelevantes, es f´acil deducir que resulta mucho m´as convenien´ CON UNA E SPECI te E MPEZAR S IEMPRE EL E JERCICIO DE M ODELACI ON ´ M UY I NCLUYENTE . Todo indica que es relativamente f´acil desechar FICACI ON variables cuya aportaci´on sea marginal (existen muchos instrumentos para evaluar ¯ 2 , . . .) y, por lo visto hasta ahora, las consecuencias de esto: los estad´ısticos t, la R incluirlas en un principio no son demasiado importantes. Esta manera de abordar la modelaci´on en econometr´ıa ha sido bautizada como: M ETODOLOG ´I A DE G ENERAL A E SPEC ´I FICO ´ Esta b´asicamente consiste, como ya se se˜nal´o, en iniciar con un modelo muy general, que incluya todo lo que pueda ser considerado a priori importante; si utiliz´aramos una jerga m´as t´ecnica, dir´ıamos que el inicio de la modelaci´on se lleva a cabo con un modelo y reducirlo paulatinamente con base en los resultados de una bater´ıa—muy—larga de pruebas estad´ısticas. Se trata de un enfoque inductivo por excelencia, en el que los datos, es decir la informaci´on contenida en ellos, tienen la u´ ltima palabra.24
9.4.
Detecci´on de algunos problemas de ortogonalidad
9.4.1. Pruebas de variables omitidas o redundantes Los problemas que hemos estudiado hasta ahora son, afortunadamente, detectables y/o corregibles en mayor o menor grado. El estudio de algunos de ellos exige el m´etodo de Variables Instrumentales, que a´un no hemos abordado. No obstante, s´ı disponemos del herramental necesario para evaluar otros m´as, entre los que destaca la cuesti´on de variables omitidas o redundantes. 24
Inducci´on, seg´un la Real Academia Espa˜nola, es: extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas est´a impl´ıcito.
´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 305 9.4. DETECCION Prueba de variables omitidas La prueba que a continuaci´on detallaremos permite explorar la posibilidad de que hayamos omitido una variable importante en nuestra especificaci´on. No es m´agica, no proporciona el nombre de la variable que se omiti´o; eso es tarea del econometrista. La prueba permite agregar un conjunto de variables a una regresi´on ya estimada y formular la siguiente pregunta: ¿E STAS N UEVAS VARIABLES C ONTRIBUYEN DE ´ DE LA VARIABILIDAD DE LA M ANERA S IGNIFICATIVA EN LA E XPLICACI ON VARIABLE D EPENDIENTE ? La prueba es an´aloga a la de la Granger-Causalidad, a saber: el nuevo conjunto de par´ametros asociados a las variables explicativas no es significativo de manera conjunta (la alternativa es que al menos uno de esos par´ametros s´ı lo es). Las regresiones relevantes podr´ıan ser las siguientes: yt = α + β1 xt + ut yt = α ˇ + βˇ1 xt + β2 wt + β3 zt + vt
(9.4) (9.5)
Donde la ecuaci´on (9.4) es la regresi´on restringida mientras que la ecuaci´on (9.5) es la no-restringida. El estad´ıstico de prueba puede ser una F, si se usa la f´ormula estudiada en la primera parte del curso y tambi´en m´as adelante, cuando se vea GrangerCausalidad [ver ecuaci´on (11.3)] o bien una χ2 si se usa una raz´on de verosimilitudes [log-likelihood ratio, en ingl´es]. Para calcular esta u´ ltima se debe en primera instancia, obtener la log verosimilitud maximizada de cada regresi´on.25 Denotaremos lR y lN R a las verosimilitudes de la regresi´on Restringida y No-Restringida, respectivamente, El estad´ıstico de prueba se obtiene de la siguiente manera: LR = −2 × (lR − lN R )
(9.6)
Bajo la hip´otesis nula, el estad´ıstico LR tiene una distribuci´on asint´otica χ2 con un n´umero de grados de libertad igual al n´umero de restricciones (es decir al n´umero de variables agregadas). Es importante siempre tener claro lo siguiente: 1. H0 : Ninguna de las variables omitidas es significativa, 25
Estas regresiones se pueden estimar por el m´etodo de m´axima verosimilitud. Mientras la especificaci´on sea lineal, los estimadores ser´an id´enticos a los de MCO; en el recuadro de la regresi´on del programa Gretl aparece dicha log-verosimilitud. V´ease el cap´ıtulo correspondiente en el primer curso de econometr´ıa.
306
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
2. Ha : Al menos una de las variables omitidas es significativa. Tambi´en es importante tener en cuenta los siguientes aspectos: 1. Esta prueba requiere que ambas regresiones dispongan del mismo tama˜no de base. Lo anterior es particularmente relevante cuando en el conjunto de variables cuya importancia se quiere evaluar se encuentran algunas de las originales, s´olo que rezagadas. La operaci´on de rezago implica la p´erdida de una observaci´on. 2. El estad´ıstico de prueba adecuado cuando la especificaci´on es lineal es la F (en cuyo caso se construye con base en las sumas de residuales de las regresiones restringida y no restringida); cuando la especificaci´on es no-lineal, conviene usar el estad´ıstico LR. Prueba de variables redundantes La prueba de variables redundantes se construye con la misma filosof´ıa que la anterior; con base en ella es posible probar la significancia estad´ıstica de un subconjunto de variables incluidas en la especificaci´on. En esencia, la prueba sirve para decidir si los par´ametros estimados de dicho subconjunto de variables son todos igual a cero y, por ende, pueden ser eliminados de la especificaci´on. Suponga por ejemplo que sospecha que el impacto de dos de las variables explicativas es, en conjunto, igual a cero.26 La metodolog´ıa es, en realidad id´entica a la de la prueba anterior (es decir que se corre una regresi´on restringida y otra no-restringida). Los estad´ısticos de prueba son los mismos que en el caso anterior [vea las ecuaciones (11.3) y (9.6)]. 1. H0 : Las variables son redundantes 2. Ha : Las variables no son redundantes Hay muchas m´as pruebas que conviene conocer al momento de llevar a cabo una estimaci´on econom´etrica. Veremos una m´as, la prueba RESET de Ramsey, y en el siguiente cap´ıtulo un tema fundamental, el m´etodo de estimaci´on por Variables Instrumentales. 26
Es decir que los efectos se cancelan entre ellos.
´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 307 9.4. DETECCION
9.4.2. Prueba de especificaci´on de Ramsey La validez de la especificaci´on es, vale la pena recalcarlo, muy dif´ıcil de probar.27 El hecho es que s´ı existen pruebas formales, y entre e´ stas destaca la Prueba RESET DE R AMSEY (REgression Specification Error Test).28 La detecci´on de un posible error de especificaci´on se hace con base en el an´alisis de los residuales. La intuici´on detr´as de esta prueba es sencilla: si una combinaci´on no-lineal de las variables independientes tiene poder explicativo en la variable dependiente, entonces se considerar´a que hay evidencia de que el modelo est´a mal especificado. Si bien el objetivo original de la prueba es detectar problemas de linealidad, lo cierto es que esta prueba se emplea en una vasta gama de problemas: F ORMA F UNCIONAL I NCORRECTA, las variables, ya sea la dependiente o alguna de las explicativas, requieren una transformaci´on (logar´ıtimica, de potencia, rec´ıproca,...) VARIABLES O MITIDAS, la matriz de explicativas no contiene todas las variables relevantes. N O O RTOGONALIDAD, causada por errores de medici´on en las explicativas, Simultaneidad, presencia de la variable dependiente rezagada en tanto explicativa,... H ETEROSCEDASTICIDAD, t´ermino de error con varianza no constante. Ramsey mostr´o que los rompimientos de supuestos arriba mencionados generan un vector de errores con media no-nula. Las hip´otesis en cuesti´on (en una especificaci´on Y = Xβ + U ) son por ende: 1. H0 : U ∼ N (0, σ 2 I) 2. Ha : U ∼ N (µ, σ 2 I), donde µ 6= 0. Resulta f´acil explicitar lo anterior con un ejemplo: 27
No obstante, tambi´en es importante se˜nalar que la presencia de autocorrelaci´on y/o heteroscedasticidad constituye un indicio revelador de que la especificaci´on es mejorable. 28 Ramsey, J.B. “Tests for Specification Errors in Classical Linear Least Squares Regression Analysis”, J. Royal Statist. Soc. B., 31:2, 350-371 (1969).
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
308
Ejemplo 17 El caso de una variable omitida. Suponga que la especificaci´on correcta es:
Y
= Xβ + Zγ + U,
(9.7)
d´onde U ∼ N (0, σ 2 I) y las dimensiones de X, Z, β, y γ son, T × K, T × 1, K × 1 y 1 × 1. Si se estima la regresi´on: Y
= Xδ + V.
(9.8)
Queda claro que, si hemos de respetar el verdadero modelo, V = γZ + U . Asumiendo regresores determin´ıstas,29 y recordando que los residuales de tal regresi´on se pueden representar usando nuestra famosa matriz idempotente Mx = I − X(X ′ X)−1 X ′ : Vˆ = Mx Y = Mx Zγ + Mx U.
(9.9)
Nos encontramos con que E(Vˆ ) = Mx Zγ Se obtiene la misma no nulidad del t´ermino de error al inducir formas funcionales err´oneas y simultaneidad. La realizaci´on de la prueba es f´acil y se ejemplifica a continuaci´on; suponga la siguiente especificaci´on cuya validez se desea probar: yt = α + βxt + ut En primera instancia, se sugiere graficar los residuales, uˆt , contra los ajustados, yˆt : si aparece un patr´on, conviene sospechar de la existencia de un problema en la especificaci´on.30 Adem´as, ello da pie a pensar que los valores ajustados yˆt podr´ıan proveer informaci´on importante. Por eso, si al incluir transformaciones de yˆt en tanto variables explicativas, la R2 se incrementa sustancialmente, se considera evidencia relativa a un error de especificaci´on. Las etapas de la prueba son las siguientes: 29 30
O bien, tomando esperanza condicionada en X y Z. La intuici´on de esto se provee m´as adelante.
´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 309 9.4. DETECCION 1. Estime el modelo original, yt = α+βxt +ut (La R2 de esta regresi´on tendr´a el sub´ındice V ) y construya los valores ajustados yˆt as´ı como los residuales estimados uˆV t , 2. Estime una segunda regresi´on, donde aparezcan los valores ajustados con distintas transformaciones (La R2 de esta regresi´on tendr´a el sub´ındice N ): yt = α1 + β1 xt + β2 yˆt2 + β3 yˆt3 + uN t 2 3. En ambas regresiones recupere la medida de bondad de ajuste, R2 : RN y RV2 , donde los sub´ındices N y V se refieren a la ecuaci´on donde aparecen los valores ajustados y a la regresi´on original, respectivamente.
4. Para construir el estad´ıstico de prueba, recurrimos una f´ormula conocida desde la primera parte de este manual: F=
2 (RN − RV2 ) /Kn 2 (1 − RN ) /(T − Kn )
donde Kn es el n´umero de regresores adicionales en la segunda regresi´on. S´olo resta comparar el estad´ıstico calculado con el valor cr´ıtico de la distribuci´on F al nivel de confianza deseado. Ramsey de hecho ofreci´o en su propuesta cuatro pruebas: 1. La prueba RESET, explicada anteriormente, 2. La prueba RASET, una prueba de correlaci´on de rango entre—combinaciones de—variables ajustadas y residuales al cuadrado, 3. La prueba KOMSET, un estad´ıstico de prueba de Kolmogorov que discrimina entre distribuciones F centradas y no centradas, 4. La prueba BAMSET, una prueba de heterogeneidad de la varianza. Huelga decir que la u´ nica prueba que soport´o los embates del tiempo, al menos en econometr´ıa, es la primera. La intuici´on de la prueba RESET no es tan obvia como podr´ıa parecer en un principio. Siguiendo el u´ ltimo ejemplo (de variable omitida) podemos esbozar hasta cierto grado tal intuici´on:
310
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
Comentario 3 Asumiendo que la especificaci´on correcta es la que aparece en la ecuaci´on (9.7), tenemos dos posibilidades, estimarla omitiendo una variable [es decir, estimando la eq. (9.8)] o bien estimar la especificaci´on correcta. Al usar la especificaci´on correcta, ya se ha probado que los estimadores son insesgados y consistentes, por lo que Uˆ = Y −(Yˆ ) resulta ser un vector donde ya no quede nada de informaci´on. Por lo mismo, la relaci´on entre residuales y (potencias de) variables ajustadas simplemente no deber´ıa existir. Si por el contrario, omitimos la variable, parece l´ogico que la resta Y − Y˜ (donde el tilde implica que se usaron los estimadores sesgados de la especificaci´on con variable omitida) no logre extraer toda la informaci´on: el residual estimado no queda liberado de toda la informaci´on u´ til. La informaci´on que queda en dicho residual est´a probablemente muy maltrecha, pues se obtuvo con estimadores sesgados e inconsistentes; es mala informaci´on, pero informaci´on al fin y al cabo. Por otra parte, los valores ajustados tambi´en son un p´esimo resultado, pero, al igual que con los residuales, contienen informaci´on de las variables explicativas, inclusive de aquellas que omitimos. Ambos vectores contienen informaci´on relevante (aunque distorcionada). Hacer un diagrama de dispersi´on entre ellas, con un poco de suerte, lograr´a manifestarla. Es importante recalcar que la prueba de Ramsey se usa sobre todo para cuestiones de especificaci´on incorrecta. La siguiente simulaci´on (resultados presentados en una gr´afica) explicar´a el porqu´e: Ejercicio 11 Simule en MatlabT M dos procesos (Y1 y Y2 ). 1. Y1 sigue la especificaci´on (9.7), 2. Y2 sigue la especificaci´on no lineal que aparece en la leyenda de la gr´afica (9.4). 3. En ambos casos, escoja usted los valores de los par´ametros de la especificaci´on, 4. La matriz X tiene dimensiones T × K, donde K = 2. Amabas variables se distribuyen normalmente (usted escoja esperanzas y varianzas). La variable omitida gen´erela de la siguiente manera: Z = ut × t, donde ut ∼ iidN (0, 2),
´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 311 9.4. DETECCION (a)
(b) 2 Residuales Estimados
Residuales Estimados
6000 4000 2000 0 −2000 −4000
−200
−100 0 Valores ajustados
100
1.5 1 0.5 0 −0.5 −1 −1.5
200
−2,000
0 2,000 Valores ajustados
4,000
6,000
(c)
Residuales Estimados
40 20 0 −20 −40 −60
−10
−5
0 Valores ajustados
5
10
15
Figura 9.4: Relaci´on entre residuales y valores ajustados. (a) Especificaci´ on estimada correcta; (b) Variable omitida (ver ejemplo); (c) Forma funcional incorrecta: yt = 4xβ1t1 x2t /β2 β3
5. Estime por MCO tres regresiones: a) Y1 = X δˆ + Vˆ1 , b) Y1 = [XZ] βˆ + Uˆ , c) Y2 = X γˆ + Vˆ2 . 6. Con cada regresi´on construya los residuales y los valores ajustados, 7. Contruya los tres diagramas de dispersi´on. ¿Nota usted alg´un patr´on? ¿En qu´e caso considera usted que ser´a m´as eficaz la prueba RESET?
9.4.3. Heteroscedastidad e incorrecta especificaci´on En alguna ocasi´on se ha mencionado que existe una cierta relaci´on entre el rompimiento de los supuestos de homoscedasticidad e independencia con problemas de especificaci´on. Lo anterior ha sido muy heur´ıstico, as´ı es que aprovecharemos este
312
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
espacio para darle un poco m´as de formalidad: es cierto, cuando una especificaci´on est´a mal, ello se puede traducir en heteroscedasticidad y autocorrelaci´on. En cierta forma, estos u´ ltimos dos fen´omenos pueden considerarse como parte de la sintomatolog´ıa de una especificaci´on incorrecta. Ello es particularmente cierto con la heteroscedasticidad. Suponga que la especificaci´on correcta es la siguiente: yt = α + β1 x1t + β2 x2t + ut Para hacer m´as elocuente la ejemplificaci´on, asumamos que el comportamiento de la variable x1t tiene un fuerte componente de autocorrelaci´on (podr´ıa ser un proceso AR(1), por ejemplo) mientras que la varianza de la variable x2t es muy heterog´enea. 1. Un primer econometrista decide estimar una especificaci´on incompleta pues omite x1t : yt = δ1 + γ1 x2t + v1t En este caso el componente autoregresivo no considerado (la variable omitida) se filtra al ruido estimado. 2. Un segundo econometrista decide estimar una especificaci´on incompleta pues omite x2t : yt = δ2 + γ2 x1t + v2t En este caso el componente heterosced´astico no considerado (la variable omitida) se filtra al ruido estimado. Llevamos a cabo tales estimaciones (con datos simulados) y recuperamos los residuales estimados de ambas regresiones. Note lo que obtuvimos en la figura (9.5).
Esto mismo lo podemos ver de forma heur´ıstica cuando nos equivocamos con el supuesto de linealidad. Suponga que la verdadera especificaci´on es: yt = α + βxt + wtγ + ut Queda claro que la especificaci´on no es lineal en γ. Si un tercer econometrista estima, yt = α + βxt + γwt + ut , equivoc´andose al asumir linealidad, se puede encontrar con que sus residuales estimados tienen un comportamiento similar al de la figura 9.6:
´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 313 9.4. DETECCION (a) 10 8 6 4 2 0 −2 −4 −6 −8 0
50
100
150
200
250
300
350
400
450
500
300
350
400
450
500
(b) 60 50 40 30 20 10 0
50
100
150
200
250
Figura 9.5: Efectos de una omisi´on de variable relevante en los residuales estimados: panel (a), el caso de la autocorrelaci´on [residuales]; panel (b), el caso heterosced´astico [residuales al cuadrado]. En ambas figuras el comportamiento de los residuales (la serie m´as volatil) se compara con el de las verdaderas innovaciones (las menos volatil).
Note como el error de especificaci´on parece generar observaciones aberrantes (Outliers en ingl´es). Resulta obvio que el componente no considerado se transmina al t´ermino de error. ¿Cu´al es la moraleja? Pues simplemente que cuando se detecta autocorrelaci´on y/o heteroscedasticidad es v´alido suponer que tenemos un error de especificaci´on. Es por lo anterior que, en la pr´actica, PRIMERO HAN DE E FECTUARSE LAS P RUE ´ LAS DE H ETEROSCEDAS ´ Y DESPU ES BAS DE C ORRECTA E SPECIFICACI ON ´ . TICIDAD Y AUTOCORRELACI ON
´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION
314
0
50
100
150
200
330
340
250
350
300
360
350
400
450
500
370
Figura 9.6: Efectos sobre los residuales estimados al asumir una linealidad que en realidad no se cumple.
Cap´ıtulo 10 Variables Instrumentales Hasta ahora, todo lo que sabemos hacer es estimar mediante el M´etodo de M´ınimos Cuadrados Ordinarios.1 Como hemos visto, MCO tiene muchas ventajas, entre las que destacan su c´omputo sencillo y el hecho de que, bajo ciertos supuestos los estimadores son MELI (Mejores Estimadores Lineales Insesgados). Pero la verdad es que el m´etodo tambi´en tiene desventajas. Una de las principales es la que hemos venido estudiando: no es f´acil lograr que el t´ermino de error sea ortogonal a las variables explicativas. Existen muchas fuentes potenciales que inhiben o, mejor dicho hacen que se viole este supuesto: errores de medici´on, omisi´on de variables importantes, simultaneidad,. . . Veremos, por consecuencia, un m´etodo que facilite el tr´ansito a una estimaci´on consistente (que de paso nos resuelva, al menos potencialmente, el problema de ortogonalidad). El uso de las Variables Instrumentales tiene su origen en estudios relacionados con la estimaci´on de curvas de oferta y demanda. Fue a trav´es del an´alisis de algunos economistas, tales como P.G. Wright, Henry Shultz, Elmer Working y Ragnar Frisch, que estaban interesados en estimar elasticidades de oferta y demanda, que nacieron las Variables Instrumentales (IV , por sus siglas en ingl´es). La justificaci´on del m´etodo es muy sencilla; se usan las IV para estimar relaciones estad´ısticas cuando no es factible realizar experimentos controlados. El t´ermino “Variables Instrumentales ” se le atribuye a Olav Reiersol (1945) aunque es posible que sea Ragnar Frisch quien lo acu˜nara. Su formulaci´on apareci´o por primera vez en el ap´endice de un libro de Philip G. Wright (1928).2 En los a˜nos 20, una 1
Sin olvidar, claro est´a, que tambi´en conocemos el M´etodo de Momentos as´ı como el de M´axima Verosimilitud. 2 De acuerdo a Stock y Watson (2003), el autor de dicho ap´endice es el hijo de Wright, cuyo nombre era Sewall, un estad´ıstico destacado.
315
´ CAPITULO 10. VARIABLES INSTRUMENTALES
316
fuente importante de ingresos del gobierno de los Estados Unidos estaba constituida por las tarifas que se cobraban a bienes importados. Wright deseaba encontrar la tarifa adecuada para aceites y grasas vegetales y animales que el pa´ıs compraba del exterior. El monto de las tarifas afecta la demanda por esos bienes, por lo que a Wright le quedaba claro que necesitaba estimar la elasticidad-precio de tales productos; contaba con una fant´astica base de datos de precios y cantidades anuales que corr´ıa desde 1912 hasta 1922 relativas al consumo de mantequilla. Ten´ıa la opci´on de correr una regresi´on por MCO entre Cantidad y Precio, ambas transformadas a logaritmos, y obtener un estimador de dicha elasticidad. Afortunadamente, tambi´en supo entender que las observaciones de que dispon´ıa no necesariamente coincid´ıan con la demanda exclusivamente, sino con puntos de equilibrio entre demanda y oferta. M´as afortunadamente a´un, a Wright se le ocurri´o la forma de darle la vuelta al problema. Era necesario conseguir una tercera variable (que ahora llamar´ıamos instrumento) que fuera capaz de desplazar la oferta, pero no la demanda. Con esta informaci´on adicional, fue posible identificar, en la nube de puntos, los que corresponden a la demanda exclusivamente. Lo anterior es f´acilmente representable en una figura:3
Precio
Precio
Equilibrio 2
Precio
Equilibrio 3
Equilibrio 1
(a) Cantidad
(c)
(b) Cantidad
Cantidad
Figura 10.1: El problema de la identificaci´on y su soluci´on.
Note como en el panel (a) est´a representado el problema al que se enfrent´o Wright. Los datos que dicho autor recab´o no representan exclusivamente a la demanda, ni a 3
La descripci´on del trabajo de Wright est´a basada en Stock y Watson (2003).
10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES
317
la oferta, sino que corresponden a equilibrios de precio y cantidad donde se vac´ıa el mercado. La imposibilidad de estimar la demanda—o la oferta—aislada resulta obvia. En el panel (b) se muestra un diagrama de dispersi´on an´alogo al que se habr´a enfrentado Wright. ¿Realmente cree usted posible trazar la oferta y la demanda con base en esa nube de puntos? Finalmente, el panel (c) muestra intuitivamente la soluci´on; ¿qu´e tal si podemos aislar los puntos de equilibrio en los que s´olo se desplaz´o la oferta? Entonces s´ı, as´ı s´ı es posible estimar la demanda. Wright consider´o que necesitaba informaci´on relativa a la oferta que, a su vez, no afectara la demanda. Se le ocurri´o utilizar la variable de pluviometr´ıa. La lluvia es evidentemente una variable relacionada con la oferta, al menos en la que corresponde a productos agr´ıcolas. Paralelamente, nada parece indicar que la gente consuma menos o m´as cereal (por ejemplo) en los d´ıas lluviosos; la lluvia no parece tener relaci´on con la demanda. Ese fue, posiblemente, el primer instrumento del mundo.
10.1.
El estimador de Variables Instrumentales
El m´etodo de Variables Instrumentales que ahora vamos a estudiar permite obtener estimadores consistentes de los par´ametros β en la especificaci´on Y = Xβ + ǫ aun cuando las variables explicativas tengan relaci´on con el t´ermino de error. Como ya se ha se˜nalado en reiteradas ocasiones, dicha relaci´on entre explicativas y error queda manifiesta si la esperanza entre e´ stas no es nula. Ahora bien, podemos replantear este problema en t´erminos, no de esperanza, sino muestrales: 1 plim (X ′ ǫ) 6= 0 T El uso del m´etodo IV requiere estrictamente que se disponga de un conjunto de variables, denotadas como INSTRUMENTOS , que pueda acomodarse en una matriz ´ ser´a nuestra matriz de instrumentos, es decir, un nuevo de dimensiones (T ×K). Esta conjunto de variables explicativas.4 Denotemos a los instrumentos con la letra Z: Z = [z1 , z2 , . . . , zk ] donde zi para i = 1, . . . , K es un vector de T × 1. A esta matriz s´olo le podremos llamar matriz de instrumentos si y s´olo si satisface las siguientes condiciones: 4
Algunas de las variables explicativas originales pueden y deben ser utilizadas como Variables Instrumentales. Esto quedar´a m´as claro posteriormente.
´ CAPITULO 10. VARIABLES INSTRUMENTALES
318
1. Relaci´on entre instrumentos y t´ermino de error: 1 plim (Z ′ ǫ) = 0 T 2. Relaci´on entre instrumentos y explicativas: 1 plim (Z ′ X) = Σ T 3. Propiedades de los instrumentos: 1 plim (Z ′ Z) = Σ∗ T
Ambas matrices,
P
y
P∗
deben existir y no ser singulares.5
La primera condici´on garantiza que los instrumentos no est´an correlacionados asint´oticamente con el t´ermino de error. La segunda condici´on permite la existencia de una relaci´on entre instrumentos y variables explicativas originales. La tercera condici´on garantiza que las Variables Instrumentales, las zs , para s = 1, . . . , K sean linealmente independientes entre s´ı. Lo anterior establece con claridad y precisi´on las propiedades que debe tener un instrumento. Recuerde que el tel´on de fondo es agregar m´as informaci´on a nuestra regresi´on. En el ejemplo de las ecuaciones simult´aneas, la idea era agregar informaci´on que s´olo afectara a una ecuaci´on (dicho coloquialmente, que s´olo moviera una, la oferta por ejemplo, dejando quieta la otra (la demanda) para as´ı poder identificarla). Sea cual sea la informaci´on adicional que decidamos agregar, e´ sta, en forma de instrumentos, debe satisfacer las tres condiciones antes enumeradas. Llega ahora el momento de presentar la manera en la que vamos a agregar esta informaci´on. Procederemos a lo bruto, como podr´an darse cuenta. Para obtener el estimador de Variables Instrumentales partimos de la especificaci´on de la relaci´on: 5
¿Por qu´e cree usted que eso es importante?
10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES
319
Y = Xβ + ǫ Ahora, pre-multiplic´andola por la matriz de instrumentos, obtenemos: Z ′ |{z} X β + Z ′ |{z} Y = Z ′ |{z} ǫ |{z} |{z} T ×K K×1 K×T T ×1 T ×1 | {z } | {z } | {z } K×1
K×1
K×1
A esta especificaci´on transformada podemos aplicarle la f´ormula de MCO para estimar β. Dicha f´ormula es, como bien saben: βˆM CO = (X ′ X)−1 X ′ Y . S´olo nos queda ahora ver las consecuencias sobre la especificaci´on. Ahora s´ı, reescribiendo la f´ormula:
βˆIV
= (X ′ ZZ ′ X)−1 X ′ ZZ ′ Y = (Z ′ X)−1 (X ′ Z)−1 X ′ Z Z ′ Y | {z } I
βˆIV
′
−1
′
= (Z X) Z Y
Tenga muy presente que no estamos alterando la especificaci´on original. Es decir, ˆ habremos estimado Y = X βˆ + Uˆ . Por cierto, este una vez obtenido el nuevo β, estimador es sesgado: E(βˆIV ) 6= β Para mostrar lo anterior, procederemos con un ejemplo sencillo. Asuma que tenemos tres variables, yt , xt y zt . Las tres est´an centradas (por lo que su media es cero) y las primeras dos est´an relacionadas en la especificaci´on yt = βxt + ǫt . Suponga adem´as que existe un problema de ortogonalidad, es decir que E(xt ǫt ) 6= 0. Afortunadamente contamos con un instrumento v´alido (es decir que satisface las condiciones expuestas anteriormente) representado por la variable zt . Veamos como queda nuestro estimador de IV en este caso concreto:
´ CAPITULO 10. VARIABLES INSTRUMENTALES
320
βˆIV
−1
= (Z ′ X) Z ′ Y 1 X z t yt = P z t xt P zt (βxt + ǫt ) P = zx P t t z t ǫt = β+P z t xt
(10.1)
Anteriormente, con nuestro estimador de MCO lleg´abamos a una expresi´on en la que pod´ıamos disociar las variables xt y ǫt gracias al supuesto de ortogonalidad [ver ecuaci´on (9.3)]. En este caso, dicha separaci´on de t´erminos no es posible, excepto si impusi´eramos un supuesto rid´ıculamente fuerte de ortogonalidad entre zt y ǫt , cosa que no vamos a hacer. Para entender esto, intentemos obtener la esperanza de esta u´ ltima expresi´on: P z t ǫt ˆ E βIV . = β+E P z t xt
En este caso, no podemos separar las esperanzas, como en la ecuaci´on (9.3): P X zt z t ǫt 6= E P E(ǫt ) E P z t xt z t xt
La raz´on de esto es muy obvia; partimos de un problema de ortogonalidad concreto: E(xt ǫt ) 6= 0. Ello impide separar la esperanza y, m´as tr´agicamente, hace que el estimador no sea insesgado. Afortunadamente, ese mismo estimador S ´I es consistente.6 6
Para los siguientes desarrollos es importante recordar lo siguiente: (A·B)′ A·A−1
= =
B ′ ·A′ I
(A·B)−1 ′ A−1
=
B −1 ·A−1
=
(A′ )−1
El u´ nico que podr´ıa causar duda es el u´ ltimo. Si parte de A × A−1 = I ⇒ (A × A−1 )′ = (A−1 )′ × A′ = I ⇒ (A−1 )′ = (A′ )−1 .
10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES
321
Ello obedece a que el operador plim s´ı permite separar expresiones que el operador esperanza debe dejar juntas: βˆIV
= (Z ′ X)−1 Z ′ (Xβ + ǫ) = (Z ′ X)−1 Z ′ Xβ + (Z ′ X)−1 Z ′ ǫ = β + (Z ′ X)−1 Z ′ ǫ
Ahora s´ı, aplicamos el operador plim:
plim βˆIV
= β + plim[(Z ′ X)−1 Z ′ ǫ] T = β + plim[ (Z ′ X)−1 Z ′ ǫ] "T −1 # 1 ′ 1 ′ plim = β + plim ZX Zǫ T T {z } {z }| | Σ
0
= β
Obtener la varianza es un poco m´as laborioso. En primera instancia, obtengamos la expresi´on que servir´a de base para los c´alculos subsecuentes. Partimos de la expresi´on del estimador: βˆIV = β + (Z ′ X)−1 Z ′ ǫ ˆ βIV − β = (Z ′ X)−1 Z ′ ǫ ′ ′ − β βˆIV − β = (Z ′ X)−1 Z ′ ǫǫ′ Z (Z ′ X)−1
βˆIV
βˆIV − β
Usando la u´ ltima f´ormula de la nota al pie de p´agina anterior, obtenemos: ′ βˆIV − β = (Z ′ X)−1 Z ′ ǫǫ′ Z(X ′ Z)−1
Calculando el l´ımite en probabilidad, obtenemos: h i h i −1 ′ ′ −1 ′ ′ ′ ˆ ˆ plim (βIV − β)(βIV − β) = plim (Z X) Z ǫǫ Z(X Z)
´ CAPITULO 10. VARIABLES INSTRUMENTALES
322
Estas sumas requieren ser normalizadas (es decir, divididas por T ) para as´ı asegurar su convergencia en probabilidad (Denotaremos la varianza asint´otica con un sub´ındice a) :
V ara (βˆIV ) = plim plim = plim plim
"
"
"
"
= plim
"
plim
"
V ara (βˆIV ) = 0
1 ′ ZX T 1 ′ XZ T 1 ′ ZX T 1 ′ XZ T
−1 #
−1 #
−1 #
−1 #
1 ′ ZX T
−1 #
1 ′ XZ T
−1 #
· plim(Z ′ ǫǫ′ Z) · 1 T2 · plim(Z ′ ǫ)plim(ǫ′ Z) · 1 T2 · plim |
1 ′ 1 ′ Z ǫ ·plim ǫZ · T T {z } 0
Comentario 4 Observe cuidadosamente el desarrollo anterior. Notar´a que la varianza se colapsa cuando est´a as´ı normalizada (es decir, dividida entre T ). Dicho resultado es l´ogico si consideramos que el estimador de IV es consistente; si los estimadores convergen a los verdaderos par´ametros, su varianza debe desaparecer con el aumento del tama˜no de muestra. Claro est´a que si normalizamos por una potencia menor de T quiz´a logremos evitar el colapso antes mencionado. El siguiente desarrollo requiere la utilizaci´on de un Teorema del L´ımite Central; esto tiene la virtud de incluir, aparte de la varianza, la distribuci´on de los par´ametros estimados. Encontrar una distribuci´on l´ımite no degenerada de los estimadores de IV requiere el uso del Teorema del L´ımite Central de Lindberg-Feller: Teorema 17 (Lindberg-Feller) Sea {ǫt } t = 1, 2, ..., T independiente e id´enticamente distribuido con media cero y varianza σ 2 < ∞ ; si los elementos zt,k de la
10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES matriz de instrumentos Z son tales que |zt,k | es finito y el l´ımite l´ımT →∞ es una matriz definida positiva,7 entonces:
323 Z′Z T
= Σ∗
1 d √ Z ′ ǫ−→N (0, σ 2 Σ∗ ) T Con este resultado podemos volver a calcular la varianza de los estimadores IV , esta vez sin que se nos colapse: (βˆIV − β) = (Z ′ X)−1 Z ′ ǫ √ T T (βˆIV − β) = √ (Z ′ X)−1 Z ′ ǫ T 1 = T (Z ′ X)−1 √ Z ′ ǫ T −1 1 1 = (Z ′ X)−1 √ Z ′ ǫ T T −1 1 ′ 1 √ Z ′ǫ = ZX T T | {z } | {z } Σ−1
N (0,σ 2 Σ∗ )
Aqu´ı es importante recordar que, al multiplicar una distribuci´on normal con media cero y varianza constante por una constante, si bien la media no cambia, la varianza s´ı; e´ sta debe ser multiplicada por el cuadrado de dicha constante: √ d 2 −1 ∗ −1′ ˆ T (βIV − β)−→N 0, σ Σ Σ Σ
Ahora que el m´etodo de IV ya ha sido expuesto, conviene mencionar el precio a pagar, es decir, sus limitaciones. En esta vida T ODO SE PAGA , T ODO SE C OMPRA. El m´etodo de Variables Instrumentales, aportaci´on de la econometr´ıa a la estad´ıstica, funciona bien siempre y cuando se logren obtener esos famosos instrumentos v´alidos. En realidad, la dificultad en la ejecuci´on de IV no es en s´ı la aplicaci´on de sus f´ormulas, sino m´as bien la b´usqueda de los instrumentos adecuados. M´as adelante se mostrar´an algunas pruebas que allanan el camino. Antes de preocuparnos por esa cuesti´on, veamos, m´as concretamente, como podremos emplear IV en la pr´actica. 7
Conocidas como Condiciones de Grenander.
´ CAPITULO 10. VARIABLES INSTRUMENTALES
324
10.2.
M´ınimos Cuadrados en 2 Etapas
El estimador IV suele denominarse estimador de M ´I NIMOS C UADRADOS EN 2 E TAPAS (2SLS, por sus siglas en ingl´es: Two Stages Least Squares). Ello obedece a que, en tiempos pret´eritos y sobre todo con la carencia de poder de c´omputo, los estimadores de IV se calculaban en dos pasos relativamente sencillos, cada uno. No es extremadamente dif´ıcil demostrar que IV y 2SLS es lo mismo; por ello, lo vamos a hacer. Para eso, primero que nada debemos entender que es exactamente 2SLS. Suponga que se desea estimar la siguiente especificaci´on:
yt = β1 + β2 x2t + β3 x3t + β4 x4t + β5 x5t + ut Y = Xβ + U
Tenemos, para no perder la costumbre, el siguiente problema: x4t y x5t son variables end´ogenas del sistema y est´an por ende correlacionadas con el t´ermino de error. Por fortuna, contamos con las variables w1t y w2t que constituyen Variables Instrumentales v´alidas8 (ver condiciones arriba). En particular nos importa que tales variables est´en correlacionadas con x4t y x5t respectivamente pero ninguna de ellas lo est´e con el t´ermino de error, ut . El n´umero de instrumentales, como ya se˜nalamos, debe coincidir con el n´umero de explicativas, es decir ser igual a K. 1. Definamos Z = [1, x2 , x3 , w1 , w2 ]:9 matriz de variables ex´ogenas o predeterminadas. 2. Estimemos, usando MCO, una regresi´on con cada variable explicativa problem´atica del modelo (es decir x4t y x5t ) contra el vector de variables ex´ogenas. Cuando el instrumento es, a la vez explicativa, no vale la pena correr la regresi´on puesto que el resultado es obvio.10 8
Poco se ha discutido respecto al n´umero de Variables Instrumentales, l. Por el momento baste ´ y la ecuaci´on no tiene una u´ nica soluci´on; l = k decir que l < k implica S UB - IDENTIFICACI ON ´ E XACTA y la ecuaci´on tiene una u´ nica soluci´on; l > k implica S OBRE implica IDENTIFICACI ON ´ y tenemos m´as de lo que necesitamos para encontrar la soluci´on (entonces hay IDENTIFICACI ON que escoger).Todo esto se discutir´a m´as adelante as´ı como en el cap´ıtulo referente a ecuaciones simult´aneas. 9 Aqu´ı se explicita que si algunas variables no tienen problemas de endogeneidad, entonces pueden ser utilizadas como instrumentos de ellas mismas. 10 Explique esta afirmaci´on.
´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS
325
xit = zt δi + eit En donde zt es un vector-rengl´on que incluye las realizaciones en el tiempo t de los instrumentos. 3. Calculemos los valores ajustados de cada variable explicativa: xˆit = zt δˆi 4. Recupere los K vectores estimados, xˆit para i = 1, 2, . . . , K, y agr´upelos (sin ˆ Finalmente, olvidar las variable cuya regresi´on no corri´o) en una matriz X. estime la regresi´on: ˆ + Residuales Y = Xβ Estos pasos resumen el m´etodo 2SLS. Ahora s´ı veamos porque aplicarlo es equivalente a la estimaci´on por IV . Veamos el estimador de δi :11 −1 δˆi = (Z ′ Z) Z ′ xi
o bien propongamos una expresi´on que nos calcule todos los par´ametros en cuesti´on en una sola operaci´on: −1 δˆ = (Z ′ Z) Z ′ X
D´onde,
δˆ =
δˆ11 δˆ12 .. . δˆ1k
δˆ21 · · · δˆk1 .. δˆ22 . .. . . .. . . . ˆ ˆ δ2k · · · δkk
Es importante se˜nalar que las variables que usamos para 2SLS, contenidas en la ˆ pueden ser calculadas directamente haciendo:12 matriz X 11
Note que cuando se corre una explicativa contra las ex´ogenas y que e´ stas u´ ltimas incluyen a dicha explicativa, todos los par´ametros se hacen cero excepto el de la explicativa que se hace igual a la unidad y por ende: zˆit = zit . 12 ¡Pru´ebelo!
´ CAPITULO 10. VARIABLES INSTRUMENTALES
326
ˆ = Z δˆ X Ahora bien, retomemos el estimador de β por el m´etodo de M´ınimos Cuadrados en 2 Etapas: ˆ ′ X) ˆ −1 X ˆ ′Y βˆ2SLS = (X Procederemos a entender mejor el puente entre IV y 2SLS mediante una nueva notaci´on; denotemos como eˆit a los residuales estimados de las regresiones: xit = zt δˆi + eˆit Una de las principales propiedades del M´etodo de M´ınimos Cuadrados Ordinarios es que los residuales estimados son ortogonales a las variables explicativas de la regresi´on debido a la forma en que e´ stos son calculados (si no lo recuerda bien, revise el desarrollo de las ecuaciones normales; vea la ecuaci´on 2.2). Aplicado a nuestro caso, obtenemos: X
zt · eˆit = 0
De ah´ı resulta f´acil ver que los valores ajustados (ˆ xit = zt δˆi ) tambi´en son ortogonales a los residuales (note que eˆit es un escalar, por lo que se puede reacomodar en la expresi´on): X
xˆit · eˆit = =
X
X
| |
zt δˆi · eˆit zˆt · eˆit δi {z } =0 {z }
(1×1)
As´ı, ya tenemos clara la ortogonalidad entre residuales y valores ajustados en una regresi´on. Procedemos ahora a ver la relaci´on entre residuales de una regresi´on y valores ajustados de otra:
´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS
X
X
xˆjt · eˆit =
X
=
| |
327
zt δˆj · eˆit zˆt · eˆit δj {z } =0 {z } (1×1)
De ah´ı es f´acil inferir que esos mismos residuales no est´an correlacionados con los valores ajustados de cualquiera de esas regresiones. Note que la ortogonalidad de cumple para todo i, j = 1, 2, . . . , K. Sabiendo lo anterior, recordamos como est´an construidas las variables de la segunda regresi´on en 2SLS: xˆit = zt δˆi xit = xˆit + eˆit Si multiplicamos esta u´ ltima expresi´on por xˆjt , donde j = 1, 2, . . . , K obtenemos: xˆjt ·xit = xˆjt ·ˆ xit + xˆjt ·ˆ eit Y si ahora aplicamos el operador de sumatoria... X
xˆjt ·xit = =
X
X
xˆjt ·ˆ xit + xˆjt ·ˆ xit
X
|
xˆjt ·ˆ eit {z }
=0
Este resultado nos permite manipular la f´ormula de los estimadores de 2SLS de la siguiente manera: −1 ˆ ′X ˆ ˆ ′Y X X ′ ˆ ′Y ˆ = X X −1 X
βˆ2SLS =
Ahora s´ı, ya nada m´as falta un paso para demostrar que el m´etodo en dos etapas es lo mismo que el de Variables Instrumentales. Necesitaremos tres de los resultados hasta aqu´ı obtenidos:
´ CAPITULO 10. VARIABLES INSTRUMENTALES
328 ˆ = Z δˆ 1. X 2. δˆ = (Z ′ Z)−1 Z ′ X ˆ ′ X)−1 X ˆ ′Y 3. βˆ2SLS = (X
Empecemos transponiendo las primeras dos: ˆ ′ = δˆ′ Z ′ X δˆ′ = X ′ Z(Z ′ Z)−1
Ahora reemplazamos estas u´ ltimas dos en la tercera ecuaci´on: ˆ ′ X)−1 X ˆ ′Y βˆ2SLS = (X −1 = (δˆ′ Z ′ X) δˆ′ Z ′ Y −1 −1 −1 = (X ′ Z)(Z ′ Z) (Z ′ X) (X ′ Z)(Z ′ Z) Z ′ Y −1
−1
−1
= (Z ′ X) (Z ′ Z)(X ′ Z) (X ′ Z)(Z ′ Z) Z ′ Y | {z } ′
−1
′
′
I −1
= (Z X) (Z Z)(Z Z) Z ′ Y | {z } I
−1 βˆ2SLS = (Z ′ X) Z ′ Y
Como ver´an, obtenemos una formulaci´on id´entica a la del estimador de IV antes estudiado: βˆ2SLS = (Z ′ X)−1 Z ′ Y βˆ2SLS = βˆIV Ahora que ya sabemos la equivalencia de ambos m´etodos, es posible decir que las propiedades de los estimadores son, por ende, las mismas. De esta manera, ya no es necesario estudiarlas.
´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS
329
Ejercicio 12 Suponga que tenemos la siguiente relaci´on entre las variables x2 , w1 , w2 y y :
x1t = 7 + uxt + 0.9 · uxt−1 x2t = x1t + 0.7 · vt √ uxt ∼ iidN 0, 2
vt yt w1t w2t uw1t uw2t
∼ = = = ∼
iidN (0, 2) 3 + 1.5 · x2t + vt 1.8 + 0.5 · x1t + uw1t −3 − 0.9 · x1t + uw2t iidN (0, 2) 3 ∼ iidN 0, 2
Donde todas las variables son iguales a cero cuando t = 0. P REGUNTAS : 1. Genere todos los datos en un programa de Matlab. 2. Exporte tales datos al Gretl y: Estime por MCO la especificaci´on: yt = α + βx2t + ut Estime por IV (2SLS) la especificaci´on: yt = α + βx2t + ut usando como instrumento w1t . Estime por IV (2SLS) la especificaci´on: yt = α + βx2t + ut usando como instrumento w2t . Estime por IV (2SLS) la especificaci´on: yt = α + βx2t + ut usando como instrumento w1t y w2t (note que se trata de una estimaci´on sobre identificada). 3. Construya en Gretl la verdadera l´ınea de regresi´on, comp´arela con las que estim´o en el inciso anterior. 4. Regrese al Matlab, haga la estimaci´on por MCO as´ı como por 2SLS, como se expuso en clase.
330
´ CAPITULO 10. VARIABLES INSTRUMENTALES
5. Convierta su c´odigo en un experimento de Monte Carlo (es decir, rep´ıtalo 500 veces) y obtenga los histogramas del estimador de la pendiente por ambos m´etodos. ¿Observa alguna diferencia? Ejercicio 13 Estimaci´on de una Curva de Phillips. Como es bien sabido, la curva de Phillips se identific´o emp´ıricamente hace ya medio siglo; dicha curva relaciona el nivel de desempleo con la tasa de inflaci´on. Actualmente la evidencia ya no es tan contundente al estudiar esta relaci´on. Este ejercicio consiste en hacer una estimaci´on r´apida de la Curva de Phillips para M´exico: 1. Busque por internet los siguientes datos: Tasa de inflaci´on, (la del consumidor o la del productor). Tasa de Desempleo Abierto Tradicional (TDAT), Tasa de Desempleo Abierto Alternativa (TDAA), Tasa de Presi´on Efectiva Econ´omica (TPEE),13 N´umero de afiliados al IMSS,... 2. Estime la relaci´on Desempleo-Inflaci´on basado en todo lo que sabe usted de econometr´ıa; haga su estimaci´on por MCO y por IV ; los instrumentos son, en este caso, las tasas de desempleo alternativas, as´ı como el primer rezago de la tasa de inflaci´on (lo que se conoce como una variable predeterminada), fungiendo e´ ste como variable de expectativas–adaptativas–de inflaci´on. La especificaci´on a probar es la siguiente:14 πt = α + β1 πtE + β2 Dt + ut 3. Redacte un documento decente en el que quede asentado lo que usted conoce de la Curva de Phillips, los resultados de sus estimaciones y la conclusi´on a la que llega con base en estos datos. Ejercicio 14 Hemos estudiado hasta ahora un estimador de Variables Instrumentales en el que el n´umero de columnas de la matriz Z ,l, es igual al n´umero de columnas de la matriz X, K. No obstante, tambi´en vimos que es posible estimar por IV cuando l > K. Pero no se ha demostrado que, en ese caso, el estimador de 13
Informaci´on disponible en INEGI La especificaci´on aqu´ı propuesta es una simplificaci´on de las curvas de Phillips que hoy en d´ıa se suelen estimar; est´a inspirada del material que aparece en Makiw (2002), [Macroeconomics], pp. 358-371. 14
´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS
331
los par´ametros es consistente. Asuma la relaci´on Y = Xβ +U en la que se cumplen todos los supuestos excepto el de ortogonalidad. Asuma tambi´en que dispone de una matriz Z de instrumentos v´alidos, es decir que satisfacen las condiciones especificadas con anterioridad. La f´ormula de Variables Instrumentales cuando l > K es la siguiente:
βˆIV
−1
−1 = X ′ Z (Z ′ Z) Z ′ X | {z } ′
= [X Pz X]
Pz −1 ′
X Pz Y
X ′ Z (Z ′ Z) | {z Pz
−1
Z′ Y }
1. Explique de donde sali´o esta f´ormula. 2. Demuestre que este estimador es consistente. 1. (gran) ayuda para la primera pregunta: basta con reinterpretar el estimador de M´ınimos Cuadrados Generalizados. Vea el desarrollo de la secci´on 6.2 en la p´agina 209. Asuma, por simplicidad que los instrumentos son variables no estoc´asticas. Nuestra especificaci´on (que se supone correcta) es Y = Xβ +U Si multiplicamos por la matriz de variables instrumentales traspuesta, |{z} Z , l×T
nos queda: Z ′Y
= Z ′ Xβ + Z ′ U
Note como las innovaciones de esta extra˜na nueva especificaci´on no son, en cierta forma, id´oneos (en MCO, E(U U ′ ) = σ 2 IT ); si calculamos la varianza de las innovaciones (apoy´andonos en el supuesto simplificador), obtenemos: E(Z ′ U ) · (Z ′ U )′ = σ 2 |{z} Z ′ Z Note como dicha matriz no es una identidad, Ω
como deber´ıa ser. Podemos entonces aplicar MCG, es decir encontrar una matriz P tal que P ΩP ′ = Il . En este caso es f´acil encontrar dicha matriz P : P ΩP ′ = Il Ω = P −1 P ′−1 Z ′ Z = P −1 P ′−1
A partir de aqu´ı, basta con emplear las expresiones de MCG y mediante el reemplazo de Ω por Z ′ Z se llega a la f´ormula de Variables Instrumentales.
332
´ CAPITULO 10. VARIABLES INSTRUMENTALES
2. ayuda para la segunda pregunta: Retome la f´ormula del estimador y reemplace la variable Y por la verdadera especificaci´on, Y = Xβ + U . Descubrir´a rapidamente que puede llegar a una expresi´on con la forma: βˆIV = β + algo. A la expresi´on resultante apl´ıquele entonces el “plim”; constatar´a que es posible emplear los supuestos hechos a los instrumentos y obtener el resultado solicitado.
10.3.
Problemas con los instrumentos
Existen dos problemas potencialmente graves con el m´etodo de IV. La cuesti´on m´as espinosa en el uso de Variables Instrumentales se da, tristemente, al momento de escoger los instrumentos. Las propiedades m´as deseadas de e´ stos es que, (i) no est´en asint´oticamente correlacionados con el t´ermino de error y (ii) est´en muy correlacionados con las variables explicativas end´ogenas (las que causan el problema). Atacaremos primero el punto (ii).
10.3.1. Relevancia de los instrumentos Cuando existe un problema de ortogonalidad, lo tratamos de resolver usando instrumentos que provean informaci´on suficiente para aislar los movimientos ex´ogenos. Necesitamos por ende que los instrumentos sean relevantes, es decir, que e´ stos expliquen una proporci´on lo m´as grande posible de los movimientos de las variables explicativas, las X’s. Entre m´as relevantes sean los instrumentos, mejores ser´an nuestros estimadores. Lo anterior corre en el mismo sentido que el tama˜no de muestra; entre m´as datos usemos, mayor seguridad tendremos en que las propiedades asint´oticas ser´an apropiadas y por ende, los estimadores converger´an al verdadero valor de los par´ametros. Esto u´ ltimo adem´as nos da pie para se˜nalar que todas las bondades del m´etodo s´olo existen en muestras grandes; en lo que respecta a muestras peque˜nas, lo u´ nico con lo que podemos jugar es con la relevancia de los instrumentos (con objeto de asegurar que no estamos estimando algo inservible). Los instrumentos que no explican gran cosa de la variabilidad de las x se definen como ´ I NSTRUMENTOS D EBILES (weak instruments, en ingl´es). Usar instrumentos d´ebiles es, en s´ı, un problema potencialmente grave. El sesgo que ya hab´ıamos se˜nalado del M´etodo se agrava en esta situaci´on y las propiedades en muestras peque˜nas son, para acabar pronto, muy pobres. Retomemos el resultado de la ecuaci´on (10.1) en el que tenemos tres variables, yt , xt y zt , centradas. Las primeras dos est´an relacionadas en la especificaci´on yt = βxt + ǫt . Existe un problema de ortogonalidad
10.3. PROBLEMAS CON LOS INSTRUMENTOS
333
con la variable xt pero contamos con un instrumento representado por la variable zt . Vimos, en ese caso concreto que nuestro estimador de IV es: βˆIV
P z t ǫt = β+P z t xt
Recuerde que las variables est´an centradas, por lo que, si normalizamos por segundo elemento, obtendr´ıamos:
βˆIV
= β+
1 T
el
Cov(zt , ǫt ) Cov(zt , xt )
Asuma por un momento que nuestro instrumento no s´olo es d´ebil sino de plano totalmente irrelevante. Su covarianza ser´ıa entonces cero, por lo que, de nuestra f´ormula anterior podemos deducir que estar´ıamos dividiendo por cero: ¡el sesgo explotar´ıa! Para minimizar este riesgo, lo que se debe hacer es sustentar en la teor´ıa econ´omica la selecci´on de los instrumentos y confiar en nuestro conocimiento del problema. Claro est´a, tambi´en es importante verificar algunos elementos estad´ısticos m´as concretos. En espec´ıfico, se recomienda, al momento de emplear el m´etodo de 2SLS, detenerse un poco en la primera etapa. Reviste especial importancia verificar las regresiones de cada variable end´ogena contra el conjunto de variables ex´ogenas; aseg´urese que la R2 de esta regresi´on sea alta y que los coeficientes estimados sean, en conjunto, estad´ısticamente significativos (esto, huelga decir, habr´a de hacerlo mediante una prueba de F).
10.3.2. Exogeneidad de los instrumentos El segundo problema de IV radica en asegurar que los instrumentos realmente sean ex´ogenos y no tengan relaci´on con el t´ermino de error. Esta propiedad no puede ser estudiada (es decir probada) cuando el sistema est´a exactamente identificado: hasta ahora hemos visto el m´etodo de IV en el caso en el que el n´umero de instrumentos (que denotaremos con la letra l) es igual al de variables explicativas. No obstante, vimos que IV es equivalente a 2SLS. En este u´ ltimo, recordemos, se corre una serie de regresiones donde cada variable end´ogena sirve de dependiente y todas las variables ex´ogenas (es decir, las explicativas sin problema de endogeneidad y los instrumentos) sirven de explicativas. Nada nos impedir´ıa incluir m´as Variables
334
´ CAPITULO 10. VARIABLES INSTRUMENTALES
Instrumentales de las necesarias. Si lo piensan bien, estamos proyectando las l Variables Instrumentales en K variables ajustadas, que luego usaremos en la segunda etapa del m´etodo. Lo que ocurre es que combinamos linealmente las l variables para obtener s´olo K. Se puede decir que, los instrumentos sobrantes son restricciones lineales adicionales en esta proyecci´on. En este caso, como se se˜nal´o en una nota al pie de p´agina, se dice que el modelo est´a S OBRE -I DENTIFICADO. La idea de incorporar m´as informaci´on a nuestra estimaci´on por medio de un mayor n´umero de instrumentos es tentadora. Adem´as, siendo que ya tenemos instrumentos sobrantes (l − K > 0), aqu´ı s´ı podemos probar si los instrumentos son v´alidos o no. Es muy importante realizar estas pruebas, por lo que se invita al lector nunca omitirlas. En otras palabras, si se cuenta con demasiados instrumentos, no hay que desecharlos, puesto que sirven para probar la validez de e´ stos. La prueba que aqu´ı proveeremos para evaluar los instrumentos en sistemas sobre-identificados se denomina P RUEBA J DE S ARGAN. Como ya se se˜nal´o, estudiar estad´ısticamente la validez de los instrumentos cuando el n´umero de e´ stos es igual al n´umero de explicativas simplemente no se puede. De hecho, la u´ nica manera de probar si los instrumentos son v´alidos estriba en tener muchos m´as instrumentos (l > K), ¿por qu´e? la raz´on es relativamente f´acil de intuir. Imagine moment´aneamente que, en nuestra especificaci´on, del lado de las explicativas s´olo hay un regresor end´ogeno (es decir, no ortogonal al t´ermino de error) pero que, adem´as, contamos con dos Variables Instrumentales. Podr´ıamos en ese caso estimar de dos maneras distintas la especificaci´on, una con cada instrumento. Resulta obvio que esas dos estimaciones no arrojar´an un estimador id´entico debido a la variaci´on muestral. No obstante, si los dos instrumentos son realmente ex´ogenos, entonces las estimaciones de nuestros par´ametros deber´ıan ser relativamente cercanas, puesto que el estimador es consistente. ¿Qu´e pensar´ıa usted si los dos estimadores son muy distintos? Lo m´as prudente ser´ıa inferir que, o bien uno de los dos instrumentos no es v´alido o, peor a´un, ninguno de los dos lo es. Es esa diferencia entre estimadores la que se utiliza para juzgar la exogeneidad de los instrumentos. Deber´ıa quedar claro que, si s´olo disponemos de un instrumento, pues no es posible compararlo con nada m´as. Esa es la raz´on por la que s´olo se puede probar la validez de los instrumentos cuando hay un excedente de e´ stos. Como ya dijimos, existe una prueba muy socorrida para evaluar lo anterior; responde al nombre de P RUEBA DE S ARGAN y se construye mediante el siguiente proceder:15 15
El art´ıculo original es de Sargan, John D. (1958): “The Estimation of Economic Relationships Using Instrumental Variables”. La descripci´on del procedimiento est´a basada en Stock y Watson (2003).
10.3. PROBLEMAS CON LOS INSTRUMENTOS
335
1. Suponga que la regresi´on de inter´es es: Y = |{z} X β + |{z} W γ + ut . T ×p
T ×q
La partici´on de las variables explicativas corresponde a una clasificaci´on de las mismas en dos grupos: a) Las variables ex´ogenas, es decir, que no causan problemas de ortogonalidad; supongamos que son, en total, q; w1t , . . . , wqt , b) Las variables end´ogenas, es decir, que causan problemas de ortogonalidad; son las restantes, digamos, p (p + q = K). Las denotamos x1t , . . . , xpt . 2. Suponga adem´as que tiene usted l > q instrumentos, z1t , . . . , zlt . 3. Estime la especificaci´on original usando el m´etodo de variables instrumentales y recupere los residuales de la especificaci´on original (pero estimada por IV), uˆt . 4. Estime usando MCO una segunda regresi´on, donde uˆt es la variable dependiente. Como explicativas, use todos los instrumentos (z) as´ı como todas las variables ex´ogenas (w): uˆt = δ0 + δ1 z1t + . . . + δl zlt + δl+1 w1t + . . . + δl+q wqt + ǫ1t Calcule la prueba de significancia conjunta F, que involucra dos regresiones, la restringida y la no-restringida. La regresi´on no restringida es la ecuaci´on anterior, mientras que la restringida es: uˆt = γ0 + γ1 w1t + . . . + γq wqt + ǫ2t 5. El estad´ıstico de prueba se calcula mediante la siguiente f´ormula: S =l∗
(SRCr − SRCnr )/l , SRCnr /(T − (l + q) − 1)
donde SRC se refiere a la suma de residuales al cuadrado, mientras que los sub´ındices r y nr se refieren a la regresi´on restringida y no restringida, respectivamente.
336
´ CAPITULO 10. VARIABLES INSTRUMENTALES
6. dicho estad´ıstico, bajo la hip´otesis nula se distribuye como χ2l−p,g.l. , donde, recuerde, l es el n´umero de instrumentos, mientras que P es el n´umero de regresores end´ogenos. Note como el n´umero de grados de libertad corresponde al n´umero de instrumentos “excedentes” o “sobrante”. Esta prueba, como se mencion´o en un principio, s´olo sirve en casos sobre-identificados. 7. Ahora, como siempre, s´olo falta saber cuales son las hip´otesis y la distribuci´on bajo la nula, a) H0 : Los instrumentos son v´alidos (ortogonales al t´ermino de error), b) Ha : Al menos uno de los instrumentos no es v´alido.
Resulta evidente que, en caso de rechazar la hip´otesis nula, tendr´ıamos el problema de no saber cuales instrumentos son v´alidos y cuales no. No obstante, existe siempre la posibilidad de hacer distintos paquetes de instrumentos y realizar la prueba para cado uno de ellos. Dichos paquetes omitir´ıan uno o m´as instrumentos. As´ı, eventualmente podr´ıa identificar los instrumentos v´alidos. Huelga decir que eso implica, cuando menos, bastante trabajo. A continuaci´on se muestra el c´odigo (en lenguaje Matlab) que genera una funci´on capaz de realizar la prueba de Sargan: %______________________________________________________ function [S,PV]=Sargan_test(y,x,w,z) % function [S,PV]=Sargan_test(y,x,w,z) %______________________________________________________ % Argumentos: % y: Variable dependiente % x: Variables explicativas que s´ ı generan prob% -lema de ortogonalidad % w: Variables explicativas que no generan prob% -lema de ortogonalidad % Si no hay, escriba []. % z: Instrumentos (m´ as instrumentos que va% -riables c/problema) %______________________________________________________ % No incluya constante (el c´ odigo la incluye autom´ a% ticamente) %______________________________________________________
10.3. PROBLEMAS CON LOS INSTRUMENTOS
337
% Salida: % S: Estad´ ıstico de prueba de Sargan % PV: P-valor del estad´ ıstico %______________________________________________________ T=length(y); %______________________________________________________ % Primera regresi´ on X1=[ones(T,1),w,x]; X2=[ones(T,1),w,z]; X3=[ones(T,1),w]; Reg1=inv(X1’*X2*inv(X2’*X2)*X2’*X1)*X1’*X2*... inv(X2’*X2)*X2’*y; U=y-X1*Reg1; % Segundas regresiones Reg2a=(inv(X2’*X2))*X2’*U; e1=U-X2*Reg2a; SRCnr=sum(e1.ˆ2); Reg2b=(inv(X3’*X3))*X3’*U; e2=U-X3*Reg2b; SRCr=sum(e2.ˆ2); % Estad´ ıstico de prueba if isempty(w) q=0; else q=length(w(1,:)); end p=length(x(1,:)); l=length(z(1,:)); S=l*((SRCr-SRCnr)/l)/(SRCnr/(T-l-q-1)); % P-valor PV=1-chi2cdf(S,l-p); %______________________________________________________ El siguiente c´odigo, tambi´en de Matlab, muestra como generar dos variables, xt y yt , linealmente relacionadas con, adem´as, un problema de ortogonalidad con el t´ermino de error de dicha relaci´on. El c´odigo genera adem´as tres instrumentos, dos de ellos fuertes y v´alidos, y un tercero inv´alido. La prueba S, al menos con estos datos simulados, funciona especialmente bien: %______________________________________________________ % C´ odigo para formular un problema de ortogonalidad
338
´ CAPITULO 10. VARIABLES INSTRUMENTALES
% entre ’x’ y ’y’ y % generaci´ on de instrumentos, v´ alidos y no v´ alidos. %______________________________________________________ T=100; p1=0.9; p2=2; p3=5; p4=2.7; p5=2.3; p6=3;p7=1.5; Alpha=2; Beta=4; u=randn(T,1).ˆ2; v=randn(T,1)*p3; x=p4*u+v; z1=p1*x+randn(T,1)*p2-p4*u; z2=p1*x+(randn(T,1)*p6).ˆ2-p4*u; z3=p5*x+(randn(T,1)*p7).ˆ2; y=Alpha+Beta*x+u; X=[ones(T,1),x]; Z1=[ones(T,1),z1]; Z2=[ones(T,1),z2]; Z3=[ones(T,1),z3]; Bols=((X’*X)ˆ-1)*X’*y; Biv1=((Z1’*X)ˆ-1)*Z1’*y; Biv2=((Z2’*X)ˆ-1)*Z2’*y; Biv3=((Z3’*X)ˆ-1)*Z3’*y; [[2;4],Bols,Biv1,Biv2,Biv3]; % Hagamos la prueba de Sargan: [S1,PV1]=Sargan_test(y,x,[],[z1,z2]) [S2,PV2]=Sargan_test(y,x,[],[z1,z3]) %______________________________________________________ Al ejecutar esta simulaci´on, deber´a fijarse en que se corre dos veces la prueba S. En la primera corrida, ambos son instrumentos v´alidos, mientras que en la segunda, s´olo uno lo es. Consecuentemente, la prueba se rechaza en el segundo caso; ello permite pensar en que, si usted cuenta con m´ultiples instrumentos, identificar eventuales instrumentos inv´alidos es s´olo cuesti´on de realizar m´ultiples combinaciones de instrumentos para as´ı poder identificar aquel o aquellos que no sirven.
10.4.
La Prueba de Hausman
Una de las pregunta m´as relevantes en cuanto al uso de Variables Instrumentales es, simplemente, cuando usarlo. Podemos sospechar que hay variables explicativas
10.4. LA PRUEBA DE HAUSMAN
339
medidas con error pero quiz´a no sepamos si tales errores son suficientemente grandes como para provocar una inconsistencia de nuestros estimadores de la cual haya que preocuparse; de forma an´aloga, podemos estar preocupados porque algunas de nuestras variables explicativas no sean realmente ex´ogenas sino justamente end´ogenas. Pero hasta el momento eso se ha quedado como una sospecha y nuevamente ignoramos que tan grave es el problema de inconsistencia que esta situaci´on genera. En ambos casos aqu´ı expuestos, si dicha inconsistencia no se revela, quedar´ıa plenamente justificado el uso de MCO. Si nuestros regresores son ex´ogenos, tambi´en son instrumentos v´alidos, por lo que MCO ser´a consistente, pero adem´as insesgado, por lo que resulta un m´etodo de estimaci´on preferible a IV .
10.4.1. La prueba de Hausman Con base en lo anterior, es evidente que disponer de una prueba que tenga la ortogonalidad entre explicativas y errores como hip´otesis nula y la no-ortogonalidad como alternativa (con el a˜nadido de que otras variables—las instrumentales—s´ı sean ortogonales a ese mismo t´ermino de error) ser´ıa u´ til. Presentaremos en esta secci´on una prueba que satisface tal necesidad. Si bien los or´ıgenes de la prueba se remontan a un art´ıculo de Durbin en 1954, la prueba fue posteriormente afinada por Wu (1973) y por Hausman (1978).16 Las hip´otesis nula y alternativa de la prueba de Hausman pueden expresarse como sigue: 1. H0 : Y = Xβ + U , U ∼ N (0, σ 2 I), E(X ′ U ) = 0, 2. Ha : Y = Xβ + U , U ∼ N (0, σ 2 I), E(Z ′ U ) = 0. Bajo la Hip´otesis nula, tanto el estimador de MCO como el de IV son consistentes, mientras que bajo la alternativa, s´olo el de IV lo es. Por ende, es f´acil deducir que, = 0 bajo H 0 ˆ ˆ plim βIV − βM CO 6= 0 bajo Ha Aqu´ı utilizaremos un resultado de Hausman que resuelve f´acilmente la prueba: Teorema 18 Suponga dos variables, xt y yt relacionadas linealmente, yt = α + βxt + ut . 16
Algunos autores se refieren a esta prueba como la Durbin-Wu-Hausman; en nuestro caso, s´olo usaremos al u´ ltimo autor.
´ CAPITULO 10. VARIABLES INSTRUMENTALES
340
Si este modelo satisface todos los supuestos de la regresi´on (correcta especificaci´on, homoscedasticidad, independencia y normalidad de los errores, ortogonalidad, estacionariedad), situaci´on que caracteriza a la hip´otesis nula, entonces, bajo dicha hip´otesis nula, la varianza asint´otica de la diferencia entre el estimador del par´ametro beta por IV y por M CO, que denotaremos qˆ = βˆIV − βˆM CO , es simplemente la resta de las varianzas de tales estimadores: V ar(ˆ q) = σ ˆβ2ˆIV − σ ˆβ2ˆM CO Prueba 2 La demostraci´on del resultado anterior es sorprendentemente intuitiva. Requiere, en primera instancia, demostrar los siguiente: Cov(βˆM CO , qˆ)
def
= =
σβ,q 0
Recuerde que estamos bajo H0 , es decir, no hay problema de ortogonalidad. En ese caso, ambos estimadores son consistentes (aunque el de MCO es el m´as eficiente). Lo anterior nos garantiza que, bajo H0 : plim(ˆ q) = 0 ˆ y def´ınalo de la siguiente manera: Ahora imagine un nuevo estimador de β, d, dˆ = βˆM CO + λˆ q, d´onde λ es una constante cualquiera (t´engalo bien presente). Es importante tambi´en tener muy claro que este extra˜no estimador est´a al abasto del econometrista, es decir: es posible estimar una relaci´on usando MCO e IV, definir arbitrariamente ˆ Resulta obvio que, cualquiera que sea el una constante λ y, finalmente, calcular d. valor de dicha λ, el nuevo estimador satisface lo siguiente: ˆ = β. plim(d) Resumiendo, dˆ es un estimador consistente de β, para todo λ ∈ R. Veamos ahora la varianza de nuestro nuevo estimador: ˆ = V ar(βˆM CO ) + λ2 V ar(ˆ V ar(d) q ) + 2λCov(βˆM CO , qˆ) = V ar(βˆM CO ) + λ2 V ar(ˆ q ) + 2λσβ,q | {z } ∗
10.4. LA PRUEBA DE HAUSMAN
341
La parte de la expresi´on se˜nalada con un asterisco tiene que ser positiva. Ello obedece a que el estimador de MCO es, seg´un el teorema de Gauss-Markov, el m´as eficiente posible. Cualquier otro estimador s´olo puede tener una varianza mayor (o en el mejor de los casos, igual). Por ello, podemos afirmar que: λ2 V ar(ˆ q ) + 2λσβ,q ≥ 0
(10.2)
Ahora considere el signo del primer elemento de la parte izquierda de la ecuaci´on (10.2): λ2 V ar(ˆ q ) ≥ 0. Esto resulta obvio, pues, siendo λ un valor real, elevado al cuadrado seguro no es negativo; de igual manera, la varianza, en el peor de los casos, ser´ıa nula, pero seguro no podr´ıa ser negativa. As´ı, es el segundo elemento, 2λσβ,q , el que podr´ıa definir el signo de la expresi´on. Si tomamos en cuenta lo que sabemos hasta ahora, es decir: 1. La varianza de nuestro estimador dˆ es: V ar(βˆM CO ) + λ2 V ar(ˆ q ) + 2λσβ,q , 2. El estimador de MCO, βˆM CO es el m´as eficiente, es decir, el de m´ınima varianza, 3. λ2 V ar(ˆ q ) ≥ 0, 4. λ ∈ R (λ tiene que poder ser cualquier n´umero real). Podemos deducir que σβ,q s´olo puede ser cero. Para ello, suponga que σβ,q > 0. En ese caso, sabiendo que podemos tomar cualquier valor de λ, podr´ıamos justa y arbitrariamente tomar el siguiente: σβ,q V ar(ˆ q) Si reemplazamos lo anterior en la ecuaci´on (10.2), misma que debe ser igual o mayor que cero, obtenemos: λ=−
σβ,q V ar(ˆ q)
2
V ar(ˆ q) − 2
σβ,q σβ,q ≥ 0 V ar(ˆ q) 2 σβ,q ≥ 0 − V ar(ˆ q)
La u´ ltima espresi´on, marcada en rojo, es evidentemente falsa. Si σβ,q > 0 fuera negativa, entonces nosotros podr´ıamos escoger arbitrariamente una constante λ
´ CAPITULO 10. VARIABLES INSTRUMENTALES
342
que generara el sinsentido de la u´ ltima expresi´on.17 Debemos concluir por ende que σβ,q no puede ser positiva. Suponga que el otro caso, en el que σβ,q < 0. Sabiendo que podemos tomar cualquier valor de λ, podr´ıamos ahora justamente tomar el siguiente: λ=−
σβ,q V ar(ˆ q)
Si reemplazamos otra vez lo anterior en la parte de la f´ormula de la varianza de qˆ que debe ser igual o mayor que cero, obtenemos:
−
2 σβ,q ≥ 0 V ar(ˆ q)
Otra vez llegamos a un absurdo, por lo que conclu´ımos que σβ,q tampoco puede ser negativa. Si σβ,q no es ni positiva ni negativa, s´olo le resta ser igual a cero: σβ,q = 0 Ahora s´ı, podemos concentrarnos en la varianza de qˆ. Sabiendo que qˆ = βˆIV − βˆM CO , es f´acil establecer que: βˆIV = βˆM CO + qˆ Usando la expresi´on anterior, podemos calcular la varianza del estimador de IV : σ ˆβ2ˆIV
= σ ˆβ2ˆM CO + V ar(ˆ q ) + 2σβ,q = σ ˆβ2ˆM CO + V ar(ˆ q)
Ya s´olo queda reacomodar los t´erminos: V ar(ˆ q) = σ ˆβ2ˆIV − σ ˆβ2ˆM CO 17
Lo que muestra lo anterior es lo siguiente: para que la varianza del nuevo estimador sea superior a la de MCO (algo que necesariamente debe ocurrir), la constante λ debe quedar limitada a ciertos valores, es decir, no puede adoptar cualquiera que est´e inclu´ıdo en los reales. No obstante, vimos que λ deber´ıa poder tener cualquier valor. Eso es un absurdo.
10.4. LA PRUEBA DE HAUSMAN
343
Ahora s´ı, sabiendo que: (i) bajo la hip´otesis nula qˆ tiende a cero; (ii) que ambos estimadores se distribuyen asint´oticamente normal (ver en la secci´on anterior) y conociendo la varianza de la diferencia, es posible afirmar que: qˆ a ∼ N (0, 1) desv.std(ˆ q) a
donde ∼ denota “se distribuye asint´oticamente”. Si elevamos al cuadrado, obtendremos l´ogicamente: qˆ2 a ∼ χ21 g.l. var(ˆ q) Esta ser´ıa la distribuci´on del estad´ıstico de Hausman bajo la hip´otesis nula. La verdad es que existe una forma alternativa de presentar dicha prueba. Para ello, recurriremos a un ejemplo, que versa sobre el problema de los errores de medici´on en variables explicativas. Antes presentaremos, bajo la modalidad Receta de Cocina, la versi´on multivariada de la prueba.
10.4.2. La prueba de Hausman multivariada Es posible realizar una prueba de Hausman en el marco de una regresi´on multivariada donde el problema de endogeneidad no est´e circunscrito a una sola variable. Sea nuestra especificaci´on:
yt = x1t β1 + x2t β2 + · · · + xkt βk + ǫt
(10.3)
Supongamos que n de las k [n < k] variables son end´ogenas y tienen relaci´on con el t´ermino de error. Agrupemos las variables end´ogenas en una matriz que denotamos ´ Xn y a la que llamaremos M ATRIZ DE VARIABLES E ND OGENAS . A las restantes variables explicativas las agrupamos en la matriz de variables ex´ogenas Xm [m < k; n + m = k]. Habiendo hecho esta partici´on, nuestra especificaci´on es ahora: Y
= Xn βn + Xm βm + ǫ
Supongamos ahora que tenemos una matriz de instrumentos Zl donde Zl es una matriz de dimensiones T × l, con l > n. Definimos Z = [Zl Xm ] y X = [x1t x2t · · · xkt ] de tal suerte que se satisfagan las siguiente condiciones ya harto conocidas:
´ CAPITULO 10. VARIABLES INSTRUMENTALES
344
1 ′ (Z ǫ) = 0 T 1 plim (Z ′ X) = Σ T 1 plim (Z ′ Z) = Σ∗ T plim
Para llevar a cabo la prueba de Hausman estimamos por MCO las regresiones Xn ˆ n la matriz donde almacenamos los valores ajustados. En contra Z y obtenemos X otras palabras corremos la matriz de variables end´ogenas contra la nueva matriz de variables ex´ogenas. Es con esta nueva matriz que estimamos ahora:
Y
ˆnδ + ǫ = Xn βn + Xm βm + X
ˆ Evaluamos entonces la significancia del coeficiente asociado a Xn , δ: siendo la 1 ′ hip´otesis nula de la prueba de Hausman H0 : plim T Xn ǫ = 0 [es decir que las variables que conforman Xn no est´an relacionadas con el t´ermino de error]. Bajo H0 : ′ a ˆ −1 δˆ ∼ δˆ [var(δ)] χ2n g.l.
La manera de hacer la prueba de Hausman antes expuesta corresponde a la propuesta de Wu (1973).18 En el caso de que no conozcamos las variables que son end´ogenas al t´ermino de error [o mejor dicho, que no sepamos que variables son potencialmente end´ogenas], la prueba de Hausman en una regresi´on conjunta se ejecuta de la siguiente manera. Recuerde que se asume que disponemos de m´as instrumentos que variables explicativas [l > k] y que los primeros deben ser instrumentos v´alidos: 1. Correr la regresi´on por MCO y recuperar el vector de estimadores βM CO as´ı como la matriz de Varianza-Covarianza. 2. Correr la regresi´on por el m´etodo IV y recuperar el vector de estimadores βIV as´ı como la matriz de Varianza-Covarianza. 18
En el libro Econometric Theory and Methods de Davidson y MacKinnon se demuestra la equivalencia entre ambos procederes.
10.4. LA PRUEBA DE HAUSMAN
345
3. Calcular el siguiente estad´ıstico de prueba:
ˆ ′ (var ˆ H = Q ˆ (Q))−1 Q donde:
ˆ = βˆIV − βˆM CO Q var ˆ (Q) = var ˆ (βIV ) + var ˆ (βM CO ) Resulta importante resaltar que el c´alculo de este estad´ıstico s´ı es sensible al rompimiento de los supuestos de heteroscedasticidad e independencia. Por ello, en caso de que se disponga de evidencia en ese sentido, se recomiendo utilizar la matriz robusta de Varianza-Covarianza.
10.4.3. Detecci´on de errores de medici´on en variables explicativas Anteriormente descubrimos que los errores de medici´on de las variables son especialmente importantes cuando e´ stos ocurren en las variables explicativas. Es posible, si se cuenta con informaci´on adicional referente a la relaci´on, y, especialmente relacionada con esa variable que creemos mal medida, identificar el problema. No sobra recalcar que lo que veremos a continuaci´on es un caso especial de la muy conocida P RUEBA DE H AUSMAN.19 Veamos cual es el proceder en este caso. Suponga que deseamos estimar la siguiente especificaci´on:20 ¨ t + ǫt yt = βx Pero sospechamos que existen errores importantes en la medici´on de la variable explicativa (x∗t = xt + vt ) y que en realidad, estamos estimando: yt = βx∗t + ǫ∗t 19 20
De hecho, como ya se explic´o antes, corresponde a la propuesta de Wu (1973). Se asume por simplicidad, nuevamente, que las variables est´an centradas en cero.
´ CAPITULO 10. VARIABLES INSTRUMENTALES
346
Donde, recordando lo visto en cap´ıtulos anteriores, obtenemos un residual que corresponde a: ǫt ∗ = ǫt − βvt
Para corregir este problema, podemos usar IV ; no obstante, para ello necesitamos una variable instrumental, zt , correlacionada con xt pero no con ǫt ni con vt (es decir, que no est´e correlacionada con ǫ∗t ). Supongamos que la relaci´on entre xt y zt es la siguiente: xt = γ·zt + wt donde wt es un ruido blanco iid, centrado en cero y con varianza constante. Si estim´aramos esta relaci´on por medio de MCO, s´olo lo podr´ıamos hacer con la variable mal medida. En ese caso obtendr´ıamos: x∗t = xˆ∗t + wˆt Por lo que podr´ıamos calcular la variable ajustada: xˆ∗t = γˆ · zt
(10.4)
Reemplazando la variable explicativa por lo encontrado en la ecuaci´on (10.4) en la especificaci´on original (en la que sospechamos que hay un error de medici´on), obtenemos lo siguiente: yt = β xˆ∗t + β wˆt + ǫ∗t Es f´acil probar que no existe relaci´on asint´otica entre la variable explicativa ajustada, xˆ∗t , y el t´ermino de error: P γˆ zt (ǫt − βvt ) 1X ∗ ∗ = plim xˆt ǫt plim T T = 0
Con esto aseguramos una estimaci´on consistente de β. Por otra parte, ahora tenemos otro par´ametro a estimar que, de hecho, tiene el mismo valor. El hecho de que exista un error de medici´on, no obstante, tiene efectos sobre este u´ ltimo:
10.4. LA PRUEBA DE HAUSMAN
1 plim Σwˆt ǫt ∗ T
347
1X ∗ = plim (xt − γˆ zt ) (ǫt − βvt ) T
El producto de la variable instrumental con el t´ermino de error puede eliminarse gracias a los supuestos que hicimos respecto a las propiedades de un instrumento. Recuerde adem´as que la variable mal medida hab´ıa sido definida como x∗t = xt +vt . Con esto en mente podemos continuar el desarrollo:
1 plim Σwˆt ǫt ∗ T
1X ∗ = plim − βxt vt T 1 X = plim − β (xt + vt ) · vt T
No hay relaci´on entre la variable explicativa–bien medida–y el error de medici´on, por lo que, en el l´ımite, la covarianza entre ambas es cero. S´olo nos queda el u´ ltimo producto, que no es otra cosa sino la varianza del error de medici´on. Nuevamente, en el l´ımite, la suma de dicho error al cuadrado tiende a esa varianza: 1 ∗ = −βσv2 plim Σwˆt ǫt T As´ı pues, en presencia de un error de medici´on, el par´ametro que acompa˜na a wˆt estar´a estimado de manera inconsistente. No obstante, y esto es E N E XTREMO I MPORTANTE, si no hay error de medici´on, la varianza de e´ ste podr´ıa considerarse nula, es decir: σv2 = 0 En ese caso, la estimaci´on del segundo par´ametro, que tambi´en es β, ser´a consisˆ tente. Representemos al estimador de este segundo β con otra letra: δ. En ese caso, podemos manipular nuevamente la especificaci´on a estimar: yt = β · xˆ∗t + δ · wˆt + ǫ∗t
si reemplazamos xˆ∗t por x∗t − wˆt , obtenemos:
yt = βx∗t + (δ − β) · wˆt + ǫ∗t
348
´ CAPITULO 10. VARIABLES INSTRUMENTALES
Note como, en caso de no haber error de medici´on, el estimador de δ tiende a β; lo mismo ocurre con el estimador de β. Por ello, p δˆ→β
p De ello se deduce que δˆ − βˆ → 0. Es con base en lo anterior que se puede hacer la prueba de hip´otesis. Al par´ametro de esta u´ ltima especificaci´on se le puede aplicar una sencilla prueba t, como siempre; si resulta estad´ısticamente igual a cero, no habr´a evidencia de errores de medici´on. Si por el contrario, se rechaza la prueba, tendremos entonces que comenzar a preocuparnos por reemplazar esa variable. Resumamos esta prueba r´apidamente; los pasos de e´ sta son: 1. Correr una regresi´on donde xˆ∗t sea la variable dependiente y zt , un instrumento, sea la explicativa; 2. Obtener residuales de esa regresi´on: wˆt∗ ; 3. Correr una segunda regresi´on en donde yt sea la variable explicada y x∗t y wˆt∗ sean las explicativas; 4. Aplicar un sencillo estad´ıstico t de significancia al par´ametro asociado al residual.21
21
Si tuvi´eramos sospechas de otras variables m´as respecto a su mediaci´on, ser´ıa necesario correr m´as regresiones como la primera e incluir otros residuales en la segunda. En este caso, convendr´ıa m´as hacer una prueba de hip´otesis conjunta sobre todos los par´ametros asociados a los residuales.
Cap´ıtulo 11 Causalidad, exogeneidad y estabilidad cum hoc ergo propter hoc
Falacia de la causalidad: “con ello y por consecuencia, debido a ello”
post hoc ergo propter hoc
Falacia de la causalidadbis : “esto es previo a ello y por consecuencia, ello es debido a esto” A lo largo del cap´ıtulo anterior vimos que muchas cosas pueden salir mal cuando se estima una relaci´on. Afortunadamente existen tambi´en muchos m´etodos de detecci´on y alguna que otra soluci´on. Si bien Variables Instrumentales, que estudiamos en en la secci´on anterior, constituye una soluci´on para muchos de nuestros problemas reci´en descubiertos, vale la pena discutir otros aspectos que permiten al econometrista realizar un mejor ejercicio de estimaci´on. Espec´ıficamente, vamos a comenzar con una propuesta de Granger para controlar/comprender/acotar la cuesti´on de la causalidad entre nuestras variables.1 1
Este apartado incluye secciones de la tesis de Eduardo Vera Vald´es (2007).
349
350
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.1.
La Causalidad en el sentido de Granger C AUSALIDAD : Ley en virtud de la cual...
Si bien uno desear´ıa tener una definici´on contundente de lo que es Causalidad, lo cierto es que no la hay; no al menos una que logre unanimidad. De hecho, veremos como en realidad definir causalidad es m´as complicado de lo que parece. No resulta muy aventurado se˜nalar que, en ciencia, es necesario dar una definici´on de lo que se quiere discutir antes de empezar la discusi´on respecto al tema de inter´es. Sin dicha definici´on el tema central adquiere el riesgo de ni siquiera ser abordado debido a la confusi´on de los t´erminos empleados. Una buena definici´on puede, en ocasiones ayudar m´as en el esclarecimiento de un tema que un argumento elaborado. A´un si matem´aticamente es posible definir cualquier estructura con la expresi´on que se nos ocurra, se busca en general darle un respaldo te´orico. Este respaldo es importante ya que recurre en ocasiones a palabras de uso cotidiano en nuestro lenguaje. Las definiciones deben producir la menor—de preferencia ninguna—confusi´on en las personas que lean los resultados. En general, es de esperar que una persona que lea un resultado en Estad´ıstica entienda que se quiere decir con Esperanza, Varianza, Mediana; se espera que no confunda estos t´erminos con su acepci´on coloquial. A la par de esta complicaci´on, el tener que respaldar te´oricamente nuestra definici´on tiene tambi´en grandes ventajas. Una vez planteada la definici´on, e´ sta puede ser usada, obviamente, dentro del contexto en el cual se plante´o; se tiene por entendido el significado en ese a´ mbito restringido. Existen conceptos muy arraigados en nuestro lenguaje; en general no es necesario definir manzana o pera para poder hablar de ellas; pero, no siendo e´ ste el caso con el concepto de causalidad, nos vemos en la impetuosa necesidad de plantear y respaldar una definici´on. La intenci´on de esta introducci´on es (i) recalcar la importancia de las definiciones en ciencia y (ii) lograr un convencimiento respecto a la importancia de plantear y respaldar una definici´on de causalidad.
11.1.1. Filosof´ıa detr´as de Causalidad Mucho ha sido el trabajo realizado para definir un concepto de causalidad que sea aceptado, si no por toda la comunidad cient´ıfica, al menos por una amplia mayor´ıa.2 El concepto de causalidad ha evolucionado a la par del pensamiento humano. Hay 2
Cabe resaltar el trabajo realizado por Arist´oteles y Leibniz y Hume, al buscar una definici´on.
11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER
351
en la actualidad muchas teor´ıas y definiciones, muchas de ellas en franca contraposici´on. No es de extra˜nar que una palabra tan utilizada en nuestro vocabulario e implicando e´ sta un concepto tan ligado a la experiencia personal no tenga una definici´on precisa ni sea f´acil formular una definici´on aceptada por todos. Grandes pensadores han contribuido en este ejercicio. Arist´oteles se embarc´o en la b´usqueda de una teor´ıa de causalidad como parte de su estudio de la naturaleza. ´ como muchos de sus contempor´aneos, cre´ıa que la u´ nica forma de explicar un El, fen´omeno es mediante el estudio de las causas que lo originan. Cre´ıa adem´as que la b´usqueda de una causa era lo mismo que la b´usqueda de una respuesta a la pregunta: ¿P OR QU E´ ? En F´ısica, Arist´oteles plantea la siguiente restricci´on al conocimiento humano: No tenemos conocimiento real de algo hasta que no hemos logrado responder a su ¿Por qu´e?, es decir, a lo que lo causa... Con ello en mente y como un instrumento para su trabajo es que Arist´oteles decide formular su teor´ıa de causalidad; en F´ısica II y en Metaf´ısica V plantea su teor´ıa de las cuatro causas: 1. Causa material; la encargada del qu´e; por ejemplo, el bronce de una estatua. 2. Causa formal; la encargada de la forma; por ejemplo, el molde de la estatua. 3. Causa eficiente; el c´omo fue hecho; por ejemplo, el artesano. 4. Causa final; el para qu´e fue hecho; por ejemplo, la decoraci´on, el ornato. Es con esta teor´ıa que Arit´oteles busca explicar la naturaleza y todos los fen´omenos de e´ sta. En la actualidad nuestro concepto de causa no incluye los dos primeros de la teor´ıa de Arist´oteles; las vemos a ambas como producto del ingenio del artesano (en el ejemplo arriba descrito). Es sobre todo importante resaltar su defensa a su ´ planteaba que en la naturaleza todo acontece como parte de un “causa final”. El proceso mayor al cual queda supeditada la naturaleza; ello con motivo de un fin tentativamente “bueno”. Es en F´ısica donde Arist´oteles postula que el desarrollo de la dentadura de los animales se da con el u´ nico fin de que el animal sobreviva y no como simple coincidencia. M´as adelante, al momento de plantear la definici´on que usaremos (debida a Granger ....), veremos que uno de nuestros supuestos es que el futuro no puede causar al pasado, supuesto en franca contraposici´on con la teor´ıa de la causa final de Arist´oteles. “Este fin por el cual las cosas se desarrollan” es una postura que defiende la posibilidad de que el futuro realmente cause al pasado. Esto
352
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
es equivalente a decir que el hecho de querer estudiar una carrera es lo que hace que los estudiantes asistan a la Preparatoria.3 Como defensa de nuestra hip´otesis, se plantea esta otra forma de pensar: que al ser su intenci´on estudiar una carrera, es que se realizan acciones que en un futuro causen su ingreso a la Licenciatura. Se ha mantenido nuestra hip´otesis; siendo as´ı que lo que origin´o estas acciones es la concepci´on arraigada de que el presente o el pasado causan al futuro, no viceversa. En tiempos menos reculados, durante la Edad Media, el concepto de causalidad, as´ı como todo el desarrollo humano, fue visto como originado y provocado por Dios. Es as´ı como el concepto cae en una especie de “oscurantismo” en el cual se postula que todo lo que sucede en la naturaleza es obra de Dios, incluyendo, por supuesto, todas las causas y efectos. En esta forma de pensar, el hombre no es capaz de causar algo, no es sino la voluntad de Dios y las acciones de e´ ste lo que originan todo. Si bien esta postura es defendible teol´ogicamente, no permite avanzar epistemol´ogicamente.4 Dicha postura no puede ser planteada cient´ıficamente sin incurrir en controversias ajenas a la ciencia. Adem´as, en la actualidad tenemos la creencia que nuestras acciones s´ı causan consecuencias (En general consideramos que el que un conductor ebrio impacte su veh´ıculo es producto del nivel de alcohol en la sangre de dicho conductor). Muchas de la teor´ıas actuales de causalidad han sido producto del trabajo realizado por David Hume en el siglo XVIII. Hume, quien en principio rechaza toda noci´on de causa5 decide m´as tarde tomar una postura constructiva y plantea una definici´on de causalidad sobre la cual se pueda debatir. Esta postura es parecida a la asumida por Granger en “Probando Causalidad. Un punto de vista personal”. Hume dice lo siguiente: “Podemos definir una causa como un objeto seguido de otro, donde todos los objetos similares al primero son seguidos de objetos similares al segundo.”6 3
Otro ejemplo ser´ıan las pol´ıticas y medidas adoptadas por un Banco Central para as´ı cumplir su meta inflacionaria; y es que en esta forma de pensar, es el lograr esta meta lo que causa estas pol´ıticas. 4 Siguiendo las ra´ıces griegas de ambos t´erminos, se sabe que la teolog´ıa es el estudio de dios, mientras que la epistemolog´ıa corresponde al estudio del conocimiento. 5 En Hume (1740) plantea, No tenemos otra noci´on de causa y efecto que la obtenida de que ciertos objetos que siempre han sucedido conjuntamente, y que en situaciones anteriores se les ha encontrado inseparables. Nosotros no podemos adentrarnos en la raz´on de esta conjunci´on, s´olo observamos los acontecimientos, y debido a esta constante conjunci´on, los objetos adquieren una uni´on en la imaginaci´on. 6 Hume 1748, secci´on VII.
11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER
353
Este planteamiento parece recavar las ideas que se ten´ıan sobre causalidad. El siglo XIX, de hecho, consolid´o en cierta forma esta manera de pensar. Alentados por la revoluci´on newtoniana, los cient´ıficos, especialmente los f´ısicos, consideraron que el universo era una especie de gran mecanismo de relojer´ıa, es decir, un universo regido por reglas deterministas que explicitan las relaciones entre las variables y determinan las causalidades. Lo anterior ´ınst´o a muchos a pensar que, conociendo tales reglas, no habr´ıa misterios que resolver. Esto queda plasmado en el D EMONIO DE L APLACE : Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podr´ıa concebir un intelecto que en cualquier momento dado conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a an´alisis, podr´ıa condensar en una simple f´ormula el movimiento de los grandes cuerpos del universo y del a´ tomo m´as ligero; para tal intelecto nada podr´ıa ser incierto y el futuro as´ı como el pasado estar´ıan frente sus ojos.7 La concepci´on determinista del universo cambi´o radicalmente al surgir la Mec´anica Cu´antica. En esta u´ ltima, los procesos estoc´asticos juegan un papel central. Cabe destacar que no lo hizo sin oposici´on del establishment cient´ıfico. Inst´o a Einstein a formular su c´elebre frase: “D IOS NO J UEGA A LOS DADOS”. No obstante, conforme dicho establishment fue, literalmente, muriendo, imper´o un nuevo paradigma.8 En todo caso, as´ı como la Mec´anica Cu´antica revolucion´o a la F´ısica, tambi´en lo hizo con nuestra idea de causalidad. Es justamente en este contexto que nace el concepto de causalidad probabil´ıstica.
11.1.2. Causalidad en Probabilidad El reciente e´ xito de la Mec´anica Cu´antica ha debilitado nuestra fe en el determinismo. En e´ sta, al contrario de la Mec´anica Cl´asica, s´olo podemos hablar de la probabilidad de que algo ocurra despu´es de cierta acci´on; no se tiene certeza de cual ser´a el resultado. Debido a ello los fil´osofos encuentran atractiva una teor´ıa de causalidad que no presuponga determinismo. Una de las teor´ıas que surgen como respuesta a este deseo ha sido la causalidad probabil´ıstica. La idea central de esta teor´ıa es que las causas aumentan la probabilidad de sus efectos, un efecto puede ocurrir a´un en la ausencia de una causa o 7
Pierre Simon Laplace, 1814. Fuente: Wikipedia [http://es.wikipedia.org/wiki/Pierre_Simon_Laplace]. 8 Resalta la respuesta dada por Hawking a la c´elebre frase de Einstein: Dios no s´olo juega a los dados, sino que a veces los tira donde nadie los puede ver.
354
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
puede no suceder en presencia de e´ sta. Debido a que las teor´ıas probabil´ısticas de causalidad s´olo requieren un aumento en la probabilidad de sus efectos, resultan m´as compatibles con el indeterminismo de la Mec´anica Cu´antica, y, de hecho, con el indeterminismo de las variables econ´omicas. La idea central de que una causa aumenta la probabilidad de sus efectos puede ser expresada formalmente mediante la metodolog´ıa de la probabilidad condicional. Usando la notaci´on est´andar en probabilidad, denotaremos P (B|A) a la probabilidad condicional de B dado A; i.e. la probabilidad de que el evento B suceda, provisto que sucedi´o el evento A. Una forma natural de entender que el evento A aumenta la probabilidad del evento B es que P (B|A) > P (B|Ac ) por lo que el primer intento hacia una teor´ıa de causalidad probabil´ıstica ser´ıa: Definici´on 13 A causa B si y s´olo si P (B|A) > P (B|Ac ) A´un cuando esta formulaci´on es acorde con el indeterminismo, plantea un nuevo problema debido a las correlaciones espurias. Si ambos eventos A y B son a la vez causados por un tercer evento C puede darse el caso en que P (B|A) > P (B|Ac ) a´un cuando A no cause B. Por ejemplo, sea A el evento de que un individuo tenga los dientes manchados , y sea B que el individuo padezca de c´ancer pulmonar. Es de esperar que P (B|A) > P (B|Ac ), esto debido a que fumar tiende a producir ambos efectos. Seg´un nuestra experiencia, los individuos con dientes manchados tienen m´as probabilidad de ser fumadores y por lo tanto m´as probabilidad de padecer c´ancer pulmonar. Intuitivamente, la soluci´on a este problema es el requerir que las causas aumentan la probabilidad de sus efectos ceteris paribus. As´ı como los hebreos son considerados “la gente del libro”, los economistas son considerados “la gente del modelo”.9 Son de enorme importancia en el estudio econ´omico los modelos formales de variables econ´omicas: con ellos se pueden determinar la relaci´on entre ciertas variables de inter´es dejando que el resto permanezca sin cambios. Esta idea central de que el resto permanezca sin cambios o ceteris paribus10 es una piedra angular del an´alisis econ´omico. Con estas ideas como sustento, los efectos del evento A de la definici´on anterior permanecen obligatoriamente constantes en situaciones de prueba, es decir: 9
James L. Heckman 2000 La noci´on de ceteris paribus es atribu´ıda a A. Marshall a´un cuando e´ l mismo no us´o este t´ermino en su libro (ve´ase A. Marshall, 1920). 10
11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER
355
Definici´on 14 A causa B si y s´olo si P (B|A y S) > P (B|Ac y S) para cada situaci´on de prueba S.11 Una situaci´on de prueba es un conjunto de factores que se dejan fijos durante la prueba; es importante recalcar que no se puede dejar fijo el resto de variables en nuestro experimento. Supongamos que C es la causa de B y a su vez es causada por A; al dejar fijo C concluir´ıamos que A no causa B siendo esto falso. Debido a esta posible transitividad, es importante asegurarse de no dejar fuera del experimento causas de B que son a su vez resultado de la acci´on de A. Sea el conjunto independiente de causas de B el que incluya todos los factores causantes de B no causados a su vez por A, entonces una situaci´on de prueba ser´a el conjunto maximal de los conjuntos independientes de causas de B. Definiendo as´ı causalidad y situaciones de prueba hemos obtenido una teor´ıa que es compatible con el indeterminismo y que logra distinguir entre causas y correlaciones espurias. ´ Esta teor´ıa, y sobre todo las ideas principales detr´as de ella, ser´an el eje central de la definici´on que nosotros usaremos de causalidad. Nuestra visi´on de causalidad ser´a una con enfoque probabil´ıstico aplicada a series de datos de variables econ´omi´ cas, una visi´on E CONOM ETRICA , para llamarlo por su nombre.
11.1.3. Causalidad en Econometr´ıa La Econometr´ıa fue desarollada como herramienta de la Econom´ıa para interpretar y analizar datos econ´omicos. Siendo el objeto de trabajo de la Econometr´ıa los datos recabados, se han adoptado y adaptado m´etodos de Estad´ıstica y Probabilidad para su an´alisis. Siendo de especial inter´es las causas que originan cambios en variables econ´omicas (como medio para establecer pol´ıticas econ´omicas) se han desarrollado algunas teor´ıas de causalidad aplicables a los datos recabados. Existen dos teor´ıas principales de causalidad en Econometr´ıa, una debida a MarshalNeyman-Rubin basada en resultados potenciales, y la otra debida a Wiener-GrangerSims basada en predicibilidad.12 Nosotros fijaremos nuestra atenci´on en la segunda, la de Wiener-Granger-Sims. En este enfoque se toma como medio para definir causalidad a la predicibilidad de las variables. Usando la notaci´on de Series de Tiempo, denotaremos como xt a la observaci´on en el tiempo t de la variable x; de esta forma la definici´on debida a Granger nos indica 11
Las primeras versiones de esta teor´ıa fueron presentadas en Cartwight (1979) y Skyrms (1980) V´ease tambi´en el concepto de “screening off” presentado en Reichenbach (1956) y Suppes (1970). 12 V´ease Lechner (2006) y Heckman (2000) para una discusi´on de mayor profundidad en cuanto a la diferencia de estos conceptos.
356
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
que la variable x causa a la variable y si somos capaces de dar una mejor predicci´on del valor futuro de y usando el valor contempor´aneo de x. Definici´on 15 Decimos que xt causa a yt+1 si somos capaces de predecir mejor yt+1 usando toda la informaci´on disponible, que si la informaci´on distinta de xt hubiera sido usada.13
11.1.4. La Granger-Causalidad Retomando la noci´on de causalidad de Granger, analizaremos la metodolog´ıa de la prueba que lleva el mismo nombre. Para probar si una variable x causa a la variable y plantearemos la siguiente ecuaci´on:14 yt = γ0 + α1 yt−1 + α2 yt−2 + . . . . . . + αr yt−r + β1 xt−1 + . . . + βs xt−s + u1t
(11.1)
De acuerdo a la definici´on propuesta por Granger, de ser x una causa de y, podr´ıamos esperar que la regresi´on (11.1), que definiremos como regresi´on no restringida, se ajuste a los datos mejor que en la siguiente ecuaci´on... yt = γ0 + α1 yt−1 + α2 yt−2 + . . . + αr yt−r + u2t
(11.2)
... donde se omite la variable x y a la que denominaremos regresi´on restringida. Para poder evaluar la aportaci´on en capacidad explicativa—que no predictiva, n´ otese— P recuperamos las sumas de residuales al cuadrado de ambas regresiones, uˆ2Rt y P uˆ2N Rt , respectivamente. Posteriormente, realizaremos el siguiente c´alculo: F =
(SRCR − SRCN R ) /s SRCN R / (T − r − s)
(11.3)
Donde SRCR y SRCN R corresponden a la suma de residuales cuadr´aticos de la regresi´on restringida y de la no-restringida, respectivamente; la hip´otesis nula, evidentemente trata de la no-significancia de los s rezagos de la variable x en la regresi´on no-restringida. De cumplirse dicha hip´otesis nula, nuestro c´alculo corresponder´a a 13 14
V´ease Granger (1969). Es muy importante siempre dejar claro que esta causalidad es en el sentido de Granger.
11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER
357
una distribuci´on de F de Fisher dado que se trata de un cociente de sumas cuadr´aticas independientes cuya distribuci´on es, en ambos casos, χ2 . As´ı pues, esta es la forma en la que se prueba la hip´otesis nula de no Causalidad en el sentido de Granger entre variables. Es posible definir el n´umero de rezagos de ambas variables en las regresiones auxiliares mediante criterios de selecci´on tales como el de Akaike (AIC) o el Bayesiano (BIC), que ya hab´ıamos visto en el primer curso de econometr´ıa. Para finalizar la discusi´on, vale la pena dejar bien asentado que estamos probando: 1. H0 : x no causa en el sentido de Granger a y 2. Ha : x s´ı causa en el sentido de Granger a y
Ejemplo 18 Explicar algunos aspectos adicionales de la prueba de Granger-Causalidad (GC) es m´as f´acil mediante un ejemplo. Una pregunta que podr´ıamos tratar de responder con esta prueba es la siguiente: ¿E L P IB G RANGER -C AUSA L A D EMANDA D E D INERO [P IB → M ]? ´ [M → P IB]? ¿O ACASO ES AL R EV ES As´ı, haremos dos veces la prueba, y no s´olo una vez. De lo anterior es evidente que pueden salir diversos resultados, mismos que el econometrista siempre debe contemplar: 1. P IB → M y M → P IB > causalidad unidireccional del ingreso a la demanda de dinero, 2. P IB → M y M → P IB > causalidad unidireccional de la demanda de dinero al ingreso, 3. P IB 6↔ M Sin relaci´on causal, 4. P IB ↔ M Causalidad bidireccional.
358
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.2.
Exogeneidad
11.2.1. Exogeneidad a` la Cowles Commission La exogeneidad con la que lidiaremos en buena parte de este curso (espec´ıficamente ser´a usada en el contexto de las ecuaciones simult´aneas) est´a m´as emparentada con su concepci´on cl´asica (es decir, la que estableci´o la Comisi´on Cowles) que con la que preconizaron Engle, Hendry y Richard en un famoso art´ıculo de 1983. Espec´ıficamente, la exogeneidad que utilizamos en este curso se denomina E XOGENEIDAD E STRICTA: Definici´on 16 Sea el modelo yt = α + βxt + ut . La variable xt es estrictamente ex´ogena s´ı es estoc´asticamente independiente del t´ermino de error para todo periodo: xt kut+s ∀ s donde k denota independencia estoc´astica. ´ : Una definici´on menos exigente es la de P REDETERMINACI ON Definici´on 17 Sea el modelo yt = α + βxt + ut . La variable xt es predeterminada s´ı es estoc´asticamente independiente del t´ermino de error contempor´aneo y futuro: xt kut+s ∀ s ≥ 0 Es posible establecer exogeneidad estricta en nuestros modelos mediante la prueba de Hausman que ya conocemos. Esencialmente, dicha exogeneidad estricta corresponde al supuesto de ortogonalidad que hemos estudiado hasta ahora. En lo que corresponde al concepto de variable predeterminada, e´ ste tambi´en ser´a estudiado con mucho m´as detalle cuando abordemos el tema de las ecuaciones simult´aneas. No obstante, resulta importante discutir un poco m´as sobre la predeterminaci´on. Suponga que disponemos de una variable que no satisface la definici´on de estricta exogeneidad, pero s´ı la de predeterminaci´on. Al no ser estrictamente ex´ogena, no podemos utilizarla como regresor en la especificaci´on, puesto que rompe el supuesto de ortogonalidad harto estudiado hasta ahora y obtendr´ıamos estimadores sesgados e inconsistentes. La soluci´on es estimar la ecuaci´on mediante Variables Instrumentales. Es ah´ı donde entra en juego la definici´on m´as laxa de exogeneidad. Suponga que nuestro regresor si puede considerarse predeterminado. Lo anterior
11.2. EXOGENEIDAD
359
implica que, rezagos de dicho regresor pueden ser empleados como instrumentos. Lo anterior nos abre una nueva cantera de donde extraer instrumentos. Huelga decir que ello no nos exime de ejecutar las pruebas de relevancia y validez de los instrumentos. En la pr´oxima secci´on veremos algunas extensiones del concepto de exogeneidad que se han suscitado desde principios de los ochenta.
11.2.2. Exogeneidad a` la Engle, Hendry y Richard Como ya se˜nalamos en la secci´on anterior, el concepto de exogeneidad ha evolucionado en los u´ ltimos tiempos. En particular, los tres autores que aparecen en el encabezado fueron los precursores de un concepto de exogeneidad m´as fino. En voz de algunos expertos esta extensi´on no tiene un alcance excesivo para cuestiones emp´ıricas, aunque dicha afirmaci´on es, cuando menos, debatible.15 En todo caso vale la pena conocer su naturaleza y comprender, al menos intuitivamente, su importancia en teor´ıa. En particular destaca una respuesta a la famosa Cr´ıtica de Lucas.16 En este art´ıculo se presentan tres tipos de exogeneidad: ´ 1. EXOGENEIDAD D EBIL 2. E XOGENEIDAD F UERTE 3. S UPER E XOGENEIDAD Suponga, para aclarar un poco las ideas, que tenemos el siguiente modelo: yt = βzt + ǫ1t zt = α1 zt−1 + α2 yt−1 + ǫ2t
(11.4)
Suponga adem´as que nuestro inter´es radica exclusivamente en estimar la primera ecuaci´on. Hasta ahora, nuestra preocupaci´on ha sido verificar que la variable zt sea ex´ogena al t´ermino de error de la primera ecuaci´on. Seg´un Engle et al, esa preocupaci´on est´a mal planteada. La exogeneidad relevante depende de la raz´on por la cual se desea estudiar la primera regresi´on (que es la que estimar´ıamos). De acuerdo a esos autores, existen tres razones para hacerlo: 15
Davidson y Mackinnon (2004) y Maddala (1992) inter alia desestiman el concepto, pero otros autores, como Ericsson, Johansen, Hunter, Juselius, Ahumada, Granger, Campos y Hansen, no. Consulte el libro Testing Exogeneity de Ericsson y Irons para m´as detalles. 16 Misma que ser´a abordada m´as adelante.
360
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
1. C ON UNA FINALIDAD INFERENCIAL , ES DECIR , PARA OBTENER ESTI ´ PAR AMETRO ´ ´ ( COMO PODR ´I A SER MADORES DE ALG UN DE INTER ES β), ´ 2. C ON UNA FINALIDAD PREDICTIVA , ES DECIR , HACER PRON OSTICOS DE y CONDICIONADOS EN z, ´ DE POL ´I TICA ECON OMICA ´ 3. C ON UNA FINALIDAD DE ELABORACI ON , ´ ES DONDE ES NECESARIO ASEGURAR QUE LA PRIMERA ECUACI ON ´ ESTRUCTURALMENTE INVARIANTE A CAMBIOS EN LA DISTRIBUCI ON MARGINAL DE z. Como bien puede sospechar, a cada finalidad le corresponde un tipo de exogeneidad. Note que la super exogeneidad es, en cierta manera, la respuesta a la C R ´I TICA DE L UCAS.17 Procederemos de la siguiente manera; daremos en un inicio la definici´on de exogeneidad d´ebil, misma que explicitaremos a trav´es del estudio del modelo de Telara˜na (Cobweb Model, en ingl´es). Posteriormente daremos las definiciones faltantes y proporcionaremos espec´ıficamente sus consecuencias te´oricas en econom´ıa y econometr´ıa. Exogeneidad d´ebil Definici´on 18 Sean dos variables aleatorias denotadas yt y zt , con distribuci´on conjunta Fx (xt ; θ), donde xt = (yt , zt ). La variable zt es d´ebilmente ex´ogena en el periodo de muestra T y en referencia al par´ametro de inter´es ψ si y s´olo si existe una reparametrizaci´on de θ en tanto λ, donde λ = (λ′1 , λ′2 )′ , tal que: 1. ψ sea u´ nicamente funci´on de λ1 , 2. La factorizaci´on de la densidad conjunta sea de la forma:18 Fx (xt ; θ) = Fy|x (yt | zt ; λ1 ) · Fz (zt ; λ2 ) donde λ ∈ Λ1 × Λ2 17
¿Conoce usted la Cr´ıtica de Lucas? Recuerde que la distribuci´on conjunta es igual al producto de la distribuci´on condicional y la distribuci´on marginal. 18
11.2. EXOGENEIDAD
361
donde el vector de par´ametros θ comprende al conjunto completo de par´ametros del proceso conjunto; λ1 y λ2 son los par´ametros de la distribuci´on condicional y marginal, respectivamente; Θ, Λ1 , y Λ2 son los espacios param´etricos respectivos de θ, λ1 , y λ2 . Esta obscura definici´on se har´a m´as clara con el ejemplo del modelo de Telara˜na que usaremos a continuaci´on. Es importante se˜nalar que no estudiaremos con mucho detalle la din´amica de dicho modelo, puesto que eso lo haremos en el cap´ıtulo siguiente: Ejemplo 19 El Modelo de Telara˜na:19 suponga un mercado donde la demanda y la oferta se rigen con base al siguiente modelo:
pt = bqt + v1t qt = kpt−1 + ǫ2t
(11.5) (11.6)
donde v1t ∼ iidN (0, σ 2 ), ǫ2t ∼ iidN (0, ω22 ), E(qt v1t ) = 0 y E(ǫ2t v1t ) = 0; las variables est´an transformadas en logar´ıtmos. La interpretaci´on es bastante directa; la ecuaci´on (11.5) se deriva de una ecuaci´on de demanda, el precio pt vac´ıa el mercado dada la cantidad qt ofertada. El valor 1 corresponde a la elasticidad-precio de la demanda. Por otra parte, la ecuaci´on b (11.6) es la funci´on de oferta que captura como la cantidad que los productores deciden ofrecer en t es funci´on del precio que obtuvieron en t − 1. El par´ametro k es la elasticidad-precio de la oferta. En este tipo de modelo, el estudio de la estabilidad del sistema puede ser en muchas ocasiones el principal objeto de estudio (en series de tiempo, denotar´ıamos esto como estudio de estacionariedad). En particular, en una versi´on tan sencilla, es f´acil ver la manera de analizarla; basta con encontrar lo que hasta ahora hemos llamado ecuaci´on reducida mediante la combinaci´on de las dos ecuaciones: pt = ρpt−1 + ǫ1t donde ρ = b · k y ǫ1t ∼ iidN (0, ω11 ). En el pr´oximo cap´ıtulo quedar´a claro (esperemos) que, si | ρ |< 1, la din´amica del mercado es estable; si | ρ |= 1, el mercado 19
La ejemplificaci´on de la exogeneidad d´ebil con base en este modelo fue retomada de Ericsson (1994). Tambi´en se retomaron elementos de la discusi´on que aparece en Johnston y DiNardo (1997), as´ı como en Maddala (1992).
362
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
genera precios que oscilan sin que e´ stos convergan, y; si | ρ |> 1, la din´amica es inestable.20 Ahora s´ı, veamos como nuestro par´ametro de inter´es as´ı como los espacios param´etricos determinan si la variable qt en la ecuaci´on (11.5) es d´ebilmente ex´ogena o no y con respecto a que par´ametro lo es. Recuerde que nuestro objetivo es justamente poder estimar esa ecuaci´on sin preocuparnos de la otra. Considere que lo que nos interesa estimar es la funci´on de demanda. En particular, considere si las dos condiciones que permiten exogeneidad d´ebil quedan satisfechas. En la definici´on de exogeneidad d´ebil hac´ıamos referencia a los par´ametros de la densidad condicional y los de la densidad marginal. En este caso es f´acil identificarlos: Par´ametros de la densidad condicional: λ1 = (b, σ 2 ) Par´ametros de la densidad marginal: λ2 = (k, ω22 ) La primera condici´on para que qt sea d´ebilmente ex´ogena es que el par´ametro de inter´es sea funci´on u´ nicamente de los par´ametros de la densidad condicional. Si dicho par´ametro es la elasticidad de la demanda, 1b , entonces deber´ıa quedar claro que la primera condici´on s´ı se cumple; por otra parte, si la estabilidad del sistema, ρ, es el par´ametro de inter´es, entonces, esa misma condici´on ya no se cumple (puesto que b y k pertenecen a λ1 y λ2 , respectivamente). Dado que ese par´ametro requiere el conocimiento de las dos ecuaciones (contrariamente a 1b ), hacerlo s´olo con la primera ecuaci´on resultar´ıa inadecuado. As´ı, la variable qt satisface la primera condici´on de la exogeneidad d´ebil (ED) cuando el par´ametro de inter´es es b, pero no cuando e´ ste es ρ. Como podr´an ver, la selecci´on del par´ametro de inter´es no es trivial. La segunda condici´on de ED se puede interpretar como el libre albedr´ıo de los par´ametros en cada espacio param´etrico. Los par´ametros de λ1 y los de λ2 deben ser libres en su variaci´on y no estar restringidos mutuamente. Presentaremos ahora tres situaciones en las que a veces se satisface la condici´on y a veces no. Para efectos de claridad en la exposici´on, haremos caso omiso de σ 2 y de ω22 en sus respectivos espacios param´etricos. Lo anterior permite que el espacio param´etrico completo, denotado Λ pueda ser analizado en un plano (puesto que se trata del espacio de (b, k)). Vea el gr´afico (11.1, panel a)] 20
En todo caso, si asume que el proceso empez´o en el tiempo 0 y que en ese momento el precio era P0 , por sustituci´on puede llegar a la expresi´on pt = ρt p0 + ρt−1 ǫ1,1 + . . . + ǫ1,t +. Si | ρ |< 1 el sistema olvida los ǫs pasados (a una tasa exponencial, por cierto); si | ρ |= 1 el sistema nunca olvida los ǫs pasados y por lo mismo no podemos esperar convergencia alguna hacia el equilibrio; si | ρ |> 1 el sistema no s´olo no olvida los ǫs pasados, sino que la importancia de los mismos crece (tambi´en, a una tasa exponencial) entre m´as remotos sean.
11.2. EXOGENEIDAD
363
1. Suponga que tanto b como k pueden adoptar cualquier valor real sin restricci´on alguna. El espacio param´etrico Λ es entonces ℜ2 , es decir, el plano real entero. Para cada valor de k, el par´ametro b puede adoptar cualquier valor entre el intervalo (−∞, +∞) (lo que corresponde a Λ1 ) y viceversa. Los valores de los par´ametros de la densidad condicional no afectan el rango de los valores que puedan adoptar los par´ametros de la densidad marginal (y viceversa). Ello implica que λ1 y λ2 son libres en su variaci´on (tienen libre albedr´ıo); De forma equivalente, y con objeto de acercarnos a la segunda condici´on de la ED, podemos decir que, en este caso, el espacio param´etrico Λ es el producto Λ1 × Λ2 : (−∞, +∞) × (−∞, +∞), lo cual corresponde a ℜ2 . Una vez satisfecha la segunda condici´on, podemos decir que qt es d´ebilmente ex´ogena a la elasticidad ( 1b ). 2. Ahora suponga que restringimos los valores de b y k de tal suerte que aseguramos que el sistema es estable. Ello implica satisfacer la siguiente condici´on: | b · k |< 1. Esta vez, el espacio param´etrico no es tan grande. De hecho, es f´acil representarlo en el plano [ver gr´afico (11.1, panel b)]. Lo importante aqu´ı es constatar que los valores de k s´ı afectan los valores de b (y viceversa). Por ejemplo, si k = 0.5, entonces b queda limitado a estar en el intervalo (−2, +2); si k = 0.2, entonces b queda esta vez limitado a estar en el intervalo (−5, +5); si b = 1, entonces k queda limitado a estar en el intervalo (−1, +1). Expresado de otra manera, el espacio param´etrico Λ ya no es el producto Λ1 ×Λ2 : (−5, +5)×(−1, +1), lo cual no corresponde a Λ, que est´a acotado por | b·k |< 1. Tambi´en esto se puede interpretar de la siguiente manera: el valor de k es informativo del valor de b, lo confina. Ya para rematar, constatamos que el libre albedr´ıo entre los dos espacios param´etricos ya no se da. La inferencia usando solamente la densidad condicional cuando nos limitamos a versiones estables del modelo, nos hace perder informaci´on relevante. No podemos saber respecto a esa estabilidad sin considerar la densidad marginal (vaya, la ecuaci´on de oferta, en este caso). 3. Asuma ahora, por ejemplo, que la teor´ıa econ´omica o bien la intuici´on (muy aguda) sugiere las siguientes restricciones: La elasticidad de la oferta, k, yace en el intervalo [0, 1), La elasticidad de la demanda, 1b , es negativa y mayor o igual a uno en valor absoluto.
364
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD Note que la segunda restricci´on implica que −1 ≤ b ≤ 0. El espacio param´etrico Λ aparece en la figura [ver gr´afico (11.1, panel c)]. El par´ametro b estar´a entre −1 y 0 independientemente del valor que adopte k, que a su vez ser´a cualquier valor entre 0 y 1. En este caso, los par´ametros s´ı tienen libre albedr´ıo y no hay restricciones cruzadas que, valga la expresi´on, los restringan. Esta vez el producto de los espacios param´etricos, Λ1 × Λ2 : [−1, 0] × [0, +1) si corresponde con el espacio param´etrico Λ en donde (b, k) yace. As´ı, al imponer unas restricciones sobre las elasticidades, hemos vuelto a satisfacer la segunda condici´on de la ED: qt es d´ebilmente ex´ogeno sobre la elasticidad de la demanda.
Figura 11.1: Posibles espacios param´etricos (usando el modelo Telara˜na). (a) sin restricciones de ninguna ´ındole (satisface 2a condici´on de ED); (b) condicionado a que sea estable (no satisface 2a condici´on de ED); (b) condicionado a que sea estable m´as restricciones de elasticidad (satisface 2a condici´on de ED). Fuente: Fundamentado en el ejemplo propuesto por Ericsson y Irons (1994) con extensiones propias.
En s´ıntesis, el espacio param´etrico, as´ı como el par´ametro de inter´es son elementos fundamentales en el establecimiento de su condici´on de exogeneidad d´ebil, tanto en el a´ mbito econom´etrico como en el econ´omico. La selecci´on de e´ stos puede resultar cr´ıtica respecto a la condici´on de exogeneidad de una variable.
11.2. EXOGENEIDAD
365
Exogeneidad fuerte El lector habr´a notado que el concepto de exogeneidad d´ebil exigi´o una ejemplificaci´on donde aparecen rezagos. Ello le imprime a nuestros modelos propiedades din´amicas (evolucionan en el tiempo). Si bien el tratamiento din´amico en econometr´ıa har´a objeto de todo un cap´ıtulo (el siguiente) y no ahondaremos demasiado de momento, s´ı es importante recalcar el lazo entre las propiedades de las variables (en tanto ex´ogenas o end´ogenas) y la din´amica de la especificaci´on. Como hab´ıamos mencionado al principio de esta secci´on, la ED corresponde al an´alisis de par´ametros de inter´es; ah´ı mismo tambi´en se˜nalamos que la exogeneidad fuerte (EF) est´a emparentada con la finalidad de elaborar pron´osticos. Esto u´ ltimo, si lo piensan con detenimiento, tiene relaci´on con otra discusi´on que ya llevamos a cabo anteriormente: la G RANGER -C AUSALIDAD. La causalidad en el sentido de Granger se refiere, a grandes trazos, a la capacidad predictiva de una variable con respecto a otra. As´ı, si lo que nos interesa es poder predecir el comportamiento de una variable, yt , con base en otra m´as, zt , no s´olo nos interesar´a que la segunda sea d´ebilmente ex´ogena a todos los par´ametros de nuestra especificaci´on (11.4) sino que adem´as, la primera no cause en el sentido de Granger a la segunda. De esta manera, podremos asegurarnos de varias cosas: en primera instancia, con base en la ED, sabremos que la estimaci´on ser´a posible; si adem´as tenemos que la capacidad predictiva es unidireccional y s´olo va de z a y (Maddala prefiere llamar a esto precedencia), entonces podremos utilizar nuestra estimaci´on para hacer pron´osticos sin preocuparnos de una retroalimentaci´on–inexistente–al no haber tomado en cuenta el modelo marginal (11.6). La definici´on de exogeneidad fuerte es la siguiente: Definici´on 19 Sean dos variables aleatorias yt y zt . La variable zt es fuertemente ex´ogena en el periodo de muestra T s´ı: 1. zt es d´ebilmente ex´ogena a todos los par´ametros del modelo condicional, 2. yt no causa en el sentido de Granger a zt . La mejor forma de entender este nuevo concepto es, otra vez, con un peque˜no ejemplo que se ha simplificado para resaltar algunos puntos sin perder tiempo en cuestiones ajenas a la EF. Suponga los siguientes modelos, condicional as´ı como marginal: yt = b0 zt + b1 zt−1 + b2 yt−1 + v1t zt = π21 yt−1 + π22 zt−1 + ǫ2t
(11.7) (11.8)
366
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
donde v1t ∼ iidN (0, σ 2 ), ǫ2t ∼ iidN (0, ω22 ). Recuerde que la exogeneidad nos preocupa porque queremos ver si podemos usar s´olo el modelo condicional (11.7) para satisfacer nuestros fines sin tomar en cuenta el modelo marginal (11.8). En este caso, nuestros fines se traducen en predecir yt con base a la estimaci´on de la especificaci´on (11.7). Pero esta vez la ED no basta; resulta obvio, por las ecuaciones, que la variable zt no puede ser tratada como fija en el ejercicio de predecir yt . Nuestra variable zt se ve influenciada por el rezago yt−1 . Esa relaci´on de la variable d´ebilmente ex´ogena con el pasado de la end´ogena hace imposible hacer pron´osticos de m´as de un paso sin tomar en cuenta el modelo marginal (que es lo que no queremos). Para poder hacer pron´osticos de esa forma, necesitamos que π21 = 0. As´ı, podremos prescindir de (11.8). M´as importante a´un, es esa condici´on la que se prueba con la Granger-Causalidad. Super exogeneidad El concepto de super exogeneidad (SE) es el que definiremos de manera m´as coloquial. Como se se˜nal´o en un principio, la SE es requerida si la finalidad es hacer an´alisis de pol´ıtica econ´omica. Esto est´a muy emparentado con la famosa Cr´ıtica de Lucas. Para poder ahondar al respecto, empezaremos dando la definici´on de la SE: Definici´on 20 Sean dos variables aleatorias yt y zt . La variable zt es super ex´ogena en el periodo de muestra T s´ı: 1. zt es d´ebilmente ex´ogena a todos los par´ametros del modelo condicional, 2. Los par´ametros de la densidad condicional son invariantes ante cambios en la densidad marginal de zt . El concepto de invarianza puede ser explicado de la siguiente manera. Suponga que las ecuaciones (11.7) y (11.8) corresponden al Producto Interno Bruto, P IB (yt ) y al agregado monetario M0 (zt ). La Ecuaci´on marginal, (11.8) podr´ıa entonces corresponder a una regla de decisi´on de las autoridades monetarias (es decir que el Banco Central tomar´ıa la decisi´on de fijar M0 con base en esa ecuaci´on), mientras que la ecuaci´on condicional, (11.7), representar´ıa la reacci´on de los agentes econ´omicos en materia de producci´on ante cambios en el stock monetario. La Cr´ıtica de Lucas sugiere que la estimaci´on de esta u´ ltima ecuaci´on bajo un cierto r´egimen monetario no provee informaci´on v´alida respecto al comportamiento de los agentes ante otro r´egimen. Aqu´ı lo importante a decir es que, s´ı M0 es SE, la Cr´ıtica de Lucas ya no aplicar´ıa. T´ecnicamente, recuerde que los par´ametros de la densidad condicional
11.2. EXOGENEIDAD
367
fueron denotados λ1 y los de la densidad marginal, λ2 . La invarianza exige que los cambios en λ2 dejen a λ1 inalterada. El an´alisis de pol´ıtica p´ublica justamente requiere con frecuencia cambios en la densidad marginal (que se interpretar´ıan como intervenciones). Si se desea estimar u´ nicamente el modelo condicional y realizar an´alisis de pol´ıtica econ´omica, es necesario que zt sea super ex´ogena, de lo contrario, al cambiar la densidad marginal, fruto de la pol´ıtica econ´omica, cambiar´ıa la densidad condicional, por lo que nuestra estimaci´on dejar´ıa de ser v´alida y u´ til. Es importante tener clara la diferencia entre EF y SE. Retomemos un momento el ejemplo anterior. Conciba ahora la ecuaci´on (11.8) como una demanda de dinero, donde yt y zt son, respectivamente, demanda de dinero y tasa de inter´es. Considere a la ecuaci´on (11.7) como una funci´on de reacci´on de un Banco Central (en caso de que e´ ste tenga una). Ya para terminar, p´ongase en los zapatos del ´ Banco Central. Este controla la funci´on de reacci´on. Bajo un escenario dado puede decidir su forma de tomar decisiones, por lo que podr´ıa alterar los par´ametros de su funci´on de reacci´on. B´asicamente, lo que necesita nuestro querido banquero central es que los par´ametros de la demanda de dinero no se alteren ante cambios en los par´ametros de la funci´on de reacci´on. Si ese es el caso, entonces el banquero central puede simular su sistema (usando las dos ecuaciones y asumiendo que, en la primera, el par´ametro de inter´es es d´ebilmente ex´ogeno) para observar los efectos de dicho cambio de pol´ıtica. No est´a haciendo predicci´on en el mismo sentido que lo har´ıa una consultor´ıa. El Banco Central requiere la estabilidad param´etrica de la ecuaci´on condicional para conocer el impacto en un cambio de pol´ıtica. Podr´ıamos estimar los cambios param´etricos en la primera ecuaci´on mediante la incorporaci´on de variables dicot´omicas; posteriormente podr´ıamos probar esas mismas variables dicot´omicas en la ecuaci´on condicional para probar si los par´ametros de e´ sta se ven afectados por los cambios en la ecuaci´on marginal. Si estas dummies no son significativas, entonces tendremos evidencia, para la muestra disponible, de la tan necesi´ tada invarianza. Esta, aunada a la exogeneidad d´ebil, permitir´ıa pensar que tenemos una variables super ex´ogena y que por ende, podemos usar la primera ecuaci´on para evaluar diversas pol´ıticas monetarias. Concibamos un ejemplo en el que la SE no se da. Retomemos las ecuaciones (11.7) y (11.8) como demanda de dinero y regla de desici´on del Banco Central, respectivamente. Digamos que ese sistema es v´alido para la regla que us´o el Banco, de 1521 a 1999. En el a˜no 2000 la cambia y la perversa naturaleza econ´omica modifica el sistema de la siguiente manera:
368
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
yt = b0 zt + b1 zt−1 + γ0 DUt zt + γ1 DUt zt−1 + b2 yt−1 + v1t bis bis yt−1 + π22 zt−1 + ǫ2t zt = π21
(11.9) (11.10)
donde DUt = 0 si t < 1999 y DUt = 1 e.o.c. Deber´ıa resultarles obvio que, si el Banco avalu´o los efectos de su cambio de pol´ıtica basado en estimaciones del modelo original, andar´a muy errado. Note que no es posible asegurarnos que los par´ametros de la condicional ser´an siempre invariantes ante cambios en los par´ametros de la marginal. S´olo podemos constatar que lo han sido en una muestra particular. Por lo mismo, la super exogeneidad permanecer´a siempre como una conjetura. Lo cierto es que, en tanto conjetura, siempre estaremos en riesgo de que datos adicionales nos prueben lo contrario. La relaci´on entre los tres tipos de exogeneidad puede ser representada de manera muy elocuente con un diagrama de Venn como el que aparece en la figura (11.2).
Exogeneidad Débil
Exogeneidad Fuerte
Causalidad de Granger
Super Exogeneidad
Invarianza
Figura 11.2: Diagrama de Venn en exogeneidad
11.2. EXOGENEIDAD
369
Ejemplo 20 Los tres conceptos de exogeneidad pueden ser mejor entendidos por medio de un ejemplo. Suponga que se quiere estimar una demanda de dinero. La motivaci´on de esta estimaci´on puede variar seg´un el econometrista que lo haga y donde trabaje: 1. Estudiante del curso de econometr´ıa II. La motivaci´on principal de e´ ste es el car´acter coercitivo del profesor que lo obliga a estimar la demanda. Es razonable asumir que dicho profesor solicitar´a la estimaci´on de la elasticidad de la demanda de dinero con respecto a una variable, digamos la tasa de inter´es. El estudiante deber´a preocuparse por obtener un estimador de e´ sta que sea consistente, raz´on por la cual s´olo requiere que la variable tasa de inter´es sea d´ebilmente ex´ogena al par´ametro de inter´es. El resultado que se presentar´a es un n´umero que represente lo m´as fielmente posible la elasticidad en cuesti´on. 2. Egresado de la carrera de econom´ıa que logr´o colocarse en una consultor´ıa privada. En este caso, al reci´en egresado–y orgulloso empleado de una firma consultora con nombre en ingl´es y base en Polanco–le encargan hacer pron´osticos de la demanda de dinero, mismos que formar´an parte de un proyecto que le vender´an a alguna obscura dependencia p´ublica o bien a un banco comercial por millones y millones de devaluados pesos. El reci´en egresado no s´olo debe preocuparse por estimar correctamente la demanda de dinero (es decir, no s´olo requiere exogeneidad d´ebil), sino que adem´as debe tener cierta confianza en la capacidad predictiva de su estimaci´on. Para ello, debe asegurarse que s´olo necesita estimar la demanda de dinero (la ecuaci´on condicional) y no tambi´en la ecuaci´on de la tasa de inter´es (por ejemplo). Como ya se vio antes, a este brillante egresado s´olo le har´a falta tomar sus estimaciones del curso de econometr´ıa II y aplicar una prueba de GrangerCausalidad. Si no hay Granger-Causalidad de la tasa de la demanda de dinero a la tasa de inter´es, entonces podr´a usar su ecuaci´on para construir pron´osticos. 3. Egresado ya no tan joven que logr´o meterse al Banco de M´exico. A este brillante egresado, ya m´as cuarent´on y con algunas canas, ahora le han solicitado que eval´ue la posibilidad de cambiar las reglas de la subasta de CETES que ha venido usando Banxico. Las autoridades m´aximas quieren ver el impacto de e´ stos cambios en la demanda de dinero. En ese sentido, nuestro viejo egresado conoce la manera en la que el Banco reacciona, por lo que s´olo necesita saber, adem´as de que la tasa de inter´es es d´ebilmente ex´ogena al
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
370
par´ametro de inter´es, si cambios en las reglas de tales subastas no alterar´an la manera en la que reaccionan los agentes en las subastas. Si eso es cierto, podr´a usar toda la informaci´on disponible para presentarle a su jefe algunas simulaciones que indiquen que pasar´ıa, confiado en que su estimaci´on de la elasticidad seguir´ıa siendo v´alida ante tales cambios. Probar la exogeneidad de una variable es posible; el problema es que se requiere, intuitivamente, modelar la variable ex´ogena, que es justamente lo que se quiere evitar (la idea es s´olo estimar la ecuaci´on condicional). No obstante, hacer las pruebas es factible. Quiz´a la forma m´as evidente de probar la exogeneidad d´ebil radica en ´ DE E RROR (ECM, por sus siglas en ingl´es). Este los modelos de C ORRECCI ON tipo de modelos se estudia con detalle en cursos de series de tiempo y macroeconometr´ıa. No obstante, para efectos de este curso, daremos una muy suscinta explicaci´on de e´ stos. Desgraciadamente, para ello es necesario contemplar una cantidad no despreciable de conceptos, espec´ıficamente estacionariedad y cointegraci´on.
11.3.
Mecanismo de Correcci´on de Error
Tanto el Mecanismo de Correcci´on de Error (MCE) como el Modelo de Correcci´on de Error son conceptos anteriores al de cointegraci´on. Inicialmente concebidos por Sargan (1964) [como una liga entre equilibrios est´aticos en econom´ıa te´orica y modelos din´amicos emp´ıricos] y extendidos posteriormente por Hendry y Anderson (1977), Davidson, Hendry, Srba y Yeo (1978), Hendry y Mizon (1978) y Hendry, Pagan y Sargan (1984), e´ stos precedieron la teor´ıa de la cointegraci´on [Granger (1981), Granger y Weiss (1983) y Engle y Granger (1987)]. De hecho, los creadores de la cointegraci´on establecen, en los art´ıculos antes mencionados, la relaci´on te´orica entre MCE y cointegraci´on. Cabe se˜nalar que, en una entrevista, Clive Granger admiti´o haber discutido con David Hendry sobre la validez del MCE a finales de los 70, principios de los 80. En esa discusi´on Granger afirm´o que e´ l podr´ıa probar que el concepto de MCE era err´oneo; posteriormente, Granger no s´olo se dio cuenta que el MCE era un mecanismo adecuado para modelar la din´amica de relaciones de equilibrio, sino que adem´as concibi´o la cointegraci´on, como una reinterpretaci´on mucho m´as rica del MCE. Pese al evidente orden cronol´ogico de todos estos temas, resulta m´as intuitivo empezar por no estacionariedad y cointegraci´on y rematar con mecanismos de correcci´on de error.
´ DE ERROR 11.3. MECANISMO DE CORRECCION
371
11.3.1. Estacionariedad y Ergodicidad Esta primera subsecci´on tiene la intenci´on de enmarcar la teor´ıa que abordaremos en lo sucesivo. Definiremos un conjunto de nociones fundamentales que nos acompa˜nar´an en el resto de este cap´ıtulo: la noci´on de serie de tiempo, la de proceso aleatorio y la de estacionariedad. Note que todo lo anterior ya hab´ıa sido abordado en la primera parte del curso (vea la p´agina 116). Quiz´a le conviene dar una revisada. Series de tiempo: Gran cantidad de variables son medidas a intervalos regularmente espaciados en el tiempo (segundo, minuto, hora, d´ıa, semana, quincena, mes, trimestre, a˜no,. . . ). Definamos pues un conjunto de observaciones equiespaciadas en el tiempo de la siguiente manera: Definici´on 21 Se denomina Serie de tiempo/temporal/cronol´ogica a una sucesi´on de observaciones equiespaciadas en el tiempo. Con objeto de realizar un tratamiento estad´ıstico sobre las series de tiempo, les asociamos una estructura probabil´ıstica. Suponemos entonces que dicha serie temporal es pr´oxima a las realizaciones de un fen´omeno aleatorio obtenidas con base en un muestreo. De ah´ı el apelativo proceso aleatorio. Lo anterior puede comprenderse mejor gr´aficamente:
Densidad
PROCESO ALEATORIO
Tiempo 1 0.8 0.6 0.4 0.2 0
0
0.5
1
Figura 11.3: Proceso aleatorio
372
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD En cada instante t tenemos una variable aleatoria que sigue una distribuci´on particular (en este caso, una normal). Se dispone de una sola realizaci´on de la distribuci´on para cada tiempo. Las caracter´ısticas anteriores pueden cristalizarse en dos supuestos fundamentales, estacionariedad y ergodicidad. En teor´ıa de la probabilidad, un proceso estoc´astico, estacionario y erg´odico implica, esencialmente, que (i) las propiedades de dicho proceso no cambiar´an con el tiempo y (ii) que e´ stas (las propiedades estad´ısticas), como pueden ser su esperanza te´orica y su varianza, pueden deducirse a partir de una u´ nica observaci´on en cada periodo, si el n´umero de periodos observados es suficientemente grande. En palabras llanas, estos conceptos pueden explicarse de la siguiente manera: 1. Estacionariedad es la propiedad de un proceso aleatorio que garantiza que sus propiedades estad´ısticas, l´ease sus momentos, no cambian a lo largo del tiempo. Hay muchas variedades de estacionariedad: de primer orden, de segundo orden, de en´esimo o´ rden, amplia, estricta. Nosotros s´olo emplearemos dos de estas definiciones. 2. Un proceso que satisface un teorema de ergodicidad (es decir, un proceso erg´odico) es tal que permite que el c´alculo emp´ırico (o muestral) de sus momentos, usando las observaciones, se aproxime asint´oticamente a su equivalente te´orico. Es importante hacer notar que en series de tiempo s´olo recolectamos una observaci´on por periodo. Piense, por ejemplo en el dato del PIB. Ese dato es una estimaci´on de la producci´on hecha en un pa´ıs. Por lo general, s´olo un instituto lo calcula. En un mundo ideal, habr´ıa muchos institutos haciendo lo mismo y al final de cada trimestre podr´ıamos promediar los distintos estimadores del PIB sabiendo que, todos ellos estar´ıan extra´ıdos de la misma distribuci´on (para ello har´ıa falta explicitar supuestos t´ecnicos que de momento omitimos). En la pr´actica, s´olo tenemos una por trimestre. Para promediar, s´olo podemos hacerlo con observaciones que no se hicieron en los mismos periodos; es la propiedad de la ergodicidad la que garantiza que al hacer eso nuestro estimador sigue siendo adecuado. A continuaci´on definiremos con mucha m´as precisi´on esos conceptos: Estacionariedad: la estacionariedad es quiz´a una de las palabras m´as frecuentemente empleada en econometr´ıa de series de tiempo. Es importante entender con claridad a que se refiere:
´ DE ERROR 11.3. MECANISMO DE CORRECCION
373
Definici´on 22 Estacionariedad Estricta: un proceso {yt }∞ t=−∞ es estrictamente estacionario si, para cualesquiera j1 , j2 , . . . , jn , la distribuci´on conjunta de (Yt , Yt+j1 , Yt+j2 , . . . , Yt+jn ) depende u´ nicamente de los intervalos que separan las fechas (j1 , j2 , . . . , jn ) y no de las fechas en s´ı. La estacionariedad estricta es un concepto demasiado exigente para fines pr´acticos. Requiere que todos los momentos del proceso sean independientes del tiempo. Es por ello que habremos de utilizar una versi´on m´as ligera, que s´olo involucre a los dos primeros momentos: Definici´on 23 Estacionariedad D´ebil o en covarianzas: Sea {yt }∞ t=−∞ un proceso aleatorio. Si ni su media ni sus autocovarianzas (µt y γjt ∀j = 1, 2, ..) dependen del instante t entonces el proceso es d´ebilmente estacionario o bien estacionario en covarianzas: • E (yt ) = µ para todo t • E (yt − µ) · (yt−j − µ) = γj para todo t y cualquier j. Podemos definir un tipo de estacionariedad a´un m´as c´omodo a˜nadiendo normalidad: Definici´on 24 Un proceso estacionario Y se dice gaussiano si su densidad conjunta, fyt ,yt+j1 ,...,yt+jN (yt , yt+j1 , ..., yt+jN ) es Normal, para todo J1 , J2 , ..., JN . Cuando el proceso es normal se obtienen propiedades en extremo convenientes. La principal es que una distribuci´on normal s´olo requiere de los dos primeros momentos, media y varianza, para ser caracterizada enteramente. Ello hace que si un proceso d´ebilmente estacionario es gaussiano, entonces tambi´en es estrictamente estacionario.
374
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Si recuerda la gr´afica (2.14) no le resultar´a descabellado pensar que la riqueza en el a˜no t, t = 1900, . . . , 2000 (aproximada con en el PIB per c´apita en PPC base 1970) es una serie que lleva mucha inercia (es decir, su comportamiento presente depende en gran medida de su comportamiento pasado); en otras palabras, la riqueza actual depende en gran medidad de la riqueza de que se dispon´ıa en el per´ıodo inmediato anterior, Rt = F (Rt−1 ). Claro est´a, deber´ıamos incluir en dicha funci´on elementos provistos por la teor´ıa econ´omica: escolaridad, experiencia laboral, g´enero, etc. De momento, nos despreocuparemos de ese conjunto de variables agreg´andolo vilmente en una variable Vt . Nuestra funci´on queda as´ı: Rt = F (Rt−1 , Vt ) Podemos una funci´on m´as expl´ıcita: Rt = α + Rt−1 + Vt Esto es lo que se llama una ecuaci´on en diferencia. Aprender´an a servirse de ellas para fines econom´etricos en series de tiempo. Olvidando momentaneamente las cuestiones probabil´ısticas, podemos tratar de resolver la ecuaci´on de forma recursiva, es decir, reemplazando Rt−1 por la expresi´on correspondiente, seg´un la funci´on (asumimos que si la funci´on es v´alida en t, tambi´en lo es en cualquier otro momento, τ 6= t). Rt = α + Rt−1 + Vt = α + α + Rt−2 + Vt + Vt−1 = α + α + α + Rt−3 + Vt + Vt−1 + Vt−2 .. . Los detalles de esta resoluci´on los ver´an en un futuro no tan lejano, si acaso se interesan por el an´alisis de series de tiempo. Por ahora basta decir que, asumiendo que la serie tiene un principio, R0 , si seguimos reemplazando llegaremos hasta e´ l. Y para eso, habremos tenido que hacer t reemplazos:
Rt = R0 + α · t +
t−1 X i=0
Vt−i
´ DE ERROR 11.3. MECANISMO DE CORRECCION
375
Las propiedades de la suma que aparece en el extremo derecho son complicadas y por el momento nos conformaremos con tratarlo como si fueran innovaciones,21 con E (Vt ) = 0. Note como el tiempo, denotado por la letra t, aparece expl´ıcitamente en la expresi´on. Si tratamos de obtener su esperanza, pues el valor de t no est´a sujeto a cuestiones estoc´asticas, por lo que puede considerarse como determinista, lo mismo ocurre con la riqueza inicial, que asumiremos como un dato conocido:
E (Rt ) = R0 + α · t + E (Rt ) = R0 + α · t
t X i=1
E (Vt−i ) | {z } =0
La esperanza de la serie, como se observa en la u´ ltima l´ınea, no es constante en el tiempo, puesto que se modifica en funci´on de e´ ste. Es decir, si t = 1980, la esperanza de la riqueza ser´a R0 + α · 1980, mientras que si t = 2000, la esperanza de la riqueza ser´a R0 + α · 2007. Lo anterior muestra que nuestra variable no respeta lo establecido en la definici´on de estacionariedad d´ebil d´ebil; no es, por tanto, una variable estacionaria. Los detalles respecto a las consecuencias de este problema se ver´an en An´alisis de Series de Tiempo, pero es importante retener que si las series con las que queremos trabajar tienen una naturaleza parecida a la que inventamos ´ N O S IRVE. El problema, as´ı como ahora, T ODA LA E CONOMETR ´I A C L ASICA su soluci´on se presentan m´as adelante. Lo importante, por el momento, es saber que muchas series macroecon´omicas no parecen ser estacionarias. Lo anterior se afirma con base en una serie de art´ıculos bastante considerable, siendo el original, un trabajo de Nelson y Plosser (1982). Vale la pena mencionar que en la actualidad se debate mucho la naturaleza estoc´astica/determinista del componente de tendencia de las series macro. No obstante, existe un gran consenso en lo que respecta su no estacionariedad.
11.3.2. Regresi´on Espuria El fen´omeno de la regresi´on espuria, puesto en relieve en econometr´ıa por Granger y Newbold (1974),22 tiene mucho que ver con la no estacionariedad (si bien 21
Este supuesto puede levantarse sin mucha pena, pero no tiene caso puesto que complicar´ıa la exposici´on. 22 Ventosa-Santaul`aria (2009) provee una revisi´on de la literatura un poco m´as extendida. El art´ıculo puede ser descargado en http://www.hindawi.com/journals/jps/2009/802975.pdf.
376
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
no est´a circunscrito a ello). Puesto que a´un no tenemos los elementos para estudiarla te´oricamente, de momento nos conformaremos con un peque˜no experimento de Monte Carlo. Dicho experimento s´olo tiene la finalidad de ilustrar el fen´omeno, aunque se har´a de manera muy extendida, para que no queden dudas respecto al alcance de este problema.23 Lo primero que necesitamos para ilustrar el fen´omeno de regresi´on espuria es proveer una definici´on formal de la misma. Usaremos una inspirada en el trabajo de Granger, Hyung y Jeon (2001):24 Definici´on 25 Una regresi´on espuria ocurre cuando se infiere evidencia de una relaci´on lineal entre dos variables independientes entre s´ı pero con propiedades temporales “fuertes” (mucha persistencia o dependencia fuerte del pasado) con base en los instrumentos b´asicos de M´ınimos Cuadrados Ordinarios (R2 , Estad´ısticos t, prueba conjunta de F,...). Los procesos generadores de datos Los procesos generadores de datos (DGP s, por sus siglas en ingl´es) que vamos a usar para simular las series deben garantizarnos dos cosas: 1. que las series no est´en relacionadas entre s´ı, 2. que las series no sean estacionarias. Usaremos el proceso no estacionario m´as sencillo: zt = zt−1 + uzt , d´onde z = x, y. Asumiremos que el proceso empieza en z0 = 0 y que uzt ∼ N (0, σz2 ). As´ı, podemos resolver la ecuaci´on de la siguiente manera: zt =
t X
uzi .
|i=1{z } ξt
23
Esta secci´on est´a basada en la que aparece en el libro de Davidson y MacKinnon (2004): “Econometric Theory and Methods.” 24 Es importante se˜nalar que este fen´omeno ya hab´ıa sido identificado por Yule, en 1927, pero no en el contexto de una regresi´on, sino de un coeficiente de correlaci´on.
´ DE ERROR 11.3. MECANISMO DE CORRECCION
377
El t´ermino a la derecha de la ecuaci´on es el componente de tendencia estoc´astico, mejor conocido como una ra´ız unitaria o bien proceso integrado de orden uno, zt ∼ I(1). Si calculamos la esperanza y la varianza de este proceso, obtendremos:
E(zt ) = E(
t X
uzi )
i=1
= 0
V (zt ) = E = t·
σz2 .
t X i=1
uzi
!2
As´ı, este proceso no satisface la segunda condici´on de la definici´on de estacionariedad d´ebil. Su varianza (un segundo momento) depende del tiempo. Usaremos otro proceso tambi´en, el visto en el ejemplo de la riqueza; lo utilizaremos utilizando una notaci´on m´as est´andar (se mantienen los supuestos antes explicitados): wt = µw + wt−1 + uwt = µw t + ξw,t . El simple hecho de incluir una constante en el DGP conlleva cambios importantes. Ahora el proceso no s´olo tiene una ra´ız unitaria, sino que adem´as incluye una tendencia lineal determinista.25 Adem´as, como se vio justamente en el ejemplo del principio de la secci´on, ahora la esperanza del proceso ya no es constante: E(wt ) = µw t. En todo caso, ahora ya tenemos dos ejemplos de procesos no estacionarios. Note como, al aplicar la primera diferencia a esta serie (operador diferencia, denotado ∆), recuperamos la estacionariedad. Si el proceso no tiene deriva: ∆(zt ) = zt − zt−1 = uzt Si el proceso s´ı tiene deriva 25
Dado que la constante en realidad es una tendencia determinista, suele ser denominada “deriva” o drift en ingl´es.
378
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
∆(wt ) = µw + uwt Lo anterior es sorprendentemente simple e importante. Si un proceso requiere ser diferenciado una vez para volverlo estacionario, se dice que es integrado de orden uno; si se requiere diferenciar dos veces, entonces el proceso es I(2) y as´ı sucesivamente. As´ı, podemos aprovechar nuestra notaci´on para definir el comportamiento tendencial de nuestras series:
zt ∼ I(1) ∆(zt ) = uzt ∼ I(0) wt ∼ I(1) ∆(wt ) = µw + uwt ∼ I(0) Ya con dos procesos no estacionarios a la mano es posible ilustrar el fen´omeno de la regresi´on espuria. Para ello, lo m´as conveniente es repoducir el experimento de Monte Carlo presentado por Granger y Newbold en 1974. Ejercicio 15 Ilustraci´on de la regresi´on espuria: en este ejercicio de programaci´on, deber´a generar artificialmente cuatro series no estacionarias e independientes entre s´ı. Preferentemente, h´agalo en matlab: 1. Defina el tama˜no de muestra, T = 250 (un tama˜no cercano al que se encuentra en la pr´actica), 2 2 2 2. Defina las varianzas de nuestras cuatro variables, σx1 = 1, σx2 = 0.7, σy1 = 2 1.2 y σy2 = 4,
3. genere cuatro ruidos independientes, ux1t , ux2t , uy1t y uy2t , con esperanza cero y varianza definida en el inciso anterior, 4. defina dos constantes, µx = 0.04 y µy = 0.07, 5. Construya la serie “tiempo”, tps = (1, 2, 3, . . . , T )′ [use el comando cumsum],
´ DE ERROR 11.3. MECANISMO DE CORRECCION
379
6. Asuma que los valores iniciales de todas las series son igual a cero, x1,0 = x2,0 = y1,0 = y2,0 = 0, 7. Construya las series no estacionarias, aplicando un operador de suma m´ovil a los ruidos; x1 y y1 no tienen deriva; las otras dos s´ı [use el comando cumsum para la tendencia estoc´astica], 8. Grafique las dos series, 9. Estime las regresiones y1t = α1 + δ1 x1t + u1t y y2t = α2 + δ2 x2t + u2t . De ambas regresiones almacene el estimador de delta, el estad´ıstico t asociado, la R2 y el estad´ıstico DW (Durbin-Watson), 10. Repita 1, 000 veces los pasos anteriores (es decir, haga un experimento de Monte Carlo) y genere los histogramas de todas las caracter´ısticas de las regresiones recopiladas en el inciso anterior. El c´odigo debi´o haberle quedado parecido al siguiente: %-----------------------------------------------% Regresi´ on espuria % Simulaci´ on de procesos independientes % Estimaci´ on de regresiones %-----------------------------------------------clear all %-----------------------------------------------% Declaraci´ on del tama˜ no de muestra, # de % replicaciones, varianzas y constantes: T=250; Sx1=1; Sx2=sqrt(0.7); R=1000; Sy1=sqrt(1.2); Sy2=2; Mx=0.04; My=0.07; %-----------------------------------------------% Vectores de almacenamiento: D1=zeros(R,1); D2=zeros(R,1); tD1=zeros(R,1); tD2=zeros(R,1); R21=zeros(R,1); R22=zeros(R,1); DW1=zeros(R,1); DW2=zeros(R,1); %------------------------------------------------
380
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
for j=1:R % Generaci´ on de ruidos y del "tiempo": Ux1=randn(T,1)*Sx1; Ux2=randn(T,1)*Sx2; Uy1=randn(T,1)*Sy1; Uy2=randn(T,1)*Sy2; Cste=ones(T,1); Tps=cumsum(Cste); % Generaci´ on de variables no estacionarias: x1=cumsum(Ux1); y1=cumsum(Uy1); x2=Mx*Tps+cumsum(Ux1); y2=My*Tps+cumsum(Uy1); % Estimaci´ on de regresiones y almacenamiento: REG1=ols(y1,[Cste,x1]); REG2=ols(y2,[Cste,x2]); % [necesita descargar la librer´ ıa jpl para tener % acceso al comando ‘‘ols’’] D1(j)=REG1.beta(2); D2(j)=REG2.beta(2); tD1(j)=REG1.tstat(2); tD2(j)=REG2.tstat(2); R21(j)=REG1.rsqr; R22(j)=REG2.rsqr; DW1(j)=REG1.dw; DW2(j)=REG2.dw; end %-----------------------------------------------% Gr´ afico de Series: figure(1) subplot(2,1,1) plot(Tps,x1,Tps,y1) subplot(2,1,2) plot(Tps,x2,Tps,y2) %-----------------------------------------------% Histogramas: figure(2) subplot(2,4,1) hist(D1,20);title(’(a)’); subplot(2,4,2) hist(tD1,20);title(’(b)’); subplot(2,4,3) hist(R21,20);title(’(c)’); subplot(2,4,4)
´ DE ERROR 11.3. MECANISMO DE CORRECCION
381
hist(DW1,20);title(’(d)’); subplot(2,4,5) hist(D2,20);title(’(e)’); subplot(2,4,6) hist(tD2,20);title(’(f)’); subplot(2,4,7) hist(R22,20);title(’(g)’); subplot(2,4,8) hist(DW2,20);title(’(h)’); Si todo le sali´o bien, sus gr´aficos deber´ıan parecerse a estos:
x1,y1
(a)
(b)
15
160
10
140
5
120
0
100
−5
80
−10
60
−15
40
−20
20
−25
0
100
200
0 −5
(c)
(d)
200
(e)
300
250
250
200
150 200
150 100
150 100 100
50
50
50
0
5
0 −50
0
50
0
0
0.5
1
0
0
0.2
0.4
tiempo
(abis)
(bbis) 160
140
20
140
120
120
15 x2,y2
(cbis)
25
120
80
60
0
100
200
40
50
20
20 0 −5
60
40
40
−5 −10
100
60
0
100
80
80 5
(ebis) 140
150
100
100
10
(dbis) 200
0
5
0 −50
20 0
50
100
0
0
0.5
1
0
0
0.2
0.4
tiempo
Figura 11.4: Regresi´on espuria. (a) series no estacionarias independientes; (b) estimador de δ; (c) estad´ıstico t asociado a delta; (d) R2 ; (e) estad´ıstico Durbin-Watson. Super´ındice “bis” indica que las variables tienen deriva La raz´on por la que tambi´en se incluy´o el estad´ıstico Durbin-Watson el ejercicio de Monte Carlo es muy sencilla. Existe una regla de dedo (quiz´a podr´ıamos llamarla una regla heur´ıstica) para determinar de manera preliminar la posibilidad de que la inferencia extra´ıda de una regresi´on sea espuria. Como se vio anteriormente, el estad´ıstico DW se usa formalmente para identificar autocorrelaci´on de primer orden. Las simulaciones de Granger y Newbold y, posteriormente, los resultados te´oricos de Phillips (1987) permiten saber que la bondad del ajuste en una regresi´on
382
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
espuria, medida por la R2 , no se colapsa, sino que se distribuye entre cero y uno (en el caso de ra´ıces unitarias sin deriva) o bien tiende a uno (cuando las ra´ıces unitarias tienen deriva). Tambi´en est´a bien establecido que el estad´ıstico DW e´ se s´ı, se colapsa (tiende a cero). La regla heur´ıstica es, concretamente, la siguiente: C UANDO LA BONDAD DEL AJUSTE ES MAYOR AL ESTAD ´I STICO DW , R2 > ´ SEA ESPURIA . DW , CONSIDERE LA POSIBILIDAD DE QUE SU REGRESI ON Debe quedar claro que esta regla, aunque sencilla y pr´actica, dista mucho de ser infalible. Tan solo u´ sela como indicativo de que quiz´a no est´e lidiando correctamente con el supuesto de estacionariedad de las series. ¿Un problema de especificaci´on? Davidson y MacKinnon argumentan que el principal efecto de la regresi´on espuria (rechazo de la hip´otesis nula de los estad´ısticos t individuales) se debe, al menos en parte, a un problema de especificaci´on. Para entender dicho argumento, considere dos variables independientes entre s´ı gobernadas por ra´ıces unitarias sin deriva: yt = yt−1 + uyt xt = xt−1 + uxt Suponga ahora que busca relacionarlas, linealmente, mediante una regresi´on estimada con MCO: yt = βxt + ut La fuerza del argumento de Davidson y MacKinnon estriba en lo siguiente: la hip´otesis nula del estad´ıstico t asociado a β es que este u´ ltimo es igual a cero, lo cual es cierto, puesto que las series son independientes. No obstante, si usted impone en la regresi´on el que β = 0, se queda con una expresi´on notoriamente alejada del verdadero proceso generador de y: y t = ut Seg´un esta u´ ltima ecuaci´on, yt se comporta como un proceso estacionario I(0). Eso, huelga decir, no es cierto. Davidson y MacKinnon sugieren que la correcta especificaci´on del modelo ser´ıa m´as bien:
´ DE ERROR 11.3. MECANISMO DE CORRECCION
383
yt = βxt + δyt−1 + ut Note que, al imponer la restricci´on β = 0, nos queda una especificaci´on correcta de la variable dependiente, yt = δyt−1 +ut , especialmente si δ = 1. Lo anterior implica que la regresi´on espuria puede verse, efectivamente como un problema de especificaci´on. No obstante, el fen´omeno de la regresi´on trasciende la especificaci´on. Hay un problema espec´ıfico con el hecho de trabajar con variables no estacionarias. Si s´olo se tratara de un problema de especificaci´on, entonces deber´ıamos poder observar que, para el caso de dos series independientes, el estad´ıstico t asociado a β en la u´ ltima regresi´on s´olo deber´ıa rechazarse un 5 % (si usamos un nivel de 5 %, claro est´a). Eso desgraciadamente no ocurre. Para verlo, basta con repetir el ejercicio anterior. Ejercicio 16 Ilustraci´on de la regresi´on espuria, segunda parte: en este ejercicio de programaci´on, deber´a generar artificialmente dos series no estacionarias e independientes entre s´ı: 1. Defina las varianzas de nuestras dos variables, σx2 = 1 y σy2 = 1.2, 2. genere dos ruidos independientes, uxt y uyt , con esperanza cero y varianza definida en el inciso anterior, 3. Asuma que los valores iniciales de todas las series son igual a cero, x0 = y0 = 0, 4. Construya las series no estacionarias, aplicando un operador de suma m´ovil a los ruidos, 5. estime la regresi´on yt = βxt δ + yt−1 + ut . Almacene el estad´ıstico asociado a β, 6. Repita 1, 000 veces los pasos anteriores para distintos tama˜nos de muestra, T = 25, 40, 100, 200, 500, 1000 y grafique la tasa de rechazo de la hip´otesis nula (usando un valor cr´ıtico igual a 5 %) si usted ejecut´o correctamente el ejercicio, debi´o obtener un gr´afico similar a esto:26 26
En realidad, siguiendo las instrucciones antes marcadas dif´ıcilmente llegar´a al mismo gr´afico. Si realmente quiere obtenerlo, aumente el n´umero de tama˜nos de muestra (en incrementos de 5 observaciones desde 20 hasta 750) y, sobre todo, aumente el n´umero de replicaciones a 1, 000, 000.
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
384
0.50 0.45
Nivel de la prueba (tasa de rechazo)
0.40 0.35
Nivel, regresión yt=b xt+d yt−1+ut, +/− 16%
0.30 0.25
Nivel nominal (esperado), 5% 0.20 0.15 0.10 0.05 0.00
100
200
300
400 Tamaño de muestra
500
600
700
Figura 11.5: Regresi´on espuria usando la especificaci´on correcta. Note que el nivel no es el 5 % esperado, a´un tomando en cuenta la ra´ız unitaria en yt .
En todo caso, es evidente que la prueba, usando un nivel nominal de 5 % arroja un verdadero nivel m´as cercano a 15-17 %... Esta severa distorci´on, aunque menor a la anterior, es a´un suficiente como para dudar de la inferencia estad´ıstica en presencia de series no estacionarias.
11.3.3. Prueba de Ra´ız Unitaria Ahora que ha quedado claro que las variables no estacionarias distorcionan severamente las propiedades de las pruebas est´andar en la regresi´on, es importante conocer los instrumentos para: 1. detectar la no estacionariedad, 2. hacer inferencia robusta en presencia de series no estacionarias. La prueba Dickey-Fuller En esta secci´on abordaremos el primer punto. Existen varias pruebas para identificar series no estacionarias. La m´as importante, por su impacto en la literatura y tambi´en por el hecho de seguir vigente en las aplicaciones, es, sin lugar a dudas, la prueba
´ DE ERROR 11.3. MECANISMO DE CORRECCION
385
Dickey-Fuller. Esa prueba est´a dise˜nada para identificar procesos con ra´ız unitaria. La idea de base es muy sencilla. Suponga que tiene el siguiente proceso: yt = ρyt−1 + uyt Por lo visto en la secci´on anterior, recordar´a que el proceso es estable/estacionario si | ρ |< 0, mientras que si ρ = 1, el proceso tiene una ra´ız unitaria. La manera m´as intuitiva de salir del paso es corriendo una regresi´on id´entica a la especificaci´on y haciendo una prueba sobre el par´ametro ρ: tρ =
ρˆ − 1 σ ˆρ
Lo podr´ıamos hacer a´un m´as f´acil; si manipulamos la expresi´on rest´andole a la expresi´on y−1 de ambos lados, obtenemos: ∆yt = (ρ − 1) yt−1 + uyt | {z } def
=γ
As´ı, el estad´ıstico t asociado a γ tendr´ıa las mismas hip´otesis nula y alternativa de siempre: 1. H0 : γ = 0. Ello implica que ρ = 1 y que hay una ra´ız unitaria, 2. Ha : γ < 0. Ello implica que ρ < 1 y que el proceso es estacionario. Lo primero que debe tomar en cuenta es que la prueba es de una sola cola. Si nos concentramos primero en la hip´otesis alternativa, entonces el proceso es estacionario. En ese caso, todos los supuestos necesarios para que la regresi´on arroje inferencia v´alida se cumplen, por lo uno podr´ıa esperar que la prueba funcione: si el proceso es estacionario, el estad´ıstico t asociado al estimador de γ ser´a negativo y lo suficientemente grande (en valor absoluto) como para poder rechazar la hip´otesis nula. El problema radica en el comportamiento de γ cuando el proceso realmente tiene una ra´ız unitaria (ahora estamos bajo H0 ). Habiendo visto lo que pasa con la regresi´on propuesta por Davidson y MacKinnon, deber´ıa quedar claro que, bajo la hip´otesis nula, el estad´ıstico t no tiene un comportamiento est´andar (en este caso, no se distribuye como una N (0, 1)). Eso se puede ilustrar f´acilmente mediante un experimento de Monte Carlo:
386
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Ejercicio 17 Distribuci´on de la prueba Dickey-Fuller: en este ejercicio de programaci´on, deber´a generar artificialmente una serie no estacionaria, aplicarle la prueba de Dickey-Fuller, repetir el experimento 500 veces, obtener la distribuci´on del estad´ısto t y compararlo con una normal est´andar: 1. Defina la varianza de nuestra variables, σy2 = 1 y el tama˜no de muestra, T = 1, 000, 2. genere un ruido iid normal, uyt , con esperanza cero y varianza definida en el inciso anterior, 3. Asuma que los valores iniciales de la serie son igual a cero, y0 = 0, 4. Construya la series no estacionaria, aplicando un operador de suma m´ovil al ruido, 5. Aplique la prueba DF y almacene el estad´ıstico t asociado a γ, 6. Repita 500 veces los pasos anteriores y obtenga el histograma del estad´ıstico t, 7. calcule el percentil 5 % de la distribuci´on de DF, 8. Superponga la distribuci´on normal est´andar, 9. Compare. Note como la cola izquierda de la distribuci´on (que es la que nos interesa) es distinta a la de la normal est´andar; est´a “m´as a la izquierda” y es m´as pesada. Lo anterior queda confirmado con el valor del percentil 5 % Por esa sencilla raz´on, no es posible usar los valores cr´ıticos de siempre. Afortunadamente, Dickey y Fuller calcularon dichos valores cr´ıticos y los tabularon. Hoy en d´ıa, todos los paquetes econom´etricos los tienen incorporados entre sus opciones. El c´odigo que genera lo anterior es: %-----------------------------------------% Prueba de Dickey-Fuller, distribuci´ on %------------------------------------------clear all
´ DE ERROR 11.3. MECANISMO DE CORRECCION
387
0.50 0.45
Función de Densidad de Probabilidad
0.40 0.35
N(0,1)
0.30 0.25 0.20 0.15 0.10 0.05
−4
−3
−2
−1
0
1
2
3
4
Figura 11.6: Distribuci´on de la prueba Dickey-Fuller y comparaci´on con la Distribuci´on normal est´andar.
% Declaraci´ on del tama˜ no de muestra, # de % replicaciones, varianzas y constantes: T=1000; Sy=1; R=10000; % Vectores de almacenamiento: tic; tB=zeros(R,1); for j=1:R % Generaci´ on de ruidos. Uy=randn(T,1)*Sy; % Generaci´ on de variables no estacionarias: y=cumsum(Uy); on de regresiones y almacenamiento: % Estimaci´ y1=y(1:T-1); dy=y(2:T)-y(1:T-1); REG=ols(dy,y1); tB(j)=REG.tstat; end toc; % Distribuci´ on de la prueba:
388
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
tBs=sort(tB); SN=normpdf(tBs); [DF,DFa]=hist(tB); DFo=DF/R; clf; bar(DFa,DFo);hold on;plot(tBs,SN);hold off; % Valores cr´ ıticos: CincoPC_1=quantile(tB,0.05,1); CincoPC_2=norminv(0.05,0,1); Ahora bien, la prueba DF tiene varias sutilezas (m´as correcto ser´ıa decir que adolece de ciertas limitaciones). La primera y m´as obvia radica en la especificaci´on de la regresi´on auxiliar. Imagine que en vez de tener ra´ıces unitarias sin deriva, tenemos ra´ıces unitarias con deriva, en ese caso, la especificaci´on de la prueba deber´a ser distinta. Si estamos bajo la hip´otesis nula, el proceso que genera a la variable es: yt = µy + yt−1 + uyt Si le restamos yt−1 a la expresi´on de ambos lados, obtenemos: ∆yt = µy + uyt Note como, para tomar en cuenta la famosa deriva, debemos incluir una constante en la especificaci´on de la regresi´on:
∆yt = α + γyt−1 + ut Considere ahora el siguiente proceso generador de datos:
yt = µy + yt−1 + δy t + uyt
(11.11)
Si resuelve la ecuaci´on, se encontrar´a con una sorpresa. Ejercicio 18 Retome el PGD presentado en la ecuaci´on (11.11) y resu´elvala. Demuestre que surge un componente determinista de tendencia cuadr´atica.
´ DE ERROR 11.3. MECANISMO DE CORRECCION
389
Los valores cr´ıticos del estad´ıstico t asociado a γ var´ıan en funci´on de los elementos deterministas que incluya en la regresi´on auxiliar. Existe adem´as otro problema. La prueba DF es sensible a las propiedades del t´ermino de error del PGD. En concreto, la prueba no sirve bien si dicho t´ermino no es independiente. Afortunadamente, es posible extender la regresi´on auxiliar para corregir esa sensibilidad; basta con poner rezagos de la variable dependiente:
∆yt = α + γyt−1 + δt +
k X
∆yt−i + ut
i=1
Subsiste ahora el problema de determinar cuantos rezagos incluir. Afortunadamente, para ello tambi´en hay soluci´on. Todo esto se ver´a en la siguiente subsecci´on. Procedimiento muestral En la pr´actica no s´olo no conocemos si el proceso es estacionario, sino que tambi´en ignoramos si existen t´erminos deterministas relevantes as´ı como el orden de un eventual proceso AR(p) que gobierna al t´ermino de error. Existen por ello una serie de recomendaciones para obtener la especificaci´on correcta de la regresi´on auxiliar DF: 1. Inicie con la regresi´on DF que incluye constante y tendencia determinista. 2. A esta u´ ltima, a˜na´ dale una buena cantidad de rezagos de la variable dependiente para controlar por autocorrelaci´on; una f´ormula ad hoc de escoger el n´umero m´aximo de rezagos es: " 41 # T Lmax = 12 100 3. Antes de decidir sobre la ra´ız unitaria y los t´erminos deterministas, debe reducir el n´umero de rezagos hasta llegar a una cantidad o´ ptima: Use el criterio de Akaike (obtenga un m´ınimo) Paralelamente, use la significancia estad´ıstica de los par´ametros asociados a dichos rezagos
390
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD Verifique, mediante el correlograma y el estad´ıstico Ljung-Box que los rezagos supervivientes realmente eliminan la evidencia de autocorrelaci´on El criterio que prima sobre los dem´as es el de Akaike.
4. Habiendo ya definido el n´umero de rezagos, compruebe si hay evidencia de ra´ız unitaria: Si no hay ra´ız unitaria, verifique la significancia de los componentes deterministas. Dado que la serie es, en principio, estacionaria, los valores cr´ıticos de la normal est´andar son adecuados para esta tarea. a) Si los par´ametros son significativos, entonces ha terminado. b) Si la tendencia no es significativa, vuelva a aplicar la prueba sin e´ sta (siga los pasos desde el principio). Si al hacerlo cambia la conclusi´on respecto a la ra´ız unitaria (es decir, si ahora s´ı la acepta), entonces regrese a la regresi´on auxiliar con tendencia. c) Si la constante no es significativa, siga los mismos pasos que en los incisos anteriores. Si s´ı hay ra´ız unitaria, verifique, en primera instancia, la significancia de la tendencia determinista (recuerde que en este caso, dicha tendencia en realidad es cuadr´atica y no hace mucho sentido). Los valores cr´ıticos de la normal est´andar ya no son v´alidos. Use los que aparecen abajo de estas instrucciones. • Si la tendencia no es significativa, elim´ınela de la regresi´on auxiliar y vuelva a correr la prueba. a) Si la evidencia de Ra´ız Unitaria cambi´o (es decir, ahora no hay), entonces retome la especificaci´on anterior. b) Si la evidencia de Raiz Unitaria no cambi´o, ahora verifique la constante. Siga los mismos pasos que con la tendencia. Valores cr´ıticos para los componentes deterministas en la Dickey-Fuller : En esta secci´on damos los valores cr´ıticos de los elementos deterministas para evaluar la significancia estad´ıstica de los mismos en la regresi´on auxiliar de la prueba Dickey-Fuller cuando la prueba arroja evidencia de Ra´ız Unitaria:
´ DE ERROR 11.3. MECANISMO DE CORRECCION DF (1)
10 % ±2.83
5% ±3.16
391 1% ±3.80
Cuadro 11.1: Valores Cr´ıticos asint´oticos para el estad´ıstico t de la constante y de la tendencia cuando se incluye tendencia y constante en la regresi´on auxiliar. DF (2)
10 % ±2.52
5% ±2.82
1% ±3.42
Cuadro 11.2: Valores Cr´ıticos asint´oticos para el estad´ıstico t de la constante cuando se incluye s´olo constante en la regresi´on auxiliar.
Para terminar, mostramos un diagrama que creemos har´a m´as f´acil el empleo de la prueba Dickey-Fuller. En dicho diagrama se hace abstracci´on de la selecci´on de rezagos para controlar por autocorrelaci´on. Ello se hace para que el diagrama no quede demasiado recargado. No obstante, no debe olvidar que cada vez que estime una regresi´on auxiliar de Dickey-Fuller, debe incluir el n´umero adecuado de tales rezagos.
11.3.4. Cointegraci´on El concepto de Cointegraci´on es, en realidad, sumamente sencillo e intuitivo. Cuando estudiamos la regresi´on espuria, establecimos que e´ sta se da cuando las variables no son estacionarias; si lo piensa con detenimiento, se dar´a cuenta que cada variable, xt y yt tiene un componente de tendencia estoc´astica independiente del de la otra. La cointegraci´on es un caso especial en que las series siguen siendo no estacionarias, pero, a diferencia del caso espurio, comparten en componente de tendencia estoc´astico. La primera relaci´on cointegrada que ver´a es la siguiente:
yt = µy + βy xt + uyt xt = xt−1 + uxt t X = uxt , i=1
(11.12)
(11.13)
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
392
Raíz Unitaria
Inicio: Estimar Prueba ADF incluyendo constante y Tendencia; evaluar con base en ésta si hay evidencia de raíz unitaria o no
Verifique Significancia de la Tendencia Significativa (valores críticos no estándar) No Significativa
Significativa Verifique Significancia de la Tendencia (valores críticos estándar)
Raíz unitaria con tendencia cuadr. y lineal
Sin Raíz Unitaria*
Verifique Significancia de la Constante (valores críticos no estándar) No Significativa
Raíz unitaria sin deriva
Raíz Unitaria*
Sin Raíz Unitaria Significativa
Significativa
Verifique Significancia de la Constante (valores críticos estándar) Proceso estacionario
Raíz unitaria con deriva
Estimar Prueba ADF sencilla; evaluar con base en ésta si hay evidencia de raíz unitaria o no Raíz Unitaria
Proceso estacionario en tendencia.
No Significativa
Estimar Prueba ADF incluyendo constante; evaluar con base en ésta si hay evidencia de raíz unitaria o no
Estimar Prueba ADF incluyendo constante; evaluar con base en ésta si hay evidencia de raíz unitaria o no Raíz Unitaria
Sin Raíz Unitaria
Raíz Unitaria* Sin Raíz Unitaria*
No Significativa
Estimar Prueba ADF sencilla; evaluar con base en ésta si hay evidencia de raíz unitaria o no Sin Raíz Unitaria
Proceso estacionario de media cero
* : Note como, cada vez que al quitar un regresor cambia la decisión respecto a la Raíz Unitaria, se retoma la especificación anterior.
Figura 11.7: Modo de empleo sugerido de la DF
d´onde uz ∼ I(0) para z = x, y. Con base en lo explicitado en los apartados anteriores, es f´acil saber que xt ∼ I(1). ¿Qu´e podr´ıa decirse de la otra variable, yt ? Ser´a, como siempre, cuesti´on de desarrollar un poco su ecuaci´on:
´ DE ERROR 11.3. MECANISMO DE CORRECCION
393
yt = µy + βy xt + uyt = µy + βy (xt−1 + uxt ) + uyt t X = µy + βy uxt + uyt . i=1
Con base en el desarrollo anterior, resulta ahora f´acil tambi´en darse cuenta que yt ∼ I(1). La peculiaridad dePeste caso es que la fuente de no estacionariedad de ambas variables es la P misma, ti=1 uxt . Es como si las dos fueran remolcadas en el tiempo por el mismo ti=1 uxt . Observe el comportamiento de tales variables en la simulaci´on del gr´afico (11.8), panel b y comp´arelo con el que tienen dos variables no estacionarias independientes, en el mismo gr´afico, panel b.
Ahora bien, el concepto original de cointegraci´on, formulado por Granger (1980) y Engle y Granger (1987), interpreta las ecuaciones (11.12) y (11.13) de una manera sutilmente diferente. Habr´a notado que especificamos con harta claridad que las innovaciones de la primera ecuaci´on, uyt , era estacionarias, I(0). Bueno, pues reacomodemos un poco los t´erminos de esa ecuaci´on:
yt − µy − βy xt = uyt I(1) − µy − βy I(1) = I(0) Dicho acomodo puede resultar trivial a primera vista, pero obs´ervelo con m´as detenimiento. Del lado derecho de la ecuaci´on aparece una combinaci´on lineal de dos variables I(1) que arroja un proceso I(0). En otras palabras, la cointegraci´on, seg´un Granger, estriba en una combinaci´on lineal particular de variables no estacionarias que tiene como resultado, una variable con un orden de integraci´on menor, en este caso, estacionario. La definici´on formal de Granger es la siguiente: Definici´on 26 Los componentes del vector wt = (yt , xt )′ se dicen cointegrados de orden d, b, denotado wt ∼ CI(d, b), si: 1. Todos los componentes del vector wt est´an integrados del mismo orden d,
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
394
(a)
(b)
10
15
5
10 5
0 yt
yt
0 −5
−5 −10
−10
−15
−15
−20 −10
−5
0
5
10
15
20
−20 −10
25
−5
0
5
xt (c)
20
25
10 Resid. espurios/cointegrados
x
t
y coint. t
20 xt, yt y y2,t
15
(d)
30
10 0 −10 y indep. −20 0
10
xt
t
50
100
150
Tiempo
200
250
5 0 −5 −10 u coint.
u espurio
t
t
−15 0
50
100
150
200
250
Tiempo
Figura 11.8: Variables cointegradas y Espurias: (a) Diagrama de dispersi´on entre dos variables independientes; (b) Diagrama de dispersi´on entre dos variables cointegradas; (c) Variables cointegradas y espurias; (d) residuales cointegrados y espurios 2. Existe un vector B = (µy , βy ) tal que la combinaci´on lineal Bwt resulte ser integrada de orden (d − b), donde b > 0. Dicho vector se denomina V ECTOR C OINTEGRANTE.
´ DE ERROR 11.3. MECANISMO DE CORRECCION
395
Para ilustrar todo lo anterior, se generaron tres variables: xt ∼I(1), ytIndep ∼ I(1) y ytCoint ∼ I(1), de tal suerte que, en particular, ytCoint , xt ∼ CI(1, 1). Posteriormente es estimaron dos ecuaciones, ytCoint = α1 + β1 xt + uC,t y ytIndep = α2 + β2 xt + uI,t . Note que la segunda especificaci´on es t´ıpicamente espuria; la primera es cointegrada. Finalmente, se recuperaron los residuales de ambas regresiones. Puede observar su evoluci´on en el tiempo en el gr´afico (11.8), p´aneles c y d. ¿N OTA USTED ALGUNA DIFERENCIA SIGNIFICATIVA ? Si es usted observador, habr´a notado que los residuales de la regresi´on espuria tienen un comportamiento rid´ıculamente parecido al de una ra´ız unitaria, es decir, al de un proceso I(1). Eso, no est´a usted para saberlo ni yo para contarlo, pero hace mucho sentido. Una combinaci´on lineal cualquiera de variables I(1) arrojar´a residuales que tambi´en ser´an I(1). ¡La u´ nica combinaci´on lineal que arroja residuales integrados de orden cero es la que ofrece el famoso vector cointegrante! Lo anterior da pie a ´ una prueba de cointegraci´on muy sencilla. Esta consiste en aplicarle una prueba de ra´ız unitaria, como la Dickey-Fuller que vimos anteriormente, a los residuales de la regresi´on. Si dicha prueba encuentra evidencia de estacionariedad en los residuales, usted tendr´a ante s´ı una regresi´on cointegrada. Ahora bien, existen algunas sutiles diferencias entre esta prueba de ra´ız aplicada a los residuales estimados y una prueba de ra´ız aplicada a una serie observada cualquiera: 1. La primera diferencia importante reside en el hecho de que usted est´a aplicando la prueba a una serie que no es observada, si no estimada. Ello, implica que la prueba se puede equivocar por razones adicionales. El error puede provenir no de la prueba en s´ı, si no de diferencias debidas a que los residuales estimados no son id´enticos a las innovaciones. La distribuci´on de la prueba de ra´ız unitaria, por lo mismo, no es igual. Es necesario obtener nuevos valores cr´ıticos para llevarla a cabo. 2. Cuando vimos la prueba Dickey-Fuller, pusimos el e´ nfasis en la selecci´on de componentes de tendencia deterministas. Dicha problem´atica no debe presentarse en una prueba de ra´ız sobre los residuales, pues e´ stos deber´ıan estar centrados en cero y no deber´ıa haber ning´un elemento de tendencia determinista. As´ı, la prueba de ra´ız unitaria se suele hacer u´ nicamente con la especificaci´on m´as sencilla de Dickey-Fuller, es decir, sin constante ni tendencia. Todas estas diferencias hacen que el nombre de la prueba ya no sea Dickey-Fuller; a la prueba de ra´ız unitaria sobre residuales se le conoce como prueba Engle y Granger, en honor a sus proponentes.
396
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Ejercicio 19 Simule tres variables integradas de orden uno: una variable xt ∼ I(1) con o sin deriva, como prefiera; dos variables yti para i = Coint, Indep. Una de ellas debe estar cointegrada con xt mientras que la otra debe ser independiente. Estime dos regresiones, una entre variables cointegradas, la otra entre variables independientes. Recupere los residuales y apl´ıqueles la prueba Engle y Granger. Realice las operaciones anteriores 1, 000 veces (es decir, ejecute un experimento de Monte Carlo). Compare la distribuci´on simulada del estad´ıstico de prueba Engle y Granger con la distribuci´on de la prueba Dickey-Fuller mostrada anteriormente en el curso. Es importante destacar que la comparaci´on es mucho m´as ilustrativa si, en vez de comparar histogramas, compara percentiles. Los valores cr´ıticos de la prueba Engle-Granger son, por las razones antes expuestas, distintos. El siguiente cuadro, reproducido del libro de Walter Enders, p´agina 441 T 50 100 200 500 50 100 200 500
1% Dos Variables -4.123 -4.008 -3.954 -3.921 Cuatro Variables -5.017 -4.827 -4.737 -4.684
5%
10 %
1%
-3.461 -3.398 -3.368 -3.350
-3.130 -3.087 -3.067 -3.054
-4.592 -4.441 -4.368 -4.326
-4.324 -4.210 -4.154 -4.122
-3.979 -3.895 -3.853 -3.828
-5.416 -5.184 -5.070 -5.003
5% Tres Variables -3.915 -3.828 -3.785 -3.760 Cinco Variables -4.700 -4.557 -4.487 -4.446
10 % -3.578 -3.514 -3.483 -3.464 -4.348 -4.240 -4.186 -4.154
Cuadro 11.3: Valores Cr´ıticos de la prueba Engle-Granger (fuente: Enders, 2004).
11.3.5. Mecanismo de Correcci´on de Error Como bien vimos en la secci´on anterior, dos—o m´as—variables cointegradas b´asicamente comparten el componente de tendencia estoc´astica. Ello redunda en una relaci´on de equilibrio de largo plazo entre tales variables. Si observa nuevamente la figura (11.9) seguramente notar´a que dos series cointegradas se mueven de forma sincronizada a trav´es del tiempo. No obstante, en esa misma figura deber´a usted notar tambi´en que, en periodos de muy corto plazo, las variables pueden tener reaccio-
´ DE ERROR 11.3. MECANISMO DE CORRECCION
397
nes que las alejan de dicha relaci´on de equilibrio de largo plazo. Tales alejamientos se deben a las innovaciones en el sistema (los choques).
0
100
200Cointegradas 300 400 Series
500
0
100 Series200Independientes 300 400
500
Figura 11.9: Series cointegradas e independientes
As´ı pues, las innovaciones tienden a degradar la “sincron´ıa” entre las variables cointegradas; la idea del MCE es que debe existir en la relaci´on un mecanismo que permita corregir las desviaciones de corto plazo de la relaci´on de equilibrio. La figura (11.10) refleja correctamente lo dicho hasta ahora. Note como las variables xt y yt tienen un comportamiento sincronizado a lo largo de toda la muestra (T = 500). Es cierto que la variable dependiente (azul) tiende a ser m´as vol´atil que la explicativa (verde), pero la tendencia de largo plazo es la misma. Por otra parte, cuando nos acercamos (panel b) y s´olo tenemos en cuenta 50 observaciones, resulta evidente que los choques de corto plazo alejan ambas variables de su relaci´on de equilibrio. Esto se manifiesta en las innovaciones (rojo); dichas innovaciones son concebidas, en este marco conceptual, como desequilibrantes.
Las matem´aticas necesarias para establecer un MCE no han sido expuestas en este manual puesto que quedan fuera del material adecuado. Si bien no resultan especialmente complejas, s´ı requieren una presentaci´on m´as detallada que no tiene cabida
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
398
(a) 80
Valor
60 40 20 0 0
50
100
150
200
250
300
350
400
450
500
Observación (b) 80 60 40 20 0 100 110 120 130 140 150
Figura 11.10: Variables cointegradas e innovaciones (xt en verde; yt en azul y; uyt en rojo): Panel (a) simulaci´on (T = 500)de un proceso cointegrado. Panel (b) Acercamiento (s´olo 50 observaciones) en el manual.27 No obstante lo anterior, partiremos de la siguiente base: las condiciones que aseguran que un sistema de dos o´ m´as variables est´a cointegrado son ex´actamente las mismas que garantizan que dichas variables pueden representarse en un MCE. Este valioso resultado lo obtuvo Granger en 1987: Teorema 19 Representaci´on de Granger: Para un conjunto cualquiera de variables integradas de orden uno, I(1), el modelo de Correcci´on de Error y el modelo de cointegraci´on son representaciones equivalentes. 27
Para ello, se recomienda ampliamente utilizar un manual de econometr´ıa de series de tiempo.
´ DE ERROR 11.3. MECANISMO DE CORRECCION
399
La manera m´as sencilla de presentar el MCE es mediante un ejemplo: Ejemplo 21 Suponga que estamos interesados en la relaci´on entre impuestos e ingreso: τt = α + βyt + ut , d´onde τt representa la recaudaci´on de un cierto impuesto y y el ingreso, ambos del periodo t = 1, 2, . . . , T . Finalmente, suponga que estudia las variables y estima la relaci´on (por MCO) y obtiene lo siguiente: 1. τt ∼ I(1) y yt ∼ I(1), 2. α ˆ > 0 y βˆ > 0, 3. uˆt ∼ I(0). En otras palabras, las dos series son integradas de orden uno, existe una combinaci´on lineal entre ellas que resulta ser integrada de orden cero (cointegran) y los par´ametros son todos positivos. El obtener evidencia de cointegraci´on permite confiar en que la regresi´on representa la ecuaci´on de equilibrio de largo plazo. Ello implica que impuestos e ingreso mantienen un v´ınculo fort´ısimo. Dicho v´ınculo queda reflejado en la recta de regresi´on; las desviaciones de dicha recta (denotadas errores o innovaciones) s´olo nos alejan moment´aneamente de la relaci´on de equilibrio, pero r´apidamente algo se encargar´a de regresarnos a la recta. Ese algo es el mecanismo de correcci´on de error. Si las variables en niveles, τt y yt , son I(1), la primera diferencia de las mismas deber´a ser I(0): ∆(τt ) ∼ I(0) y ∆(yt ) ∼ I(0). Eso ya lo sab´ıamos, pero ahora conviene estudiar desde otra perspectiva a la primera diferencia. Dicha diferencia, ∆(τt ) = τt − τt−1 por ejemplo, representa el cambio en los impuestos del periodo t − 1 al t. Si efectivamente existe una relaci´on de equilibrio de largo plazo entre variables, entonces el cambio deber´ıa estar direccionado, al menos parcialmente, a la correcci´on del desequilibrio en el periodo pasado, ut : 1. Suponga que el desequilibrio en t − 1 es ut−1 > 0. Ello implica que τt−1 > α + βyt−1 . S´olo hay dos formas de empezar a corregir dicho desequilibrio (recuerde que β > 0): disminuimos los impuestos (∆τt < 0) o aumentamos el ingreso (∆yt > 0). As´ı, el mecanismo de correcci´on de error deber´ıa tener signo negativo para el ajuste via impuestos y positivo para el ajuste via ingreso.
400
´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
2. Suponga que el desequilibrio en t − 1 es ut−1 < 0. Ello implica que τt−1 < α + βyt−1 . Nuevamente, s´olo hay dos formas de empezar a corregir dicho desequilibrio (recuerde otra vez que β > 0): aumentamos los impuestos (∆τt > 0) o disminuimos el ingreso (∆yt < 0). Note como el mecanismo de correcci´on de error deber´ıa tener el mismo signo que en el caso anteior: negativo para el ajuste via impuestos y positivo para el ajuste via ingreso. Al MCE lo representa el error. La versi´on m´as sencilla del primero est´a en funci´on u´ nicamente del segundo. Note que hay dos ecuaciones, una por cada variable cointegrada: ∆τt = ατ ut−1 + ǫτ,t ∆yt = αy ut−1 + ǫy,t Lo anterior corresponde a las ecuaciones de corto plazo (las ecuaciones que miden los ajustes de periodo a periodo) en oposici´on a la cointegrante, que suele ser considerada como la de largo plazo. Esta ecuaci´on, si la estudia detenidamente, notar´a que en cada ecuaci´on s´olo aparecen variables estacionarias (I(0)). Lo anterior permite, entre otras cosas, llevar a cabo inferencia tradicional sobre ellas. En realidad, lo m´as importante en estas ecuaciones radica en el estudio de las αs, referidas usualmente como par´ametros de velocidad de ajuste (por obvias razones). Es importante verificar que el signo sea el adecuado y tomar en cuenta si el par´ametro es estad´ısticamente significativo (puesto que trabaja con variables estacionarias, puede utilizar el estad´ıstico t para ello). En el estudio de estos par´ametros es justamente d´onde se puede insertar el concepto de exogeneidad. Todo esto se ve en la siguiente secci´on. Recomendamos llevar a cabo el siguiente ejercicio antes de seguir avanzando. Ejercicio 20 Lleve a cabo la estimaci´on sugerida en el ejemplo anterior usando datos para M´exico. Dichos datos pueden ser descargados en la Secretar´ıa de Hacienda y Cr´edito P´ublico (SHCP) y en el Instituto Nacional de Estad´ıstica y Geograf´ıa (INEGI). Como impuesto, use el impuesto al valor agregado (mensual); como ingreso, use el PIB (trimestral). Recuerde que el dato de recaudaci´on de un mes corresponde a lo declarado el mes anterior, por lo que deber´a rezagar toda la serie para que coincidan los periodos en medici´on. Busque eventuales transformaciones logar´ıtmicas con base en la prueba Ramsey-RESET; no olvide ajustar estacionalmente las series (puede usar el m´etodo X-12 ARIMA, disponible en GRETL). Busque evidencia de cointegraci´on y estime el MCE. ¿Seg´un sus c´alculos cu´al es la elasticidad-ingreso de los impuestos?
´ DE ERROR 11.3. MECANISMO DE CORRECCION
401
11.3.6. Probando exogeneidad d´ebil Es finalmente, mediante el estudio de los signos que podremos saber si una variable es d´ebilmente ex´ogena. En nuestro ejemplo, deber´ıamos esperar, si existe realmente un MCE, que ατ < 0 y αy > 0. De esa forma, un error en el tiempo t − 1 ajustar´ıa en la direcci´on correcta ambas variables. Note que los signos correctos dependen, no solo de la variable sino tambi´en de los signos de los par´ametros en la relaci´on cointegrada. Por ejemplo, si β fuera negativa, habr´ıamos tenido que voltear los signos. El estudio de los par´ametros αi , desgraciada y afortunadamente, no acaba ah´ı. Al estimar el MCE debemos ineludiblemente verificar que los signos sean los correctos, pero existen varias combinaciones posibles, algunas de ellas v´alidas. Lo anterior lo representamos en el siguiente cuadro: Caso 1 2 3 4 5 6 7 8 9
Signo ατ 0 0 =0
Interpretaci´on αY >0 =0 =0 >0 0: Equilibrio en el cuadrante positivo bis, 0 < γ11 <
γ21 : β21
Equilibrio en el cuadrante positivo tris.
Los t´erminos de error, u1 y u2 pueden concebirse como choques en las funciones de oferta y demanda. Resulta evidente que podr´ıamos incluir otras variables relevantes. No obstante, con objeto de hacer la presentaci´on lo m´as did´actica posible, haremos caso omiso de ello inicialmente. Nuestro problema, como siempre es estimar los par´ametros de inter´es, s´olo que esta vez, los par´ametros est´an repartidos en dos ecuaciones. Tomando en cuenta que disponemos de series de observaciones, una de precios y otra de cantidades, vale la pena recordar la dificultad inherente: ´ ¿C OMO E STIMAR D OS F UNCIONES D ISTINTAS A PARTIR DE UN S OLO ´ ? D IAGRAMA DE D ISPERSI ON Dicha dificultad ya la hab´ıamos abordado con detalle al principio del curso. Vale la pena repasar la secci´on que estudia los efectos de simultaneidad, as´ı como la figura al principio del cap´ıtulo de Variables Instrumentales, que repetimos en este apartado [figura (13.1)]. En esta u´ ltima, debe quedar claro la dificultad intr´ınseca de estimar dos ecuaciones cuando no tenemos informaci´on particular de una y otra. M´as importante a´un es la relaci´on bi-direccional entre ambas variables de inter´es, el precio ´ y la cantidad. Estas se afectan la una a la otra y no parece haber forma de aislarlas. Como ya hab´ıamos visto, la soluci´on consiste en aportar informaci´on adicional (en ese caso, nuestro modelo estructural deber´a modificarse). Ahora bien, ¿qu´e tanta informaci´on deberemos a˜nadir? Esa es la pregunta m´as dif´ıcil de contestar en el estudio de los modelos de ecuaciones simult´aneas... Tan importante es que le adju´ dicaremos un nombre y lo estudiaremos con detenimiento: IDENTIFICACI ON
´ 13.3. EL PROBLEMA DE LA IDENTIFICACION
451
Figura 13.1: Ecuaciones simult´aneas
yt
yt
xt yt
xt xt
13.3.
El problema de la identificaci´on
Hemos ya probado que el problema de simultaneidad se da porque los t´erminos de error, u1 y u2 , est´an relacionados con las variables que usamos como regresores (que no son ex´ogenos, como debieran). Ello impide que la estimaci´on por MCO sea consistente. Entender intuitivamente qu´e es la identificaci´on resulta f´acil. Si existe alguna manera de estimar una ecuaci´on del sistema de manera consistente, entonces diremos que esa ecuaci´on est´a identificada. Lo mismo aplica, obviamente, para cada ecuaci´on del sistema. Por ello, la identificaci´on debe hacerse, no de manera global, sino estudiando cada una de las ecuaciones de comportamiento de nuestro sistema.
13.3.1. ¿Qu´e es la identificaci´on? En esta secci´on abordaremos con un enfoque m´as t´ecnico la cuesti´on de la identificaci´on. El poder obtener estimadores consistentes exige que usemos informaci´on apropiada; en este sentido es importante recalcar los siguientes elementos: No es un mero problema de m´etodo de estimaci´on. Tampoco lo es, u´ nicamente, del tama˜no de muestra. El objetivo es encontrar estimadores de par´ametros estructurales interpretables a la luz de la teor´ıa econ´omica.
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
452
El problema de la identificaci´on puede plantearse muy sencillamente de forma matricial. Re-expresemos el sistema de ecuaciones antes propuesto de la siguiente manera: BYt + CXt = Ut Las nuevas matrices son:
1 β12 B = β21 1 y1t Yt = y2t γ11 C = γ21 u1t Ut = u2t Xt = 1
(13.1)
Asumimos adem´as que: Ut ∼ iidN (0, Σ), donde Σ es una matriz de varianzacovarianza positiva-definida. V ar(Ut )
= = = def
=
E (Ut Ut′ ) 2 u1t u1t u2t E u1t u2t u22t 2 σ1 0 0 σ22 Σ
En lo que respecta la notaci´on, es importante recalcar lo siguiente: 1. Yt : incluye u´ nicamente variables end´ogenas. 2. Xt : incluye u´ nicamente variables ex´ogenas–o predeterminadas–entre las que se podr´ıa incluir tendencias deterministas, constantes, variables que satisfagan los requerimientos de los instrumentos. Por el momento s´olo aparecen en ella las constantes.
´ 13.3. EL PROBLEMA DE LA IDENTIFICACION
453
Volvamos a reducir el sistema9 [es decir, encontremos las ecuaciones reducidas] s´olo que esta vez lo haremos de manera m´as expedita: B −1 (BYt + CXt ) = B −1 (Ut ) Yt + B −1 CXt = B −1 Ut −1 Yt = |−B{z C} Xt + B −1 Ut | {z } Π
Vt
Y t = Π · Xt + V t
(13.2)
¿Qu´e hay con los nuevos residuales, Vt = B −1 Ut ? Vt ∼ iidN (0, Ω) La normalidad resulta obvia, puesto que se multiplica a algo normalmente distribuido por constantes. Lo “normal” tiene media cero; por ello, la esperanza no cambiar´a con la multiplicaci´on. Aqu´ı lo importante es ver que es la matriz Ω. B = B
−1
Ut
1 β12 β21 1
1 −β12 = −β21 1 u1t = u2t
1 1 − β12 β21
Podemos reparametrizar la primera matriz: "
1 1−β12 β21 −β12 1−β12 β21
−β12 1−β12 β21 1 1−β12 β21
#
≡
b11 b12 b21 b22
Ahora s´ı, podemos estudiar los residuales: Vt = B −1 Ut u1t b11 b12 · = u2t b21 b22 b11 u1t + b12 u2t = b21 u12 + b22 u2t 9
Note que invertimos una matriz; ello implica que es cuadrada (e invertible). ¿Por qu´e estamos tan seguros de ello?
454
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
Finalmente, podemos calcular las esperanzas que nos interesan:
E (Vt ) = 0
h ′ i V ar (Vt ) = E B −1 Ut Ut′ B −1 ′ = B −1 Σ B −1 La ecuaci´on en forma reducida muestra que cada variable end´ogena es funci´on de TODOS los t´erminos de error estructurales. Si tratamos de correr una de las regresiones basados u´ nicamente en una ecuaci´on estructural, como ya lo vimos, tendremos la certeza de obtener estimadores sesgados e inconsistentes.
13.3.2. M´as sobre la identificaci´on La identificaci´on es tambi´en, esencialmente, lo que requerimos para poder transitar del modelo reducido al modelo estructural, y en espec´ıfico a sus par´ametros, una vez estimado el modelo reducido. Lo que a continuaci´on se presenta es otra manera de entender ese puente. Recordemos nuevamente el sistema estructural BYt + CXt = Ut Con el sistema de ecuaciones que hemos venido utilizando ha quedado claro que, a´un conociendo–m´as bien estimando–los par´ametros del modelo reducido, Π, no hay manera de regresarnos a los par´ametros que realmente nos interesan, es decir, las β’s y las γ’s. Para asegurarnos que el concepto de identificaci´on, que de hecho es clave en econometr´ıa, sea correctamente entendido, todav´ıa podemos se˜nalar lo siguiente. Consideremos el n´umero de par´ametros reducidos (vea la ecuaci´on 13.2): s´olo son dos. Consideremos ahora el n´umero de par´ametros estructurales (vea la ecuaci´on 13.1): a´un normalizando β11 = 1 y β22 = 1 nos quedan cuatro par´ametros a estimar. Es importante recalcar que los par´ametros reducidos pueden interpretarse como ecuaciones que est´an en funci´on de los par´ametros estructurales. Nos enfrentamos pues a la dif´ıcil, vaya, imposible tarea de resolver cuatro inc´ognitas con s´olo dos ecuaciones. Ello redunda en una infinidad de matrices B y C que satisfacen Π = −B −1 C.
´ ´ INFORMACION 13.4. INCORPORANDO MAS
13.4.
455
Incorporando m´as informaci´on
Hasta ahora hemos utilizado un sistema de ecuaciones muy sencillo con objeto de entender claramente las cuestiones relativas a la identificaci´on. Es momento de emplear una versi´on m´as compleja, que incluya m´as variables–ex´ogenas o predeterminadas–en nuestras ecuaciones. Lo anterior, como pueden intuir con base en lo visto de Variables Instrumentales, permitir´a resolver nuestro problema de identificaci´on. El nuevo modelo que estudiaremos es:
y1t + β12 y2t + γ11 x1t + γ12 x2t = u1t β21 y1t + y2t + γ21 x1t + γ23 x3t + γ24 x4t = u2t Donde, como anteriormente, el sistema corresponde a un mercado; la variable y1 es el precio mientras que y2 es la cantidad. Las restricciones econ´omicas l´ogicas son, esencialmente las mismas. Hemos incluido nuevas variables; x1 , podr´ıa representar la ordenada en el origen [lo que permite incorporar constantes en ambas ecuaciones]; x2 podr´ıa ser el ingreso de los consumidores que participan en ese mercado. Las restantes variables, x3 y x4 , podr´ıan representar cuestiones que afectan espec´ıficamente la producci´on, como podr´ıan ser, el nivel salarial, el concepto de ajuste de inventarios (v´ease cap´ıtulo anterior), etc. . . Las variables end´ogenas rezagadas, as´ı como las variables ex´ogenas (sean e´ stas contempor´aneas o bien est´en rezagadas) forman el conjunto de variables predeterminadas. La propiedad fundamental compartida por todas radica en su independencia del t´ermino de error contempor´aneo y futuro, es decir, que satisfacen el supuesto de predeterminaci´on, el requerimiento de exogeneidad m´as laxo propuesto por la Cowles Commission (Vea la definici´on 17, p´agina 358). De hecho, ser´ıa conveniente explicitar dicho supuesto:
E [yn,t−i , un,t+j ] = 0 ∀ n = 1, 2 i = 1, 2, . . . j = 0, 1, . . . E [xk,t−j , un,t+j ] = 0 ∀ k = 1, 2, 3, 4 j = 0, 1, . . . Huelga decir que la representaci´on matricial antes propuesta, BYt + CXt = Ut tambi´en es v´alida en este caso. La diferencia estriba en las dimensiones de los distintos elementos:
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
456
1 β12 B = β21 1 y1t Yt = y2t γ11 γ12 0 0 C = γ21 0 γ23 γ24 u1t Ut = u2t
Xt = [x1t , x2t , x3t , x4t ]′
Podemos de nueva cuenta obtener la forma reducida de este sistema estructural, que es: Yt = −B −1 CXt + B −1 Ut Yt = ΠXt + Vt Los coeficientes reducidos ser´an, en esta ocasi´on: Π = −B −1 C 1 γ11 γ12 0 0 1 −β12 = − γ21 0 γ23 γ24 1 − β12 β21 −β21 1 1 γ11 − β12 γ21 γ12 −β12 γ23 −β12 γ24 = − γ23 γ24 1 − β12 β21 −β21 γ11 + γ21 −β21 γ12 1 β12 γ21 − γ11 −γ12 β12 γ23 β12 γ24 = 1 − β12 β21 β21 γ11 − γ21 β21 γ12 −γ23 −γ24 Reparametricemos esta expresi´on:
Π =
Π11 Π12 Π13 Π14 Π21 Π22 Π23 Π24
Y volvamos, por un momento, a nuestra notaci´on escalar:
´ 13.5. CONDICIONES DE IDENTIFICACION
457
y1t = Π11 x1t + Π12 x2t + Π13 x3t + Π14 x4t + v1t y2t = Π21 x1t + Π22 x2t + Π23 x3t + Π24 x4t + v2t En la expresi´on anterior es f´acil verificar como la forma reducida hace que cada variable end´ogena sea funci´on de todas y cada y una de las variables predeterminadas. Nuevamente, la cuesti´on relevante es saber si, una vez estimados los par´ametros reˆ podemos regresar a los par´ametros estructurales. Veremos como en esta ducidos, Π, ocasi´on s´ı podemos. Es conveniente empezar con los par´ametros correspondientes a las variables end´ogenas. En este caso resulta muy f´acil obtenerlos; basta con hacer las siguientes operaciones:10 β12 = −Π13 Π−1 23 β21 = −Π22 Π−1 12 Las anteriores expresiones denotan el tr´ansito entre los par´ametros del modelo reducido y los del modelo estructural. Note que e´ stas se pueden interpretar como las restricciones que permiten dicho tr´ansito. Ya teniendo β12 y β21 es posible11 calcular 1 . De esta manera podremos recuperar γ12 , γ23 el inverso del determinante, 1−β12 β21 y γ24 . Para terminar, podemos calcular γ11 y γ21 despej´andolas de las expresiones de Π11 y Π22 . As´ı, queda claro que el modelo de ecuaciones de este mercado, tal y como est´a especificado resulta en un sistema identificado: ambas ecuaciones est´an identificadas. Es importante hacer notar que, en otras especificaciones, podr´ıamos obtener una sola ecuaci´on identificada. En buena medida, nuestro objetivo radica en que la ecuaci´on que nos interesa est´e identificada (las dem´as no nos interesan en demas´ıa). Sabiendo lo anterior, podemos estimar el modelo reducido y luego recuperar los par´ametros estructurales.
13.5.
Condiciones de identificaci´on
Resulta indispensable conocer con antelaci´on si, en el sistema de ecuaciones que se pretende estimar, los par´ametros de inter´es est´an identificados. Asuma, como 10
Si tiene paciencia, descubrir´a que hay dos expresiones para obtener β12 ; la ecuaci´on est´a de hecho sobre-identificada. 11 De hecho, tenemos un problema de sobre-identificaci´on con respecto al par´ametro β12 , que as al abordar tambi´en podemos obtenerlo al hacer: β12 = −Π14 Π−1 24 . al respecto ahondaremos m´ la–desgraciadamente no tan famosa como debiera–Cr´ıtica de Liu.
458
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
en las secciones anteriores, un sistema de ecuaciones estructurales con G variables end´ogenas. Podremos entonces expresarlo como BYt + CXt = Ut , donde t = 1, 2, . . . , T , dim(B) es (G × G), dim(C) es (G × K) y Yt , Xt y Ut son vectorescolumna de dimensiones (G × 1), (K × 1) y (G × 1), respectivamente. Estudiemos la matriz de par´ametros B:
B=
β11 β21 .. .
β12 β22
. . . β1G β2G . . . .. .
βG1 βG2 . . . βGG
Es importante recalcar que, a diferencia de los desarrollos anteriores, en este caso no normalizamos los par´ametros.12 Es usual normalizar los par´ametros que aparecen en la diagonal, es decir, reemplazar βii por uno para i = 1, . . . , G. Este modelo, BYt + CXt = Ut , puede ser escrito de forma m´as compacta a´un. Definamos dos nuevas matrices. La primera, A, incluir´a todos los par´ametros, incluyendo aquellos que son cero seg´un nuestro modelo original. Definiremos tambi´en la matriz Z, que contendr´a todas las variables, end´ogenas, ex´ogenas y predeterminadas:
A = [B C] β11 β12 . . . β1G β21 β22 β2G = .. . . . ... . βG1 βG2 . . . βGG
γ11 γ21 .. .
γ12 . . . γ22 ...
γ1K γ2K .. .
γG1 . . . . . . γGK
De la matriz que contiene todas las variables, s´olo describiremos una columna, la t-´esima: 12
Antes, por ejemplo, el par´ametro que acompa˜naba a yi en la i-´esima ecuaci´on era igual a la unidad.
´ 13.5. CONDICIONES DE IDENTIFICACION
459
Zt
y1t .. . yt yGt = = xt x1t . .. xkt
Dejamos al lector la tarea de verificar que A × Zt = Ut . Por ahora seguimos proponiendo nuevas notaciones; denotemos αi al i-´esimo rengl´on de la matriz A. A manera de ejemplo, α1 Zt no es otra cosa m´as que. . . β11 y1t + β12 y2t + . . . + β1G yGt + γ11 x1t + γ12 x2t + . . . + γ1k xKt ´ E STRUCTURAL DEL S ISTEMA. Note que . . . es decir, L A P RIMERA E CUACI ON en esta representaci´on del modelo, todas las variables, tanto end´ogenas como ex´ogenas, aparecen en todas las ecuaciones. En ello difiere de los modelos que hab´ıamos usado como ejemplo. Necesitamos entonces establecer un sistema de restricciones que nos permitan representar el modelo tal y como lo especificamos originalmente (en el ejemplo anterior, no todas las ex´ogenas aparecen en todas las ecuaciones. En otras palabras, algunos de los par´ametros son restringidos a un valor igual a cero).
13.5.1. Restricciones de exclusi´on Para acabar de entender las condiciones de identificaci´on, nos concentraremos en la primera ecuaci´on del sistema. ¡E S I MPORTANT ´I SIMO R ECALCAR QUE E STE E JERCICIO DEBE H ACERSE PARA CADA UNA DE LAS E CUACIONES! En otras palabras, se estrudia ecuaci´on por ecuaci´on el problema de la identificaci´on (no se usa el sistema el sistema completo). En el ejemplo que hemos venido desarrollando, al igual que en los anteriores, no todas las variables est´an necesariamente presentes en cada ecuaci´on estructural. Digamos por ejemplo que, en un modelo con tres variables end´ogenas (y1 y2 y y3 ), las primeras dos s´ı aparecen en las tres ecuaciones mientras que la tercera, y3 , s´olo lo hace en las ecuaciones estructurales dos y tres. Lo anterior constituye una restricci´on que podr´ıamos expresar de la siguiente manera:13 13
Se elabora una expresi´on por cada restricci´on.
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
460
β11 β12 β13 . . . β1G γ11 . . . γ1k
·
0 0 1 0 .. . 0
= α1 ·
0 0 1 0 .. . 0
= 0
´ DE EXCLUSI ON ´ . Note que La expresi´on anterior se conoce como R ESTRICCI ON tendremos bastantes de este tipo de restricci´on, varias para la primera ecuaci´on del sistema as´ı como para las dem´as.
13.5.2. Restricciones homog´eneas lineales Aprovechando la estructura de restricciones que acabamos de crear, podemos imponer adem´as, a priori, restricciones que involucren dos o m´as elementos de α1 , Digamos que, en α1 , los coeficientes asociados a y2 y y4 son iguales [o as´ı lo creemos]. Esta restricci´on puede expresarse como:
β11 β12 β13 . . . β1G γ11 . . . γ1k
·
0 1 0 −1 0 .. . 0
= α · 1 = 0
0 1 0 −1 0 .. . 0
´ HOMOG ENEA ´ LINEAL . A esta expresi´on se le denomina R ESTRICCI ON
13.5.3. Reagrupando las restricciones estructurales Ya que tenemos todas las restricciones de la primera ecuaci´on, reagrupemos todo en una matriz de restricciones, a la que llamaremos φ, con (G + K) renglones.14 Podremos entonces sintetizar todas las restricciones relativas a la primera ecuaci´on: 14
¿Por qu´e?
´ 13.5. CONDICIONES DE IDENTIFICACION
461
α1 φ = 0 En donde, asumiendo que s´olo existen las dos restricciones antes presentadas:
φ=
0 0 0 1 1 0 0 −1 0 0 .. .. . . 0 0
El n´umero de columnas es igual al n´umero de restricciones, que denotaremos R. Por ende, las dimensiones de φ son las siguientes: dim(φ) = (G + K) × R
13.5.4. Restricciones entre el modelo estructural y el reducido Adem´as de las restricciones sobre las que ya hemos hablado, que est´an derivadas a priori de la especificaci´on del modelo estructural, existe otro tipo de restricciones; se trata de restricciones sobre los par´ametros contenidos en α1 [seguimos en el caso de la primera ecuaci´on] relativas a la relaci´on entre los coeficientes estructurales y los reducidos. ´ L O ANTERIOR ES EL ELEMENTO FUNDAMENTAL PARA LA COMPRENSI ON ´ DESARROLLANDO . L AS RESTRICCIONES DE EXCLUSI ON ´ DE LO QUE SE EST A ´ AS ´I COMO LAS LINEALES HOMOG ENEAS SON IMPUESTAS POR EL USUARIO . ´ DE ESTAS ´ ´ E NTRE M AS SE IMPONGAN , MENOS PAR AMETROS ESTRUCTURA ´ LES TENEMOS QUE RECUPERAR . S I EL N UMERO ES REDUCIDO HASTA EL PUNTO EN QUE COINCIDE CON LAS RESTRICCIONES — NO IMPUESTAS POR ´ ´ REDUCI NOSOTROS , SINO — QUE GENERA EL TR ANSITO DE LA ECUACI ON ´ DA A LA ESTRUCTURAL , ENTONCES HABREMOS OBTENIDO UNA ECUACI ON IDENTIFICADA . Para elucidar dichas restricciones, iniciemos el desarrollo con la expresi´on de los par´ametros reducidos y hagamos unas cuantas manipulaciones:
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
462
Π = −B −1 C BΠ = −C BΠ + |{z} C = 0 |{z} G×K
(13.3)
G×K
BΠ + CIK = 0
Donde IK es una matriz identidad K × K. Recomendamos que verifique el resultado de esta expresi´on usando un ejemplo sencillo donde, por ejemplo, G = 2 y K = 3. Obtendr´a un sistema id´entico al expresado en la ecuaci´on 13.4. Ahora aprovecharemos una de las matrices antes definidas para dar una expresi´on alternativa; recuerde que A = [B C], la matriz que contiene todos los par´ametros, posee las siguientes dimensiones: dim(A) = G × (G + K) Definamos la matriz W de la siguiente manera: Π W = IK Con base en lo anterior, podemos inferir r´apidamente que dim(W ) = (G+K)×K. Podemos entonces expresar la ecuaci´on (13.3) de la siguiente manera: A·W =0 lo que corresponde a:15
15
β11 β21 .. .
β12 β22
. . . β1G β2G . . . .. .
γ11 γ21 .. .
γ12 . . . γ22 ...
γ1K γ2K .. .
βG1 βG2 . . . βGG γG1 . . . . . . γGK
Π11 . . . Π1K .. ... .. . . ΠG1 . . . ΠGK · 0 0 1 . .. . .. .. . 0 ... 1
=0
Note que aqu´ı todav´ıa no normalizamos las β’s de las variables end´ogenas en la diagonal.
´ 13.5. CONDICIONES DE IDENTIFICACION
463
Note que, en realidad, lo que estamos haciendo corresponde al ejemplo en el que comprobamos la identificaci´on de los par´ametros; en ese caso lo hicimos usando la notaci´on escalar; ahora empleamos la matricial. Estudiemos con particular atenci´on los elementos del primer rengl´on del producto anterior: β11 Π11 + β12 Π21 + . . . + β1G ΠG1 + γ11 = 0 β11 Π12 + β12 Π22 + . . . + β1G ΠG2 + γ12 = 0 . .. . = .. β11 Π1K + β12 Π2K + . . . + β1G ΠGK + γ1K = 0
(13.4)
Dichas ecuaciones expresan T ODAS LAS R ESTRICCIONES QUE E XISTEN EN ´ ´ TRE PAR AMETROS E STRUCTURALES Y PAR AMETROS R EDUCIDOS DE LA ´ P RIMERA E CUACI ON . Llam´emoslas, en su conjunto, REP ER1 [Relaci´on entre par´ametros Estructurales y Reducidos de la ecuaci´on uno]. Lo anterior puede expresarse, matricialmente, de manera m´as elegante: REP ER1 : α1 W
13.5.5. Elucidando la identificaci´on Como ya hemos se˜nalado, la identificaci´on en un sistema de ecuaciones simult´aneas debe hacerse ecuaci´on por ecuaci´on. Hasta el momento, hemos logrado expresar de manera sencilla todas las restricciones que se imponen en una ecuaci´on en particular, tanto las referentes a la especificaci´on como las que surgen de la relaci´on entre el modelo estructural y el reducido. Para poder saber si una ecuaci´on dada est´a identificada, necesitamos juntar en una sola expresi´on todas las restricciones. Empecemos por recordar dichas restricciones: 1. Restricciones de exclusi´on y homog´eneas lineales: α1 × φ 2. Restricciones REP ER1 : α1 × W Juntarlas en una sola expresi´on es f´acil; basta con concatenar horizontalmente las matrices W y φ: dim=(G+K)×(K+R)
α1 ×
z }| { [W φ]
464
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
Para entender la manera en la que es posible averiguar si la ecuaci´on est´a identificada debemos detallar m´as las dimensiones de esta meta-matriz de restricciones. Si dim(α1 ) = 1 × (G + K) y dim ([W φ]) = (G + K) × (K + R), entonces, la meta-matriz de restricciones ser´a: dim (α1 · [W φ]) = 1 × (K + R) As´ı pues α1 [W φ] = 0 puede ser considerado como un sistema en el que aparecen K + R ecuaciones. Lo relevante ahora es saber cuantas inc´ognitas tenemos: E N LO QUE RESPECTA [W φ]: 1. Los elementos que aparecen en W son los que est´an en Π (los par´ametros reducidos) as´ı como en una matriz identidad de dimensi´on K. En principio, conocemos la matriz Π o bien la estimamos, por lo que sus elementos no nos son desconocidos. Con respecto a la matriz identidad, pues, obviamente, ah´ı tampoco hay elementos desconocidos. 2. Por otra parte, las restricciones a priori sobre el modelo estructural, ya sean las de exclusi´on o las homog´eneas lineales, fueron impuestas por nosotros En la matriz φ, por ende, tampoco hay elementos desconocidos. E N LO QUE RESPECTA α1 : Pues resulta evidente que es en este vector donde est´an todas nuestros elementos desconocidos; por una parte est´an los par´ametros asociados a las variables end´ogenas, β1i ∀ i = 1, 2, . . . , G, y por otra est´an los que acompa˜nan a las variables ex´ogenas o predeterminadas, γ1j ∀ j = 1, 2, . . . , K. En este desglose deber´a quedar claro que estamos buscando resolver K +G inc´ognitas mediante K + R ecuaciones. Si deseamos que la ecuaci´on est´e identificada, entonces el n´umero de ecuaciones debe ser igual al n´umero de inc´ognitas. No obstante, como generalmente normalizamos uno de los par´ametros asociados a las variables end´ogenas, perdemos una inc´ognita, por lo que la condici´on de identificaci´on es ligeramente menos dura. Las ecuaciones las construiremos con base en la matriz [W φ]. ´ DE S ER L INEALMENTE I NDEPENDIENTES D ICHAS E CUACIONES H ABR AN (el que dos de ellas, por ejemplo, no lo sean, implica que en realidad son s´olo una ecuaci´on) por lo que su n´umero est´a directamente representado por el rango de e´ sta. As´ı, la condici´on de identificaci´on puede ser expresada t´ecnicamente como:
´ 13.5. CONDICIONES DE IDENTIFICACION
465
ρ ([W φ]) = G + K − 1
´ DE R ANGO, s´olo puede ser impleEsta condici´on, conocida como la C ONDICI ON mentada en sistemas de ecuaciones relativamente chicos. Calcular el rango de la matriz [w φ] y satisfacer la condici´on exige que dicha matriz tenga G + K − 1 columnas independientes. Para que ello pueda suceder, lo primero que se debe cumplir es que la matriz tenga, cuando menos G + K − 1 columnas. Lo segundo que debe suceder es que esas columnas deben ser independientes. A la primera condici´on se ´ DE O RDEN [N ECESARIA –P ERO N O S UFICIENTE ]. le denomina C ONDICI ON Es muy f´acil implementarla, basta con contar el n´umero de variables ex´ogenas, end´ogenas, y de restricciones presentes en la ecuaci´on para saber si se cumple. Existen otras derivaciones an´alogas a la anterior para saber si una ecuaci´on en un sistema de ecuaciones est´a o no identificada. No obstante, es importante tener claro que la que realmente cuenta es la Condici´on de Rango estudiada previamente.
13.5.6. Reglas pr´acticas La discusi´on anterior constituye una explicaci´on detallada del procedimiento que permite saber si una ecuaci´on en espec´ıfico, en un sistema de ecuaciones simult´aneas, est´a identificada. En la pr´actica usaremos un procedimiento m´as sencillo. Para ello, necesitaremos, para variar, expander un poco la notaci´on; aprovecharemos para recordar algunas que establecimos recientemente: 1. G: N´umero total de variables end´ogenas en el sistema 2. gi : N´umero total de variables end´ogenas en la i-´esima ecuaci´on 3. K: N´umero total de variables predeterminadas (incluye ex´ogenas, obviamente) en el sistema 4. ki : N´umero total de variables predeterminadas (incluye ex´ogenas, obviamente) en la i-´esima ecuaci´on Ahora daremos una versi´on en extremo sencilla de la condici´on de orden. Es impor´ DE O RDEN ES N ECESARIA PERO N O S UFI tante recordar que la C ONDICI ON CIENTE para asegurar la identificaci´ on de una ecuaci´on):
466
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
Definici´on 27 En un modelo con G ecuaciones simult´aneas, se dice que una ecuaci´on satisface la condici´on de orden (es decir, est´a potencialmente identificada) siempre y cuando el n´umero de variables predeterminadas que no aparecen en dicha ecuaci´on (exclu´ıdas) no sea inferior al n´umero de variables end´ogenas inclu´ıdas en esa misma ecuaci´on, menos uno. Lo anterior se puede expresar m´as facilmente de la siguiente manera:
K − ki ≥ gi − 1
Si K − ki = gi − 1 se dice que la ecuaci´on est´a—potencialmente—ex´actamente identificada; Si K − ki < gi − 1 se dice que la ecuaci´on est´a sub-identificada. Ahora veamos como trabajar con la condici´on de rango, que es, dicho sea de paso, ´ S UFICIENTE para asegurar la identificaci´on de la ecuaci´on. Una regla C ONDICI ON pr´actica—y sencilla—para la condici´on de rango es menos evidente. No obstante, proveemos la siguiente, extra´ıda del libro de Gujarati: Definici´on 28 En un modelo con G ecuaciones simult´aneas, una ecuaci´on est´a identificada si y s´olo si es posible calcular al menos un determinante no nulo con base en las matrices de dimensiones (G − 1) × (G − 1) que se puedan formar con los coeficientes asociados a las variables (tanto end´ogenas como predeterminadas) exclu´ıdas de esa ecuaci´on en particular pero inclu´ıdas en las dem´as. La explicaci´on de ambas reglas resulta m´as f´acil exponerla con base en un ejemplo. Usaremos una versi´on modificada del ejemplo expuesto en el libro de Gujarati, simplificado y adaptado—de diversas formas—a nuestro proceder habitual. Supongamos el siguiente sistema de ecuaciones: y1t + β12 y2t + β13 y3t + γ11 + γ12 x2t = u1t y2t + β23 y3t + γ21 + γ22 x2t + γ23 x3t = u2t β31 y1t + y3t + γ31 + γ34 x4t = u3t
(13.5) (13.6) (13.7)
Lo primero que haremos es “replantear” este sistema en una tabla que haga m´as f´acil su lectura (vea la tabla 13.1). Empezaremos con la condici´on de orden de las tres ecuaciones:
´ 13.5. CONDICIONES DE IDENTIFICACION Ecuaci´on y1 13.5 1 13.6 0 13.7 β31
y2 β12 1 0
y3 β13 β23 1
Constante γ11 γ21 γ31
467 x2 γ12 γ22 0
x3 0 γ23 0
x4 0 0 γ34
Cuadro 13.1: Representaci´on de los par´ametros de un sistema de 3 ecuaciones.
1. K − k1 = 4 − 2 = 2; g1 − 1 = 3 − 1 = 2 ⇒ K − k1 = g1 − 1: identificaci´on exacta. 2. K − k2 = 4 − 3 = 1; g2 − 1 = 2 − 1 = 1 ⇒ K − k2 = g2 − 1: identificaci´on exacta. 3. K − k3 = 4 − 2 = 2; g3 − 1 = 2 − 1 = 1 ⇒ K − k3 ≥ g3 − 1: sobreidentificaci´on. Seg´un esta regla, las dos primeras ecuaciones est´an ex´actamente identificadas y la u´ ltima est´a sobre-identificada. Veamos ahora que dice la condici´on de rango. Debemos encontrar al menos un determinante no-nulo de las matrices 2 × 2 que se puedan formar con los coeficientes de variables exclu´ıdas en nuestra ecuaci´on. Note que, en la primera ecuaci´on, las u´ nicas variables exclu´ıdas en su especificaci´on son x3 y x4 . Adem´as, dichas variables s´ı aparecen en las otras dos ecuaciones. Ello implica que s´olo podemos utilizar los coeficientes asociados a e´ stas para construir una matriz de dimensiones (G − 1) × (G − 1) = 2 × 2. S´olo es posible generar una matriz as´ı, y la denotaremos Θ: Θ =
γ23 0 0 γ34
Resulta evidente que el determinante de esa matriz no es cero, siempre y cuando γ23 y γ34 sean ambos distintos a cero: | Θ | = γ23 × γ34 6= 0 Ello implica que la matriz tiene rango completo: ρ (Θ) = 2
468
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
Con base en lo anterior podemos estar seguros de que la primera ecuaci´on est´a exactamente identificada. Para concluir esta secci´on, es importante explicar la manera en que interact´uan ambas reglas de identificaci´on: 1. Si la condici´on de orden se˜nala que una ecuaci´on est´a ex´actamente identificada y la de rango encuentra una o m´as sub-matrices (G − 1) × (G − 1) con determinante no nulo: la ecuaci´on est´a ex´actamente identificada. 2. Si la condici´on de orden se˜nala que una ecuaci´on est´a sobre-identificada y la de rango encuentra una o m´as sub-matrices (G−1)×(G−1) con determinante no nulo: la ecuaci´on est´a ex´actamente identificada. 3. Si la condici´on de orden se˜nala que una ecuaci´on est´a ex´acta/sobre-identificada y la de rango no encuentra una sub-matriz (G−1)×(G−1) con determinante no nulo: la ecuaci´on est´a subidentificada. 4. Si la condici´on de orden se˜nala que una ecuaci´on est´a sub-identificada: la ecuaci´on est´a subidentificada (no hace falta calcular la condici´on de rango). Ejercicio 26 Retome el ejemplo de esta secci´on y calcule la condici´on de rango de las otras dos ecuaciones. ¿Qu´e obtiene usted?
13.5.7. Variables Ex´ogenas: algunas sugerencias Ya en las postrimer´ıas del estudio de ecuaciones simult´aneas conviene presentar un ejemplo intuitivo para entender mejor los trucos de la modelaci´on de sistemas de ecuaciones simult´aneas. Se ha hablado muy poco de la distinci´on entre ex´ogenas y ex´ogenas en t´erminos econ´omicos (puesto que en t´erminos econom´etricos, lo hemos hecho hasta el cansancio). Pensemos entonces en un ejemplo muy sencillo: un mercado de pescados en un pueblo costero.16 Tenemos, como siempre, oferentes, que son los pescadores, y demandantes, los habitantes del pueblo. Como siempre, tambi´en, tenemos observaciones a trav´es del tiempo (¡diarias!) del comportamiento de dicho mercado. Como ya saben, resulta obvio que si especificamos el modelo de la siguiente manera, 16
Inspirado de un ejemplo que aparece en un documento de LC Adkins: http://www.learneconometrics.com/gretl/ebook.pdf.
´ 13.5. CONDICIONES DE IDENTIFICACION
469
qt = α + βpt , qt = γ + δpt ,
e´ ste no puede estar identificado. Debemos incluir variables ex´ogenas. ¿Cu´ales podr´ıan o, mejor dicho, deber´ıan ser tales variables? La definici´on de las variables ex´ogenas no es trivial (volveremos a discutir esto m´as adelante). Pero en este mercado, hay candidatos cuyas caracter´ısticas son muy halag¨ue˜nas: 1. Variables ex´ogenas que s´olo afectan la oferta: pluviometr´ıa, e´ poca de vedas, condiciones del mar, tormenta (´esta podr´ıa ser dicot´omica). Es razonable suponer que el deseo de comer pescado no est´a dictado por el clima; dicha variable s´olo afecta, en principio, a los pobres pescadores. 2. Variables ex´ogenas que s´olo afectan la demanda: cristianos, como porcentaje del total, d´ıa de la semana, cuaresma (´esta tambi´en podr´ıa ser dicot´omica). Es sabido que los miembros de la religi´on cat´olica tienden a consumir m´as pescado en ciertas e´ pocas del a˜no y tambi´en ciertos d´ıas. 3. Variables que posiblemente afecten tanto a la demanda como a la oferta: precio de la carne de res, precio del pollo, precio del cerdo, precio del avestruz, e´ poca del a˜no (de hecho, si la veda coincide con la cuaresma, tales variables deber´ıan ingresar a esta lista),. . . Si bien estas variables muy posiblemente tengan efectos en el mercado de pescado, no es tan claro si afectan a la demanda, a la oferta o quiz´a a ambas. Si bien no se pretende descubrir el hilo negro del negocio de la pesca en esta corta subsecci´on, si aspiramos a dejar claro que la b´usqueda de las variables ex´ogenas (y de hecho, tambi´en la discriminaci´on entre end´ogenas y ex´ogenas) es m´as dificil de lo que parece. En realidad, el e´ xito de la estimaci´on de este tipo de modelos depende en gran medida del acierto con que se tomen estas decisiones. A manera de conclusi´on de este cap´ıtulo, se˜nalamos tan solo lo siguiente: si se pretende estimar un sistema de ecuaciones simult´aneas, es fundamental hacer el estudio de identificaci´on de cada una de las ecuaciones. Una vez que se “sabe” que la ecuaci´on que nos interesa est´a identificada, s´olo falta estimarlas. Para ello, ya no necesitamos extendernos; basta con emplear el m´etodo que estudiamos extensamente: el sistema de ecuaciones estructural puede estimarse mediante el m´etodo
470
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
de Variables Instrumentales. Hay hartas variantes y refinamientos de dicho m´etodo, pero ello no impide que 2SLS permanezca como el m´etodo por excelencia en econometr´ıa ante cualquier problema de ortogonalidad.
13.6.
El efecto desplazamiento (“Crowding out”)
13.6.1. ¿Qu´e es el Crowding out? El efecto desplazamiento, o bien Crowding Out en ingl´es, se refiere a la relaci´on que existe entre inversi´on privada e inversi´on p´ublica. En pocas palabras, la primera podr´ıa reducirse (podr´ıa ser desplazada) si aumenta la segunda. Ello obedece a que la inversi´on p´ublica se financia con deuda p´ublica; lo anterior puede reducir los canales de financiamiento de los agentes privados y por ende forzarlos a invertir menos. Lo anterior implica una distorci´on en los mercados de fondeo. Cualquier inversi´on por parte del Gobierno habr´a de ser financiada, (i) emitiendo deuda, (ii) imprimiendo dinero (y eventualmente generando inflaci´on), y; (iii) aumentando impuestos. En cualquier caso, dicha inversi´on tendr´a efectos sobre la inversi´on, pero tambi´en sobre el consumo privado (puesto que constituye un costo de oportunidad de esas variables).17 El efecto desplazamiento, no obstante, no est´a aceptado de manera un´anime. Hay investigadores que consideran que la inversi´on p´ublica tiene efectos positivos sobre la econom´ıa y que su relaci´on con la inversi´on privada es m´as bien de complementariedad. En palabras de Felipe Fonseca:18 “... Existe un creciente consenso respecto al efecto positivo que genera la inversi´on p´ublica en los procesos de crecimiento de las econom´ıas [...] Si bien el trabajo seminal de Barro (1990) sobre los determinantes del crecimiento econ´omico, e´ ste obtien un impacto no significativo de la inversi´on p´ublica en las tasas de crecimiento econ´omico, [...] una serie de estudios han dado cuenta de resultados en el sentido opuesto [...] En dichos estudios, se argumenta que la raz´on para esperar un efecto positivo de la inversi´on p´ublica en el crecimiento econ´omico es la expansi´on de la capacidad productiva en un a´ rea o sector determinado.” Al margen de esta discusi´on, podr´ıamos intentar aprovechar nuestros reci´en adquiridos conocimientos en materia de ecuaciones simult´aneas para elucidar el efecto crowding out en M´exico. 17
Esta definici´on somera habr´ıa de ser expandida. Los elementos b´asicos fueron inspirados del art´ıculo de Wikipedia: http://es.wikipedia.org/wiki/Efecto_desplazamiento. 18 Ver Fonseca Hern´andez (2009).
13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)
471
13.6.2. Metodolog´ıa y datos La base de datos La infomaci´on econ´omica que utilizaremos ha sido extra´ıda del INEGI, Banco de M´exico y de la Reserva Federal de los Estados Unidos19 , y comprende las siguientes variables: 1. Producto Interno Bruto (Ingreso): Y , 2. Producto Interno Bruto (Ingreso): Yp ,20 3. Consumo de Gobierno (Gobierno): Cg , 4. Consumo privado (Consumo): Cp , 5. Inversi´on privada (Inversion Privada): Ip , 6. Inversi´on p´ublica (Inversion P´ublica): Ig , 7. Importaciones (Importaciones): M , 8. Exportaciones (Exportaciones): X, 9. Tasa de inter´es real de Cetes a 28 d´ıas (Tasa): i, 10. Ingresos tributarios (Impuestos): T , 11. Tipo de Cambio Real (TCR): RER, 12. Producto Interno Bruto de Estados Unidos (PIBeeuu): Y ∗ . 13. Crisis de 2008, variable dicot´omica21 , (Crisis08), DU . La base de datos tiene una periodicidad trimestral y comprende observaciones para el periodo 2003 (primer trimestre) – 2011 (cuarto trimestre). Puede ser descargarda en: https://dl.dropbox.com/u/1307356/Arxius%20en%20la%20web/Cursos/EcuacionesSimultaneas.gdt Toda la informaci´on comprende datos que han sido ajustados estacionalmente y, si corresponde, est´an en pesos base 2003 (inclusive el PIB de Estados Unidos; s´olo el tipo de cambio real no fue ajustado). 19
Base de Informaci´on Econ´omica: http://www.inegi.org.mx/sistemas/bie/, Banxico: http://www.banxico.org.mx/ y FRED database: http://research.stlouisfed.org/fred2/. 20 Este PIB est´a construido s´olo tomando en cuenta consumo e inversi´on. 21 La variable es igual a cero antes del segundo trimestre de 2008 y es igual a uno hasta el segundo semestre de 2009 (y cero despu´es).
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
472 14.4
Inversión privada lnversión pública
Millones de pesos, base 2003 (en logs)
14.2 14 13.8 13.6 13.4 13.2 13 12.8 12.6 12.4 2003
2004
2005
2006
2007 2008 año
2009
2010
2011
Figura 13.2: Evoluci´on de la inversi´on privada y la inversi´on p´ublica Ejercicios Econom´etricos Separaremos el ejercicio econom´etrico en dos partes. En la primera, estableceremos un modelo bastante sencillo, lo que nos permite abordar de nueva cuenta el problema de la identificaci´on de una manera a´un m´as pr´actica. Empezaremos por dise˜nar un modelo muy sencillo: Cp,t + γ11 + β12 Yp,t = u1,t Ip,t + γ21 + β23 Yp,t + γ22 Ig,t = u2,t Yp,t + γ31 + β31 Cp,t + β32 Ip,t = u2,t
(13.8) (13.9) (13.10)
Note que, en este sistema de ecuaciones, estamos interesados particularmente en la segunda ecuaci´on, la de la inversi´on privada. Resumiendo nuestra hip´otesis, si existe un efecto de crowding out, el par´ametro que acompa˜na a la variable de inversi´on p´ublica, γ22 deber´ıa ser positivo (si plantea la ecuaci´on despejando la variable de inversi´on privada, notar´a que el signo hace m´as sentido). Podr´ıamos utilizar las t´ecnicas sugeridas en la secci´on anterior para decidir si la tercera ecuaci´on satisface las condiciones de orden y de rango. No obstante, dejaremos eso “para despu´es”. Intentemos estimar las ecuaciones en GRETL. Para ello, abra el programa y active la pesta˜na “Modelo”. La u´ ltima opci´on de esa pesta˜na refiere a ecuaciones simult´aneas; d´e “clic” en dicha opci´on. En el cuadro que aparece, seleccione “M´ıni-
13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)
473
mos Cuadrados en dos etapas” como m´etodo de estimaci´on y capture las ecuaciones. Esta u´ ltima deber´a quedarle como se muestra a continuaci´on: equation equation equation endog Cp
Cp Ip Yp Ip
0 Yp 0 Yp Ig 0 Cp Ip Yp
Debe capurar la lista de variables end´ogenas despu´es de las ecuaciones; el programa se encarga de elucidar las variables ex´ogenas y/o predeterminadas. Si efectivamente est´a usando el programa GRETL, descubrir´a r´apidamente que e´ ste calcula autom´aticamente la condici´on de orden, misma que algunas de las ecuaciones aparentemente no logran satisfacer. Siendo esa condici´on necesaria (aunque no suficiente), deberemos pensar en una especificaci´on mejor: Cp,t + γ11 + β12 Yp,t + γ12 Cg,t + γ13 DUt = u1,t Yp,t + γ21 + β21 Cp,t + β23 Ip,t + γ23 DUt + γ24 Yp,t−1 = u2,t Ip,t + γ31 + β32 Yp,t + γ33 DUt + γ25 Ig,t = u3,t
(13.11) (13.12) (13.13)
El nuevo sistema incluye ahora informaci´on de la crisis del 2008, que presumiblemente afect´o a las tres variables, as´ı como el gasto p´ublico, que dejamos en la ecuaci´on del consumo (deber´ıa, eventualmente, poder capturar los efectos sobre el consumo privado), etc. Note como fueron capturadas diversas variables ex´ogenas/predeterminadas, con objeto de identificar las ecuaciones. Capture el nuevo sistema y trate de estimarlo.: equation equation equation endog Cp
Cp Yp Ip Ip
0 Yp Cg Crisis08 0 Cp Ip Crisis08 Yp_1 0 Yp Crisis08 Ig Yp
Esta vez las ecuaciones del sistema s´ı satisfacen la condici´on de orden, lo que permite, identificar los par´ametros estructurales. Si estudia los valores de los par´ametros estimados, notar´a que los signos corroboran la idea de que el gasto y la inversi´on p´ublicos distorcionan y desplazan el consumo y la oferta privados. Limitaciones y otras posibilidades El ejemplo que se ha dado para ilustrar la estimaci´on de un sistema de ecuaciones simult´aneas tiene algunas limitaciones. En este manual se ha estudiado a fondo el
474
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
m´etodo de MC2E, por lo que fue este u´ ltimo el que usamos. No obstante, la ecuaci´on de comportamiento del ingreso es, en realidad, bastante criticable. Por la forma en que construimos en ingreso, dicha ecuaci´on corresponde en realidad a una identidad imcompleta. En otras palabras, tenemos un error de especificaci´on notorio en la segunda ecuaci´on. La soluci´on obvia es reemplazarla por una identidad. Lamentablemente, el m´etodo de MC2E no permite tomar en cuenta identidades; para ello, ser´ıa necesario estimar el sistema usando m´axima verosimilitud con informaci´on completa (MVIC). Puesto que esa t´ecnica no se abord´o, nos limitaremos a presentar los resultados us´andola “ciegamente” en el programa. Nuevamente, habr´a que cambiar la especificaci´on: Cp,t + γ11 + β12 Yp,t + γ12 Cg,t + γ13 DUt = u1,t Yp,t − Cp,t − Cg,t − Ip,t − Ig,t = 0 Ip,t + γ31 + β32 Yp,t + γ33 DUt + γ25 Ig,t = u3,t
(13.14) (13.15) (13.16)
Es importante se˜nalar que, si quisi´eramos calculcar la condici´on de rango (o de orden), el procedimiento ser´ıa igual. S´olo recuerde que ahora los par´ametros no los tiene que estimar, sino simplemente igualar a −1. La captura en GRETL deber´ıa verse as´ı:22 equation Cp equation Ip identity Yp endog Cp Ip instr const
0 Yp Cg Crisis08 0 Yp Ig Crisis08 = Cp + Cg + Ip + Ig Yp Cg Crisis08 Ig
El resultado es el siguiente (note que presentamos la ecuaciones de manera cl´asica): Cp,t = 912787 + 0.72Yp,t − 1.34Cg,t − 52684.7DUt Yp,t = Cp,t − Cg,t − Ip,t − Ig,t Ip,t = −1.39 × 106 + 0.4033Yp,t + 87635DUt − 1.63095Ig,t
(13.17) (13.18) (13.19)
Todos los par´ametros son estad´ısticamente significativos a 5 % (la mayor´ıa lo son al 1 %). En cuanto a la bondad del ajuste, ambas R2 son superiores a 98 %. Los residuales de ambas ecuaciones superan las pruebas de homoscedasticidad y de normalidad (aunque no de autocorrelaci´on). El par´ametro que corresponde al efecto del gasto p´ublico sobre el consumo privado tiene el signo correcto. Lo mismo sucede con el caso de la inversi´on. Hay efecto desplazamiento. 22
No olvide cambiar el m´etodo de estimaci´on.
13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)
475
Este ejercicio es muy sencillo y, sobre todo, emplea una base de datos demasiado corta (36 observaciones). Es obvio que puede mejorarse. No obstante, el resultado econom´etrico parece ser bastante robusto, aunque hay que tomar en cuenta los efectos que habr´ıa en nuestra apreciaci´on del mismo si consider´aramos la posibilidad de que algunas variables no fueran estacionarias. En todo caso, el grueso de la literatura referente a las ecuaciones simult´aneas fue hecho antes de la revoluci´on de las ra´ıces unitarias, por lo que, moment´aneamente, haremos un par´entesis a ese respecto. A cambio de eso, se sugiere enf´aticamente hacer los siguientes ejercicios. Ejercicio 27 Calcule tanto la condici´on de orden como la de rango a la ecuaci´on de inversi´on privada de los tres sistemas de ecuaciones presentados en este cap´ıtulo. Ejercicio 28 La especificaci´on utilizada es en extremo sencilla. Habr´a notado que la base de datos contiene otras variables. Habr´a notado tambi´en que ninguna de las variables est´a en logaritmos o bien que no hay mucho e´ nfasis en las cuestiones din´amicas (rezagos). Proponga y estime un mejor modelo, actualizando la base de datos, incluyendo eventualmente m´as ecuaciones y/o m´as variables ex´ogenas. No olvide demostrar que la ecuaci´on de inversi´on privada est´a identificada.
476
´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS
Cap´ıtulo 14 Ep´ılogo El material que presenta este curso queda, en lo esencial, inserto en el trascendental enfoque de la famos´ısima “Comisi´on Cowles”,1 cuyo nombre se deriva del hecho que la mayor parte de los que construyeron este paradigma, lo hicieron al amparo de dicha comisi´on, radicada en Chicago a finales de los a˜nos cuarenta as´ı como en los a˜nos cincuenta. La Comisi´on Cowles, en particular, sosten´ıa que la macroeconom´ıa es susceptible de ser representada por un sistema de ecuaciones simult´aneas, generador de todas las variables. Entre los postulados principales de este enfoque destaca la distinci´on entre variables ex´ogenas y end´ogenas y dicha distinci´on, como bien se ha visto, fue refinada en los a˜nos ochenta con objeto de incorporar en la metodolog´ıa econom´etrica la Cr´ıtica de Lucas. En cierto sentido, (i) la separaci´on las variables ex´ogenas y end´ogenas [como lo suger´ıa la Comisi´on Cowles], (ii) y la estructura causal impuesta en los sistemas de ecuaciones constituyen ambas decisiones a priori del econometrista. M´as grave a´un, y eso en correspondencia con el estado del arte de la e´ poca, ambas decisiones no pueden considerarse como falsables. Las cr´ıticas a la econometr´ıa propuesta por la Comisi´on Cowles no son pocas ni carecen de fundamento; vale la pena enumerarlas: 1. Tipificaci´on de las variables: la clasificaci´on entre variables ex´ogenas y end´ogenas es, en ocasiones, arbitraria. 2. Cr´ıtica de Liu: es posible que existen muchas variables que deber´ıan ser inclu´ıdas en las ecuaciones de un sistema que, de hecho, no aparecen, puesto 1
Si bien sufre m´ultiples e importantes alteraciones debidas a las aportaciones m´as recientes en el campo.
477
´ ´ CAPITULO 14. EPILOGO
478
que el econometrista las omiti´o con objeto de lograr los requisitos de indentificaci´on de la especificaci´on. En palabras m´as llanas, es posible manipular arbitrariamente la especificaci´on de una ecuaci´on con el mezquino y vulgar inter´es de asegurar la identificaci´on de los par´ametros. 3. Cr´ıtica de Lucas: a este respecto, con objeto de no ser demasiado redundantes con lo que ya se ha dicho, s´olo se˜nalaremos que los modelos de ecuaciones simult´aneas ten´ıan por objeto pronosticar los efectos de cambios en las variables ex´ogenas sobre las end´ogenas (asumiendo por ejemplo que dichas variables ex´ogenas corresponden a variables de control de alguna autoridad, como la tasa de inter´es de corto plazo o las tasas impositivas, etc.). No obstante, si hay alteraciones en las variables ex´ogenas y los agentes–maximizadores– son capaces de preveerlas, modificar´an su comportamiento. De ser cierto, los coeficientes estimados en un sistema de ecuaciones no puedan ser asumidos como independientes de los cambios en variables ex´ogenas. La respuesta a esta cr´ıtica, como ya lo saben, vino dada por definiciones m´as precisas de la exogeneidad. La evoluci´on reciente de la econometr´ıa se traduce en una vasta cantidad de propuestas las unas m´as sofisticadas que las otras. Destaca la hibridaci´on de las t´ecnicas de series de tiempo con la econometr´ıa, que ha dado pie a la macroeconometr´ıa moderna. Son los principios t´ecnicos de esta ramificaci´on as´ı como sus potenciales aplicaciones a cuestiones emp´ıricas, las que se estudian en los siguientes cursos:
E CONOMETR ´I A DE S ERIES DE T IEMPO Y
M ACROECONOMETR ´I A
Cap´ıtulo 15 Ejercicios (ii) P REGUNTA # 1 Preguntas de conocimientos generales: responda brevemente (cinco renglones, no m´as) a las siguientes preguntas: 1. ¿Qu´e efecto tiene la autocorrelaci´on sobre los estimadores? 2. ¿Qu´e efecto tiene la heteroscedasticidad sobre los estimadores? 3. ¿En qu´e consiste el supuesto de Ortogonalidad? ¿Qu´e efecto tiene sobre la regresi´on cuando dicho supuesto no se cumple? 4. ¿Qu´e efecto tiene la multicolinealidad sobre los estimadores? 5. ¿Qu´e es un diagrama de Venn? 6. ¿Cu´al es la diferencia entre el modelo estructural y el reducido? 7. ¿C´omo verificar´ıa si algunas variables son redundantes? 8. ¿Para qu´e sirve la prueba de Hausman? 9. ¿En qu´e consiste el m´etodo de estimaci´on de MC2E? 10. ¿En qu´e consiste el m´etodo de estimaci´on de MCG? P REGUNTA # 2 ¿Cu´al es el caso m´as grave de los mencionados a continuaci´on? 479
´ CAPITULO 15. EJERCICIOS (II)
480 Variable dependiente medida con error Variables explicativas medidas con error
P REGUNTA # 3 ¿Cu´ales deben ser las propiedades de una variable instrumental si se quiere que e´ sta sea v´alida? Proporcione las condiciones t´ecnicas; explique su significado (5 l´ıneas max.) P REGUNTA # 4 Cada pregunta vale 10 puntos. 1. ¿En que consiste el M´etodo de Variables Instrumentales? 2. ¿Qu´e problema resuelve? 3. Si tuviera que aplicarlo con una regresi´on espec´ıfica, ¿C´omo lo ejecutar´ıa? 4. ¿Es importante el n´umero de variables instrumentales adicionales que se incluyan en este m´etodo de estimaci´on? P REGUNTA # 5 ¿Qu´e entiende usted por Granger-Causalidad? Detalle como especificar´ıa la prueba. P REGUNTA # 6 Asuma la siguiente relaci´on entre xt y yt : yt = βxt + wt El problema es que nuestros datos est´an mal medidos: yt∗ = yt + uyt x∗t = xt + uxt uyt ∼ iidN (0, σy2 ), uxt ∼ iidN (0, σx2 ), wt ∼ iidN (0, σw2 ) Demuestre si este estimador es consistente o no.
481 P REGUNTA # 7 En clase se vio un estimador de Variables instrumentales en el que el n´umero de columnas de la matriz Z, l , era igual al n´umero de columnas de la matriz X . No obstante, tambi´en vimos que era posible que l > K . Pero no se demostr´o que, en ese caso, el estimador era consistente. Asuma la relaci´on Y = Xβ + U en la que se cumplen todos los supuestos excepto el de ortogonalidad. Asuma tambi´en que dispone de una matriz Z de instrumentos v´alidos (recuerde que necesita los detalles t´ecnicos). La f´ormula de variables instrumentales cuando l > K es la siguiente (por cierto, para derivarla, basta con formular el estimador de M´ınimos Cuadrados Generalizados, pero e´ sta no es la cuesti´on): βˆIV = (X ′ Z(Z ′ Z)−1 Z ′ X)−1 X ′ Z(Z ′ Z)−1 Z ′ Y | | {z } {z } Pz
Pz
= (X ′ Pz X)−1 X ′ Pz Y
Demuestre la consistencia de este estimador (no olvide los factores de normalizaci´on) P REGUNTA # 8 Explique que sabe usted de exogeneidad: a) En el sentido de la Comisi´on “Cowles” b) En el sentido de Engle, Hendry y Richard P REGUNTA # 9 Asumamos el siguiente modelo: Yt = b0 + b1 Xt + Ut X t = a 0 + a 1 Y t + a 2 Zt + V t Donde se cumplen los siguientes supuestos: E(Ut ) E(Ut2 ) E(Ut Uτ ) E(Vt ) E(Vt2 ) E(Vt Vτ ) E(Ut Vt )
= = = = = = =
0 σu2 0 0 σv2 0 0
´ CAPITULO 15. EJERCICIOS (II)
482
La persona encargada de las estimaciones s´olo conoce la primera relaci´on (la que tiene a Yt como variable dependiente) y por ende la estimar´a sin tomar en cuenta la segunda. ¿Qu´e supuesto de la regresi´on se rompe? Demu´estrelo, ¿Qu´e ocurrir´a con los estimadores obtenidos? P REGUNTA # 10 Indique las condiciones que requiere satisfacer una variable para ser: a) Fuertemente ex´ogena con respecto a otra, b) S´uper ex´ogena con respecto a otra P REGUNTA # 11 Considere el siguiente modelo, yt = α + β
∞ X
wi xt−i + εt , donde 0 < w < 1.
i=0
Resu´elvalo de tal forma que obtenga una expresi´on que s´ı sea estimable. Comente acerca de las propiedades del t´ermino de error resultante. P REGUNTA # 12 Cuando se estima una especificaci´on din´amica, ¿El cumplimiento de cu´al supuesto es importante verificar? ¿Por qu´e? Justifique. P REGUNTA # 13 ¿En qu´e consiste la metodolog´ıa de General a Simple? Se˜nale cu´al es el principal argumento que aboga a favor de dicha metodolog´ıa. P REGUNTA # 14 ¿Cu´al es la diferencia entre el modelo estructural y el reducido? P REGUNTA # 15 ¿Qu´e entiende usted por condici´on de Orden y Condici´on de Rango?
483 P REGUNTA # 16 ¿Cu´al es, concretamente, la condici´on de orden? Calc´ulela en el modelo siguiente: Y1t + β12 Y2t + γ11 X1t + γ12 X2t = U1t β21 Y1t + Y2t + γ21 X1t + γ23 X3t + γ24 X4t = U2t P REGUNTA # 17 ¿Qu´e efecto tiene la no-ortogonalidad entre variables explicativas y t´ermino de error sobre los estimadores? P REGUNTA # 18 Indique tres casos en los que se rompe el supuesto de ortogonalidad. P REGUNTA # 19 ¿Qu´e efecto tiene la multicolinealidad sobre los estimadores? P REGUNTA # 20 ¿Para qu´e sirve la prueba de Hausman? ¿Cu´al es la l´ogica detr´as de e´ sta? ¿C´omo se lleva a cabo? P REGUNTA # 21 Explique la Cr´ıtica de Lucas. P REGUNTA # 22 Suponga que se dispone de T = 120 observaciones de K = 7 variables explicativas, x1t , x2t , ..., xkt ,as´ı como de una variable dependiente, yt . Se sospecha que existe un rompimiento estructural en un cierto punto de la muestra, en la observaci´on 40. Con base en esto u´ ltimo, se parte la muestra en dos; posteriormente se estima la regresi´on por MCO de la variable dependiente contra todas las dem´as (la primera puede ser considerada como un vector en el que s´olo aparecen “unos”) usando: (i) todos los datos; (ii) s´olo los datos de la primera parte de la muestra, y; (iii) s´olo los datos de la segunda parte de la muestra. De cada regresi´on se obtienen las siguientes sumas de residuales al cuadrado (no necesariamente en el mismo orden): (1) 545, (2) 777 y (3) 1607.
´ CAPITULO 15. EJERCICIOS (II)
484
1. Indique cu´al de las tres sumas corresponde a la regresi´on que emple´o todos los datos. Justifique su respuesta (la explicaci´on es lo que m´as importa) 2. Con la informaci´on proporcionada es posible hacer una prueba de cambio estructural. ¿Cu´al es? 3. ¿Cu´al es la hip´otesis nula de esa prueba?, y ¿la alternativa? 4. ¿C´omo se distribuye el estad´ıstico bajo la hip´otesis nula? 5. Calcule dicha prueba. 6. Si efectu´o bien los c´alculos, le debi´o salir un estad´ıstico de prueba tal que su p-valor es 0.006. ¿Acepta o rechaza la hip´otesis nula? P REGUNTA # 23 Conteste las siguientes preguntas: 1. ¿Qu´e entiende usted por la hip´otesis de expectativas racionales? 2. ¿Cu´al es la propiedad que una variable debe tener, estad´ısticamente, para que la Cr´ıtica de Lucas no aplique? Explique. 3. Indique dos maneras de probar que la hip´otesis de expectativas racionales se cumple. P REGUNTA # 24 Suponga que dispone de dos variables, xt y yt . Suponga adem´as que, en una especificaci´on lineal de tipo yt = α + βxt + ut tenemos evidencia de que la variable explicativa es d´ebilmente ex´ogena en el sentido de Engle, Hendry y Richard [es decir, con respecto al par´ametro de inter´es, en este caso,β]. Con base en lo anterior, se lleva a cabo una prueba de estabilidad del sobre ambas variables ¿A qu´e conclusi´on llegar´ıa usted si? a) Se identifican cambios estructurales en xt pero no en yt b) Se identifican cambios estructurales en xt y en yt c) No se identifican cambios estructurales en xt ni en yt
485 P REGUNTA # 25 Suponga una variable yt que se genera de la siguiente manera: yt = β + uyt Donde β es un par´ametro fijo y uyt representa las innovaciones que son iid con esperanza nula y varianza constante σu2 . El estimador de M´ınimos Cuadrados Ordinarios de Beta es y¯, es decir la media de la variable, cuya varianza poblacional es 2 σu , donde T es el tama˜no de muestra. Un investigador algo necio insiste en estimar T ˆ la relaci´on yˆt = βˆ1 + βˆ2 xt . Dicho investigador usa la cl´asica f´ormula: βˆ2 x¯i. h β1 = y¯ − 2 Cabe recordar que la varianza poblacional de este estimador es: σu2 T1 + P (xx¯t −¯x)2 . Por simplicidad, asuma que la variable explicativa no es estoc´astica. Dado todo lo anterior, demuestre que: a) y¯ es, de hecho, el estimador de MCO de βˆ1 . b) El valor de la R2 en la regresi´on del econometrista. P REGUNTA # 26 En este ejercicio, las variables est´an centradas. Suponga que la variable dependiente se genera de la siguiente manera: yt = βxt + δzt + ut Pero el investigador es medio tarugo y s´olo estima: yt = φxt + vt Suponga adem´as que la variable xt es normal centrada en cero y con varianza constante σx2 ; estudie el comportamiento asint´otico de φˆ bajo los escenarios: a) zt = ρxt + ωt , b) zt = ωt donde ut y wt son ruidos iid normales centrados en cero y con varianzas constantes, σu2 y σω2 , respectivamente. P REGUNTA # 27
´ CAPITULO 15. EJERCICIOS (II)
486
Suponga que las variables xt y yt se generan de la siguiente manera: yt = βxt + ut xt = µ x + w t x˜t = xt + vt vt = δ + γzt para g = u, w, z, gt ∼ iidN 0, σg2
Suponga adem´as que el econometrista s´olo tiene acceso a la variable x˜t y que pretende estimar la regresi´on: yt = βˆx˜t + ǫt a) ¿Es el estimador sesgado o insesgado? b) Calcule la consistencia del estimador. P REGUNTA # 28 Suponga que la verdadera especificaci´on es: yt = βxt + ut donde yt y xt son variables centradas. Suponga adem´as que se cumplen todos los supuestos de la regresi´on. Un avezado econometrista estima correctamente el modelo ˆ t + uˆt ] pero despu´es se hace bolas y corre una segunda regresi´on: [yt = βx yt = γˆ yˆt + ǫt ˆ t] donde yˆt representa los valores estimados de la primera regresi´on [ˆ yt = βx a) ¿Cu´al es su intuici´on? ¿Qu´e cree que arroje como estimador la segunda regresi´on? b) Demuestrelo. c) Proceda igual pero con variables no centradas y regresiones que incluyen la constante. ¡Aproveche el resultado anterior! P REGUNTA # 29
487 Suponga un modeloP yt = α + βxt + ut estimado por MCO. ¿Por qu´e podemos estar tan seguros de que uˆt = 0? Si en vez de ese modelo, usamos P yt = βxt + ut (¡sin que las variables est´en centradas!), ¿se puede afirmar que uˆt = 0? Explique su respuesta. P REGUNTA # 30 Suponga el siguiente sistema de ecuaciones simult´aneas: y1t = α1 + β1 x1t + β2 x2t + β3 y2t + u1t y2t = α2 + β4 x2t + β5 y1t + u2t y3t = α3 + β6 x1t + u3t
(15.1) (15.2) (15.3)
¿Est´a identificada la segunda ecuaci´on? Proporcione s´olo las condiciones necesarias. P REGUNTA # 31 Suponga que desea estudiar la relaci´on entre xnt y ytn y emplea para ello el siguiente modelo: yt = βxt + ut donde yt = ytn − y¯n y xt = xnt − x¯n y la correlaci´on entre las variables originales es cero: ρxn ,yn = 0 Demuestre que βˆ = 0. Ayuda: la f´ormula del coeficiente de correlaci´on es: P (zt − z¯)(wt − w) ¯ ρz,w = pP P (zt − z¯)2 (wt − w) ¯ 2
El resultado del ejercicio anterior puede generalizarse de la siguiente manera: Los estimadores (par´ametros) asociados a un subconjunto de variables explicativas en una regresi´on [por ejemplo, βˆ3 y βˆ4 en la regresi´on yt = βˆ1 + βˆ2 x2t + βˆ3 x3t + βˆ4 x4t + uˆt ] ser´an iguales a cero si dichas variables asociadas (en el ejemplo ser´ıan x3t y x4t ) no est´an correlacionadas ni con la variable dependiente (yt ) ni con las dem´as explicativas (otra vez, en nuestro ejemplo, ser´ıan x1t y x2t ). Asuma, para el siguiente ejercicio, que se cumplen las condiciones de este resultado. Debe recordar adem´as que, por construcci´on, los residuales de una regresi´on tienen una correlaci´on igual a cero con las variables independientes.
´ CAPITULO 15. EJERCICIOS (II)
488
P REGUNTA # 32 Suponga que se estiman las siguientes regresiones: yt = α ˆ 1 x1t + α ˆ 2 x2t + uˆ1t yt = γˆ x2t + vˆyt ˆ 2t + vˆxt x1t = δx ˆvxt + uˆ2t vˆyt = βˆ
(15.4) (15.5) (15.6) (15.7)
donde yt = ytn − y¯n , x1t = xn1t − x¯n1 (no es una constante) y x2t = xn2t − x¯n2 . Demuestre que: 1. βˆ = α ˆ1 2. uˆ1t = uˆ2t P REGUNTA # 33 Suponga que estima el siguiente modelo: st = α + βrt + ut D´onde, St es el tipo de cambio peso/d´olar, rt es el diferencial de tasas de inter´es entre M´exico y Estados Unidos y ut es el t´ermino de error. ¿C´omo probar´ıa usted la presencia de autocorrelaci´on? En caso de que encontrara evidencia de autocorrelaci´on ¿qu´e har´ıa usted? P REGUNTA # 34 Defina los siguientes conceptos y ejecute los c´alculos solicitados: 1. Estacionariedad d´ebil. 2. Operador diferencia, ∆. Desarrolle ∆3 (xt ). 3. Orden de integraci´on, I(d). Si xt ∼ I(1), ¿qu´e puede decir de ∆(xt )? 4. Operador rezago, L. Desarrolle (1 − 2L + 3L2 − 5L5 )xt . P REGUNTA # 35
489 Suponga que dos variables (xt y yt ) fueron generadas independientemente como procesos I(1) sin deriva. ¿Qu´e pasar´ıa si intentara usted estimar la regresi´on yt = α + βxt ? P REGUNTA # 36 Suponga que tiene usted datos de E.E.U.U. respecto al salario (w) de una poblaci´on; sabe adem´as, la edad (E) y el color de piel de cada individuo (con tres clasificaciones u´ nicamente: negro, blanco o moreno), el n´umero de a˜nos de escolaridad y su promedio (escolar, tambi´en). ¿Qu´e problema le ve a la ecuaci´on siguiente? wi = α + β1 Ei + β2 N egroi + β3 Blancoi + β4 M orenoi + ut D´onde las variables N egro, Blanco y M oreno son variables dicot´omicas que valen uno si el individuo tiene la piel de dicho color y cero si no. Suponga que corrige el problema de especificaci´on del inciso anterior. Explique ahora porqu´e la ecuaci´on (corregida) sigue sin ser un buen modelo para determinar si hay dicriminaci´on por salario en esa poblaci´on. Proponga una especificaci´on mejor con la informaci´on provista en este ejercicio; explique porqu´e es mejor su propuesta. P REGUNTA # 37 ¿Cierto o falso? Un econometrista corre una regresi´on entre dos variables (se incluye constante); todos los supuestos se cumplen, s´olo que la variable dependiente est´a medida con error; el error es un ruido blanco centrado en cero con varianza constante. El estimador de la pendiente tiene sesgo. P REGUNTA # 38 Un econometrista corre una regresi´on entre dos variables (yt∗ = α + βxt + ut ); todos los supuestos se cumplen, s´olo que la variable dependiente est´a medida con error; el error es un ruido distribuido como normal, con varianza constante y esperanza igual a µE 6= 0. ¿Hay consistencia en el estimador de β? Suponga que xt ∼ N (0, σx2 ), yt = α + βxt + ut , yt∗ = yt + Et y Et ∼ N (µE , σE2 ). P REGUNTA # 39 El padre de Juan tiene cinco hijos; les puso nombres raros: Diez, Veinte, Treinta, Cuarenta... ¿C´omo crees que se llama el quinto?
490
´ CAPITULO 15. EJERCICIOS (II) P REGUNTA # 40
Complete la siguiente serie: 7 = 5, 5 = 5, 10 = 4, 9 = 5, 15 = 6, 16 = 9, 100 = 4, 14 = . . . , 28 = . . .. P REGUNTA # 41 En este manual se explica la prueba Dickey-Fuller, misma que sirve para probar la hip´otesis nula de ra´ız unitaria. Dicha prueba es muy sensible a cambios estructurales en la variable y por lo mismo, e´ stos deben ser incorporados a la prueba, de la misma manera que se incorporaron elementos deterministas, como la constante y la deriva. Suponga que el proceso que gener´o realmente los datos (PGD) es el siguiente: yt = µy + yt−1 + γy DUyt + uyt ,
donde µy = 0.14 y γy = 0.21 son par´ametros, uyt ∼ N 0, 21 corresponde a las innovaciones, y t = 1, . . . , T con T = 500, es el tama˜no de la muestra; DUyt es una variable dicot´omica que vale cero si t < 251 y uno si t ≥ 251. uy0 = y0 = 0. 1. resuelva la ecuaci´on del PGD, Note que le deber´ıa quedar la suma de la variable dicot´omica con distintos rezagos. Si tiene dificultades resolviendo dicha suma, haga un ejemplo sencillo en una hoja con T = 10. Notar´a que llega a una suma f´acil de interpretar. 2. Escriba el c´odigo de Matlab que permita realizar la siguiente variante de la prueba Dickey-Fuller (se asume que la variable dicot´omica s´ı es conocida por el econometrista): ∆(yt ) = α + βyt−1 + φDUyt 3. Aplique la prueba a una variable generada iid, distribuida normalmente con esperanza cero y varianza igual a 2. ˆ 4. Recupere el valor num´erico del estad´ıstico t asociado a beta. 5. Al haber modificado la regresi´on auxiliar de la prueba Dickey-Fuller, los valores cr´ıticos usuales para dicha prueba ya no sirven. Realice un Monte Carlo en el que genere la variable y bajo la hip´otesis nula y obtenga los valores cr´ıticos del estad´ıstico tβ al 1 %, 5 % y 10 %. Es como calcular el histograma s´olo que no se pide el gr´afico. Se obtienen 500 r´eplicas del estad´ıstico de prueba, se ordenan de menor a mayor (el comando es “sort”) y se extraen las que corresponden a los percentiles solicitados (el comando es “quantile”). Recuerde que la prueba es una sola cola (la del lado negativo).
491 P REGUNTA # 42 Considere las siguientes siete situaciones: 1. Se estima la regresi´on yt = α + βxt + ut ; se sabe que σ 2 = (γxt )2 (γ es una constante cualquiera), 2. Se estima la regresi´on yt = α + β1 x1t + β2 x2t + ut ; se sabe que: a) x1t = θx2t + v1t , d´onde v1t ∼ iidN (0, 1/3),
b) ut = φut−1 + v2t , d´onde v2t ∼ iidN (0, 1/2). 3. Se estima la regresi´on yt = α + βxt + ut ; se sabe que E(xt ut ) 6= 0, 4. Se estima la regresi´on yt = α + βxt + ut ; se sabe que: a) zt ∼ I(1) para z = x, y,
b) ∃ una combinaci´on lineal de ambas variables que resulta ser I(0). 5. Se estima la regresi´on yt = β1 x1t + β2 x2t + . . . + β7 x7t + ut ; se sabe que T = 7, 6. Se estima la regresi´on yt = α + β1 x1t + β2 x2t + ut ; se sabe que x1t ⊥x2t , 7. Se estima la regresi´on yt = α + βxt + ut ; se sabe que V AR(ut ) = K 4 , d´onde K es una constante cualquiera. En algunas de estas situaciones la estimaci´on de la regresi´on podr´ıa tener alguna(s) de las siguientes dificultades: a Hiperventilaci´on, b Heteroscedasticidad, c Alopecia, d Micronumerosidad, e Cointegraci´on, f Alopat´ıa,
´ CAPITULO 15. EJERCICIOS (II)
492 g No ortogonalidad, h Hipermetrop´ıa, i Regresi´on espuria, j Multicolinealidad, k Autocorrelaci´on, l No hay ning´un problema,
m El problema no aparece en ninguna de las opciones a-k, n ausencia de grados de libertad. Identifique, entre las siguientes opciones, la que identifica correctamente el problema de cada regresi´on: : [k], [i] y [h], [c], [e], [i], [m], [a] : [b], [j] y [k], [g], [e] y [l], [d], [l], [l] : [c], [f] y [i], [g], [b], [j], [m] y [n], [h] : [b], [j] y [k], [g], [e] y [l], [n], [l], [l] : [b], [k], [g], [e], [d], [l], [l] : [k], [j] y [k], [g], [e] y [l], [d], [l], [l] : [b], [j], [g],[l], [d], [l], [l] : [b], [j], [g],[l], [d], [i], [l] : [b], [a], [d], [i], [l], [l], [b] : [b], [j], [g], [e] y [l], [d], [l], [b] : [b], [j], [g],[l], [d], [m], [l] : ninguna de las anteriores. : Hay dos secuencias de respuesta correctas entre las once primeras. ¿Cu´ales?
493 : Hay tres secuencias de respuesta correctas entre las once primeras. ¿Cu´ales? : Hay tres secuencias de respuesta correctas entre las once primeras. ¿Cu´ales? : Hay cuatro secuencias de respuesta correctas entre las once primeras. ¿Cu´ales? : Hay cinco secuencias de respuesta correctas entre las once primeras. ¿Cu´ales? : Hay seis secuencias de respuesta correctas entre las once primeras. ¿Cu´ales? Tome en cuenta que, entre las 18 opciones que se ofrecen, s´olo hay una respuesta correcta. P REGUNTA # 43 Suponga que la verdadera relaci´on entre dos variables es la siguiente: yt = α + δxt + ut . Suponga adem´as que se cumplen todos los supuestos habidos y por haber, por lo que los estimadores de MCO de α y δ son insesgados y consistentes. Ahora imagine que el econometrista comete un error de especificaci´on y estima la siguiente regresi´on: ˆ t + vˆt . yt = βx Suponga, adem´as, que: 1 P D 1. T − 2 Tt=1 xt → N (0, σx2 ), P P 2. T −1 Tt=1 x2t → σx2 , 3. xt ⊥ut (son ortogonales). D
P
Donde → quiere decir “converge a esa distribuci´on” y “→” quiere decir “converge en probabilidad”. Note adem´ as que, para que se den esas convergencias, la primera √ suma debe ser dividida por T y la segunda por T . Ello quiere decir que ambas sumas crecen “a una cierta velocidad” proporcional a una potencia del tama˜no de muestra. ˆ ¿Es consistente o inconsistente el estimador β? P REGUNTA # 44 Suponga que est´a frente a alguien que sabe mucha estad´ıstica pero nada de econometr´ıa. El estad´ıstico quiere justamente hacer un estudio de demanda por dinero y le pide consejo respecto a las pruebas que debe realizar y el o´ rden en que debe ejecutarlas. Escr´ıbale la lista, explic´andole las razones del orden de las pruebas. De hecho, no escatime en explicaciones.
494
´ CAPITULO 15. EJERCICIOS (II)
Parte III Herramental matem´atico b´asico
495
Ap´endice A Tendencia central y dispersi´on En primera instancia cabe recordar al famoso operador sumatoria. El s´ımbolo es la letra griega may´uscula Σ y la forma en la que la utilizaremos en este curso es: T X
Xt = X1 + X2 + X3 + .... + XT
t=1
Por lo general todas nuestras sumatorias ir´an desde que t es igual a 1 hasta T . Para simplificar un poco la notaci´on omitiremos eso a menos que justamente la sumatoria cubra otro per´ıodo. Ahora procedemos a resumir algunas reglas fundamentales: sea κ una constante, 1. 2. 3.
P
P
P
κ=κ∗T κ · Xt = κ ∗ (Xt + Yt ) =
P
P
Xt Xt +
P
Yt
Con este operador podemos recordar algunos elementos b´asicos de estad´ıstica.
1. Media de la Variable aleatoria X: X ¯= 1 X Xt T 497
´ ´ APENDICE A. TENDENCIA CENTRAL Y DISPERSION
498
2. Variable en desviaciones: X
¯ Xt − X
¯ Xt − X X
¯ Xt − XT X X = Xt − Xt
=
= O
3. Medida de dispersi´on: la varianza V ar (X) = = = = =
1 T 1 T 1 T 1 T 1 T
X X
¯ Xt − X
2
¯ 2 − 2Xt X ¯ Xt2 + X X X ¯ 2 T − 2X ¯ Xt2 + X Xt X 2 1 X 2 X 2 2 Xt − 2 Xt Xt + 2 T T X 1 X 2 Xt Xt2 − T
4. Covarianza: 1X ¯ Yt − Y¯ Xt − X T X X 1 X ¯ ¯ Y¯ T = Xt Yt − Y¯ Xt − X Yt + X T 1X 1 X X = Xt Yt − Xt Y t − 2 T T 1 X X 1 X X X Xt Y + Yt t t T 2 T2 1 X 1X X = Xt Yt Xt Y t − T T
Cov(X, Y ) =
Ap´endice B Operador Esperanza B.1. definici´on Buena parte del curso requerir´a el c´alculo de las esperanzas de estimadores con el objeto de conocer el eventual sesgo de los mismos. Si bien el operador esperanza ya ha sido inculcado en cursos anteriores, vale la pena darle una peque˜na revisada. Si bien hay varias medidas centrales relevantes—media y moda por ejemplo, la que m´as usaremos es la media. Definici´on 29 El valor esperado de una variable aleatoria es: P (X discreta) x Xi Pi µ = E(X) = R Xf (x)dx (X continua) x donde, Pi y f (x) fungen como ponderadores.
R
Cabe se˜nalar que el s´ımbolo no es otra cosa m´as que una “S” estilizada.1 Lo anterior es una medida de tendencia central. Tambi´en existen medidas de dispersi´on. Las que m´as usaremos son: la varianza y su ra´ız, la desviaci´on est´andar.
1
En tiempos de la invenci´on del c´alculo (Leibniz y Newton), dicho s´ımbolo no exist´ıa. Para explicitar una suma se escrib´ıa la palabra entera (SUMA). Posteriormente, se acord´o una simbolog´ıa aceptada por todos.
499
´ APENDICE B. OPERADOR ESPERANZA
500
Definici´on 30 La varianza de una variable aleatoria es:
B.2.
σx2 = V ar(X) = E(X − µ)2 P 2 (X discreta) x (Xi − µ) Pi = R (X − µ)2 f (x)dx (X continua) x
Algunas reglas del operador esperanza
Conviene familiarizarse con el manejo del operador esperanza; entre otras cosas es necesario saber que, siendo a y b dos constantes: 1. E(aX + b) = aE(X) + b 2. E (aX)2 = a2 E (X 2 )
3. En lo que concierne a la varianza:
V ar (X) = = = =
E(X − µ)2 E(X 2 ) + µ2 − 2µE(X) E(X 2 ) + µ2 − 2µµ E(X 2 ) − µ2
As´ı, el operador varianza tiene sus reglas muy particulares. Suponga dos variables aleatorias, x e y, as´ı como dos constantes, a y b; entonces: a) V ar(axt + byt ) = a2 V ar(xt ) + b2 V ar(yt ) + 2abCov(xt , yt ) b) V ar(axt − byt ) = a2 V ar(xt ) + b2 V ar(yt ) − 2abCov(xt , yt ) c) V ar(a) = 0
Ap´endice C La distribuci´on normal La distribuci´on normal tambi´en es conocida como distribuci´on Gaussiana,1 pues tiene la forma de ese tipo de funciones, f (x) = a · exp− f´ormula de la distribuci´on normal es:
(x−b)2 2c2
. Concretamente, la
(x−µ)2 1 f (x; µ, σ 2 ) = √ exp− 2σ2 σ 2π
donde µ y σ 2 son la esperanza y la varianza de x, respectivamente. Es conocido que esta distribuci´on tiene forma de campana (ver gr´afico C.1). Cuando µ = 0 y σ 2 = 1, la distribuci´on normal se denomina est´andar.
La distribuci´on normal es ubicua en estad´ıstica por diversas razones, entre las que destacan: (i) es muy tratable anal´ıticamente; (ii) es la distribuci´on resultante del Teorema del L´ımite Central; (iii) su forma acampanada la hacen id´onea para estudiar gran cantidad de fen´omenos naturales. Existe una inmensa—y accesible—literatura que estudia esta distribuci´on, por lo que s´olo nos concentraremos en algunas de sus propiedades, particularmente las que nos pueden llegar a ser de utilidad.Destaca que los momentos son muy f´aciles de obtener: 0 p E[x − µ] = σ p !! 1
Johann Carl Friedrich Gauss (1777-1855). Cient´ıfico Matem´atico (y f´ısico) de nacionalidad Alemana. Contribuy´o de manera importante en los campos de la teor´ıa de n´umeros, la estad´ıstica, el an´alisis, la geometr´ıa diferencial, la geodes´ıa, la geof´ısica, la electrost´atica, la astronom´ıa y la o´ ptica.
501
´ NORMAL ´ APENDICE C. LA DISTRIBUCION
502
1.4
1.2
N(0,0.3)
1.0
N(0,1)
0.8
0.6
N(3,0.7) N(0,2)
0.4 N(0,4) 0.2
0.0
−6
−4
−2
0
2
4
6
Figura C.1: Ejemplos de Densidad Normal donde !! implica doble factorial: el producto de todos los enteros impares, por ejemplo: 7!! = 1 × 3 × 5 × 7 Destaca que s´ı la distribuci´on normal est´a centrada en cero, los momentos impares ser´an siempre cero. (Destaca tambi´en, claro, que todos los momentos son funci´on de la esperanza y la varianza, es decir, de los dos primeros momentos). La fuente de este ap´endice es, por cierto, Wikipedia.
Ap´endice D ´ Algebre matricial Este ap´endice no pretende ser exhaustivo, ni mucho menos. Tan s´olo habr´a de ser considerado como un formulario ad hoc para efectos de este manual. En otras palabras, s´olo presentaremos resultados que son u´ tiles para el desarrollo de los resultados de libro. Este ap´endice se presenta a sugerencia de Juan Pablo de Bottom,1 a manera de teorema: Teorema 20 Sea A una matriz de K × K. Entonces, las siguientes 12 afirmaciones son equivalentes (es decir, cualquiera de ellas implica las restantes 6.):2 1. A es invertible, 2. | A |6= 0 (determinante distinto de cero), 3. ρ(A) = K (rango igual a K), 4. Las columnas y los renglones de A son linealmente independientes, 5. La u´ nica soluci´on al sistema homog´eneo Ax = 0 es la soluci´on trivial x = 0, 6. El sistema Ax = b tiene una soluci´on u´ nica para cada K-vector b, 7. El n´umero 0 no es un vector caracter´ıstico (eigenvector) de A, 1
De hecho, e´ l lo escribi´o con base en Grossman (1995); Poole (2010). En realidad, una matriz invertible tiene muchas m´as propiedades. Por ejemplo, “la forma escalonada por renglones de A tiene K pivotes”, “v(A) = 0, (nulidad de A, ∼ n´ucleo/kernel)”, “A se puede expresar como el producto de matrices elementales”,. . . . No obstante, con las siete enumeradas tenemos suficiente. 2
503
504
´ ´ APENDICE D. ALGEBRA MATRICIAL
Ap´endice E Independencia entre la varianza estimada y los par´ametros MCO Para obtener el resultado de indepencia entre los par´ametros estimados por MCO y el estimador de la varianza, empezaremos por definir claramente el objetivo, que es: h i 2 2 2 ˆ ˆ Cov(β, σ ˆ ) = E (β − β)(ˆ σ −σ ) = E βˆσ ˆ 2 − βσ 2 = 0
Note que ya omitimos las esperanzas de los estimadores, pues ya est´a probado que ambos son estimadores insesgados. As´ı, nuestro objetivo es demostrar que esa covarianza es cero. Como se puede ver del desarrollo anterior, necesitamos calcular 2 ˆ ˆ . De hecho, para que la covarianza sea cero, esta esperanza deber´ıa ser E βσ igual a βσ 2 . Eso es lo que vamos a probar:
i h ˆ 2 = E (X ′ X)−1 X ′ Y Uˆ ′ Uˆ T −1 E βˆσ Note que dividimos por T y no por T − K. El divisor correcto es el segundo, pero haremos abstracci´on de ello, para dejar m´as simples las especificaciones. Para deshacernos de todos los elementos estimados (todos los “gorros”) y del vector de la variable dependiente, (i) reemplazaremos Y por la verdadera especificaci´on, y, 505
´ ´ 506 APENDICE E. INDEPENDENCIA ENTRE PARAMETROS Y VARIANZA (ii) haremos uso de nuestra famosa matriz idempotente, Mx = I − X(X ′ X)−1 X ′ , cuyas propiedades est´an explicadas en el curso (ver p. 142): ˆ 2 = T −1 E (β + (X ′ X)−1 X ′ U )U ′ Mx U E βˆσ = T −1 E (βU ′ Mx U + (X ′ X)−1 X ′ U U ′ Mx U = T −1 βσ 2 T + E (X ′ X)−1 X ′ U U ′ Mx U
S´olo resta obtener una esperanza. Note que en e´ sta s´olo hay variables explicativas deterministas (de acuerdo con la primera parte del curso) y el t´ermino de error. Explicitemos la esperanza. P RIMERO, note que: dim (X ′ X)−1 X ′ U U ′ Mx U = K × 1
S EGUNDO, el t´ermino (X ′ X)−1 X ′ generar´ıa una matriz de K × T compuesta de expresiones dependientes u´ nicamente de X: q11 q12 . . . q1T q21 q22 . . . q2T (X ′ X)−1 X ′ = .. .. .. ... . . . qK1 qK2 . . . qKT
No importa, para efectos de este desarrollo, la f´ormula espec´ıfica de los elementos qij . Baste saber que son funci´on exclusiva de variables explicativas deterministas. T ERCERO, podemos hacer lo mismo con el otro elemento determinista, Mx : W11 W12 . . . W1T W21 W22 . . . W2T Mx = .. .. .. ... . . . WT 1 WT 2 . . . WT T
Al igual que en el caso anterior, lo importante es recordar que s´olo hay variables explicativas en esa matriz. C UARTO, las matrices que s´olo incluyen al t´ermino de error son: u1 u1 u1 u2 . . . u1 uT u2 u1 u2 u2 . . . u2 uT U U ′ = .. .. .. , ... . . . uT u1 uT u2 . . . uT uT
507 y,
u1 u2 U = .. . .
uT
Q UINTO, Al realizar el c´alculo (X ′ X)−1 X ′ U U ′ (la primera parte), obtendr´ıamos una matriz de dimensiones K × T cuyo elemento i = 1, 2, . . . , K, j = 1, 2, . . . , T ser´ıa: T X
qit uj ut
t=1
S EXTO, al realizar el c´alculo Mx U (la segunda parte), obtendr´ıamos un vector de dimensiones T × 1 cuyo i-´esimo elementos i = 1, 2, . . . , T ser´ıa: T X
Wit ut
t=1
´ S EPTIMO (y u´ ltimo), al multiplicar las dos expresiones anteriores, el resultado, ′ −1 ′ ((X X) X U U ′ Mx U ), es un vector de dimensiones T × 1, cuyo i-´esimo elemento ser´ıa: T X t=1
qit u1 ut
T X
W1t ut +
t=1
T X t=1
qit u2 ut
T X
W2t ut + . . . +
t=1
T X t=1
qit uT ut
T X
W T t ut
t=1
Note como, en el i-´esimo elemento (es decir en cualquiera) el t´ermino ui se multiplica por todos los dem´as t´erminos ut y luego se vuelve a multiplicar por todos los t´erminos ut . En otras palabras, s´olo nos puede quedar (omitiendo q y W ): u i uj uk Si recordamos que el t´ermino de error es iid, no importan los valores de i, j y k; sean cuales sean, la esperanza de ui uj uk siempre ser´a cero. Si i = j = k, el tercer momento de una normal centrada en cero es cero tambi´en. Lo mismo ocurre si i = j 6= k o bien i 6= j 6= k, etc. En otras palabras: 2 ˆ ˆ = βσ 2 E βσ
´ ´ 508 APENDICE E. INDEPENDENCIA ENTRE PARAMETROS Y VARIANZA Retomando la expresi´on de la covarianza, demostramos que e´ sta es igual a cero: ˆ σ Cov(β, ˆ 2 ) = βσ 2 − βσ 2 = 0 Note que lo que obtuvimos es independencia lineal. Los estimadores de la Varianza y los par´ametros no est´an correlacionados. Afortunadamente para nosotros, tanto βˆ como los residuales, Uˆ se distribuyen normalmente. Bajo estas extraordinarias condiciones, ausencia de correlaci´on implica independencia.
Ap´endice F Origen de MCO: Legendre En este ap´endice se reproducen las p´aginas de libro en las que fue propuesto por primera vez el m´etodo de M´ınimos Cuadrados Ordinarios. Se presenta la portada del libro “Nouvelles M´ethodes Pour la Determination des Orbites des Com`etes”, escrito en 1805 por Adrien-Marie Legendre, as´ı como las p´aginas del ap´endice donde el m´etodo se detalla con gran claridad. Este libro fue digitalizado por Universit´e de Strasbourg.1
1
http://num-scd-ulp.u-strasbg.fr:8080/327/
509
510
´ APENDICE F. ORIGEN DE MCO: LEGENDRE
Figura F.1: “Nouvelles M´ethodes Pour la Determination des Orbites des Com`etes”, A.M. Legendre (1805), Portada. Fuente: Universit´e de Strasbourg http://num-scd-ulp.u-strasbg.fr:8080/327/.
511
Figura F.2: A.M. P´agina 72 del libro de Legendre
512
´ APENDICE F. ORIGEN DE MCO: LEGENDRE
Figura F.3: A.M. P´agina 73 del libro de Legendre
513
Figura F.4: A.M. P´agina 74 del libro de Legendre
514
´ APENDICE F. ORIGEN DE MCO: LEGENDRE
Figura F.5: A.M. P´agina 75 del libro de Legendre
Ap´endice G MCO usando Excel 2007 Para poder estimar una regresi´on usando el programa Excel es necesario tener habilitado el m´odulo de An´alisis de datos. Si no es el caso en su versi´on, ejecute los siguientes pasos: 1. Abra el programa Excel, 2. Con el rat´on, seleccione la pesta˜na DATOS, 3. Coloque el rat´on bajo H ERRAMIENTAS DE DATOS y d´e clic con el bot´on derecho del rat´on, 4. Seleccione P ERSONALIZAR BARRA DE H ERRAMIENTAS ..., 5. En el men´u emergente, d´e clic en C OMPLEMENTOS (opciones a la izquierda), ´ 6. En el men´u emergente, d´e clic en H ERRAMIENTAS PARA A N ALISIS , 7. D´e clic en I R ... y espere mientras se instala el m´odulo (siga las instrucciones). Una vez instalado dicho m´odulo, podr´a observar como, en la pesta˜na DATOS apare´ DE DATOS . Si da ce una nueva opci´on, en el extremo derecho del list´on: A N ALISIS ´ . Aparece clic ah´ı, aparece un men´u emergente; una de las opciones es R EGRESI ON entonces un men´u en el que debe usted indicar cual es la variable dependiente, la o las independientes, si desea que haya constante en la especificaci´on,...
515
516
´ APENDICE G. MCO USANDO EXCEL 2007
´ Indice alfab´etico Determinante de una matriz, 42, 122, 168– Ajuste de Inventarios, 406, 435 172, 200 Autocorrelaci´on, 44–46, 48, 57, 67, 101, 120, 190–193, 196, 203–205, 209– 211, 213–220, 226, 252, 254, 257, Ergodicidad, 352 Estabilidad, 252, 329, 341–343, 347, 382, 259, 288, 407, 408, 411, 413 383, 386, 388, 394, 396, 427 Autocovarianza, 353 Estacionariedad, 44, 48, 107, 108, 120, 190, 254, 351–353, 355, 369 Causalidad, 251, 329–335, 418 Estacionariedad estricta, 353 Coeficiente de correlaci´on, 32–35, 146, Exogeneidad, 316, 329, 338–340, 346, 149, 172–175, 212, 213, 215 348–350, 383, 422, 428, 458 Exogeneidad D´ebil, 339–347, 349, 350, Cointegraci´on, 350, 376–378 382, 423 Comisi´on Cowles, 30, 47, 338, 426, 428, Exogeneidad Estricta, 338, 382 457 Exogeneidad Fuerte, 345, 382 Condici´on de Rango, 445 Consistencia, 50, 54–56, 76, 77, 189, 190, Expectativas, 391–393, 399, 401 219, 223, 225–227, 251–254, 262, Expectativas Adaptativas, 403, 405–407, 414, 422 263, 266, 271–274, 277, 280, 284– 286, 297, 299, 302, 304, 312, 313, Expectativas Naives—hyperpage, 392, 399, 400 316, 318, 325, 326, 338, 349, 408– Expectativas Racionales, 414–416, 418– 411, 428, 431, 434 420, 422, 423 Consistencia temporal, 416, 417 Correlograma, 370 Granger-Causalidad, 287, 336, 337, 345, Cr´ıtica de Liu, 437, 457 346, 349, 382 Cr´ıtica de Lucas, 339, 340, 346, 383, 392, 420, 421, 423, 427, 457, 458 HAC (Matriz de Varianza-Covarianza RoCriterio de Informaci´on de Akaike, AIC, busta a la autocorrelaci´on y a la 150, 337, 413 heteroscedasticidad), 226 Criterio de Informaci´on de Schwarz, SIC HCCME (Matriz de Varianza-Covarianza Robusta a la heteroscedasticidad), (BIC), 150, 337, 413 517
518
´ ´ INDICE ALFABETICO
Prueba RESET de Ramsey, 253, 288, 289, 226 291 Heteroscedasticidad, 45, 190–195, 203– 209, 214, 219, 220, 225, 226, 252, Ra´ız Unitaria, 369, 370 257, 288 Homoscedasticidad, 44, 48, 57, 67, 101, Rango de una matriz, 122, 131, 167, 177, 182 116, 120, 189–191, 197, 203, 205– Regresi´on espuria, 355 208, 220, 223, 252, 259, 391 Sesgo, 50, 52–54, 56, 57, 61, 62, 70, 72, Idempotencia, 133, 134, 143, 144, 484 73, 76, 77, 102, 124, 128, 129, Identificaci´on, 281, 298, 306, 430–432, 133, 137, 138, 189, 190, 194, 203, 434, 435, 437, 439, 443, 444, 449, 206, 219, 223, 224, 227, 251– 458 254, 260–263, 266, 271, 277, 280, Instrumentos, 87, 213, 254, 286, 299, 300, 281, 284, 285, 301, 302, 314, 315, 304–306, 312–314, 316–318, 432 318, 338, 408, 410, 419, 428, 434 Instrumentos D´ebiles, 314, 315 Super Exogeneidad, 340, 346, 348, 382, Instrumentos Ex´ogenos, 315 383, 423 M´ınimos Cuadrados Generalizados, MCG, Teorema de Gauss-Markov, 56, 61, 63, 193, 195, 196, 200, 202, 205, 206, 128–130, 151, 195, 206 214, 219, 313 Mejores Estimadores Lineales Insesga- Variables Instrumentales (M´etodo), 286, dos, MELI, 61, 77, 128, 195, 206, 288, 297, 299, 300, 305, 306, 309, 252, 297 312–316, 318, 411, 430, 435, 450 Modelo Autoregresivo, 369 Modelo de Telara˜na, 340, 341, 344, 392, 393, 399, 400 Modelo Estructural, 441, 443, 444 Modelo Reducido, 434, 437 Modelos de Correcci´on de Error, 350, 377 Observaciones aberrantes, 294 Ortogonalidad, 254, 257, 261, 263, 271, 277–279, 284, 286, 297, 301, 302, 312, 314, 318, 338, 391, 409, 411, 425, 428, 450 Parsimonia, 252, 401, 411, 412 Predeterminaci´on, 435 Prueba de Sargan, 316
Bibliograf´ıa A LDRICH , J. (1995): “Correlations genuine and spurious in Pearson and Yule,” Statistical Science, 10(4), 364–376. B OX , G., AND G. J ENKINS (1970): Time Series Analysis: Forecasting and Control. San Francisco, Holden Day. B REUSCH , T., AND A. PAGAN (1980): “The Lagrange Multiplier Test and its Applications to Model Specification in Econometrics,” Review of Economic Studies, 47, 239–254. C HOW, G. (1960): “Tests of equality between sets of coefficients in two linear regressions,” Econometrica: Journal of the Econometric Society, pp. 591–605. DAVIDSON , R., AND J. M AC K INNON (1993): Estimation and inference in econometrics. Oxford University Press New York. D ICKEY, D., AND W. F ULLER (1979): “Distribution of the estimators for autoregressive time series with a unit root,” Journal of the American statistical association, pp. 427–431. E NDERS , W. (1995): Applied econometric time series. Wiley New York. E NGLE , R., AND C. G RANGER (1987): “Co-integration and error correction: representation, estimation, and testing,” Econometrica: journal of the Econometric Society, pp. 251–276. E NGLE , R., D. H ENDRY, 51(2), 277–304.
AND
J. R ICHARD (1983): “Exogeneity,” Econometrica,
E RICSSON , N., AND J. I RONS (1994): Testing exogeneity. Oxford University Press, USA. 519
520
´ BIBLIOGRAFIA
F ISHER , I. (1925): “Our unstable dollar and the so-called business cycle,” Journal of the American Statistical Association, 20(150), 179–202. ´ F ONSECA H ERN ANDEZ , F. (2009): “El impacto de la inversi´on p´ublica sobre la inversi´on privada en M´exico, 1980-2007,” Estudios Econ´omicos, pp. 187–224. F RISCH , R. (1933): “Editor’s Note,” Econometrica, 1, 1–4. G OLDFELD , S., AND R. Q UANDT (1965): “Some tests for homoscedasticity,” Journal of the American Statistical Association, 60(310), 539–547. G RANGER , C. (1969): “Investigating causal relations by econometric models and cross-spectral methods,” Econometrica, 37(3), 424–438. (1981): “Some properties of time series data and their use in econometric model specification,” Journal of econometrics, 16(1), 121–130. G RANGER , C., AND P. N EWBOLD (1974): “Spurious regressions in econometrics,” Journal of econometrics, 2(2), 111–120. G RANGER , C., N. S WANSON , M. WATSON , AND E. G HYSELS (2001): Essays in Econometrics: Collected Papers of Clive WJ Granger. Cambridge University Press. G RANGER , C., AND A. W EISS (1983): “Time series analysis of error-correction models,” Studies in Econometrics, Time Series, and Multivariate Statistics, pp. 255–278. G RANGER IV, C., N. H YUNG , AND Y. J EON (2001): “Spurious regressions with stationary series,” Applied Economics, 33(7), 899–904. G REENE , W. (1997): Econometric analysis. Prentice Hall Upper Saddle River, NJ. G ROSSMAN , S. (1995): Multivariable calculus, linear algebra, and differential equations. Saunders College Pub. G UJARATI , D. (1988): Basic econometrics. McGraw-Hill New York. G UJARATI , D., AND D. P ORTER (2010): Econometr´ıa. McGraw-Hill New York. H AMILTON , J. (1994): Time Series Analisys. Princeton.
´ BIBLIOGRAFIA
521
H ANSEN , B. (1992): “Tests for parameter instability in regressions with I (1) processes,” Journal of Business & Economic Statistics, pp. 321–335. H AYASHI , F. (2000): Econometrics. Princeton University Press Princeton. H ENDRY, D. (1980): “Econometrics-Alchemy or Science?,” Economica, 47(188), 387–406. H ENDRY, D., AND G. A NDERSON (1977): “Testing Dynamic Specification in Small Simultaneous Systems: An Application to a Model of Building Society Behaviour in the United Kingdom,” Frontiers in Quantitative Economics, 3, 361–383. H ENDRY, D., AND G. M IZON (1978): “Serial correlation as a convenient simplification, not a nuisance: A comment on a study of the demand for money by the Bank of England,” The Economic Journal, 88(351), 549–563. H ENDRY, D., AND M. M ORGAN (1995): The Foundations of Econometric Analysis. Cambridge University Press. H ENDRY, D., A. PAGAN , AND J. S ARGAN (1984): “Dynamic Specification,” Handbook of Econometrics, 2, 1023–1100. H ENDRY, D., F. S RBA , AND S. Y EO (1978): “Econometric modelling of the aggregate time-series relationship between consumers’ expenditure and income in the United Kingdom,” The Economic Journal, 88(352), 661–692. H UME , D. (1740): A Treatise of Human Nature. (1748): An Enquiry Concerning Human Understanding. J EVONS , W. (1965): “The Theory of Political Economy, reprint of Jevons (1871),” New York: Kelley. J OHNSTON , J., AND J. D INARDO (1998): Econometric Methods. McGraw Hill. J OLLIFFE , I. (2005): Principal component analysis. Wiley Online Library. K IM , T.-H., Y.-S. L EE , AND P. N EWBOLD (2003): “Spurious Regressions With Processes Around Linear Trends or Drifts,” Discussion Papers in Economics. K LEIN , L., AND A. G OLDBERGER (1955): An Econometric Model of the United States, 1929-1952. North-Holland Pub. Co.
522
´ BIBLIOGRAFIA
L APLACE , P. (1814): A Philosophical Essay on Probabilities. L EAMER , E. (1983): “Let’s take the con out of econometrics,” American Economic Review, 73(1), 31–43. L ECHNER , M. (2006): “The Relation of Different Concepts of Causality in Econometrics,” Discussion Paper of the Department of Economics, University of St. Gallen. L EGENDRE , A. (1805): Nouvelles m´ethodes pour la d´etermination des orbites des com`etes. F. Didot. L UCAS J R , R. (1976): “Econometric Policy Evaluation: A Critique.,” 1, 19–46. M ADDALA , G. (1988): Introduction to Econometrics. Collier Macmillan. M C C LOSKEY, D., AND S. Z ILIAK (1996): “The Standard Error of Regressions,” Journal of Economic Literature, 34(1), 97–114. M OORE , H. (1914): Economic Cycles: Their Law and Cause. The Macmillan company. M ORGAN , M. (1990): The History of Econometric Ideas. Cambridge University Press. N ELSON , C., AND C. P LOSSER (1982): “Trends and random walks in macroeconmic time series:: Some evidence and implications,” Journal of monetary economics, 10(2), 139–162. N EWEY, W., AND D. K ENNETH (1987): “West, 1987, A simple, positive semidefinite, heteroskedasticity and autocorrelation consistent covariance matrix,” Econometrica, 55(3), 703–708. ` N ORIEGA , A., AND D. V ENTOSA -S ANTAUL ARIA (2006): “Spurious Regression Under Broken Trend Stationarity,” Journal of Time Series Analysis, 27, 671–684. (2007): “Spurious Regression And Trending Variables,” Oxford Bulletin of Economics and Statistics, 7, 4–7. (2008): “Spurious Cointegration: the Engle-Granger test in the presence of Structural Breaks,” RePEc, 7, 1–7.
´ BIBLIOGRAFIA
523
P HILLIPS , P. (1986): “Understanding Spurious Regressions in Econometrics,” Journal of Econometrics, 33, 311–340. P INDYCK , R., AND D. RUBINFELD (1998): Econometric models and economic forecasts. McGraw-Hill New York. P OOLE , D. (2010): Linear algebra: A modern introduction. Brooks/Cole Publishing Company. R AMSEY, J. (1969): “Tests for specification errors in classical linear least squares regression analysis,” Journal of the Royal Statistical Society, 31(2), 350–371. R AO , C. (1952): “Advanced statistical methods in biometric research.,” . R EICHENBACH , H. (1971): “The Direction of Time. 1956,” Berkeley: University of Cali. S ARGAN , J. (1958): “The estimation of economic relationships using instrumental variables,” Econometrica: Journal of the Econometric Society, pp. 393–415. (1964): “Wages and prices in the United Kingdom: a study in econometric methodology,” Econometric analysis for national economic planning, 16, 25–54. S KYRMS , B. (1980): Causal Necessity: A Pragmatic Investigation of the Necessity of Laws. Yale University Press. S TOCK , J., AND M. WATSON (2003): Introduction to Econometrics, 2/E. AddisonWesley. S UPPES , P. (1970): A probabilistic theory of causality. North-Holland. T INBERGEN , J. (1939): “Statistical testing of business-cycle theories II. Business cycles in the United States of America, 1919-1932,” Geneva: League of Nations, Economic Intelligence Service, 1939. V ENTOSA -S ANTAULARIA , D. (2009): “Spurious regression,” Journal of Probability and Statistics, 2009, 1–27. ` V ENTOSA -S ANTAUL ARIA , D. (2006): “¿Qu´e es la Econometr´ıa?,” Acta Universitaria, 16(3), 47–65. ` V ENTOSA -S ANTAUL ARIA , D., AND J. V ERA -VALD E´ S (2008): “GrangerCausality in the presence of structural breaks,” Economics Bulletin, 3(61), 1–14.
524
´ BIBLIOGRAFIA
W HITE , H. (1980): “A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity,” Econometrica, 48(4), 817–838. (2001): Asymptotic theory for econometricians. Academic press New York. W RIGHT, P. (1928): The Tariff on Animal and Vegetable Oils. The Macmillan company. Y ULE , G. (1897): “On the theory of correlation,” Journal of the Royal Statistical Society, 60(4), 812–854. (1926): “Why do we Sometimes get Nonsense-Correlations between TimeSeries?–A Study in Sampling and the Nature of Time-Series,” Journal of the Royal Statistical Society, 89(1), 1–63.
View more...
Comments