Econometria I- Ventosa

April 30, 2017 | Author: Jorge Luis Zataráin Lizárraga | Category: N/A

Share Embed Donate

Report this link

Short Description

Descripción: Notas de econometría...

Description

E CONOMETR Í A ` DANIEL V ENTOSA -S ANTAUL ARIA Versión Diciembre 2012. Documento hecho en LATEX

2

´ Indice general I Econometr´ıa para primerizos

17

1. Introducción 1.1. Parábola de Leamer . . . . . . . . . . . . . 1.2. Fisher tomando el té . . . . . . . . . . . . . 1.3. ¿ Para qué hacer econometr´ıa? . . . . . . . 1.4. Or´ıgenes . . . . . . . . . . . . . . . . . . . 1.4.1. La trayectoria de los cometas . . . . 1.4.2. Manchas solares y ciclos venusinos

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

21 23 24 31 32 32 33

2. El modelo de Regresión lineal simple 2.1. Preámbulo . . . . . . . . . . . . . . . . . . . . . . . . 2.2. El concepto de la regresión . . . . . . . . . . . . . . . 2.2.1. El diagrama de dispersión . . . . . . . . . . . 2.3. M´ınimos Cuadrados Ordinarios: MCO . . . . . . . . . 2.4. Propiedades de los estimadores . . . . . . . . . . . . . 2.4.1. Los supuestos del método . . . . . . . . . . . 2.4.2. Caracter´ısticas Importantes del método MCO . 2.4.3. Propiedades de los parámetros estimados . . . 2.4.4. El Teorema de Gauss-Markov . . . . . . . . . 2.5. Otros procedimientos de Estimación . . . . . . . . . . 2.5.1. El método de momentos (MOM) . . . . . . . . 2.5.2. El Método de Máxima Verosimilitud . . . . . . 2.6. El estimador de la varianza . . . . . . . . . . . . . . . 2.6.1. Los grados de libertad: breve preludio . . . . . 2.6.2. El estimador insesgado de la varianza en MCO 2.6.3. Robustez del estimador de la varianza en MCO 2.7. Inferencia estad´ıstica en MCO . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

37 37 41 41 44 49 49 54 56 69 72 72 74 79 79 81 85 86

3

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

´ INDICE GENERAL

4

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

90 93 95 96 96 102 104 112 113 114 114 116 118 118 119 121 122 123

´ 3. El Modelo de Regresión Multiple 3.1. La especificación del modelo de regresión múltiple . . . . . . . . 3.1.1. Reglas del cálculo matricial y la manipulación de matrices 3.1.2. Optimización . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza . . 3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . 3.2.1. Demostración . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Intuición . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Estimador Insesgado de la Varianza del Error . . . . . . . . . . . 3.3.1. Una matriz idempotente muy u´ til . . . . . . . . . . . . . 3.3.2. La varianza del error . . . . . . . . . . . . . . . . . . . . 3.4. Bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. La R cuadrada . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Inflación de la R cuadrada y su versión ajustada . . . . . . 3.4.3. Descomposición de la varianza por variable explicativa . . 3.5. Pruebas de Hipótesis, Conjuntas e Individuales . . . . . . . . . . 3.5.1. Los estad´ısticos t . . . . . . . . . . . . . . . . . . . . . . 3.5.2. Pruebas conjuntas . . . . . . . . . . . . . . . . . . . . . . 3.5.3. Pruebas de desigualdad . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

127 127 130 131 132 136 137 140 141 142 144 146 147 147 154 159 159 160 170

2.8.

2.9. 2.10.

2.11.

2.7.1. Inferencia usando una distribución de t de student . . . . 2.7.2. Inferencia asintótica . . . . . . . . . . . . . . . . . . . 2.7.3. Addendum: el p-valor . . . . . . . . . . . . . . . . . . Análisis de varianza y bondad de ajuste . . . . . . . . . . . . . 2.8.1. La medición de la bondad del ajuste . . . . . . . . . . . 2.8.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . 2.8.3. La prueba de significancia conjunta de la regresión . . . 2.8.4. Análisis de Varianza o ANOVA . . . . . . . . . . . . . La Falacia de la regresión . . . . . . . . . . . . . . . . . . . . . Problemas de la Econometr´ıa . . . . . . . . . . . . . . . . . . . 2.10.1. El problema de la agregación . . . . . . . . . . . . . . . 2.10.2. Una intuición sobre el u´ ltimo supuesto: estacionariedad . 2.10.3. Algunas observaciones al respecto . . . . . . . . . . . . Formas funcionales y especificación . . . . . . . . . . . . . . . 2.11.1. El Modelo Log-Log . . . . . . . . . . . . . . . . . . . 2.11.2. El Modelo Log-Lin . . . . . . . . . . . . . . . . . . . . 2.11.3. El Modelo Lin-Log . . . . . . . . . . . . . . . . . . . . 2.11.4. El Modelo Rec´ıproco . . . . . . . . . . . . . . . . . . .

´ INDICE GENERAL 4. La multicolinealidad 4.1. Multicolinealidad perfecta . . . . . . . . . 4.2. Multicolinealidad imperfecta . . . . . . . . 4.3. Detección de la multicolinealidad . . . . . 4.3.1. Análisis informal . . . . . . . . . . 4.3.2. Métodos más formales . . . . . . . 4.4. Análisis de Componentes Principales . . . . 4.5. Regresión usando componentes principales

5

. . . . . . .

173 175 179 182 183 183 186 191

5. Variables Binarias y regresión por pedazos 5.1. Variables dicotómicas . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Solución discontinua . . . . . . . . . . . . . . . . . . . . . 5.1.2. Regresión por pedazos . . . . . . . . . . . . . . . . . . . .

195 195 195 202

6. Autocorrelación y Heteroscedasticidad 6.1. Autocorrelación y Heteroscedasticidad . . . . . . . . . . . . 6.2. M´ınimos Cuadrados Generalizados . . . . . . . . . . . . . 6.2.1. Ejemplos de aplicación de MCG . . . . . . . . . . . 6.3. Consecuencias del rompimiento de supuestos sobre MCO . . 6.3.1. ¿Sesgo bajo autocorrelación o heteroscedasticidad? . 6.3.2. Varianza bajo autocorrelación o heteroscedasticidad 6.4. Pruebas de Detección . . . . . . . . . . . . . . . . . . . . . 6.4.1. Detección de la Heteroscedasticidad . . . . . . . . . 6.4.2. Detección de la autocorrelación . . . . . . . . . . . 6.5. Matrices de Varianza-covarianza Robustas . . . . . . . . . .

205 207 209 211 219 219 220 222 223 226 235

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . . . . .

. . . . . . .

. . . . . . . . . .

. . . . . . .

. . . . . . . . . .

. . . . . . . . . .

7. Ejercicios (i)

245

II Econometr´ıa para segundones

265

8. S´ıntesis de conocimientos previos

269

9. Especificación y Ortogonalidad 9.1. Las variables independientes y la ortogonalidad 9.2. El supuesto de ortogonalidad . . . . . . . . . . 9.3. ¿Qué causa problemas de ortogonalidad? . . . . 9.3.1. Errores de Medición en las Variables . . 9.3.2. Efectos de simultaneidad . . . . . . . .

275 275 279 281 281 295

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

´ INDICE GENERAL

6

9.3.3. Variables relevantes omitidas . . . . . . . . . 9.3.4. Inclusión de variables irrelevantes. . . . . . . 9.4. Detección de algunos problemas de ortogonalidad . . 9.4.1. Pruebas de variables omitidas o redundantes . 9.4.2. Prueba de especificación de Ramsey . . . . . 9.4.3. Heteroscedastidad e incorrecta especificación

. . . . . .

301 303 304 304 307 311

10. Variables Instrumentales 10.1. El estimador de Variables Instrumentales . . . . . . . . . . . . . . 10.2. M´ınimos Cuadrados en 2 Etapas . . . . . . . . . . . . . . . . . . 10.3. Problemas con los instrumentos . . . . . . . . . . . . . . . . . . 10.3.1. Relevancia de los instrumentos . . . . . . . . . . . . . . . 10.3.2. Exogeneidad de los instrumentos . . . . . . . . . . . . . . 10.4. La Prueba de Hausman . . . . . . . . . . . . . . . . . . . . . . . 10.4.1. La prueba de Hausman . . . . . . . . . . . . . . . . . . . 10.4.2. La prueba de Hausman multivariada . . . . . . . . . . . . 10.4.3. Detección de errores de medición en variables explicativas

. . . . . . . . .

315 317 324 332 332 333 338 339 343 345

11. Causalidad, exogeneidad y estabilidad 11.1. La Causalidad en el sentido de Granger . . . . . . 11.1.1. Filosof´ıa detrás de Causalidad . . . . . . . 11.1.2. Causalidad en Probabilidad . . . . . . . . . 11.1.3. Causalidad en Econometr´ıa . . . . . . . . . 11.1.4. La Granger-Causalidad . . . . . . . . . . . 11.2. Exogeneidad . . . . . . . . . . . . . . . . . . . . 11.2.1. Exogeneidad a` la Cowles Commission . . 11.2.2. Exogeneidad a` la Engle, Hendry y Richard 11.3. Mecanismo de Corrección de Error . . . . . . . . . 11.3.1. Estacionariedad y Ergodicidad . . . . . . . 11.3.2. Regresión Espuria . . . . . . . . . . . . . 11.3.3. Prueba de Ra´ız Unitaria . . . . . . . . . . 11.3.4. Cointegración . . . . . . . . . . . . . . . . 11.3.5. Mecanismo de Corrección de Error . . . . 11.3.6. Probando exogeneidad débil . . . . . . . . 11.4. Probando las demás exogeneidades . . . . . . . . . 11.5. Estabilidad de los parámetros . . . . . . . . . . . . 11.5.1. Prueba quiebre de Chow . . . . . . . . . . 11.5.2. Prueba pronóstico de Chow . . . . . . . .

. . . . . . . . . . . . . . . . . . .

349 350 350 353 355 356 358 358 359 370 371 375 384 391 396 401 402 403 403 406

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . .

´ INDICE GENERAL

7

11.5.3. Prueba de Hansen . . . . . . . . . . . . . . . . . . . . . . . 407 12. Especificaciones Dinámicas y Expectativas 12.1. Expectativas naives:El modelo de Telaraña . . . 12.1.1. Ecuación homogénea: . . . . . . . . . 12.1.2. Solución particular . . . . . . . . . . . 12.1.3. Combinación lineal de las soluciones . 12.1.4. Eliminación de las constantes . . . . . 12.1.5. El impacto de los choques . . . . . . . 12.2. Más sobre Expectativas naives . . . . . . . . . 12.3. Modelos con rezagos distribuidos . . . . . . . 12.4. Expectativas Adaptativas . . . . . . . . . . . . 12.5. Modelo de ajuste de inventarios . . . . . . . . 12.6. Estimación de modelos dinámicos . . . . . . . 12.7. Parsimonia: metodolog´ıa de General a simple . 12.8. Expectativas Racionales . . . . . . . . . . . . . 12.8.1. La hipótesis de Expectativas Racionales 12.8.2. Cr´ıticas a las Expectativas Racionales . 12.8.3. Probando las Expectativas Racionales . 12.8.4. La Cr´ıtica de Lucas . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

411 412 414 415 416 416 418 419 421 423 426 427 431 434 434 436 439 440

13. Modelos de ecuaciones simultáneas 13.1. Historia de los modelos macroeconométricos . . . 13.2. Sinopsis Metodológica . . . . . . . . . . . . . . . 13.2.1. Otra vez variables exógenas y endógenas . 13.2.2. Un modelo de oferta y demanda . . . . . . 13.3. El problema de la identificación . . . . . . . . . . 13.3.1. ¿Qué es la identificación? . . . . . . . . . 13.3.2. Más sobre la identificación . . . . . . . . . 13.4. Incorporando más información . . . . . . . . . . . 13.5. Condiciones de identificación . . . . . . . . . . . . 13.5.1. Restricciones de exclusión . . . . . . . . . 13.5.2. Restricciones homogéneas lineales . . . . . 13.5.3. Reagrupando las restricciones estructurales 13.5.4. Más restricciones . . . . . . . . . . . . . . 13.5.5. Elucidando la identificación . . . . . . . . 13.5.6. Reglas prácticas . . . . . . . . . . . . . . 13.5.7. Variables Exógenas: algunas sugerencias .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

445 445 447 448 448 451 451 454 455 457 459 460 460 461 463 465 468

. . . . . . . . . . . . . . . . .

´ INDICE GENERAL

8

13.6. El efecto desplazamiento (“Crowding out”) . . . . . . . . . . . . . 470 13.6.1. ¿Qué es el Crowding out? . . . . . . . . . . . . . . . . . . 470 13.6.2. Metodolog´ıa y datos . . . . . . . . . . . . . . . . . . . . . 471 14. Ep´ılogo

477

15. Ejercicios (ii)

479

III Apéndices

495

A. Tendencia central y dispersión

497

B. Operador Esperanza 499 B.1. definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 B.2. Algunas reglas del operador esperanza . . . . . . . . . . . . . . . . 500 C. La distribución normal

501

´ D. Algebra matricial

503

E. Independencia entre Parámetros y Varianza

505

F. Origen de MCO: Legendre

509

G. MCO usando Excel 2007

515

´ Indice de figuras 1.1. 1.2. 1.3. 1.4.

Estad´ıstica y Probabilidad . . . . . . . . . . . . Distribución del reto Coca-Pepsi . . . . . . . . Ciclo de Comercio según Jevons (1884) . . . . Ciclo de Negocios según Moore (Moore, 1914)

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

22 26 33 34

2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 2.12. 2.13. 2.14. 2.15. 2.16.

Series de tiempo del PIB real y de M2 de E.E.U.U. . . . . . . . . . 38 Relación lineal entre las coordenadas de un c´ırculo . . . . . . . . . 39 Ingreso p.c. y esperanza de vida en México, Francia, Japón y Nigeria 42 Ingreso per cápita y esperanza de vida en 220 pa´ıses . . . . . . . . . 43 Diagrama de Dispersión o bien “Nube de Puntos”. . . . . . . . . . . 45 Ilustración de los Supuestos . . . . . . . . . . . . . . . . . . . . . . 52 Diagrama de dispersión: normalidad . . . . . . . . . . . . . . . . . 53 Distribución Condicional de yt . . . . . . . . . . . . . . . . . . . . 76 Distribución bajo la hipótesis nula y la alternativa . . . . . . . . . . 89 Distribución de t de student . . . . . . . . . . . . . . . . . . . . . 95 Comparación del ajuste entre dos regresiones . . . . . . . . . . . . 97 Análisis de la Variación . . . . . . . . . . . . . . . . . . . . . . . . 97 Distribución de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 107 PIB per cápita en México, 1900-2000 . . . . . . . . . . . . . . . . 117 Ingreso per cápita y esperanza de vida (bis) . . . . . . . . . . . . . 124 Tasa de analfabetismo vs PIB per cápita (invertido) en Argentina. . . 126

3.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 156 3.2. Distribución de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.1. Efectos de las variables dicotómicas en la l´ınea de regresión . . . . 201 5.2. Ejemplo de Regresión por pedazos . . . . . . . . . . . . . . . . . . 203 9

´ INDICE DE FIGURAS

10 6.1. 6.2. 6.3. 6.4.

Regla de decisión de la Durbin-Watson . Correlograma de un AR(1) . . . . . . . Correlograma de un ruido blanco iid’ . Correlogramas muestrales . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

228 232 233 234

7.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . 247 7.2. Variable yt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 9.1. 9.2. 9.3. 9.4. 9.5. 9.6.

Sesgo en un estimador . . . . . . . . . . . . . . . . . Indicadores de Actividad cient´ıfica . . . . . . . . . . . Sesgo de una estimación por MCO bajo simultaneidad. Relación entre residuales y valores ajustados . . . . . . Heteroscedasticidad, autocorrelación y ortogonalidad . No-linealidad mal asumida . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

280 282 299 311 313 314

10.1. El problema de la identificación y su solución. . . . . . . . . . . . . 316 11.1. Posibles espacios paramétricos (modelo Telaraña) 11.2. Diagrama de Venn en exogeneidad . . . . . . . . 11.3. Proceso aleatorio . . . . . . . . . . . . . . . . . 11.4. Regresión espuria . . . . . . . . . . . . . . . . . 11.5. Regresión espuria, especificación correcta . . . . 11.6. Distribuión de la Prueba DF . . . . . . . . . . . 11.7. Modo de empleo sugerido de la DF . . . . . . . . 11.8. Variables cointegradas y Espurias . . . . . . . . 11.9. Series cointegradas e independientes . . . . . . . 11.10.Relación cointegrada . . . . . . . . . . . . . . . 11.11.Regresión y quiebres . . . . . . . . . . . . . . . 11.12.Regresión, quiebres y errores . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

364 368 371 381 384 387 392 394 397 398 404 405

12.1. Mercado de Ma´ız, según el modelo de Telaraña . . . . . . . . . . . 413 12.2. Función Impulso-Respuesta en el Modelo de Telaraña. . . . . . . . 419 13.1. Ecuaciones simultáneas . . . . . . . . . . . . . . . . . . . . . . . . 451 13.2. Evolución de la inversión privada y la inversión pública . . . . . . . 472 C.1. Ejemplos de Densidad Normal . . . . . . . . . . . . . . . . . . . . 502 F.1. A.M. Portada del libro de Legendre . . . . . . . . . . . . . . . . . 510 F.2. Apéndice del libro de Legendre (p.72) . . . . . . . . . . . . . . . . 511

´ INDICE DE FIGURAS

11

F.3. Apéndice del libro de Legendre (p.73) . . . . . . . . . . . . . . . . 512 F.4. Apéndice del libro de Legendre (p.74) . . . . . . . . . . . . . . . . 513 F.5. Apéndice del libro de Legendre (p.75) . . . . . . . . . . . . . . . . 514

12

´ INDICE DE FIGURAS

´ Indice de cuadros 1.1. Combinatorias del Reto Coca . . . . . . . . . . . . . . . . . . . . . 27 2.1. Relación Ingreso-Esperanza de vida . . . . . . . . . . . . . . . . . 42 2.2. Análisis de Varianza (ANOVA) . . . . . . . . . . . . . . . . . . . . 113 11.1. 11.2. 11.3. 11.4.

Prueba DF: valores cr´ıticos de elementos deterministas (1) Prueba DF: valores cr´ıticos de elementos deterministas (2) Valores Cr´ıticos de la prueba Engle-Granger . . . . . . . . Interpretación de signos en el MCE . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

391 391 396 401

13.1. Cálculo de la Condición de Rango . . . . . . . . . . . . . . . . . . 467

13

14

´ INDICE DE CUADROS

Agradecimientos Al escribir las más de 500 páginas de este curso descubr´ı con gran horror la frecuencia con la que me equivoco. Algunos de estos errores son tan solo tipográficos; otros más son de plano humillantes; los peores son las pifias matemáticas. Afortunadamente, mucha gente, primero en el seno del departamento de econom´ıa y finanzas de la Universidad de Guanajuato, y ahora en el CIDE, me ha ayudado a enmendarlos, especialmente los alumnos. Quiero agradecer—en orden cronológico—con particular e´ nfasis a: Oscar Manjarrez Castro, Miguel Amador, José Alfonso Garc´ıa Campillo, Lizeth Adriana Garc´ıa Belmonte, Sandra Carolina Segovia Juárez, Lupita Garrido Espinoza, Liliana López Renter´ıa, Berenice Mart´ınez Rivera, Gustavo Alfonso Rodr´ıguez Ayala, Guillermo Cisneros Gutierrez, Catalina Mart´ınez Hernández, Gustavo Salazar Monjarás, Omar Gallardo Mart´ınez, Lizet Adriana Pérez Cortés, Christoph Schulze, Carlos Uriel Rodr´ıguez Ram´ırez Salvador, Esmeralda Marisol Moreno Yañez, Karla Elizabeth González Sainz, Pablo Ortiz Casillas, Juan Pablo de Botton Falcón, Efra´ın Garc´ıa González, Sandra Thal´ıa España Gómez, Luis Antonio Gómez Lara y Jean-Luc Demonsant. Para mi desgracia, los errores que aún quedan son mi entera responsabilidad.

15

16

´ INDICE DE CUADROS

Parte I Econometr´ıa para primerizos

17

19 ‘H ACER E CONOMETR Í A ES COMO T RATAR DE E NTENDER LAS L EYES DE LA E LECTRICIDAD U SANDO UN R ADIO DE T RANSISTORES ’. G. O RCUTT

´ M AL , PERO A LGUNOS SON M AS ´ UTILES ´ ‘T ODOS LOS M ODELOS EST AN QUE OTROS ’. G.E.P B OX

20

Cap´ıtulo 1 Introducción Existen dificultades al aplicar la estad´ıstica a fenómenos sociales o empresariales. Realizar un experimento para después analizar estad´ısticamente los resultados exige un elemento fundamental, que es el diseño de dicho experimento. Pero en econom´ıa,1 la experimentación no sólo resultar´ıa costosa, sino que en muchos casos ser´ıa poco e´ tica o sencillamente imposible. Es por eso que la estad´ıstica debe ser utilizada con sumo cuidado cuando los datos no provienen de un experimento controlado. El hecho es que en muchas ocasiones tendremos que conformarnos con registros públicos o privados de poca calidad estad´ıstica. Es importante entonces conocer técnicas que permitan aminorar un poco las consecuencias de la naturaleza no-experimental de nuestro a´ mbito laboral. Una rama muy versada en ello es la “E CONOMETR Í A”. Esta u´ ltima constituye el brazo emp´ırico de la econom´ıa. El término “E CONOMETR Í A” fue creado originalmente para designar; (1) el desarrollo de teor´ıa económica pura con base en el herramental matemático y; (2) el desarrollo de técnicas de estimación e inferencia emp´ırica. Lo anterior quedó plasmado en el acta constitutiva de la sociedad econométrica (Econometric Society), fundada el 29 de diciembre de 1930 cuyo objetivo primario era: ´ “E L AVANCE DE LA TEOR Í A ECON OMICA EN LO RELATIVO A LA ´ ESTAD Í STICA Y LAS MATEM ATICAS .” (F RISCH , 1933) Actualmente, la ciencia econométrica incluye u´ nicamente a la segunda a´ rea; la que corresponde a la estimación y a la inferencia estad´ıstica con datos económicos. En este punto resulta muy conveniente resaltar el concepto de inferencia estad´ıstica;2 1

As´ı como en astronom´ıa, en finanzas, en ecolog´ıa,. . . Sección inspirada de las notas del Curso “Estad´ıstica Matemática I” impartido por el Dr. Miguel Nakamura. 2

21

´ ´ CAPITULO 1. INTRODUCCION

22

de igual forma, resulta muy u´ til diferenciar con claridad la estad´ıstica y la probabilidad. La asociación entre ambas es, virtualmente generalizada, dado el gran número de cursos que las mezclan. Resulta importante tener claras las diferencias considerando que la econometr´ıa se traslapa en numerosas ocasiones con la inferencia estad´ıstica. Observe el diagrama (1.1). En e´ l se pretende establecer la diferencia entre la teor´ıa de la Probabilidad [encargada de cuantificar posibilidades] y la estad´ıstica [que se ocupa de estudiar fenómenos aleatorios observados e inducir propiedades probabil´ısticas]. La probabilidad es de carácter deductivo (va de lo general a lo particular) mientras que la estad´ıstica es inductiva. En ese sentido, es posible considerar al estad´ıstico (o en nuestro caso, econometrista) como un detective que, con base en evidencia (es decir, observaciones), puede descubrir al culpable (infiere cuál es el modelo probabil´ıstico adecuado). Cuando se parte del estudio teórico del fenómeno estad´ıstico y se construyen resultados que posteriormente habr´ıan de cotejarse con la observación de dicho fenómeno (es nuestro diagrama, la flecha que va de izquierda a derecha), básicamente se está llevando a cabo un ejercicio deductivo, mientras que, cuando se parte de la observación del fenómeno y se intenta llegar al modelo teórico (la flecha que va de derecha a izquierda), el ejercicio es de naturaleza inductiva. Ambos procedimientos conllevan una parte de incertidumbre, sólo que e´ sta es diferente según cuál es. El procedimiento deductivo (en lo que nos ocupa) conlleva impl´ıcitamente una incertidumbre estocástica mientras que el inductivo conlleva una incertidumbre que podr´ıamos denotar como inductiva. Ambas categor´ıas serán mejor comprendidas a lo largo de este curso.

Teoría de la probabilidad Deducción

Observación del Fenómeno aleatorio

Fenómeno aleatorio

Inducción

Inferencia Estadística

Figura 1.1: Estad´ıstica y Probabilidad Cuando se hace teor´ıa de probabilidad, no es necesario contar con datos. Se puede, por ejemplo, imaginar que existe un dado justo (que no está cargado) y deducir que

´ 1.1. PARABOLA DE LEAMER

23

cada faz del dado tiene una probabilidad de ocurrencia de 16 . En ningún momento el dado existió. El camino del estad´ıstico es el opuesto; partiendo de observaciones debe llegar al modelo de probabilidad “adecuado” (por ejemplo, inferir con base en las realizaciones de un dado si e´ ste está o no cargado). Note que hacer el camino a la inversa de la teor´ıa de probabilidad conlleva una incertidumbre que la primera no tiene. Para lo que a nosotros nos interesa, conviene quedarnos con esta definición de la inferencia: ´ BASADA EN OBSERVACIONES I NFERENCIA ESTAD Í STICA : I NDUCCI ON

1.1.

Parábola de Leamer

En un art´ıculo famoso,3 Leamer hace la comparación de la ciencia económica con otras ciencias llamadas “duras” (como la f´ısica). Acorde a la parábola con la que inicia dicho art´ıculo, la ciencia clásica puede representarse por un granjero que tiene interés en confirmar la efectividad de cierto tipo de abono en el rendimiento de su cosecha. Para tal efecto, siembra su campo y añade en algunos surcos seleccionados al azar el mentado abono (¿ para qué creen que sirve la selección aleatoria?); hecho esto, espera la maduración de la cosecha y mide meticulosamente el rendimiento surco por surco. Obtenidos los datos, procede a elaborar una prueba estad´ıstica de diferencia de medias y confirma que el abono efectivamente hace crecer más a las plantas. Escribe sus resultados y los presenta en el C ONGRESO ANUAL DE G RAN JEROS donde la comunidad de cultivadores asimila sin controversia sus resultados. El economista es otro tipo de granjero, en otras latitudes. El también está interesado en saber qué factores afectan el rendimiento de sus tierras. Lo malo es que no dispone de las mismas herramientas que el granjero anterior; de hecho, sólo cuenta con un a´ rbol perdido en la mitad de su campo en el cual se paran a descansar unos pajaritos; mientras descansan, las aves defecan, vertiendo as´ı guano en las cercan´ıas del a´ rbol. El guano es considerado un abono natural. Nuestro granjero procede entonces a sembrar, como siempre lo ha hecho y, al momento de recoger su cosecha, mide el rendimiento de e´ sta distinguiendo arbitrariamente entre las zonas aledañas al a´ rbol y las demás. Calcula medias, hace una prueba estad´ıstica y constata diferencias en los rendimientos; escribe sus resultados y los presenta en otro congreso, ´ el C ONGRESO B I -A NUAL DE G RANJEROS E C ONOMOS . La diferencia es que al hacerlo, el auditorio se alborota y uno de los miembros del público de plano se 3

Leamer (1983) Let’ s take the con out of Econometrics, American Economic Review, 73 (1), pp. 31-43.

´ ´ CAPITULO 1. INTRODUCCION

24

levanta y manifiesta su inconformidad. Su argumento es que la diferencia de rendimientos no está causado por el guano que arrojan las aves, sino por la sombra que proyecta el a´ rbol; e´ l mismo tiene un arbusto en su jard´ın y sus cálculos as´ı lo indican. A ra´ız del comentario se gesta una agria discusión que sólo es zanjada por otro granjero, muy lúcido que señala que no es posible discriminar entre las dos hipótesis de trabajo: hay un problema de identificación.

1.2.

Fisher tomando el té

Cuenta la leyenda que Fisher (que era inglés) se encontraba un d´ıa tomando el té a las cinco de la tarde con sus colegas de trabajo, todos ellos sendos investigadores en ciencias duras, tales como la qu´ımica. A la mitad de la conversación, una de las damas presentes afirmó que el té no sab´ıa igual según como lo prepararan. Verter el azúcar antes que el té le daba un sabor diferente al que se obten´ıa invirtiendo el orden. Todos se rieron e inclusive trataron de explicarle a la dama que la reacción qu´ımica en cualquier caso siempre era la misma, pero e´ sta insist´ıa en tener la razón. Fisher, para zanjar la discusión propuso llevar a cabo un pequeño experimento. Preparó diez tasas de té. El orden de los ingredientes fue seleccionado al azar y sólo conocido por e´ l. Procedió posteriormente a dárselos a probar a la dama quien señaló en cada probada de que manera se hab´ıa preparado esa tasa. La dama supo reconocer correctamente dicho orden en todos los casos. ¿Cuál es la probabilidad 10 de que su e´ xito sea debido al azar? 12 ≈ 0.0009. Ser´ıa demasiado inveros´ımil creer que diez aciertos fueron sólo fruto del azar, por lo que el experimento constituye evidencia estad´ıstica de que el sabor del té difiere según el orden con que se mezclen los ingredientes. Ejemplo 1 El reto Pepsi. No hay que irse con la finta; hacer pruebas estad´ısticas, que si bien están basadas en una idea simple, requiere de una mente despejada. Hagamos un ejemplo práctico, muy al estilo de Fisher. Hace unos años, la compañia de bebidas Pepsi-Cola lanzó una agresiva campaña de publicidad en la que ofrec´ıa a la gente dos vasos; un vaso conten´ıa Coca Cola, mientras que el otro Pepsi Cola. A los encuestados se les ped´ıa señalar el que más les gustaba. La persona ten´ıa que decidir. Tiempo después, anunciaron que más gente hab´ıa preferido la Pepsi que la Coca. ¿Esa conclusión es válida? S´ı lo piensan bien, no. Probar un sólo vaso y luego escoger la marca del refresco de cola sólo tiene dos conclusiones posibles...Coca o Pepsi. Imaginen a alguien que hace la prueba y descubre que no tiene idea de lo que acaba de ingerir. ¿Qué hará? dirá un nombre al azar. Nuevamente,

1.2. FISHER TOMANDO EL TE´

25

si lo piensan bien, tiene una chance entre dos de atinarle de chiripa. ¿Qué pasar´ıa si, en vez de probar un vaso servido al azar, probara S IETE vasos servidos al azar? ¿Cuál ser´ıa la probabilidad de atinarle, por puro azar a la marca del refresco que está servido en cada vaso? Pues no es dif´ıcil calcularlo, 7 1 = 0.0078125 2 Pero nuevamente, no se vayan con la finta de este sencillo cálculo e infieran rápidamente que alguien que no le atina a ni un solo vaso tiene el paladar muy torpe. La probabilidad de no atinarle, también por puro azar, a la bebida en los siete vasos es: 7 1 = 0.0078125 2 De hecho, lo más probable es que alguien que no reconoce los sabores sea capaz de atinarle a unos cuantos vasos, por mero azar. Lo que resulta dif´ıcil de creer es que le atine a todos de chiripa (o la inversa, que no le atine a ninguno). ¿Cuáles son las probabilidades de atinarle a un vaso? Puede que le atine al primero, pero también es posible que le atine al segundo, o bien sólo al tercero. Existen, si lo ven 7 casos en los que le atinar´ıa a alguno de los siete vasos. Sólo hay un caso en el que le atinar´ıa a todos y también, sólo hay un caso en el que no le atinar´ıa a ninguno. ¿Cuántas posibilidades hay de que le atine a dos vasos cualesquiera? Ya no es tan fácil, puede atinarle al primero y al segundo, al primero y al tercero, al segundo y al tercero,... Ya son muchos más. Afortunadamente es fácil saber cuantas combinaciones hay. Simplemente necesitamos calcular la combinatoria de 7 tomados 2, es decir: 7 2 Hagamos todos los casos posibles (ver tabla 1.1). Hay, de hecho, 128 casos posibles. Ahora s´ı podemos empezar a tomar decisiones respecto al paladar de la gente. Lo primero es corroborar el primer cálculo que hab´ıamos hecho. Dijimos que la probabilidad de atinarle a todos los vasos de chiripa—o no atinarle a ninguno—era 0.0078125. Eso es lo que se obtiene también al hacer el siguiente cálculo: 1 = 0.0078125 128

´ ´ CAPITULO 1. INTRODUCCION

26

0.35 0.3

Probabilidad

0.25 0.2 0.15 0.1 0.05 0

0

1 2 3 4 5 6 Número de éxitos (cuantas veces le atinó a la bebida del vaso)

7

Figura 1.2: Distribución del reto Coca-Pepsi. Note como el a´ rea total es igual a uno. Con base en lo anterior es fácil ver que (i) la probabilidad de atinarle exclusivamente a un vaso es: 0.0546; (ii) atinarle a dos vasos: 0.1640; (ii) a tres: 0.2734; (iv) a cuatro: 0.2734; y luego se invierten. ¿Qué caso nos parece ser probatorio de que el individuo tiene un fino paladar? Si no le atina a ninguno, o bien le atina a todos, parece inveros´ımil que ello se deba al azar. Si adoptamos una filosof´ıa frecuentista, ver´ıamos que son siete casos de cada mil. As´ı pues, podemos tomar la decisión, en caso de encontrarnos con alguien as´ı, de decidir que eso no pudo deberse al azar y que esa persona realmente sabe distinguir la coca de la pepsi. El que falle una, o bien que las hierre todas menos una, nuestros cálculos muestran que se trata de una probabilidad de 0.05, es decir una entre veinte. Eso no resulta tan inveros´ımil, as´ı es que, en caso de ocurrir, se lo atribuiremos al azar. Ejercicio 1 Con objeto de hacer más elocuente la presentación del método de regresión, intentaremos hacer un ejemplo usando unos cuantos datos extra´ıdos de una muestra sumamente informal. La información, de hecho, será provista por ustedes y, eventualmente, por sus familiares y amigos. El interés de este ejemplo radica en que resalta algunos de los elementos más importantes en todo estudio, sea e´ ste econométrico o no. En realidad, lo más fundamental en un estudio es establecer con claridad la pregunta a la que se le desea dar respuesta. En este caso, formularemos

1.2. FISHER TOMANDO EL TE´ Atinarle a: 0

1

2

3

4

5

6

7

27

Combinatoria 7 0 7 1 7 2 7 3 7 4 7 5 7 6

Casos posibles 1

7

21

35

35

21

7

7 7

1

Total

128

Cuadro 1.1: Combinatorias del Reto Coca

una sumamente sencilla y, esperemos, algo controvertida: ´ ´ I MPUNTUALES , LOS H OMBRES O LAS M UJERES ? ¿Q UI ENES S ON M AS Se trata de una pregunta en extremo trivial; al margen de si e´ sta le parece interesante o no, destaca el hecho de que el cuestionamiento es preciso. Para dar respuesta al mismo, existen varias metodolog´ıas posibles. En este caso usaremos una que nos permita ilustrar el método de estimación que estudiaremos a lo largo del manual:

´ ´ CAPITULO 1. INTRODUCCION

28

M´ınimos Cuadrados Ordinarios. La idea es determinar si el género tiene incidencia alguna en las costumbres de puntualidad—de los individuos que conforman la muestra (ya si la muestra fuera representativa de cierta población, es otra historia). No obstante la unicidad de nuestra pregunta (genero-puntualidad), existen muchos otros factores que pueden explicar por qué la gente es impuntual/puntual: acceso a un medio de transporte eficaz, vivienda cercana al centro de estudio/trabajo, situación familiar, etc. Si diera la casualidad que todos los hombres de la muestra fueran solteros mientras que todas las mujeres estuvieran casadas con 7 hijos cada una, muy posiblemente encontrar´ıamos evidencia de que las mujeres son más impuntuales. Pero la conclusión ser´ıa errónea, pues ser´ıa la situación de maternidad la que provoca la impuntualidad. Si resultara que todos los hombres viven a 200 kilómetros de su lugar trabajo y no dispusieran de un medio de transporte rápido mientras que las mujeres viven al lado del centro de trabajo y encima de todo pueden llegar a e´ ste usando, por ejemplo, el metro, entonces encontrar´ıamos que son los hombres los más impuntuales. Ello también estar´ıa mal conclu´ıdo, puesto que las diferencias en puntualidad ser´ıan en realidad debidas a otros factores. No tomar en cuenta otros factores además del que nos interesa (género) para estudiar la puntualidad tendr´ıa la grave consecuencia de sesgar la inferencia estad´ıstica. Por ello es importante tomar en cuenta tales factores, es decir, controlar los resultados por tales factores. Si hacemos correctamente el control de otras caracter´ısticas de los individuos, nuestro ejercicio estad´ıstico tiene muchas más posibilidades de arrojar resultados válidos. As´ı las cosas, se sugiere que se levante la siguiente encuesta entre sus conocidos y familiares: 1. ¿Qué distancia tiene que recorrer para llegar a su centro de trabajo/estudio? Estime la distancia en kilómetros (podr´ıa usar “Google Maps” para ello). 2. ¿Se desplaza en automóvil, usa el transporte público, camina, “hace ronda” para llegar al centro de trabajo/estudio? 3. ¿Qué edad tiene? 4. ¿Tiene hijos? 5. Por la mañana, ¿debe compartir el baño con más de una persona? 6. En promedio, ¿qué tan puntual es? Responda señalando cuantos minutos suele llegar tarde/temprano. 7. ¿Es usted hombre o mujer?

1.2. FISHER TOMANDO EL TE´

29

En principio, deber´ıa juntar, como m´ınimo, unas 30 respuestas a semejante cuestionario para que el ejercicio tenga alguna oportunidad de arrojar resultados relevantes; podr´ıa usted usar un cuestionario en l´ınea como este: https://docs.google.com/spreadsheet/viewform?formkey=dG95X212S2taNUFyX1l6MWV2TWFfR0E6MQ

Las respuestas de algunas personas aparecen ya en un formato de cuadro en la siguiente liga: https://docs.google.com/spreadsheet/ccc?key=0AjZR92LJVODOdG95X212S2taNUFyX1l6MWV2TWFfR0E#gid=0

Recuerde que la pregunta a la que daremos respuesta es: ¿Quién es más impuntual? ¿la mujer o el hombre? Estimaremos por MCO la siguiente relación lineal: yi = α + β1 x1i + β2 x2i + . . . + β10 x10i + ui donde, 1. yi es la variable que mide la impuntualidad del i-ésimo individuo, 2. α, βi , para i = 1, 2, . . . , 10 son los parámetros que miden la relación lineal entre impuntualidad y cada una de las variables (α es sólo la ordenada en el origen de la recta), 3. x1i es la edad del i-ésimo individuo, 4. x2i es la distancia entre el hogar y el trabajo/centro de estudio del i-ésimo individuo, 5. x3i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo tiene auto, 0 si no, 6. x4i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo usa transporte público, 0 si no, 7. x5i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo se desplaza en taxi, 0 si no, 8. x6i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo “hace ronda”, 0 si no, 9. x7i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo comparte baño por las mañanas, 0 si no,

30

´ ´ CAPITULO 1. INTRODUCCION

10. x8i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo tiene hijos, 0 si no, 11. x9i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo trabaja, 0 si estudia, 12. x10i es una variable que sólo puede valer 1 o´ 0; valdrá 1 si el i-ésimo individuo es mujer, 0 si es hombre, 13. ui es un término de error. No podemos esperar que estos factores antes enumerados puedan explicar completamente la impuntualidad; todo aquello que no podamos explicar se irá a este término de error. La idea es que las variables que s´ı inclu´ımos sean capaces de explicar la mayor parte del comportamiento de la gente, que lo poco que no pudimos explicar sea “poco” y por ende inocuo. Note que no inclu´ımos una variable para la posibilidad de que el individuo camine. La razón de ello se estudiará en en cap´ıtulo destinado a la “multicolinealidad”; por el momento, simplemente ignore la cuestión. Los resultados no los podemos adelantar, puesto que es un ejercicio que depende de datos que aún no conocemos. Para llevarlo a cabo la estimación de la recta usaremos el módulo de regresión del programa Excel 2007. Vea en el apéndice G, en la página 515 de este manual para saber como hacer funcionar dicho módulo. En principio, sólo tiene que saber que y es la variable dependiente mientras que todas las demás, son variables independientes/explicativas. MCO le proporcionará estimaciones numéricas de los parámetros α y βi , para i = 1, 2, . . . , 10. Las fórmulas para obtener tales estimadores serán objeto de escrupuloso estudio más adelante; de momento no se preocupe por ello tampoco. Asumamos que ya logró estimar la recta de regresión por MCO. ¿Cómo debe interpretar los resultados y as´ı, eventualmente, dar respuesta a la pregunta orginal? Pues verá que es una mera cuestión de sentido común. Con un par de ejemplos, quedará esto muy claro: Nos vamos a concentrar en el parámetro estimado que acompaña a la variable Género, x10i . Supongamos que dicho estimador es igual a −8; supongamos igualmente que el estimador de α es igual a 5. Note como ello implicar´ıa que el i-ésimo individuo, si es mujer, deber´ıa ser, según nuestro modelo, ocho minutos más puntual. Para ver lo anterior, olvidémonos por un momento de todos los demás factores (igualemos a cero todas las demás variables). La ecuación se reducir´ıa a

´ 1.3. ¿ PARA QUE´ HACER ECONOMETRIA?

31

yi = 5 − 8x10i , si nuestro individuo es mujer. Siendo que x10i = 1 en ese caso, obtendr´ıamos que semejante individuo suele llegar, según nuestro modelo, 3 minutos antes de las citas. Si el individuo es hombre, entonces llegará 5 minutos tarde en promedio, según nuestro modelo, no lo olvide. Ahora bien, el valor del parámetro estimado es de suma importancia para la interpretación de los resultados, económica por lo general, pero no podemos dejar de lado la interpretación estad´ıstica. El estimador de β10 es una variable aleatoria y, por lo mismo, está sujeta a cierta incertidumbre/variabilidad. Podr´ıa ser estad´ısticamente indistinguible de cero. Si as´ı fuera, nuestra conclusión ser´ıa que el género no influye en la puntualidad de los individuos. Afortunadamente, si el parámetro realmente es cero, entonces una normalización del mismo tendr´ıa una distribución normal estándar. Ello nos permite hacer inferencia estad´ıstica; en otras palabras, podemos hacer una prueba de significancia estad´ıstica. Notará que el resultado ofrecido por el programa arroja en una columna un estad´ıstico denominado “estad´ıstico t”. La hipótesis nula de dicho estad´ıstico es que el parámetro es igual a cero. No podremos rechazar dicha hipótesis si el estad´ıstico t está entre −1.96 y 1.96.4 Con base en esta prueba, llegue a una conclusión respecto a la relación entre el género y la impuntualidad.

1.3.

¿ Para qué hacer econometr´ıa?

En u´ ltima instancia, el objetivo de la ciencia en general consiste en el desarrollo de instrumentos (modelos) que permitan realizar predicciones confiables de fenómenos futuros. Siguiendo una filosof´ıa instrumentalista no se considera que el modelo sea verdadero o que la teor´ıa represente la verdad. Se considera más bien que los elementos y entidades que aparecen en las teor´ıas son ficciones intelectuales valiosas (Poirier). A este respecto, cabe mencionar la siguiente “anécdota” (Pindyck): LAS PERSONAS QUE PRETENDAN PREDECIR EL FUTURO SERAN

´ CONSIDERADAS ALBOROTADORAS BAJO LA SUBDIVISI ON

´ 901 DEL 3, SECCI ON ´ ´ ACREEDORAS A UNA MULTA DE 250 C ODIGO COMUNAL , Y SE HAR AN ´ ´ . D OLARES Y / O 6 MESES DE PRISI ON

No obstante los riesgos en los que aparentemente incurriremos, nosotros nos dedicaremos a utilizar el herramental estad´ıstico t´ıpico de los economistas para realizar 4

Las razones de ello y la teor´ıa detrás de esta prueba será detallada más adelante.

´ ´ CAPITULO 1. INTRODUCCION

32

predicciones. Antes de iniciar concretamente con el curso, es interesante comentar un poco cuáles son los or´ıgenes de esta disciplina.

1.4.

Or´ıgenes

La econometr´ıa fue considerada en un principio como una s´ıntesis creativa de teor´ıa y evidencia, con la cual casi todo pod´ıa lograrse: descubrir nuevas leyes económicas, desarrollo de las existentes, medición y confirmación de estas,.... Jevons, uno de los primeros economistas abocados al estudio sistemático de la disciplina, afirmó: ´ QUE LA E CONOM Í A P OL Í TICA SE N O DUDO EN AFIRMAR TAMBI EN CONVERTIR Í A GRADUALMENTE EN UNA CIENCIA EXACTA , SI LA ´ COMPLETA Y PRECISA DE LO QUE ESTAD Í STICA COMERCIAL FUERA M AS ES ACTUALMENTE . D E ESTA FORMA , LAS FORMULACIONES PODR Í AN SER ´ RESPALDADAS CON GRAN FUERZA POR LOS DATOS ECON OMICOS , J EVONS (1871)

1.4.1. La trayectoria de los cometas Si bien el uso de la estad´ıstica en econom´ıa no comenzó a generalizarse hasta finales del siglo XIX, vale la pena reparar en los or´ıgenes del método que posteriormente ser´ıa utilizado en infinidad de disciplinas cient´ıficas, entre ellas, repetimos, la econom´ıa. Pues su origen es francés, si bien hay una ligera disputa con los alemanes en lo que concierne a la paternidad. El método al que nos referimos, del que ha´ blaremos las próximas 200 páginas, es nada menos que el famoso M ETODO DE M Í NIMOS C UADRADOS O RDINARIOS, M CO por sus siglas en español o bien OLS (Ordinary Least Squares) por sus siglas en inglés. El inventor de esta técnica es el Francés Adrien Marie LeGendre. Los detalles de dicha técnica aparecen en ´ ´ el apéndice de su obra “N OUVELLES M ETHODES POUR L A D ETERMINATION 5 ` DES C OM ETES . Como bien lo indica el t´ıtulo, M CO fue empleado la primera vez para ajustar las trayectorias de los cometas. Es un detalle curioso que vale la pena conocer. 5

Nuevos Métodos para determinar cometas. (traducción)

´ 1.4. ORIGENES

33

1.4.2. Manchas solares y ciclos venusinos Entre los economistas Jevons y Moore, se gestó un “programa” econométrico pionero para explicar los ciclos económicos, aunque su impacto en la comunidad cient´ıfica exigió bastante tiempo para materializarse. La teor´ıa de las manchas solares de Jevons (≈ 1870), por ejemplo, constituyó uno de los primeros intentos serios por cuantificar y aportar evidencia emp´ırica referida a una teor´ıa concreta. La idea fundamental de e´ sta es la siguiente: La actividad solar está regida por un ciclo que dura 11.1 años. Justamente en cada pico, dicha actividad se incrementa substancialmente. Jevons cre´ıa que tales picos ten´ıan efectos sobre el clima de la tierra y, por ende, sobre las cosechas y sus rendimientos. Estos efectos repercutir´ıan en los precios de los productos agr´ıcolas y posteriormente en los demás precios [Jevons(1875)]. La evidencia era escasa y el propio Jevons sab´ıa que—aún siendo cierte su hipótesis— otros factores sociales, económicos y pol´ıticos pod´ıan perturbar igualmente el ciclo.

Figura 1.3: Ciclo de Comercio según Jevons (1884) La evidencia desgraciadamente nunca se materializó y los esfuerzos de Jevons sólo le valieron el rechazo de los colegas. No obstante, el intento marcó una pauta: el uso de la estad´ıstica para identificar fenómenos económicos y sociales.6 Jevons eventualmente abandonó sus “prácticas econométricas”, pero Moore las retomó casi 40 años después. Desgraciadamente Moore lo hizo mediante una hipótesis aún más descabellada para explicar los ciclos de negocios. Moore propuso estudiar la o´ rbita de Venus y su posicionamiento con respecto a la Luna y al Sol. 6

Galton y otros autores contemporáneos ya hab´ıan hechos sus pininos, pero ninguno de ellos era economista

´ ´ CAPITULO 1. INTRODUCCION

34

Utilizó técnicas mucho más sofisticadas como el análisis armónico (frecuencias) sobre datos de pluviometr´ıa del Valle de Ohio (1839-1910); calculó periodogramas con los que “mostró” que hab´ıa ciclos que sobresal´ıan del ruido blanco; entre ellos destacaba uno de ocho años y otro más de treinta y tres años. Posteriormente elaboró correlaciones de la pluviometr´ıa de Illinois con la cosecha de grano del mismo estado creyendo mostrar as´ı que la lluvia y la cosecha estaban relacionadas causalmente (con un rezago de 2 años).

Figura 1.4: Ciclo de Negocios según Moore (Moore, 1914)

Posteriormente, Moore relacionó la producción de grano con su precio y obtuvo— emp´ıricamente—una demanda de grano con...¡pendiente positiva! Lo anterior fue fruto, entre otras cosas, de un análisis de regresión con tres variables (considerando la ausencia de computadoras, el mérito no es poco). Aquello no fue una debacle. Los resultados aparecieron en un libro (1914) y fueron refinados en otro que se publicó en 1923. En otro libro, Moore probó una hipótesis muy desafortunada; sugirió que el origen de los ciclos fuera la o´ rbita de Venus; dicho planeta se coloca cada ocho años en una posición tal que e´ ste queda alineado con el Sol y la Tierra. Las repercusiones de estas afirmaciones no tuvieron demasiado eco sobre la comunidad cient´ıfica.7 ´ El desarrollo de la econometr´ıa persistió. Esta se consolidó considerablemente con la fundación de la Sociedad Econométrica y se definió con más precisión con los trabajos de Timbergen en los años treinta. La Comisión Cowles aportó grandes avances 7

No obstante, Moore tuvo varios disc´ıpulos, menos destacados quizá individualmente, pero que en conjunto coadyuvaron a la construcción del cuerpo cient´ıfico de la econometr´ıa

´ 1.4. ORIGENES

35

ya en las décadas de los cuarenta y cincuenta. Lo ocurrido posteriormente, si bien es de gran trascendencia, es demasiado polifacético para resumirlo en unos pocos párrafos. La econometr´ıa clásica sufrió un gran descrédito en los setenta debido a sus limitaciones predictivas y explicativas ante un escenario de fuerte crisis. La incorporación y asimilación de técnicas de series de tiempo le permitieron salvar muchos de los escollos señalados. Adicionalmente, el avance informático y el acceso a bases de datos cada vez más grandes y completas permitió el desarrollo de lo que hoy se conoce como microeconometr´ıa.8

8

Ver, por ejemplo, la breve reseña que al respecto hace Ventosa-Santaulària(2006) o, mejor aún, la soberbia investigación de Morgan(1994).

36

´ ´ CAPITULO 1. INTRODUCCION

Cap´ıtulo 2 El modelo de Regresión lineal simple 2.1.

Preámbulo

La herramienta de análisis emp´ırico más comúnmente utilizada (y probablemente la más importante) en econom´ıa lleva por nombre M´ınimos Cuadrados Ordinarios (análisis de regresión, MCO u OLS, por sus siglas en inglés). Al ser empleada, se asume que la ecuación a estimar es lineal en todos sus parámetros. Antes de entrar en más detalles, cabe hacerse una serie de preguntas relevantes: ¿Para qué queremos estimar una ecuación? ¿De qué ecuación estamos hablando? ¿Cómo sabemos que los cálculos significan algo? A esas preguntas iremos respondiendo poco a poco, pero importa más asimilar correctamente desde un principio el interés de esta materia. Mediante el análisis de regresión lineal podremos establecer emp´ıricamente una relación (no necesariamente causal) entre dos o más variables; por ejemplo entre ingreso y consumo; y podremos caracterizarla y estudiar algunas de sus propiedades. Dichas relaciones nos son sugeridas por la teor´ıa económica. La que utilizamos de ejemplo es subyacente a las ideas Keynesianas. Retomémosla durante un momento: básicamente lo que sabemos acorde a dicha teor´ıa es que el consumo es una función del ingreso, es decir: C = f (y) Por desgracia, a partir de este punto, las cosas se vuelven más complicadas. Resulta obvio que existen otras variables que también explican el comportamiento del consumo; entre ellas destacan los activos financieros, las preferencias del consumidor... En general, todo el mundo coincide al decir que la más importante de todas ellas es el ingreso (disponible), o en todo caso admite que algunas de las otras son 37

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

38

muy dif´ıciles de obtener (como las referidas a las preferencias). En u´ ltima instancia, resulta muy conveniente (y altamente recomendable) fundamentar el estudio en teor´ıa económica que nos proporcione pistas respecto a las relaciones entre variables as´ı como al sentido de causalidad. Consideremos brevemente las variables que nos interesan. No sólo existe una teor´ıa que nos señala la relación entre ellas; emp´ıricamente dicha relación se antoja obvia, cuando menos estad´ısticamente.

8

6

4

2 1910

PIB real (EEUU) M2 (EEUU) 1920

1930

1940

1950

1960

1970

1980

M2 (EEUU)

8

6

4

2 4.5

5

5.5

6 PIB real (EEUU)

6.5

7

7.5

Figura 2.1: Series de tiempo del PIB real y del Agregado Monetario M2 de E.E.U.U. y Diagrama de Dispersión. Fuente: Base de datos histórica de Nelson y Plosser (1982). Pero bueno, aqu´ı nos estamos adelantando un poco. Hace un siglo le hubiéramos hecho diferente. Propuesto a finales del siglo antepasado, el coeficiente de correlación ha probado ser un instrumento simple, pero a la vez poderoso. El coeficiente de correlación es una cantidad que permite medir el grado de asociación entre 2 variables aleatorias. Definición 1 El coeficiente de correlación entre dos variables aleatoria es: ρx,y = donde:

cov (x, y) [V ar(x)]1/2 [V ar(y)]1/2

´ 2.1. PREAMBULO

39

Cov(x, y) = E [(x − µx )(y − µy )] V ar(x) = E [(x − µx )2 ] El coeficiente de correlación queda acotado entre −1 y 1. −1 ≤ ρx,y ≤ 1 El coeficiente de correlación es una medida de intensidad de relación lineal entre dos variables. Tomemos como ejemplo la relación entre Años de Estudio y Salario. Uno esperar´ıa que, conforme más años de estudio tenga un individuo, más alto sea su salario. Digamos que contamos con esa base de datos. Con base en la fórmula anterior podemos calcular la correlación entre ambas variables. ¿Qué opinar´ıan si saliera un coeficiente de correlación de 0.94?, ¿y si saliera 0.02?, peor aún ¿-0.7? El coeficiente de correlación es un instrumento eficaz para indagar rápidamente la intensidad de las relaciones entre variables. Tiene, como todo instrumento, bondades y defectos. Entre los defectos más notorios está su circunscripción a la linealidad:

Variable y

Variable x

Figura 2.2: Relación lineal entre las coordenadas de un c´ırculo: Nula El coeficiente de correlación lineal ser´ıa incapaz de darnos la más m´ınima pista de la relación entre las coordenadas x y y que obviamente es perfecta. Es importante tomar en cuenta esto cuando se utilice el coeficiente.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

40

¿Por qué el coeficiente de correlación está acotado entre −1 y 1? En realidad es fácil demostrarlo. Antes de continuar, haremos algunas aclaraciones. E(x) = µx , E(x − µx )2 = var(x) = σx2 , E(y) = µy y E(y − µy )2 = var(y) = σy2 . Definamos ahora:

z

def

=

=

(x − µx ) (y − µy ) p −p , V ar(x) V ar(y) (x − µx ) (y − µy ) − . σx σy

Resulta obvio que: z 2 ≥ 0, y por lo tanto, aplicándole el operador esperanza a z 2 y desarrollando:1 E(z 2 ) ≥ 0,

"

# 2 2 (x − µ ) (y − µ ) 2 (x − µ ) (y − µ ) x y x y E(z 2 ) = E + − ≥ 0. σx2 σy2 σx σy

Todos los denominadores en la expresión anterior son, para efectos del operador esperanza, términos constantes, por los que “salen” de dicho operador. Note además que el tercer elemento corresponde a la definición del coeficiente de correlación: Desarrollando, var(x)

var(y)

z }| { z }| { E(x − µx )2 E(y − µy )2 + − 2ρ σx2 σy2 1 + 1 − 2ρx,y −2ρx,y ρx,y

≥ 0, ≥ 0, ≥ −2, ≤ 1.

Ya tenemos un lado de la desigualdad; ahora sólo falta obtener el otro l´ımite. Definamos, como anteriormente (aunque cambiando el signo): 1

Podrá encontrar algunas explicaciones relativas al operador esperanza en el apéndice B en la página 499, aunque se recomienda, si las dudas persisten, consultar algún libro de probabilidad y estad´ıstica.

´ 2.2. EL CONCEPTO DE LA REGRESION

z≡ E(z 2 ) ≥ 0

41

(x − µx ) (y − µy ) + σx σy

# 2 2 (y − µ ) 2 (x − µ ) (y − µ ) (x − µ ) y x y x ≥0 + + E(z 2 ) = E σx2 σy2 σx σy "

1 + 1 + 2ρx,y ≥ 0 2ρx,y ≥ −2 ρx,y ≥ −1 Con esto queda demostrado que: −1 ≤ ρx,y ≤ 1

2.2.

El concepto de la regresión

En la relación mencionada al principio de este cap´ıtulo, entre ingreso y gasto, ser´ıa fácil imaginar que existen otras variables que explican los niveles salariales: localización geográfica (rural/urbana); antigüedad laboral; género (lamentablemente); etc. . . Es posible que existan muchas variables capaces de explicar parcialmente el nivel salarial de los individuos. Si utilizamos el coeficiente de correlación, para medir la relación lineal entre este par de variables, nos quedar´ıamos muy “cortos”. Es ah´ı que la regresión entra en juego, puesto que permite controlar por muchos otros factores importantes (recuerde el ejercicio 1 de puntualidad, en la página 26). No obstante lo anteior, de momento haremos el ejercicio con sólo dos variables. Ello permite introducir conceptos con suma facilidad; posteriormente generalizaremos el método a K variables independientes.

2.2.1. El diagrama de dispersión Desarrollemos un ejemplo sencillo para ver relaciones entre variables: Esperanza de vida e Ingreso per cápita (Datos de 2007).2 Veamos el caso de México, Francia, Japón y Nigeria: 2

El ingreso per cápita está medido en dólares PPC (paridad poder de Compra).

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

42

Pa´ıs México Francia Japón Nigeria

Ingreso per cápita $12,500 $33,800 $33,800 $2,200

Esperanza de vida 75.63 80.59 82.02 47.44

Cuadro 2.1: Relación Ingreso-Esperanza de vida. Fuente: CIA World Factbook: https://www.cia.gov/library/publications/the-world-factbook/index.html

Resulta aparente una relación directa entre nivel de ingreso y esperanza de vida. Los dos pa´ıses más ricos, Francia y Japón, tienen un ingreso alto y una elevada esperanza de vida; el pa´ıs pobre, Nigeria, también coincide con la esperanza de vida más reducida. México, en tanto pa´ıs de ingreso medio, ofrece una esperanza de vida muy superior a la de Nigeria, pero no tanto como la de las otras dos naciones. As´ı pues, todo indica que hay relación. Note como no se ha mencionado la palabra “C AU ´ ”. Podr´ıamos representar este hallazgo SALIDAD ”, sino simplemente “R ELACI ON gráficamente:

Esperanza de Vida (años)

85

Japón

México

80 75

Francia

70 65 60 55 50

Nigeria

45 40 0

5,000

10,000

15,000

20,000

25,000

30,000

Nivel de ingreso (en dólares medidos en PPP)

Figura 2.3: Ingreso per cápita y esperanza de vida en México, Francia, Japón y Nigeria. Fuente: CIA world factbook. La relación lineal, en todo caso, no es tan obvia. Podr´ıamos representar una función creciente, pero no necesariamente lineal. De hecho, con tan pocos datos (cuatro ob-

´ 2.2. EL CONCEPTO DE LA REGRESION

43

Esperanza de Vida (medida en años)

servaciones), no es posible efectuar inferencia estad´ıstica alguna. La figura anterior ´ ”y algunos autores se refieren a ella se denomina “D IAGRAMA DE D ISPERSI ON como “N UBE DE PUNTOS ”. El anterior es quizá una visión más poética (y también más elocuente) de la figura. Para asimilar mejor el concepto, conviene repetir el diagrama, esta vez con muchos más pa´ıses.

85

80

75

70

65

60

10,000

20,000 30,000 Ingreso per cápita (medido en Dólares PPP)

40,000

50,000

Figura 2.4: Ingreso per cápita y esperanza de vida en 220 pa´ıses (excepto algunos en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook. Note como la tendencia positiva en la relación es ahora más obvia. También resulta mucho más obvio que la l´ınea es incapaz de pasar por todos los puntos (dejar´ıa de ser una l´ınea, claro está). Esto resulta de que nuestro análisis es, muy probablemente incompleto y por lo tanto, no lo desarrollaremos más en esta sección; de momento, basta con asimilar la utilidad del diagrama de dispersión. La técnica de M´ınimos Cuadrados Ordinarios (MCO) consiste en encontrar los parámetros de la recta anaranjada de la figura. Lo primero es recordar la forma de la ecuación que genera una recta as´ı; debe tener una “O RDENADA EN EL O RIGEN ”y una “P ENDIENTE ”: yt = α + βxt + ut El término ut corresponde al error; e´ ste es necesario dado que no podemos esperar poder explicar todo con nuestra recta. Parte quedará como Error, o residual. Ello

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

44

corresponde a la fracción no explicada del comportamiento de la variable explicada, yt . Por cierto, dicho comportamiento lo estamos tratando de explicar con la variable xt , a la que usualmente se denomina variable explicativa o independiente.

2.3.

M´ınimos Cuadrados Ordinarios: MCO

Estudiaremos la técnica OLS o MCO, más comúnmente referida como regresión. Este u´ ltimo término se lo debemos en buena medida a Sir Francis Galton por su estudio “Regresión a la mediocridad”: las estaturas de los hijos de padres muy altos o muy bajos tienden a ser menos extremas. Definición 2 MCO: es la técnica que permite encontrar la l´ınea que mejor se ajusta a los datos; minimiza la suma de las desviaciones al cuadrado entre cada observación y dicha l´ınea. En otras palabras, la suma de las distancias entre los puntos del diagrama de dispersión a la l´ınea de regresión—al cuadrado—es la menor posible (ver figura). Donde, al número de observaciones con que contamos, lo denominaremos, T (tamaño de muestra). Para poder referirnos a una observación en particular, agregamos un sub´ındice a las variables. As´ı, por ejemplo, la t-ésima observación de la variable x es xt , donde t = 1, 2, 3, . . . , T Es posible sugerir distintas estrategias para minimizar esas desviaciones. P 1. De entrada podr´ıamos pensar en Tt=1 desvt , pero.... P 2. Podr´ıamos probar también minimizar Tt=1 | desvt | No obstante el valor absoluto complicar´ıa después los cálculos. P ´ 3. ¿Qué tal minimizar desvt2 ? Esta parece ser la más adecuada.

´ Debemos primero tener clara la naturaleza de la función a estimar. Esta debe ser ´ DE R E lineal en los parámetros. A la siguiente expresión le llamaremos F UNCI ON ´ GRESI ON P OBLACIONAL I NOBSERVABLE . yt = α + βxt + ut ,

donde: yt : Variable explicada o dependiente o inclusive regresando,

´ 2.3. MINIMOS CUADRADOS ORDINARIOS: MCO

45

Diagrama de Dispersión 20 y10t 0 −10 −20 −30

−20

−10

0

10xt

20

Figura 2.5: Diagrama de Dispersión o bien “Nube de Puntos”. α: Constante u ordenada en el origen, β: Pendiente, xt : Variable explicativa, exógena, predeterminada o aun regresor, ut : Término de Error. Dada su condición de inobservable, tendremos que conformarnos con algo que se le parezca lo más posible: ˆ t + uˆt yt = α ˆ + βx

(2.1)

donde la notación “ˆ” significa E STIMADO y a uˆt se le denomina R ESIDUAL. As´ı pues, ¿qué nos dice esta función sobre la variable que queremos explicar? Emˆ t nos sitúa en la l´ınea, pero le falta pecemos por una explicación geométrica; α ˆ + βx recorrer una cierta distancia para alcanzar a la observación, uˆt .

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

46 Definamos

ˆ t yˆt = α ˆ + βx

Retomando la ecuación (2.1): yt = yˆt + uˆt uˆt = yt − yˆt ˆ t uˆt = yt − α ˆ − βx Al cuadrado...

2 ˆ t uˆ2t = yt − α ˆ − βx

Sumando...

2 X ˆ = yt − α ˆ − βxt P 2 uˆt Y ahora s´ı, optimizando arg m´ınα, ˆ βˆ P X ∂ uˆ2t ˆ t , = −2 yt − α ˆ − βx ∂α ˆ P X ∂ uˆ2t ˆ t xt . = −2 yt − α ˆ − βx ∂ βˆ X

uˆ2t

Igualamos a cero para obtener el m´ınimo—o máximo: X ˆ t = 0 yt − α ˆ − βx 1. − X ˆ 2. − yt − α ˆ − βxt xt = 0

Desarrollamos: 1.

X ˆ yt − α ˆ − βxt = 0 X X X yt − α ˆ − βˆ xt = 0 X X yt − α ˆ T − βˆ xt = 0

(2.2)

´ 2.3. MINIMOS CUADRADOS ORDINARIOS: MCO 2. ˆ xt yt − α ˆ − βxt = 0 X X X xt yt − α ˆ xt − βˆ x2t = 0 X

A las ecuaciones resultantes de este desarrollo se les denomina: E CUACIONES N ORMALES X

X yt − α ˆ T − βˆ xt = 0 X X X xt yt − α ˆ xt − βˆ x2t = 0

Despejamos α ˆ de la primera...

P P P P yt − βˆ xt βˆ xt − yt = α ˆ= −T T ...y reemplazamos en la segunda P P ˆ yt − β xt X X X xt yt − xt − βˆ x2t = 0 T ˆ Despejamos β: X

xt yt −

P

P yt xt βˆ X 2 ˆ X 2 + xt − β xt = 0 T T

Reacomodamos los términos,

# " P 2 X X 1X X ( xt ) = − x2t yt xt − xt yt βˆ T T P P P 1 yt xt − xt yt T ˆ β = P P 1 ( xt )2 − x2t T P P P yt xt xt yt − T1 ˆ β = P 2 1 P 2 xt − T ( xt )

47

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

48

Ahora obtengamos α ˆ: P P yt βˆ xt α ˆ = − T T ˆ = y¯ − β x¯ ˆ Sustituyendo el valor de β: α ˆ = y¯ −

P P xt yt − T1 yt xt P 2 1 P 2 x¯ xt − T ( xt )

P

ˆ Al dividir arriba y abajo por 1 , obtenemos: Retomemos un poco la expresión de β. T P P P 1 x y − yt xt t t P 2 T1 P 2 βˆ = 1 xt − T ( xt ) T cov(x, ˆ y) = var(x) ˆ 1 T

Pero, ¿qué hemos obtenido? ¿un m´ınimo o un máximo? Retomemos las derivadas... P

X uˆ2t ˆ = −2 yt − α ˆ − βxt ∂α ˆ P X ∂ uˆ2t ˆ t xt = −2 yt − α ˆ − βx ∂ βˆ

∂

Construyamos la Hessiana, que es la matriz de Segundas Derivadas: " ∂ 2 P uˆ2 ∂ 2 P uˆ2 # P t t 2T 2 ˆ ∂ α∂ ˆ α ˆ ∂ α∂ ˆ β P 2 P 2 P x2t = P ∂2 u ˆt ∂2 u ˆt 2 xt 2 xt ˆ ˆ ˆ ∂ β∂ α ˆ

∂ β∂ β

Y veamos los determinantes de los menores: 1. Primero: 2 · T 2. Segundo: 2·T ·2

X

x2t − 4

X

xt

2

X 2 X = 4T x2t − 4 xt X X 2 2 = 4 T xt − xt

2.4. PROPIEDADES DE LOS ESTIMADORES

49

Si el determinante de ambos menores son positivos tendr´ıamos en nuestras manos una M ATRIZ DEFINIDA - POSITIVA, lo que equivale a tener la certeza de que obtuvimos un m´ınimo. P P Pero. . . ¿es acaso 4 T x2t − ( xt )2 positivo? Podr´ıamos manipular la fórmula de la varianza muestral para demostrarlo:3 0 ≤ var(x ˆ t) ≤ T var(x ˆ t) X ≤ (xt − x¯)2 X ≤ (x2t + x¯2 − 2xt x¯ X 1 X 2 ≤ (x2t − xt T X 2 X xt ≤ T (x2t − X X 2 2 0 ≤ 4 T (xt − xt La expresión obtenida no es otra cosa sino 4 · V ar (xt ) · T 2 , es decir la fórmula de la varianza, que es positiva por definición. As´ı pues podemos concluir que la MATRIZ H ESSIANA O D ISCRIMINANTE es definida-positiva y, por ende, al optimizar lo que obtenemos es un m´ınimo.

2.4.

Propiedades de los estimadores

2.4.1. Los supuestos del método Por medio de M´ınimos Cuadrados Ordinarios hemos ajustado una l´ınea que pasa cerca de las observaciones. Conviene ahora empezar a conocer las propiedades de dicha l´ınea, es decir de los parámetros estimados y del residual resultante. Para ello, enunciaremos anticipadamente los supuestos que garantizan—si se cumplen—que nuestro ejercicio de estimación sea exitoso.4 3

Haremos caso omiso de los grados de libertad que se pierden al estimar la varianza. Es importante mencionar que la regresión es como una esperanza condicional: E (yt /xt ) = α + βxt , al condicionar en x, i.e. al decir dado x asumimos, de una forma u otra, que conocemos dicha variable. Si no fuera el caso, sacar´ıamos la media, es decir, una esperanza incondicional. 4

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

50

L OS S UPUESTOS DE MCOa ´ La relación entre las variables x y 1. C ORRECTA E SPECIFICACI ON y es lineal y está dada por: yt = α + βxt + ut 2. O RTOGONALIDAD Usaremos dos versiones de este supuesto: a) Las x′ s son variables no estocásticas cuyos valores son fijos (no tienen propiedades probabil´ısticas). b) la Covarianza entre x y el término de error es cero: Cov(xt , ut ) = 0 o bien xt ⊥ut ; de ah´ı el nombre del supuesto. 3. El error, u, tiene una esperanza igual a cero E(u) = 0. 4. H OMOSCEDASTICIDAD La varianza del término de error es la misma para todas las observaciones: E(u2 ) = σ 2 ´ ( INDEPENDENCIA ) El término de error 5. N O AUTOCORRELACI ON es una variable aleatoria iid: E (ui uj ) = 0 ∀ i 6= j 6. El término de error se distribuye como una variable normal: ut ∼ N (0, σ 2 ) 7. E STACIONARIEDAD ( D E´ BIL ) Las variables no tienen un componente de tendencia estocástico ni determin´ıstico: E (yt ) = µ para todo t E (yt − µ) (yt−j − µ) = γj para todo t y cualquier j a

Resulta de suma importancia conocerlos. Para efectos prácticos, recomendamos al lector que los memorice. Conforme avance el curso, la razón de tales supuestos se volverá evidente y tal memorización ya no será necesaria.

2.4. PROPIEDADES DE LOS ESTIMADORES

51

El supuesto más importante es probablemente el primero, el de Correcta Especificación. Resulta obvio que si suponemos un Proceso Generador de Datos, DGP , incorrecto para la variable y, el resto de nuestro esfuerzo será perfectamente inútil y la estimación quedará viciada por construcción. Por desgracia, la relevancia de este supuesto sólo queda igualada con la dificultad intr´ınseca de validarlo.5 En lo que concierne al segundo supuesto, el de Ortogonalidad, usaremos la primera versión (variable xt no estocástica) salvo que se indique lo contrario. e´ sto se impone, de momento, con fines didácticos; muchas demostraciones quedan en extremo simplificadas al asumir que la o las variables explicativas no pertenecen a la esfera probabil´ıstica. Levantar este supuesto y reemplazarlo por la segunda versión, que es más laxa no es particularmente complicado; de hecho, tal acción se lleva a cabo en etapas ulteriores del curso (Econometr´ıa para segundones). El supuesto de ortogonalidad es, al igual que el primero, en extremo importante. La satisfacción del mismo [en su versión Cov(xt ut )] puede quedar en entredicho en una cantidad considerable de circunstancias, mismas que abordaremos, claro está; de hecho, su importancia es tal que dedicaremos gran parte de este manual a su estudio. De momento, asumiremos que s´ı se cumple y eso en su versión más sencilla [la variable x no es estocástica]. Los supuestos 4 y 5 resultan de gran trascendencia también, aunque menor que la de los dos primeros. El rompimiento de e´ stos (denominado heteroscedasticidad y autocorrelación, respectivamente) degrada considerablemente la calidad de la estimación.

Conviene tener claro algunos aspectos del tercer supuesto. Asumir que el término de error tiene esperanza cero cobra mucho sentido si recordamos que, en dicha variable, “echamos” todo aquello que no incorporamos a la especificación. Lo hacemos porque creemos que los elementos no considerados tienen una importancia marginal y no alteran la medición del fenómeno que realmente nos importa. La equivalencia con el diseño de un experimento estad´ıstico quizá aclare las cosas. En este u´ ltimo, incorporar el componente aleatorio a la selección de muestra permite anular los efectos sobre la variable de interés de otras variables que no nos importan. Dicho azar permite que todo aquello que queremos excluir se “cancele por s´ı solo”. Lo P −1 que ocurre con su contrapartida emp´ırica, T uˆt , resulta obvio, si recordamos la primera ecuaci´ o n normal igualada a cero. En otras palabras, por construcción, P −1 T uˆt = 0. 5

Una de las funciones más importantes del econometrista—América Latina—u Econometra— España—es justamente la de lograr una correcta especificación de la ecuación a estimar

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

52

Independencia y homoscedasticidad

20 10

10

0

0

−10

−10

−20

−20

−10

0

Autocorrelación

20

−20

10

−20

−10

0

10

Heteroscedasticidad

20 10 0 −10 −20

−20

−10

0

10

Figura 2.6: (a) Supuestos de homoscesdasticidad y no-autocorrelación; (b) Autocorrelación; (c) Heteroscedasticidad Existen otros resultados interesantes que vale la pena destacar. Desarrollando la especificación estimada, obtenemos:

X

yt = α ˆ + βˆ · xt + uˆt X X yt = α ˆ · T + βˆ · xt + uˆt

Si dividimos de ambos lados por T :

T −1

X

y¯ = α ˆ + βˆ · x¯ + T −1

uˆt = y¯ − α ˆ − βˆ · x¯

X

uˆt (2.3)

´ N ORMAL ¿Qué nos recuerda eso? Pues simple y sencillamente a la 1a E CUACI ON dividida por T , que igualamos a cero: y¯ − α ˆ − βˆx¯ = 0

2.4. PROPIEDADES DE LOS ESTIMADORES

53

Como ya dijimos, el método MCO hace que, por construcción, la media de los residuales sea cero inequ´ıvocamente. P OR ELLO , SEA CUAL SEA NUESTRA ESTIMA ´ , TENGA LOS PROBLEMAS QUE TENGA , LA MEDIA DE LOS RESIDUALES CI ON ´ CERO. No obstante, la expresión anterior ESTIMADOS SIEMPRE , SIEMPRE SER A hace evidente que las medias de las variables pasan exactamente por la recta de regresión. Resta comentar los supuestos 6 y 7. El primero, el de normalidad nos sirve para introducir la probabilidad en el modelo de regresión. Con ello, es posible atribuir propiedades probabil´ısticas a nuestros estimadores y, en u´ ltima instancia, llevar a cabo inferencia estad´ıstica. Su ausencia hace del método de MCO un simple ejercicio geométrico.6 Supongamos que ut ∼ iidN (0, σu2 ); las implicaciones de ello pueden esgrimirse gráficamente:

yt

0 0 0 50

50

50 100 0 0.20.4

100 0 0.20.4

100 0 0.20.4

xt

Figura 2.7: Diagrama de Dispersión. Visualización de la normalidad en la distribución de los errores. H OMOSCEDASTICIDAD: V ar(ut ) = E [ut − E(ut )]2 = E(u2t ) = σu2 6

Ver el papel que jugó la Comisión Cowles en el desarrollo de la Econometr´ıa

54

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION ´ : Suponga τ 6= t N O AUTOCORRELACI ON Cov (ut , uτ ) = E [ut − E(ut )] [uτ − E(uτ )] = E (ut ) (uτ ) = 0

Ya para terminar, haremos algunas anotaciones sobre el supuesto No. 7, la estacio´ nariedad. T ODOS LOS M ETODOS QUE VEREMOS EN ESTE CURSO Y EN EL QUE SIGUE PIERDEN SU VALIDEZ SI LAS SERIES CON LAS QUE TRABAJAMOS PO SEEN UN ELEMENTO TENDENCIAL . E XISTEN PRUEBAS PARA DETERMINAR ´ LO ANTERIOR , PERO EL BAGAJE TE ORICO NECESARIO PARA ENTENDERLAS ´ ´ VISTO EN LA SEGUNDA PARTE DEL CURSO . S OLO SER A

2.4.2. Caracter´ısticas Importantes del método MCO Las caracter´ısticas de M´ınimos Cuadrados Ordinarios que a continuación detallaremos resultan importantes pues servirán para apuntalar demostraciones ulteriores. Sirven además para acabar el proceso de familiarización con MCO. En particular, estudiaremos lo siguiente: 1. La estimación de los parámetros sólo depende de valores muestrales (ya visto). 2. Los estimadores α ˆ y βˆ son puntuales (ya visto). 3. Las medias muestrales de los datos pasan por la recta de estimación (ya visto). 4. La media de los residuales es cero (ya visto). 5. La correlación entre residuales, uˆt y observaciones, xt , es cero: ρuˆ,x

P (ˆ ut − u¯ˆ)(xt − x¯) p = p var( ˆ uˆt ) var(x) ˆ

Nos concentramos en el numerador y tomaremos en consideración el hecho que: 1X u¯ˆ = uˆt = 0 T

2.4. PROPIEDADES DE LOS ESTIMADORES

55

Desarrollando la expresión: X X X uˆ (xt − x¯) = uˆt xt − x¯ uˆt | {z } cero X = uˆt xt X ˆ t xt = yt − α ˆ − βx X X X = yt xt − α ˆ xt − βˆ x2t

La u´ ltima l´ınea del desarrollo deber´ıa resultarnos familiar; en efecto, se trata de la 2a ecuación normal. Como bien sabemos, dicha expresión está igualada a cero: X

yt xt − α ˆ

As´ı pues, por construcción,

X

xt − βˆ

X

x2t = 0

0 ρuˆ,x = p =0 var(ˆ u)var(x)

6. La correlación entre los residuales (ˆ u) y los valores estimados (yˆt ) es cero. Para mostrar lo anterior, partamos de la fórmula: P uˆ yˆt − y¯ˆ ρuˆ,ˆy = p var ˆ (ˆ u) var ˆ (yˆt )

Nuevamente, nos ocuparemos solamente del numerador... X

uˆ yˆt − y¯ˆt

=

X

uˆyˆ − y¯ˆ

X

uˆ | {z } cero X ˆ t = uˆ α ˆ + βx X X uˆt xt = α ˆ uˆt +βˆ | {z } | {z } 0

= 0

0

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

56

Por lo anterior, podemos decir que: ρuˆ,ˆy = 0

2.4.3. Propiedades de los parámetros estimados En esta sección veremos dos cuestiones fundamentales del método de MCO: su capacidad de ofrecer estimadores (1) insesgados y (2) robustos. Es importante recordar a lo largo de las demostraciones el uso sistemático de los supuestos antes expuestos puesto que debe quedar claro que al romperse e´ stos, en muchas ocasiones dicho insesgamiento y robustez quedan comprometidos. Antes de probar las afirmaciones anteriores, necesitamos llevar a cabo un pequeño desarrollo que nos será u´ til a lo largo de este texto. Se trata de probar que el parámetro βˆ es resultado de una combinación lineal de las observaciones muestrales: E L E STIMADOR βˆ ES UNA

´ L INEAL C OMBINACI ON

DE LAS

O BSERVACIONES M UESTRALES , “xt ”.

Podemos partir de la fórmula antes desarrollada del estimador: P (xt − x¯)(yt − y¯) ˆ β= P (xt − x¯)2 Definimos...

(xt − x¯) Kt ≡ P (xt − x¯)2

...Y lo sustituimos en la fórmula de βˆ βˆ =

X

Kt (yt − y¯)

Antes de continuar, veamos las propiedades de Kt 1. X

Kt = P = 0

X 1 (xt − x¯) (xt − x¯)2

2.4. PROPIEDADES DE LOS ESTIMADORES

57

2. X

Kt xt = = = =

P (xt − x¯) xt P (x − x¯)2 P 2t P xt − x¯ xt P 2 1 P 2 xt − ( xt ) P 2 T1 P 2 xt − ( xt ) P 2 T1 P 2 xt − T ( xt ) 1

3. X

Kt2

P

(xt − x¯)2 = P 2 (xt − x¯)2 X 1 (xt − x¯)2 = P 2 2 (xt − x¯) 1 = P (xt − x¯)2

Retomando el valor de βˆ y haciendo uso de las propiedades de Kt , obtenemos lo siguiente: βˆ = =

X

X

Kt (yt − y¯) X Kt yt − y¯ Kt | {z } 0

Si concebimos a Kt como un ponderador, entonces veremos que el estimador de β no es otra cosa sino una combinación—ponderada, claro está—de la variable dependiente (y), como de hecho queda manifiesto en la primera l´ınea del siguiente

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

58 desarrollo:7 βˆ = =

X

X

K t yt

Kt (α + βxt + ut ) X X X Kt xt + K t ut = α Kt +β | {z } | {z } 0 1 X βˆ = β + K t ut Propiedad de No-Sesgo de los parámetros estimados Aqu´ı veremos finalmente si nuestros estimadores son sesgados; si no lo son, ello ˆ = θ. Dado que α implica E(θ) ˆ y βˆ dependen de la variable aleatoria yt , ellos mismos son variables aleatorias: yt = α + βxt + ut |{z} | {z } determinista

aleatorio

ˆ recuperando la fórmula de estimaEmpecemos por el estimador de la pendiente, β; ción de e´ ste.8 X βˆ = K t yt (2.4) X ˆ = E E(β) K t yt X = Kt E(yt ) X = Kt E(α + βxt + ut ) X X X = α Kt +β Kt xt + Kt E(ut ) | {z } | {z } | {z } 0

1

0

ˆ = β E(β)

Como se observa en la u´ ltima linea del desarrollo anterior, la esperanza del estimador de la pendiente es el verdadero valor de dicha pendiente. En otras palabras, 7

En lo que concierne a α, ˆ el hecho de ser también una combinación de las ‘y’ quedará demostrado colateralmente al estudiar su varianza. 8 Intente ver en el próximo desarrollo la relevancia del cumplimiento del supuesto de correcta especificación. Note que, de forma impl´ıcita, tal cumplimiento resulta condición sine qua non para la validez de la prueba.

2.4. PROPIEDADES DE LOS ESTIMADORES

59

βˆM CO provee un estimador insesgado de β. Ahora veamos que pasa con el estimador de α:

α ˆ = y¯ − x¯

X

K t yt .

Reinsertamos la media de y en la sumatoria, P

X − x¯ K t yt , T X yt − x¯Kt yt . = T

α ˆ =

yt

Factorizamos,

α ˆ =

X1 T

− x¯Kt yt ,

(2.5)

Y ahora s´ı, sacamos esperanza... X1 − x¯Kt E(yt ) E(ˆ α) = T X1 = − x¯Kt E(α + βxt + ut ) T X1 = − x¯Kt (α + βxt ) T X X 1 X 1X α+ β xt − α¯ x Kt − x¯β xt Kt = T T E(ˆ α) = α + β x¯ − x¯β E(ˆ α) = α Propiedad de consistencia de los parámetros estimados Ya vimos que los parámetros son insesgados; esta propiedad es importante: incrementa nuestra confianza en la utilidad de nuestros estimadores. Ahora veamos que ˆ puestan robustos son. Lo haremos primero con el estimador de la pendiente, β, to que la consistencia del estimador de la ordenada en el origen, α ˆ , depende de la

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

60

consistencia del otro. Antes de continuar con el estudio de la consistencia, es importante hacer una aclaración al respecto; e´ sta trata de las propiedades de los estimadores cuando el tamaño de la muestra tiende a infinito, es decir, para fines prácticos, cuando la muestra es muy grande. ¿Por qué hacer esto? Pues simplemente porque existen situaciones en las que los estimadores son sesgados, pero consistentes: el estimador tiende a su verdadero valor si la muestra es suficientemente grande. Lo anterior ampl´ıa la paleta de posibilidades; veremos mucho más adelante que existen estimadores en extremo u´ tiles que, pese a ser sesgados, son también consistentes; su uso es por ende muy recomendable. Por eso, al momento de hacer estimaciones, si sabemos que sólo contamos con consistencia, debemos asegurarnos que nuestra muestra sea grande.9 Definición 3 Sea θˆT un estimador de θ basado en una muestra de tamaño T. θˆT es un estimador consistente si y sólo si: l´ım P | θˆT − θ |< ε = 1 T →∞

Donde ε es un número positivo arbitrariamente chico. Si la expresión es cierta, se dice que θˆT converge en probabilidad a la constante θ plim θˆT = θ p θˆT → θ

Ahora s´ı, retomemos: βˆ = β +

X

K t ut P (xt − x¯)ut = β+ P (xt − x¯)2

Para poder continuar esta demostración, hemos de modificar uno de los supuestos de manera importante. Nuestro segundo supuesto, el que dicta que las variables explicativas no son estocásticas, ha resultado en extremo práctico en muchos de los desarrollos hasta aqu´ı expuestos. No obstante, en este apartado, resulta más sencillo 9

Desgraciadamente, la definición de una muestra grande no genera un consenso tan absoluto como quisiéramos. Para efectos de este curso, consideremos que se requieren más de 300 observaciones.

2.4. PROPIEDADES DE LOS ESTIMADORES

61

asumir que las variables explicativas s´ı son estocásticas. Ello permite emplear Leyes de Grandes Números sobre e´ stas. Concretamente, utilizaremos los siguientes resultados:10

Teorema 1 (Kolmogorov) sea {xt } una secuencia de variables aleatorias i.i.d. que satisface las siguientes condiciones: 1. E | xt |< ∞ 2. E(xt ) = µx entonces, T 1X P xt → µ x T t=1

Nota: en realidad, la convergencia que dicta el teorema es “casi segura” (almost sure) y no en probabilidad. No obstante, puesto que la primera implica la segunda, nuestra disgresión no resulta tan grave.

Teorema 2 Si {xt } y {ut } son secuencias aleatorias i.i.d, entonces la secuencia {xt ut } también es i.i.d.. Asumiremos por ende que la variable explicativa, xt es una variable aleatoria i.i.d.. P P Asumiremos además que T1 Tt=1 (xt − x¯)2 → σx2 , algo que permite también una sencilla Ley de Grandes Números. Es posible, dicho sea de paso, usar un supuesto menos estricto en esta demostración, pero no resulta fundamental a estás alturas del partido. Cabe destacar que los restantes 6 supuestos antes establecidos se cumplen tal y como los planteamos. Antes de proceder a la demostración en s´ı, vale señalar algunas reglas prácticas de los l´ımites en probabilidad: 10

Una explicación y demostración detallada de estos teoremas puede consultarse en el libro “Asymptotic Theory for Econometricians”, de Halbert White. Vea la bibliograf´ıa.

62

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

L AS REGLAS DE LOS PLIM 1. El plim de una constante es esa misma constante: plim (Ω) = Ω 2. El plim de un producto (o cociente) de dos variables aleatorias es igual al producto de los plim. plim (y1 · y2 ) = plim (y1 ) plim (y2 ) plim (y1 ) y1 = plim y2 plim (y2 ) 3. Teorema de Slutsky: Teorema 3 El plim de una función continua g de una variable aleatoria y es igual a la función aplicada al plim de y. plim [g(y)] = g [plim(y)] Como se infiere de estas sencillas reglas, el plim es un operador más flexible que el operador esperanza. Ahora s´ı, veamos lo que ocurre con nuestro estimador de MCO: P (xt − x¯)ut ˆ plim(β) = plim(β) + plim P (xt − x¯)2 P plim ( (xt − x¯)ut ) P = β+ plim ( (xt − x¯)2 ) P plim T1 (xt − x¯)ut P = β+ plim T1 (xt − x¯)2 El incorporar T1 permite asegurar la convergencia de ambos, el numerador y el denominador. Para tener las fórmulas exactas, dicha normalización deber´ıa ser (T − 1), pero, dado que T −→ ∞, ese detalle carece de importancia. Ahora bien, podemos empezar a utilizar los teoremas antes expuestos:

2.4. PROPIEDADES DE LOS ESTIMADORES

ˆ = β+ plim(β)

plim

= β

P

(xt − x¯)ut σx2

1

3

{ X z }|X }|X { 1 1 1 xt ut − plim xt plim ut plim T T T {z } |

z = β+

1 T

63

2

σx2

donde, P 1. xt ut es i.i.d. por el segundo teorema y, por ende, puede aplicársele el primero. P 2. xt es i.i.d., por ende, puede aplicársele el primer teorema; queda µx . P 3. ut es i.i.d., por ende, puede aplicársele el primer teorema; queda 0.

Probar la consistencia del estimador de la ordenada en el origen es, en realidad, muy sencillo. Para demostrarla, nos aprovecharemos del hecho que las medias muestrales pasan por la recta de regresión estimada. α ˆ = y¯ − βˆx¯

(2.6)

Lo anterior no es completamente cierto cuando la especificación es la verdadera, puesto que la media de los errores no necesariamente es cero:

y¯ = α + β x¯ + u¯ No, obstante, en el l´ımite, s´ı ocurre:

plim(¯ y ) = α + βplim(¯ x) + plim(¯ u) = α + βµx

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

64

Para lograr semejante simplificación, basta recordar el Teorema (1) expuesto en la página 61. Por un lado, seguimos asumiendo que la variable explicativa satisface los supuestos del teorema por lo que la media tiende a µx , y, por el otro, el término de error, de hecho, también los satisface, por lo que la media tiende a cero. Sabiendo eso, retomemos la ecuación (2.6) y apliquemos l´ımites en probabilidad. Recuerde que el plim de βˆ es β: plim(ˆ α) = = = =

y¯ − βˆx¯ plim(¯ y ) − βµx α + βµx − βµx α

Varianza de los estimadores Hemos visto ya que los parámetros estimados son insesgados y consistentes. Faltar´ıa ver ahora como es la varianza de e´ stos. Ello permitirá caracterizar mejor dichos estimadores. De hecho, todas estas demostraciones pueden considerarse el preámbulo al teorema de Gauss-Markov, que tipifica de manera elocuente a nuestros estimadores de MCO. ˆ Anteriormente, Varianza de βˆ Empezaremos mostrando cual es la varianza de β. cuando estudiamos el no-sesgo de dicho parámetro, llegamos a la siguiente ecuación: βˆ = = = βˆ = βˆ = βˆ = βˆ =

X

Kt (yt − y¯) X K t yt − Kt y¯ X X Kt yt − y¯ Kt | {z } 0 X K t yt X Kt (α + βxt + ut ) X X X α Kt + β xt Kt + K t ut X β+ K t ut X

2.4. PROPIEDADES DE LOS ESTIMADORES

65

2 ˆ E βˆ − β , podemos manipular la expresión de Para calcular la varianza de β, arriba y escribirla de la siguiente manera: X βˆ − β = K t ut 2 X 2 ˆ β−β = K t ut

(2.7)

= (K1 u1 + K2 u2 + ... + KT uT )2 = K12 u21 + K22 u22 + ... + KT2 u2T + 2K1 K2 u1 u2

Los términos cruzados, ui · uj para i 6= j desaparecerán al momento de aplicarles la esperanza.11 2 ˆ E β−β = K12 E(u21 ) + K22 E(u22 ) + K32 E(u23 ) + ... + KT2 E(u2T ) Aprovechando el supuesto de homoscedasticidad, podemos reemplazar las esperanzas por σ 2 y luego factorizar:

ˆ = K 2 σ 2 + K 2 σ 2 + K 2 σ 2 + ... + K 2 σ 2 V ar(β) 1 2 3 T X 2 2 = σ Kt 2 ˆ = P σ V ar(β) (xt − x¯)2

Para entender el u´ ltimo paso, es necesario recordar que ya tenemos la primera varianza:

P

Kt2 =

σ2 V ar βˆ = P (xt − x¯)2

P

1 . As´ı pues, (xt −¯ x)2

Comentario 1 Hay una forma aún más fácil de obtener la fórmula de la varianza ˆ 12 La prueba, además, nos permite usar el operador varianza, mismo que rara de β. vez aprovechamos: 11 12

Ello ocurre debido al cumplimiento del supuesto de No autocorrelación. Cortes´ıa de Pablo Ort´ız Casillas.

66

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

βˆ = β +

X

K t ut X

ˆ = 0 + var var(β) K t ut X = Kt2 var(ut ) X = σ2 Kt2 = P

σ2 (xt − x¯)2

Varianza de α ˆ El cálculo de la varianza P de α ˆ es un poco más complicado. En secciones anteriores hab´ıamos visto que α ˆ = ( T1 − x¯Kt )yt . A partir de esta expresión aplicábamos el operador esperanza, pero ahora no. En vez de eso, sustituimos el valor de yt : X1

− x¯Kt (α + βxt + ut ) T X1 1 1 α + βxt + ut − α¯ xKt − β x¯Kt xt − x¯Kt ut α ˆ = T T T X X X 1X α ˆ = α + β x¯t + ut − α¯ x Kt −β x¯ Kt xt −¯ x K t ut T | {z } | {z }

α ˆ =

0

X 1X x K t ut ut + β x¯ − β x¯ −¯ α ˆ−α = | {z } T

1

0

El término β x¯ se cancela; a los restantes, los reagrupamos en una sola sumatoria, no sin antes factorizar T1 ... 1 T 1 α ˆ−α = T 1 α ˆ−α = T 1 α ˆ−α = T α ˆ−α =

X

ut − x¯

X

K t ut X X 1X ut − K t ut xt T X X 1− x t K t ut X R t ut

(2.8)

2.4. PROPIEDADES DE LOS ESTIMADORES Donde Rt = 1 − ( (ˆ α − α)

2

P

67

xt ) Kt .13 Elevando al cuadrado ambos lados y desarrollando:

1 = T2 1 = T2 1 = T2

X

R t ut

2

(R1 u1 + R2 u2 + R3 u3 + ... + RT uT )2 R12 u21 + .... + RT2 u2T + 2R1 R2 u1 u2 + ...

Nuevamente, los términos cruzados desaparecerán al aplicar el operador esperanza: E (ˆ α − α)2 = = = = = =

1 2 2 2 2 E R u + .... + R u + 2R R u u + ... 1 2 1 2 1 1 T T T2 1 2 2 2 2 R σ + ..... + R σ 1 T T2 X 1 Rt2 σ 2 T2 σ2 X 2 Rt T2 X 2 σ2 X 1− xt Kt T2 X X 2 σ2 X 2 xt Kt + 1−2 xt Kt T2  

σ2 = T2

  X X X 2 X  2 xt Kt + xt Kt  T − 2  | {z } | {z }  0

!

13

P ( xt ) 2 σ2 T+P V ar(ˆ α) = T2 (xt − x¯)2 P P ( xt ) ( xt ) 1 2 P + = σ T T · T · (xt − x¯)2 x¯2 2 1 V ar(ˆ α) = σ +P T (xt − x¯)2

P 1 (xt −¯ x) 2

Note que la u´ ltima expresión establece que el estimador de α es también, al igual que el de β, una combinación lineal de las ‘y’.

68

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

´ Covarianza entre α ˆ y βˆ Unicamente nos falta obtener la covarianza entre estiˆ ´ madores, Cov(ˆ α, β). Esta, en realidad, exige un proceder muy sencillo. Basta tener presentes, de los desarrollos anteriores, las siguientes expresiones: 1. Ecuación (2.7):

X βˆ − β = K t ut

2. Ecuación (2.8):

X 1X ut − x¯ K t ut T = u¯ − x¯ βˆ − β

α ˆ−α =

Asimismo, conviene hacer estos dos sencillos cálculos: 1. Esperanza de la media del término de error: 1X E (ut ) T = 0

E (¯ u) =

2. Esperanza de la media del error multiplicada por (βˆ − β): h i E u¯ βˆ − β =

i 1 hX X E ut K t ut T 1 = E K1 u21 + . . . KT u2T + t´ erminos cruzados T = 0

Ahora s´ı, desarrollamos la fórmula de la covarianza... h i ˆ ˆ Cov(ˆ α, β) = E (ˆ α − α)(β − β) h i = E u¯ − x¯(βˆ − β) (βˆ − β) h i = E (βˆ − β)¯ u −¯ x E(βˆ − β)2 | {z } | {z } var (βˆ) 0 2 ˆ = − P x¯σ Cov(ˆ α, β) (xt − x¯)2

2.4. PROPIEDADES DE LOS ESTIMADORES

69

2.4.4. El Teorema de Gauss-Markov En las secciones anteriores hemos obtenido resultados importantes y de hecho, tras´ cendentales referentes a los estimadores de MCO. Estos pueden resumirse en la siguiente tabla: E(ˆ α) = α ˆ =β E(β)

plim(ˆ α) = α ˆ =β plim(β)

¯2 V ar(ˆ α) = σ 2 T1 + P(xxt −¯x)2 ˆ = P σ2 2 V ar(β)

Insesgados

Robustos

V arianzas

(xt −¯ x)

Vimos también que los estimadores de MCO son combinaciones lineales de la variable aleatoria y (y por tanto también son combinaciones lineales de la variable aleatoria u): 1. Ecuación 2.5: α ˆ= 2. Ecuación 2.4: βˆ =

P

P

1 T

− x¯Kt yt ,

K t yt .

Los estimadores son insesgados y por ello pertenecen a la CLASE DE ESTIMADO RES LINEALES INSESGADOS . Su gran importancia te´ orica y práctica se debe a que ˆ las varianzas muestrales de α ˆ y β son las más pequeñas posibles en el mercado de los estimadores lineales insesgados. Esta fort´ısima aseveración está sustentada en el teorema de Gauss-Markov: Teorema 4 Dados los Supuestos del Modelo Clásico de Regresión Lineal, los estimadores de M´ınimos Cuadrados Ordinarios, dentro de la Clase de Estimadores Lineales Insesgados, tienen Varianza M´ınima, es decir son MELI (Mejores Estimadores Lineales Insesgados). La demostración de dicho teorema es, de hecho, bastante sencilla. Asuma, como siempre, la especificación: yt = α + βxt + ut Para poder proseguir, es necesario definir con claridad qué es un estimador lineal e insesgado:

70

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Definición 4 Un estimador L INEAL e I NSESGADO14 debe satisfacer las siguientes condiciones: β˜ =

X

q t yt ,

˜ = β, E(β) P P donde15 qt = 0, qt xt = 1. β˜ =

= = = β˜ = ˜ = V ar(β)

X

X

q t yt

qt (α + βxt + ut ) X X qt α + β qt xt + q t ut X X α qt +β + q t ut | {z } =0 X β+ q t ut X 2 X qt2 E = σ2 q t ut

X

Ahora que ya conocemos las caracter´ısticas de un estimador lineal e insesgado genérico—que no es el de MCO—Comparemos su varianza con la que nos ofrece MCO. Para ello, incorporamos artificialmente el ponderador de MCO, Kt en la u´ ltima expresión: qt = Kt + (qt − Kt ) q 2 = Kt2 + (qt − Kt )2 + 2Kt (qt − Kt ) X t X X X qt2 = Kt2 + (qt − Kt )2 + 2 Kt (qt − Kt ) P P P 2 Tenemos un término, Kt (qt − Kt ) = Kt qt − Kt , cuyo valor aún no hemos especificado. En realidad, dicho término es cero. ¿Por qué? Primero, recordemos lo que sabemos tanto de Kt como de qt : 14

Otro que no sea el de MCO. Conviene destacar que las condiciones para calificar como lineal a un estimador tienen que ver con un “ponderador” análogo al que encontramos para MCO, Kt . Las u´ ltimas dos condiciones, la suma del ponderador y la suma del ponderador multiplicado por la variable explicativa, resultan evidentes si reemplaza yt por la verdadera especificación. Sólo as´ı puede el estimador ser insesgado. En otras palabras, son condiciones necesarias, ligeramente redundantes con la segunda condición. 15

2.4. PROPIEDADES DE LOS ESTIMADORES 1. 2. 3. 4. 5.

P

P

P

P

P

71

qt = 0 qt xt = 1 Kt = 0 Kt xt = 1 Kt2 =

P

1 (xt −¯ x )2

Ahora s´ı, procedamos a desarrollar la expresión: P X X (xt − x¯) qt 1 2 Kt qt − Kt = P 2 − P (xt − x¯) (xt − x¯)2 Ahora asumamos que dicha expresión es en verdad cero. Reacomodando los términos... P 1 (xt − x¯) P 2 qt = P (xt − x¯) (xt − x¯)2   X  1 1 X −¯ x qt  = P x q P  t t 2 (xt − x¯) | {z } (xt − x¯)2 | {z } 1

0

1 1 P 2 = P (xt − x¯) (xt − x¯)2

Retomando nuestra demostración, acabemos de desarrollar la varianza del estimador alternativo: X ˜ = σ2 qt2 V ar(β) X X X 2 2 2 Kt + (qt − Kt ) + 2 Kt (qt − Kt ) = σ X X ˜ = V ar(β) ˆ + σ2 (qt − Kt )2 +2 V ar(β) Kt (qt − Ky ) | | {z } {z } >0

0

˜ > V ar(β) ˆ V ar(β)

Con esto, queda demostrado el teorema de Gauss Gauss-Markov.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

72

2.5.

Otros procedimientos de Estimación

Existen otras formas de estimar parámetros; en realidad, el método de MCO, si bien es el más exitoso, o cuando menos el más conocido entre economistas, dista mucho de ser el u´ nico. En esta sección daremos dos procedimientos alternativos. El primero, Método de Momentos—MOM, es en s´ı muy sencillo, pero constituye el preámbulo a una de las técnicas más socorridas en la actualidad, Método de Momentos Generalizado—GMM. El segundo, máxima verosimilitud, es también de suma importancia en cuestiones econométricas. La intención de esta sección es sobre todo dejar claro que MCO no es el u´ nico método y que su competencia es capaz de arrojar buenos resultados también.

2.5.1. El método de momentos (MOM) En muchos ejercicios de estimación, sin saberlo, nos interesamos en los momentos. De hecho, para estimaciones lineales, M´ınimos Cuadrados Ordinarios, el método que hemos estudiado, puede ser visto como un problema de ajuste de momentos muestrales a los momentos poblacionales: Definición 5 El Método de Momentos consiste en reemplazar los momentos poblacionales (o las funciones de momentos poblacionales) con los momentos muestrales correspondientes (o con las funciones de momentos muestrales correspondientes). Esta definición señala que hay que cotejar momentos muestrales con momentos poblacionales. La intuición es que cada “cotejada” corresponderá a una ecuación que podemos resolver. En nuestro modelo de regresión tenemos que estimar dos parámetros. Ello equivale a tener dos incógnitas, por lo que presumiblemente requeriremos de dos momentos teóricos a los cuales ajustar sus correspondencias muestrales. Los supuestos requeridos en este caso son: 1. El supuesto de Ortogonalidad:16 E(xt ut ) = 0. 2. E(ut ) = 0 Tales supuestos, si lo pensamos con detenimiento, no son otra cosa más que dos ´ momentos. Estos podr´ıan ser cotejados con sus contrapartes emp´ıricas: 16

Es importante señalar que el supuesto de ortogonalidad aqu´ı mencionado es el que reemplaza al que hicimos respecto a las propiedades deterministas de la variable x. En resumen, dicho supuesto de ortogonalidad es una versión más ligera que el de variables explicativas no-estocásticas (muy irrealista). Vale la pena también mencionar que usaremos el supuesto de ortogonalidad y abandonaremos el otro más adelante en el curso. De momento lo usamos por cuestiones pedagógicas.

´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION Teórico (población) E(ut ) = 0 E(ut xt ) = 0

1 T

73

Supuesto P (muestral) 1 uˆt = 0 P T (xt − x¯)(ˆ ut − u¯ˆ) = 0

Retomando nuestra especificación, que sigue siendo la misma. . . ´ C ORRECTA (P OBLACIONAL ): yt = α + βxt + ut 1. E SPECIFICACI ON ˆ t + uˆt ´ A E STIMAR (M UESTRAL ): yt = α 2. E SPECIFICACI ON ˆ + βx Ahora empleemos la versión muestral del primer momento señalado en el cuadro. Partiendo de e´ ste y conociendo la especificación: 1X uˆt |T {z }

=

0 |{z}

momento te´ orico

momento muestral

1 X ˆ yt − α ˆ − βxt = 0 T P xt 1X ˆ = 0 yt − α ˆ−β T T y¯ − α ˆ − βˆx¯ = 0

Es el turno del segundo momento muestral. Cabe señalar que aprovecharemos lo establecido por el primer momento muestral para “desaparecer” a la media de los residuales estimados, ˆ¯u: t 1X (xt − x¯)ˆ ut = 0 T 1X x¯ X xt uˆt − uˆt = 0 T T | {z } 0

1X xt uˆt = 0 T 1X ˆ t = 0 xt yt − α ˆ − βx T 1X 2 1X xt yt − α ˆ x¯ − βˆ xt = 0 T T

74

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Aquellos con buena memoria habrán identificado en estos dos desarrollos a las E CUACIONES N ORMALES: 1. y¯t − α ˆ − βˆx¯ = 0 P P 2 2. T1 xt yt − α ˆ x¯ − βˆ T1 xt = 0

De la primera ecuación despejamos α ˆ. . . α ˆ = y¯ − βˆx¯ . . . que reemplazamos en la segunda. . . βˆ X 2 1X xt yt − y¯ − βˆx¯ x¯ − xt T T 1X βˆ X 2 xt yt − y¯x¯ + βˆx¯2 − xt T T 1X xt yt − y¯x¯ T P P P 1 1 x y − xt yt t t T P 2 T1 P 2 1 xt − T ( xt ) T

= 0 = 0 X 2 X 1 1 2 xt = βˆ xt − 2 T T

= βˆ

βˆ =

P

P P xt yt − T1 xt yt P 2 1 P 2 xt − T ( xt )

Como era de suponer, la fórmula que obtuvimos es. . . ¡idéntica a la de MCO!

2.5.2. El Método de Máxima Verosimilitud Ya logramos estimar el modelo (1) minimizando la suma de residuales al cuadrado; (2) igualando los momentos teóricos a los muestrales. Ahora es el turno de presentar ´ el enfoque de M AXIMA V EROSIMILITUD. Esta u´ ltima es—contrario a lo que se podr´ıa pensar dada la extensión de su tratamiento en este documento— uno de los métodos más socorridos, tanto en estad´ıstica como en econometr´ıa. Su fundamento radica en el aprovechamiento de las propiedades probabil´ısticas asumidas en un modelo. En nuestro caso en particular, conviene utilizar el supuesto (6), que estipula un término de error distribuido normalmente:

´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION

75

ut ∼ iidN (0, σ 2 ) Es importante tener en mente que la especificación del modelo sigue siendo la misma: yt = α + βxt + ut As´ı pues, nos concentraremos en encontrar estimadores de los parámetros tratando de satisfacer “al máximo” el supuesto (6). Si el ruido, uˆt , es realmente normal, entonces, la densidad probabil´ıstica de yt nos podrá servir de punto de partida. Obtengamos sus momentos:

E(yt ) = α + βxt V ar(yt ) = E (yt − α − βxt )2 = E(u2t ) = σ2 Conviene resaltar el uso del supuesto de homoscedasticidad en el u´ ltimo paso del desarrollo anterior. Ahora bien, es fácil constatar que al ser ut normal, yt tiene que serlo también, puesto que dicha variable es simple y sencillamente la suma de una variable normal y una constante. As´ı, nos podemos centrar ya en la función de densidad de probabilidad conjunta: f (y1 , y2 , ....yT /α + βxt , σ 2 ) Para poder trabajar con esta u´ ltima, es necesario saber si existe independencia entre las y ′ s. Por ello, sacamos la covarianza. Asuma que k es un entero distinto de t:

Cov(yt , yk ) = E [(yt − α − βxt )(yk − α − βxk )] = E(ut uk ) = 0 Nuevamente conviene señalar que el u´ ltimo paso se hizo recordando el supuesto de independencia del término de error (no autocorrelación). Las y son independientes entre s´ı, por lo que la función de densidad de probabilidad puede separarse:

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

76

f y1 , y2 , ....yT /α + βxt , σ 2 = f y1 /α + βx1 , σ 2 · f y2 /α + βx2 , σ 2 . . .

Observemos ahora a uno de estos elementos desglosados en particular: 1 1 2 2 f yt /α + βxt , σ = √ exp − 2 (yt − α − βxt ) . 2σ 2πσ 2

Conociendo la fórmula, procedamos a desarrollar la función de densidad de probabilidad: "

T 1 X exp − 2 f (y /•)f (y2 /•) . . . f (yT /•) = (yt − α − βxt )2 {z } (2π) T2 σ T | 1 2σ

1

F uncion de verosimilitud, L

#

Procedamos ahora a dar una definición—informal—del procedimiento de Máxima Verosimilitud: Definición 6 El Método de Máxima Verosimilitud (MV) se lleva a cabo optimizando la función L de tal suerte que, dada la la distribución que se asumió (en este caso, Normal), se maximiza la probabilidad de observar las variables y.

yt

xt

Figura 2.8: Distribución Condicional de yt

´ 2.5. OTROS PROCEDIMIENTOS DE ESTIMACION

77

En palabras aún más llanas, Máxima Verosimilitud funciona jugando con los valores de α ˆ , βˆ y σ ˆ 2 de tal forma que la función normal cuadre lo mejor posible con los datos observados. Ahora bien, la Función de Verosimilitud que tenemos resulta ligeramente compleja, lo que dificulta su manipulación. Al aplicarle logaritmos, el resultado es una gran simplificación. Dado que se trata de una transformación monótona, los parámetros que optimizan L también maximizan al logaritmo, def ln (L) = l.

T

1 X (yt − α − βxt )2 2 2σ T T T 1 X 2 = − ln(2π) − ln(σ ) − 2 (yt − α − βxt )2 2 2 2σ T

ln (L) = ln(1) − ln(2π) 2 − ln(σ T ) −

Como siempre, optimizar requiere calcular las derivadas pertinentes e igualarlas a cero: 1. Con respecto a α (de la esperanza condicionada):

2 X ∂F (•) (yt − α − βxt ) = 0 = − 2 ∂α 2σ X X yt − α ˆ T − βˆ xt = 0 2. Con respecto a β (también, de la esperanza condicionada):

∂F (•) 2 X ˆ t )xt = 0 (yt − α ˆ − βx = ∂β 2σ 2 X X X yt xt − α ˆ xt − βˆ x2t = 0 Como en el caso de MOM, constatamos sin demasiado asombro que las ecuaciones resultantes no son otras sino las E CUACIONES N ORMALES

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

78

3. Lo interesante de Máxima Verosimilitud, es que estamos ajustando una distribución. En el caso de la distribución Normal sólo hacen falta dos momentos; la esperanza y la varianza. En lo que concierne al ajuste de la esperanza— condicionada en x, ello corresponde a los parámetros estimados de α y β. Pero aun falta la varianza; queda todav´ıa por derivar con respecto a σ 2 :17

∂F (•) T 1 1 1 X ˆ t )2 = 0 (yt − α ˆ − βx = − + ∂σ 2 2 σ2 2 σ4 1 X T ˆ t )2 = 0 (yt − α ˆ − βx = − 2+ 4 2σ 2σ | {z } P

u ˆ2t

Nada más falta manipular la expresión para obtener un estimador de la varianza:

2 1 X T ˆ yt − α ˆ − βxt = 0 − 2+ 4 2σ 2σ T σ2 1 X 2 − + uˆ = 0 2 2X t uˆ2t = T σ ˆ2 P 2 uˆt 2 σ ˆ = T Note como el estimador de σ 2 es sesgado, puesto que no está ajustado por los grados de libertad. Dicho ajuste tiene, por el momento, una explicaci´ on intuiˆ t por uˆt . tiva. En el segundo paso del desarrollo, sustituimos yt − α ˆ − βx Para ello, debimos recurrir a los estimadores de los parámetros. Por cada estimación empleada en el cálculo de la varianza, se pierde un grado de libertad. Esta cuestión quedará más clara—esperemos—en la siguiente sección. 17

recuerde que f ′ (ln(x) = 1/x).

2.6. EL ESTIMADOR DE LA VARIANZA

2.6.

79

El estimador de la varianza

2.6.1. Los grados de libertad: breve preludio Antes de obtener el estimador de la varianza del término de error, σ 2 , conviene recordar brevemente la razón de ser de los grados de libertad. Los ajustes por e´ stos en algunas normalizaciones, como es el caso de la varianza, son muy usuales. De hecho, este u´ ltimo ejemplo será desarrollado para entender de dónde viene la necesidad de ajustar por grados de libertad. Posteriormente, se dará un ejemplo más cercano a nuestra vida cotidiana para as´ı reforzar el concepto. Supongamos que y es una variable aleatoria cualquiera iid. En cursos anteriores, se aprendió que el estimador adecuado—insesgado—de la varianza de tal variable es:

E

"

1 T −1

X T t=1

#

(yt − y¯)2 = σy2

Pero, ¿realmente lo es? Verifiquemos la sumatoria del lado izquierdo de la expresión:

X

(yt − y¯)2 = = = =

X

= (yt − y¯)2 =

X

[(yt − µ) − (¯ y − µ)]2 X (yt − µ)2 + (¯ y − µ)2 − 2(yt − µ)(¯ y − µ) X X (yt − µ)2 + T (¯ y − µ)2 − 2(¯ y − µ) (yt − µ) P X yt − T µ 2 2 T (yt − µ) + T (¯ y − µ) − 2(¯ y − µ) T X (yt − µ)2 + T (¯ y − µ)2 − 2(¯ y − µ)(¯ y − µ)T X (yt − µ)2 − T (¯ y − µ)2

Si normalizamos esta expresión por T − 1 y le sacamos la esperanza, entonces:

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

80

1 X E (yt − y¯)2 T −1

1 X 1 = E T (¯ y − µ)2 (yt − µ)2 − T −1 T −1 T 1 X E(yt − µ)2 − E(¯ y − µ)2 = T −1| T − 1 {z }

V arianza teorica

1 X 2 T = σy − T −1 T −1

E(¯ y − µ)2 | {z }

“V arianza′′ de la media

La expresión que denominamos “Varianza de la media” puede desarrollarse más: V ar(¯ y ) = E(¯ y − µ)2 X 1 yt = V ar T

Del operador VARIANZA las constantes también salen, pero al cuadrado (¿por qué?): 2 X 1 V ar(¯ y) = V ar yt T La variable con la que trabajamos es iid y por ello es válido invertir el orden entre la sumatoria y la varianza (¿por qué?):

V ar(¯ y) = = = =

2 X 1 V ar(yt ) T 2 X 1 σy2 T T σy2 T2 σy2 T

Entonces, retomando la fórmula donde estudiábamos la esperanza de nuestro estimador de la varianza...

2.6. EL ESTIMADOR DE LA VARIANZA

"

T

1 X E (yt − y¯)2 T − 1 t=1

#

=

81

T σy2 T σy2 − T −1 T −1 T

T 1 − ) T −1 T −1 T −1 ) = σy2 ( T −1 = σy2 (

"

T

1 X (yt − y¯)2 E T − 1 t=1

#

= σy2

Queda pues demostrado formalmente que un estimador insesgado de la varianza requiere forzosamente un ajuste por grados de libertad. No obstante, en el proceso no ha sido establecida la intuición de dicha necesidad; pero ello encuentra solución al explicitar un ejemplo sencillo. Ejemplo 2 C ALIFICACIONES : Imagine a un alumno, llamado Equis Arriaga. ´ Este recibe parcialmente sus calificaciones del semestre: cursó 7 materias y sólo 6 de los profesores le dieron calificaciones: [10, 9, 10, 7, 10, 4, ?] En Administración Escolar, no obstante, le proporcionaron el promedio general: x¯ = 8 ¿Cuánto se sacó en la u´ ltima materia? En realidad, eso es muy fácil de calcular; se trata u´ nicamente de despejar la calificación desconocida de la fórmula del promedio. Note como el hecho de conocer el promedio nos obliga a fijar—a congelar, si autorizamos la expresión—el valor de la u´ ltima observación. Aqu´ı lo que ha ocurrido es que se perdió un grado de libertad.

2.6.2. El estimador insesgado de la varianza en MCO Ahora s´ı, obtengamos la fórmula para estimar la varianza del error. Si se ha comprendido bien la sección anterior, probablemente se pueda intuir que dicho estimador pierde necesariamente dos grados de libertad, puesto que antes de calcularlo estimamos dos parámetros (α y β). Ello implica que el normalizador de la varianza

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

82

deber´ıa ser T − 2. Empezaremos por trabajar con variables centradas, pues eso nos ahorra la manipulación de todo lo relativo a la constante: Retomemos la especificación as´ı como la expresión que muestra que las medias pasan por ella y restémoslas:

X

yt = α + βxt + ut X X yt = αT + β xt + ut y¯ = α + β x¯ + u¯

Note como, al igual que con la especificación estimada, las medias pasan por la recta de regresión, con la salvedad de que la media de los residuales teóricos no necesariamente es cero (como de hecho s´ı lo es, por construcción, la de los residuales estimados):

yt = α + βxt + ut −¯ y = − (α + β x¯ + u¯) yt′ = β · x′t + ut − u¯

(2.9)

Las variables centradas las denotamos inicialmente con prima. No obstante, para no hacer tan recargada la notación, denotamos, como antes, con letras minúsculas a las variables centradas. Esto eventualmente puede causar confusión, as´ı es que, cada vez que usemos variables centradas se advertirá al lector. Ahora, hagamos el mismo procedimiento de centrado con la especificación estimada. Como era de suponerse, en este caso no aparece u¯ˆt . yt = βˆ · xt + uˆt

(2.10)

Despejando el residual estimado de (2.10): ˆ t uˆt = yt − βx Sustituimos (2.9) en (2.11):

(2.11)

2.6. EL ESTIMADOR DE LA VARIANZA

83

ˆ t uˆt = βxt + (ut − u¯) − βx ˆ t + (ut − u¯) = (β − β)x Elevamos al cuadrado: ˆ 2 x2 + (ut − u¯)2 + 2(β − β)x ˆ t (ut − u¯) uˆ2t = (β − β) t

Cambiamos los signos (para as´ı recuperar las expresiones ya trabajadas de βˆ − β): uˆ2t = (βˆ − β)2 x2t + (ut − u¯)2 − 2(βˆ − β)xt (ut − u¯) Ahora sumamos: X

uˆ2t = (βˆ − β)2

X

x2t +

X

(ut − u¯)2 − 2(βˆ − β)

Y para terminar, saquemos esperanza:

E

X

uˆ2t

X

xt (ut − u¯)

hX i x2t E(βˆ − β)2 + E (ut − u¯)2 h i X −2E (βˆ − β) xt (ut − u¯) h i X X ˆ + (T − 1)σ 2 − 2E (βˆ − β) = x2t V ar(β) xt (u − u¯)

=

X

P Note que el segundo término, E [ (ut − u¯)2 ] corresponde a la varianza de una variable iid, como la que vimos en el ejemplo anterior. Es por ello que la reemplaza2 mos por (T − 1)σ 2 . De igual manera, probamos con anterioridad que varβˆ = Pσ x2 : t Reemplazando:

E

X

uˆ2t

i X ˆ = + (T − 1)σ − 2E (β − β) xt (u − u¯) h i X = σ 2 + (T − 1)σ 2 − 2E (βˆ − β) xt (ut − u¯) X

σ2 x2t P 2 xt

2

h

P Ahora sólo falta ver que pasa con el u´ ltimo término, xt (ut − u¯). Para ello, conviene retomar una expresión desarrollada anteriormente:

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

84

βˆ =

X

X

K t yt ,

Kt (βxt + (ut − u¯)) , X X = β Kt xt + Kt (ut − u¯), | {z } =1 X βˆ − β = Kt (ut − u¯), P xt (ut − u¯) P 2 βˆ − β = . xt =

Reacomodando los términos, X

x2t X

X βˆ − β = xt (ut − u¯) X xt (ut − u¯) = x2t (βˆ − β)

P Ahora que ya tenemos una ecuación equivalente a xt (ut − u¯) pero expresada en ˆ procedamos a obtener su esperanza: términos de β y β, h i h i X X −2E (βˆ − β) xt (ut − u¯) = −2E (βˆ − β) x2t (βˆ − β) X = −2E(βˆ − β)2 x2t σ2 X 2 xt = −2 P 2 xt = −2σ 2 Retomando todo desde el principio: X

σ2 X 2 xt + (T − 1)σ 2 − 2σ 2 = P 2 xt 2 2 2 2 X = σ + T σ − σ − 2σ = (T − 2)σ 2 uˆ2t E P 2 uˆt = σ2 E T −2 E

uˆ2t

2.6. EL ESTIMADOR DE LA VARIANZA

85

La u´ nica forma de obtener un estimador insegado de la varianza es dividiendo por el tamaño de muestra menos los grados de libertad perdidos al estimar α y β (ambos necesarios para obtener la esperanza condicional, por cierto). As´ı queda demostrado que

P ˆ2 ut T −2

es un estimador insesgado de σ 2 .

2.6.3. Robustez del estimador de la varianza en MCO Ya tenemos un estimador insesgado de la varianza del error. En lo que respecta a su robustez, la demostración puede ser omitida si se considera que ut es un ruido iid; por ello, a su estimador de la varianza se le puede aplicar una Ley de Grandes Números (Law of Large Numbers, LLN , por sus siglas en inglés). Cuando la muestra es muy grande, da “lo mismo” dividir entre T que entre T − 2; ambos arrojarán un estimador arbitrariamente cercano al verdadero valor de la varianza. Si bien no entraremos en detalles, es importante saber que, cuando trabajamos con un proceso i.i.d., e´ ste tiene las propiedades necesarias para asegurar que el estimador de su varianza converge a la verdadera varianza. Note que volveremos a asumir que la variable explicativa es estocástica, como en el u´ ltimo desarrollo “con l´ımites en probabilidad” que hicimos (regrese a la página 59).Para estudiar la robustez del estimador de la varianza, retomemos una expresión de e´ ste antes obtenida: 2 X X X 2 2 2 2 ˆ ˆ ˆ x2t (ut − u¯) − 2 β − β xt + ut = (β − β) P ˆ2 X 2 X ut 1 ˆ 1 2 plim −plim = plim x2t β−β (ut − u¯) T T T {z } | X

σ 2 (LLN )

2 1X 2 = σ − plim xt ·plim βˆ − β T {z } | 2

Converge

La consistencia del estimador quedar´ıa demostrada siel u´ ltimo elemento fuera cero. La nulidad de e´ ste resulta intuitiva, ya que plim βˆ = β. Es fácil demostrar que 2 el l´ımite es cero si desarrollamos el plim βˆ − β : 2 ˆ ˆ plim β − β = plim βˆ2 + plim β 2 − 2 · plim ββ = 0

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

86

Ello nos permite afirmar que, de cumplirse los supuestos de MCO, P ˆ2 ut = σ2 plim T

2.7.

Inferencia estad´ıstica en MCO

En las anteriores secciones, hemos desarrollado detalladamente el método de M´ınimos Cuadrados Ordinarios; también presentamos, ya más someramente, técnicas alternativas de estimación (MOM y MV). En los tres casos se ha puesto mucho e´ nfasis en la importancia del cumplimiento de los supuestos. Son e´ stos los que facultan las propiedades—tan deseables—de nuestros estimadores. Ya más concretamente disponemos, hasta ahora, de lo siguiente: 1. Desarrollamos los estimadores, determinamos que eran insesgados y robustos y calculamos sus respectivas varianzas. 2. Establecimos que los estimadores α ˆ y βˆ son MELI, es decir, lineales, de m´ınima varianza e insesgados. 3. Encontramos un estimador insesgado de la varianza del término de error: P

uˆ2t σˆ2 = T −2 2 E σ ˆ = σ2 4. A lo largo de todos los desarrollos, nos hemos topado sistemáticamente con el supuesto de O RTOGONALIDAD. De hecho, más que topárnoslo, lo hemos empleado una y otra vez. En el próximo curso de econometr´ıa confirmaremos que dicho supuesto es fundamental. Por ahora baste recordar que al ser cumplirse, tenemos:

E (xt · ut ) = 0

´ 2.7. INFERENCIA ESTADISTICA EN MCO

87

Resulta fundamental distinguir la importancia de la expresión y sobre todo, la diferencia que hay entre e´ sta y su contraparte muestra, Cov (xt , uˆt ) = 0. La primera constituye un supuesto, mientras que la segunda es resultado del método de estimación que usamos (MCO). La importancia radica en que, aún si el supuesto es violado (eventualidad desgraciadamente muy frecuente), la covarianza muestral seguirá siendo siendo igual a cero. De ello se infiere que no es posible detectar el rompimiento del supuesto con tan sólo una mirada a la covarianza entre residual estimado y variable explicativa. Toda esta explicación constituye un mero avance de lo que se verá en la segunda parte de este curso. A partir de aqu´ı nos concentraremos exclusivamente en las propiedades probabil´ısticas de nuestro modelo de regresión; las que se pueden derivar del sexto Supuesto, el que establece la Normalidad en los errores. En la sección destinada al método de MV, explicamos como dicha normalidad se transmite a la variable yt . Dado que los estimadores no son otra cosa sino Pcombinaciones Plineales de las observaciones de las variables dependientes (ˆ α= Rt yt y βˆ = Kt yt ), e´ stos también adquirirán la normalidad a través de la variable dependiente: yt = algo no estoc´ astico +

ut |{z}

N ormal(0,σ 2 )

En MV ello nos permitió deducir con facilidad que: yt ∼ N (α + βxt , σ 2 )

ˆ ˆ Al P estudiar al parámetro estimado β, recurrimos constantemente a la fórmula β = Kt yt que es de hecho la prueba de que dicho estimador es una combinación de las observaciones de la variable dependiente. Lo mismo se puede decir de la ordenada en el origen, α ˆ . Al ser los estimadores una función lineal de yt , es decir una suma ponderada de las y, la normalidad se les transmite:

1 x¯2 α ˆ ∼ N α, σ +P T (xt − x¯)2 2 σ βˆ ∼ N β, P (xt − x¯)2 2

Con base en lo anterior es posible construir intervalos de confianza y contrastar hipótesis sobre dichos parámetros. Quizá la prueba más importante o cuando menos

88

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

la más socorrida, es la que evalúa si los parámetros son estad´ısticamente distintos de cero: yt = |{z} α ˆ + βˆ xt + uˆt |{z} =0

=0

Si α es estad´ısticamente igual a cero, entonces nuestra especificación no requiere de una ordenada en el origen. Tal eventualidad no resulta particularmente importante. No obstante, si βˆ es estad´ısticamente igual a cero, entonces las consecuencias son mucho más relevantes: los datos de que disponemos no brindan evidencia de que nuestra especificación, la que relaciona a y con x, sea adecuada. Como en todo trabajo que involucre al herramental estad´ıstico, sobra decir que tanto el diseño como la ejecución de la estimación debe hacerse con sumo cuidado. Con el paso del tiempo esta prueba se ha vuelto usual entre economistas aplicados y econometristas emp´ıricos, y por ello vale la pena recordar toda la teor´ıa que está detrás: 2 1. La Normalidad de los Estimadores: βˆ ∼ N β, P (xσ −¯x)2 t

2. El Teorema del L´ımite Central (TLC):

√ Teorema 5 Conforme el tamaño de muestra crece, la secuencia T (y¯T − µ) converge en distribución a una variable gaussiana. Si yt es iid con media cero y varianza σ 2 , entonces: √ d T (¯ yT − µ) −→ N (0, σ 2 ) 3. Las propiedades de nuestro estimador de la varianza: P 2 uˆ = σ2 E T −2 P 2 uˆ p → σ2 T −2 Como ya señalamos, esta prueba es utilizada muy frecuentemente en econometr´ıa. Si bien dicha utilización es sencilla y su lectura no requiere de más de unos cuantos segundos, conviene entender como funciona. La demostración la haremos para el estimador de la pendiente, que es el caso interesante. Vamos a partir de la normalidad de dicho estimador; βˆ ∼ N (0, σ 2 ). A tal variable normal es posible transformarla para obtener una distribución Normal Estándar:

´ 2.7. INFERENCIA ESTADISTICA EN MCO

Z =

89

βˆ − β σβˆ

∼ N (0, 1) ˆ donde σβˆ es la ra´ız de la varianza de β. Nuestra prueba deberá tener, como toda prueba decente en estad´ıstica, una hipótesis nula y otra alternativa: Ho : β = 0 Ha : β 6= 0 Situémonos momentáneamente bajo la hipótesis nula; es decir, asumamos que el verdadero parámetro, β, es igual a cero. En ese caso, la variable transformada, Z, ser´ıa:

Z =

βˆ σβˆ

∼ N (0, 1)

0.5

Otra distribucion, válida bajo Ha

Normal Estándard, cierta bajo Ho

0.4 0.3 Nivel

0.2 0.1 0 −5

0

5

10

Figura 2.9: Distribución bajo la hipótesis nula y la alternativa

90

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Es importante tener plena conciencia de que estamos asumiendo que la hipótesis nula es cierta. Debido a ello, nuestro cálculo de la variable Z se simplifica en extre´ PROBABLE es que el resultado numérico mo. De ser cierta dicha hipótesis, LO M AS de calcular Z caiga en la zona central de la distribución. Ahora bien, cambiemos de escenario e imaginemos que, pese a haber supuesto que Ho se cumpl´ıa, la verdad es que Ha es la hipótesis correcta. En ese caso, nuestro cálculo de Z resultar´ıa erróneo ´ PROBABLE es que tal cálculo se salga de la parte gorda de la distribuy LO M AS ción siendo e´ sta muy distinta a cero. La parte fundamental—y quizá la más dif´ıcil—de la prueba radica en decidir a partir de dónde nos parece improbable que el cálculo de Z se aleje demasiado de lo que hubiera tenido que ser si en realidad fuera normal estándar. Obviamente, las zonas alejadas se sitúan en las colas de la distribución. La regla para separar la zona en la que nos resulta razonable pensar que Z es normal estándar o no, es arbitraria. El consenso, al menos en econometr´ıa es dejar como a´ rea probable para Ho el 95 % de la superficie abajo de la campana, mientras que el restante 5 % (distribuido equitativamente en ambas colas) lo dejamos para las Z’s que nos parezcan demasiado grandes, es decir, que nos resulte inveros´ımil que una Z tan grande haya sido generada por una distribución normal estándar. Bajo esta u´ ltima, los valores cr´ıticos que distinguen al 5 % más alejado del centro (2.5 % de cada lado) son: −1.96 y 1.96.

2.7.1. Inferencia usando una distribución de t de student Toda la inferencia sugerida anteriormente está muy bonita y es muy interesante18 pero existe un problema grave que nos impide llevar a cabo satisfactoriamente la prueba: desconocemos el valor de la varianza de nuestro estimador, σβˆ. Afortunadamente, ese es un problema que sabemos resolver; de hecho, conocemos dos formas de resolver el problema. La primera exige el uso de la distribución T DE STUDENT .19 A juicio del autor de estas páginas, este camino no es el que conviene recordar, no obstante, es importante conocerlo. Veamos primero cual es esta distribución t de student: 18

Al menos para algunos. William sealy Gosset (19876-1937) fue un qu´ımico y estad´ıstico, mejor conocido por su sobrenombre literario, student. Nacido en Canterbury, Inglaterra, asistió a la famosa escuela privada Winchester College, antes de estudiar qu´ımica y matemáticas en el New College Oxford. Tras graduarse en 1899, se incorporó a la destiler´ıa de Arthur Guinness e Hijo, en Dubl´ın. Para evitar la divulgación de información confidencial, Guinness prohibió a sus empleados la publicación de art´ıculos independientemente de la información que contuviesen. De ah´ı el uso, por parte de Gosset, de un pseudónimo literario en sus publicaciones. 19

´ 2.7. INFERENCIA ESTADISTICA EN MCO

91

Definición 7 Sea Z una variable Normal con esperanza 0 y varianza 1, Z ∼ N (0, 1) y x una variable independiente de Z y distribuida χ2 con T grados de libertad, x ∼ χ2T g.l , entonces:

Z tT g.l. = p x T

Si queremos aplicar esta definición a nuestro problema, debemos empezar por en2 contrar a la distribución normal estándar y luego χ del denominador. Asu a la miendo que la hipótesis nula es cierta, βˆ ∼ N 0, σβ2ˆ . Sólo hace falta dividir por σβ2ˆ para obtener una varianza unitaria:

q

βˆ 2 P σ (xt −¯ x )2

∼ N (0, 1)

Ya tenemos pues, el numerador. Sin realizar la demostración momentáneamente, establecemos que nuestro estimador de la varianza, ligeramente adaptado, del parámetro se distribuye como una χ2 ; σ ˆ 2 · (T − 2) ∼ χ2T −2 g.l. 2 σ Tomando por cierto este u´ ltimo resultado,20 se antoja la idea de reemplazar a σβ2ˆ por σ ˆβ2ˆ en nuestra fórmula de Z. De hecho, teniendo una normal estándar y una χ2 , ya podemos construir nuestra t de student: 20

El resultado lo demostraremos en la sección correspondiente a la prueba F.

92

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

q 2 ˆ P σ β/ (xt −¯ x)2 p p = [ˆ σ 2 · (T − 2) /σ 2 ] / (T − 2) [ˆ σ 2 /σ 2 ] √P (xt −¯ x )2 βˆ · σ = σ ˆ ˆ β/

q

2 P σ (xt −¯ x )2

= βˆ · = βˆ · =

σ qP

qP

(xt − x¯)2 σ · σ σ ˆ (xt − x¯)2 σ ˆ

βˆ

√P

= q

σ ˆ (xt −¯ x)2

βˆ ˆ2 P σ (xt −¯ x )2

βˆ = q σ ˆβ2ˆ Para resumir todas las operaciones pasadas, basta señalar que primero obtuvimos ˆ luego colocamos la ra´ız una distribución normal en el numerador al transformar a β; 2 cuadrada de una χ dividida por sus grados de libertad en el denominador. Eso, por la definición (7), sabemos que es una t de student. Lo malo es que, a priori parece no ser calculable, puesto que involucra parámetros que desconocemos. Afortunadamente, al desarrollar la expresión, vemos como dichos parámetros desconocidos desaparecen. Al final, nuestro estad´ıstico de prueba es: Z=

βˆ σ ˆβˆ

Todo parece haber salido bien. No obstante, los más detallistas habrán notado que no respetamos al 100 % la definición (7). En efecto, para realmente obtener una distribución t de student falta asegurar la independencia entre la normal del numerador y la χ2 del denominador. Esto, lo establecemos en el siguiente teorema:

´ 2.7. INFERENCIA ESTADISTICA EN MCO

93

Teorema 6 Si el término de error de la especificación lineal de la regresión, ut ˆ son estad´ısticamente se distribuye normalmente, los estimadores de MCO, α ˆ y β, independientes delPresidual estimado, uˆt y de todas las funciones de dicho residual, u ˆ2 incluyendo σ ˆ 2 = T −2t . La prueba de este teorema es un poco laboriosa, por lo que la reportamos al apéndice E. As´ı pues, nuestro estad´ıstico de prueba, llamado habitualmente estad´ıstico t, se distribuye como una t de student. Esta distribución se parece mucho a la Normal Estándar. La diferencia estriba en que sus colas son más pesadas; su uso es relevante cuando el número de observaciones es pequeño.21 La mayor pesadez de las colas queda manifiesta al comparar los valores cr´ıticos, puesto que, en vez de usar −1.96 y 1.96, la t de estudent sugiere usar, para una muestra de tamaño 20, −2.1 y 2.1.

2.7.2. Inferencia asintótica Existe una solución que, nuevamente a juicio del autor, resulta más apropiada; exige trabajar con muestras de tamaño mayor. En econometr´ıa, dicho sea de paso, siempre conviene recopilar la mayor cantidad de datos posibles. Estudios con menos de 50 datos no resultan demasiado atractivos. Para explicar en que consiste, necesitaremos un teorema que ya hab´ıamos presentado antes, pero que conviene recordar: Teorema 7 Sea L una función continua y Kt una expresión tales que: d

L (xT ) → L (x) , p

KT → K,

donde K es una constante; entonces,

d

L (KT · xT ) → L (K · x) , d

L (KT + xT ) → L (K + x) . 21

Digamos, menor a 30 observaciones.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

94

Vimos anteriormente que

ˆ ) (β−β σβˆ

se distribuye como una Normal estándar. Incurrire-

mos en una redundancia sumamente u´ til22 escribir entonces lo siguiente: ˆ β−β σβˆ

d

→ N (0, 1)

(2.12) p

Como antes, desconocemos σβˆ, no obstante, sabemos que σ ˆβˆ → σβˆ, lo que nos permite escribir: ! σβˆ p →1 plim σ ˆβˆ Retomando la ecuación (2.12), multipliquemos por βˆ − β σ ˆβˆ

=

σβˆ σβˆ

, lo cual no cambia nada:

βˆ − β σ ˆ β

σ ˆβˆ

σβˆ

Reacomodemos los términos: βˆ − β σ ˆ β

σβˆ

σ ˆβˆ

Ahora apliquemos la teor´ıa asintótica. El primer elemento, cuando el tamaño de muestra sea suficientemente grande, se distribuirá Normalmente, con media cero y varianza 1. El segundo (la razón entre varianzas) convergirá en probabilidad a 1. El Teorema de Slutsky permite asintotear al mismo tiempo ambos elementos, por lo que: βˆ − β σ ˆβˆ

22

d

→ N (0, 1)

Si bien aqu´ı es un ox´ımoron, al ir levantando supuestos—para hacer más incluyente al método— deja de serlo.

´ 2.7. INFERENCIA ESTADISTICA EN MCO As´ı, calcular

ˆ ) (β−β σβˆ

equivale a calcular

ˆ ) (β−β σ ˆβˆ

·

95 σβˆ σβˆ

que a su vez, manipulando, po-

ˆ ) σˆ (β−β demos dejar como σ ˆ · σˆβˆ . Acabamos de demostrar que esta u´ ltima expresión β β converge a una normal estándar. Es por el razonamiento anterior que podemos usar la expresión con puros estimados confiando en que asintóticamente la distribución será la normal estándar. Nos quedamos entonces con el primero, cuyos elementos s´ı tenemos. Este resultado nos permite hacer la prueba de significancia estad´ıstica de los parámetros de manera individual (es decir sobre cada parámetro); la distribución bajo la hipótesis nula es una Normal Estándar, por lo que los valores cr´ıticos, con un nivel de 5 % serán los ya antes mencionados: −1.96 y 1.96. Es importante tener siempre presente que el resultado sólo es válido para tamaños de muestra grandes. Lo anterior se presta a muchas arbitrariedades; se sugiere que T tenga cuando menos más de 100 observaciones.

2.7.3. Addendum: el p-valor El p − valor constituye una forma alternativa de leer las pruebas estad´ısticas y facilita grandemente su interpretación. Supongamos que corremos una regresión con la especificación de siempre, yt = α + β · xt + ut . Calculamos, como siempre (a partir de ahora), los estad´ısticos t correspondientes. Supongamos además que el valor del estad´ıstico t de la pendiente y nos sale un estad´ıstico de prueba igual a 27.7.

0.5

0.4

Normal Estándar

0.3

0.2 t de Student, 4 g.l. 0.1

0.0

−6

−4

−1.96

0

1.96

4

6

Figura 2.10: Distribución de t de student (4 grados de libertad) comparada con una normal estándar

96

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Obviamente, se rechaza la hipótesis nula, pero de hecho, también es evidente que el nivel, de ese lado de la curva (2.5 %), está muy sobrado. En realidad, el a´ rea detrás del valor del estad´ıstico de prueba es apenas 0.0001. Es decir que, en esta ocasión, con un nivel inferior al 1/10, 000 Ho hubiera sido rechazada. Justamente eso es el p-valor; el a´ rea detrás del estad´ıstico de prueba bajo la hipótesis nula. Si dicha a´ rea es menor al nivel que escogimos (por ejemplo, 5 %), entonces, sabremos que Ho deberá rechazarse. La definición formal del p-valor (p-value, en inglés), usando el estad´ıstico t, es la siguiente. Definamos como tvc al estad´ıstico tβˆ que obtuvimos con nuestra muestra particular:23 p − valor = Pr tβˆ ≥ tvc /β = 0 + Pr tβˆ ≤ −tvc /β = 0

2.8.

Análisis de varianza y bondad de ajuste

Lo visto en las secciones anteriores nos ha permitido caracterizar en detalle al método de MCO. Sabemos ahora que nuestros estimadores pueden ser en extremo apropiados si—y sólo—si los supuestos que yacen atrás se cumplen. Vimos también que es posible empezar a verificar, al menos parcialmente, la pertinencia de nuestra especificación por medio de la significancia de los parámetros. Es momento ya de incorporar en nuestro haber, una serie de herramientas que nos permitan saber si el ajuste de nuestro modelo a los datos es correcto, adecuado y/o mejorable. Dicho herramental podrá ser ajustado y adaptado para realizar pruebas con una significancia económica. De momento, iniciaremos con los instrumentos más básicos. Para medir la calidad del ajuste de la regresión, tenemos que evaluar si la recta que estimamos es una representación adecuada de la nube de puntos que aparece en el diagrama de dispersión.

2.8.1. La medición de la bondad del ajuste Hemos de encontrar alguna forma de medir el ajuste, o más t´ıpicamente denominado la bondad de ajuste. Si fuéramos más “naives”,24 en vez de correr una regresión para 23

Note que definimos el p-valor en función de una prueba de dos colas. Si se tratara de una prueba con una sola cola, como la χ2 o bien la F, entonces no es necesario hacer la suma de las dos probabilidades; basta con la primera probabilidad. 24 Ingenuos.

20

25

15

20 Variable Dependiente

Variable Dependiente

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

10 5 0 −5 −10 −15 −20

97

15 10 5 0 −5 −10

−10 0 10 Variable Explicativa

20

−15 −20

−10 0 10 Variable Explicativa

20

Figura 2.11: Comparación del ajuste entre dos regresiones explicar el comportamiento de yt , podr´ıamos calcular una media ramplona.25 Lo interesante, para el caso que nos ocupa, es que con dicha media, podemos calcular la variación total de yt , es decir su variabilidad: la dispersión de la variable con respecto a un momento central (la media); para ello, basta medir la distancia de cada punto con respecto a la media: (yt ) = yt − y¯.

yt Variacion no explicada

y

Variacion explicada

xt

Figura 2.12: Análisis de la Variación Ejemplo 3 OTRA VEZ LAS CALIFICACIONES : Imagine nuevamente a nuestro alumno, Equis Arriaga. Desea saber que determina el nivel de sus calificaciones. 25

La media es de hecho un estimador de la esperanza incondicional mientras que la regresión lo es, pero de una esperanza condicionada en las variables explicativas. Al fin y al cabo, todo lo visto resulta en versiones más o menos sofisticadas de una media

98

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

El hecho es que, de momento, nada se le ocurre; lo u´ nico que tiene es su boleta de calificaciones: en ella aparecen algunos nueves, otros dieces y bastantes sietes. Le resulta confuso, con sólo verlas, tener idea de como va. Lo primero que le viene a la mente es sacar el promedio. A eso se dedica la estad´ıstica: a resumir información que permite tener una vista “panorámica del fenómeno bajo estudio”. La media es, podr´ıamos decir, un “resumidor” de información que si bien algo nos indica, no nos aporta tanta luz sobre el fenómeno como lo hace el conjunto completo de los datos. Es una esperanza incondicional. A Equis Arriaga se le ocurre que quizá sus calificaciones dependan del número de horas de estudio que les dedique. Puede entonces condicionar su promedio al número de horas destinadas a estudiar cada una de las materias. Estimará entonces otro promedio, pero esta vez será un promedio condicionado a las horas de estudio. ¿Cómo se llama esta estimación? Pues no están ustedes para saberlo, pero s´ı nosotros para contarlo; es una regresión. En efecto, una regresión no es más que un promedio, sólo que condicionado a información adicional que nos permita entender mejor lo que pasa con la variable que nos interesa. La regresión—o esperanza condicional—nos permite ordenar mejor los datos, entenderlos mejor. Si el estudio de la regresión está bien hecho, cuantificaremos con aceptable precisión el efecto de estudiar sobre nuestras calificaciones. Ahora bien, existen otras razones, quizá más triviales que afectan a nuestro desempeño académico. Ello conlleva una inevitable incapacidad de explicar completamente el porqué de nuestras calificaciones. Lo que haremos a continuación es separar la variabilidad de las calificaciones—para ponerlo en términos de este ejemplo—en dos partes: (1) la que podemos explicar con las horas de estudio y, (2) la que no podemos explicar. Podr´ıamos tener una medida que nos indique que tan bueno es el ajuste de nuestra l´ınea de regresión. En el dibujo se capta que la variabilidad total es susceptible de ser desagregada en 2 partes; (1) la parte que el modelo de regresión puede explicar y, (2) la parte que quedó sin poder ser explicada. Visto eso, procedamos a medir cada parte de esa variación:

yt − y¯ = yt − y¯ + (yˆt − yˆt ) = (yt − yˆt ) + (yˆt − y¯t ) Fijémonos con más detenimiento en el primer término:

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

99

ˆ t yt − yˆt = yt − α ˆ − βx ˆ t + uˆt − α ˆ t = α ˆ + βx ˆ − βx yt − yˆt = uˆt Del anterior resultado se constata que dicho elemento no es otra cosa sino el residual estimado de nuestra regresión. Ahora bien, lo anterior fue desarrollado para una sola observación; si lo que queremos es tener en cuenta a todas, habr´ıa que sumarlas. No obstante, ya sabemos el resultado de sumar a una variable centrada: X

(yt − y¯) =

X

(y − y¯)

= y¯T − y¯T = 0

As´ı, para evitar una obviedad, mejor elevamos al cuadrado: (yt − y¯)2 = (yt − yˆt )2 + (yˆt − y¯)2 − 2 (yt − yˆt ) (yˆt − y¯) Sumamos... X X X X (yt − y¯)2 = (yt − yˆt )2 + (yˆt − y¯)2 − 2 (yt − yˆt ) (yˆt − y¯) | {z } ∗

* : Este término nos estorba. En los dos anteriores, aislamos la variabilidad explicada y la no explicada. Conviene deshacernos del tercero; desarrollándolo:26 X

(yt − yˆt ) (yˆt − y¯) ˆ t − y¯ (ˆ ut ) α ˆ − βx X ˆ t uˆt − y¯uˆt α ˆ uˆt − βx X X X α ˆ uˆt − βˆ xt uˆt − y¯ uˆt X

Ya hemos demostrado con anterioridad que cero, por lo que: 26

P

uˆt y

P

xt uˆt son ambos iguales a

Demostración simplificada por Lilia Guadalupe López Renter´ıa.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

100

X

(yt − yˆt ) (yˆt − y¯) = 0

Nuestra expresión inicial se reduce a: X

(yt − y¯)2 =

X

(yt − yˆt )2 +

X

(yˆt − y¯)2

(2.13)

V ariacion T otal = V ar. residual + V ar. explicada SCT = SCE + SCR T SS = ESS + RSS Las u´ ltimas dos l´ıneas corresponden a los acrónimos (en español y en inglés respectivamente) de los distintos elementos de esta expresión. SCT (TSS) es la Suma de Cuadrados Total; SCE (ESS) es la Suma de Cuadrados del Error, y; SCR (RSS) es la Suma de Cuadrados de la Regresión. Pues ya desglosamos la variabilidad de y. Ahora bien, ¿Qué podemos hacer con eso? Como ya señalamos al principio de este curso, las varianzas no tienen unidades.27 Podr´ıamos interesarnos quizá en medir u´ nicamente la proporción de la variabilidad total explicada por la regresión. Ello implica una normalización, de hecho, muy intuitiva. Dividiendo todo por SCT (o SCT), obtenemos: 1=

SCE SCR + SCT SCT

Si definimos R2 , una medida de la bondad de ajuste de nuestra regresión, como la proporción de varianza explicada, su fórmula ser´ıa: R2 =

SCR SCE =1− SCT SCT

Reiteramos que la R2 es la proporción de la variación total en y explicada por la regresión de y sobre x. Todos los términos que la componen son sumas cuadráticas, ≥ 0, por lo que por lo que son, sin excepción, positivos. Ello implica que SCE SCT nuestra medida, R2 , no puede ser mayor a uno. Por otra parte, 27

A menos que se acepten conceptos tales como pesos al cuadrado, dólares al cuadrado y cantidad de manzanas producidas al cuadrado.

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

101

SCT = SCE + SCR SCT ≥ SCE SCE 1 ≥ SCT SCE 1− ≥ 0 SCT Con ello, debe quedar claro que la R2 está acotada entre 0 y 1. Ahora que ya sabemos de dónde sale esta medida de ajuste, propondremos otra manera de formularla que es, claro está, equivalente. Recordemos que al centrar los datos (restarles su media) la especificación queda as´ı: ˆ t + uˆt yt = α ˆ + βx Restando las medias:28 yt =

ˆ +ˆ βx ut |{z}t yˆt

yt = yˆt + uˆt

Elevamos al cuadrado: yt2 = yˆt2 + uˆ2t + 2yˆt uˆt X X X yˆt2 + uˆ2t + yˆt uˆt yt2 = | {z } | {z } | {z } X

SCT

SCE

0

2 Reemplazamos yˆt2 por la expresión que lo genera, βˆ · xt : X

28

2 ˆ βxt + SCE SCT = X SCT = βˆ2 x2t + SCE

Ver desarrollos anteriores.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

102

Y manipulamos la expresión para as´ı recuperar la expresión de la R2 : βˆ2

X

x2t = SCT − SCE

Dividimos de ambos lados por SCT = P 2 x SCE 2 ˆ β P 2t = 1 − SCT} yt | {z

(2.14) P

yt2 :

R2

Con ello, obtenemos una formulación alternativa para la R2 : P (xt − x¯)2 2 2 ˆ R = β P (yt − y¯)2

Note, que de la ecuación (2.14), se infiere un resultado que nos será u´ til posteriormente: SCR = βˆ2

X

x2t

(2.15)

La R2 representa nuestra primera medida de bondad de ajuste. Existen todav´ıa muchas más medidas de ajuste y sobre todo, pruebas sobre la calidad estad´ıstica de la regresión. En esta sección veremos dos más: los intervalos de confianza y la prueba F.

2.8.2. Intervalos de confianza Al construir las pruebas de significancia, descubrimos la naturaleza de la distribuˆ la Normal. Con base en ello, podemos ción de los parámetros estimados, α ˆ y β: ahora construir intervalos de confianza; e´ stos nos proporcionan un rango de valores entre los que es probable estén los verdaderos parámetros. A cada intervalo le asignamos un nivel de significancia estad´ıstica. Los intervalos de confianza, como ya se sabe, se construyen de tal forma que la probabilidad de que dicho intervalo contenga el verdadero parámetro, sea uno menos el nivel de significancia (95 % o´ 99 %, por ejemplo). En este momento, no está de más recalcar que es esta parte, la inferencia sobre los parámetros, el meollo del trabajo de un econometrista. Dada la tecnolog´ıa

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

103

actual, correr regresiones es trivial. Lo importante es el análisis que se haga de los resultados. Para iniciar el desarrollo, hay que retomar lo que obtuvimos al desarrollar las pruebas de significancia: βˆ − β0 σ ˆβˆ ∼ tstudent, T −2 g.l

tβˆ = a

∼ N (0, 1)

Con las pruebas de significancia, ten´ıamos que escoger un nivel de confianza; ello nos permit´ıa determinar los valores cr´ıticos. El nivel de confianza básicamente señala la probabilidad de equivocarnos.29 Si la hipótesis nula es cierta, tenemos un 95 % de probabilidad de que el estad´ıstico t cae adentro del intervalo. ¿Cómo se lee nuestra prueba de significancia? Pues de hecho, la expresión expl´ıcita de e´ sta es: 



Pr  −2.05 2.05  = 0.95 | {z } < tβˆ < |{z} −V C95 %

V C95 %

Reescribiendo, para hacerlo más claro:

Pr −V C95 % < tβˆ < V C95 % = 0.95

Reemplazando al estad´ıstico t por su fórmula30 :

Pr −V C95 % 29

βˆ − β < V C95 % < σ ˆβˆ

!

= 0.95

Al descartar las puntas extremas de la distribución, incurrimos en el riesgo de que nuestro estad´ıstico de prueba si pertenezca a Ho pero haya ca´ıdo ah´ı. Nosotros lo descartaremos erróneamente (asumiremos que no fue engendrado por el proceso estipulado en Ho ). Es lo que se llama N IVEL o bien E RROR T IPO I. 30 Recuerde que en la fórmula del estad´ıstico t primigénea, restábamos β0 . Después, como lo que nos interesaba es que e´ ste u´ ltimo fuera cero, lo obviamos en las expresiones. A partir de aqu´ı, lo volvemos a dejar expl´ıcito.

104

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Ahora Manipulamos al interior del paréntesis con la intención de aislar el verdadero parámetro: Pr −V C95 % · σ ˆβˆ < βˆ − β < V C95 % · σ ˆβˆ = 0.95 ˆ ˆ Pr −V C95 % · σ ˆβˆ − β < −β < V C95 % · σ ˆβˆ − β = 0.95 Multiplicamos por −1: ˆβˆ > β > βˆ − V C95 % · σ ˆβˆ = 0.95 Pr βˆ + V C95 % · σ

Lo que tenemos al interior del paréntesis puede interpretarse como un intervalo de confianza; e´ ste corresponder´ıa a un nivel de confianza de 95 %. Su lectura ser´ıa la siguiente: β DEBE ESTAR INCLUIDO CON UN NIVEL DE CONFIANZA DE 95 %. i h ˆ Pr β ∈ β + / − V C95 % · σ ˆβˆ = 0.95

De forma análoga, al estimador de α se le puede construir también un intervalo con un nivel de confianza de 95 %: Pr [α ∈ (ˆ α + / − V C95 % · σ ˆαˆ )] = 0.95

En esta sección calculamos intervalos de 95 %. Al decidir la extensión de dicho intervalo, (95 %, 99 %, . . .), es imperativo ajustar los Valores Cr´ıticos correspondientes. También vale la pena recordar que todo esto lo hicimos usando la distribución de t de student; bien hubiera podido hacerse con el resultado asintótico de Normalidad.

2.8.3. La prueba de significancia conjunta de la regresión Una parte importante del quehacer econométrico radica en el análisis del valor de los parámetros y su interpretación económica. El hecho es que, para tales acciones, existe una manera relativamente sencilla de proceder: la prueba de Fisher. La distribución F fue encontrada o derivada, como su nombre lo indica, por Fisher en los albores del siglo XX. Su forma se deriva de una transformación de variables normales, como se indica en las siguientes definiciones:

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

105

Definición 8 La suma de los cuadrados de T variables aleatorias iidN (0, 1) se distribuye como una χ2T g.l. : Sea xt ∼ iidN (0, 1) para t = 1, 2, . . . , T , entonces, T X

x2t ∼ χ2T g.l.

x T1 z T2

∼ FT1 ,T2 g.l.

t=1

Definición 9 Sean x y z dos variables aleatorias independientes distribuidas ambas como χ2 con T1 y T2 grados de libertad respectivamente, entonces:

La comprensión del funcionamiento de la prueba de Fisher, pasa por la correcta asimilación de la distribución χ2 . Suponga, como anteriormente que: xt ∼ iidN 0, σ 2 ,

donde la variable xt es, por cierto, una variable centrada. Entonces, al estandarizar, xt ∼ iidN (0, 1). σ Si eleváramos al cuadrado y sumáramos, obtendr´ıamos una variable distribuida χ2 : PT 2 t=1 xt ∼ χ2 2 σ Construyamos pues, una variable con distribución χ2 . Partimos del estimador de la varianza: P

x2t = σ ˆ2 T −1 X x2t = (T − 1)ˆ σ2

Multiplicamos de ambos lados por 1/σ 2 : 1 X 2 σ ˆ2 x = (T − 1) t σ2 σ2 X xt 2 σ ˆ2 = (T − 1) 2 σ {z } |σ [N (0,1)]2

∼ χ2T −1 g.l.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

106

Pero más importante es destacar que el lado derecho se distribuye como una χ2 :

(T − 1)

σ ˆ2 ∼ χ2T −1 g.l. 2 σ

(2.16)

¿Para qué sirve este resultado? Pues aún nos faltan algunos elementos para poder responder a esta pregunta (si bien es e´ ste el que usamos para mostrar la distribución de los estad´ısticos t anteriormente). Ahora suponga que tenemos dos procesos como el anterior; dos variables aleatorias independientes entre s´ı x, z, ambas N (0, σi2 ) para i = z, x. Del resultado obtenido, podemos deducir lo siguiente:

σ ˆx2 (T1 − 1) 2 ∼ χ2T1 −1 g.l. σx σ ˆ2 (T2 − 1) z2 ∼ χ2T2 −1 g.l. σz Teniendo dos χ2 y fundamentados en la definición (9) podemos construir una distribución F: h

i 2 (T1 − 1) σσˆx2 /(T1 − 1) x h i ∼ FT1 −1,T2 −1 σ ˆz2 (T2 − 1) σ2 /(T2 − 1) z

σ ˆx2 /σx2 ∼ FT1 −1,T2 −1 σ ˆz2 /σz2

Este resultado es, al menos potencialmente, muy interesante. Pero el hecho es que no lo podr´ıamos calcular, puesto que desconocemos las verdaderas varianzas de ambas variables. No obstante, podr´ıamos formular una hipótesis, la hipótesis nula de hecho, que estipulara que las varianzas de ambos procesos son iguales. Con ello estar´ıamos creando una prueba estad´ıstica de igualdad de varianzas entre dos procesos: ¿Qué pasa si σx2 = σz2 ?

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

107

σ ˆx2 /σx2 σ ˆx2 = σ ˆz2 /σx2 σ ˆz2 σ ˆx2 ∼ FT1 −1 g.l.,T2 −1 g.l. σ ˆz2

(2.17)

De ser cierta H0 , el2 cálculo resultado de dividir los estimadores de las varianzas de ambos procesos, σσˆˆx2 no sólo deber´ıa distribuirse como una F de Fisher, sino que z además deber´ıa ser cercano a la unidad. Es importante entender que si la hipótesis nula no es cierta, entonces la simplificación que hicimos en la ecuación (2.17) resultar´ıa errónea, por lo que nuestro estad´ıstico de prueba ya no se distribuir´ıa como F. Cabe destacar que la F se calcula por convención con el estimador de varianza mayor arriba y el menor abajo, de tal forma que el coeficiente quede siempre mayor a 1, mucho mayor si la hipótesis nula no es cierta.

0.7 0.6 0.5 0.4

Distribución F4,7,g.l.

0.3 0.2 0.1 0 0

1

2

3

4

5

6

7

8

9

Figura 2.13: Distribución de Fisher

Hasta aqu´ı, sabemos hacer ya una prueba de igualdad de varianzas, pero...¿para qué nos puede servir e´ sta? Pues ahora veremos como aplicarla a nuestro modelo de regresión estimado. Al derivar la R2 , partimos de la siguiente expresión: X

(yt − y¯)2 =

SCT =

X

(yt − yˆt )2 + SCE

+

X

(yˆt − y¯)2 SCR

108

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Dicha expresión nos puede servir para asignar los grados de libertad a cada suma cuadrática. Los elementos que aparecen en ella constituyen, en cada caso, un preludio de cálculo de varianza. 1. Al primero, SCT , resulta fácil asignarle los g.l. correspondientes; Para su elaboración se emplean las T observaciones de yt , por lo que hay T grados de libertad. No obstante, como empleamos en dicho cálculo un estimador de la media, se pierde uno. As´ı pues, al final sólo nos quedan T − 1 grados de libertad (ver demostración en la sección anterior). 2. Ya tenemos los grados de libertad del lado izquierdo de la expresión. Del lado derecho, en conjunto, debe haber el mismo número de g.l. Podemos empezar con el primer término de la expresión, SCE. e´ ste no es otra cosa más que la fórmula—incompleta—del estimador de la varianza; por lo mismo, ya sabemos cuantos grados de libertad tiene: T g.l. menos los dos que se pierden por haber estimado α y β. Nos quedan pues T − 2 grados de libertad. 3. En cuanto al tercer elemento, SCR, es dif´ıcil indagar cuales son sus grados de libertad directamente. No obstante, dado que tales grados deben ser iguales a la izquierda y a la derecha del signo de igualdad, sabemos que T − 1 = g.l.SCR + T − 2. As´ı, resolviendo tan sencilla expresión, descubrimos que SCR tiene 1 grado de libertad.

SCT = SCR + SCE T − 1 g.l. = 1 g.l. + T − 2 g.l. Ahora bien, para acercarnos más a la distribución F debemos encontrar, en primer lugar, variables que se distribuyan como χ2 . Empecemos con SCE, la Suma de Cuadrados del Error. Al estudiar la R2 anteriormente, hab´ıamos visto que: X SCE = uˆ2t

Dividiendo por los grados de libertad... P 2 SCE uˆt = T −2 T −2 = σ ˆ2

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

109

Manipulando un poco más, SCE = σ ˆ 2 · (T − 2) SCE σ ˆ2 = (T − 2) σ2 σ2 Y por lo que demostramos en la sección anterior: SCE ∼ χ2T −2, g.l. 2 σ Ya tenemos nuestra primera χ2 . Nada más falta la otra. Veamos ahora SCR, la Suma de Cuadrados de la Regresión. Recordemos la ecuaci´ Pon (2.15); con base en ella, podemos aprovecharnos del hecho que SCR = βˆ2 (xt − x¯)2 . Ahora bien, ¿qué representa esta ecuación? Calculemos su esperanza:31 Necesitaremos, para ello: P 1. βˆ = β + Kt ut P 2 2. Kt = P (x1−¯x)2 t

El segundo término, lo manipulamos un poco para hacer más evidente su uso en las operaciones ulteriores: X

1 (xt − x¯)2 = P 2 Kt Ahora s´ı, retomando la expresión cuya esperanza queremos calcular y reemplazando sus elementos por lo arriba explicitado: βˆ2

X

(xt − x¯)2 =

Desarrollándolo:

β+

X

K t ut

2

2 1 X β+ K t ut P 2 Kt

P P β2 2β Kt ut [ Kt ut ]2 1 P 2 = P 2+ P 2 + P 2 Kt Kt Kt Kt

Ahora s´ı, apliquemos el operador esperanza a cada uno de los tres términos que aparecen. 31

Cortes´ıa de Adriana del Roc´ıo Montelongo Jaime.

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

110 2

1. En PβK 2 sólo aparecen el parámetro verdadero y las Xs que son no estocástit cas, por lo que todo sale del operador esperanza: β2 β2 E P 2 =P 2 Kt Kt

2. En el segundo término, pasa igual, con la excepción de ut cuya esperanza es nula, por lo que:

P P 2β Kt E (ut ) 2β Kt ut P 2 P 2 = Kt Kt = 0

3. El tercer elemento requiere más trabajo. Primero, hay que sacar a lo no estocástico del operador esperanza: "P # X 2 [ K t ut ] 2 1 P 2 E = P 2E K t ut Kt Kt

La esperanza sobrante, la podemos desarrollar: E

X

K t ut

2

= E K12 u21 + K22 u22 + . . . + KT2 u2T + T e´rminos Cruzados

Usando el supuesto de Homoscedasticidad as´ı como el de No-autocorrelación, vemos que:

E

X

K t ut

2

= E K12 σ 2 + K22 σ 2 + . . . + KT2 σ 2 X Kt2 = σ2

Ya podemos reagruparlos. De hecho, nos queda la siguiente expresión:

´ 2.8. ANALISIS DE VARIANZA Y BONDAD DE AJUSTE

E βˆ2

111

X X β2 1 2 2 P P (xt − x¯) = Kt2 + σ 2 2 Kt Kt 2 β = P 2 + σ2 K Xt 2 (xt − x¯)2 + σ 2 = β

Lo sorprendente es que esta u´ ltima expresión no es otra cosa sino un estimador— sesgado, eso s´ı—de la varianza. Supongamos ahora que el parámetro β es igual a cero; eso nos coloca bajo lo que denominaremos la hipótesis nula de esta prueba. Si dicho parámetro es cero, entonces: X E βˆ2 (xt − x¯)2 = σ 2 ,

lo que convierte a la expresión en un estimador I NSESGADO , D ISTINTO E I NDE ´ ;32 PENDIENTE DEL OTRO E STIMADOR DE L A VARIANZA DE LA R EGRESI ON lo denominaremos, para distinguirlo del clásico, σ â2 . Si a la expresión la multiplicamos por sus grados de libertad (que son iguales a 1) y la dividimos por la verdadera varianza, obtenemos: X 2 (xt − x¯) = σ â2 1 X σ ˆ2 (xt − x¯)2 · 2 = a2 · 1 βˆ2 σ σ

βˆ2

Ya sabemos, como en el caso anterior, que eso tiene una distribución χ2 :

βˆ2

X

1 (xt − x¯)2 · 2 ∼ χ21, g.l. σ

Ya sólo resta construir nuestra distribución F. Es importante recordar que la segunda χ2 sólo es cierta bajo Ho : β = 0. Dividamos pues nuestras distribuciones χ2 , 32

Ver Teorema 6, 93.

112

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

no sin antes normalizarlas por sus grados de libertad, como señala la definición de la distribución F:33 (SCR/σ 2 ) /1 SCR = 2 (SCE/σ ) / (T − 2) SCE/ (T − 2) SCR = σ ˆ2 ∼ F1, T −2, g.l. ¿Todo esto de qué nos sirve?, ¿qué prueba estamos haciendo? La distribución F sólo se producirá si, en la χ2 del numerador la hipótesis nula es cierta. Dicho esto, podemos establecer ya formalmente la prueba: Ho : β = 0 Ha : β 6= 0 P SCR βˆ2 (xt − x¯)2 F = = ∼ F1, T −2 g.l. σ ˆ2 σ ˆ2 Resumiendo, y también abusando de la pobre lengua española, la prueba F nos dice qué tanto explicamos la variabilidad de la variable dependiente con nuestra regresión; puede ser vista como una prueba de pertinencia del modelo. Más adelante, este mismo enfoque nos servirá para diseñar pruebas más complejas, que involucren a más parámetros simultáneamente.

2.8.4. Análisis de Varianza o ANOVA Esta sección será muy corta. En realidad nos serviremos de todos los resultados anteriores para llenar una tabla en la que estudiamos a fondo nuestro modelo. A dicho cuadro se le denomina comúnmente ANOVA; sus componentes son los siguientes: Esta tabla, como ya dijimos resume gran parte de los desarrollos anteriores. Es importante tener claro todo lo que en ella aparece, pues eso nos permitirá leer prácticamente toda la información que aparece al correr una regresión en cualquier paquete estándar de econometr´ıa, como lo es el G RETL. 33

Al lector inquieto le habrá llamado la atención el orden en que se dispuso el quebrado. Se colocó SCR en el numerador y no en el denominador porque, en caso de ser falsa la hipótesis nula, e esto es siempre cierto? SCR > SCE T −2 . ¿Por qu´

´ 2.9. LA FALACIA DE LA REGRESION Fuente de Variación Regresión (SCR) No explicada (SCE)

Total SCT

113

Suma de Cuadrados, SC

grados de libertad, gl

P

(yˆt − y¯)2

k−1

P

(yt − y¯)2

P ˆ2 Ut

T −2 T −1

SC gl

P βˆ2 (xt − x¯)2 σ ˆ2

σ ˆy2

Cuadro 2.2: Análisis de Varianza (ANOVA). Entiéndase k como el número de parámetros en la especificación, inclu´ıda la constante.

2.9.

La Falacia de la regresión “N ON C AUSA P RO C AUSA”

La falacia de la regresión es el resultado de un fenómeno estad´ıstico conocido co´ A LA M EDIA”. Por “media” se entiende el promedio de alguna mo “R EGRESI ON variable en una población determinada. “Regresión” en este contexto indica la tendencia de los valores o realización de la variable a acercarse a la media, o tender hacia la media, alejándose de valores extremos. Por ende, regresión a la media indica la tendencia que tienen algunas variables a desplazarse hacia la media, alejándose de tales valores extremos.34 Algunos ejemplos reveladores pueden ser: ´ M AS ´ SOBRE LAS CALIFICACIONES : Recuerde a nuestro ilustre Ejemplo 4 A UN alumno, Equis Arriaga. Finalmente obtuvo todas sus calificaciones del 7o semestre. Descubrió que le hab´ıa ido especialmente mal (reprobó cuatro de siete materias y en las que aprobó lo hizo con calificación apenas aprobatoria de siete). Cuando fue a enterar a sus padres adoptivos, el Sr. Ye y la Señora Zeta de Ye, e´ stos lo reprendieron, le quitaron el coche y el dinero para el transporte público (que se desplazara a pie, para que meditara profundamente), le prohibieron ir a fiestas y le quitaron su “I-pod”. En octavo semestre, Equis obtuvo calificaciones muy parecidas a las que hab´ıa obtenido en los primeros 6 semestres (pasó 1 materia en extraordinario y las 34

Fuente: Tim van Gelder, Critical Reflections y Thomas Gilovich, How We Know What Isn’t So: The Fallibility of Human Reason in Everyday Life

114

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

demás las volvió a cursar, aprobándolas, en el peor de los casos, con 8, siendo su promedio general de 8.5). Los padres, al enterarse, se felicitaron mucho de haber impuesto un castigo tan ejemplar a su hijo, creyendo que fue e´ ste el que provocó la mejora de sus calificaciones. Si asumimos que las calificaciones obedecen a las leyes de la probabilidad, entonces habrá que advertir a tales padres que el castigo impuesto nada tuvo que ver con la mejor´ıa en las calificaciones. En realidad, lo que ocurrió fue que séptimo semestre fue un realización mala at´ıpica y ya después, por la consabida Regresión a la Media, todo volvió a la normalidad en el 8o semestre. La tendencia de la gente a ver relaciones entre sus acciones y supuestas reacciones es, en muchas ocasiones, resultado de la falacia de la regresión. Es importante tomar esto en cuenta antes de saltar a conclusiones precipitadamente. Ejemplo 5 C HARLATANES Y CURAS MILAGROSAS : Uno de los campos donde el fenómeno de la falacia de la regresión es más fértil, es en el de la enfermedad. ¿Quién no ha escuchado a personas jurar y perjurar que, estando grav´ısimos, acudieron a un medico brujo o a una terapia nada ortodoxa (ingesta de orina, intervención quirúrgica “ps´ıquica”-es decir, sin bistur´ı) y sintieron en consecuencia un gran alivio en sus s´ıntomas? La explicación a este fenómeno obedece nuevamente a la regresión a la media. Cuando las personas acuden a tales extremos (como ir a hacerse una limpia) suele coincidir con la etapa más cr´ıtica de la enfermedad. En dicha etapa, los s´ıntomas son más virulentos, y, en tiempos posteriores, se atenúan por su regresión a los s´ıntomas medios. La gente, al ver la atenuación, la atribuye injusta y erróneamente al curandero. Ejemplo 6 G ALTON Y LA ESTATURAS EN LA SOCIEDAD : El concepto de regresión a la media proviene de Galton, quien, en un estudio “descubrió” que los hijos de padres altos (chaparros) no lo eran tanto como dichos padres. Es decir que las generaciones más jóvenes tend´ıan a la media. A esto le llamó la regresión a la mediocridad.

2.10.

Problemas de la Econometr´ıa

2.10.1. El problema de la agregación Una cuestión espinosa en econometr´ıa es la de la agregación. Generalmente, en los modelos económicos se trabaja usando un agente representativo de vida infinita. Lo anterior se hace debido a obvias cuestiones de simplificación y a que se puede interpretar la vida infinita como una dinast´ıa (una familia cuyos miembros muertos

´ 2.10. PROBLEMAS DE LA ECONOMETRIA

115

se van sustituyendo por otros que nacen). Tal estrategia ha resultado adecuada para poder llevar a cabo un análisis u´ til de la dinámica económica; no obstante, como ya lo hab´ıamos señalado desde el principio del curso, tarde o temprano es necesario cotejar lo dicho por la teor´ıa con los datos recolectados en la práctica. La econometr´ıa es un veh´ıculo para llevar a cabo tal escrutinio de la teor´ıa, pero...¿Qué tan fácil es hacerlo? Las técnicas son, en parte, las que hemos estado estudiando a lo largo del curso, y si bien no son elementales, su dominio tampoco resulta tan dif´ıcil. El problema que aqu´ı desarrollamos estriba en los datos. Hasta ahora los ejemplos que hemos puesto los hemos llevado a la práctica mediante ecuaciones macroeconómicas cuyas variables son agregadas. Imaginemos por ejemplo una sencilla función de consumo elaborada por un economista algo pasado de moda... Cit = αi + βi · yit + uit La razón del doble sub´ındice obedece a la inspiración microeconómica de la ecuación. Se trata del consumo del individuo i en el tiempo t; e´ ste tiene su propio “Consumo M´ınimo” as´ı como su propia Propensión Marginal a Consumir. Cuando le muestra a su colega econometrista la función que inventó y le pide que se cerciore de su validez mediante una estimación, empiezan los problemas. El econometrista tiene en mente estimar Ct = α + βyt + ut ; se dirigirá rápidamente a la página de internet del servicio de información estad´ıstica y descargará los datos de consumo e ingreso de la econom´ıa que le interese. Quizá ni se detenga a pensar que los datos que ha obtenido corresponden a variables macroeconómicas o agregadas. No tiene el consumo de un individuo en el tiempo t, sino la suma de los consumos de todas las personas en el tiempo t. Lo mismo ocurre con el ingreso. Lo grave del asunto es que, para pasar del individuo a la sociedad en su conjunto sin que la ecuación del economista pierda validez, es necesario incluir más supuestos que no resultan fáciles de digerir. Si sumamos los datos para tener la versión agregada de las variables, I X

def

Cit = Ct

i=1

donde I es el números de individuos que componen a la sociedad... aprovechando la especificación, podemos ver que pasa del lado derecho de la expresión:

Ct =

I X i=1

αi +

I X i=1

βi yit +

I X i=1

uit

116

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Esta expresión no se parece tanto a la que el econometrista pensaba estimar; para que s´ı sea parecida, tendrá que asumir, impl´ıcitamente lo siguiente: 1. αi = α ∀ i = 1, 2, . . . , I 2. βi = β ∀ i = 1, 2, . . . , I Expresado en palabras más sencillas, el econometrista asumirá impl´ıcitamente (y a veces sin pensarlo) que todos los individuos tienen un consumo m´ınimo (supuesto no tan descabellado) as´ı como una misma propensión marginal a consumir , lo que resulta más dif´ıcil de sostener. ¿Es grave este problema? En realidad depende del escenario. En algunos casos, los supuestos adicionales requeridos para llevar a cabo la estimación son razonables, pero en todo caso merman la capacidad de validación que tiene la econometr´ıa. Aclaramos que esto ocurre en TODAS LAS DISCIPLINAS CIENT Í FICAS ; los instrumentos de medici´ on usados para verificar teor´ıas en biolog´ıa, f´ısica, qu´ımica,etc... son a su vez productos derivados de alguna teor´ıa que, como siempre, usa axiomas—por definición no demostrables. Si el resultado de la medición no es favorable a la teor´ıa postulada, siempre se le puede echar la culpa a los instrumentos de medición. Claro está, en algún momento hay que ser razonables y aceptar que una teor´ıa no sirve, pero lo dif´ıcil es saber distinguir ese momento. El economista siempre podrá argüir que la técnica econométrica es la causante del fallo de la evidencia, pero si los intentos por apoyar su idea recaen reiteradamente en fracasos, tendrá que regresar y pensarle más a su teor´ıa. En todo caso, el problema concreto aqu´ı señalado ha encontrado una solución fantástica gracias al advenimiento de la tecnolog´ıa. Hoy en d´ıa es posible encontrar datos desagregados hasta el nivel individual. Se emplea entonces una serie de técnicas econométricas particularizadas para la naturaleza de estos datos: estamos hablando de microeconometr´ıa y para fortuna de ustedes, la podrán estudiar en la parte más avanzada del curso.

´ 2.10.2. Una intuición sobre el ultimo supuesto: estacionariedad Poco hemos hablado hasta ahora del u´ ltimo supuesto, el de estacionariedad. El hecho es que, en series temporales, es decir, en series en las que se tiene una observación particular del proceso en cada momento del tiempo, la no-estacionariedad resulta muy frecuente. Primero, recordemos en que consiste dicho supuesto:

´ 2.10. PROBLEMAS DE LA ECONOMETRIA

117

´ E STACIONARIEDAD ( D EBIL ): Las variables no tienen un componente de tendencia estocástico ni determinista: E (yt ) = µ para todo t E (yt − µ) (yt−j − µ) = γj para todo t y cualquier j Si leemos con cuidado las expresiones de arriba, podremos ver que la estacionariedad débil básicamente estipula que una serie siempre tiene la misma media, ya sea que se tomen los datos del principio de la muestra, los de en medio o los del final. Lo mismo ocurre con la varianza (tómese el sub´ındice j = 0); e´ sta no debe depender del tiempo. Pero es fácil imaginar casos en los que esto no ocurre en econom´ıa. Suponga que usted quiere estimar una especificación en la que la variable riqueza esté involucrada. tiene datos de dicha riqueza por habitante desde 1900 hasta el 2000. Vea dicha variable en el siguiente gráfico:

PIB per cápita en México

Dólares PPC base 1970

1400

Y = 253. − 0.232t + 0.114t^2

1200 1000 800 600 400 200 1900

1920

1940

1960

1980

2000

Año

Figura 2.14: PIB per cápita en México, 1900-2000. Fuente: The Montevideo-Oxford Latin American Economic History Database (http://oxlad.qeh.ox.ac.uk).

Notará cuan obvio es que la esperanza de dicho proceso no es la misma a lo largo del tiempo. Esa serie no respeta lo establecido en la definición de estacionariedad débil; no es, por tanto, una variable estacionaria. Nuevamente, los detalles respecto

118

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

a las consecuencias de este problema se verán en Análisis de Series de Tiempo, pero es importante retener que si las series con las que queremos trabajar tienen una naturaleza parecida a la que inventamos ahora, T ODA LA E CONOMETR Í A ´ C L ASICA N O S IRVE. La solución al problema, ¡porque la hay!, también se estudia en series de tiempo. En la segunda parte este manual se aborda, no obstante, con un poco más de detalle esta cuestión (vea la página 371).

2.10.3. Algunas observaciones al respecto La intención al mostrarles estos dos problemas ya clásicos en econometr´ıa es motivarlos a profundizar sus conocimientos en la materia. El hecho es que, antes de acceder a las técnicas más avanzadas de la disciplina, es necesario conocer y entender las básicas. No se puede correr antes de aprender a caminar. La econometr´ıa es un método emp´ırico importante en econom´ıa. Todo aquel que desee llevar sus conocimientos a la práctica deberá sopesar seriamente la posibilidad de estudiar mucha econometr´ıa.

2.11.

Formas funcionales y especificación

Nuestra atención ha sido puesta hasta ahora en las propiedades del modelo de regresión y en algunos métodos de inferencia estad´ıstica que de e´ l se derivan. Dicha información nos puede parecer un tanto a´ rida, pero resulta fundamental si queremos ser capaces de examinar con pericia nuestras estimaciones. El objetivo es formar un criterio verdaderamente informado y no sólo a un usuario cuya u´ nica virtud sea saber apretar botones. Vamos a darnos un pequeño respiro e introducirnos más en el terreno de la econometr´ıa aplicada. Hemos hecho un uso extensivo—y quizá podr´ıamos decir abusivo—del primer supuesto. e´ ste nos señala que si queremos que todo salga bien, es imprescindible que la especificación sea correcta. Es ya de por s´ı dif´ıcil saber cuales son las variables pertinentes al momento de diseñar nuestra especificación, pero si a eso le agregamos el—muy restrictivo—supuesto de linealidad, entonces nuestro campo de acción queda verdaderamente restringido. Pocos fenómenos en la naturaleza son lineales.35 ¿Qué hacer con nuestro pobre modelo lineal?,36 ¿qué nos asegura que la relación entre x y y es lineal?, ¿Qué pasa si eso no es cierto? Algunas situaciones son franqueables; es posible seguir respetando 35

La naturaleza incluye, claro está, a los fenómenos socio-económicos. No obstante, es importante señalar que muchos de los fenómenos de interés s´ı que pueden aproximarse adecuadamente con especificaciones lineales; no se trata tampoco de un caso perdido. 36

´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION

119

nuestro primer supuesto mientras los parámetros permanezcan lineales, aún si las variables y y x ya no lo son. Otra solución es utilizar métodos de estimación NoLineales; pero esa solución la estudiaremos más tarde. En esta sección hablaremos mejor de algunos trucos de que disponen los econometristas para tratar fenómenos que se resisten a MCO por su no-linealidad. Concretamente, hablaremos de cuatro modelos distintos: 1. El modelo Log-Log 2. El modelo Log-Lin 3. El modelo Lin-Log 4. El modelo Rec´ıproco

2.11.1. El Modelo Log-Log Los logaritmos constituyen una herramienta matemática muy frecuentemente utilizada en ciencias aplicadas; la econom´ıa no es la excepción. De hecho, ya para cuestiones econométricas, su cercan´ıa con el important´ısimo concepto de elasticidad, hace de las especificaciones logar´ıtmicas, un arma muy usada en este campo. Considérese ahora la siguiente especificación, yt = αo xβt exp (ut ) Bajo esta forma, no es posible usar MCO. Mas si le aplicamos logaritmos:

ln (yt ) = ln(αo ) + β ln (xt ) + ut ln (yt ) = α + β ln (xt ) + ut donde α = ln (αo ) es una simple reparametrización. Obtenemos una nueva especificación, que es lineal en los parámetros (pero no en las variables, por cierto) y por ende puede ser estimada por MCO. La popularidad de esta transformación se debe a que, al llevarla a cabo, el parámetro estimado, βˆ se convierte automáticamente en un estimador de la elasticidad de la variable y con respecto a la variable x. Vale la pena recordar como se calcula una elasticidad: ξy/x =

∂y x ∂x y

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

120

Pero nosotros transformamos los datos al aplicarles el logaritmo; podr´ıamos intentar sacar la derivada con lo que tenemos:37 ∂ln y ∂(α + βln x) β = = ∂x ∂x x Si usamos una regla de la cadena, podr´ıamos desarrollar de forma distinta a esta derivada: ∂ln y ∂ln y ∂y = ∂x ∂y ∂x 1 ∂y = y ∂x Igualando con el resultado anterior... 1 ∂y β = y ∂x x ... y reacomodándo los términos, obtenemos: ∂y x ∂x y ≡ ξy/x

β =

Queda claro as´ı que β es la elasticidad de y/x y que por ende βˆ se convierte en un estimador de dicha elasticidad. e´ sta es asumida constante a lo largo de toda la muestra.38 ¿Cómo podr´ıamos identificar esta especificación? Si bien hay métodos más sofisticados, se sugieren dos muy fáciles de poner en obra: 1. Visualmente, a través de diagramas de dispersión 2. Cuantitativamente, mediante comparación de medidas de bondad del ajuste, como la R2 37

En esta sección aplicamos la técnica de diferenciación logar´ıtmica, misma que resulta muy cómoda cuando la expresión a derivar es complicada. 38 Lo anterior puede, de hecho, constituir un problema

´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION

121

2.11.2. El Modelo Log-Lin Es posible que la transformación adecuada para hacer lineal la relación entre las variables no incluya a todas las variables. Ante esta eventualidad, nace la idea de sólo transformar una de las series. Empezaremos transformando u´ nicamente a la variable dependiente—modelo log-lin. Teniendo en cuenta lo visto en la sección anterior, resulta muy fácil intuir la forma del modelo Log-lin. Su justificación obedecer´ıa a especificaciones de la forma: yt = exp (α + βxt + ut ) Resulta obvio que, al aplicar logaritmos a esta u´ ltima, obtenemos: ln (yt ) = α + βxt + ut Una vez más, intentemos extraer de esta especificación una fórmula para la elasticidad entre y y x. Empecemos con la derivada: ∂ln yt =β ∂xt Y completemos con la regla de la cadena: ∂ln y ∂ln y ∂y = ∂x ∂y ∂x 1 ∂y = y ∂x Al igualarlo con el resultado anterior, obtenemos 1 ∂yt =β y ∂xt Dicha expresión, no corresponde aún a la fórmula de la elasticidad; para ello, habr´ıa que multiplicar por x. Se nos presentan dos opciones: 1. Multiplicar por xt :

xt ∂yt = xt · β y ∂xt xt · β ≡ ξy/x

122

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION En este caso obtendr´ıamos una elasticidad que se va modificando conforme la variable x evoluciona.

2. Multiplicar por x¯:

x¯ ∂yt = x¯ · β y ∂xt x¯ · β ≡ ξy/x Con ello obtendr´ıamos un “promedio” para todo el per´ıodo de la elasticidad. xt ∂yt yt ∂xt Podemos encontrar una elasticidad para cada observación. βxt =

ˆ t ǫˆyt /xt = βx

2.11.3. El Modelo Lin-Log ´ se derivar´ıa de un modelo de la La transformación opuesta también es factible. Esta siguiente naturaleza: exp (yt ) = α0 × β0 exp (ln xt ) × exp (ut ) ln exp (yt ) = ln [α0 × β0 exp (ln xt ) × exp (ut )] yt = ln α0 + ln β0 ln xt + ut | {z } |{z} α

β

= α + β ln xt + ut

Se calcula, otra vez, la derivada y se iguala con el resultado de aplicar la regla de la cadena y se obtiene: x·

∂yt =β ∂xt

En esta ocasión, para obtener la elasticidad, hay que multiplicar, ya sea por y1t o bien por y1¯ según se desee una elasticidad cambiante o en promedio, respectivamente.

´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION

ξˆy/x =

(

βˆ yt βˆ y¯

123

V ariante P romedio

2.11.4. El Modelo Rec´ıproco El modelo rec´ıproco, como su nombre lo indica, se especifica de la siguiente manera: 1 + ut xt Si bien la relación entre las variables x y y no es lineal, el modelo que las une s´ı lo es y por consiguiente, se vuelve susceptible de ser estimado por MCO. Una caracter´ıstica importante de este modelo es que, conforme la variable independiente aumente, el término β x1t tenderá a cero. Lo anterior implica que, para valores sua ficientemente grandes39 de xt , yt = α. La utilidad de este tipo de especificación quizá no sea evidente, no obstante, no resulta muy dif´ıcil pensar en relaciones de variables que funcionen as´ı. Un extraordinario ejemplo de tal tipo de relación puede encontrarse en la relación que parecen guardar el PIB per cápita por un lado y la esperanza de vida (lo mismo pordr´ıa decirse si sustituimos esta u´ ltima variable por mortalidad infantil, tasa de fertilidad, número de teléfono por cada 100 habitantes. . . ).40 Desarrollemos un ejemplo sencillo para ver esta relación. aprovecharemos dicho ejemplo para hablar un poco más de la cuestión relativa a la modelización econométrica: Esperanza de vida e Ingreso per cápita (Datos de 2007).41 Retomemos nuestro ejemplo (visto al principio) referente a la relación entre ingreso per cápita y esperanza de vida. Obtuvimos evidencia gráfica de tal relación. Recordamos asimismo que no se ha mencionado la palabra “C AUSALIDAD ”, sino simplemente ´ ”. Nuestro diagrama de dispersión era: “R ELACI ON yt = α + β ×

Note como la tendencia positiva en la relación es ahora más obvia. También resulta mucho más obvio que la l´ınea es incapaz de pasar por todos los puntos (dejar´ıa de 39

Hacemos caso omiso del término de error por un momento. Otro ejemplo t´ıpico de relaciones inversas puede encontrarse en la literatura de relativa a la Curva de Phillips. 41 Medida en Paridad Poder de Compra, PPC. 40

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

Esperanza de Vida (medida en años)

124 85

80

75

70

65

60

10,000

20,000 30,000 Ingreso per cápita (medido en Dólares PPP)

40,000

50,000

Figura 2.15: Ingreso per cápita y esperanza de vida en 220 pa´ıses (excepto algunos en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook. ser una l´ınea, claro está). Esto resulta de que nuestro análisis es, muy probablemente, incompleto. La educación y el presupuesto de cada gobierno destinado a salud podr´ıan ser otras dos variables de suma importancia que valdr´ıa la pena considerar. No obstante, aún incorporándolas el ajuste no ser´ıa perfecto, ni mucho menos. Las causas que explican la esperanza de vida son, si bien no infinitas, s´ı muchas. No podemos esperar incorporarlas todas. Además, no todas son tan importantes; la incidencia de algunas de ellas es marginal. Podr´ıamos tratar de encontrar un equilibrio en el que el grueso del comportamiento de la esperanza de vida esté: explicado con relativamente pocas variables (3 o´ 4)y que lo que falte incida poco: ligeras desviaciones de la recta, unas “arriba” otras “abajo”, de manera balanceada; todas a “más o menos la misma distancia de dicha recta”; errores sin ningún patrón particular. Estas tres caracter´ısticas son, de hecho, objeto de mucho estudio. Sus nombres técnicos ya los conocemos, de hecho; son: (i) Correcta especificación del modelo; (ii)

´ 2.11. FORMAS FUNCIONALES Y ESPECIFICACION

125

Esperanza nula del término de error; (iii) Homoscedasticidad, e; (iv) independencia. yt = α + βxt + ut El hecho es que con datos disponibles obtenemos lo siguiente: ˆ t + uˆt yt = α ˆ + βx Los resultados numéricos de dicha estimación son: yt = 62.78 + 0.0004xt Note que no se incluye el término de error, dado que hay uno distinto para cada observación y no es relevante indicar alguno en particular. ¿Qué nos dice esta ecuación? Pues básicamente que, cuando el ingreso es muy bajo, la esperanza de vida ser´ıa de aproximadamente 63 años. De igual forma, por cada dólar adicional que se obtenga de ingreso, la esperanza de vida aumenta en 0.0004 años, es decir: 3 horas con 30 minutos. Ello permite inferencia muy interesante: Si el ingreso de México aumentara de 12, 500 dólares a 15, 000, podr´ıamos esperar que la esperanza de vida creciera en un año, para situarse en 76.63 años. Todo este análisis, si bien es sencillo, parece adecuado. Pero tiene deficiencias obvias. As´ı como está planteado el modelo, existen implicaciones completamente inveros´ımiles. Por ejemplo, un pa´ıs con un ingreso per cápita de 150, 000 dólares deber´ıa tener una esperanza de vida cercana a... ¡122.78 años! Resulta obvio que, al menos actualmente, un pa´ıs no puede esperar que su población sea tan longeva. El aumento del ingreso per cápita no puede tener siempre el mismo efecto sobre la edad esperada. Al contrario: entre más rica sea una población, un aumento de su ingreso incidirá cada vez menos sobre su esperanza de vida: a esto le podr´ıamos llamar: “R ENDIMIENTOS D ECRECIENTES M ARGINALES ” Podr´ıamos tratar de arreglar eso ¿Qué les parece la siguiente especificación? yt = α + β

1 + ut xt

Supongan que β < 0. Cuando aumenta el ingreso, x1t disminuye; al multiplicarlo por nuestro parámetro negativo, la resta se har´ıa más chica. Si lo estimamos as´ı, obtendr´ıamos, de hecho:

´ LINEAL SIMPLE ´ CAPITULO 2. EL MODELO DE REGRESION

126

1 xt Esto nos da resultados más lógicos. Por ejemplo, según nuestro modelo, un pa´ıs como México deber´ıa tener una esperanza de vida cercana a 72.6 años, mientras que un pa´ıs con un ingreso muy alto no podr´ıa esperar a tener una esperanza de vida mayor a 74 años. Evidentemente este modelo también tiene limitaciones; hay muchos pa´ıses con esperanzas superiores a esos 74 años; no obstante, es posible que esos años adicionales no provengan de un alto ingreso, sino más bien de otras cuestiones, tales como el sistema de salud, la condición de equidad de género, la educación, etc... He aqu´ı otro ejemplo sencillo de relación inversa. Se trata de Argentina, con datos de 1989 al año 2000.42 yt = 73.92 − 16, 400

−2

−2.5

−3

−3.5 0.22

0.23

0.24

0.25

0.26

0.27

0.28

0.29

0.3

0.31

0.32

Figura 2.16: Tasa de analfabetismo vs PIB per cápita (invertido) en Argentina. Note que es posible hacer combinaciones del modelo inverso con las especificaciones logar´ıtmicas. Lo anterior da pie a relaciones—entre variables—en extremo no-lineales, pero susceptibles de ser modeladas mediante MCO.

42

Fuente: Oxford Latin American Economic History Database.

Cap´ıtulo 3 ´ El Modelo de Regresión Multiple La primera parte del curso ha sido desarrollada mediante un modelo de regresión con una sola variable explicativa. Este u´ ltimo permite presentar los resultados más importantes en un marco sumamente sencillo. Tenemos una idea clara de las propiedades del método de estimación, as´ı como de sus caracter´ısticas y sus ventajas y del uso que le podemos dar. No obstante, resulta evidente que las especificaciones susceptibles de ser u´ tiles en econom´ıa aplicada rara vez son tan sencillas. A partir de aqu´ı iniciaremos la generalización de MCO al permitir más variables explicativas. As´ı podremos usar MCO para estimar relaciones más complejas y/o especificaciones más sofisticadas. Conviene aclarar desde un principio que T ODOS los resultados antes vistos siguen siendo válidos en el modelo general.

3.1.

´ La especificación del modelo de regresión multiple

Cuando se presentó el modelo con una sola variable explicativa quizá se pudo vislumbrar que hacer lo mismo en un modelo más grande ser´ıa, si bien no más complicado, s´ı exageradamente más tedioso de resolver. Por eso, habremos de continuar nuestros desarrollos cambiando la notación, de tal suerte que todo quede expresado en términos de matrices. Como veremos paulatinamente, ello facilita enormemente algunas operaciones. Sea el modelo de regresión múltiple: yt = β1 + β2 x2t + β3 x3t + ... + βK xKt + ut Donde, como siempre: 127

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

128

1. yt es la variable explicada. 2. β1 es el intercepto u ordenada en el origen. 3. xit son variables explicativas, ∀ i = 1, 2, 3, . . . , K. 4. βi son los parámetros asociados a tales variables, ∀ i = 2, 3, 4, . . . , K. 5. ut es el término de error. Los supuestos también son los mismos; no obstante, uno de ellos requiere una aclaración adicional, una cláusula técnica adicional: ´ :La relación entre las variables explicativas, 1. C ORRECTA E SPECIFICACI ON Xs, y la dependiente, Y , es lineal y está dada por la especificación. ´ , NO EXIS 2. O RTOGONALIDAD :Las x son variables no-estocásticas.1 A DEM AS ´ ´ ´ TE UNA R ELACI ON L INEAL ENTRE D OS O M AS VARIABLES E XPLICATI VAS ..2 3. La esperanza del término de error es nula.3 4. H OMOSCEDASTICIDAD :El término de error tiene varianza constante. ´ :Los errores son independientes entre s´ı. 5. N O - AUTOCORRELACI ON 6. N ORMALIDAD :El término de error está distribuido Normalmente. 7. E STACIONARIEDAD :Todas las variables son estacionarias. La obtención de los parámetros requiere el mismo proceder que antes, a saber, minimizar la suma de residuales al cuadrado.4 uˆt = yt − βˆ1 − βˆ2 x2t − . . . − βˆKt xKt 2 X X uˆ2 = yt − βˆ1 − βˆ2 x2t − . . . − βˆKt xKt t

1

Sobre este supuesto aplica la misma advertencia que en el modelo univariado; se trata de una versión didáctica del supuesto Cov(xt , ut ) = 0. 2 Esta es la cláusula técnica referida anteriormente. No se trata propiamente de un supuesto, sino de una caracter´ıstica que deben poseer las variables explicativas. 3 De ello se deriva que: E(X ′ U ) = X ′ E(U ) = 0. 4 Todas las sumatorias van desde 1 hasta T excepto si se indica lo contrario.

´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 129 Tendr´ıamos que calcular K derivadas5 y resolver, en consecuencia, un sistema con K incógnitas. Lo anterior, hecho con esta notación “escalar” resultar´ıa muy tedioso, y francamente dif´ıcil si el número de parámetros, K, es muy grande. De ah´ı la conveniencia de pasar todo a notación matricial.6

y1 = β1 1 + β2 x21 + . . . + βK xK1 + u1 y2 = β1 1 + β2 x22 + . . . + βK xK2 + u2 y3 = β1 1 + β2 x23 + . . . + βK xK3 + u3 .. . yT = β1 1 + β2 x2T + . . . + βK xKT + uT Usando notación matricial, esto se ver´ıa as´ı: Y = Xβ + U Donde: 

 y1  y2    Y =  ..  1. La variable explicada |{z} . T ×1

yT



1 x12 1 x22  2. Las variables explicativas |{z} X =  .. .. . . T ×K 1 xT 2 

 β1  β2    3. Los parámetros β =  ..  |{z}  .  K×1

5 6

 . . . x1K . . . x2K   ..  ... .  . . . xT K

βK

Una con respecto a cada parámetro, incluyendo la constante. Note que x1t es un vector-columna de T × 1; eso autoriza la presencia de una constante.

130

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION 

 u1  u2    4. El término de error |{z} U =  ..   .  T ×1

uT

3.1.1. Reglas del cálculo matricial y la manipulación de matrices Si bien esto no pretende ser un formulario exhaustivo respecto a las operaciones matriciales, ni mucho menos, s´ı mostraremos aquellas cuya utilización será frecuente en las próximas páginas: 1. Matrices traspuestas: sean A, B, y C tres matrices o vectores tales que el siguiente cálculo sea posible: (A − BC)′ = A′ − C ′ B ′ 2. Sumas cuadráticas: sea D un vector T × 1; si queremos la suma de los elementos de D al cuadrado, debemos premultiplicarlo por la traspuesta:   D1   D2   D′ D = D1 D2 . . DT ×  ..  Lo anterior equivale a:  .  DT X D12 + D22 + ... + DT2 = Dt2

3. Cálculo infinitesimal: sea X una matriz (T × K), A un vector (K × 1) y Y un vector (T × 1), entonces: ∂A′ X ′ Y = X ′Y ∂A ∂A′ X ′ XA = 2X ′ XA ∂A

4. Matrices inversas: la matriz (X ′ X)−1 existe si y sólo si X ′ X es una matriz cuadrada definida positiva: X ′ X tiene rango completo—en nuestro caso es K 7 —y su determinante es distinto de cero. 7

Todas las columnas y todos los renglones son linealmente independientes entre s´ı. Lo anterior se verá con más detalle en la sección dedicada al problema de multicolinealidad.

´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 131

3.1.2. Optimización Ahora s´ı, volviendo a nuestro problema de minimización de cuadrados, es necesario definir la suma de los errores:

U = Y − Xβ U U = (Y − Xβ)′ (Y − Xβ) ′

Teniendo ya la suma del término de error al cuadrado definida, podemos proceder a su minimización. Derivemos partiendo de la expresión que vamos a estimar:

Y = X βˆ + Uˆ Uˆ = Y − X βˆ ′ Uˆ ′ Uˆ = Y − X βˆ Y − X βˆ

′ = Y Y − Y ′ X βˆ − βˆ′ X ′ Y + βˆ′ X ′ X βˆ |{z} | {z } | {z } | {z } 1×1

1×1

ˆ′

1×1

′

ˆ′

1×1

= Y Y − 2β X Y + β X X βˆ ′

′

ˆ ′ Y .8 Ahora ya podemos optimiEn el u´ ltimo paso, asumimos que Y ′ X βˆ = βX zar: basta con utilizar las reglas antes explicitadas para obtener nuestras derivadas parciales:

∂ Uˆ ′ Uˆ ∂ βˆ

=

′ ′ ′ ′ ˆ ˆ ˆ ∂ Y Y − 2β X Y + β X X β ′

∂ βˆ = −2X ′ Y + 2X ′ X βˆ

Ya sólo falta igualar a cero (as´ı, nos deshacemos del 2, que podemos factorizar): 8

Cortes´ıa de Laura Gasca Tovar: tanto Y ′ Xβ como β ′ X ′ Y son escalares, por lo que se infie′ re que estamos lidiando con “matrices” de 1 × 1. Observamos también que (Y ′ Xβ) = β ′ X ′ Y ; as´ı pues, una expresión es la traspuesta de la otra. Sabiendo que se trata de un escalar (simétrico por definición), resulta obvio que arrojan lo mismo.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

132

−X ′ Y + X ′ X βˆ = 0 (X ′ X)βˆ = X ′ Y βˆ = (X ′ X)−1 X ′ Y Esta u´ ltima fórmula es tan importante y recurrente, que bien vale la pena recordarla. Muchos estimadores, que estudiaremos posteriormente, están derivados de e´ sta. βˆ = (X ′ X)−1 X ′ Y

Un primer resultado, copia del que ya hab´ıamos inferido para el caso univariado, puede ser obtenido facilmente: X ′ Uˆ = = = = =

ˆ X ′ (Y − X β) X ′ Y − X ′ X βˆ X ′ Y − (X ′ X)(X ′ X)−1 X ′ Y X ′Y − X ′Y 0

Al igual que antes, el método de MCO hace de los residuales estimados una variable sin relación con las explicativas. Aqu´ı conviene recordar el segundo supuesto, el de ´ ortogonalidad. Este implica que el término de error debe ser independiente de las explicativas. Justamente, como MCO fuerza los residuales estimados a ser independientes con respecto a las variables explicativas, no es posible probar directamente si la especificación es la correcta.

3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza Esperanza de los residuales Utilizando la notación matricial, demostrar que los parámetros estimados son insesgados es sumamente fácil; tan solo requerimos dos expresiones, la especificación y la fórmula de los estimadores:

´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 133 1. Y = Xβ + U 2. βˆ = (X ′ X)−1 X ′ Y As´ı pues, tomando la segunda y reemplazando Y por la especificación:9 βˆ = (X ′ X)−1 X ′ (Xβ + U ) = (X ′ X)−1 X ′ Xβ + (X ′ X)−1 X ′ U = β + (X ′ X)−1 X ′ U Empleamos el operador esperanza... ˆ = β + (X ′ X)−1 X ′ E(U ) E(β) = β+0 ˆ E(β) = β Para calcular las varianzas de los estimados, se requiere un pequeño apartado: La Matriz de Varianza Covarianza de los residuales Obtener la matriz señalada en el t´ıtulo de esta subsección requiere, en primera instancia, saber cómo construirla. Como bien indica su nombre, en esta matriz deben aparecer las varianzas de todo ut para todo t = 1, 2, . . . T as´ı como todas las covarianzas posibles: 

9

  u1   u2      ′ E(U U ) = E  ..  × u1 u2 . . . uT   .   uT   u21 u1 u 2 . . . u 1 u T  u2 u 1 u21 . . . u2 uT    = E  .. .. ..  . .  . . . .  uT u1 uT u2 . . . u2T

Que asumimos correcta.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

134

Si aplicamos los supuestos Número Cuatro y Cinco, las esperanzas a calcular resultan obvias: 

σ2 0  0 σ2  E(Uˆ Uˆ ′ ) = E  .. .. . . 0 0

... ... ...

 0 0  ..  .

. . . σ2

= σ 2 IT

donde IT es una matriz identidad de dimensión T × T . La Varianza de los Estimadores Los dos apartados anteriores nos permiten obtener la varianza de los estimadores rápidamente. Del cálculo de la esperanza de e´ stos, retomamos βˆ = β+(X ′ X)−1 X ′ U . Manipulando... βˆ − β = (X ′ X)−1 X ′ U . Ahora bien, anteriormente hab´ıamos calculado las varianzas de α ˆ y de βˆ as´ı como la covarianza entre ambos. Ahora que tenemos K parámetros estimados, habrá K varianzas y... un gran número de covarianzas:10

K−1 X i=1

K − i = K × (K − 1) −

1 (K − 1)2 + K − 1 2

1 2 K +1−2·K +K −1 2 1 = K2 − K − K2 − K 2 1 = K2 − K 2 = K2 − K −

Nuevamente conviene dejarlas todas en una matriz: M ATRIZ DE VARIANZA -C OVARIANZA DE LOS E STIMADORES . PT El desarrollo de la suma i=1 i se debe a Carl Friedrich Gauss (1777-1855), quien la ‘presentó’ a los ocho años, a su maestro. Este u´ ltimo hab´ıa encargado sumar todos los números del uno al cien. 10

´ DEL MODELO DE REGRESION ´ MULTIPLE ´ 3.1. LA ESPECIFICACION 135

i h ˆ = E (βˆ − β)(βˆ − β)′ V ar(β) h i ˆ = E (X ′ X)−1 X ′ U (X ′ X)−1 X ′ U ′ V ar(β) = = = ˆ V ar(β) =

(X ′ X)−1 X ′ E(U U ′ )X(X ′ X)−1 (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 σ 2 (X ′ X)−1 (X ′ X)(X ′ X)−1 σ 2 (X ′ X)−1

¿Por qué la inversa de una matriz simétrica también es simétrica? En este apartado mostraremos que si una matriz—cuadrada—es igual a su traspuesta, A = A′ , entonces la inversa de dicha matriz también posee esa propiedad: A−1 = (A−1 )′ Para hacer más u´ til esta demostración, utilizaremos la matriz cuya inversa aparece recurrentemente; de hecho, vamos a mostrar primero que (X ′ X) siempre es simétrica y luego que su inversa también lo es. Lo primero es familiarizarse con la estructura de dicha matriz:

(X ′ X)

=

=

def

=



 ... 1 1 x12 . . . 1 x22 . . . . . . xT 2   1 x32 . . . . . . xT 3   ..  ...  ... .  1 ... . 1 xT 2 . . . x1K x2K . . xT K   P P T x . . . x 2t Kt P 2 P  P x2t x . . . x2t xKt  2t  P P P   x3t x x . . . x x 2t 3t 3t Kt     .. .. .. ...   . . . P P 2 P x2t xKt . . . xKt xKt

1  x12   x13  .  .  .

A

1 x22 x23 .. .

 x1K x2K   x3K   ..  .  xT K

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

136

Tan solo con ver como está conformada la matriz X ′ X, resulta fácil adivinar su simetr´ıa. La demostración, de hecho, es trivial. En primera instancia, definamos lo que se entiende por simetr´ıa. Una matriz—cuadrada—A es simétrica s´ı: A = A′ En el caso que nos interesa, X ′ X, veremos que la simetr´ıa se da “por construcción”. Recordemos que X es una matriz de T × K. Entonces, X ′ X será de K × K. Si la trasponemos... ′

= (X)′ × (X ′ ) = X′ × X ′ X ′ X = (X ′ X)

(X ′ X)

′

As´ı queda demostrada la simetr´ıa de la matriz X ′ X. Sabiéndolo, ahora podemos proceder a mostrar que la inversa también es simétrica. Como es sabido una matriz, multiplicada por su inversa, nos arroja una matriz identidad: A × A−1 = Ik

Si tomamos traspuestas de la expresión anterior: (A−1 )′ A′ = Ik

Pasando al elemento que está postmultiplicando del otro lado y recordando que la matriz A s´ı es simétrica... (A−1 )′ = (A′ )−1 (A−1 )′ = A−1 queda la simetr´ıa de dicha matriz demostrada.

3.2.

Teorema de Gauss-Markov

El estimador de MCO, βˆ = (X ′ X)−1 X ′ Y es MELI, es decir: M EJOR ESTIMA DOR L INEAL E I NSESGADO . Lo anterior quiere decir que la diferencia entre la ma triz de varianza-covarianza de los estimadores de MCO, var βˆ y la de cualquier otro estimador lineal e insesgado, var β˜ resultará en una matriz semi-definida positiva, que es, en notación matricial, el equivalente a una suma mayor o igual a cero en nuestra notación anterior.

3.2. TEOREMA DE GAUSS-MARKOV

137

3.2.1. Demostración ˜ Dado que β˜ debe ser un estimador lineal Imaginemos un estimador alternativo, β. e insesgado, también debe ser, como en el caso del estimador de MCO, una combinación de la variable Y : β˜ = AY Donde A es, como anteriormente, una matriz compuesta de elementos no-estocásticos. Para poder hacer comparaciones con el estimador de MCO, debemos incorporar de alguna manera a e´ ste en la fórmula anterior. Lo más fácil, como siempre, es sumarlo y luego restarlo: i h −1 −1 β˜ = (X ′ X) X ′ Y + A − (X ′ X) X ′ Y | {z } C

′

−1

′

= (X X) X Y + CY h i −1 = (X ′ X) X ′ + C Y

(3.1)

Comentario 2 Resulta relevante constatar que los términos que aparecen en la parte derecha de la ecuación (3.1) son independientes entre s´ı: h

′

E (X X)

−1

′

′

X YY C

′

i

= E

h

′

β + (X X)

−1

′

′

XU Y C

Reemplazando Y por la especificación11 y desarrollando:

′

i

h −1 = E ββ ′ X ′ C ′ + βU ′ C ′ + (X ′ X) X ′ U β ′ X ′ C ′ + . . . i −1 ′ ′ ′ ′ . . . (X X) X U U C Más adelante se demuestra que CX = 0 (y que por tanto X ′ C ′ = 0); además, como que E(U ) = 0, podemos eliminar los términos que son cero y también los que de 11

´ . Impl´ıcitamente estamos haciendo uso del primer supuesto: C ORRECTA E SPECIFICACI ON

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

138

todas formas se ir´ıan al aplicar el operador esperanza. En realidad, no queda gran cosa: h

′

E (X X)

−1

′

′

X YY C

′

i

= (X ′ X)

−1

X ′ E (U U ′ ) C ′

= σ 2 (X ′ X)

−1

′ ′ |X{zC} =0

= 0

˜ (tengan en mente la ecuación Este resultado indica que nuestro nuevo estimador β, ˆ más un componente aleato3.1) no es otra cosa sino el estimador de MCO (β) rio, CY , no relacionado con e´ ste u´ ltimo. Lo anterior prácticamente demuestra el teorema de Gauss-Markov, dada una de sus implicaciones sobre la varianza del estimador: cualquier estimador lineal e insesgado es igual al de MCO más un ‘elemento’ cuya esperanza evidentemente es cero (si no, no podr´ıa ser insesgado) pero no as´ı su varianza (y es lo que lo hace más ineficiente). Si retomamos la ecuación (3.1) y reemplazamos Y por la verdadera especificación (y desarrollamos): β˜ =

h

(X ′ X)

−1

i X ′ + C · (Xβ + U )

= β + CXβ + (X ′ X)

−1

X ′ U + CU

Recordemos que el teorema de Gauss-Markov estipula que los estimadores deben ˜ e´ ste resulte justamente insesgado, ser insesgados. Para que al sacarle esperanza a β, es necesario que CX = 0. Lo anterior nos deja con: −1 β˜ = β + (X ′ X) X ′ U + CU

(3.2)

Que, al sacarle esperanza,12 −1 E β˜ = β + (X ′ X) X ′ E (U ) + C · E (U ) = β

12

Es posible sacar a C del operador esperanza puesto que está compuesto por X, que es no estocástica y por A, que es la matriz de ponderadores; e´ sta también debe ser no-estocástica, como en MCO.

3.2. TEOREMA DE GAUSS-MARKOV

139

Queda claro que el estimador alternativo es insesgado (as´ı se requiere). Ahora s´ı toca el turno a su varianza: ′ ˜ ˜ ˜ var β = E β − β · β − β Reemplazamos por la expresión (3.2) convenientemente reacomodada: ′ −1 −1 ′ ′ ′ ′ ˜ V ar β = E (X X) X U + CU (X X) X U + CU = σ 2 (X ′ X)

−1

+ σ 2 CC ′

(3.3)

En el caso anterior (regresión univariada), nos hab´ıamos topado con que la varianza del estimador alternativo también era igual a la de MCO más un elemento mayor o igual a cero, con lo que quedaba demostrado que no exist´ıa un estimador de menor varianza que el de MCO. En este caso, habr´ıa que demostrar que CC ′ siempre es “positiva o igual a cero”. Al tratar con matrices, esta propiedad es referida como matriz semidefinida positiva. Si CC ′ es, en efecto, una matriz semidefinida positiva, el teorema estar´ıa demostrado. De hecho, afortunadamente, dicho resultado ya existe, y está plasmado en el siguiente teorema. Teorema 8 Sea C una matriz de rango completo, de dimensiones T × K. Entonces C ′ C es una matriz definida positiva y CC ′ es una matriz semidefinida positiva. El teorema anterior nos dice que la matriz se sumar´ıa a la varianza del estimador de MCO (o en el peor de los casos, no agregar´ıa nada, pero tampoco restar´ıa) por lo que queda demostrado que MCO provee los estimadores más eficientes, como en el caso de una sola variable explicativa. Para entender mejor la demostración, es importante primero recordar algunas cuestiones sobre las matrices.13 En muchos problemas de optimización, la función objetivo a maximizar (minimizar) tiene la siguiente forma:

q =

T X T X

xi xj aij

i=1 j=1

13

Esta explicación está basada en la provista por el libro “Econometric Analysis” de William H. Greene (1997), 3a edición.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

140

´ La ecuación anterior es lo que se denomina una F ORMA C UADR ATICA y puede expresarse en forma matricial:

q = x′ Ax

donde A es una matriz simétrica (y por ende, cuadrada). Es posible que q sea positivo, negativo o nulo, todo depende de los valores de la matriz A y de x. No obstante, existen matrices A tales que, independientemente de x 6= 0, hacen que el valor de q siempre sea negativo (o siempre sea positivo, o siempre sea no negativo). De hecho, existe una clasificación:

1. Si x′ Ax > 0 para todo x 6= 0, entonces se dice que A es definida positiva 2. Si x′ Ax < 0 para todo x 6= 0, entonces se dice que A es definida negativa 3. Si x′ Ax ≥ 0 para todo x 6= 0, entonces se dice que A es semi-definida positiva 4. Si x′ Ax ≤ 0 para todo x 6= 0, entonces se dice que A es semi-definida negativa

3.2.2. Intuición Recuérdese que las varianzas quedan definidas en la diagonal de la matriz. En el caso de la fórmula expresada en la ecuación (3.3), las varianzas del nuevo estimador, β˜ serán, al final de cuentas, el resultado de sumar los elementos de la diagonal de σ 2 (CC ′ )−1 con los de la matriz σ 2 (X ′ X)−1 . La varianza de tales estimadores sólo podr´ıa ser menor a la de los de MCO si los elementos de la diagonal fueran negativos. Ahora bien, es fácil ver que la matriz C tiene las dimensiones K × T . Independientemente de cual es el valor de los elementos que la componen, su forma será la siguiente:

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR



C11  C21  C =  ..  . C′



C12 C22

141

 . . . . . . C1T C2T   ..  ... . 

CK1 CK2 . . .

CKT 

C11 C21 . . . CK1  C12 C22 CK2   . ..  ...   .  =  ..  . ..   .. .  C1T C2T . . . CKT

Al multiplicarlas, CC ′ , no es dif´ıcil adivinar cómo son los elementos diagonales:

CCii′

=

T X

Cij2

j=1

donde i = 1, . . . , K. Todo esto redunda en lo siguiente: sean cuales sean los valores que conforman la matriz C, los elementos de la diagonal de la matriz CC ′ son el resultado de una suma de cuadrados. Dichas sumas sólo pueden ser positivas o bien—si los elementos que la componen son todos nulos—iguales a cero. De lo ˜ son iguales anterior se deriva que las varianzas de los estimadores alternativos (β) a las varianzas de los estimadores de MCO más algo que sólo puede ser positivo o nulo. Por ende, var βî ≤ var β˜i ∀ i = i, . . . , K

3.3.

Estimador Insesgado de la Varianza del Error

Como en la primera parte del curso, uno de los elementos más importantes a desarrollar es el estimador de la varianza del error, σ ˆ 2 . Al igual que antes, una vez obtenida su fórmula, procederemos a verificar que el estimador es insesgado. Recordemos P ˆ2 Ut que en el modelo simple T −2 = σ 2 y también que E(ˆ σ2) = σ2.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

142

Para obtener el equivalente de estas expresiones en el modelo multivariado, requeriremos de algunas expresiones de referencia. Para empezar, identificaremos en nuestros cálculos una matriz que nos resultará sumamente u´ til. Recordemos lo visto hasta ahora:

´ 3.3.1. Una matriz idempotente muy util 1. El estimador: −1 βˆ = (X ′ X) X ′ Y

2. El residual estimado: Uˆ = Y − X βˆ 3. combinando estas u´ ltimas dos expresiones: Uˆ = Y − X(X ′ X)−1 X ′ Y 4. Factorizando Y: Uˆ =

I − X(X ′ X)−1 X ′ Y | {z } Mx

La matriz Mx = I − X(X ′ X)−1 X ′ —pronto lo veremos—resulta ser una matriz en extremo interesante. Entre sus propiedades destacan las siguientes: 1. Simetr´ıa: Mx = Mx′ ′ I − X(X ′ X)−1 X ′ = I − X(X ′ X)−1 X ′ = I − X (X ′ X)

−1

X′

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR

143

2. Idempotencia: Mx Mx = (I − X(X ′ X)−1 X ′ )(I − X(X ′ X)−1 X ′ ) = I − X(X ′ X)−1 X ′ − X(X ′ X)−1 X ′ + . . . . . . X(X ′ X)−1 X ′ X(X ′ X)−1 X ′ = I − 2X(X ′ X)−1 X ′ + X(X ′ X)−1 X ′ = I − X(X ′ X)−1 X ′ = Mx

3. Ortogonalidad con las columnas de la matriz X: Mx X = 0 = I − X(X ′ X)−1 X ′ X = X −X = 0

4. Presentación de algunos resultados: Uˆ = Mx Y Uˆ′ X = Y ′ Mx X = 0 Lo primero que haremos con esta nueva matriz es identificar la relación existente entre los residuales estimados y los verdaderos. Esto, nuevamente, nos será u´ til posteriormente: Uˆ Uˆ Uˆ Uˆ

= = = =

Mx Y Mx (Xβ + U ) Mx Xβ + Mx U Mx U

(3.4)

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

144

3.3.2. La varianza del error Por fin podemos dedicarnos a lo que interesa, σ ˆ 2 . Para empezar, construiremos la variable relevante, que no es otra sino la suma de los errores estimados al cuadrado. Como quizá algunos han intu´ıdo, haremos uso de nuestra nueva matriz Mx : X

uˆ2t = Uˆ′ Uˆ = U ′ Mx′ Mx U

Aprovechando el resultado expuesto en la ecuación (3.4) y también de la indempotencia de la matriz Mx , podemos simplificar la expresión y posteriormente calcular su esperanza: E(Uˆ′ Uˆ ) = E(U ′ Mx U ) Lamentablemente, los pasos siguientes exigen el conocimiento de algunas propiedades adicionales de las matrices. En particular, necesitamos saber qué es la traza de una matriz y cuáles son sus propiedades. La traza de la matriz Lo primero es definir que es la traza: Definición 10 Traza: es la suma de todos los elementos diagonales de una matriz cuadrada. Sea A una matriz K × K cuyo elemento n-ésimo renglón, m-ésima columna sea anm . Entonces, su traza es: tr (A) =

K X

aii

i=1

Las propiedades de la traza pueden llegar a ser bastante sorprendentes. Sea c una constante y A, B, C, D matrices tales que dim (AB) = K × K, dim (AC) = K × K, dim (AD) = K × K y b un vector T × 1. Entonces: 1. tr (cA) = c · tr (A) 2. tr (A′ ) = tr (A) 3. tr (A + B) = tr (A) + tr (B) 4. tr (IK ) = K

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR

145

5. tr (AB) = tr (BA) 6. Generalizando: tr (ABCD) = tr (BCDA) = tr (CDAB) = tr (DABC)

7. b′ b = tr (b′ b) = tr (bb′ ) Ahora s´ı, ya podemos retomar nuestro cálculo de la varianza del error. Recordemos que U es un vector T × 1: Uˆ′ Uˆ = tr Uˆ′ Uˆ Podemos aprovechar lo anterior,

E Uˆ′ Uˆ = E (U ′ Mx U ) h i ′ ˆ ˆ E UU = E [tr (U ′ Mx U )] As´ı expresada la varianza, no podemos sacar esperanza, puesto que los vectores U del término de error no están juntos. Por eso, tomando ventaja de las propiedades de la traza, permutamos y calculamos esperanza... E(Uˆ′ Uˆ ) = = = E(Uˆ′ Uˆ ) =

E [tr (Mx U U ′ )] tr [Mx E (U U ′ )] tr Mx σ 2 σ 2 tr (Mx )

Si sacamos del operador esperanza a la matriz Mx es porque e´ sta se compone de variables xi , que por supuesto no son estocásticas. Reemplazamos Mx por lo que vale y simplificamos:

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

146

h i −1 tr (Mx ) = tr IT − X (X ′ X) X ′ i h −1 ′ ′ = tr (IT ) − tr X (X X) X h i −1 = T − tr (X ′ X) X ′ X = T − tr [Ik ] = T −K

Retomando la expresión original de la varianza...

E(Uˆ′ Uˆ ) = σ 2 (T − K) Nos damos cuenta que, para que el estimador de la varianza sea insesgado, debe ser normalizado por T − K.

E

Uˆ′ Uˆ T −K

!

= σ2

Con esto queda demostrado que σ ˆ2 =

ˆ Uˆ′ U T −K

es un estimador insesgado de σ 2 :

E σ ˆ 2 = σ2

3.4.

Bondad del ajuste

Las medidas de bondad del ajuste no var´ıan de manera importante al generalizar el modelo y por lo mismo, nos limitaremos a expresar las fórmulas importantes en la notación matricial que ya ahora nos debe resultar familiar. No obstante, al haber más parámetros con base en los cuales hacer inferencia, se abre una perspectiva halagüeña en lo que concierne a las pruebas de hipótesis. Esto se verá hasta el final de la sección. De momento, repasaremos los conceptos ya vistos antes con objeto de confirmar lo aprendido.

3.4. BONDAD DEL AJUSTE

147

3.4.1. La R cuadrada Empecemos recordando lo que vimos anteriormente: Definición 11 La fórmula que conoc´ıamos de la R2 es: SCR SCT SCE = 1− SCT P ˆ2 Ut = 1− P (yt − Y¯ )2

R2 =

Pasar las fórmulas anteriores a notación matricial nos resultará más fácil si definimos el siguiente vector: Sea   y1 − y¯  y2 − y¯      Yc =  y3 − y¯   ..   .  yT − y¯

Entonces, la fórmula de la R2 se convierte en: R2 = 1 −

Uˆ ′ Uˆ Yc ′ Yc

3.4.2. Inflación de la R cuadrada y su versión ajustada La R cuadrada y la adición de variables Ahora bien, ¿ qué ocurre si decidimos agregarle más variables a la especificación? En el peor de los casos, las nuevas variables no tendrán poder explicativo sobre la variable dependiente; su inclusión ser´ıa poco más que inútil. Al no agregar más poder explicativo, la R2 no deber´ıa cambiar. No obstante, recordemos que nuestro método es estad´ıstico y tiene un sustento probabil´ıstico. Existe la posibilidad de que las nuevas variables, aunque sea por azar, pueden explicar algunos movimientos de Y ;en ese caso, por cuestiones meramente azarosas, que no económicas, podr´ıamos obtener una R2 más alta al incluir variables nuevas, aunque e´ stas no vengan al caso. Jugando con esa posibilidad, una estrategia—poco atinada, aclaremos—ser´ıa la de

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

148

incluir much´ısimas variables explicativas en la regresión; al final, lograr´ıamos mejorar la bondad del ajuste, aunque sea artificialmente.14 Incluir un número grande de variables explicativas terminará eventualmente subiendo la R2 , pero el modelo dejará de ser parsimonioso y se convertirá en un gigante con pies de barro y sobre todo, en una herramienta sumamente inútil. Intuición En realidad, mostrar que la R2 crece, o se infla, a medida que le agregamos variables explicativas puede hacerse con relativa sencillez. Recuerde que el método de M´ınimos Cuadrados se obtiene de minimizar la Suma de Residuales al Cuadrado, SCE:

m´ın SCE = m´ın β

β

X

(yt − Xt β)2

(3.5)

donde Xt corresponde al vector-renglón que agrupa a las t-ésimas observaciones de las explicativas, Xt = [x1 , x2 , . . . , xk ]. Ahora imagine dos posibles regresiones. Una de ellas A NIDA a la otra, es decir, incluye sus variables y otras más: 1. Regresión anidada o restringida, K1 = 2: yt = α + βxt + ut 2. Regresión sin restricciones, K2 = 3: yt = α + βxt + δzt + ǫt La primera regresión es, de hecho igual a la segunda, sólo que incluye una restricción: δ = 0. Al momento de obtener los estimadores, en ambos casos se minimizar´ıa la SCE. Podr´ıamos escribir dicha minimización en la ecuación (3.5). La matriz de variables explicativas y el vector de parámetros ser´ıan de dimensiones T × K2 y K2 × 1 respectivamente. Para trabajar con la especificación restringida, sólo habr´ıa que señalar que β3 = 0 (es decir, lo restringir´ıamos a ser cero) mientras que para estimar la especificación no-restringida, dejar´ıamos libre dicho parámetro. El valor o´ ptimo de la función objetivo es débilmente menor conforme aumenta el número de variables explicativas puesto que, con estas nuevas variables se levantan restricciones y existe la posibilidad de encontrar un m´ınimo “más chico”. En la fórmula de la ′ R2 , R2 = 1 − YU∗′ UY ∗ , podr´ıamos entonces reducir U ′ U , dejando inalterado todo lo demás; la fracción disminuir´ıa y por ende, la R2 aumentar´ıa. 14

Hay que recordar, no obstante, que las pruebas de significancia individuales limitar´ıan en gran medida dicha estrategia.

3.4. BONDAD DEL AJUSTE

149

Demostración formal La demostración formal de lo anterior es, hay que admitirlo, mucho más elaborada. Trataremos de evitar las cuestiones demasiado técnicas y de hacerla lo más fluida posible. Nuestra regresión multivariada se especifica y se estima de la siguiente manera: Y Y

= Xβ + U = X βˆ + Uˆ

En dicha especificación, hay K variables. El hecho es que podr´ıamos particionar esas K variables de tal suerte que haya dos grupos, el primero incluyendo K1 variables y el segundo K2 , respetando obviamente la igualdad K1 + K2 = K. Al primer grupo de variables lo representaremos en la matriz X1 (T × K1 ) y al segundo X2 (T ×K2 ). Los parámetros asociados a cada grupo serán β1 y β2 . Podr´ıamos entonces especificar la siguiente ecuación: Y

= X1 β1 + X2 β2 + U,

(3.6)

cuya versión estimada ser´ıa: Y

= X1 βˆ1 + X2 βˆ2 + Uˆ .

(3.7)

El objetivo de hacer esta partición es representar la disyuntiva del econometrista al decidir cuantas variables explicativas usar. Lo representado por esta u´ ltima ecuación conlleva el mensaje siguiente: ajustar la regresión de Y en función solamente de X1 o bien en función de X1 y X2 . Si nos inclináramos por la primera opción, ya podr´ıamos elucidar los resultados, pues son los mismos de siempre; basta reemplazar β1 por β y X1 por X. Dado que estamos corriendo una especificación distinta a ˆ por lo que le pondremos la ecuación (3.6), el estimador no ser´ıa necesariamente β, ˘ Las fórmulas clásicas ser´ıan las siguientes... otro nombre: β. Y = X1 β1 + ǫ −1 β˘ = (X1′ X1 ) X1′ Y ǫˆ = Y − X1 β˘ i h −1 = I − X1 (X1′ X1 ) X1′ Y = M1 Y

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

150

donde M1 es nuestra famosa matriz simétrica e idempotente. Dicha matriz ten´ıa una serie de propiedades que nos resultarán u´ tiles. La primera, sólo basta recordarla: M1 X 1 = 0 La otra que utilizaremos resulta ser una propiedad muy curiosa, pues aplica, no a la regresión restringida, sino a la no-restringida: M1 Uˆ =

h

I − X1 (X1′ X1 )

−1

i X1′ Uˆ

−1 = Uˆ − X1 (X1′ X1 ) X1′ Uˆ |{z} =0

= Uˆ

Si el u´ ltimo término se hace cero, ello se lo debemos a la ortogonalidad—ya demostrada anteriormente—entre variables explicativas y residual estimado. As´ı pues, tenemos que: M1 Uˆ = Uˆ Retomemos ahora nuestra especificación particionada (3.7) y multipliquémosla por M1 : M1 Y

= M1 X1 βˆ1 + M1 X2 βˆ2 + M1 Uˆ | {z } | {z } =0

ˆ =U

= M1 X2 βˆ2 + Uˆ

Elevemos esta u´ ltima expresión al cuadrado (al estilo matricial): (M1 Y )′ (M1 Y ) =

M1 X2 βˆ2 + Uˆ

′

M1 X2 βˆ2 + Uˆ

Lo primero es recordar que M1 Y = ǫˆ 15 y que por tanto (M1 Y )′ = ǫˆ′ . De ello deducimos que, (M1 Y )′ (M1 Y ) = ǫˆ′ ǫˆ. 15

Los residuales estimados de la regresión restringida.

3.4. BONDAD DEL AJUSTE

151

Pero ǫˆ′ ǫˆ no es otra cosa sino la suma cuadrática de los residuales de la regresión restringida, a la que podr´ıamos definir como: def

ǫˆ′ ǫˆ = SCEY /X1 Ahora podemos continuar con el desarrollo: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + βˆ2′ X2′ M1 Uˆ + Uˆ ′ M1 X2 βˆ2 + Uˆ ′ Uˆ ′ ′ ′ ˆ ′ ′ ′ ′ ˆ ˆ ˆ ˆ ˆ = β2 X2 M1 X2 β2 + β2 X2 U + β2 X2 U + Uˆ ′ Uˆ Nuevamente, la ortogonalidad entre explicativas y residual estimado simplifica la expresión: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + Uˆ ′ Uˆ También, podemos deducir que Uˆ ′ Uˆ no es otra cosa sino la Suma de Residuales al Cuadrado de la regresión con todas las explicativas; la denominaremos: def Uˆ ′ Uˆ = SCEY /X1 ,X2

retomando la expresión, tenemos lo siguiente: SCEY /X1 = βˆ2′ X2′ M1 X2 βˆ2 + SCEY /X1 ,X2 As´ı, finalmente hemos obtenido una expresión que relaciona la Suma de Residuales al Cuadrado de la regresión restringida con la SCE de la regresión no-restringida. ¿Cuál es más grande? Pues todo depende del signo del primer elemento en la parte derecha de la ecuación. supongamos que es mayor o igual a cero—porque de hecho lo es. En ese caso, quedar´ıa muy claro que: SCEY /X1 ≥ SCEY /X1 ,X2 Para mostrar lo anterior, hemos de concentrarnos en nuestra recurrente matriz simétrica e idemptotente, M1 . Tal matriz es un dechado de propiedades, entre las que destaca la siguiente:

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

152

Teorema 9 Sea M1 una matriz simétrica e idempotente y x un vector cualquiera no-nulo. Entonces, M1 es semidefinida-positiva: x ′ M1 x ≥ 0 P RUEBA :16 recordemos que una matriz cuadrada, M1 , es idempotente si; M1 = M12 Usemos pues nuestra matriz idempotente M1 de dimensiones K × K. Como bien sabemos, M1 es una matriz simétrica, porque es posible diagonalizarla:17 Λ = P ′ M1 P dónde P es la matriz de vectores caracter´ısticos—o eigenvectores de M1 —y Λ es, claro está, diagonal cuyos elementos son los eigenvalores de M1 : P ′P = I Si a Λ la multiplicamos por ella misma:

Λ2 = = = = = =

(P ′ M1 P ) · (P ′ M1 P ) P ′ M1 P P ′ M 1 P P ′ M1 IM1 P P ′ M12 P P ′ M1 P Λ

Este desarrollo nos permite ver que si M1 es una matriz idempotente también lo es Λ. Pero sabemos que Λ, es una matriz diagonal cuyos elementos son los eigenvalores 16

Cortes´ıa de Fátima Castro. Si acaso no lo recuerda, puede acudir a un libro de algebra matricial o encontrarlo en los apéndices de los libros de econometr´ıa, como en el Hamilton(1994). 17

3.4. BONDAD DEL AJUSTE



Λ11 0 . . .  0 Λ22  Λ =  .. ...  . 0

0

153

0 0 .. .

. . . ΛKK

    

Por lo tanto, Λ2 , es igual a:

Λ2



 Λ211 0 . . . 0  0 Λ2 0  22   =  .. ..  ...  . .  2 0 0 . . . ΛKK

No obstante, dado que Λ es idempotente, Λ2 = Λ. Ello implica que Λ11 = Λ211 , Λ22 = Λ222 , . . . , ΛKK = Λ2KK . Los u´ nicos valores capaces de satisfacer: Λii = Λ2ii ∀ i = 1, . . . , K son: Λii = 0 o´ Λii = 1 para toda i. Es sabido que U NA M ATRIZ CU YOS E IGENVALORES SON T ODOS M AYORES O I GUALES A C ERO ES S EMI D EFINIDA P OSITIVA. Entonces, dado que: Λii = Λ2ii 0 Λii = 1 Dado que Λ, es semi-definida positiva M1 también lo es puesto que comparten los eigenvalores. La aplicación del teorema sólo necesita reparametrizar momentáneamente X2 βˆ2 |{z} |{z} T ×K2 K2×1

como x. Queda entonces claro, si empleamos el teorema 9, que el escalar... βˆ2′ X2′ M1 X2 βˆ2 ≥ 0 Ya nada más queda recordar la fórmula de la R2 , R2 = 1 −

Uˆ ′ Uˆ Yc′ Yc

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

154

Es claro que, independientemente de la especificación de la regresión, Yc′ Yc queda inalterada. No obstante, si una especificación incluye más variables que otra, entonces, Uˆ ′ Uˆ eventualmente se reducir´ıa; la fracción también disminuir´ıa y, finalmente, la R2 aumentar´ıa. La R2 ajustada o centrada Ser´ıa conveniente encontrar una prueba de bondad de ajuste sensible al número ¯ 2 , ya de parámetros, de tal forma que penalice si hay demasiados; es la famosa R comentada anteriormente:

¯2 = 1 − R

ˆ Uˆ′ U T −K P (yt −Y¯ ) T −1

Es importante notar como, al incluir más parámetros, el numerador se hace más grande, lo que incrementa el cociente. El efecto final no tan claro, puesto que depende del cambio en Uˆ′ Uˆ . En este sentido, nos permitimos presentar un resultado en extremo interesante:18 ¯ 2 cuando se incluye una variable adicional a la regreTeorema 10 Cambio en R ¯ 2 disminuirá (aumentará) cuando la variable x sión: En una regresión múltiple, la R sea borrada de la especificación s´ı el estad´ıstico t asociado a ella es mayor (menor), en valor absoluto, a la unidad. Este resultado implica que incluir variables estad´ısticamente “significativas” a la regresión será la u´ nica forma de aumentar la bondad del ajuste. Incluir variables “estad´ısticamente insignificantes”, o mejor dicho, “no venidas al caso” disminuirán ¯2. a la R

3.4.3. Descomposición de la varianza por variable explicativa La R2 es, pese a todas las cr´ıticas, una medida de bondad del ajuste global muy socorrida. En textos de econometr´ıa más “viejos” era más común encontrar lo que ´ DE LA VARIANZA POR VARIABLE E XPLI aqu´ı llamaremos D ESCOMPOSICI ON CATIVA . Como lo indica este nombre, se trata de cuantificar la aportaci´ on de cada 18

Resultado no demostrado. Nuevamente, para una demostración formal, buscar en “Econometric Analysis” de William H. Greene (1997), 3a edición.

3.4. BONDAD DEL AJUSTE

155

variable a la explicación de la varianza de la dependiente. En otras palabras, si se corre una regresión de y contra x1 y x2 , por ejemplo, y obtenemos una R2 de 0.9, podr´ıamos saber que de ese 90 % de variabilidad explicada de y, el 35 % lo hace x1 mientras que el restante 55 % corresponde a x2 . Si las variables explicativas fueran perfectamente ortogonales, es decir, perfectamente independientes la una de la otra, entonces, calcular tales porcentajes ser´ıa en extremo fácil. Podriamos correr dos regresiones: 1. yt = β1 x1t + u1t 2. yt = β2 x2t + u2t y recuperar en cada una la R2 , R12 y R22 . Si corriéramos una tercera regresión con ambas variables explicativas, descubrir´ıamos que la R2 correspondiente ser´ıa la suma de las otras dos: R32 = R12 + R22 . Desgraciadamente esto no ocurre casi nunca en la práctica, puesto que las variables explicativas comparten parte de la información que conllevan y no son perfectamente ortogonales entre s´ı. Lo más fácil es verlo con un D IAGRAMA DE V ENN. Si bien dicho Diagrama no es la manera más correcta de representar lo que ocurre en una regresión, si constituye una forma práctica de entender lo que ocurre (ver figura 3.1). El problema radica en que parte del poder explicativo de las variables independientes es compartido entre ellas. Por esa simple razón, no es posible correr una regresión con cada variable, recuperar la correspondiente R2 y lograr que la suma de e´ stas sea igual a la medida de bondad de ajuste global. Es necesario acotar el poder explicativo de cada variable, aislarlo del de las otras. Si bien la demostración no es especialmente complicada, exige conocer la teoria relativa a los coeficientes de correlación parciales, que no hemos abordado. Por lo mismo, y dado que e´ ste no es un tema fundamental, nos limitaremos a enunciar la forma de obtener la aportación individual a la bondad del ajuste sin entrar en explicaciones demasiado profundas. Lo primero es incorporar una serie de conceptos nuevos.

Estandarización de los parámetros En muchas ciencias sociales y afines a la medicina, donde el análisis estad´ıstico de datos es tan frecuente como en econom´ıa, también se enseña el método de M CO. Por lo general, el matiz es distinto. En muchos casos, los datos tienen su origen en experimentos diseñados19 por lo que el cumplimiento de los supuestos no resulta 19

Sobre todo en lo que concierne a la medicina.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

156

Varianza de y Varianza de y Varianza de x2

Varianza de x1

Varianza comun de x1 y x2 que no

Varianza de x2. Una parte explica a y

explica la de y Varianza comun de x1 y x2 que

Varianza de x1.

explica la de y

Una parte explica a y 0

0.2

0.4

0.6

0.8

1

Figura 3.1: Diagramas de Venn una cuestión tan cr´ıtica como en econometr´ıa.20 Por lo mismo, se pone más e´ nfasis, desde un principio, en la interpretación de los resultados. Claro que en econometr´ıa también se hace, pero a la par que el cuidado por la satisfacción de los supuestos. Algo que preocupa mucho a estos cient´ıficos sociales es la interpretación de los parámetros estimados; la preocupación estriba en las unidades de medición de las variables utilizadas. Los economistas no se preocupan demasiado al respecto, puesto que, por lo general, si vamos a utilizar los parámetros estimados, solemos aplicar los cálculos necesarios para que nuestros parámetros ya no midan cambios en las unidades de las variables, sino en términos porcentuales: calculamos elasticidades, pues. Digamos, por ejemplo, que estimamos la siguiente especificación, yt = α + βM M¯ xt + ut , donde las unidades de x son miles de millones. ¿Qué pasar´ıa con nuestro estimador de la pendiente si cambiamos las unidades de x a millones? Bueno, cambiar la escala es muy fácil, requiere multiplicar todos los datos por mil. Hagamos que κ = 1000 y recuperemos momentáneamente nuestro estimador de la pendiente de la sección pasada: Cov (xt , yt ) βˆM M¯ = V ar (xt ) PT ¯) (yt − y¯) t=1 (xt − x = PT ¯ )2 t=1 (xt − x

Es muy fácil insertar nuestro cambio de escala en la expresión anterior para entender 20

En este sentido, pronto descubriremos que gran parte del esfuerzo en Econometr´ıa de destina a proponer métodos para identificar y corregir los rompimientos de los supuestos.

3.4. BONDAD DEL AJUSTE

157

las consecuencias:

βˆM¯ =

PT

κ (xt − x¯) (yt − y¯) PT 2 ¯ )2 t=1 κ (xt − x

t=1

Dado que se trata de una constante, es posible sacarla de las sumatorias; al final, quedará: P 1 Tt=1 (xt − x¯) (yt − y¯) ˆ βM¯ = PT κ ¯ )2 t=1 (xt − x βˆ ¯ = MM κ En otras palabras, aumentarle tres ceros a las variables simplemente dividió el parámetro estimado por 1, 000. Evidentemente, las unidades en las que están medidas las variables afectan el valor de los estimadores. Es por ello que, para evitarle confusiones a un econometrista novel, conviene hacer que dichas unidades pierdan relevancia. Una solución, la de los economistas, es calcular elasticidades; la de otros investigadores sociales es calcular C OEFICIENTES E STANDARIZADOS. Para esto, es necesario saber que esos mismos investigadores llaman a los parámetros estimados que hemos estado utilizando C OEFICIENTES EN B RUTO o R AW E STIMATES en inglés. En una regresión multivariada, si βî es el parámetro asociado a la variable explicativa xi , entonces, dicho estimado es llamado Coeficiente en Bruto, mientras σ ˆ que a su transformación σˆxyi βî se le denomina coeficiente estandarizado. El coeficiente en bruto mide el cambio en la variable y—en unidades de e´ sta—ante un cambio unitario en xi , mientras que el coeficiente estandarizado mide el cambio en y medido en desviaciones estándar ante el cambio de una desviación estándar en xi . Descomposición de la R2 Esta transformación lineal de los parámetros no nos interesa en s´ı gran cosa, pero es el preámbulo para descomponer la R2 y obtener la aportación de cada variable a e´ sta. En realidad, ya no hay mucho que hacer; basta con tomar los coeficientes estandarizados y multiplicarlos por la correlación entre la variable dependiente y la explicativa que corresponda. Definamos Ri2 como la contribución de la i-ésima variable explicativa a la R2 global; definamos también rˆyi como la correlación entre y y xi . Entonces:

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

158

Ri2

σ ˆ xi ˆ = βi · rˆyi σ ˆy

Para rematar esta sección, pondremos un pequeño ejemplo para asentar este concepto. Suponga que estimamos la siguiente especificación: yt = α + β1 xt1 + β2 xt2 + β3 xt3 + ut La siguiente tabla resume toda la información que necesitamos: Variable Constante x1 x2 x3 y

Desv. estándar – 1.01 1.10 0.99 13.14

Correlación con y – 0.18 0.30 0, 53 1.00

Estimado 3.17 2.34 4.52 7.64 –

Estandarizado – 0.18 0.38 0.57 – Suma 2 R Global

Ri2 – 0.03 0.11 0.30 – 0.44 0.44

Como habrán visto, la suma de las Ri2 ’s individuales coincide con nuestra R2 de siempre. Se trata de un instrumento francamente u´ til, que vale la pena emplear a la hora de evaluar una especificación. Otros Criterios Recientemente (es decir, hace más o menos 20 años) han aparecido nuevos criterios para evaluar el ajuste de un modelo; espec´ıficamente, son criterios que permiten comparar el ajuste de distintas especificaciones. En esta sección presentaremos dos en extremo populares. 1. Criterio de Información de Schwarz:

SIC = ln

Uˆ ′ Uˆ K + ln T T T

(3.8)

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

159

2. Criterio de Información de Akaike:

Uˆ ′ Uˆ 2K AIC = ln + T T

(3.9)

Note cómo es posible optimizar (minimizar) ambos criterios mediante especificaciones que reduzcan la Suma de Residuales al Cuadrado, Uˆ ′ Uˆ . No obstante, los dos ejercen una penalización considerable si tales especificaciones incluyen demasiados parámetros.

3.5.

Pruebas de Hipótesis, Conjuntas e Individuales

3.5.1. Los estad´ısticos t En la derivación de los estad´ısticos t en el modelo multivariado, seguiremos la misma filosof´ıa con la que presentamos la nueva fórmula de la R2 , es decir: no incurriremos en demasiados detalles. Los estad´ısticos t, u´ tiles para realizar pruebas de hipótesis individuales sobre cada uno de los parámetros, se derivan de la misma manera que antes:

t βi =

βî − βi q σ ˆβ2i

La interrogante se versa en la fórmula de la varianza del estimador, σ ˆβ2ˆ . Recordemos i que la matriz de varianza-covarianza de los estimadores es: ˆ = σ 2 (X ′ X)−1 V ar(β) | {z } K×K

Al estudiar el Teorema de Gauss-Gauss-Markov ha quedado claro que las varianzas de cada uno de los estimadores se sitúan en la diagonal de dicha matriz, por lo que: V ar(βî ) = σ 2 (X ′ X)−1 ii

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

160

donde el sub´ındice “ii” indica que extraemos el elemento del i-ésimo renglón, ie´ sima columna de la matriz de varianza covarianza. La fórmula del estad´ıstico t se convierte entonces en:

t βi = p

βî − βi

i = 1, 2, 3, . . . , K

σ ˆ 2 (X ′ X)−1 ii

Ya sólo falta recordar que la hipótesis más común que se prueba con el estad´ıstico t es la de nulidad del estimador: H0 : βˆ = β = 0. No obstante, es importante tener claro que la hipótesis nula la establece el econometrista según la pregunta a la que desea dar respuesta; la hipótesis no necesariamente es de nulidad.

3.5.2. Pruebas conjuntas Planteamiento de la prueba Incurriendo en el riesgo de ser repetitivos, resaltamos una vez más las ventajas de una regresión multivariada. Al contar con los efectos aislados de cada variable sobre aquella cuyo comportamiento queremos explicar, resulta tentador probar— estad´ısticamente—hipótesis sobre los parámetros. Está claro que si dicha hipótesis concierne a uno solo de tales parámetros, entonces podremos recurrir a nuestros famosos estad´ısticos t. No obstante, si la hipótesis que nos interesa involucra a varios—por ejemplo, implica una relación lineal entre varios de ellos del estilo: β1 = 4 (β3 − β2 ), entonces, necesitaremos otra forma de probarla. Es a eso a lo que nos avocaremos en esta sección. Dichas hipótesis, deberán plasmarse como una serie de restricciones lineales. Estas hipótesis quedar´ıan reflejadas en una serie de restricciones sobre los parámetros. Asumiremos que dichas restricciones son válidas bajo la hipótesis nula y las acomodaremos en una matriz a la que denominamos R: H0 : |{z} R ·β = r M ×K

Donde M es el número de restricciones que queremos someter a prueba. Esta presentación, reiteramos, resulta poco intuitiva. Para entenderla, presentaremos una serie de ejemplos de pruebas de hipótesis: Ejemplo 7 R ESTRICCIONES SENCILLAS : Suponga que se estima la siguiente especificación:

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

yt = α + β1 x1t + β2 x2t + β3 x3t + β4 x4t + ut

161

(3.10)

Se desea someter a prueba dos hipótesis sencillas: H0 :

β1 = 0 β2 = 1

Como bien se puede ver, cada una de las hipótesis podr´ıa ponerse a prueba de forma individual mediante un estad´ıstico t. Resulta conveniente, en algunos casos, probarlas conjuntamente y no sólo por separado. Es por ello que vamos a plantear la matriz de restricciones antes propuesta: R · β = r. Empecemos definiendo cada uno de los elementos   α β1     β= β2  β3  β4 Las dimensiones de este vector son harto conocidas: K × 1. Ahora pasemos a las otras matrices. M , el número de restricciones, es igual a 2, M = 2. Ahora s´ı ya podemos pasar al formato propuesto R · β = r. La u´ nica dificultad estriba en el diseño de R y r:   α β1   0 1 0 0 0  0   · β2  = 0 0 1 0 0   1 β3 β4

Note como, al llevar a cabo operación matricial, recuperamos las dos restricciones que deseamos someter a prueba; las que están especificadas bajo la hipótesis nula, H0 . ´ ELABORADAS : Suponga que se estima la esEjemplo 8 R ESTRICCIONES M AS pecificación estipulada en la ecuación (3.10). En esta ocasión, se desea someter a prueba dos hipótesis en las que dos parámetros estén involucrados simultáneamente:

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

162

H0 :

β1 + β2 = 1, β3 = β4 ,

en donde, nuevamente, el número de restricciones es dos, M = 2. Ahora hay que definir R y r. Aclaremos de una vez que en ninguna de esas dos matrices deben aparecer los parámetros expl´ıcitamente; sólo pueden incluirse en ellas valores numéricos concretos:   α β1    1 0 1 1 0 0   · β2  = 0 0 0 0 1 −1   β3 β4 Note como se reformuló la segunda hipótesis y en el planteamiento matricial, quedó establecida como β3 − β4 = 0. Ejemplo 9 R ESTRICCIONES PUNTUALES : Con afán de presentar el mayor número de eventuales hipótesis, presentamos aqu´ı una hipótesis similar a la que se podr´ıa resolver con un estad´ıstico t. Es importante recordar que, la metodolog´ıa aqu´ı expuesta permite probar muchas hipótesis a la vez, por lo que no debe pensarse que esto resulta un ejercicio inútil. Suponga otra vez que se estima la especificación estipulada en la ecuación (3.10). En esta ocasión, la hipótesis a probar es : H0 : β2 = 0.7 En este caso, el número de restricciones es uno, M = 1. El planteamiento matricial, quizá un poco excesivo para nuestras necesidades, ser´ıa:   α β1     = 0.7 β 0 0 1 0 0 · 2   β3  β4

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

163

Distribución de la prueba Realizar la prueba redunda en un ejercicio muy sencillo en la mayor parte de los paquetes de cómputo que se usan habitualmente. No obstante, es importante conocer el funcionamiento de la prueba puesto que al hacerlo, restamos preponderancia a la necesidad de memorizar dicho funcionamiento ya que se reemplaza por un elemento de lógica. En primera instancia, recordaremos la transmisión de la normalidad que inicia en los residuales y termina en los parámetros. Retomemos nuestro modelo de siempre, Y = Xβ + U . Sabiendo que U ∼ iidN (0, σ 2 ) y que las variables explicativas son no-estocásticas, la normalidad se transmite “sin trabas” hasta la variable dependiente. Sólo es cuestión de conocer su media y varianza:21 Y ∼ N Xβ, σy2

Recordemos también que el estimador no es otra cosa sino una combinación lineal de la variable dependiente: βˆ = (X ′ X)−1 X ′ Y Por ello, los estimadores también tendrán una distribución normal, con la media y varianzas que calculamos antes: βˆ ∼ N β, σ 2 (X ′ X)−1

Si βˆ se distribuye Normalmente, entonces, al multiplicarlo por constantes, dicha Normalidad persistirá. Como vimos antes, Las restricciones, fruto de las hipótesis que queremos probar y plasmadas en la matriz R, están conformadas por constantes; por ello, R · β también se distribuirá como una Normal: R · βˆ ∼ N r, σ 2 R(X ′ X)−1 R′

La esperanza y la varianza arriba explicitadas son fáciles de obtener. Para la primera— la esperanza—usaremos la parte derecha de la ecuación, mientras que para la segunda— la varianza—aprovecharemos el lado izquierdo: 1. Esperanza:

21

E R · βˆ = E(r)

Puesto que con eso basta para caracterizar a una distribución Normal.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

164

No obstante, r es, bajo la hipótesis nula, un vector de constantes sin propiedades probabil´ısticas, por lo que: E R · βˆ = r

2. Varianza: En este caso, R es una matriz también compuesta por constantes. ˆ distribuido normalmente, la nueSi R fuera un escalar, al multiplicarlo por β, va varianza ser´ıa R2 var βˆ . Como R no suele ser escalar, el cuadrado se denota como una premultiplicación y postmultiplicación de la varianza del estimador:

ˆ var R · β

= R · var βˆ R′

= σ 2 R(X ′ X)−1 R′

As´ı, con el resultado anterior podr´ıamos realizar una prueba estad´ıstica, puesto que, bajo la hipótesis nula, R · βˆ se distribuye normalmente; es de suponer que si H0 no es cierta, el cálculo que ah´ı hagamos no será normal y saldrá de nuestro clásico intervalo −2, 2. El problema es que no conocemos uno de los parámetros que intervienen en la fórmula: σ 2 . Tendremos que manipular las expresiones para sortear esa dificultad. Para ello, será necesario demostrar el siguiente resultado: Teorema 11 Sea un vector Z(T × 1) tal que Z ∼ N (0, Ω), siendo Ω una matriz no-singular. Entonces: Z ′ Ω−1 Z ∼ χ2T g.l. Prueba 1 : La matriz Ω, que es una matriz de Varianza-covarianza, también es simétrica. Para demostrar su distribución procederemos como sigue. Si todos los Eigenvectores de la matriz Ω son distintos,22 entonces admite la siguiente representación: Ω = |{z} P |{z} Λ P ′, T ×T T ×T

22

Esto no lo demostraremos puesto que son elementos de a´ lgebra matricial que en teor´ıa ya deben conocer; no obstante, cabe señalar que ello siempre ocurre con las matrices de Varianza-Covarianza.

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

165

donde, como vimos en la sección anterior, P es una matriz compuesta por los eigenvectores—vectores propios—de Ω, P ′ P = IT y Λ es una matriz diagonal cuyos elementos son los valores propios—o eigenvalores. Retomemos nuestra matriz Ω e invirtámosla: Ω−1 = (P ΛP ′ )

−1

Ahora procedamos a multiplicarla (premultiplicar y postmultiplicar) por un vector Z no nulo de dimensiones T × 1: Z ′ Ω−1 Z = Z ′ (P ΛP ′ )

−1

Z

La inversión de la matriz entre paréntesis puede separarse en tres elementos:23 Z ′ Ω−1 Z = Z ′ (P ′ )−1 Λ−1 P −1 Z Definamos W = P −1 Z Z ′ Ω−1 Z = Z ′ (P ′ )−1 Λ−1 W Note que no podemos reemplazar (momentáneamente) Z ′ (P ′ )−1 por W ′ puesto ′ que W ′ = Z ′ (P −1 ) . Para sortear esta dificultad, imagine una matriz cuadrada A ′ invertible. Entonces A×A−1 = I; pero, trasponiendo, obtendr´ıamos: (A−1 ) ×A′ = ′ I. Postmultiplicando por (A′ )−1 a la expresión anterior, nos dar´ıa (A−1 ) = (A′ )−1 . Esto nos permite intercambiar el orden de la operación de transposición con la de inversión: (P ′ )

−1

= P −1

Retomamos...

′

Z ′ Ω−1 Z = W ′ Λ−1 W Ahora imaginemos cómo es este cálculo: 23

Se invierte el orden de las matrices al interior del paréntesis.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

166

   ′  −1 W1 Λ11 0 ... 0 W1  W2   0 Λ−1 . . . 0   W2  22       Z ′ Ω−1 Z =  ..  ·  .. ..  ·  ..  .. ...  .   . .   .  . −1 0 0 0 ΛT T WT WT | {z } | {z } 1×T T ×T   W1  W2   −1 −1 −1  W Λ W Λ . . . W Λ = 1 11 2 22 T T T  ..  | {z } .  1×T WT | {z } 

T ×1

Z ′ Ω−1 Z =

T X

Wi2

Λii |i=1{z } escalar ′ −1

= WΛ W Pues hasta ahora lo que tenemos es una matriz que potencialmente podr´ıa ser, cuando menos semi-definida positiva. En realidad, veremos dentro de poco que es definida-positiva. Pero eso de hecho importa poco. Lo que realmente nos interesa es conocer sus propiedades probabil´ısticas. ¿Cómo hacemos esto? Si los elementos del vector W , es decir los elementos Wi ∀ i = 1, . . . , T , fueran N (0, Λ2ii ), entonces la expresión a la que llegamos resultar´ıa ser una suma de normales estandarizadas y elevadas al cuadrado. Esto deber´ıa recordarnos a la definición de una χ2T g.l. . Sólo nos resta averiguar qué es W . Sabemos que W = P −1 · Z. Si queremos utilizar lo establecido en el teorema 11, entonces deberemos asumir que el vector Z que introducimos hace un momento se distribuye normalmente con media cero y varianza Ω. Por otra parte, conviene recordar que la matriz P está construida con los eigenvectores de la matriz de Varianza-Covarianza de Ω. As´ı, para construir W multiplicamos algo que se distribuye como una normal centrada por otra cosa que está compuesta de elementos sin propiedades probabil´ısticas.24 El resultado sigue teniendo distribución normal y también está centrado en cero. ¿Pero cuál es su varianza? La podemos calcular... 24

Debe quedar claro que los eigenvectores/eigenvalores no se estiman si no que se calculan.

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

167

i h −1 V ar(W ) = E P −1 ZZ ′ (P ′ )

En la matriz P no hay elementos estocásticos, por lo que lo podemos extraer del operador esperanza: V ar(W ) = P −1 E (ZZ ′ ) · (P ′ )

−1

Debido al supuesto concerniente a la normalidad de Z sabemos que E (ZZ ′ ) = Ω: V ar(W ) = P −1 Ω (P ′ )

−1

Ahora podemos aprovecharnos de la descomposición de la matriz Ω, que es con la que empezamos la demostración: V ar(W ) = P −1 P ΛP ′ [P ′ ]−1 La matriz P multiplicada por su inversa arroja a la matriz identidad, que podemos obviar... V ar(W ) = Λ As´ı, Λ es la matriz de Varianza-Covarianza de W :   Λ11 0 . . . 0  0 Λ22 . . . 0    Λ =  .. ..  .. ...  . .  . 0 0 . . . ΛT T P W2 Retomando nuestro cálculo de arriba, Z ′ Ω−1 Z = Ti=1 Λiii , pues ahora s´ı ya sabemos que se trata de variables normales estándar al cuadrado, por lo que, aplicando la definición de una χ2 y sabiendo que... W ∼ iidN (0, Λ)

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

168

La distribución de la expresión que nos interesa es: ′ −1 Z ′ Ω−1 Z = W PΛ 2 W Wi = Λii 2 ∼ χT g.l.

Por desgracia, aún no terminamos (pero ya merito). Nosotros lo que tenemos es: −1 ′ 2 ′ ˆ Rβ ∼ N r, σ R (X X) R

Si centramos...

−1 (Rβˆ − r) ∼ N 0, σ 2 R (X ′ X) R′

...y definiendo a Z de manera que sea normal estándar... def

Z = Rβˆ − r | {z } M ×1

... as´ı como Ω:

def

Ω = σ 2 R (X ′ X)

−1

R′

...ahora s´ı podemos aplicar el Teorema 11: Z ′ Ω−1 Z =

′ h i−1 −1 Rβˆ − r σ 2 R (X ′ X) R′ Rβˆ − r

∼ χ2M g.l.

Cuando desarrollamos la prueba F en el contexto de la regresión simple (recuerde la ecuación (2.16) en la página 106) hab´ıamos mostrado que:

(T − K)

σ ˆ2 ∼ χ2T −K g.l. 2 σ

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

169

Con el resultado anterior ya tenemos dos distribuciones χ2 independientes.25 Las podr´ıamos utilizar para construir una F:

F = =

χ21 /g.l.1 χ22 /g.l.2 ′ −1 ′ −1 2 ′ ˆ ˆ Rβ − r /M Rβ − r σ R (X X) R σ ˆ 2 /σ 2

∼ Fg.l.1 ,g.l.2 Esta afortunada división permite que se cancele el elemento desconocido, σ 2 :

F =

′ −1 −1 ′ ′ Rβˆ − r R (X X) R Rβˆ − r /M

∼ FM g.l., (T −K) g.l.

σ ˆ2

Es muy importante recordar que todo este ejercicio sólo es válido si y solamente si la hipótesis nula, H0 es cierta. Si no lo es, el cálculo de la expresión de arriba no tendrá distribución F. Ahora bien, esta presentación de la prueba se antoja muy compleja como para ponerla en marcha fácilmente. Existe por fortuna una manera más sencilla de llevarla a cabo: Teorema 12 Sea: 1. βˆ el estimador de MCO No-Restringido (es decir, sin imponer nada a los parámetros a estimar) y SCE1 , la suma de residuales al cuadrado correspondiente:

SCE1 = U1′ U1 25

En este caso también aplica el Teorema 6.

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

170 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Figura 3.2: Distribución de Fisher 2. β˜ el estimador de MCO Restringido (es decir, imponiendo las hipótesis de H0 ) y SCE2 la suma de residuales al cuadrado correspondiente: SCE2 = U2′ U2 Entonces, el estad´ıstico de prueba F antes desarrollado puede expresarse de forma equivalente como: F=

(SCE2 − SCE1 ) /M SCE1 / (T − K)

Es fácil llevar a cabo este cálculo. Basta con correr dos regresiones y recuperar las sumas de residuales al cuadrado, tanto te la regresión restringida como de la no restringida.

3.5.3. Pruebas de desigualdad Las pruebas que hemos realizado hasta este momento siempre se han planteado en tanto igualdades, es decir: la hipótesis nula se formula mediante una relación de igualdad...

´ 3.5. PRUEBAS DE HIPOTESIS, CONJUNTAS E INDIVIDUALES

171

H0 : par´ ametro(s) = constante(s) Ello obedece a que, en muchas ocasiones, las hipótesis que se requiere formular pueden hacerse as´ı; no obstante, es bastante razonable considerar que en otras tantas la pregunta de interés tendrá una interpretación matemática de desigualdad. Podr´ıamos plantear, a manera de ejemplo, la estimación de la elasticidad-ingreso de un impuesto (es decir, su recaudación). Tomemos el Impuesto al Valor Agregado (IVA) con respecto al ingreso del pa´ıs, ambos transformados en logaritmos: IV At = α + βP IBt + ut Como ya vimos anteriormente, correr la especificación anterior nos brinda parámetros que corresponden a una estimación de la elasticidad, en este caso ingreso. Un estudio de esta naturaleza debe ir acompañado, como bien mandan los cánones de los economistas, de una elucidación del grado de elasticidad: muy elástica (β > 1), poco elástica (β < 1). Huelga decir que la prueba de hipótesis en este caso se deberá construir en tanto desigualdad. ¿Cómo hacer tal prueba? Pues la propuesta consiste en una prueba de desigualdad conjunta. En primera instancia, como siempre, hay que plantear la hipótesis nula y la alternativa: H0 : cβ ≤ r donde c es un vector renglón y r es una constante (un escalar). Note que, al establecer c, debe seguir un procedimiento análogo al de las pruebas de igualdad; la diferencia estriba en que aqu´ı sólo puede probar una hipótesis a la vez. Ello, huelga decir, no impide que dicha hipótesis sea elaborada.26 El estad´ıstico que hemos de utilizar se construye con base en la siguiente fórmula: cβˆ − r T =p σ ˆ 2 c(X ′ X)−1 c′

Dicho estad´ıstico tiene una distribución, bajo la hipótesis nula, t de Student no centrada:27 26

Por ejemplo, se puede plantear la hipótesis nula siguiente: H0 : β1 + 2β3 − β4 ≤ 2 La distribución de t con la que hab´ıamos trabajado hasta ahora era una t de student centrada; esta u´ ltima es un caso especial de la versión no centrada. 27

172

´ MULTIPLE ´ ´ CAPITULO 3. EL MODELO DE REGRESION

T ∼ tT −K,δ donde δ es el parámetro de no-centralidad, cuya fórmula es δ = √

ˆ cβ−r σ ˆ 2 c(X ′ X)−1 c′

.

La región cr´ıtica de la prueba, C, es C = [t1−α , ∞); la regla de decisión es muy sencilla; se rechaza H0 : cβ ≤ r s´ı y sólo s´ı T ≥ t1−α . Cabe resaltar que el valor cr´ıtico se obtiene de la distribución t de student centrada (la que siempre hemos usado); sólo recuerde que la prueba tiene nada más una cola. Ejercicio 2 Recupere de las bases de datos del Banco de México, del INEGI y de SHCP el la recaudación de IV A y el P IB, conviértalos ambos a precios constantes, aplique logart´ımos y estime la especificación antes mencionada; con base en sus resultados ejecute una prueba conjunta de desigualdad donde la hipótesis nula sea que la relación entre el ingreso y el impuesto es inelástica. Para cerrar el estudio estándar del modelo multivariado, procedemos ahora a (i) estudiar con más detenimiento una cuestión técnica relativa a las variables explicativas (Multicolinealidad), y; (ii) proponer un método para tomar en cuenta aspectos cualtitativos, o bien dif´ıcilmente cuantificables en nuestras especificaciones (Variables Binarias).

Cap´ıtulo 4 La multicolinealidad La cuestión que está en la palestra es el addendum que le hicimos al segundo supuesto cuando atacamos el modelo general. Los supuestos de dicho modelo resultaron ser los mismos que los del de regresión simple con una notable diferencia. ´ L INEAL E XACTA ENTRE CUALQUIERA DE LAS N O EXISTE R ELACI ON VARIABLES INDEPENDIENTES DEL MODELO . Lo anterior corresponde, no tanto a un rompimiento de supuesto, sino más bien a una cuestión técnica relativa espec´ıficamente a los datos. Esa es la razón por la que no se estudia en la siguiente parte (no se trata, formalmente hablando, de un rompimiento de supuesto). Cuando no queda satisfecha esta cláusula (es decir que existe relación lineal entre explicativas) se dice que dichas variables son colineales perfectas o bien que hay un problema de colinealidad perfecta. Ahora bien, una relación lineal entre variables explicativas puede sonar un tanto extraño. ¿Qué se entiende al respecto? Como de hecho pretende explicar el ejemplo siguiente, en muchas ocasiones dicha relación obedece a una cuestión de construcción de las variables que puede pasar desapercibida por los econometristas incautos o bien ajenos al procedimiento que generó los datos. Dicho ejemplo está inspirado en uno dado en el libro de Econometr´ıa escrito por Pyndick y Rubinfied:1 Ejemplo 10 Un investigador lleva a cabo un estudio sobre el desempeño escolar. La variable de interés es “Calificaciones”. La hipótesis del investigador es que las calificaciones de los alumnos dependen de cuatro variables; el ingreso familiar, el La edición que usamos de este libro es: Econometric Models and Economic Forecasts, 4a edición, 1998. 1

173

´ CAPITULO 4. LA MULTICOLINEALIDAD

174

género, el número de horas de estudios al d´ıa y la dedicación a cuestiones escolares (medida en horas) por parte de los alumnos a la semana. Se plantea la siguiente especificación:

Calif icacionesi = α + β1 Y fi + β2 Si + β3 H1i + β4 H2i + ui donde, 1. Y fi es el ingreso familiar del i-ésimo estudiante. 2. Si es el género del i-ésimo estudiante (1 si es mujer; 0 si es hombre) 3. H1i es el número de horas que estudia diariamente el i-ésimo estudiante. 4. H2i es el número de horas que dedica a la escuela semanalmente el i-ésimo estudiante. Dicho investigador, después de levantar una encuesta entre sus alumnos, construye en primera instancia su matriz de variables explicativas, que llamaremos, como siempre, X. Las columnas correspondientes a las dos u´ ltimas variables las dejaremos expl´ıcitamente señaladas: 

1 1   X = 1  .. . 0

 Y f1 S1 0.5 3.5 Y f 2 S2 2 14   Y f3 S3 1.5 10.5  ..  .. .. .. .  . . . Y f i Si 3 21

¿Qué ocurre con estas dos columnas? pues existe una relación lineal muy obvia entre ambas: H2i = 7 × H1i Nuestro investigador tiene un problema de multicolinealidad perfecta. Una interpretación perfectamente aceptable de su error es la siguiente: las u´ ltimas dos variables que propuso como explicativas corresponden a la misma información. Con una de ellas bastar´ıa, puesto que la otra no aporta nada más.

4.1. MULTICOLINEALIDAD PERFECTA

175

Cuando no hay independencia lineal entre todas las columnas de la matriz, se dice que dicha matriz no tiene rango completo. Si denotamos al rango de la matriz con la letra ρ, podemos definirlo como:

ρ(X) = m´ın (# columnas independientes, # renglones independientes) ¿Qué tan grave es la multicolinealidad? Podr´ıa aducirse que no demasiado, puesto que tan sólo estamos repitiendo la información. El hecho es que la multicolinealidad, en su modalidad “perfecta”, imposibilita el cálculo de la regresión; El hecho es que las variables explicativas rara vez mantienen una relación lineal perfecta; la multicolinealidad “imperfecta” degrada sensiblemente la calidad de la estimación e imposibilita la inferencia correcta. La multicolinealidad es, en realidad, un fenómeno gradual. Estudiaremos ambos casos, multicolinealidad perfecta e imperfecta.

4.1.

Multicolinealidad perfecta

La multicolinealidad perfecta ocurre cuando existen dos o más variables explicativas que mantienen entre s´ı una relación lineal. Como ya fue mencionado, en ese caso se dice que la matriz de variables explicativas no tiene rango completo. La colinealidad entre dos o más variables se transmite de la matriz X a la matriz X ′ X. La forma más fácil de entender esto es ver un simple ejemplo. Sea una matriz de variables explicativas de dimensiones T × K. Imagine una relación lineal entre las primeras dos variables, x2 = τ x1 :



x11  x21   x31   ..  . xT 1

τ x11 τ x21 τ x31 .. . τ xT 1

x13 . . . x23 . . . x33 . . . .. .. . . xT 3 . . .

 x1K x2K   x3K   ..  .  xT K

Ahora procedamos a calcular la matriz X ′ X:

´ CAPITULO 4. LA MULTICOLINEALIDAD

176



x11 x21 x31 τ x11 τ x21 τ x31   x13 x23 x33   .. .. ..  . . . x1K x2K x3K

  . . . xT 1 x11  x21 . . . τ xT 1     . . . xT 3   ×  x31 .. ..   .. . .   . . . . xT K xT 1

τ x11 τ x21 τ x31 .. . τ xT 1

x13 . . . x23 . . . x33 . . . .. .. . . xT 3 . . .

 x1K x2K   x3K   ..  .  xT K

El resultado de la operación es: P 2 P  P 2 x τ x 1t 1t P 2 P 2 Px1t x3t 2 τ x τ x τ x1t x3t 1t 1t P P 2 P  x3t x1t x3t  x1t x3t τ  . . . . . ..  P . P . x1t xKt τ x1t xKt ...

P  ... Px1t xKt ... τ x1t xKt   ..  ... .   .. ...  . P 2 ... xKt

Observe como tanto las dos primeras columnas son linealmente dependientes, as´ı como los dos primeros renglones. ¿Por qué es importante esto? Lo es porque la fórmula de los estimadores βˆ involucra a una matriz inversa, −1 βˆ = (X ′ X) X ′ Y,

y el cálculo de dicha inversa se lleva a cabo de la siguiente manera: (X ′ X)

−1

=

1 AdjX ′ X |X ′ X|

donde |X ′ X| es el determinante de la matriz X ′ X y AdjX ′ X es la matriz adjunta de X ′ X.2 La relación lineal entre dos columnas tiene un efecto muy particular sobre el determinante. Para poderlo establecer, debemos conocer primero una interesante propiedad del determinante: El determinante de una matriz—cuadrada—es el mismo que el determinante de esa misma matriz donde una de sus columnas es multiplicada por una constante y sumada a otra columna. 2

La matriz adjunta es igual a la matriz de cofactores traspuesta. La matriz adjunta—de la matriz X X, por ejemplo- es tal que el elemento en el i-ésimo renglón, j-ésima columna se obtiene calculando (−1)i+j | (X ′ X)(j,i) |, donde (X ′ X)(j,i) es igual a la matriz X ′ X, sólo que habiéndole borrado el renglón j y la columna i. ′

4.1. MULTICOLINEALIDAD PERFECTA

177

Lo anterior lo podemos ilustrar en un caso sencillo. Sea una matriz A tal que:

A =

a b c d

Entonces el determinante es: |A| = a × d − c × b. Ahora multipliquemos la segunda columna por τ y sumemos el resultado a la primera:

A˜ =

a+b×τ b c+d×τ d

Calculemos el determinante de esta nueva matriz: ˜ A = a × d |+b × d × τ{z− b × d × τ} −c × b =0

= a×d−c×b

Apliquemos esta propiedad en la matriz que nos interesa a sabiendas que la fórmula general del determinante es:

|X ′ X| = | {z } K×K

K X i=1

(−1)j+i (X ′ X)(i,j) (X ′ X)(i,j) ,

donde la matriz (X ′ X)(i,j) es igual a la matriz X ′ X sólo que habiendo borrado el ie´ simo renglón y la j-ésima columna. Retomemos nuestra matriz X ′ X y obtengamos el determinante. La fórmula general que nos permite obtenerlo es: Note que los sumandos en la fórmula van multiplicados por los elementos de una columna de la matriz original (con los signos alternados). Note también que esta fórmula permite seleccionar dicha columna al momento de realizar el cálculo (es necesario definir el valor de j). Conviene entonces aprovechar alguna columna que tenga muchos ceros, para agilizar el cálculo. La nuestra, de momento, no tiene, necesariamente columnas donde haya ceros. No obstante, aprovechando el problema de colinealidad y usando la propiedad mencionada hace un momento, podemos crear una columna donde sus elementos sean todos iguales a cero; tomemos la 1a columna y multipliquémosla por −τ ; después, sumémosla a la 2a columna:

´ CAPITULO 4. LA MULTICOLINEALIDAD

178

P P  P 2 τ P x21t − τ Px21t Px1t2 τ τ 2 x21t − τ 2 x21t  P x1t P P  x1t x3t − τ x1t x3t  x1t x3t τ  . . . ..  P . P P x1t xKt τ x1t xKt − τ x1t xKt

Nos queda lo siguiente:  P 2 Px1t2 τ  P x1t   x1t x3t  ..  P . x1t xKt

P 0 Px1t x3t 0 τ x1t x3t P 2 0 x3t .. .. . .

0

...

P  ... Px1t xKt ... τ x1t xKt   ..  . ...   .. ...  . P 2 ... xKt

P  ... x x 1t Kt P ... τ x1t xKt   ..  ... .   .. ...  . P 2 ... xKt

Sabiendo que el determinante de esta matriz es el mismo que el de la que nos interesa, podemos calcularlo. Con esta matriz es muy fácil; definimos, para efectos de la fórmula, i = 2, lo que nos quedar´ıa

|X ′ X| = 0 |X ′ X12 | + 0 |X ′ X22 | − 0 |X ′ X32 | + . . . = 0 S I EL DETERMINANTE ES NULO , LA MATRIZ INVERSA NO EXISTE — NO SE PUEDE CALCULAR ; SE DICE QUE LA MATRIZ X ′ X ES SINGULAR ; DADO QUE ´ ´ LA F ORMULA DE LOS ESTIMADORES REQUIERE DICHA INVERSA , ESTOS TAMPOCO SE PUEDE CALCULAR . Si existe un problema de multicolinealidad perfecta nos daremos cuenta muy rápido; simple y sencillamente el programa que usemos (sea cual sea) señalará que no es posible realizar los cálculos o marcará error o indicará que la matriz X ′ X es singular. En realidad, e´ ste es un problema fácil de identificar y por lo mismo, fácil de corregir (se puede eliminar la variable que esté causando la multicolinealidad).

4.2. MULTICOLINEALIDAD IMPERFECTA

4.2.

179

Multicolinealidad imperfecta

Como vimos en la sección anterior, la multicolinealidad, en caso de ser perfecta, impide el cálculo de los estimadores. Pero, ¿qué tal si nuestro fenómeno de multicolinealidad es del tipo: x1t = 2x2t + vt Donde Vt es un ruido centrado en cero. Aqu´ı se decanta la importancia de lo dicho al inicio de la sección. La multicolinealidad es un fenómeno gradual. En su máxima expresión (multicolinealidad perfecta), las consecuencias son evidentes, pero todo otro caso, quizá no sea tan obvio poner en evidencia el fenómeno. Una forma muy elocuente de ilustrar lo que se acaba de decir es mediante el diagrama de Ballentine o de Venn.3

Varianza de y Varianza de y Varianza de x2

Varianza de x1

Varianza comun de x1 y x2 que no

Varianza de x2. Una parte explica a y

explica la de y Varianza comun de x1 y x2 que

Varianza de x1.

explica la de y

Una parte explica a y 0

0.2

0.4

0.6

0.8

1

Figura 4.1: Diagramas de Venn

Es posible obviar los cálculos a la luz de los obtenidos en la sección anterior; de repetirse e´ stos, podr´ıamos ver que la relación lineal entre dos o más variables explicativas no ser´ıa perfecta; el grado de imperfección dependerá de la intensidad del ruido blanco que le incorporamos a dicha relación. Si la varianza de vt es muy grande, prácticamente no se resentirá en los cálculos la relación lineal; no obstante, si dicha variable es muy chica, habrá problemas para obtener el determinante de la matriz y por ende la inversa. 3

Extra´ıdo del Libro: Econometr´ıa, escrito por Damodar Gujarati, 4a edición, 2003.

´ CAPITULO 4. LA MULTICOLINEALIDAD

180

En caso de haber multicolinealidad de grado, el determinante no será exactamente igual a cero,4 aunque quizás s´ı muy chico. En tales circunstancias, las consecuencias se dejarán sentir en las varianzas estimadas de los estimadores ˆβˆK ˆβˆ2 , . . . , σ σ ˆβˆ1 , σ Para entender lo anterior, ilustrémoslo con una regresión concreta, en la que trabajaremos con variables centradas y por ende, sin constante: yt = β1 x1t + β2 x2t + ut En ese caso, la matriz de variables explicativas será: 

x11  x21  X =  ..  .

 x12 x22   ..  . 

xT 1 xT 2

Mientras que la matriz X ′ X será: P 2 P x x x 1t 2t 1t P 2 XX = P x2t x1t x2t ′

Al invertirla, obtendremos:

′

(X X)

−1

= D

−1

P 2 P − P x1t x2t P x2t x21t − x1t x2t

P 2 P 2 P dónde el determinante es: D = x1t x2t − ( x1t x2t )2 . Para esta ilustración requeriremos incorporar o asociar el coeficiente de correlación entre variables explicativas. Lo anterior es debido a que e´ ste representa una forma de medir que tan “buena” es la relación lineal entre dichas variables explicativas y 4

Hay que recordar, no obstante, que las computadores trabajan una precisión espec´ıfica. Si el determinante es demasiado chico, aún si no es nulo, es posible que no se pueda calcular.

4.2. MULTICOLINEALIDAD IMPERFECTA

181

nos puede dar indicios de la relación entre el grado de colinealidad y la varianza estimada de los parámetros.5 La fórmula del coeficiente de correlación es: P

x1t x2t ρx1 x2 = pP P x1t 2 · x2t 2 P ( x1t x2t )2 2 ρx 1 x 2 = P 2 P 2 x1t x2t

Ahora retomemos nuestro estimador de la varianza de βˆ1 : σβ2ˆ1 = σ 2 (X ′ X)−1 11 2

= σ P

P

x22t P P x21t x22t − ( x1t x2t )2

Lo volteamos (manipulación que nos acerca a la fórmula de la correlación):

σβ2ˆ1 = σ 2

"P

x21t

P

#−1 P x22t − ( x1t x2t )2 P 2 x2t

Multiplicamos toda la expresión por

σβ2ˆ1

P 2 x P 21t x1t

(que no altera nada):

# " P P 2 P 2 P 2 −1 2 2 ( x1t ) x − x ( x1t x2t ) P2t 2 P 1t = σ2 x1t x22t

Las expresiones marcadas en tinta gris corresponden a lo que definimos como el coeficiente de correlación al cuadrado, ρ2x1 x2 . Podemos reemplazarlo: 5

Para proceder con este cálculo, tendr´ıamos que cambiar por un momento nuestro segundo supuesto; las variables x s´ı son estocásticas, pero no están correlacionadas con el término de error, Cov(xit , ut ) = 0 para i = 1, 2, . . . , K. Recuerde que ambos supuestos apuntan en la misma dirección (aunque el segundo es más cre´ıble mientras que el primero sólo es cómodo para sacar algunos resultados). Lo anterior nos permite calcular la fórmula del coeficiente de correlación sin complicaciones de orden epistemológico.

´ CAPITULO 4. LA MULTICOLINEALIDAD

182

σβ2ˆ1

#−1 " P P 2 2 2 X ( x ) x x21t = σ 2 P 1t2 P 2 2t − ρ2x1 x2 x1t x2t X X −1 2 2 2 x21t x1t − ρx1 x2 = σ = P

x21t

σ2 1 − ρ2x1 x2

Un procedimiento análogo puede llevarse acabo con la varianza del otro estimador, βˆ2 ; de hecho, este fenómeno ocurre también cuando hay más variables explicativas. Lo interesante de este u´ ltimo resultado es que facilita la compresión del efecto de la colinealidad entre dos de las variables independientes: 1. Si la relación lineal entre x1 y x2 es pobre, esto deber´ıa quedar señalado por una correlación baja: ρx1 x2 pequeño. Si dicha correlación es pequeña, su cuadrado lo es aún más. El denominador se incrementa y la varianza βˆ1 disminuye. 2. Si la relación lineal entre x1 y x2 es muy “precisa”, esto deber´ıa quedar señalado por una correlación alta: ρx1 x2 grande. Si dicha correlación es grande, el denominador se reduce y la varianza de βˆ1 aumenta. Es esto u´ ltimo lo importante a retener en cuestiones de multicolinealidad; e´ sta tiende a hacer más grandes las varianzas de los parámetros estimados. Se dice que la ´ multicolinealidad I NFLA LAS VARIANZAS DE LOS PAR AMETROS E STIMADOS.

4.3.

Detección de la multicolinealidad

A la luz de las dos secciones inmediatamente anteriores, ha quedado claro que multicolinealidad es en esencia un problema de grado; si llega a haber multicolinealidad perfecta, será fácil darnos cuenta, debido a que no será posible estimar los parámetros; el análisis se concentrará por ende en la averiguación de un posible grado de colinealidad entre variables y si e´ ste es lo suficientemente importante como para que la calidad de los estimadores y de la inferencia realmente se degrade.

´ DE LA MULTICOLINEALIDAD 4.3. DETECCION

183

4.3.1. Análisis informal Lo primero que se debe advertir al lector es que, al momento de diseñar su especificación sea cauteloso al añadir variables explicativas y sea consciente de la definición de cada una de ellas; algunos errores burdos de colinealidad perfecta pueden ser as´ı evitados. En otros casos, cuando la colinealidad no es perfecta, detectarla no resulta tan evidente. Es importante tomar en cuenta que los problemas de multicolinealidad—de grado—a los que se suele enfrentar uno obedecen, o bien a deficiencias muestrales o a problemas en nuestra especificación. En aras de su detección, proveemos en la siguiente lista los s´ıntomas clásicos de un problema de multicolinealidad—de grado—serio. Dichos s´ıntomas deben presentarse simultáneamente para que sea susceptibles de ser interpretados correctamente como evidencia de multicolinealidad: 1. R2 cercana a la unidad y estad´ısticos-t no-significativos. 2. Alta correlación lineal entre variables explicativas. Lo anterior compagina con lo que vimos en las secciones anteriores. Por una parte, sabemos que la colinealidad entre variables infla las varianzas de los parámetros asociados en la especificación. El cálculo del estad´ıstico-t implica dividir al estimador entre la ra´ız cuadrada de su varianza. Si e´ sta es grande (debido a la colinealidad), es lógico suponer que los estad´ısticos-t salgan pequeños. Dado que la multicolinealidad es un problema meramente algebraico, e´ sta no degrada el ajuste del modelo; Por eso mismo, un buen ajuste no suele ser compatible con variables explicativas no significativas. Idealmente, las variables explicativas son ortogonales entre s´ı, es decir que cada una provee de información diferente al modelo sin que haya redundancia. Al observarse ese comportamiento, se puede sospechar que hay multicolinealidad. Con respecto al cálculo de correlaciones entre explicativas, pues no queda mucho por decir. Si alguna correlación sale demasiado alta, se vuelve indicio de colinealidad entre esas variables. Estos métodos, as´ı como resultan de sencilla aplicación, también son muy falibles. Si realmente se sospecha de la presencia de multicolinealidad, conviene aplicar estrategias más formales.

4.3.2. Métodos más formales Mediante regresiones auxiliares Se propone a continuación, a manera de receta de cocina, una prueba que hace uso de unas regresiones auxiliares:

´ CAPITULO 4. LA MULTICOLINEALIDAD

184

1. Correr cada variable explicativa X contra las demás explicativas. recuperar la R2 . Tendremos entonces tantas regresiones auxiliares como variables explicativas, es decir K. 2. Con cada medida de bondad de ajuste, Ri2 ∀i = 1, 2, 3....K calcular el siguiente estad´ıstico de prueba:

Ri2 /K − 1 (1 − Ri2 ) / (T − K) ∼ FK−1 g.l., T −K g.l.

Li =

Donde: H0 : No existe relación lineal entre xi y las demás variables explicativas. Ha : S´ı existe relación lineal entre xi y las demás variables explicativas.

La forma de lectura de la prueba es la misma que en ocasiones anteriores, por lo que ya no nos detendremos a explicarla. ´ Mediante el Numero de condición El problema de la multicolinealidad se refiere a la existencia de relaciones aproximadamente lineales entre las variables explicativas del modelo,6 lo que afecta considerablemente la estimación de la varianza de los estimadores al usar MCO. El número de Condición permite no sólo detectar una posible presencia de la multicolinealidad, sino también evaluar la gravedad del asunto. El Número de Condición se define como sigue: Definición 12 El Número de Condición, denotado κ se construye con base en los valores propios—o eigenvalores—de la matriz de variables explicativas X ′ X. La fórmula precisa es: κ= 6

Ma ´ximo eigenvalor Mínimo eigenvalor

Sección realizada por Laura Xóchitl Velázquez Fernández, Alma Aurelia Vega Aguilar, Ferm´ın Omar Reveles Gurrola y Marco Tulio Mosqueda.

´ DE LA MULTICOLINEALIDAD 4.3. DETECCION

185

Alternativamente se propone usar la ra´ız cuadrada de κ que es conocida como el ´ Indice de Condición; IC =

√

κ

La regla estándar para interpretar ambas medidas es la que sigue: 1. Si κ está entre 100 y 1, 000, existe multicolinealidad que se caracteriza como moderada a fuerte; si κ > 1, 000, entonces se dice que hay multicolinealidad severa. 2. Alternativamente, si el IC está entre 10 y 30, hay multicolinealidad que va de moderada a fuerte y si el IC > 30, entonces se dice que hay multicolinealidad severa. Es necesario tomar en cuenta algunas cuestiones para calcular el número de condición. En primera instancia es necesario conocer un par de resultados de a´ lgebra matricial: Teorema 13 Resultados de a´ lgebra matricial: Los eigenvalores de una matriz simétrica con elementos reales también son reales. El determinante de una matriz es igual al producto de sus eigenvalores. La matriz X ′ X es simétrica y semi positiva-definida, por lo que, por definición, sus eigenvalores son mayores o iguales a cero. El rango de una matriz simétrica corresponde al número de eigenvalores distintos de cero que e´ sta contiene. Con base en lo anterior es fácil entender que si nuestra matriz no tiene rango completo, uno de sus eigenvalores (el más chico) será cero. En ese caso, nuestro número de condición deber´ıa ser infinito (puesto que dividir´ıamos por cero). Claro está, si existe una relación lineal imperfecta entre las variables explicativas, entonces, como ya vimos, el determinante ser´ıa muy cercano a cero o bien el eigenvalor más chico ser´ıa casi cero. Nuestro número de condición corresponder´ıa a algo dividido por un número muy cercano a cero, por lo que ser´ıa muy grande. Existe otra cuestión a considerar: Si cambiamos las unidades de medición de las variables obtendr´ıamos valores distintos en los eigenvalores. Ello merma la utilidad

´ CAPITULO 4. LA MULTICOLINEALIDAD

186

de la prueba puesto que siempre podr´ıamos cambiar dichas unidades para asegurar un eigenvalor m´ınimo más grande y por ende un número de condición menor. Para evitar ese problema es conveniente eliminar las unidades de medidas mediante una estandarización. Esta u´ ltima consiste simplemente en dividir cada variable explicativa entre la ra´ız cuadrada de la sumatoria de las observaciones al cuadrado: xit x∗it = pP

x2it

Entonces, los eigenvalores se obtienen de la matriz X ′ X formada por las variables estandarizadas.

4.4.

Análisis de Componentes Principales

En todo estudio emp´ırico, el investigador busca (o deber´ıa buscar) trabajar con el mayor número de variables posibles. Lo anterior hace sentido, no sólo intuitivamente, si no también por el simple hecho de que a mayor número de variables, mayor el el acerbo de que se dispone para modelar el fenómeno de interés. No obstante, conforme recopilamos más información, aumenta también la posibilidad de que algunas variables provean información ya disponible en otras. Siguiendo la jerga hasta ahora empleada, podr´ıamos deicr que aumenta el riesgo de que dos o más variables estén altamente correlacionadas. Hemos visto algunas soluciones si bien ninguna es completamente convincente. la que a continuación vamos a desarrollar, regresión por componentes principales. es una alternativa más: Tiene limitaciones obvias pero también ventajas innegables. En palabras de Jollife:7 , el análisis de componentes principales (ACP) es: La idea central del ACP es reducir la dimensionalidad de un conjunto de datos, consistente e´ ste en un número grande de variables interelacionadas, manteniendo la mayor proporción posible de la variabilidad de dicho conjunto. Esto se logra transformándolo a un nuevo conjunto de variables, denominadas Componentes Principales, que tienen la virtud de ser ortogonales entre s´ı y suelen estar ordenados de mayor a menor en lo que respecta a su capacidad de retener la variación presente en las variables originales. Este nuevo conjunto de variables o componentes principales se obtiene mediante un método análogo a MCO (es decir, mediante la optimización (maximización) de una función cuadrática). En primera instancia, se busca una función lineal de las 7

Jollife, I. (2005) “Principal Components Analysis”. Traducción m´ıa.

´ 4.4. ANALISIS DE COMPONENTES PRINCIPALES

187

variables que tenga varianza máxima. a1 x1t + a2 x2t + . . . + ak xkt Posteriormente, se busca otra combinación lineal de las variables, que también maximice la varianza pero que además sea ortogonal a la primera combinación: b1 x1t + b2 x2t + . . . + bk xkt donde, si denotamos a = (a1 . . . ak )′ y b = (b1 . . . bk )′ , a⊥b. Sucesivamente, podr´ıamos buscar K combinaciones lineales, todas ortogonales. Al conjunto de tales pesos de combinaciones lo denotaremos α, donde αk es la k-ésima colección de pesos para realizar una combinación lineal. Cabe aclarar, de una vez, que axt y bxt son los famosos componentes principales. Ahora bien, maximizar esta función, as´ı como se presenta, resulta ligeramente problemático. De momento nos concentraremos en la primera combinación, a. Si queremos aumentar la varianza de la combinación, basta con incrementar el valor de los pesos o ponderadores ai infinitamente y as´ı crecer´ıa, también infinitamente, la varianza. Si queremos poder llevar a cabo nuestro ejercicio de maximización, tendremos que poner alguna restricción. La más intuitiva en un inicio, podr´ıa ser restringir la maximización a que la suma de los pesos sea igual a uno. Pero esa no sirve, pues podr´ıamos hacer, por ejemplo, que a1 fuera arbitrariamente grande, que a2 fuera fuera igual a −a1 − 1 y con eso cumplir´ıamos la restricción. Tendr´ıamos entonces el mismo problema, es decir, no podr´ıamos encontrar un máximo al momento de optimizar. Una restricción más efectiva es: K X

ai = 1

i=1

De esta manera, ningún peso podr´ıa aumentar (diminuir) infinitamente, puesto que no podr´ıa haber un contrapeso de signo contrario que permita satisfacer la restricción. Llamemos además xt el t-ésimo renglón de la matriz X, xt = (x1t . . . xkt ). Suponga, finalmente, que la matriz de varianza-covarianza de las variables xi es Ωx que ˆ x ). Ahora es estimable (el estimador de esta se denominará, de aqu´ı en adelante, Ω s´ı, nuestro objetivo es encontrar un αk que maximice la varianza: argm´ axαk V ar(αk′ x)

´ CAPITULO 4. LA MULTICOLINEALIDAD

188

No obstante, V ar(αk′ x) = E(αk′ xx′ α) = αk′ Ωx αk . As´ı pues, nuestro ejercicio de optimización se queda, de momento, en: argm´ axαk αk′ Ωx αk Ahora bien, ya vimos que esta optimización no puede lograrse sin poner una restricción, que ya hab´ıamos definido: la suma de los pesos al cuadrado debe ser igual a uno: argm´ axαk αk′ Ωx αk

sujeto a : αk′ αk = 1

Quien dice optimización con restricción, piensa en la técnica de los multiplicadores de Lagrange.8 El primer paso de dicha técnica consiste en plantear la función a optimizar, que denotaremos H: H = αk′ Ωx αk −λ(αk′ αk −1) La siguiente etapa consiste en derivar la función H en términos de αk . Se puede llevar a cabo el cálculo matricialmente, recordando, como no, los que empleamos muy al principio del manual, cuando encontramos la fómula de MCO para una regresión multivariada (ver 3.1.1 en la página 130). As´ı, nuestra derivada queda: ∂H = Ωx αk − λαk ∂αk Igualando a cero, como siempre: Ωx αk − λαk = 0

(4.1)

Podemos factorizar, sin olvidar la matriz identidad, para que la resta haga sentido:9 (Ωx − λIk )αk = 0 8

(4.2)

En los problemas de optimización, el método de los multiplicadores de Lagrange, llamados as´ı en honor a Joseph Louis Lagrange, es un procedimiento para encontrar los máximos y m´ınimos de funciones de varias variables sujetas a restricciones. Este método reduce el problema restringido con n variables a uno sin restricciones de n + k variables, donde k es igual al número de restricciones, y cuyas ecuaciones pueden ser resueltas más fácilmente. Estas nuevas variables escalares desconocidas, una para cada restricción, son llamadas multiplicadores de Lagrange. Wikipedia, consultada en noviembre 2012. 9 Ω − λ, es decir, una matriz menos un escalar, suele interpretarse como Ω − λU , donde U es una matriz cuyos elementos son todos iguales a uno. No obstante, eso altera la expresión original de la que partimos: Ωx αk − λαk 6= Ωx αk − λU αk . Reemplazando U por la identidad, no alteramos nada

´ 4.4. ANALISIS DE COMPONENTES PRINCIPALES

189

Si se desea que este conjunto de ecuaciones tenga soluciones no-nulas, la matriz (Ωx −λIk ) no debe ser invertible y por ende su determinante debe ser igual a cero:10 | Ωx − λIk | = 0

Las K soluciones a la ecuación de grado K resultante se llaman eigenvalores o valores propios o ra´ıces caracter´ısticas. Asociado a cada ra´ız caracter´ıstica, hay un ´ es llamado eigenvector, vector que da solución a la ecuación (Ωx −λIk )αk = 0. Este o vector caracter´ıstico. Lo más fácil es verlo en un ejemplo. Ejemplo 11 Para iniciar este ejemplo, sólo necesitamos declarar una matriz de varianza-covarianza. Hagamos una sencilla, de 2 × 2: 4 2 Ωx = 2 1

Primero hemos de encontrar los valores que hace que | Ωx − λIk |= 0. En este caso, el determinante es simplemente el producto de los elementos de la diagonal principal (donde van las varianzas) menos el producto de los elementos de la otra diagonal: (4 − λ)(1 − λ) − 4 4 − 4λ − λ + λ2 − 4 λ2 − 5λ λ(λ − 5)

= = = =

0 0 0 0

De la u´ ltima expresión es fácil notar que las dos soluciones (los dos eigenvalores) son λ1 = 5 y λ2 = 0.11 . Cada una de estas dos soluciones tiene asociado un vector caracter´ıstico/eigenvector. Dichos eigenvectores, recuérdelo, corresponden a los “pesos” de nuestras combinaciones lineales. En este caso, hay dos variables, y por lo mismo hay dos combinaciones lineales obtenidas a través de este método. Cada combinación lineal debe tener dos pesos, los correspondientes a x1 y x2 . Para obtenerlos, basta con (1) reemplazar, λ por 5 en la ecuación (4.2), despejar para a1 y a2 ; (2) hacer lo mismo, sólo que reemplazando λ por 0 en la misma ecuación y despejar, en este caso, b1 y b2 . 10

Si la matriz tuviera inversa, podr´ıamos multiplicar la ecuación de ambos lados por dicha matriz y llegar´ıamos a la solución trivial de que αk = 0. Puesto que esa no nos interesa, la descartamos. Los valores de λ que hacen que el determinante sea cero, son los eigenvalores. Los αk correspondientes son los eigenvectores, además de nuestros “pesos”. 11 Note como la razón entre el eigenvalor más grande y el más chico es una singularidad; ello se debe a que la matriz original no tiene rango completo. ¿Recuerda alguna prueba de multicolinealidad que aprovechara esta particularidad?

´ CAPITULO 4. LA MULTICOLINEALIDAD

190

Ejercicio 3 Calcule los eigenvectores y muestre que e´ stos son ortogonales. Lo importante es tener claro que los eigenvectores son ortogonales. Esto es sorprendentemente fácil de demostrar: acabamos de obtener los eigenvectores como solución al sistema (Ωx − λIk )αk . En nuestro pequeño ejemplo, los dos eigenvectores corresponder´ıan a a y b. Lo que vamos a demostrar es que los K eigenvectores son ortogonales. Teorema 14 Si dos eigenvalores, λ1 y λ2 son distintos, entonces sus eigenvectores asociados, a y b, son ortogonales; a′ b = 0 o bien a⊥b. La prueba es sencilla. Manipulando la ecuación (4.1), tenemos: Ωx αk = λαk Sabemos que tanto a como b pueden sustituir a αk y constituir una solución, por tanto: Ωa = λ1 a, podemos premultiplicar por b′ , b′ Ωa = b′ λ1 a. Lo mismo podemos hacer con la otra solución: a′ Ωb = a′ λ2 b. Ahora bien, a′ Ωb = b′ Ωa, puesto que se trata de un escalar (un escalar y su transpuesto son lo mismo). As´ı, podemos transponer uno, digamos el segundo, b′ Ωa = b′ λ2 a, y restárselo al primero: 0 = b′ λ 1 a − b′ λ 2 a Puesto que los eigenvalores son escalares, los ponemos hasta delante y factorizamos: 0 = (λ1 − λ2 )b′ a Esta operación debe dar cero. Sabiendo que los eigenvalores son distintos, lo u´ nico que puede hacer cero la expresión es que: b′ a = 0. Ahora bien, sabiendo esto, podemos premultiplicar la u´ ltima expresión, b′ a = 0 por x′ y posteriormente postmultiplicarla por x:

x′ b′ ax = 0. Separando por pares es posible darse cuenta que obtuvimos los los componentes principales, z2′ z1 = 0 as´ı es que, resulta fácil ver que todos los componnentes principales también son ortogonales entre s´ı.

´ USANDO COMPONENTES PRINCIPALES 4.5. REGRESION

4.5.

191

Regresión usando componentes principales

Ante el problema de multicolinealidad imperfecta, la regresión por componentes principales se antoja como otra solución relativamente popular, o cuando menos conocida. El problema de la multicolinealidad imperfecta estriba en que dos o más variables aportan, esencialmente, la misma información; eso las hace altamente colineales y dificulta enormemente la inversión de la matriz que las contiene. Considerando lo visto en la sección anterior, es intuitiva la idea de reemplazar las variables (con problemas de colinealidad) con los vectores que podemos construir con base en los correspondientes eigenvectores (los “α’s”). Eso podr´ıa hacerse; no obstante, conviene conocer bien las limitaciones. Para ello, primero tenemos que construir los nuevos vectores, que denominamos componentes: z1t = a1 x1t + a2 x2t + . . . + ak xkt y as´ı sucesivamente hasta tener z1 , . . . , zk . Cada uno de ellos es capaz de reproducir una parte de la variabilidad de las variables originales. Suponga que ordenamos las z’s de mayor a menor en función de ese criterio. Debemos dar, además, dos propiedades del método: 1. var(x PK 1 ) + var(x2 ) + . . . + var(xk ) = var(z1 ) + var(z2 ) + . . . + var(zk ) = i=1 λi , 2. αi ⊥αj para λi 6= λj y i 6= j.

La segunda la demostramos en la sección anterior. De la la primera, que señala que la varianza total de las K variables es igual a la varianza total de los K componentes principales, podemos inferir que cada eigenvalor, dividido entre la suma de todos los eigenvalores, representa la proporción de variablididad explicada por el componente principal asociado. Sabiendo esto, lo primero que debemos tener claro es que, reemplazar todas las x por los vectores ortogonales, es una mala idea. Es la misma variabilidad acomodada de otra forma. Por ello, los resultados de la nueva regresión no habr´ıan cambiado nada. En realidad, lo idóneo ser´ıa utilizar sólo algunas de las nuevas variables ortogonales, pero no todas. Podr´ıamos ordenarlos de mayor a menor en términos de varianza y procurar utilizar los primeros. Las limitaciones de esta estrategia no son pocas: 1. el que una de las variables z tenga la mayor varianza, no necesariamente quiere decir que tenga la mayor correlación con la variable dependiente (que es lo que interesa),

192

´ CAPITULO 4. LA MULTICOLINEALIDAD

2. Debido a lo anterior, uno podr´ıa entonces sugerir calcular las correlaciones entre las variables ortogonales y la variable dependiente y sólo conservar las que están más relacionadas con e´ sta. Pero hacer esto equivale a descartar las variables explicativas menos significativas, lo que en todo caso, ser´ıa preferible, pues el modelo tiene una interpretación más obvia. De hecho,... 3. Las combinaciones lineales con que están construidas las variables z no suelen tener interpretación económica obvia. 4. Modificar las unidades de medida de las variables altera los componentes principales. Por lo general, se estandarizan las variables (se les resta la media y se divide por la desviación estándar). No obstante, todo esto lejos está ser una pérdida de tiempo. El método también tiene virtudes: 1. La “compresión” de información puede llegar a ser en extremo u´ til. Suponga una t´ıpica regresión de demanda por dinero. Si usted dispone de una buena base de datos, es muy posible que, entre otras cosas, tenga varias tasas de interés, mismas que tienden a padecer de problemas de colinealidad. La teor´ıa sugiere que hay efectos de corto y largo plazo relativos a dichas tasas. Eventualmente, un ACP sobre las variables de tasa de interés podr´ıa reflejar en el primer componente principal, tasas cuyos efectos son de corto plazo (tasa interbancaria, por ejemplo), y en el segundo, tasas cuyos efectos son de largo plazo (como podr´ıa ser la tasa hipotecaria). En ese caso, las combinaciones lineales entre componentes podr´ıa tener una interpretación interesante y, sobre todo explotable. Huelga decir que esta eventualidad exige leer con sumo cuidado los valores de los eigenvectores. 2. El usar algunos de los componentes principales en sustitución de algunas de las variables originales implica una restricción paramétrica y podr´ıa dar pistas respecto a que tipo de pruebas conjuntas hacer. Por ejemplo, suponga que el primer componente principal en un estudio con tres variables respresenta el 70 % de la varianza total y sugiere, aproximadamente, combinar 50 % la primera variable, 50 % la segunda y nada la tercera. Suponga además que el segundo componente se compone casi exclusivamente de la tercera variable y representa el 28 % de la varianza, mientras que el terver componente tiene ponderadores indescifrables, pero tan sólo recupera el 2 % de la varianza... En ese caso, una eventual regresión podr´ıa incluir al primer componente (o a las otras dos variables pero restringidas) y a la tercera variable sola.

´ USANDO COMPONENTES PRINCIPALES 4.5. REGRESION

193

3. Otra bondad del método estriba en la construcción de ´ındices. Suponga que tiene usted cincuenta variables que miden riqueza patrimonial de una u otra forma. Suponga además que emplea dichas variables en un ACP y obtiene que el primer componente representa el 85 % de la variabilidad de tales indicadores. Usted dispone en el eigenvector de los “pesos” de ese “´ındice”. Ser´ıa sólo cuestión de normalizarlo para presentarlo como un ´ındice de pobreza. Los pesos as´ı obtenidos har´ıan por lo mismo sentido, pues maximizar´ıan la varianza, es decir, la cantidad de información contenida en la combinación lineal. Dichos pesos ser´ıan, al menos a los ojos de un estad´ıstico, menos arbitrarios que los que a veces se suelen usar en la práctica como cuando asignamos pesos iguales a todos los elementos. Si bien usamos la matriz de varianza-covarianza para explicitar el método, cabe resaltar que también puede hacerse con la matriz de correlaciones. La decisión entre usar una matriz u otra estriba en el grado de homogeneidad entre las variables. Si los datos tienen valores homogeneos, se puede usar Ωx , si no, se puede estandarizar las series y usar Ωx o bien usar a matriz de correlaciones. Otra cosa importante radica en que no es cre´ıble que podremos usar la matriz de varianza-covarianza o bien la matriz de correlaciones poblacionales. Por esa obvia razón, se emplean los equivalentes muestrales.

194

´ CAPITULO 4. LA MULTICOLINEALIDAD

Cap´ıtulo 5 Variables Binarias y regresión por pedazos 5.1.

Variables dicotómicas

5.1.1. Solución discontinua En la práctica de la econometr´ıa, algunos aspectos relevantes del fenómeno estudiado suelen ser dif´ıcilmente cuantificables.1 Ello dificulta enormemente la puesta en marcha de la investigación. De hecho, cuando carecemos de información respecto al fenómeno estudiado o a las variables que presuntamente lo explican, a veces no queda más remedio que abandonar el asunto en espera de que la situación cambie y dispongamos de dichos datos. Afortunadamente, no siempre es necesario rendirse ante ese tipo de dificultades. Es posible estudiar situaciones en las que la información faltante puede ser “reemplazada”. Más interesante aún, hay situaciones en las que es justamente ese aspecto ignoto el que nos interesa. A continuación, damos algunos ejemplos... 1. ¿Cuál es el efecto sobre el Consumo/Ingreso/Inversión/Exportación de México de la Segunda Guerra Mundial? 2. ¿Es cierto que el mercado laboral ejerce una discriminación por género? Y si lo es, ¿qué tan grave es dicha discriminación? 3. ¿Qué efectos tuvo sobre la inversión la crisis de 1994? 1

Piense por ejemplo en las preferencias, o en la inflación esperada.

195

196

´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION

4. ¿Fue el Tratado de Libre Comercio un detonante del proceso de convergencia entre regiones de México? ¿y entre México y Estados Unidos? 5. ¿Aumenta realmente la demanda de dinero en Navidad (efecto estacional)? 6. La medición de una variable en particular (número de niños nacidos vivos en la Ciudad de Aguascalientes) para una fecha espec´ıfica (julio de 1997) resulta at´ıpica, tres o cuatro veces más grande que las realizaciones circundantes. ¿Realmente nacieron tantos niños en ese mes? o, ¿acaso se trata de un error de captura? Es el problema de datos aberrantes. 7. ¿Hay discriminación racial en el mercado laboral de Estados Unidos? Las preguntas anteriormente planteadas son muy frecuentes entre economistas y por lo mismo, las técnicas de cuantificación han hecho grandes esfuerzos por proponer metodolog´ıas espec´ıficas para tratarlas. En esta sección presentamos una de ellas, especialmente sencilla, pero aún as´ı, en extremo poderosa: L AS VARIABLES ´ DICOT OMICAS .2 Ejemplo 12 Aprovechando el primer ejemplo dado justo arriba, supongamos la siguiente especificación. Sea: It la Inversión medida en pesos de 1980. Rt la Tasa de Interés Real. Asumiendo que tenemos datos desde 1935 hasta 1970, una especificación estándar para explicar el comportamiento de la inversión podr´ıa ser: It = α1 + β1 Rt + ut It = α2 + β2 Rt + ut

para 1935 − 1938 y 1946 − 1970, para 1939 − 1945.

Lo establecido en esta especificación es que la relación entre tasa de interés e Inversión se vio alterada durante los años de la Segunda Guerra Mundial. Al final de cuentas, lo que queremos estimar es un par de especificaciones y no sólo una para todo el per´ıodo. La solución más obvia ser´ıa correr dos regresiones; pero las variables dicotómicas nos permitirán hacer uso de toda la muestra y estimar ambos escenarios en una sola corrida. 2

Encontrarán en los textos muchos y muy diversos nombres que hacen alusión a tales variables; entre los que destacan, están: variables “dummy”, variables binarias, funciones indicatrices,. . .

´ 5.1. VARIABLES DICOTOMICAS

197

No todas las variables explicativas deben estar necesariamente definidas en un rango continuo; es posible usar variables dicotómicas/binarias/indicatrices. Estas variables sólo adoptan valores 0 o´ 1. Para ilustrarlas, planteemos otro ejemplo. Ejemplo 13 Suponga que se tiene acceso al desempeño de algunos ex-alumnos de Econometr´ıa referente a sus hábitos de estudio, el género as´ı como al salario de su primer trabajo formal. La información, la podemos resumir en el siguiente cuadro. Ex-alumno No. 1 2 3 4 5 .. .

Promedio 7.0 8.0 8.5 9.5 10.0 .. .

Primer Salario 100 125 79 140 120 .. .

Dedicación escolar 3.0 3.5 4.0 7.0 6.5 .. .

sexo H H H M M .. .

¿Cómo podr´ıamos, por ejemplo, estudiar la discriminación por género con estos datos? Lo primero que hay que tomar en cuenta es que las razones por las que uno recibe un salario alto o bajo son muy variadas. La que expone con fervor casi religioso la econom´ıa es la productividad. Dicha productividad no siempre es tan fácilmente medible y pueden utilizarse algunas alternativas, o variables aproximadas (variables “proxy”); dos muy obvias en este caso ser´ıan el desempeño escolar (promedio) y la dedicación escolar. En principio, una persona con un buen promedio en la escuela suele ser una persona responsable y trabajadora y es posible presumir que eso le allanará el camino en su trayectoria profesional. Ahora que hemos controlado por “productividad histórica”3 y que podemos confiar en que eso no sesgará nuestro estudio de discriminación, podemos atacar esto u´ ltimo. Pero para incluir la información del sexo en la especificación, algo tendremos que hacer con la u´ ltima columna de datos; no podemos poner “Hs” ni “Ms”, puesto que no sabr´ıamos sumar letras a la hora de calcular nuestros estimadores. Una solución sencilla es crear nuevas variables: De momento diseñaremos dos; una que se llame “Mujer” y que valdrá 1 si el ex-alumno es mujer y 0 si es hombre; la otra variable se llamará “Hombre” y adoptará el valor de 1 si se trata de un hombre y 0 si es mujer. Planteemos ahora la especificación: 3

Levitt ha hecho estudios de discriminación de género para el caso norteamericano en los que controla por población urbana o rural, educación, estado civil,etc. y encontró el sorprendente resultado de que la discriminación no es tal. ¿Qué quiere decir eso?

198

´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION

Salarioi = α + β1 P romedioi + β2 DedEscolari + . . . β3 M ujeri + β4 Hombrei + ui donde el sub´ındice i se refiere al i-ésimo ex-alumno. Nuestra matriz de variables explicativas quedará como sigue : 

1 1  1  1  1  .. .

P romedio1 P romedio2 P romedio3 P romedio4 P romedio5 .. .

DedEcolar1 DedEcolar2 DedEcolar3 DedEcolar4 DedEcolar5 .. .

1 1 1 0 0 .. .

 0 0  0  1  1  .. .

Pero existe un problema con la estructura de los datos en esa matriz. Note como la columna que representa a la constante (que desde ahora llamaremos ι) y nuestras variables binarias mantienen una relación lineal perfecta: ι = Hombre + M ujer Estas tres columnas son linealmente dependientes. Vimos en la sección anterior los problemas que dicha relación engendra: no es posible invertir la matriz X ′ X, por lo que tampoco resulta factible calcular los estimadores. As´ı especificado el problema, obtenemos una matriz que no es de rango completo. Como también vimos en la sección anteriores, el problema estriba en que una de las variables no aporta información adicional. Veamos que pasa cuando se activan y se desactivan las variables binarias en la especificación: 1. Si se trata de un individuo de género masculino:

Salarioi = (α + β4 ) + β1 P romedioi + β2 DedEscolari + ui 2. Si se trata de un individuo de género femenino:

Salarioi = (α + β3 ) + β1 P romedioi + β2 DedEscolari + ui

´ 5.1. VARIABLES DICOTOMICAS

199

3. Si se trata de un “orangután”:

Salarioi = α + β1 P romedioi + β2 DedEscolari + ui Este u´ ltimo caso fue incluido para obviar el problema. La forma en la que especificamos la regresión básicamente señala que la condición de género afecta al emplazamiento de la ordenada en el origen. Esta u´ ltima será α + β4 si se trata de un hombre y α + β3 si se trata de una mujer. Bajo ningún caso, la constante permanecerá inalterada (excepto en el caso que el individuo no sea ni hombre o mujer, cosa que no ocurrirá nunca). En realidad, basta con tener una constante que sea asimilable a un caso (si se trata de un hombre, que la constante sea α y si se trata de una mujer, que sea α + β3 ). No es necesario poner dos variables indicatrices, con una basta:

Salarioi = α + β1 P romedioi + β2 DedEscolari + . . . + β3 M ujeri + ui As´ı, las dos especificaciones quedarán: 1. Si se trata de un individuo de género masculino:

Salarioi = α + β1 P romedioi + β2 DedEscolari + ui 2. Si se trata de un individuo de género femenino:

Salarioi = (α + β3 ) + β1 P romedioi + β2 DedEscolari + ui Esta especificación ya no padece del problema de la multicolinealidad y permite todav´ıa distinguir entre genero masculino y femenino.

200

´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION

Hasta aqu´ı hemos logrado, mediante el u´ ltimo ejemplo, modificar la ordenada en el origen de una regresión. No obstante, es posible que creamos que lo que se altera es la pendiente. ¿Cómo le har´ıamos? Ejemplo 14 Retomemos nuestro problema de la guerra. ¿Ser´ıa posible, en un marco keynesiano, pensar que la propensión marginal a consumir está alterada en tiempo de guerra? Considerando el gran número de personas que se van a luchar y a las restricciones al consumo habitualmente impuestas por los gobiernos en caso de guerras importantes, no sólo es posible sino que resulta razonable pensarlo. Definamos primero la especificación:

Ct = α + βyt + ut Donde Ct es el Consumo privado y yt el Ingreso Neto Disponible. ¿Qué efectos tendrá una guerra en el consumo? De entrada, podemos pensar que el consumo disminuirá, independientemente del ingreso; además, podemos asumir que la propensión caerá también. En otras palabras, ni la ordenada en el origen ni la pendiente deberán ser las mismas según nos situemos en un per´ıodo de Paz o en uno de Guerra. Alterar la ordenada es algo que ya sabemos hacer desde el ejemplo anterior. Creamos la siguiente variable:

Ipaz,t =

1 si hay paz 0 e.o.c.

Incluir esta nueva variable en la especificación nos permitir´ıa ver los efectos sobre la constante de la guerra; para ver tales efectos, pero esta vez en la pendiente, será necesario incluir otra vez la variable binaria, pero ahora multiplicada por el ingreso: Ct = α + γ1 · Ipaz,t + βyt + γ2 · Ipaz,t · yt + ut Veamos qué ocurre con esta especificación en cada caso: En tiempo de Guerra: Ct = α + βyt + ut

´ 5.1. VARIABLES DICOTOMICAS

201

En tiempo de Paz: Ct = (α + γ1 ) + (β + γ2 ) yt + ut Como verán, este sencillo truco permite alterar los parámetros estimados acorde a la presencia—o ausencia—de algún evento que nos intereses. La linea de regresión, en este caso, se parecerá a lo siguiente:

Consumo

Relación en tiempos de paz

Relación en tiempos de guerra Ingreso

Figura 5.1: Efectos de las variables dicotómicas en la l´ınea de regresión

Pero recuerden que la alteración de los parámetros en tiempo de guerra es tan solo una hipótesis de trabajo. Como en todo estudio de carácter cient´ıfico, es necesario que nuestras hipótesis sean falsables. ¿Cómo rechazar´ıamos o aceptar´ıamos la hipótesis de alteración por guerra? Pues en este caso, realizando pruebas de hipótesis, individuales o bien conjuntas, sobre los parámetros que miden dicha discriminación. Nos referimos, claro está a las “γs”. Bastará, para efectos del presente ejemplo, evaluar la hipótesis de nulidad de dichos parámetros mediante el estad´ıstico t de student. Dejamos al lector la responsabilidad de evaluar una observación aberrante. ¿Cómo construir´ıa la variable dicotómica pertinente? también convendrá pensar en un cambio permanente. Si la crisis mexicana de 1994 alteró definitivamente la función de inversión, ¿cuál ser´ıa la variable dicotómica adecuada?

202

´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION

5.1.2. Regresión por pedazos El u´ ltimo ejemplo visto en la sección anterior levanta una pequeña inquietud. Al incluir quiebres estructurales en la especificación mediante variables indicatrices, la función de regresión estimada se vuelve discontinua. ¿Existe alguna manera de evitar dicha discontinuidad? ¿Gráficamente al menos? S´ı, y la solución se llama ´ POR PEDAZOS .4 Considérese la siguiente especificación en la que se R EGRESI ON sospecha de un cambio de tendencia en la fecha t0 : Ct = α + β1 yt + β2 It (t ≥ t0 )(yt − yt0 ) + ut Donde It (•) es una variable indicatriz, igual a uno si se cumple la condición entre paréntesis, t ≥ t0 y cero si no. ¿Cuál es el interés de restar yt0 ? Para averiguarlo, lo más fácil es ver qué le ocurre a la regresión en cada momento del tiempo: 1. Especificación antes del quiebre estructural (la variable indicatriz no se activa, t < t0 ):

Ct = α + β1 yt + ut 2. Especificación después del quiebre estructural (la variable indicatriz está activada, t > t0 ):

Ct = α + β1 yt + β2 (yt − yt0 ) + ut = (α − β2 yt0 ) + (β1 + β2 )yt + ut 3. Especificación en el quiebre estructural (la variable indicatriz se activa, t = t0 ):

Ct0 = α − β2 yt0 + β1 yt0 + β2 yt0 + ut0 = α + β1 yt0 + ut0 4

Ridge Regression en inglés.

´ 5.1. VARIABLES DICOTOMICAS

203

Note como esta u´ ltima especificación es igual a la que obten´ıamos cuando no se hab´ıa activado aún el rompimiento estructural. No cambia la ordenada en el origen ni la pendiente. Ya en las observaciones siguientes, la pendiente se verá alterada, pero partirá del mismo punto donde se quedó la primera.

yt

xt

Figura 5.2: Ejemplo de Regresión por pedazos

Ejercicio 4 Con la finalidad de disipar cualquier duda, lo recomendable es construir la recta de regresión “quebrada” con un ejemplo numérico concreto. Suponga que estima la regresión: yt = α + β1 xt + β2 It (t ≥ t0 )(xt − xt0 ) + ut donde el quiebre está en la observación x3 = 2 y obtiene lo siguiente: 1. α ˆ = 4, 2. βˆ1 = 0.5, 3. βˆ2 = 0.5, Lo u´ nico que necesita hacer es graficar las dos rectas de regresión (no olvide omitir el residual) y constatar que ambas justamente se cruzan cuando xt = 2. Valores de la variable explicativa superiores a dos corresponden a valores—ajustados—de la variable dependiente en la nueva regresión.

204

´ POR PEDAZOS ´ CAPITULO 5. VARIABLES BINARIAS Y REGRESION

Ejercicio 5 Generalizar esto a múltiples quiebres estructurales resulta trivial, por lo que se queda como un ejercicio para el lector. Con esto terminamos la presentación del modelo general de MCO. Hasta este punto hemos hecho uso extensivo de los 7 supuestos establecidos anteriormente. Lo que ahora procede es indagar las consecuencias del rompimiento de algunos de ellos.

Cap´ıtulo 6 Autocorrelación y Heteroscedasticidad A lo largo de los primeros cap´ıtulos hemos llevado a cabo una serie de demostraciones que nos han ilustrado sobre la potencia del método de estimación de M´ınimos Cuadrados Ordinarios. Este u´ ltimo provee estimadores insesgados (la esperanza de los estimadores MCO es el verdadero valor de los parámetros), consistentes (dichos estimadores se aproximan a los verdaderos valores cuando el tamaño de muestra crece) y eficientes (son de m´ınima varianza en la clase de estimadores lineales insesgados). Inclusive hemos visto la forma de llevar a cabo inferencia estad´ıstica con ellos. No obstante, todas y cada una de las demostraciones anteriores ha requerido, en su ejecución, el uso de supuestos. Efectivamente, nos referimos a los famosos siete supuestos esbozados al principio. Las esperanzas que hemos calculado se resuelven muy fácilmente puesto que asumimos que las variables x, las explicativas, no son estocásticas; otras esperanzas se han simplificado al extremo gracias a las propiedades que le atribuimos al término de error (homoscedasticidad e independencia); en infinidad de ocasiones reemplazamos a la variable dependiente por la especificación para avanzar en la prueba, todo el edificio de pruebas de hipótesis descansa sobre una normalidad que le atribuimos al término de error... Una pregunta deber´ıa emerger de esta breve sinopsis: ¿Q U E´ PASA SI UNO DE ESTOS SUPUESTOS NO SE CUMPLE ? Buena parte del programa de investigación en econometr´ıa se ha volcado sobre la cuestión. Una primera respuesta, a manera de intuición, es que las técnicas estudiadas hasta aqu´ı dejan de funcionar. La intuición es atinada pero yerra en detalles 205

206

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

no triviales. Por ejemplo, la no satisfacción del supuesto de homoscedasticidad o el de independencia de los errores no sesga a nuestros estimadores; los vuelve menos eficientes, pero siguen siendo insesgados y consistentes. ¿ Es acaso este problema devastador? Pues definitivamente resulta engorroso tener estimadores poco eficientes; la inferencia que sobre ellos se puede hacer es menos precisa, pero al menos se puede seguir haciendo... ¿Qué hay de la naturaleza de las variables explicativas? Ser´ıa un problema si e´ stas s´ı resultan ser estocásticas? En cierta medida s´ı, s´ı lo es, puesto que complica los cálculos y merma la potencia de algunos resultados, pero el rompimiento de este supuesto tampoco representa el fin de la inferencia en modelos econométricos. En realidad, el—posible—rompimiento de muchos de los supuestos obliga al econometrista a emplear técnicas de prevención y/o corrección elaboradas, pero no le impide hacer su trabajo. Hay tres excepciones notables: el rompimiento del supuesto de ortogonalidad, el de correcta especificación y el de estacionariedad. Las consecuencias de los primeros son tan trascendentales que, de hecho, ocupan gran parte del segundo curso de econometr´ıa al que pronto ingresarán. En cuanto a la noestacionariedad de las series, e´ sta también afecta gravemente la validez de la inferencia econométrica, pero es posible detectarla y, en muchos casos corregirla o tomarla en cuenta. Los elementos teóricos para entender esta cuestión serán estudiados en el curso de Series de Tiempo, una vez madurado el edificio básico de la econometr´ıa. En lo que resta de esta parte nos concentraremos en estudiar tanto la autocorrelación como la heteroscedasticidad. Los nombres que enarbola el t´ıtulo de este apartado, autocorrelación y Heteroscedasticidad, corresponden al rompimiento de dos supuestos del modelo de regresión lineal:

E(u2t ) = σ 2 E(ut uτ ) = 0 ∀ t 6= τ Dichos supuestos establecen que el término de error que acompaña a la especificación debe ser independiente y de varianza constante. Ambos los hemos utilizado en un sinf´ın de ocasiones para avanzar en demostraciones (uno de los casos más ilustrativos es en el de la esperanza de los estimadores). Históricamente se consideraba que el rompimiento de tales supuestos representaba un serio problema y que era indispensable corregir. Mucha tinta se versó al respecto durante décadas; no obstante, en la actualidad la autocorrelación as´ı como la heteroscedasticidad son más bien

´ Y HETEROSCEDASTICIDAD 6.1. AUTOCORRELACION

207

considerados como s´ıntomas de una especificación incorrecta o “inacabada”.1 Lo importante es considerar, al enfrentarse a la autocorrelación y a la heteroscedasticidad, que nuestra especificación no logra retener adecuadamente toda la información pertinente para explicar el comportamiento de la variable dependiente. Algo nos está faltando. En principio, podr´ıamos incorporar más información al modelo; más información relativa a la variable que pretendemos explicar. Si bien es importante entender las técnicas clásicas de corrección, le daremos a este cap´ıtulo un e´ nfasis que consideramos más moderno y, sobre todo, más adecuado. La presentación del tema es por ende heterodoxa, pero, finalmente, facilita enormemente el tratamiento de estos problemas. El plan básico es el siguiente: 1. Entender las consecuencias de una autocorrelación/heteroscedasticidad no corregidas en MCO. 2. Conocer algunas técnicas para identificar dicha autocorrelación/heteroscedasticidad. 3. Conocer algunos métodos—clásicos—para corregir y presentar otras alternativas para lidiar con el problema. El orden no será estrictamente el señalado en la lista anterior; daremos indicios de cada sección entremezclados a lo largo del cap´ıtulo.

6.1.

Autocorrelación y Heteroscedasticidad

Lo primero que hay que saber respecto al rompimiento de estos supuestos es dónde se materializan sus consecuencias. Lo anterior representa una interrogante a la que es fácil responder: Todos los efectos de la autocorrelación y la heteroscedasticidad quedan plasmados en la matriz de Varianza-Covarianza del término de error: def

E (U U ′ ) = Ω Usualmente, al calcular E (U U ′ ), asumiendo que se cumplen los supuestos, obten´ıamos σ 2 IT . Los elementos de la diagonal eran todos iguales (cumplimiento de la homoscedasticidad) mientras que los elementos de los “triangulos” eran todos iguales a cero (cumplimiento de la no-autocorrelación o independencia). Es fácil 1

Sus efectos sobre los estimadores, si bien no son tan inocuos, tampoco invalidan completamente los resultados.

208

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

adivinar qué pasará en caso de no cumplirse alguno de los supuestos mencionados. Empecemos con una matriz Ω afectada por HETEROSCEDASTICIDAD:   u1   u2      ′ E (U U ) = E  ..  × u1 u2 . . . uT    .  uT   u21 u1 u 2 . . . u 1 u T  u2 u 1 u22 . . . u2 uT    = E  .. .. ..  . .  . . . .  uT u1 uT u2 . . . u2T 

En presencia de heteroscedasticidad, E(u2t ) = σt2 . Asumimos que no hay autocorrelación, por lo que los triángulos quedan todos con elementos nulos.

E(Uˆ Uˆ ′ )

=

def

=



σ12 0  0 σ2 2   .. .. . . 0 0 Ω

... ... ...

0 0 .. .

. . . σT2

    

´ : Ahora veamos una matriz Ω afectada por AUTOCORRELACI ON

E(Uˆ Uˆ ′ )

=



σ2  a12   ..  . a1T

def

=

Ω

 a21 . . . aT 1 σ 2 . . . aT 2   .. ..  ... . .  a2T . . . σ 2

dónde los elementos ai,j para i, j = 1, . . . , T y i 6= j son elementos no nulos (no todos, al menos.). Conviene tener muy claro cuál es la matriz de VarianzaCovarianza ideal (la que resulta de la satisfacción de ambos supuestos):

´ 6.2. MINIMOS CUADRADOS GENERALIZADOS



1 0  Ω = σ 2  .. .

0 ... 1 ... .. . . . . 0 0 ...

= σ 2 IT

6.2.

209

 0 0  ..  . 1

M´ınimos Cuadrados Generalizados

Aqu´ı introduciremos lo que se conoce en la literatura como M´ınimos Cuadrados Generalizados, M CG. Dicho método es la respuesta a la siguiente pregunta: ¿Cómo corregir la matriz de Varianza-Covarianza2 asumiendo que realmente conocemos la matriz Ω? Sabemos, por desarrollos anteriores que Ω es una matriz definida positiva. Existe entonces una matriz no-singular, que denotamos |{z} P tal que: T ×T

′

P ΩP = IT −1 Ω = P −1 (P ′ ) = (P ′ P )−1 Ω−1 = P ′ P

Transformemos ahora la especificación multiplicándola por la matriz P . Denotaremos con un tilde a las variables as´ı transformadas: P Y = P Xβ + P U ˜ + U˜ Y˜ = Xβ

Ahora verifiquemos nuevamente nuestra matriz Ω con y sin transformación de los datos: 1. Especificación original: E(U U ′ ) = Ω (hay dos supuestos inválidos) 2

Es decir, ¿cómo pasar de cualquiera de las versiones afectadas por autocorrelación/heteroscedasticidad a la forma ideal σ 2 IT ?

210

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

2. Nueva especificación: E U˜ U˜ ′ = E (P U U ′ P ′ ) = P ΩP ′ = IT

Esta simple transformación nos hace recuperar todo lo “perdido” por autocorrelación o heteroscedasticidad al dejar una matriz de Varianza-Covarianza diagonal. Veamos ahora cuáles son las nuevas fórmulas de los estimadores: β˜ =

˜ ′X ˜ X

−1

˜ ′ Y˜ X −1 = (P X)′ (P X) (P X)′ (P Y ) −1

= (X ′ P ′ P X) X ′ P ′ P Y −1 ′ −1 β˜ = X ′ Ω−1 X XΩ Y

Tales estimadores ser´ıan insesgados; para ver esto, reemplazamos Y por la especificación original: −1 ′ −1 β˜ = X ′ Ω−1 X X Ω (Xβ + U ) ′ −1 = β + (X Ω X)−1 X ′ Ω−1 U | {z } N o Estoc´ astico E β˜ = β

En lo que respecta a su varianza, e´ sta ser´ıa la siguiente:3 ˜ = E V ar(β)

˜ = V ar(β) 3

h

β˜ − β

′ ˜ β−β

−1 ′ −1 −1 i X ′ Ω−1 X X Ω U U ′ Ω−1 X X ′ Ω−1 X −1 ′ −1 −1 −1 X ′ Ω−1 X X Ω ΩΩ X X ′ Ω−1 X −1 ′ −1 −1 X ′ Ω−1 X X Ω X X ′ Ω−1 X −1 X ′ Ω−1 X

= E =

Recuerde que ni X ni Ω son estocásticos.

´ 6.2. MINIMOS CUADRADOS GENERALIZADOS

211 ′

Note que en el segundo paso, escribimos (X ′ Ω−1 X)−1 en vez de [(X ′ Ω−1 X)−1 ] , como en principio corresponde. Lo anterior obedece a que (X ′ Ω−1 X)−1 es una matriz simétrica y por ello podemos obviar la trasposición. Para que esto quede claro, recuerde que si una matriz es simétrica, su inversa también lo es (vea la demostración en la página 136). Sabiendo eso, sólo falta constatar que (X ′ Ω−1 X)′ = X ′ Ω−1 X (siendo Ω una matriz de varianza-covarianza, es obvio que es simétrica). Ahora bien, esta transformación tan extraordinaria y curiosamente adecuada de la especificación nos permite obtener resultados tan satisfactorios como en la primera parte del curso; ello era de esperar, puesto que dicha transformación nos permite seguir satisfaciendo los supuestos del modelo. Imaginemos por un momento que no fuimos nosotros los que transformamos los datos mediante la matriz P , que alguien ˜ y apliya nos los entregó as´ı. As´ı, habr´ıamos partido directamente con Y˜ y con X cado MCO. Al satisfacer dichos datos todos los supuestos, lo visto en la primera parte del curso permanece válido, en particular el Teorema de Gauss-Markov. Por lo mismo, estos parámetros son MELI. Al recordar mágicamente lo de la transformación, nos damos cuenta que fue gracias a ella que obtuvimos tales propiedades. Esta técnica de transformación añadida al ya tradicional método de MCO , se llama, como ya hab´ıamos señalado, M CG (GLS, por sus siglas en inglés).

6.2.1. Ejemplos de aplicación de MCG En esta sección vamos a dar dos ejemplos ilustrativos muy sencillos. Recuerde que estamos asumiendo que conocemos la naturaleza del problema, es decir, que conocemos Ω. Ejemplo 15 Presencia de Heteroscedasticidad: Recuerde nuestro modelo: Y = Xβ + U yt = β1 x1t + β2 x2t + ... + βK xKt + ut Imagine que la varianza del término de error es proporcional a una de las variables explicativas, digamos x21t . Esto se podr´ıa representar de la siguiente manera: V ar(ut ) = σ 2 · x21t

De esta manera, hemos incorporado heterocedasticidad en el modelo. Su forma, reiteramos, nos es conocida. Dicha heteroscedasticidad repercutir´ıa en la matriz de Varianza-Covarianza del término de error de la siguiente manera:

212

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION



  V ar(U U ′ ) = σ 2  

x211

0

0 .. .

x212

0

...

≡ Ω

 0 ..  .   ... 0 0 x21t

...

Ahora que ya visualizamos Ω, ¿cómo la transformar´ıamos (es decir, ¿cómo aplicar´ıamos M CG?) la especificación si deseamos recuperar la validez de los supuestos? Dicho de forma más prosaica, ¿cuál es la matriz P ? Pues en este caso, es muy fácil responder; la matriz P ha de adoptar la siguiente forma: 

  P =  

1 x11

0

0 .. .

1 x12

...

...

0 .. . .. .

0

...

0

1 x1T

... ...

     

Dejamos al lector la tarea de comprobar que dicha matriz es la respuesta adecuada para transformar la especificación: P ΩP ′ = σ 2 IT Este ejemplo, particularmente sencillo, indica que lo u´ nico que hay que hacer es dividir todas las variables, yt , xit para i = 1, . . . , K por x1t . Note como, en caso de haber una constante, e´ sta dejar´ıa de serlo para ir acompañada de la variable inversa x11t y el parámetro que originalmente acompañaba a x1t se convertirá en la nueva constante de la regresión. Ejemplo 16 autocorrelación en la especificación: Este ejemplo de autocorrelación es un poco más complejo. Cuando hay autocorrelación en los residuales, E (ut uτ ) 6= 0 donde t 6= τ . La estructura de dicha autocorrelación puede variar mucho. Para fines prácticos, usaremos la que se denomina F ORMA AUTOREGRE ´ se estudiará con mucho detalle en Análisis SIVA DE PRIMER ORDEN , AR(1). Esta de Series de Tiempo. De momento, nos conformaremos con dar la especificación de un término de error AR(1):

´ 6.2. MINIMOS CUADRADOS GENERALIZADOS

213

ut = ρut−1 + ǫt donde ǫ ∼ iidN (0, σǫ2 ) y |ρ| < 1.4 Empezaremos entendiendo algunas propiedades del proceso AR(1). Nos conformaremos con conocer su esperanza y su varianza; la primera es muy fácil de obtener; la segunda,. . . también. 1. Esperanza:

E (ut ) = ρ E (ut−1 ) + E(ǫt ) Si ut es un proceso estacionario, E (ut ) = E (ut−1 ), por lo que, conociendo además las propiedades del ruido ǫ, podemos decir que:

E (ut ) = ρ E (ut ) + 0 (1 − ρ) E (ut ) = 0 E (ut ) = 0 2. Varianza:

E u2t

= E (ρut−1 + ǫt )2 



= E ρ2 u2t−1 + ǫ2t + 2ρ ut−1 ǫt  | {z } var. indep.

= ρ

2

E(u2t−1 )

+

σǫ2

Dado que se cumple el supuesto de homoscedasticidad, E(u2t ) = E(u2t−1 ) 4

La importancia de este u´ ltimo supuesto quedará manifiesta en la sección de Análisis de Series de Tiempo.

214

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION Lo anterior lo podemos aprovechar para acabar se simplificar la expresión de la varianza:

1 − ρ2 E u2t = σǫ2 E(u2t ) =

σǫ2 (1 − ρ2 )

En esta u´ ltima expresión se puede entender la importancia de |ρ| < 1. De ser ρ igual a uno, dividir´ıamos entre cero, lo que dar´ıa paso a una singularidad (una varianza infinita). El caso en que | ρ |> 1 es ligeramente más complejo y se relegará a la segunda parte de este manual. Baste decir por ahora que las operaciones realizadas (igualar esperanzas y varianzas para distintas realizaciones (en t y t − 1) ya no son válidas. Si el parámetro fuera superior a la unidad (en valor absoluto), tendr´ıamos un proceso no-estacionario (lo que ya no corresponde al ruido blanco que definimos al principio). Construyamos ahora la matriz de Varianza-Covarianza del error, Ω: Ω = E(U U ′ )  E(u21 ) E(u1 u2 )  E(u2 u1 ) E(u2 ) 1  =  .. ..  . . E(uT u1 ) E(uT u2 )

 . . . E(u1 uT ) . . . E(u2 uT )   .. ...  . 2 . . . E(uT )

Para facilitar la construcción de dicha matriz, definamos λi = E (ut ut−i ) Esta notación nos proporciona un veh´ıculo muy cómodo para apuntar la varianza y todas las autocovarianzas (es decir, covarianzas entre la variable y sus propios rezagos). Veamos justamente dichas expresiones: 1. La varianza, λ0 : La varianza del ruido ya la hab´ıamos calculado; es sólo cuestión de asociarla a su nuevo nombre.

´ 6.2. MINIMOS CUADRADOS GENERALIZADOS

215

λ0 = E u2t σ2 = 1 − ρ2 2. La primera autocovarianza, λ1 : Se trata de la relación que hay entre ut y ut−1 .

λ1 = E(ut ut−1 ) = E [(ρut−1 + ǫt ) ut−1 ] ρE u2t−1 + E (ǫt ut−1 ) ρλ0 3. La segunda autocovarianza, λ2 : Se trata de la relación que hay entre ut y ut−2 .

λ2 = = = =

E (ut ut−2 ) E [(ρut−1 + ǫt ) ut−2 ] ρλ1 ρ2 λ 0

4. La k-ésima autocovarianza, λk : Se trata de la relación que hay entre ut y ut−k . Aqu´ı nos aprovecharemos de una argucia recursiva puesta en evidencia en los cálculos anteriores:

λ k = ρk λ 0 dónde k = 0, 1, 2, ...T .

216

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

Ya con esta información podemos rellenar con facilidad la matriz Ω: 5  . . . λT . . . λT −1  ..   ... .  ..  λ0 .  λ0   1 ρ ρ2 . . . ρT −1  1 ρ . . . ρT −2   ..    1 ρ .  = λ0   ..  ...  .  1 

λ0 λ1 λ2  λ0 λ1   λ0 Ω =   

Ahora que ya conocemos la forma de Ω, podemos proceder a su descomposición con objeto de obtener la matriz P . Es esta u´ ltima la que usaremos para transformar la especificación y as´ı poder aplicar M CG. Conviene recordar que P es una matriz tal que P ′ P = Ω−1 . La obtención de P suele llevarse a cabo numéricamente6 usando el método de Choleski. Vamos a ilustrar este método usando un ejemplo muy sencillo con T = 2. Retomando nuestra matriz Ω en este caso muy reducida... σ2 1 ρ Ω = 1 − ρ2 ρ 1 " 2 # 2 =

σ 1−ρ2 ρσ 2 1−ρ2

ρσ 1−ρ2 σ2 1−ρ2

A esta matriz tan sencilla se le puede calcular rápidamente su inversa. Empecemos por el determinante:

|Ω| = σ = 5 6

4

1 − ρ2 (1 − ρ2 )2

σ4 (1 − ρ2 )

Dado que la matriz es simétrica, sólo presentamos uno de sus triángulos y la diagonal. Es decir, lo hace un programa de computadora.

´ 6.2. MINIMOS CUADRADOS GENERALIZADOS

217

Ahora s´ı, calculemos la inversa:

Ω−1

# " 2 −ρσ 2 σ (1 − ρ2 ) 1−ρ 2 2 1−ρ = −ρσ 2 σ4 σ4 1−ρ2 1−ρ2 1 1 −ρ = σ 2 −ρ 1 −2 σ −ρσ −2 = −ρσ −2 σ −2

Es con esta matriz que ilustraremos la obtención de la matriz P . Como ya hab´ıamos señalado, se utiliza el método de Choleski, más precisamente el método de descomposición de Choleski. Recordemos que nuestro objetivo es encontrar una P tal que P ′ P = Ω−1 . La matriz de Choleski—que será en u´ ltima instancia la matriz P —de hecho es triangular.7 Esto nos permite escribir lo siguiente: −2 a11 a21 a11 0 σ −ρσ −2 = 0 a22 a21 a22 −ρσ −2 σ −2 | {z } | {z } {z } |

P′

P

Ω−1

Ya nada más falta saber que valen los elementos a11 , a21 y a22 . En cuanto los conozcamos, sabremos como está compuesta la matriz P . ¿Cómo obtenerlos? Pues en este caso es muy fácil. Podemos establecer los cálculos matriciales elemento por elemento del producto P ′ P que permiten obtener los elementos de la matriz Ω: 1. a211 + a221 = σ −2 2. a21 a22 = −ρσ −2 3. a222 = σ −2 Esto, como podrán ver, constituye un sistema de tres ecuaciones con tres incógnitas. Lo podemos resolver; manipulando adecuadamente, obtenemos:8 7

Es decir, uno de sus triángulos está compuesto por ceros. Dicha caracter´ıstica es en realidad la argucia que permite obtener la descomposición 8 Note que este desarrollo también nos brinda una matriz P si nos quedamos con las ra´ıces negativas. Gracias a Luis Antonio Gómez Lara por este comentario.

218

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

1. a22 = σ −1 2. a21 = −ρσ −1 p 3. a11 = σ −1 1 − ρ2

Ahora colocamos los elementos en su lugar y obtenemos la matriz P : p (1 − ρ2 ) 0 −1 P =σ −ρ 1 Como bien dijimos al principio, lo anterior es nada más una ilustración de la descomposición de Choleski. Cuando la matriz es más grande, (T > 2), tendremos que resignarnos a que una computadora haga el cálculo. Cuando el término de error es AR(1), pero T > 2, la matriz P es la siguiente: p (1 − ρ2 ) 0 . . . . . .  ...  −ρ 1  ... P = σ −1  0 −ρ 1   .. ...  −ρ 1 . 0 . . . 0 −ρ

 0 ..  . ..  .   0 1

Pues hemos obtenido por fin la matriz que nos permite transformar la especificación y recuperar el supuesto de independencia de los errores. Dejamos al cuidado del lector la comprobación de los cálculos. Sugerimos, para este efecto, pensar en una matriz Ω de 3 × 3. Y es aqu´ı donde vale la pena hacer una anotación trascendental. M CG padece de una pequeña complicación: ´ E N LA P R ACTICA N O C ONOCEMOS Ω. Sin conocimiento de la matriz Ω, resulta imposible calcular la otra matriz, con la que transformaremos toda la especificación (P ). Es cierto que podr´ıamos estimarla, por lo que al método se le agrega una sigla y se transforma en Feasible GLS (FGLS), o bien M CG Factibles (MCGF). Pero entonces la magia de la transformación ya no opera con tanta fluidez y sobre todo, es necesario preocuparse por estimar Ω. En caso de equivocarnos, o de proveer un estimador inapropiado, es muy probable que el remedio resulte peor que la enfermedad.

6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO219

6.3.

Consecuencias del rompimiento de supuestos sobre MCO

Para dimensionar adecuadamente la magnitud del problema, es necesario conocer los efectos de la autocorrelación y la heteroscedasticidad sobre nuestros ya conocidos estimadores de MCO. Esto lo llevaremos a cabo recordando que todos los demás supuestos s´ı se cumplen; los u´ nicos que no son los siguientes: E (u2t ) = σ 2 E (ut uτ ) = 0 Recordemos también que hab´ıamos definido la matriz de Varianza-Covarianza del término de error como: def

E (U U ′ ) = Ω

6.3.1. ¿Sesgo bajo autocorrelación o heteroscedasticidad? Estudiemos primero si la propiedad de no-sesgo en los parámetros estimados de MCO se ve alterada cuando hay autocorrelación y/o heteroscedasticidad. En realidad, se trata de la misma demostración que cuando presentamos en modelo generalizado de MCO. Partamos de la fórmula de los estimadores: −1 βˆ = (X ′ X) X ′ Y −1 = (X ′ X) X ′ (Xβ + U ) −1 βˆ = β + (X ′ X) X ′ U |{z} | {z } N o Estoc´ astico Esperanza nula E βˆ = β

Es importante tener claro que para obtener la esperanza de los estimadores no fue necesario tener en cuenta ni la independencia del término de error ni su homoscedasticidad; por lo mismo de concluye que el rompimiento de dichos supuestos no afecta a la propiedad de Estimadores insesgados de MCO: ´ EN L OS E STIMADORES DE MCO P ERMANECEN I NSESGADOS A UN ´ P RESENCIA DE AUTOCORRELACI ON Y / O H ETEROSCEDASTICIDAD .

220

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

6.3.2. Varianza bajo autocorrelación o heteroscedasticidad En realidad estos supuestos, cuando no se cumplen, inciden particularmente en la ´ varianza de los estimadores. Estos, adelantándonos un poco, pierden su condición de eficiencia. Más grave aún, invalidan las fórmulas que conocemos para estimar dichas varianzas. Para ver todo esto, retomemos el modelo de regresión simple, pues resulta mucho más esclarecedor: yt = α + βxt + ut Recuperemos una de las expresiones que hab´ıamos desarrollado para dicho modelo: 2 ˆ = E βˆ − β V ar(β) X 2 = E K t ut

= E (K1 u1 + K2 u2 + . . . KT uT )2 = E K12 u21 + K22 u22 + . . . KT2 u2T + 2K1 K2 u1 u2 + 2K1 K3 u1 u3 + . . . +2Ki Kj ui uj + . . . + 2KT −1 KT uT −1 uT )

Acabemos de desarrollar esta expresión, sólo que bajo diversos escenarios. Empezaremos asumiendo que se cumplen los supuestos, después relajaremos uno (heteroscedasticidad), luego relajaremos otro (independencia) y remataremos relajando ambos. 1. No hay ni Heteroscedasticidad, ni autocorrelación:

X V ar βˆ = σ 2 Kt 2 = P

σ2 (xt − x¯)2

6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO221 2. Hay heteroscedasticidad, pero no autocorrelación:

ˆ = E K 2 u 2 + . . . + K 2 u2 V ar(β) 1 1 T T = K12 σ12 + . . . + KT2 σT2 X = Kt2 σt2 P 2 σt = P (xt − x¯)2

3. Hay autocorrelación, pero no heteroscedasticidad: 2 ˆ = P σ + 2K1 K2 σ12 + 2K1 K3 σ13 + . . . V ar(β) {z } (xt − x¯)2 | 6=0

2

(x1 − x¯)(x2 − x¯) σ 2 σ12 + 2 + 2 P (xt − x¯) (xt − x¯)2 (x1 − x¯)(x3 − x¯) 2 P 2 σ13 + . . . (xt − x¯)2

= P

donde σij = E(ui uj ).

4. Hay heteroscedasticidad y autocorrelación:

ˆ = P V ar(β)

P

σt2 (x1 − x¯)(x2 − x¯) 2 σ12 + 2 + 2 P (xt − x¯) (xt − x¯)2

(x1 − x¯)(x3 − x¯) 2 P 2 σ13 + . . . (xt − x¯)2 P 2 2 σt = P 2 [(x1 − x¯)(x2 − x¯)σ12 + 2 + P (xt − x¯) (xt − x¯)2 (x1 − x¯)(x3 − x¯)σ13 + . . .]

222

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

En los casos de 2-4, la fórmula de la varianza de los parámetros difiere de la que conoc´ıamos, que es la que aparece en el primer inciso. Ahora bien, cuando nosotros ejecutemos la regresión, no sabremos si los supuestos de independencia y homoscedasticidad se cumplen; impl´ıcitamente asumiremos que s´ı; por ello, utilizaremos la 2 primera fórmula,9 P(xσt −¯x)2 . Pero si hay heteroscedasticidad y/o autocorrelación, dicha fórmula es perfectamente errónea. El cálculo que hagamos con ella será espurio y no representará un buen estimador—ni de lejos—de las varianzas y covarianzas de los estimadores. Anteriormente, hab´ıamos visto que al usar MCG, recuperabamos la validez de nuestros supuestos; al transformar la especificación, pod´ıamos seguir usando MCO y obtener estimadores MELI. No obstante, conviene recalcar que en los casos 2-4, la demostración que hicimos del Teorema de Gauss-Markov pierde validez.10 Por ende, los estimadores bajo los casos 2,3,y 4 dejan de ser MELI, en contraste con los de M CG. Es importante rescatar que tales estimadores siguen siendo—lineales e—insesgados, pero ya no son eficientes (de m´ınima varianza). ´ Y / O H ETEROSCEDASTICIDAD , LOS E N P RESENCIA DE AUTOCORRELACI ON ´ E FICIENTES ; YA N O S ON DE E STIMADORES DEJAN DE SER LOS M AS M Í NIMA VARIANZA .

6.4.

Pruebas de Detección

Hasta ahora, hemos definido la autocorrelación y la heteroscedasticidad; descubrimos también en el Método de M´ınimos Cuadrados Generalizados una técnica fantástica para corregir de forma idónea esos “problemas”. Como bien se ha dicho, M CG requiere el conocimiento de Ω,la matriz de Varianza-Covarianza del término de error. Dicha matriz, de hecho rara vez es conocida. Nosotros usualmente tomamos datos, corremos nuestra regresión inocentemente y ya luego nos empezamos a preocupar por la satisfacción de los supuestos. Existen formas de estimar Ω y corregir por M CG, pero primero nos concentraremos en conocer algunas de las técnicas de detección de rompimiento de supuestos. N OTE QUE CADA P RUEBA ASUME S UPUESTOS M UY E STRICTOS R ESPECTO A LA E STRUCTURA DEL E RROR. 9

Reemplazando la varianza del error por su estimador, claro está. En esa demostración, usamos los supuestos que ahora estamos rompiendo. Vea dicha demostración en las páginas 69 (modelo lineal simple) y 137 (modelo multivariado). 10

´ 6.4. PRUEBAS DE DETECCION

223

6.4.1. Detección de la Heteroscedasticidad Existen muchas pruebas de heteroscedasticidad en el mercado. Cada una de ellas puede resultar más o menos adecuada según el contexto. En realidad, ahora que entendemos cuál es la filosof´ıa estándar detrás de una prueba de hipótesis, nos conformaremos con proponer algunas sin entrar en detalles ni demostraciones. En particular expondremos dos; la Prueba de Goldfeld-Quandt y la Prueba de White. En todas ellas, la hipótesis nula, H0 , es H OMOSCEDASTICIDAD mientras que la alternativa será H ETEROSCEDASTICIDAD. La Prueba de Goldfeld-Quandt Retomando un poco lo dicho en la u´ ltima frase del párrafo anterior, definimos la hipótesis nula y la alternativa, en este caso, de la prueba Goldfeld-Quandt. La heteroscedasticidad que sugiere esta prueba es una en la que la varianza del error es proporcional a alguna de las variables explicativas: 1. H0 : σt2 = σ 2 para todo t = 1, 2, . . . , T , 2. Ha : σt = κxi . De ser válida la hipótesis alternativa, podemos esperar que la varianza del error sea grande cuando la variable xi es grande y sea chica en caso contrario. Con base en esto u´ ltimo, es razonable pensar que un estimador de la varianza del error usando u´ nicamente los estimados del residual correspondientes a valores grandes (pequeños) de la variable xi sea también grande (pequeño). I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA G OLDFELD -Q UANDT: Ordenar los datos yt , x1t , ...xkt según el orden creciente de la variable explicativa xi que supuestamente afecta a la varianza del error. Borrar un número arbitrario de observaciones pertenecientes a la parte central de la muestra, digamos d = 51 . Se recomiendo hacer lo anterior con objeto de exacerbar la diferencia entre las varianza del principio de la muestra y la del final de la muestra. Correr dos regresiones: una para cada submuestra (las cuales son de tamaño: (T −d·T ) ). La primera regresión se hace bajo el supuesto de que deber´ıa estar 2 asociada a una varianza de error chica mientras que la segunda deber´ıa estar asociada a una varianza de error grande.

224

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION Calcular para cada regresión la SCE: • Varianza Chica: SCE1

• Varianza Grande: SCE2

Es posible demostrar que, si se cumple los supuestos de no-autocorrelación y normalidad del término de error bajo la hipotesis nula de homoscedasticidad, el estad´ıstico de Goldeld-Quandt (GF) se distribuye como una F: SCE2 ∼ F(T −dT −2K)/2, (T −dT −2K)/2 g.l. SCE1 Note que los grados de libertad corresponden a los de la suma de cuadrados del error de una regresión normal. Se asume que, en total, se restaron dT datos del centro de la muestra, por lo que sólo quedan T (1−d) observaciones. Ambas submuestras son del mismo tamaño, por lo que la muestra en ambos casos incluye T (1 − d)/2 observaciones; en ambas regresiones se estima el mismo número de parámetros, es decir, K, por lo que al final sólo quedan T (1−d)/2−K = T −dT −2K)/2 grados de libertad, tanto para el numerador como para el denominador.11 Como verán, el procedimiento es bastante sencillo. La lectura de la prueba F ya ha sido estudiado con anterioridad y por lo mismo, no lo detallaremos. Ejercicio 6 Como ya se señaló, existe un sinfin de pruebas en econometr´ıa. Las relativas a heteroscedasticidad son bastante numerosas. En este ejercicio, se le pide que busque información relativa a la que propuso H. Glejser en 1969.12 Ya documentada, prográmela en el lenguaje de su preferencia (aunque se recomienda ampliamente hacerlo en Matlab.) La prueba de White La prueba de White, como dijimos al principio, establece que la hipótesis nula es ´ cohomoscedasticidad, mientras que en la alternativa hay heteroscedasticidad. Esta bra una forma funcional que la hace dependiente de algunas variables explicativas 11

Con agradecimientos para Sandra Thal´ıa Gómez España, quien notó un error en los grados de libertad (en una versión anterior). Más información sobre esta prueba puede obtenerse en http://en.wikipedia.org/wiki/Goldfeld%E2%80%93Quandt_test, o bien en el art´ıculo original (ver bibliograf´ıa). 12 H. Glejser (1969) A New Test for Heteroskedasticity. Journal of the American Statistical Association, vol. 64, pp. 316-323.

´ 6.4. PRUEBAS DE DETECCION

225

(o incluso exógenas a nuestra especificación) al cuadrado o multiplicadas entre s´ı. Suponga la siguiente especificación: Yt = Xβ + U En caso de haber heteroscedasticidad tal y como la define White, tendr´ıamos:13 2 2 u2t = γ + δ1 Z1t + δ2 Z1t + δ3 Z2t + δ4 Z2t + . . . + ǫt

Como ya se señaló, las variables Zi,t pueden ser algunas de las variables xi , un subconjunto de ellas o inclusive otras variables distintas. Las hipótesis relevantes son: 1. H0 : E (u2t ) = σ 2 para todo t = 1, 2, . . . , T 2 2. Ha : E (u2t ) = γ + δ1 Z1t + δ2 Z1t + . . . + ǫt

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE W HITE : Estimar la especificación por MCO Obtener los residuales estimados, uˆt Estimar, también por MCO, la siguiente regresión:

uˆt 2 = γˆt + δˆ1 x1t + δˆ2 x21t + δˆ3 x1t x2t + . . . δˆ4 x2t + δˆ4 x22t + δˆ5 x1t x2t + δˆK x2Kt + νˆt Calcular el siguiente estadistico de prueba: d

W = T × R2 ∼ χ2Pg.l Dónde P es el número de parámetros incluidos en la regresión auxiliar sin tomar en cuenta la constante. 13

No se exponen en la especificación, pero de hecho también es posible incluir los productos cruzados de las variables.

226

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

Existen muchas más pruebas de heteroscedasticidad. Su funcionamiento puede considerarse análogo a las aqu´ı presentadas en el sentido siguiente. Llevar a cabo una prueba de hipótesis requiere del usuario, conocimiento de la hipótesis nula as´ı como de la distribución del estad´ıstico de prueba en caso de ser cierta. Si se entiendió bien como funcionan las pruebas expuestas en las primeras páginas de este documento, interpretar otras que no aparecen aqu´ı deber´ıa resultar relativamente fácil.

6.4.2. Detección de la autocorrelación Si se revisa un poco la literatura concerniente a las pruebas de hipótesis en econometr´ıa, se descubre con asombro la fenomenal cantidad de esfuerzos dedicados a la detección de autocorrelación. Hace ya más de 30 años, un estudio sobre la cuestión cobró gran importancia y es hoy en d´ıa utilizado: se trata de la famosa prueba de autocorrelación de orden uno, la Durbin-Watson; posteriormente, muchas otras más han salido; e´ stas son más sofisticadas, más flexibles y eventualmente, más poderosas. Pero también son más “estándar”. Por otra parte, la autocorrelación tiene una franca conexión con el análisis de tiempo y e´ ste ha aportado mucho a su detección as´ı como a su control. Por estas razones presentaremos tres pruebas: la Durbin Watson, la Breuch-Godfrey y el autocorrelograma/Estad´ıstico Q. La prueba Durbin-Watson La prueba Durbin-Watson es ya clásica. Actualmente todav´ıa se le toma en cuenta para estudiar un posible problema de autocorrelación de primer orden14 aunque ´ E SPURIA.15 también se usa para detectar un posible problema de R EGRESI ON Justamente, Durbin y Watson asumen que, en caso de haber un problema de autocorrelación, e´ ste adoptar´ıa la siguiente estructuración: ut = ρut−1 + Vt donde Vt es un ruido blanco (independiente y homoscedástico). Las hipótesis que manejan son las siguientes: 1. Independencia: H0 : ρ = 0 2. autocorrelación de primer orden, AR(1): Ha : ρ 6= 1 (|ρ| < 1) 14 15

es importante recordar siempre que la DW sólo sirve para autocorrelación de primer orden. La regresión espuria será estudiada en la sección de Series de Tiempo.

´ 6.4. PRUEBAS DE DETECCION

227

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE D URBIN WATSON : Estimar la especificación de interés por MCO y recuperar los residuales estimados, uˆt Calcular el estad´ıstico de prueba siguiente: DW =

PT

(ˆ ut − uˆt−1 )2 PT ˆ2t t=1 u

t=2

Discriminar entre la hipótesis nula y la alternativa utilizando la tabla de valores cr´ıticos provista por Durbin y Watson. En ella aparecen los valores DL y DU necesarios:a 1. Si el Estad´ıstico DW < DL : se rechaza H0 : evidencia de autocorrelación positiva. 2. Si el Estad´ıstico DL < DW < DU o bien 4 − dU < DW < 4 − DL : no hay evidencia suficiente para aceptar o rechazar H0 : sin decisión.

3. Si el Estad´ıstico DW > 4 − DL : se rechaza H0 : evidencia de autocorrelación negativa.

a

Dichos valores son función del número de observaciones, T as´ı como del número de parámetros excluyendo a la constante.

La figura (6.1) explica de forma más elocuente esta regla de decisión: Es fácil entender porque el estad´ıstico DW suele caer entre cero y cuatro. Retomemos la fórmula y desarrollémosla un poco... P

(ˆ ut − uˆt−1 )2 P 2 DW = uˆt P P 2 P uˆt + uˆ2t−1 − 2 uˆt uˆt−1 = P ˆ2 Ut

Las primeras dos sumas en el numerador (en gris) son virtualmente iguales. Si nos autorizamos una pequeña imprecisión, podr´ıamos tomarlas como iguales, en cuyo

228

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

Se acepta H0

Indecisión

Indecisión

Se rechaza H0

Se rechaza H0

dL

dU

2

4−dU

4−dL

>4

Figura 6.1: Regla de decisión de la Durbin-Watson

caso ser´ıa fácil seguir el desarrollo: P uˆ2t − 2 uˆt uˆt−1 P 2 DW ≈ uˆt P 2 P uˆt uˆt uˆt−1 ≈ 2P 2 − 2 P 2 uˆt uˆt P uˆt uˆt−1 ≈ 2−2 P 2 uˆt 2

P

La parte de la expresión que aparece en tinta gris no es otra cosa sino la correlación entre uˆt y uˆt−1 . Esto es fácil de entender si recordamos que, por construcción, el término de error estimado tiene media cero. Llamando ρˆ1 a dicha correlación, podemos expresar la u´ ltima ecuación de la siguiente manera: DW ≈ 2 (1 − ρˆ1 ) Aqu´ı ya nada más resta recordar que una correlación cobra valores cernidos entre −1 y 1. Note que si la correlación entre Uˆt yUˆt es cercana a la unidad en valor ab-

´ 6.4. PRUEBAS DE DETECCION

229

soluto, tendr´ıamos el problema de autocorrelación. Supongamos entonces los casos extremos relevantes: 1. Si ρˆ1 = −1: autocorrelación negativa y DW ≈ 4 2. Si ρˆ1 = 1: autocorrelación positiva y DW ≈ 0 3. Si ρˆ1 = 0: No-autocorrelación y DW ≈ 2 La prueba de Durbin-Watson constituyó un gran avance en su tiempo; no obtante, con el paso de e´ ste, sus limitaciones se hicieron más evidentes; entre ellas destaca su medición exclusiva de la autocorrelación de primer orden. Si bien este orden es probablemente el más pertinente en estudios emp´ıricos, otros más elaborados (por ejemplo, relacionados con cuestiones estacionales, por ejemplo) también pueden ser importantes. La prueba Breuch-Godfrey La prueba de Breuch-Godfrey (BF ) se ha convertido con el tiempo en uno de los instrumentos más socorridos para probar correlación serial16 entre los residuales. Su popularidad obedece, no sólo a la robustez de la prueba sino también a que aparece pre-programada un programa de estimación muy popular. No es, reiteramos, la u´ nica prueba, pero s´ı una muy usada. Suponga, como siempre, la siguiente especificación: Yt = Xβ + U En caso de haber autocorrelación tal y como la supone la prueba Breuch-Godfrey, tendr´ıamos: ut = γ + δ1 x1t + δ2 x2t + . . . + δK xKt + ρ1 ut−1 + . . . + ρq ut−q + ǫt Las hipótesis relevantes son: 1. H0 : E (ut uτ ) = 0 para todo t 6= τ 2. Ha : E (ut uτ ) 6= 0 para al menos un t 6= τ 16

Correlación Serial es otro nombre que se le da a la autocorrelación.

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

230

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE B REUCH G ODFREY: Estimar la especificación por MCO Obtener los residuales estimados, uˆt Estimar, también por MCO, la siguiente regresión:

uˆt

=

γˆ + δˆ1 x1t + δˆ2 x2t + . . . + δˆK xKt + ρˆ1 uˆt−1 + . . . +

ρˆq uˆt−q + ǫˆt Calcular el siguiente estad´ıstico de prueba:a d

BG = T × R2 ∼ χ2Lg.l Dónde L es el número de parámetros incluidos en la regresión auxiliar; la R2 es la asociada a la regresión auxiliar. a

La distribución es válida bajo la hipótesis nula.

La advertencia hecha en la sección correspondiente a las pruebas de heteroscedasticidad aplica también aqu´ı as´ı que, corriendo un grave riesgo de ser criticados por repetitivos, reiteramos lo siguiente: existen muchas más pruebas de autocorrelación. Su funcionamiento suele ser análogo al de las pruebas aqu´ı presentadas. Llevar a cabo una prueba de hipótesis requiere del usuario, conocimiento de la hipótesis nula as´ı como de la distribución del estad´ıstico de prueba en caso de ser cierta. Si se entendió bien como funcionan las pruebas expuestas en las primeras páginas de este documento, interpretar otras que no aparecen aqu´ı deber´ıa resultar relativamente fácil. El correlograma y la Q de Ljung-Box El Correlograma En la sección relativa a la aplicación de M CG, e´ sta se ejemplificó asumiendo que los residuales se rigen por un proceso que denominamos AR(1): Autoregresivo de Primer Orden. Para poder “llenar” la matriz Ω calculamos ´ DE AUTOCOVARIANZA de dicho proceso. Ahora bien, si procedela F UNCI ON

´ 6.4. PRUEBAS DE DETECCION

231

mos por analog´ıa, podremos intuir que la existencia de Autocovarianzas autoriza la ´ existencia de autocorrelaciones. Estas no ser´ıan otra cosa sino las Autocovarianzas divididas por la Varianza. Recordemos primero la fórmula clásica de la correlación, usando la letra r para definirla: Cov(x, y) σx σy

rxy =

Si esa es la manera de obtener la correlación entre dos variables, x y y, entonces, la autocorrelación del ruido ser´ıa: Cov(ut , ut−i ) σu σu Cov(ut , ut−i ) = V aru

ri =

para i = 1, 2, . . . Ahora bien, ya hab´ıamos hecho el cálculo de las autocovarianzas; las expresiones obtenidas las hab´ıamos definido en función de el parámetro del AR(1), ρ, as´ı como de la varianza, que denotamos λ0 . Podemos aprovecharnos de esos resultados para ver mejor el comportamiento de la Función de autocorrelación. Empecemos con la autocorrelación entre ut y ut , la cual, según nuestra notación ser´ıa r0 : ⇒ r0 =

λ0 =1 λ0

Lo mismo puede hacerse con r1 y r2 : r1 = r2 =

ρλ0 =ρ λ0

ρ2 λ 0 = ρ2 λ0

Siguiendo un razonamiento recursivo, podemos obtener la Función de autocorrelación, que denominaremos F AC:

ri =

1 ρi

si i = 0 e.o.c.

232

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

1

0

1

2

3

4

−1

Figura 6.2: Correlograma de un AR(1)

Donde e.o.c. quiere decir En otro caso. La forma más elocuente de comprender la F AC es graficándola; la figura en s´ı se llama C ORRELOGRAMA: Es claro que si el proceso no sólo no obedece a un AR(1), sino que además es iid, no sólo el supuesto de M CO se ver´ıa cumplido, sino que además esto se reflejar´ıa en una F AC “sin picos”; es decir que todas las autocorrelaciones deberán ser iguales a cero: La simple observación de la F AC nos permitiria percibir la presencia de autocorrelación. En este caso, el ejemplo fue un AR(1) pero lo cierto es que si el ruido no es iid, su estructura deber´ıa reflejarse en el correlograma: deberán aparecer picos reflejando la relación de ruido con su propio pasado. No es incorrecto pensar que el correlograma es una “fotograf´ıa” de la memoria de los datos. Es aqu´ı donde conviene hacer una aclaración. Las F AC con las que hemos trabajado hasta ahora son teóricas, están calculadas asumiendo que el ruido tiene una estructura particular, en este caso un AR(1). El hecho es que la estructura de los residuales también nos será desconocida al momento de estimar nuestra regresión. No tiene sentido trabajar con F ACs teóricas, puesto que no sabr´ıamos cual usar.17 17

Quizá el lector adivinó, al estudiar el AR(1), que e´ ste puede generalizarse a AR(p) con p = 1, 2, . . .; cada uno de ellos tendr´ıa una F AC distinta. De hecho, el chiste es calcular la versión muestral de la F AC y tratar de aparejarla con una F AC teórica, con el objeto de aproximar la estructura del residual. Todo esto será visto con detalle en Análisis de Series de Tiempo. No conviene

´ 6.4. PRUEBAS DE DETECCION

233

1

0

1

2

3

4

−1

Figura 6.3: Correlograma de un ruido blanco iid’

Por lo mismo, necesitamos estimar dicha F AC; la fórmula para hacer esto es: PT uˆt uˆt−i rî = t=i+1 PT ˆ2t t=1 u Aqu´ı podemos confiar en la convergencia—en probabilidad—del estimador de la autocorrelación estimada a su verdadero valor, sea este cero o no. De hecho, se ha demostrado que si las verdaderas autocorrelaciones son cero, el estimador de e´ stas se distribuye como una normal: 1 rî ∼ N 0, T Ello permite construir intervalos de confianza, al interior de los cuales, dicha autocorrelación es cero. La fórmula de tales intervalos se puede aproximar de la siguiente manera: 2 Iconf. ≈ +/ − √ T En las gráficas siguientes se puede observar el cálculo de la F AC muestral tanto de un ruido blanco (que satisface los supuestos la regresión) como de un proceso AR(1) y de otro proceso AR(p) cuya memoria, p dejaremos sin aclarar: aqu´ı adelantar demasiado puesto que se correr el riesgo de confundir conceptos.

234

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION (a)

1.0 0.5 0.0 −0.5 −1.0

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

8

9

10

11

12

13

14

8

9

10

11

12

13

14

(b)

1.0 0.5 1.0 0.5

0

1

2

3

4

5

6

7 (c)

1.0 0.5 0.0 −0.5 −1.0

0

1

2

3

4

5

6

7

Figura 6.4: Correlogramas muestrales de: (a) un ruido blanco iid, (b) un proceso AR(1), (c) un proceso AR(p)

Note como, aún si no logramos identificar el proceso AR(1) en la tercera figura, si queda claro que no se trata de un ruido iid. Esta evaluación visual es, de hecho, bastante certera en lo que respecta a capacidad de diagnóstico. Para aquellos escépticos de la inspección gráfica, queda la formalización mediante el estad´ıstico Q de Ljung-Box. Estad´ıstico Q de Ljung-Box El estad´ıstico Q, tal y como fue referido en la sección anterior, es obra de Ljung y Box. Se trata de una prueba estad´ıstica cuya hipótesis nula es que no hay autocorrelación de orden k, donde k se refiere al rezago utilizado;18 su fórmula es la siguiente: QLB,k = T · (T + 2)

k X j=1

rˆj2 T −j

Bajo la hipótesis nula, H0 , hay evidencia de que el ruido en cuestión es blanco hasta 18

Siguiendo con nuestra analog´ıa, k se refiere a la extensión de la memoria de la serie

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

235

el k−ésimo rezago y QKB,k ∼ χ2k g.l. .19 El problema principal de la prueba es el mismo que el del correlograma (que no habiamos mencionado aún): ¿Cómo definimos k? Si nuestra k es demasiado pequeña, puede que pasemos por alto alguna autocorrelación importante de orden grande, pero si k es grande, quizá disminuyamos la importancia de alguna autocorrelación alta debido a que esta es promediada con las otras correlaciones, algunas de ellas muy bajas. En pocas palabras, escoger una k grande hace que la prueba pierda potencia y sea más fácil aceptar erróneamente la hipótesis nula. ¿Recuerda el nombre de este tipo de error?

6.5.

Matrices de Varianza-covarianza Robustas

Hasta el momento, hemos explicado en que consiste tanto la heteroscedasticidad como la autocorrelación; hemos expuesto también las consecuencias sobre la regresión del rompimiento de los supuestos correspondientes; hemos, finalmente, propuesto algunas pruebas para detectar dichos rompimientos y un método, M CG, para resolver la cuestión. Retomemos justamente ah´ı, en la u´ ltima l´ınea dedicada a M CG. Para poder utilizar esta técnica de estimación es necesario conocer exactamente cuál es la naturaleza del problema que aqueja a nuestra regresión. En pocas palabras, necesitamos conocer Ω. Esto, a menos que se trate de datos simulados, nunca va a estar a nuestro alcance. Evidentemente, podemos formular algún ˆ pero esto conlleva riesgos. Si nuessupuesto heroico y construir un estimador, Ω, tro heroico supuesto está muy alejado de los que realmente ocurre, es posible que nuestro estimador de la matriz de varianza-covarianza diste mucho del verdadero y, por consiguiente, el remedio que le apliquemos a la especificación resulte más dañino que la enfermedad misma. Ya sabemos, por otra parte, que tanto la heteroscedasticidad como la autocorrelación no sesgan nuestros estimadores, ni los hacen inconsistentes; su u´ nico efecto es volverlos ineficientes (es decir que ya no son de m´ınima varianza). Debe quedar claro que esto no es tan nimio como parece, pero tampoco es el fin del mundo. Personalmente creo que más nos valdr´ıa conformarnos con las propiedades de no-sesgo y consistencia y buscarle una solución más pasiva a la ineficiencia. Casi todas la inferencia estad´ıstica sobre el modelo aqu´ı expuesta se fundamenta en derivaciones probabil´ısticas de la varianza. Lo anterior quiere decir, en otros términos, que la validez de la inferencia hecha con las pruebas depende de que el cálculo de la varianza de los estimadores sea el correcto. En presencia de heteroscedasticidad y/o autocorrelación esto ya no ocurre. Quizá lo más fácil ser´ıa 19

El número de grados de libertad debe ajustarse si se trata de residuales de un modelo ARIM A(p, 1, q); para más detalles, esperar al curso de series de tiempo.

236

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

modificar la fórmula de la varianza de los parámetros estimados de tal suerte que fuera robusta a ambos fenómenos. Esto es básicamente lo que propusieron White (estimación robusta ante heteroscedasticidad u´ nicamente) y posteriormente Newey y West (estimación robusta ante ambos fenómenos, heteroscedasticidad y autocorrelación). El nivel de este curso permite sólo explicar la propuesta de White, pero confiamos en que, una vez entendida e´ sta, la utilización de la otra resulte natural. As´ı pues, en vez de tratar ciegamente de corregir el rompimiento del supuesto de homoscedasticidad, nos hemos de resignar y calcular varianzas que tomen en cuenta la heteroscedasticidad. Como dec´ıamos en el párrafo anterior, ante heteroscedasticidad, las fórmulas de las varianzas de los estimadores ya no son válidas. Suponga el siguiente modelo: Y = Xβ + U



σ12 0 0  0 σ22 0  ...  σ32 Ω =0 . ...  .. 0 ... ...

E(U ) = 0

... ... ... ... 0

0 0 .. .

E(U U ′ ) = Ω(T ×T )



     0 σT2

donde, como hasta ahora, asumiremos que las variables explicativas no son estocásticas. Aqu´ı es importante recordar que, en presencia de heteroscedasticidad: E βˆ = β V ar βˆ = (X ′ X)−1 X ′ ΩX (X ′ X)−1

La fórmula de la varianza que obtuvimos es muy diferente a la que solemos usar cuando asumimos que hay homoscedasticidad. La solución más obvia es reemplazarla por la que acabamos de poner; el problema es que para calcular dicha expresión, necesitar´ıamos un estimador de Ω. Eso es—para todo fin práctico—imposible dado que implica estimar T elementos (σ12 , σ22 , . . . , σT2 ) con u´ nicamente T observaciones disponibles. Cualquier intento de estimación simple y sencillamente no ser´ıa robusto. Afortunadamente, White(1980) encontró una manera de evitar este problema técnico, un artilugio por as´ı llamarlo. En vez de estimar los T elementos de Ω,

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

237

podr´ıamos concentrarnos en estimar X ′ ΩX, cuyas dimensiones son muy inferiores: K × K. Como siempre, en esta vida todo se compra, todo se paga o dicho de otra manera “there is no free lunch”. Para poder hacer este cálculo, necesitaremos hacer un supuesto, que es el que a continuación expresamos: Supuesto 1 Sea X la matriz de dimensiones T × K de variables explicativas no estocásticas; entonces se asume que: 1 ′ XX=Q T →∞ T donde Q es una matriz no singular. l´ım

En realidad, este supuesto no es particularmente restrictivo. Si nuestras variables explicativas fueran estocásticas, el l´ımite arriba expuesto sólo implicar´ıa que dichas variables tuvieran varianza finita, algo bastante plausible, excepto en el caso en que dichas variables no fueran estacionarias. Ahora s´ı, retomemos nuestra nueva fórmula de la matriz de varianza-covarianza, V ar βˆ = (X ′ X)−1 X ′ ΩX (X ′ X)−1 y manipulémosla de tal forma que el nor-

malizador T aparezca en todas partes.20 Dividamos la expresión del lado derecho en tres partes: (X ′ X)

−1

X ′ ΩX (X ′ X)

−1

Por razones que ahora parecen misteriosas, digamos que deseamos normalizar los elementos en tinta gris, mediante una división por T ; hagámoslo pero de tal forma que dejemos inalterada la expresión: T −1 T −1 X ′ X

−1

T · T −1 X ′ ΩXT −1 T −1 X ′ X

−1

Note como, por cada T normalizadora que insertamos, añadimos también un factor T que la elimina. Ahora reagrupemos estos u´ ltimos: T −1 X ′ X

20

−1

−1 −1 T −1 X ′ ΩX T −1 X ′ X T · T · T −1 −1 −1 ′ −1 −1 T −1 X ′ X T X ΩX T −1 X ′ X T

El objetivo de hacer esto es poner en evidencia una expresión en la que aparezca la fórmula del supuesto. Con ello, al sacar l´ımites, podremos obtener Q.

238

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

¡Nos sobra un T −1 ! Eso quiere decir que al normalizar cada elemento de la expresión, acabamos dividiéndola sin querer por T , si queremos que el signo de igualdad siga siendo válido, hay que multiplicar ambos lados por T . Para efectos de notación, la parte izquierda de la expresión incluye al operador Varianza; como sabemos, todo lo que entra en el, opera al cuadrado; por ello, si√queremos multiplicar por T , al interior del operador sólo es necesario hacerlo por T : V ar

√

ˆ Tβ =

T −1 X ′ X

−1

T −1 X ′ ΩX T −1 X ′ X

Si aplicamos el l´ımite a esta expresión, obtendr´ıamos: l´ım V ar

T →∞

√

−1

T βˆ = Q−1 l´ım T −1 X ′ ΩX Q−1 T →∞

Como verán, ya casi tenemos resuelto el l´ımite. Tan solo con la matriz de explicativas, que s´ı tenemos, podemos contar con poder calcular dos tercios de la expresión. El problema, claro está, es el tercio restante: l´ımT →∞ [T −1 X ′ ΩX]. Si conociéramos Ω dicho l´ımite converger´ıa a “algo”, a una matriz espec´ıfica cuyos valores en s´ı no nos interesan. Podr´ıamos denominarla ζ: l´ım T −1 X ′ ΩX = ζ

T →∞

Pero como no conocemos Ω, habremos de darle la vuelta al problema. Concentrémonos pues en esta expresión, la cual, si la desarrolláramos se ver´ıa as´ı: 

x11  x12  X ′ ΩX =  ..  . |



x1K

x11  x21   ..  . xT 1 |

   .. . . . xT 1 σ12 0 . 0    . . . xT 2  2 ...   0 0 σ  · 2 ..  ·  ...  . . .  . . . . . . . . ..  x2K . . . xT K 2 {z } | 0 0 {z 0 σT } (K×T ) T ×T  x12 . . . x1K x22 . . . x2K   ..  .. ... .  . xT 2 . . . xT K {z } x21 x22 .. .

(T ×K)

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

239

La matriz resultante es K × K y un elemento t´ıpico de e´ sta, que denotaremos ǫ, es:21

ǫij =

T X

σt2 xit xjt

(6.1)

t=1

Note que esta matriz es simétrica (¿Por qué? ¡Demuéstrelo!),22 lo que reduce el número de elementos a calcular: 

ǫ11  ǫ21  X ′ ΩX =  ..  .

ǫ22 .. .



...

ǫK1 ǫK2 . . . ǫKK

   

De hecho, el número total de elementos a calcular es:23 K X k=1

2

k=

K2 + K 2

As´ı, tenemos que calcular K 2+K expresiones como (6.1). El problema es que no conocemos las varianzas, σt2 para t = 1, 2, . . . , T . White propuso reemplazarlas de la siguiente manera: cambiar σt2 por uˆ2t . La idea no es tan intuitiva como podr´ıa parecer, puesto que se trata, de reemplazar un parámetro con una u´ nica observación. En realidad, el truco estriba en que no es eso lo que se calcula, sino una suma: 1X 2 1X 2 a uˆt xit xjt = σt xit xjt T T

Hace falta primero ver que, aún si uˆt no es un estimador consistente de ut , s´ı es, al menos, un estimador insesgado. Retomemos desde el principio y desarrollemos para ver esto; empecemos por la especificación estimada:24 21

Note que, al volver a la notación escalar, invertimos el orden de los sub´ındices. Esta pequeña incongruencia entre la notación matricial y la escalar, se hace en aras de una lectura más cómoda. 22 Sabemos que Ω es simétrica, es decir, Ω = Ω′ . Por lo mismo, (X ′ ΩX)′ = X ′ ΩX. 23 Nuevamente. . . ¿Por qué? ¡Demuéstrelo! 24 Recuerde que todos los supuestos menos el de homoscedasticidad se cumplen.

240

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

Y = X ′ βˆ + Uˆ Uˆ = Y − X ′ βˆ ′ Uˆ Uˆ ′ = Y − X ′ βˆ · Y − X ′ βˆ

Reemplazamos Y por la verdadera especificación, Uˆ Uˆ ′ =

′ Xβ + U − X βˆ · Xβ + U − X βˆ ,

y, desarrollando la expresión y sacando esperanza de ambos lados obtenemos:25 E Uˆ Uˆ ′ = E (U U ′ ) = Ω

Ahora s´ı, ya sabemos que uˆ2t es un estimador insesgado de σt2 . Para continuar la demostración, creemos una nueva variable, ν, que permita relacionar a nuestro residual estimado—convenientemente elevado al cuadrado—con la varianza en el periodo t: νt = uˆ2t − σt2

(6.2)

El resultado anterior, as´ı como la no aleatoriedad de las variables explicativas, nos permite hacer las siguientes dos afirmaciones: 1. E (νt ) = 0 2. E (νt xit xjt ) = 0 Manipulando la expresión (6.2), tendr´ıamos (ˆ u2t ) = νt + σt2 . Si reemplazamos σt2 por uˆ2t en la expresión (6.1), convenientemente normalizada por T , tendr´ıamos:

25

1X 2 1X uˆt xit xjt = (νt + σt2 )xit xjt T T 1X 1X 2 = νt xit xjt + σt xit xjt T T

Hay que tomar en cuenta que E βˆ = β.

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

241

La normalización es conveniente puesto que nos permite ahora sacarle el l´ımite a la expresión: 1X 2 uˆt xij xjt = T →∞ T

1X 1X 2 (νt xij xjt ) + l´ım (σt xij xjt ) T →∞ T T →∞ T P Sabiendo que E(νt xij xjt ) = 0 y que T1 (νt xij xjt ) es un estimador consistente (Gracias a la Ley de los Grandes Números; revise la página 61), sabemos que el primer l´ımite es cero: l´ım

l´ım

T −1

X

(νt xij xjt ) = 0

mientras que el segundo l´ımite corresponde a la expresión que necesitábamos; inclusive incluye el término de normalización que nos sal´ıa. Ya sólo es cuestión de ˆ Para que esto quede más claro, retomemos dicha expresión: reemplazar Ω por Ω.

l´ım V ar

T →∞

√

h i ˆ Q−1 T βˆ = Q−1 l´ım T −1 X ′ ΩX T →∞

h i ˆ Como ahora sabemos que el cálculo l´ımT →∞ T −1 X ′ ΩX tiene como mismo l´ımite

la expresión [T −1 X ′ ΩX] (que por cierto denominamos ζ), ya disponemos de un estimador consistente de la matriz de varianza-covarianza de los parámetros: √ −1 −1 ′ −1 −1 ′ −1 ′ ˆ T X ΩX T X X = l´ım V ar l´ım T X X T βˆ T →∞

T →∞

donde,



uˆ21

 0 ˆ =  Ω .  .. 0

 0 ..  .  uˆ22  ... ... 0 . . . 0 uˆ2T 0

... ...

Ya con esto, podemos resumir todo en un pequeño teorema: Teorema 15 Si en una regresión por M CO hay heteroscedasticidad de forma desconocida y si e´ sta satisface los supuestos: la matriz de explicativas, X, es no-estocástica,

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

242

l´ımT →∞ T1 X ′ X = Q (Matriz no singular). h i −1 −1 ′ −1 ′ −1 −1 ˆ T X Ω X [T −1 X ′ X] , es un estimador consistente Entonces,[T (X X) ] de la expresión: √ ˆ l´ım V ar( T β)

T →∞

donde, 

uˆ21

 0 ˆ =  Ω .  .. 0

 0 ..  .  uˆ22  ... ... 0 . . . 0 uˆ2T 0

... ...

En la práctica, no necesitamos V ar suma facilidad:26

√

T βˆ sino V ar βˆ . Esto lo resolvemos con

√ −1 −1 ′ −1 1 1 T βˆ = V ar T −1 X ′ X T X ΩX T −1 X ′ X T T 1 −1 −1 V ar βˆ = · T (X ′ X) T −1 X ′ ΩX · T (X ′ X) T −1 −1 ˆ V ar β = (X ′ X) X ′ ΩX (X ′ X) As´ı es que la fórmula que realmente utilizaremos en la práctica es: −1 −1 ˆ X ′ ΩX (X ′ X) V âr βˆ = (X ′ X)

Que no es otra cosa sino el estimador robusto de la matriz de Varianza-Covarianza de los parámetros en presencia de Heteroscedasticidad (más conocido por sus siglas en inglés HCCM E, Heteroskedasticity Consistent Covarianza Matriz Estimator). Posteriormente, Newey y West desarrollaron un estimador de dicha matriz que de hecho es robusto en presencia tanto de heteroscedasticidad como de autocorrelación. Si bien el principio es análogo al usado por White, el desarrollo es considerablemente más complejo, por lo que no lo expondremos aqu´ı. El nombre de la matriz de Newey West es HAC, también, debido a sus siglas en inglés. Baste con saber 26

La utilización de las “T” obedec´ıa a la necesidad de mostrar que la expresión converg´ıa.

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

243

que es posible utilizarlo fácilmente, ya que está implementado en muchos paquetes de econometr´ıa. Lo importante, lo que hay que retener es lo siguiente: ˜ S I LAS P RUEBAS E STAD Í STICAS S E NALAN LA P RESENCIA DE H ETEROS ´ , UNA S OLUCI ON ´ S ATISFACTORIA CEDASTICIDAD Y / O AUTOCORRELACI ON PUEDE SER EL EMPLEO DE LA M ATRIZ HCCM E O BIEN LA M ATRIZ HAC. ´ SUS VARIAN L OS E STIMADORES P UNTUALES NO CAMBIAN, S I NO S OLO ZAS E STIMADAS , P UESTO QUE N O E STAMOS C ORRIGIENDO N ADA : ´ S OLO LO E STAMOS T OMANDO EN C UENTA . AUNQUE YA N O T ENDREMOS ´ I NSESGADOS Y C ONSISTEN E STIMADORES E FICIENTES , E´ STOS S Í S ER AN ´ A S ER V ALIDA ´ TES Y L A I NFERENCIA E STAD Í STICA VOLVER A . R ECUERDE ´ ´ ´ TAMBI EN QUE TALES E STIMADORES DE VARIANZA S OLO S ON V ALIDOS EN M UESTRAS G RANDES .

244

´ Y HETEROSCEDASTICIDAD ´ CAPITULO 6. AUTOCORRELACION

Cap´ıtulo 7 Ejercicios (i) P REGUNTA # 1 Considere el siguiente modelo de regresión lineal multivariado: yt = β1+ β2 x2t + . . . + βk xkt + ut, para t = 1, 2, . . . , T . 1. Enumere los supuestos del método de M´ınimos Cuadrados Ordinarios. 2. Muestre que βˆ es un estimador insesgado de β. 3. Explique el problema de Multicolinealidad as´ı como sus consecuencias cuando e´ sta se presenta. 4. Sabiendo que todos los supuestos de MCO se cumplen en este caso, demuestre que las medias muestrales de todas las variables pasan por la recta de la regresión. ¯2? 5. ¿Qué toma en cuenta la R P REGUNTA # 2 ¿Cómo se descompone la R2 por variable explicativa? P REGUNTA # 3 245

´ CAPITULO 7. EJERCICIOS (I)

246

Se dispone de varias series: el Índice de actividad Industrial (y) y la tasa de desempleo (x). Se sabe además que: y¯ = 64.5 V ar(Y ) = 0.7 x¯ = 7.4 V ar(X) = 1.6 T = 50 Covar(X, Y ) = −0.04 1. Estime el modelo yt = α + βxt + ut 2. Estudie la significancia estad´ıstica y el significado económico de los parámetros estimados. En espec´ıfico, comente las implicaciones económicas de lo anterior. P REGUNTA # 4 Sea el modelo yt = α + βxγ + ut , dónde se impone la restricción β = 5 al momento de estimar la regresión. ¿ Cuál es la fórmula que nos dar´ıa fácilmente el valor del estimador de α? En caso de no haber restricción, ¿ cuál ser´ıa esa fórmula? P REGUNTA # 5 Responda a las siguientes preguntas: 1. ¿Qué es la R2 ? Especifique la fórmula y explique para qué sirve. 2. Suponga que se estima la regresión yt = α+βxt +ut . Los resultados de dicha estimación pueden apreciarse en la siguiente figura:

Usando la observación A marcada dicha figura, complete el gráfico explicitando la descomposición de la variabilidad de y vista en el análisis de varian¯2? za. ¿Qué toma en cuenta la R P REGUNTA # 6 Considere el siguiente modelo de regresión:yt = α + β(xt − x¯) + ut donde x¯ = 3 y y¯ = 7. ¿ Cuánto vale el estimador de la ordenada en el origen, α ˆ? P REGUNTA # 7

247

Observacion A yt

y

xt

Figura 7.1: Diagrama de dispersión Sabiendo que la prueba de F y la R2 , en un modelo de regresión múltiple, se obtienen mediante las siguientes fórmulas... F=

ESS RSS

R2 = 1 −

·

T −k k−1

RSS T SS

[donde RSS es la suma de residuales al cuadrado, ESS es la suma explicada de cuadrados y T SS suma total de cuadrados], ...obtenga la relación que existe entre el estad´ıstico F y la R2 . P REGUNTA # 8 Se estima la regresión yt = α + β1 x1t + β2 x2t + β3 x3t + β4 x4t + ut y se obtienen los siguientes resultados:

yt =

4.02 +0.96x1t −0.48x2t +0.20x3t +8.97x4t +ut (2.03) (0.07) (0.03) (0.06) (5.45)

Además, se sabe que (i) RSS = 427.54, y (ii) T = 150. Las cifras entre paréntesis corresponden a la desviación estándar el parámetro que está arriba. 1. Calcule los estad´ısticos t de cada parámetro. ¿Qué concluye usted con base en ellos?

´ CAPITULO 7. EJERCICIOS (I)

248

2. El perspicaz econometrista, al comparar su modelo con lo establecido en cierta teor´ıa económica se da cuenta de lo siguiente: No deber´ıa haber constante. El parámetro β1 deber´ıa ser igual a uno. El parámetro β2 deber´ıa ser igual a 0.01 + 2β3 ¿Cómo probar´ıa usted lo anterior? 3. (Continuación del inciso anterior) El mismo econometrista perspicaz corrió la regresión tomando en cuenta las hipótesis señaladas arriba. Al hacerlo, retuvo la RSS que ahora es de 445.12. a) ¿ Qué nombre se le da a la regresión que corrió? b) Sabiendo que el valor cr´ıtico pertinente es V.C. ≈ 2.68, diga si se acepta o rechaza la hipótesis nula (especifique también cuál es dicha hipótesis nula). c) Si desea hacer una prueba de hipótesis conjunta basada en lo dicho en el segundo inciso, ¿qué prueba usar´ıa? Escriba las restricciones. P REGUNTA # 9 Considere el modelo de regresión lineal multivariado: yt = β1+ β2 x2t + . . . + βk xkt + ut donde t = 1, 2, . . . , T y ut simN (0, σ 2 ). 1. Exprese este modelo en forma matricial, indicando las dimensiones de cada matriz o vector. 2. Derive el estimador de MCO (con la notación matricial) del vector de parámetros β. 3. Muestre que βˆ es un estimador insesgado de β. P REGUNTA # 10

249 Una agencia de viajes sabe por experiencia que las ventas de paquetes VTP Acapulco es considerablemente alta durante el verano. En un intento por modelar las ventas de estos paquetes, el director de ventas de dicha agencia propone estimar el siguiente modelo. . . vt = β1+ β2 Pt + β3 P St + β4 Yt + β5 GPt + ut, . . . con datos trimestrales de cada variable de 1993 a 2005 en donde: (i) vt representa las las ventas del VTP Acapulco; (ii) Pt es el precio del VTP; (iii) P St es el precio de un VTP a Puerto Vallarta (bien sustituto); (iv) Yt es el ingreso personal disponible, y; (v) GPt es el gasto en publicidad de los VTP. 1. El director de ventas cree que sólo el gasto en publicidad y el precio de los VTP a Acapulco explican las ventas. ¿Cómo confirmar´ıa esta hipótesis? 2. ¿Cómo probar´ıa que el efecto precio total (es decir de ambos VTP) es igual a uno (versus la hipótesis alternativa de que es distinto a uno)? 3. Explique como estimar´ıa el efecto estacional del per´ıodo vacacional sobre el nivel de ventas. 4. Si quisiera estimar el efecto sobre las ventas de cada estación—trimestre¿ Cómo lo har´ıa? ¿Qué es lo que no hay que hacer para evitar el problema de multicolinealidad? P REGUNTA # 11 Suponga el siguiente modelo no lineal en la variable x : yt = α + βx2t + ut ¿Es factible utilizar el método de MCO? Justifique su respuesta. P REGUNTA # 12 ¿Qué garantiza que, al utilizar adecuadamente el método de MCO, obtengamos buenos estimadores? P REGUNTA # 13 La heteroscedasticidad y la autocorrelación hacen que los estimadores de MCO sean sesgados e ineficientes ¿ Cierto, falso o incierto? justifique su respuesta.

250

´ CAPITULO 7. EJERCICIOS (I) P REGUNTA # 14

Explique detalladamente cómo se corrige la heteroscedasticidad en el modelo de regresión yt = α + βxt + ut cuando sabemos que las varianzas de los errores var´ıan de forma proporcional a la variable explicativa. P REGUNTA # 15 Como bien saben, el PIB (Producto Interno Bruto) se construye con base en la identidad contable siguiente: P IBt = Ct + It + Gt + Xt − Mt En dónde C es Consumo, I es Inversión, G es Gasto de Gobierno, X representa a las Exportaciones y M a las Importaciones. ¿Qué cree usted que pasar´ıa si tratáramos de correr la siguiente regresión? P IBt = β0 + βˆ1 Ct + βˆ2 It + βˆ3 Gt + βˆ4 Xt + βˆ5 Mt + uˆt P REGUNTA # 16 Enumere y explique los supuestos del modelo de regresión multivariado. P REGUNTA # 17 1. ¿Qué es el estad´ıstico Durbin-Watson? Especifique la fórmula, diga para qué sirve y que valores debe adoptar—aproximadamente—bajo la hipótesis nula y bajo la hipótesis alternativa. 2. ¿Cuál es el objetivo de llevar a cabo una estimación robusta de la matriz de Varianza-Covarianza de los residuales? P REGUNTA # 18 Un investigador tiene dos variables y no sabe si correr, yt = α + βxt + ut o bien xt = δ + λyt + vt

251 Antes de probar ambas especificaciones, el investigador tiene una epifan´ıa y declara: ”La relación entre las dos pendientes estimadas es βˆ = 1δˆ ´´. Demuestre que sólo en un caso espec´ıfico semejante especificación es cierta.1 P REGUNTA # 19

1. ¿Usted qué entiende por econometr´ıa? 2. Al ver la notación: iid N (0, σ 2 ) ¿Qué entiende usted? 3. ¿En qué consiste el método de Máxima Verosimilitud? 4. Defina una ecuación lineal entre las variables y y x. 5. Dibújela (invente el valor de los parámetros) 6. ¿Qué es el coeficiente de correlación? 7. ¿Conoce usted la cr´ıtica de Lucas? 8. ¿Qué es un diagrama de dispersión? 9. Dos variables aleatorias, x y y son independientes. ¿Eso qué quiere decir que? P 10. Calcule 500 t=1 t P REGUNTA # 20

En el curso se explicó la técnica de MCO utilizando la especificación siguiente: yt = α + βxt + ut Con base en ella, se minimizó la suma de residuales al cuadrado y se encontraron los ˆ En este ejercicio, se pide que lleve a cabo dicha minimización estimadores α ˆ y β. pero para otra especificación: yt = α + βxt + δzt + yt En espec´ıfico, se le solicita lo siguiente: 1

Ayuda: βˆ =

cov(xt, yt ) var(xt ) ,

δˆ =

cov(xt, yt ) var(yt ) ,

rxy = √

Cov(xt, yt ) var(xt )var(yt )

´ CAPITULO 7. EJERCICIOS (I)

252

1. Encuentre las ecuaciones normales en este caso. 2. Sabiendo que todos los supuestos vistos en el curso también se cumplen para esta especificación, demuestre que las medias muestrales de las variables y, x y z pasan por la recta de regresión. P REGUNTA # 21 Imagine una variable aleatoria y ∼ iidN (0, σ 2 ) as´ı como dos variables no estocásticas x y z. Calcule las siguientes esperanzas: E(xt ) E(yt ) E(yt xt ) P E[ TT =1 yt2 zt ]

P REGUNTA # 22

Al calcular en clase la esperanza de xt ut , ¿qué supuestos usamos para poder obtener el resultado? P REGUNTA # 23 Se sabe que la relación entre xt y yt obedece a la siguiente especificación: yt = α0 xβt exp[ut ] Esta relación no es lineal. 1. ¿Cómo la transformar´ıa para que si lo fuera? 2. ¿Cómo se llama el modelo que obtuvo? 3. Demuestre que β es un estimador de la elasticidad de y con respecto a x. P REGUNTA # 24 ¿Qué establece el Teorema de Gauss-Markov?

253 P REGUNTA # 25 Un microeconomista angustiado y poco respetuoso de la teor´ıa económica desea probar que el número de accidentes automovil´ısticos del individuo i, (Ai ), depende del número de horas que trabaja al d´ıa (Hi ), de la edad (Ei ) y del tipo de veh´ıculo que conduce. Al ver sus datos se da cuenta que e´ stos están clasificados u´ nicamente en tres categor´ıas; automóvil, pesera y motocicleta. Con base en esos datos corre la siguiente regresión: Ai = α + β1 Hi + β2 Ei + β3 P Ei + β4 AUi + β5 M Oi + ui Dónde M O, AU y P E son las variables dummy o indicatrices siguientes:

P Ei =

M Oi =

AUi =

1 si conduce pecera 0 en otro caso

1 si conduce motocicleta 0 en otro caso

1 si conduce automóvil 0 en otro caso

1. ¿Qué le dir´ıa usted a este joven y novato econometrista? 2. Un misógino amigo suyo le afirma con mucha autoridad que el número de accidentes var´ıa según el sexo del conductor ¿Cómo incorporar´ıa usted esa idea en la regresión? P REGUNTA # 26 Suponga que es usted el director del Banco Central de la República Bananera. Cuenta usted con los siguientes datos históricos relativos a la cantidad de dinero y al ingreso nacional (medidos en millones de Pesares Bananeros):

´ CAPITULO 7. EJERCICIOS (I)

254 Año 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

Cantidad de dinero 4.0 5.0 6.4 7.2 6.6 8.0 8.4 9.2 9.6 10.0

Ingreso Nacional 5.0 5.5 6.0 7.0 7.2 7.7 8.4 9.0 9.7 10.0

1. Dibuje la nube puntos (o diagrama de dispersión). 2. Estime una especificación de la demanda de dinero: mt = α + βyt + ut 3. Proporcione una interpretación de la ordenada en el origen y de la pendiente de carácter económico. 4. El primer ministro vitalicio de la República bananera le informa que el objetivo de Ingreso Nacional para el 2005 (esto ocurrió en el pasado) es de 14.0 Millones de pesares bananeros. ¿En qué nivel fijar´ıa usted el suministro de dinero (Dar explicaciones). 5. Su asesor le informa que hubo un problema con la captura de los datos que recibió y que hay que multiplicar por 10 los datos relativos a la cantidad de dinero. Explique teóricamente que efecto tiene esto sobre el estimador de la pendiente. 6. Generalice el inciso anterior para cualquier modificación de los valores: ytM = k1 yt xM = k2 yt t P REGUNTA # 27 Explique que es la estacionariedad.

255 P REGUNTA # 28 ¿En qué consiste la Falacia de la Regresión? P REGUNTA # 29 Una función de producción Cobb-Douglas relaciona la producción,Q , a los factores de producción, capital, K, trabajo,L , materia prima, M as´ı como un término de error, u. Concretamente, la forma funcional es: Q = λK β1 Lβ2 M β3 [exp u] Dónde λ, β1 , β2 y β3 son parámetros de producción. Suponga que tiene usted los datos de la producción as´ı como de los factores de producción en una muestra de empresas que, se sospecha, comparten la función estipulada. ¿ Cómo utilizar´ıa usted el análisis de regresión para estimar tales parámetros? P REGUNTA # 30 Si la matrix (X′, X), donde X es la matriz de variables explicativas de dimensiones T × K, no tiene rango completo, ¿ qué ocurre con los estimadores de MCO? P REGUNTA # 31 1. ¿ Es correcto estimar la siguiente especificación? yt = β1+ β2 x2t + ... + β17 x17t + ut, donde t = 1, 2, . . . , 17 2. Al dibujar la nube de puntos correspondiente, se obtuvo lo siguiente:

Trace la l´ınea de regresión. P REGUNTA # 32 ¿Cuál es la diferencia entre uˆt y ut ?

´ CAPITULO 7. EJERCICIOS (I)

256

yt

Tiempo

Figura 7.2: Variable yt P REGUNTA # 33 Imagine que tiene dos estimadores distintos, el de MCO, βˆM CO , y el de Juan Colorado, βˆJU AN . Pretende emplear uno de ello para estimar la especificación siguiente: yt = α + βxt + ut Juan—Colorado—señala que V ar(βˆM CO ) > V ar(βˆJU AN ). 1. Comente tal afirmación. 2. Por otra parte, Pepe Lucas inventó otro estimador para la misma especifica´ afirma que: ción:βˆP EP E . El E(βˆM CO ) 6= E(βˆP EP E ) ¿Qué opina usted al respecto? P REGUNTA # 34 Se pretende estimar la especificación yt = α + βxt + ut mediante MCO. De hecho, se conocen los siguientes resultados: x¯ = −8 y¯ = −2.5

PT x2 = 2000 PTt=1 2t t=1 yt = 15000

PT

yt xt = 0.25 T = 15 t=1

257 ˆ 1. Calcule los estimadores α ˆ y β. 2. Calcule σ ˆ2. 3. Calcule la R2 . 4. Resulta que los datos que utilizamos son en realidad transformaciones logar´ıtmicas de dos variables: y es el logaritmo del número de accidentes automovil´ısticos de un individuo en 10 años. x es el logaritmo del número de litros de cerveza consumido por ese individuo en esos mismos 10 años. ¿Cómo interpretar´ıa en este caso al estimador de la pendiente? 5. Ahora resulta que se tiene información respecto al género (sexo) de los automovilistas de la muestra. ¿Cómo averiguar´ıa usted si el género del conductor tiene efectos sobre el número de accidentes? P REGUNTA # 35 1. ¿ Qué medidas conoce de bondad del ajuste? 2. ¿ Qué efecto tiene sobre la bondad del ajuste el aumentar el número de variables explicativas? P REGUNTA # 36 Suponga que dispone de una muestra de 20 observaciones correspondientes al modelo: yt = α + βxt + ut donde las u’s están normalmente distribuidas con esperanza cero y varianza constante y son iid. Además, se sabe lo siguiente: P P (¯ y − y )(x − x ¯ ) = 106.4 y − yt )2 = 86.9 t t P P(¯ 2 yt = 21.9 P(xt − x¯) = 215.4 xt = 186.2

´ CAPITULO 7. EJERCICIOS (I)

258 1. Calcule los estimadores de α y β. 2. Calcule el estimador de σ 2 .

3. Calcule la varianza del estimador de la pendiente. P REGUNTA # 37 Indique cuales son los supuestos bajo los cuales funciona MCO y explique que quiere decir cada uno (máximo 3 renglones por supuesto; no se acepta más). P REGUNTA # 38 Suponga que W y R son dos variables independientes distribuidas ambas como normal estándar, que G es una variable no estocástica, que F es una constante y que T = 20. Con base en lo anterior, calcule hasta donde sea posible las siguientes expresiones: E(W ) PN F · Wt Pt=1 N t=1 Gt · Wt

PN

t=1

F·

1 2

E(G) E(T · W · R)

PN

T E(F · W · G) E(F ) t=1

P REGUNTA # 39

Imagine que la verdadera relación (es decir, el verdadero Proceso Generador de Datos) entre x y y es la siguiente: yt = βxt donde β = 7. El econometrista aplicado no está seguro como estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre las dos siguientes especificaciones: ˆ t + uˆt yt = βx xt = α ˆ yt + wˆt 1. Olvide por un momento las las especificaciones a estimar y explique: ¿cómo es la nube de puntos de esta relación?

259 2. Ahora s´ı, retome las especificaciones y responda. Si se estima la primera esˆ ¿Y el de la R2 ? pecificación, ¿ cuál es el valor de β? 3. Derive la fórmula del estimador de βˆ 4. Derive la fórmula del estimador de α ˆ ˆ 5. ¿Cuál es la relación entre α ˆ y β? P REGUNTA # 40 1. Describa, en 7 renglones máximo, en que consiste el Método de Máxima Verosimilitud en el contexto de la regresión. 2. Misma pregunta para el Método de Momentos. Además, plantear el problema. P REGUNTA # 41 Imagine 15 vasos servidos al azar con Coca cola, Pepsi Cola y Big Cola. La bebida que se sirve en cada vaso depende de un procesador de números aleatorios que asigna a cada marca la misma probabilidad de ocurrencia. Con base en ello diga: 1. ¿Cuál es la probabilidad de que una persona pruebe los 15 vasos y acierte a la marca en todos ellos? 2. ¿Cuál es la filosof´ıa detrás de este experimento? Es decir ¿Cuál es la pregunta que se puede formular (y responder) con este tipo de experimento? P REGUNTA # 42 En el marco de la regresión, explique la diferencia entre Cov(xt , ut ) y Cov(xt , uˆt ). P REGUNTA # 43 1. En unos antiguos papiros egipcios se encontró la fórmula de un estimador: β˘ =

P

(¯ y − yt )(xt − x¯) P + (xt − x¯)2

P (¯ y−y ) P 2t xt

¿Es este estimador insesgado (asuma que todos los supuestos se cumplen)?

´ CAPITULO 7. EJERCICIOS (I)

260

2. En una estela maya encontrada en Yucatán se encontró un segundo estimador: β˜ =

P

(¯ y − yt )(xt − x¯) + P (xt − x¯)2

400 T

¿Es este estimador consistente (asuma que todos los supuestos se cumplen)? P REGUNTA # 44 Suponga que tiene observaciones de dos variables, xt y yt . Con base en ellos usted elabora tres estimaciones: El coeficiente de correlación entre xt y yt , ρx,y . La regresión: yt = α + βxt + ut . La regresión: xt = θ + γyt + et . Pruebe que: β · γ = (ρx,y )2 P REGUNTA # 45 Transforme las siguientes funciones de tal suerte que e´ stas sean lineales. x α · eα+βx α · eα+βx y = 1 + eα+βx

y =

P REGUNTA # 46 Imagine que la verdadera relación (es decir, el verdadero Proceso Generador de Datos) entre x y y es la siguiente: yt = α + βxt ¯ = 0. El econometrista aplicado no está seguro como donde α = 4, β = 7 y X estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre las dos siguientes especificaciones:

261 ˆ t + uˆt yt = α ˆ + βx xt = δˆ + φyt + wˆt 1. Olv´ıdese de las especificaciones a estimar. ¿ Cómo es la nube de puntos de esta relación? 2. Calcule el valor de los estimadores de α ˆ y βˆ 3. Calcule el valor de los estimadores de δˆ y φˆ ˆ δˆ y φ? ˆ 4. ¿Cuál es la relación entre α ˆ , β, P REGUNTA # 47 Suponga la siguiente especificación: yt = α + βxt + δzt + ut y obtenga el estimador de δ usando la notación escalar; dicha fórmula deberá ser expresada en términos de varianzas y covarianzas. P REGUNTA # 48 Suponga la siguiente variable:

zT =

0 con probabilidad (T − 1)/T T 2 con probabilidad 1/T

1. Calcule E(ZT ), 2. Calcule l´ımT →∞ E(ZT ). P REGUNTA # 48 Suponga el modelo de regresión siguiente: Y = Xβ + U. Donde la variable dependiente es la demanda por dinero (agregado monetario real M 1) y las variables explicativas son, Ingreso real, It , y Tasa de interés real, rt , todas en logaritmos. El tamaño de la muestra es T . Suponga además que las K variables explicativas (menos la correspondiente a la constante) son aleatorias pero no son independientes al término de error, E(X ′ U ) 6= 0. En otras palabras, no se

´ CAPITULO 7. EJERCICIOS (I)

262

cumple el supuesto de ortogonalidad, pero s´ı todos los demás. Usted todav´ıa no sabe porque eso es grave, pero s´ı sabe que lo es. Por lo mismo, decide no estimar este modelo. Afortunadamente llega un colega y le dice que dispone de dos variables sumamente interesantes (también en logaritmos): (i) “Ingreso disponible ecológico y reciclable”, Itbis , y, (ii) “Costo de intermediación financiero sin engaños”, rtbis . Ambas variables también tienen T observaciones as´ı como unas propiedades en extremo convenientes: 1. Itbis está muy relacionado con It , 2. rtbis está muy relacionado con rt , 3. Ninguna de las dos variables tiene relación alguna con el término de error de su especificación, U . Su colega le sugiere que estime una especificación distinta; construye primero una nueva matriz de variables, Z = (1 Itbis rtbis ) (donde la primera columna “de puros unos”; note que Z tiene las mismas dimensiones que la matriz de explicativas original) y le propone estimar Y = Zβ + U . Le demuestra además que: 1. plim T1 (Z ′ U ) = 0, 2. plim T1 (Z ′ X) = Ω. Donde Ω existe y no es singular. Usted rechaza la sugerencia (y hace bien) argumentando que esa no es la especificación que señala su libro de Demandas de Dinero; además, señala usted, el profesor penalizar´ıa mucho el cambiar las variables puesto que la interpretación económica ya no ser´ıa válida. De todas formas a usted se le antojar´ıa poder usar esa información en su proceso de estimación, sin quitar las variables originales y por lo mismo, sin modificar la especificación. ¿Cómo hacerle? Pues tiene usted una epifan´ıa y decide transformar las variables originales, premultiplicando la nueva matriz, Z de ambos lados de la especificación original2 . Dicha transformación modifica, no sólo las variables, sino también el tamaño de los vectores y las matrices. Ya transformadas las variables, estima la nueva regresión con la fórmula de MCO de siempre y obtiene un estimador de β. 1. Haga expl´ıcita la transformación de Y , X y U al premultiplicar por Z; tenga cuidado con las dimensiones. ˜ 2. A las variables Y y X tranformadas llámeles Y˜ y X. 2

¡¡¡Cuidado con las dimensiones!!!

263 ˜ + V . Para empe3. Podr´ıa estimar por MCO la regresión que resulta: Y˜ = Xβ ′ −1 ′ zar, ¿qué es V ? La fórmula de MCO es (X X) X Y ; ¿Cómo queda dicha fórmula con estas variables transformadas (no se conforme con ponerle tildes a las variables, por favor)? Recuerde que (AB)−1 = B −1 A−1 siempre y cuando A y B sean cuadradas e invertibles. A ese nueva fórmula del estimador, ˜ llámele β. P

4. Demuestre que β˜ → β. Aplicar plim’s a matrices o vectores es igual que hacerlo a sumatorias. Simplemente asegúrese que los cálculos sean posibles (dimensiones). 5. Explique, en máximo, cuatro l´ıneas, como interpreta usted lo que acaba de hacer (es decir, premultiplicar por las nuevas variables la especificación original y estimar por MCO la especificación resultante). ¿Le ve usted alguna ventaja a este proceder? 6. ¿Se le ocurre a usted qu este proceder tenga alguna dificultad? 7. ¿Qué ventaja tiene usar variables en logaritmos?

264

´ CAPITULO 7. EJERCICIOS (I)

Parte II Econometr´ıa para segundones

265

267 ´ LTIMO QUE U NO S ABE ES P OR D ONDE E MPEZAR ’. B. PASCAL ‘L O U

‘D IOS NO J UEGA A LOS DADOS ’. A. E INSTEIN

´ ‘D IOS NO S OLO J UEGA A LOS DADOS : A V ECES LOS T IRA D ONDE NO SE P UEDEN V ER ’. S.W. H AWKING

268

Cap´ıtulo 8 S´ıntesis de conocimientos previos El método de M´ınimos Cuadrados Ordinarios permanece como el caballo de batalla en econometr´ıa y se emplea de manera rutinaria en el análisis de datos. Las bondades as´ı como el potencial de este método han debido quedar patente en la primera parte del curso , donde, asumiendo el cumplimiento de los supuestos, encontramos muchas propiedades deseables: no sesgo, consistencia, eficiencia. No obstante, siempre queda la duda si estos supuestos realmente se cumplen. Durante el desarrollo de los siguientes cap´ıtulos constataremos cuan grave puede ser la no satisfacción de algún supuesto; ya sea por variables mal medidas, por omisión de e´ stas o por problemas de causalidad mal modelada. A esta lista se le puede añadir la no-linealidad, las observaciones aberrantes... Es muy importante no fiarse de una regresión que no haya sido revisada escrupulosamente: hay que aplicarle todas las pruebas habidas y por haber—en este caso, de especificación. En resumen, hay que seguir el consejo de David Hendry: ¡P ROBAR , P ROBAR Y P ROBAR !1 De hecho acorde a este mismo autor, la elección de un modelo econométrico para un análisis emp´ırico debe satisfacer los siguientes criterios. Ser aceptable con respecto a los datos, es decir que las predicciones hechas con base en el modelo debe ser aceptablemente buenas. Ser coherente con la teor´ıa: el valor y el signo de los parámetros as´ı como las variables incluidas deben ser los correctos. 1

Consideradas por dicho autor como “las tres reglas de oro en econometr´ıa”.

269

270

´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS Tener regresores débilmente exógenos: variables explicativas y términos de error deben ser ortogonales. Mostrar constancia paramétrica: estabilidad de los parámetros. Exhibir coherencia en los datos: residuales asimilables a ruido-blanco (en caso contrario, probablemente estar´ıamos enfrentando un error de especificación disfrazado de autocorrelación, heteroscedasticidad,...) Ser inclusivo (encompassing en inglés): debe ser el mejor modelo posible, pero al mismo tiempo debe satisfacer el principio de PARSIMONIA.

Debemos tener muy claro que cualquier rompimiento de los supuestos constituye un error de especificación. No obstante, no todos los errores de especificación tienen las mismas consecuencias. A continuación haremos una s´ıntesis de los tipos de errores posibles que, esperemos que as´ı sea, faciliten una visión más global de la cuestión as´ı como de buena parte de este curso. Aún no hemos lidiado con todos los problemas que mencionaremos en un instante. Por ende, algunos de ellos quizá lo sorprendan: ´ P ROBLEMAS POTENCIALES CON EL T ERMINO DE ERROR : 1. El término de error no se distribuye en realidad iidN (0, σ 2 ), sino más bien iid(0, σ 2 ). Cuando la normalidad no viene incorporada desde un principio a través del término de error pero e´ ste aún mantiene las propiedades de homoscedasticidad, esperanza nula e independencia, los estimadores de MCO siguen siendo MELI, sólo que ahora la inferencia estad´ıstica sólo es válida asintóticamente. Vale la pena mencionar que existen pruebas para estudiar la normalidad de los residuales estimados. Una de las más socorridas es la P RUEBA DE N ORMALIDAD DE JARQUE -B ERA. 2. El término de error (i) no es homoscedástico, o; (ii) está serialmente correlacionado (no es independiente). Al romperse los supuestos relativos a la forma de la matriz de varianza-covarianza del término de error, los estimadores de MCO permanecen insesgados y consistentes, sólo que ya no son los más eficientes; ya no son MELI. Si bien las consecuencias no resultan triviales, tampoco es cuestión de desechar de tajo el método. Vimos que existen muchas pruebas para estudiar si estos supuestos

271 se cumplen; vimos también que hay métodos formales para corregir estos problemas [M´ınimos Cuadrados Generalizados] as´ı como métodos que no los corrigen pero s´ı arreglan el cálculo de la matriz de varianzacovarianza de los residuales de tal manera que vuelva a ser posible hacer inferencia sobre e´ stos. P ROBLEMAS POTENCIALES CON LAS VARIABLES EXPLICATIVAS: 1. Exclusión de variables relevantes. Cuando la especificación ha omitido variables que s´ı deber´ıan aparecer, las consecuencias son graves. Nuestros estimadores se vuelven sesgados e inconsistentes. Existen estad´ısticos de prueba espec´ıficamente diseñados para estudiar esta cuestión. Véase especialmente la prueba de Ramsey-RESET. 2. Inclusión de variables irrelevantes. Incluir variables no-venidas-al-caso no es tan grave; se pierde un poco en eficiencia, pero tanto la consistencia como la propiedad de no-sesgo siguen dándose. tenemos en nuestra bater´ıa de pruebas una mir´ıada que permite evaluar si las variables que incluimos deben permanecer o no (estad´ısticos t individuales, pruebas ¯ 2 ,...) de hipótesis conjuntas,F, R 3. Forma funcional incorrecta. Cuando la relación entre las variables no es lineal, por ejemplo, es posible en algunos casos transformar las variables para forzarla a que s´ı lo sea; surgen naturalmente a la mente los modelos log-log, log-lin, lin-log, rec´ıproco, combinación de e´ ste con los anteriores,... Aqu´ı nuevamente la prueba de Ramsey-RESET nos permitirá distinguir si alguna de las formas funcionales que ensayemos es adecuada. Existen también pruebas para comparar especificaciones no anidadas (es decir, especificaciones entre las cuales no es posible transitar mediante una simple restricción paramétrica). En otras ocasiones tal transformación no será posible y tendremos que recurrir a otros métodos de estimación como son M´ınimos Cuadrados No-Lineales o Máxima Verosimilitud. 4. La matriz de variables explicativas no tiene rango completo. Si hay 2 o´ más variables explicativas linealmente dependientes [Multicolinealidad], la matriz X ′ X no podrá invertirse y el método de MCO simplemente no podrá ejecutarse. Cuando la dependencia lineal no es perfecta (la multicolinealidad es un problema de grado) s´ı es posible invertir dicha matriz, aunque el determinante será cercano a cero. Entre los s´ınto-

272

´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS mas de este problema suele estar el de obtener un buen ajuste (R2 alta) con estad´ısticos t no-significativos: inflación de las varianzas de los parámetros; también vimos pruebas para detectar este posible problema. Hay maneras muy obvias de resolverlo, entre las que destaca el quitar la variable explicativa que es linealmente dependiente de las otras; también hay forma de resumir en una sola variable la información de varias variables (componentes principales). 5. No ortogonalidad entre variables explicativas y término de error. Detallaremos algunas razones por las que puede ocurrir esto. Destacan los problemas de simultaneidad, pero también los errores de medición en las variables explicativas.2 La prueba de Hausman (que también estudiaremos) permite estudiar este posible problema siempre y cuando dispongamos de instrumentos válidos. De igual forma, otros métodos de estimación (cuya efectividad depende de la misma condición que la prueba de Hausman) que hacen factible la corrección del problema. 6. No-estacionariedad de las variables (tanto explicativas como dependiente). La no-estacionariedad de las variables ocasiona casi siempre que la regresión sea espuria (es decir que los estad´ısticos habituales ya no serán válidos y no podremos saber si realmente tenemos evidencia de una relación estad´ıstica o bien de,...pura basura). Solventar esta dificultad puede lograrse mediante pruebas de ra´ız unitaria a las variables (siendo la más famosa la de Dickey-Fuller) as´ı como de cointegración y la estimación de Modelos de Corrección de Error, mismos que serán vistos en el curso de Series de Tiempo. ´ P ROBLEMAS POTENCIALES CON LOS PAR AMETROS : Impl´ıcitamente hacemos el supuesto de que los parámetros de nuestra especificación se mantienen constantes a lo largo de toda la muestra. No obstante, esto puede resultar muy inadecuado en algunas ocasiones. No es una postura prudente suponer, por ejemplo, que la dinámica del comercio exterior de un pa´ıs como México no ha sufrido cambios drásticos ante los distintos tratados internacionales que ha firmado el pa´ıs desde la década de los ochenta. Por lo mismo, tampoco suena cre´ıble asumir que la recaudación de impuestos no se ve afectada por las distintas reformas fiscales (creación de nuevos impuestos, cambio de las

2

Cabe destacar que veremos también que la inclusión de la variable dependiente rezagada en tanto explicativa puede generar problemas de eficiencia, sesgo e inconsistencia si existe simultáneamente un problema de autocorrelación. Véase el cap´ıtulo de especificaciones dinámicas.

273 tasas impositivas, conversión de impuestos en subsidios,...). Afortunadamente, es posible estudiar la constancia de los parámetros estimados a lo largo de la muestra disponible. La prueba más conocida es quizá la de Chow, aunque las que están basadas en estimaciones recursivas también son muy populares. A lo largo de los siguientes cap´ıtulos describimos una gran cantidad de problemas, métodos de detección y de corrección (de e´ stos u´ ltimos no hay tantos). La intención es formar al econometrista y dotarlo de las herramientas necesarias en su camino hacia la tan famosa especificación adecuada. Es importante hacer notar que no es factible en este espacio formular un compendio de todo lo que hay en econometr´ıa. Se deberá tener conciencia que, cuando se enfrente a un problema en particular, habrá de investigar cual es la forma más pertinente de estudiarlo; en otras palabras, no deberemos circunscribirnos a lo aqu´ı expuesto.

274

´ ´ CAPITULO 8. SINTESIS DE CONOCIMIENTOS PREVIOS

Cap´ıtulo 9 Especificación y Ortogonalidad En el primer curso de econometr´ıa se estudió el modelo de regresión lineal. En el proceso, obtuvimos las fórmulas de los estimadores; también fue posible emplear diversas pruebas de hipótesis para evaluar el ajuste del modelo as´ı como la satisfacción de algunos de los supuestos que sustentan la estimación; además, se revisaron algunas posibles dificultades inherentes al rompimiento de algunos supuestos básicos de MCO. En particular se vieron los efectos de: la multicolinealidad, la autocorrelación y la heteroscedasticidad. En este primer cap´ıtulo de la segunda parte, persistiremos en la evaluación del cumplimiento de los supuestos; de hecho, se estudiará dos de los más importantes: el supuesto de correcta especificación y el de ortogonalidad. Dadas las consecuencias del rompimiento de estos supuestos, será necesario emplear “nuevas formas” de estimar las relaciones de interés.

9.1.

Las variables independientes y la ortogonalidad

Poco se ha mencionado hasta ahora respecto a la importancia de una correcta especificación; menos aún se ha puesto hincapié en la dificultad intr´ınseca de obtenerla. En efecto, lograr una especificación adecuada (presumir que es correcta ser´ıa quizá pecar de soberbia) no es trivial. Buena parte del e´ xito de un econometrista radica en su habilidad en la elaboración de una especificación. Tendremos, en una primera sección, una breve explicación de dicha importancia. En esencia, al errar la tan mentada especificación, los frutos de una estimación son estériles, por no decir perjudiciales; la inferencia es incorrecta. Antes de empezar formalmente, modificaremos un supuesto hecho anteriormente cuya finalidad era simplificar los cálculos as´ı como 275

276

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

las demostraciones. Se trata efectivamente de remover la caracter´ıstica determinista de las variables explicativas y asignarles a e´ stas propiedades probabilistas. Ello abre la puerta para entender el resto del cap´ıtulo. Como señalamos anteriormente, en el curso pasado inclu´ıamos entre los supuestos básicos del modelo de MCO el siguiente: L AS VARIABLES INDEPENDIENTES , LAS X ’ S , SON DETERMINISTAS ¿Cuál es la verdadera importancia de este supuesto? Pues en realidad e´ sta radica en su comodidad al momento de hacer la mayor parte de las demostraciones. El supuesto es simplificador y permite explorar “las tripas” del modelo de M´ınimos Cuadrados Ordinarios1 (MCO) sin que ello resulte excesivamente complicado; al ser la variable x no estocástica–y asumiendo que el término de error es normal con esperanza nula y varianza constante, Ut ∼ iidN (0, σ 2 ), tenemos: E (xt ut ) = xt E (ut ) = 0 El supuesto no sólo es muy fuerte, sino además peca de irrealista, o poco apegado a la situación en ciencia económica. Conviene trabajar con algo más apegado a lo que se podr´ıa obtener en la realidad y que hiciera más pertinente al modelo. Al “sustraerle” el componente estocástico a las variables explicativas, estamos declarando, de facto, que las controlamos. Esto es válido en el contexto de un laboratorio de biolog´ıa, o bien de qu´ımica. En esa disciplina, por ejemplo, pueden estudiarse los efectos de una molécula o de un microorganismo (o de una célula) manteniendo todas las condiciones constantes excepto una, la temperatura por ejemplo. El laboratorista ir´ıa recabando datos conforme cambiara la temperatura (mediante una perilla). Eso, literalmente ser´ıa un experimento controlado y la variable de control evidente es la temperatura. Si quisiéramos correr una regresión con esos datos, ser´ıa perfectamente aceptable considerar a la variable explicativa (o de control) como dada. El objetivo de este ejemplo es dejar claramente establecido porque las regresiones econométricas, en su mayor´ıa, no disponen de variables explicativas deterministas. En una especificación de demanda de dinero, el econometrista no controla el ingreso de la gente; simplemente lo mide (de hecho, eso lo hace el INEGI). Por eso dejaremos de lado este supuesto. Ahora bien, asumir que las variables explicativas tienen 1

Recuerde que el modelo a estimar es: yt = α + βxt + ut . Los detalles los puede encontrar en la prima parte del curso.

9.1. LAS VARIABLES INDEPENDIENTES Y LA ORTOGONALIDAD

277

propiedades probabil´ısticas, si bien complica un poco las cosas, permite de todas formas recuperar el grueso de las propiedades de MCO que conocen. No obstante, no es posible asumir cualquier cosa para la variable explicativa. Tendremos que imponer un nuevo supuesto, más laxo, que reemplace al que estamos levantando. Dicho supuesto es, de hecho, muy intuitivo: E (X ′ U ) = 0 En otras palabras, las variables explicativas, si bien son estocásticas, son también ortogonales al término de error. No existe relación (en este caso lineal, al menos) entre las variables explicativas y el término de error. Consideremos brevemente las consecuencias de este nuevo supuesto. Para ello, conviene recordar dos supuestos hechos en el curso anterior: ´ : 1. S UPUESTO DE C ORRECTA E SPECIFICACI ON Y = X ′β + U 2. S UPUESTO DE N ORMALIDAD : ut ∼ iidN 0, σ 2

El término de error es independiente e idénticamente distribuido de forma Normal centrada en cero y con varianza constante.2 Ahora bien, matricialmente, el modelo de MCO, |{z} Y = |{z} X β + |{z} U arroja la |{z} T ×1

T ×K K×1

T ×1

siguiente fórmula para obtener los estimadores:

βb = (X ′ X)−1 X ′ Y

Si desarrollamos, reemplazando la variable Y por la especificación (nuestro primer supuesto), obtenemos:

2

−1 βb = (X ′ X) X ′ (Xβ + U ) = β + (X ′ X)−1 X ′ U

(9.1)

Vale la pena destacar que este supuesto abarca de facto los de homoscedasticidad y de noautocorrelación.

278

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

Como ya señalamos, el nuevo supuesto se escribe: E(X ′ U ) = 0. Aplicando el operador esperanza a la expresión anterior, dicho supuesto se activa y nos permite nuevamente encontrar que, aún siendo estocásticas la matriz de variables explicativas X, el estimador es insesgado: b =β E(β)

De forma similar es posible obtener nuevamente casi todas las propiedades de MCO que se presentaron en la primera parte del curso. Pero hay excepciones; el Teorema de Gauss-Markov3 queda un poco debilitado, por ejemplo, pues requiere, para obtenerlo, sacar esperanzas condicionadas en X. Esto u´ ltimo permite obtener los mismos resultados que con variables explicativas deterministas, pero deja expl´ıcito que, para sacar esperanzas incondicionales como antes, tendr´ıamos que multiplicar por la densidad de X y luego integrar sobre X.4 Ahora procedemos a dar tres ejemplos clásicos, derivados esta vez mediante la esperanza condicionada en X: 1. Normalidad del estimador: b β/X ∼ N β, σ 2 (X ′ X)−1

2. Comportamiento de las sumas cuadráticas:

SRC ∼ σ 2 χ2 (T − K) 3. Prueba de hipótesis mediante normalización del estimador: βbi − βi p ∼ N (0, 1) σ 2 (X ′ X)−1 ii

Note que de los tres resultados presentados, sólo la distribución del primer cálculo, concerniente a los estimadores, conserva una referencia a las variables independientes–en la varianza. En ese caso, al sacar la esperanza incondicional de dichos estimadores tomando en cuenta la distribución de las X, la distribución de e´ stos podr´ıa ya no ser normal. No obstante, los otros dos resultados son independientes 3

¿Recuerda qué dice este teorema? Esto u´ ltimo simplemente quiere decir que, una vez obtenida la esperanza condicionada en X, es necesario tomar en cuenta también la distribución de esta u´ ltima; ello podr´ıa modificar la esperanza, dependiendo de cual es dicha distribución. 4

9.2. EL SUPUESTO DE ORTOGONALIDAD

279

de la distribución de las X. No importa cual sea e´ sta, las distribuciones tanto de la suma de residuales al cuadrado como la de los estad´ısticos t seguirán siendo χ2 y normal estándar, respectivamente. Con objeto de recordar las operaciones tanto escalares como matriciales, conviene dar un ejemplo más sencillo con el que se llega a la misma conclusión. Supongamos la siguiente especificación: yt = βxt + ut Al calcular el estimador de β usando MCO, obtenemos:

argminβˆ

X

P xy P t2t xt = βb

ub2t =

Teniendo ya el estimador de β, es fácil obtener una fórmula análoga la que aparece en la ecuación (9.1): P x t ut βb = β + P 2 xt

Note como el segundo término, de no ser cero, implica un estimador sesgado del parámetro. En la figura (9.1) se ilustran algunos casos en que, justamente ese término no desaparece. Es importante recordar que lo que se busca es ”la l´ınea que pase lo más cerca posible” de todos los puntos en el diagrama de dispersión.

9.2.

El supuesto de ortogonalidad

Ahora que le hemos asignado a las variables explicativas unas propiedades más realistas, es posible entender más a fondo el supuesto de ortogonalidad de e´ stas con respecto al término de error. En la fórmula del estimador, si reemplazamos la variable dependiente por su especificación, obtenemos:

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

280

Yt Relación Estimada Verdadera Relación

Xt

Figura 9.1: Sesgo en un estimador

P

xt (βxt + ut ) P 2 x P t x t ut = β+ P 2 xt

βb =

Esta fórmula refleja la importancia de la relación entre la variable explicativa y el término de error. Si el supuesto de independencia entre ambas se cumple, queda muy claro que el estimador es insesgado y consistente. Ahora bien, si existe una relación entre explicativa y residual, entonces el estimador de la pendiente será necesariamente sesgado y muy posiblemente inconsistente. Esto u´ ltimo depende de la naturaleza de la relación. Si efectivamente, existe una relación entre ambas, pero e´ sta va perdiendo importancia conforme crece el tamaño de la muestra, el segundo término de la fórmula desaparecerá asintóticamente. En este caso en particular, basta con estudiar la razón: si tanto numerador como denominador crecen conforme aumenta el tamaño de la muestra pero, el numerador crece más lentamente que el denominador, dicha razón tenderá a cero. Tendremos entonces un estimador sesgado, pero consistente. ¿Puede dar otro ejemplo de un estimador as´ı (ver el cap´ıtulo que versa sobre el estimador de Máxima Verosimilitud)? Retomando nuestro problema de ortogonalidad, ¿qué pasar´ıa si existe una relación positiva entre la explicativa y el término de error? Pues P observar´ıamos necesariamente una sobre-estimación de la pendiente, ya que Pxxt u2 t > 0 y por ende, t b β = β + algo. Un ejemplo gráfico de dicho sesgo aparece, de hecho, en la figura |{z} 6=0

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

281

(9.1) de la sección anterior. A todo esto podemos añadir que la existencia de una relación entre las variables explicativas y el término de error implicar´ıa también una estimación sesgada e inconsistente de las desviaciones estándar y de los residuales de la regresión. Las pruebas estad´ısticas tampoco funcionar´ıan. Ahora bien, estos sencillos desarrollos tan sólo ilustran someramente el efecto obvio de una relación entre explicativas y error. Lo importante radica en realidad en la fuente de esa relación. ¿Qué provoca que haya relación entre errores y explicativas? Esa es la cuestión fundamental; en el siguiente apartado estudiaremos algunas causas de esta “no-ortogonalidad”

9.3.

¿Qué causa problemas de ortogonalidad?

9.3.1. Errores de Medición en las Variables Hasta ahora siempre hemos considerado, impl´ıcitamente, que las variables no tienen errores de medición o que no hay equivocaciones al especificar el modelo. Pero la realidad es que estas dos eventualidades se cuentan entre los problemas más frecuentes a que se enfrentan los econometristas. El problema de los errores de medición en las variables tiene un transfondo de mucha mayor importancia en términos epistemológicos al grado que hasta prodr´ıa considerarse un cap´ıtulo entero a la cuestión. Según Haavelmo (1944) uno de los precursores de la econometr´ıa moderna, las variables “verdaderas” y las muestrales rara vez coinciden. Por variables verdaderas ha de entenderse lo que el investigador aglutina mentalmente detrás de una variable. En otras palabras, cuando uno se refiere a producción, piensa en la suma de todos los productos elaborados evaluados en su precio respectivo. Lo cierto es que, tan solo en una ciudad grande (digamos el Distrito Federal) existe una variedad de productos que supera los miles de millones. No resulta muy convincente la idea de que el cálculo del INEGI los incluye todos, ni mucho menos. No obstante, cabe esperar que el ejercicio estad´ıstico del INEGI está muy bien diseñado y los errores de medición minimizados hasta lo humanamente posible. Eso no puede decirse de los registros contables que también se usan para generar series macroeconómicas. Tales registros no tienen por objetivo surtir de datos a los econometristas y por lo mismo no se diseñan “cient´ıficamente” sino con criterios contables. En cualquier caso, eso tiene una consecuencia importante. Cuando uno prueba una teor´ıa económica usando técnicas econométricas y variables muestrales, en el caso en que se encuentre evidencia desfavorable a dicha teor´ıa, siempre se puede argüir que el modelo respalda las relaciones entre variables verdaderas, pero no necesariamente entre variables

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

282

muestrales, que quizá estén midiendo otra cosa.5 Un ejemplo elocuente de lo anterior radica en las cuestiones relativas al impacto de la investigación y la tecnolog´ıa en la tasa de crecimiento de los pa´ıses. Muchos modelos económicos apuntalan el argumento de que la investigación incide positivamente en el crecimiento de una econom´ıa mediante los aumentos en productividad resultantes de la mejora de las técnicas de producción. Si un investigador quisiera, ya no sólo probar este argumento con datos, sino, todav´ıa más interesante, cuantificarlo (estimar numéricamente el impacto de la investigación en el nivel de producción), se encontrar´ıa con un dilema: ¿qué variable usar para determinar el nivel de actividad cient´ıfica del pa´ıs? ¿El número de patentes aceptadas? ¿El número de investigadores registrados? ¿La proporción del PIB destinada a investigación y desarrollo? Observe la figura (9.2) (a)

(b) 18,000

# de Miembros SNI

350

# de patentes

300 250 200 150 100 1990 1992 1994 1996 1998 2000 2002 2004 2006

16,000 14,000 12,000 10,000 8,000 6,000 4,000 1990

año

1995

2000

2005

2010

año

(c)

(d)

3.5

0.5

% del PIB

% del PIB

0.4 3

2.5

0.3 0.2 0.1

2

1994

1996

1998

2000

año

2002

2004

2006

2008

0 1992 1994 1996 1998 2000 2002 2004 2006 2008

año

Figura 9.2: Indicadores de Actividad cient´ıfica. (a) Número de patentes aceptadas en México. (b) Número de Miembros del Sistema Nacional de Investigadores (México). (c) Gasto en investigación como Proporción del PIB: la l´ınea naranja corresponde a Japón; la l´ınea azul corresponde a Alemania. (d) Gasto en investigación como Proporción del PIB: México.

Ninguno de estos indicadores es perfecto; cada uno constituye una buena/mala/regular aproximación de la actividad cient´ıfica. El número de investigadores registrados por 5

Se recomienda ampliamente leer la monograf´ıa de Haavelmo (1944); está disponible en internet.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

283

el Gobierno Mexicano (gráfico b) es un mero registro administrativo que proyecta con poca precisión la producción cient´ıfica o la calidad de la investigación. El número de patentes no necesariamente refleja los resultados de investigación sino más bien estrategias empresariales para erigir barreras de entrada a la competencia (no necesariamente justificadas por innovación). En todo caso, hay conceptos de variables tales como Educación e Inteligencia que simple y sencillamente no tienen correspondencia numérica espec´ıfica. Como en el ejemplo de la investigación, tales conceptos se pueden aproximar mediante, por ejemplo, años de escolaridad y resultados de pruebas de inteligencia. Estas u´ ltimas son variables P ROXY; sustituyen en la especificación a variables no observables. Es importante no confundir estas u´ ltimas con las variables instrumentales o instrumentos. Mientras que las variables proxy se emplean directamente en la especificación, las variables instrumentales aportan más información al ejercicio de estimación sin aparecer nunca en la especificación. En lo que concierne nuestro problema de ortogonalidad, nos limitaremos a estudiar los efectos de sencillos errores de medición tanto en la variable explicada como en la explicativa. Variable dependiente medida con error Empezaremos con el proceso que realmente genera los datos, o bien, la especificación correcta. Esta es la manera en la que la naturaleza construyó los datos. Asuma pues que la verdadera especificación es:6

yt = βxt + ǫt

(9.2)

Esta u´ ltima es la que el investigador cree que está estimando. No obstante, sólo dispone de una variable dependiente medida con un cierto error, digamos:

yt∗ = yt + ut Con objeto de simplificar la demostración, estableceremos algunos supuestos (destaca que e´ stos se podr´ıan omitir o suavizar en gran medida sin que cambiara la 6

Cabe señalar que le damos continuidad a la especificación de la sección anterior al no incluir constante. Considere que las variables están centradas.

284

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

conclusión. A cambio de eso, la demostración ser´ıa—innecesariamente—más larga y, sobre todo, más confusa):7 1. zt ∼ iidN (0, σz2 ) para z = ǫ, u, x, 2. Cov(ut , xt ) = 0, 3. Cov(ut , ǫt ) = 0, 4. Cov(xt , ǫt ) = 0. As´ı, el investigador, cuando estima la regresión, no está corriendo el modelo que cree estar corriendo. Partiendo de la especificación original, podemos averiguar que es lo que realmente se está estimando:

yt = βxt + ǫt yt + ut = βxt + ǫt + ut yt∗ = βxt + (ǫt + ut ) | {z } d

=vt

Como de hecho es fácilmente previsible, los efectos de utilizar una variable dependiente mal medida no son especialmente dramáticos. No obstante, vale la pena conocerlos: 1. El estimador de β sigue siendo insesgado y consistente. 2. La varianza de ǫt + ut , el nuevo término de error, se incrementa, por lo que la eficiencia de nuestros estimadores queda reducida.8 Reiteramos que la mala medición en la variable dependiente no tiene efectos demasiado perversos al correr una regresión como la especificada en la ecuación (9.2). La fórmula del estimador es, de hecho: 7

Los supuestos 2,3 y 4 son un poco redundantes, puestos que los procesos son iid, pero vale la pena recalcarlos. 8 No se dio una demostración de lo anterior. No obstante, la cuestión es obvia. Explique la razón de semejante afirmación.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

285

P xt y ∗ βb = P 2t x P t xt (yt + ut ) P 2 = xt P xt (βxt + ǫt + ut ) P 2 = xt

Al calcular el valor esperado del estimador, obtenemos lo siguiente:  =0∗ =0∗ z z }| { }| { P P 2 P  x t ǫt x t ut  xt ˆ  E β = E β P 2 + P 2 + P 2  xt xt xt  

= β

*.- Note que es posible “desprender” los ruidos ǫt y ut de las variables xt gracias a los supuestos antes señalados. Note también que los u´ ltimos dos términos no son otra sino covarianzas entre procesos independientes. Dado que la esperanza de los ruidos es cero, ambas razones tienen esperanza nula; por ejemplo, P X xt x t ǫt E P 2 = E P 2 E(ǫt ) xt xt | {z }

(9.3)

=0

Ahora calculemos la varianza de dicho estimador, sabiendo que: V ar(ǫt ) < V ar(ǫt + ut ) = V ar(vt ) = σv2 = V ar(ǫt ) + V ar(ut ) | {z } | {z } >0

>0

Ya podemos atacar la varianza de nuestro nuevo estimador:

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

286

P

xt (βxt + ǫt + ut ) P 2 xt P P x t ǫt x t ut = β+ P 2 + P 2 xt xt P P ( x t ǫ t + x t ut ) P 2 βb − β = xt βb =

ˆ Sólo resta construir la fórmula de la varianza de β: P P 2 ( x t ǫ t + x t ut ) 2 b P β−β = ( x2t )2 P ( xt v t ) 2 P = ( x2t )2 2 2 (x v + x v + . . . + x v ) 1 1 2 2 T T P E βb − β = E ( x2t )2 2 2 x1 v1 + x22 v22 + . . . + x2T vT2 + 2x1 x2 v1 v2 + . . . P = E ( x2t )2

Dado que los componentes de vt son ortogonales a xt , podemos separar las esperanzas: P 2 2 x 2 b E β−β = σv E P 2t 2 ( xt ) 1 2 = σv E P 2 xt

Ya no desarrollaremos más el término cuya esperanza aún hay que calcular ( P1x2 ), t puesto que no se necesita para efectoshde esta i demostración. No obstante, vale la pena mencionar a este respecto que: E P1x2 no es necesariamente igual a E[P1 x2 ] . t

t

Ello se sabe gracias a la desigualdad de Jensen:9 9

Esta discusión fue incluida gracias a que Lizet Adriana Pérez Cortés encontró un error en una versión anterior del documento.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

287

Teorema 16 Desigualdad de Jensen: para toda variable aleatoria z y asumiendo que la función g(z) es convexa, ocurre lo siguiente: E[g(z)] ≥ g[E(z)]

P 2 Puesto que en nuestro caso z = xt > 0, la función es convexa y podemos aplicar la desigualdad. Retomemos ahora nuestro problema de varianza, que al final queda as´ı: 2 1 2 2 b E β−β = (σǫ + σ )E P 2 xt

Si la hcomparamos con la varianza que obtendr´ıamos de no haber error de medición, i 1 2 σǫ E P x2 , t Resulta obvio que la primera (con error de medición) es mayor a la segunda (sin dicho error), puesto que el numerador es mayor. Queda as´ı expuesto de forma muy evidente el aumento de la varianza del estimador al haber errores de medición en la variable dependiente. Ser´ıa extraordinario, al lidiar con errores de medición, que todo fuera tan sencillo como una pérdida de eficiencia de los estimadores. Desgraciadamente, no es el caso. En la siguiente sección veremos que ocurre cuando el famoso error de medición está en la variable explicativa. Variable independiente medida con error Si el error de medición está en las variables explicativas, las consecuencias cobran gran importancia. Para entenderlo, suponga que la variable explicativa que nosotros observamos está medida con error: x∗t = xt + vt Suponga nuevamente que la especificación correcta es: yt = βxt + ǫt Nuevamente, para hacer más sencillo el ejercicio, haremos unos supuestos, ligeramente más fuertes que los anteriores, pero en extremo parecidos: 1. zt ∼ iidN (0, σz2 ) para z = ǫ, v, x,

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

288 2. xt ⊥ ǫt ,10 3. xt ⊥ vt , 4. ǫt ⊥ vt , 5. plimT −1 6. plimT −1 7. plimT −1

P

P

P

P

x2t → σx2 ,11 P

vt2 → σv2 . P

ǫ2t → σǫ2 .

Al estimar la regresión, en realidad estar´ıamos corriendo: yt = βx∗t + error ¿Qué propiedades tiene ese error? Partiendo de la verdadera especificación, podemos averiguarlo:

yt = βxt + ǫt + βvt − βvt = βx∗t + (ǫt − βvt ) El hecho es que, por más supuestos que hagamos sobre vt (media cero, varianza constante, normalidad, etc), subsistirá un problema. Al correr la regresión, yt = βx∗t + (ǫt − βvt ), | {z } ζt

tendremos un rompimiento de supuesto; existirá una relación entre el término de error y la variable explicativa: P El s´ımbolo ⊥ indica que la suma de las dos variables es igual a cero: xt ǫt = 0. Es ortogonalidad de las variables en el sentido más exacto. 11 Note que los u´ ltimos dos supuestos se derivan de una aplicación estándar de la Ley Débil de Grandes Números. Vea, por ejemplo Casella & Berger (1990, p.215) “Statistical Inference” para una excelente explicación y demostración. 10

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

Cov(x∗t , ζt ) = = = = = =

289

E {[x∗t − E(x∗t )] [ζt − E(ζt )]} E {[xt + vt − E(xt )] ζt } E (vt ζt ) E [vt (ǫt − βvt )] E [vt ǫt ] − βE vt2 −βσv2

Queda pues confirmado que existe una relación entre ambas. Este rompimiento ya lo hab´ıamos estudiado al presentar el nuevo supuesto (sección anterior). As´ı pues, no se cumple la ortogonalidad entre explicativa y residuales. Retomando los resultados P xt ut b concernientes al estimador de la sección anterior, β = β + P x2 , es fácil ver que t e´ ste que tenemos actualmente, también será sesgado e inconsistente: 1. Sesgo: b = β + algo E(β) |{z} 6=0

Sabemos que ese “algo” es distinto a cero debido a que la covarianza que calculamos anteriormente es distinta a cero. La esperanza de ese “algo” no la podemos obtener puesto que no es factible separar, al interior del operador esperanza, el numerador del denominador. 2. Inconsistencia: partiendo nuevamente de la fórmula del estimador:

βb =

=

= ˆ = plim(β)

P ∗ xy P t∗2t x P t (xt + vt )(βxt + ǫt ) P (x + v )2 P 2 tP t P P β x t + x t ǫt + β x t v t + ǫt v t P P P 2 xt + 2 xt vt + vt2 P P 1 P 2 P (β xt + xt ǫt + β xt vt + ǫt vt ) T P 2 P P 2 plim 1 ( x + 2 x v + vt ) t t t T

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

290

Para terminar este desarrollo, es importante recordar que no existe relación entre la variable explicativa y los ruidos (ni tampoco entre ellos) y que hay ortogonalidad entre todas las variables involucradas. Ello nos permite sacar el plim del estimador y con ello saber a que converge cuando el tamaño de muestra tiende a infinito:

b = plim(β)

2 βσX 2 σV2 + σX

Con esto queda claro el problema de inconsistencia que genera esta relación entre variables explicativas y término de error.

Ejercicio 7 Siendo inconsistente y sesgado el estimador, no hace ya mucho sentido ver su eficiencia. No obstante, como ejercicio es interesante. Calcule el plim de la ˆ varianza del estimador β: plim(βˆ − β)2

ˆ (ii) Reemplace yt y x∗ ; El proceder es el de siempre. (i) Parta de la fórmula de β; t (iii) Obtenga la expresión sin aplicar plims; (iv) Ya que la tenga, reste de ambos lados β; (v) Ahora s´ı, aplique el plim.

Errores de medición en ambas variables Presentamos este u´ ltimo caso sobre todo con la finalidad de familiarizarnos con la manipulación de las expresiones. Después de haber trabajado los errores de medición en la variable explicada y posteriormente en la explicativa, deber´ıa ser muy intuitivo lo que ocurre cuando se presentan estos errores de manera simultánea. Asuma que la relación entre xt y yt es la siguiente:12 yt = βxt donde: yt∗ = yt + ut 12

¿Nota usted algo extraño en esta expresión?

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

291

x∗t = xt + vt zt ∼ iidN (0, σz2 ) para z = u, v, x x t ⊥ v t , x t ⊥ ut , v t ⊥ ut . En caso de correr una regresión con estas variables mal medidas, ¿obtendr´ıamos un estimador consistente? Para poder contestar a esta pregunta, lo primero ser´ıa tener claro que regresión estar´ıamos corriendo. Para ello, partamos de la especificación correcta: u −u | t {z }t

yt = βxt +

agregamos sin desbalancear

yt∗

= βxt + ut + βvt − βvt = βx∗t + (ut − βvt )

Nuestro término de error queda por fin definido. Ahora s´ı, ya nos podemos concentrar en la fórmula del estimador: P ∗ ∗ xy P t∗2t x P t (xt + vt )(yt + ut ) P = (xt + vt )2 P (xt + vt )(βxt + ut ) P P = P 2 xt + 2 xt vt + vt2 P P P P β x2t + xt ut + β xt vt + vt ut P 2 P P = xt + 2 xt vt + vt2

βb =

Preparada as´ı la expresión, ya nada más resta obtener el l´ımite en probabilidad: ˆ = plim plim(β) = =

1 T

βσx2 σv2 + σx2 β σv2 σx2

+1

(β

P

P P P x2t + xt ut + β xt vt + vt ut ) P P P 1 ( x2t + 2 xt vt + vt2 ) T

292

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

Tal y como hab´ıamos previsto, el estimador es inconsistente también. Con esto damos por terminada la sección relativa a los errores de medición. Sus efectos, en resumen pueden ser muy graves al momento de realizar nuestra estimación. Se desprende que el manejo de los datos resulta de gran importancia. Es importante conocer las fuentes de información y asegurarse, en la medida de lo posible, de que la metodolog´ıa empleada por dichas fuentes sea confiable. Con el advenimiento de la informática y la expansión de las prácticas de muestreo, es posible considerar que este problema se puede controlar mejor que antes. No obstante, no hay que olvidar que muchas bases de datos empleadas en econom´ıa se forjan mediante la recopilación de registros contables cuya elaboración no toma en cuenta ninguna precaución de corte cient´ıfico.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

293

Ejercicio 8 Suponga la siguiente relación entre dos variables: yt = α + βxt + ut Donde existen versiones ambas variables con errores de medición: yt ∗ = yt + v t xt ∗ = xt + w t Suponga que los siguientes supuestos se cumplen:13 α = 4 β = 7 ut ∼ iidN (0, 2) ut ⊥vt ut ⊥wt vt ∼ iidN (0, 1) vt ⊥wt T = 500 wt ∼ iidN (0, 3) xt ∼ iidN (0, 2) P REGUNTAS : 1. Simule en matlab las cuatro variables, xt , xt ∗, yt y yt ∗. 2. Genera la verdadera l´ınea de regresión. 3. Estime las siguientes especificaciones: yt = α1 + β1 xt + u1t yt ∗ = α2 + β2 xt + u2t yt = α3 + β3 xt ∗ +u3t yt ∗ = α4 + β4 xt ∗ +u4t 4. Recupere el estimador βi para i = 1, 2, 3, 4. 13

Note que, si los ruidos son iid no hace falta decir que son independientes los unos de los otros.

294

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

5. repita los pasos anteriores 500 veces [Número de replicaciones: R = 500] y obtenga un histograma de cada estimador, que colocará en una figura con cuatro gráficas. 6. Comente los resultados. Para escribir el código requerirá los siguientes comandos: clear all; randn; regress; hist; suplot; plot .

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

295

9.3.2. Efectos de simultaneidad Los errores de medición en las variables, como seguramente ya ha considerado, quedan en buena medida fuera de nuestro a´ mbito de control. Sólo nos queda ser cuidadosos al construir nuestra base de datos y apostar por que los institutos de estad´ıstica hagan cada vez mejor su trabajo [apuesta no muy descabellada, dicho sea de paso]. En todo caso, representan una fuente potencial de inconsistencia de nuestros parámetros estimados y es importante saberlo (el saberlo, de hecho, nos permite recurrir a acciones correctivas bastante eficaces). Ahora atacaremos otra forma en la que el supuesto de ortogonalidad se puede romper. Lo que a continuación estudiaremos representa una de las aportaciones más relevantes de la econometr´ıa a la estad´ıstica (por lo general, el conocimiento sol´ıa transitar en el sentido opuesto). Las cuestiones relativas al problema de simultaneidad, si bien corresponden a una problemática muy concreta en econom´ıa, son susceptibles de ocurrir en otros ´ a´ mbitos. Durante muchos años, las E CUACIONES S IMULT ANEAS constituyeron la gema de la corona de la econometr´ıa. Retomemos nuestro problema de ortogonalidad en notación matricial, es decir, en el marco de una especificación denotada Y = Xβ + U . Nuestro estimador, como ya recordamos recientemente, es: βb = (X ′ X)−1 X ′ Y = β + (X ′ X)−1 X ′ U 1. Si lo que queremos es un estimador insesgado, entonces lo que necesitamos es: E(X ′ U ) = 0 2. No obstante, como se constatará más adelante, buscar esa propiedad en nuestros estimadores es pedir demasiado. Nos conformaremos con consistencia de los mismos y para ello, lo que se requiere, es: plimT →∞ (T −1 X ′ U ) = 0 En las secciones anteriores, vimos que un error de medición en las variables explicativas puede provocar que el estimador sea inconsistente. La simultaneidad también tiene ese efecto. Pero hasta ahora, no hemos definido en que consiste la tan famosa simultaneidad. Es un caso de figura fundamental en econom´ıa, como ya se mencionó, mucho más relevante y trascendental; en econometr´ıa se traducirá como un

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

296

rompimiento del supuesto de ortogonalidad. Si bien este tema será tratado con detenimiento más adelante, baste por ahora presentarlo. Suponga el siguiente sistema de ecuaciones representativo de un mercado: Qdt = αPt + Ztd β + Utd Qst = γPt + Zts δ + Uts Donde Qdt y Qst son las cantidades del producto demandadas y ofrecidas, respectivamente, en el tiempo t; Pt es el precio de dicho bien (también en el tiempo t, claro está) y Zti , donde i = d, s representa otras variables explicativas relativas a la demanda y a la oferta, respectivamente.14 A estas u´ ltimas también se les denomina exógenas o predeterminadas.15 Si suponemos que estamos en un mercado competitivo, entonces el mercado se vac´ıa y: Qdt = Qst = Qt As´ı pues, el precio, Pt se debe determinar endógenamente en las dos ecuaciones. De hecho, Qt y Pt se definen simultáneamente en este modelo. Las ecuaciones simultáneas implican esencialmente que en cada relación aparecen variables explicativas que son a su vez endógenas al sistema, es decir, que aparecen como explicadas en otra ecuación del sistema. Asumamos el siguiente modelo, ya especificado con nuestra notación habitual:

y t = b 0 + b 1 x t + ut x t = a0 + a1 y t + a2 z t + v t Donde se deben cumplir los siguientes supuestos:

E(ut ) = 0 E(ut uτ ) = 0 E(vt2 ) = σv2 E(ut vt ) = 0 14 15

E(u2t ) = σ 2 E(vt ) = 0 E(vt vτ ) = 0

precio de bienes sustitutos, complementos, costos de producción, etc. . . Estos apelativos quedarán claros más adelante.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

297

donde t 6= τ . Note que el modelo está matemáticamente completo; contiene dos ecuaciones, con dos variables endógenas, xt e yt (las otras variables, representadas por zt , se asumen como variables exógenas o predeterminadas, lo que, en cierta forma, pretende implicar que las conocemos). Si bien esto puede parecer contradictorio en este momento, asumamos que la variable zt no tiene propiedades probabil´ısticas. Ahora sustituyamos yt en la segunda ecuación: xt = a0 + a1 (b0 + b1 xt + ut ) + a2 zt + vt (1 − a1 b1 )xt = a0 + a1 b0 + a1 ut + a2 zt + vt a0 + a1 b 0 a2 a 1 ut + v t xt = + zt + 1 − a1 b 1 1 − a1 b 1 1 − a1 b 1 Reparametrizando...

xt = π 0 + π 1 z t + w t Si nosotros quisiéramos estimar u´ nicamente la ecuación en la que la variable xt es la dependiente, dudosamente estimar´ıamos la especificación de arriba, que por cierto, ´ R EDUCIDA . No, estimar´ıamos una regresión de xt en se denomina E CUACI ON función de yt y zt : xt = α + β1 zt + β2 yt + Errort Este ejercicio es muy diferente al idóneo. El error de especificación es, de hecho, evidente. Pero, ¿acaso eso rompe el supuesto de ortogonalidad? Tal y como está la especificación de la relación original, uno podr´ıa esperar que: Cov(xt , ut ) fuera cero. Desgraciadamente, e´ se no es el caso. Para entender como se rompe el supuesto de ortogonalidad, recordemos que la covarianza se resume a:

Cov(xt , ut ) = E[(xt − E(xt ))(ut − E(ut ))] = E[(xt − E(xt ))ut ] No obstante, sabemos por nuestros desarrollos anteriores que:

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

298

a0 + a1 b 0 1 − a1 b 1

xt − E(xt ) =

a 1 ut + v t 1 − a1 b 1

E(xt ) =

+

a2 1 − a1 b 1

zt

Por ende:

Entonces, la covarianza que tanto nos preocupa queda de la siguiente forma:

Cov(xt , ut ) = = = 6=

a 1 ut + v t ut E 1 − a1 b 1 1 E(a1 u2t + ut vt ) 1 − a1 b 1 a1 σ 2 1 − a1 b 1 0

Ya hemos probado en reiteradas ocasiones que si la covarianza entre explicativas y el término de error es distinta a cero, tendremos estimadores sesgados e inconsistentes (ver primera parte del curso). Este caso no será la excepción: nuestros estimadores serán malos. En la figura (9.3) se muestra un ejemplo con un sistema análogo al que hemos venido desarrollando. Aparecen en dicha figura dos planos; uno, el plano que queda casi siempre abajo, corresponde al de la verdadera especificación (xvt = a0 + a1 yt + a2 zt ) mientras que el otro, el que casi siempre está arriba, corresponde al de los valores ajustados usando los parámetros estimados por MCO (ˆ xt = a ˆ0 +ˆ a1 yt +ˆ a2 zt ). Dicha figura ejemplifica bien el sesgo que hemos provocado al no tomar en cuenta la simultaneidad.

Desafortunadamente, muchos de los modelos que explican el funcionamiento de la econom´ıa suelen expresarse como sistemas interdependientes de ecuaciones, refle´ jo fiel de lo que estipula la teor´ıa económica. Esta a su vez ha probado tener, en buena medida, razón. El problema que acabamos de estudiar es muy común al usar datos referentes a un mercado. Si bien, esto nuevamente puede parecer un problema

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

299

Figura 9.3: Sesgo de una estimación por MCO bajo simultaneidad. infranqueable, lo cierto es que mucha agua ha pasado por debajo de los puentes desde que se identificó. La solución es de hecho, de gran elegancia y se convirtió en el método favorito de los econometristas durante 30 años. Entre los autores a destacar en este desarrollo, se encuentran, Haavelmo,16 Koopman, Rubin y Leipnik.17 Hoy se sabe, de hecho, que es posible estimar correctamente un sistema de ecuaciones si el número de restricciones impuestas a priori sobre e´ ste es suficiente. Para mejorar las propiedades de los estimadores, se han propuesto métodos tales como 2SLS, 3SLS, e IV . El u´ ltimo mencionado es paradigmático y lo estudiaremos dentro de muy poco; los demás los veremos posteriormente. Ejercicio 9 Suponga la siguiente relación entre dos variables:

y t = b 0 + b 1 x t + b 2 w t + ut x t = a0 + a1 y t + a2 z t + v t Donde ocurre lo siguiente: 16

Famoso por sus esfuerzos por probabilizar la teor´ıa econométrica. El siguiente parteaguas de la teor´ıa econométrica fue la solución al problema de la identificación en Ecuaciones Simultaneas, realizada en buena medida por estos investigadores. 17

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

300

a0 = 2 b0 = 8 ut ∼ iidN (0, 4) a1 = 7 b1 = 5 vt ∼ iidN (0, 1) a2 = 4 b2 = 3 uwt , uzt ∼ iidN (0, 2) Además, las ecuaciones que generan las variables exógenas al sistema son:18

wt = 0.7wt−1 + uwt zt = uzt + 0.4uzt−1

P REGUNTAS : 1. Obtenga las ecuaciones en forma reducida (es decir, x y y en función de variables exógenas u´ nicamente). 2. Escriba un programa en matlab que las simule (las simulaciones deben estar basadas en las ecuaciones reducidas). 3. Estime por MCO la especificación yt = α + βxt + γwt + uet 4. Grafique un diagrama de dispersión en tres dimensiones. 5. repita el experimento 500 veces (R = 500) y obtenga un histograma del estimador de β Para escribir el código requerirá los siguientes comandos: clear all; randn; regress; hist; scatter3 as´ı como escribir ciclos: for i=1:K; [instrucciones]; end; 18

donde w0 = uz0 = 0.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

301

9.3.3. Variables relevantes omitidas Uno de los primeros supuestos que se imponen al estudiar econometr´ıa es el de correcta especificación del modelo. No obstante, y pese a los avances en teor´ıa económica, especificar modelos econométricos sigue siendo tarea ardua. Al llevar a cabo un ejercicio econométrico con objeto de aportar evidencia sobre el funcionamiento de un fenómeno, se descubre que la tentación de agregar y quitar variables es fort´ısima. ¿Qué pasar´ıa si se nos olvida alguna que es relevante? ¿Qué pasar´ıa si ponemos una de más? Omitir una variable que s´ı aparece en la verdadera especificación es un error grave. Intuitivamente es posible imaginar que toda variable que no aparezca en la regresión pero s´ı en la especificación, se mudará al residual; e´ ste dejará de ser un ruido blanco,19 pues contendrá información relevante. Para estudiar este problema, desarrollaremos un caso. Asuma que el verdadero modelo es:20 yt = β2 x2t + β3 x3t + ǫt No obstante, suponga que un economista interesado en el tema u´ nicamente estima la siguiente—e incompleta—especificación: yt = β2∗ x2t + ǫ∗t Sabiendo que la fórmula para estimar β2∗ es: P x2t yt ∗ b β2 = P 2 , x2t

Sustituyendo en esta fórmula la verdadera especificación, obtenemos:

19

P

x2 (β2 x2t + β3 x3t + ǫt ) P 2 x2t P P P 2 β2 x2t + β3 x2t x3t + x2t ǫt P 2 = x2t P P x2t x3t x2t ǫt = β2 + β3 P 2 + P 2 x2t x2t

βˆ2∗ =

Por ruido blanco se entiende un ruido que no transmite información pero que además tampoco es perjudicial; “no estorba”. 20 Todos los supuestos clásicos de MCO se cumplen en la especificación correcta. Note como seguimos trabajando con variables centradas; por ello, sigue sin incluirse una constante.

302

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

Note que el tercer elemento del numerador, asumiendo independencia entre variables explicativas y el término de error, desaparecerá si aplicamos el operador esperanza. Asumamos, por un momento ortogonalidad entre x2 y ǫ, x2t ⊥ ǫt . Ello permite reinterpretar la fórmula de nuestro estimador de la siguiente manera:21 P −1 plim(T x x ) ∗ P 2t2 3t , plim(βˆ2 ) = β2 + β3 −1 x2t ) plim(T Como siempre, incluimos el normalizador T −1 con objeto de evitar que las sumas diverjan. Ello tiene además la gran ventaja de explicitar las fórmulas de covarianza y varianza (muestrales, eso s´ı): plim(βˆ2∗ ) = β2 + β3

d 2t , x3t ) Cov(x Vd ar(x2t )

Esta manipulación, vale la pena recalcar, eliminó el tercer término asumiendo ortogonalidad de la segunda variable con el error. En todo caso, deja claro el problema ´ potencial: EL ESTIMADOR NO SER A´ CONSISTENTE SI EXISTE UNA RELACI ON ENTRE VARIABLES EXPLICATIVAS . Si quisiéramos estudiar el sesgo del estimador, nos topar´ıamos con el problema de no independencia entre numerador y denominador. Al aplicar el operador esperanza nos queda: P x2t x3t ∗ ˆ E(β2 ) = β2 + β3 E P 2 x2t La esperanza que sobrevive sólo es igual a cero cuando x2 y x3 son independientes; en ese caso podr´ıamos separar la esperanza de la siguiente manera: X x2t ∗ ˆ E(β2 ) = β2 + β3 E P 2 E[x3t ] x2t

En ese caso resulta fácil demostrar que E[x3t ] = 0.22 En primera instancia, cabe resaltar que nuestro estimador está sesgado, aunque dicho sesgo depende en realidad 21

Recuerde que las variables están centradas; ello, como ya señalamos, obedece a razones prácticas para el desarrollo de esta prueba y es fácilmente omitible. También recuerde que, si en vez de ortogonalidad, tuviéramos E(x2t ǫt ) = 0, la expresión quedar´ıa plim(βˆ2∗ ) = β2 + P plim(T −1 P x2t x3t ) β3 plim(T −1 x2 ) + op (1), donde la notación op (·), lo pequeña “o” (little “o” en inglés) denota 2t un término que se colapsa (tiende a cero). 22 ¡Pruébelo! Recuerde que la variable está centrada.

9.3. ¿QUE´ CAUSA PROBLEMAS DE ORTOGONALIDAD?

303

de la existencia—y del signo—de una relación lineal entre las variables x2t y x3t . Existe por ende una posibilidad de que no haya tal sesgo; tendremos un estimador insesgado y consistente si y sólo si x2t es ortogonal a x3t .23 A sabiendas de lo anterior, se necesitar´ıa independencia entre las variables explicativas consideradas y las omitidas para poder confiar en que, aún no incluyendo una variable relevante, nuestros estimadores resulten correctos. Como bien está señalado en muchos libros básicos de econometr´ıa, tal condición resulta dif´ıcil de satisfacer en la práctica.

9.3.4. Inclusión de variables irrelevantes. La inclusión de variables irrelevantes es, de hecho, bastante menos grave que la omisión de aquellas que s´ı deben aparecer en la especificación. Intuitivamente podemos pensar que una variable de más tendrá una aportación marginal (i.e. casi nula) en la explicación de la varianza de la variable explicada. Además, se podr´ıa pensar, sin demasiado riesgo, que la hipótesis nula de no significancia del estad´ıstico t [por ejemplo] asociado a dicha variable ser´ıa aceptada y que por ende acabar´ıa excluida durante el proceso de afinamiento de la especificación. Nuevamente, para ver lo anterior, asuma lo siguiente: Verdadero modelo: yt = β2 x2t + ǫt Modelo estimado: yt = β2∗ x2t + β3∗ x3t + ǫ∗t En realidad, poner variables de más no deriva en consecuencias demasiado dramáticas. Como ya se dijo, los parámetros asociados deber´ıan ser estad´ısticamente nulos, pero aún al no eliminarlos de la especificación, ver´ıamos que el estimador permanece insesgado. Ejercicio 10 Recordemos que la fórmula del estimador en una regresión con dos variables explicativas—centradas—es la siguiente: P 2 P P P x3t (x2t yt ) − (x2t x3t ) (x3t yt ) ∗ ˆ β2 = P P 2 P 2 x2t x3t − [ (x2t x3t )]2 23

Este resultado se puede generalizar para K variables.

304

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

Demuestra que βˆ2∗ es un estimador insesgado de β2 . Asuma que el supuesto de ortogonalidad s´ı se cumple (E(ǫt xit ) = 0 para i = 2, 3). Para concluir esta sección, podemos señalar que la inclusión de variables irrelevantes no tiene efectos muy perversos en nuestro procedimiento de estimación. No obstante, la lección relativa a la elaboración de una buena especificación s´ı es fundamental. Ahora que sabemos que omitir variables relevantes es mucho más grave que incluir otras que son irrelevantes, es fácil deducir que resulta mucho más convenien´ CON UNA E SPECI te E MPEZAR S IEMPRE EL E JERCICIO DE M ODELACI ON ´ M UY I NCLUYENTE . Todo indica que es relativamente fácil desechar FICACI ON variables cuya aportación sea marginal (existen muchos instrumentos para evaluar ¯ 2 , . . .) y, por lo visto hasta ahora, las consecuencias de esto: los estad´ısticos t, la R incluirlas en un principio no son demasiado importantes. Esta manera de abordar la modelación en econometr´ıa ha sido bautizada como: M ETODOLOG Í A DE G ENERAL A E SPEC Í FICO ´ Esta básicamente consiste, como ya se señaló, en iniciar con un modelo muy general, que incluya todo lo que pueda ser considerado a priori importante; si utilizáramos una jerga más técnica, dir´ıamos que el inicio de la modelación se lleva a cabo con un modelo y reducirlo paulatinamente con base en los resultados de una bater´ıa—muy—larga de pruebas estad´ısticas. Se trata de un enfoque inductivo por excelencia, en el que los datos, es decir la información contenida en ellos, tienen la u´ ltima palabra.24

9.4.

Detección de algunos problemas de ortogonalidad

9.4.1. Pruebas de variables omitidas o redundantes Los problemas que hemos estudiado hasta ahora son, afortunadamente, detectables y/o corregibles en mayor o menor grado. El estudio de algunos de ellos exige el método de Variables Instrumentales, que aún no hemos abordado. No obstante, s´ı disponemos del herramental necesario para evaluar otros más, entre los que destaca la cuestión de variables omitidas o redundantes. 24

Inducción, según la Real Academia Española, es: extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas está impl´ıcito.

´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 305 9.4. DETECCION Prueba de variables omitidas La prueba que a continuación detallaremos permite explorar la posibilidad de que hayamos omitido una variable importante en nuestra especificación. No es mágica, no proporciona el nombre de la variable que se omitió; eso es tarea del econometrista. La prueba permite agregar un conjunto de variables a una regresión ya estimada y formular la siguiente pregunta: ¿E STAS N UEVAS VARIABLES C ONTRIBUYEN DE ´ DE LA VARIABILIDAD DE LA M ANERA S IGNIFICATIVA EN LA E XPLICACI ON VARIABLE D EPENDIENTE ? La prueba es análoga a la de la Granger-Causalidad, a saber: el nuevo conjunto de parámetros asociados a las variables explicativas no es significativo de manera conjunta (la alternativa es que al menos uno de esos parámetros s´ı lo es). Las regresiones relevantes podr´ıan ser las siguientes: yt = α + β1 xt + ut yt = α ˇ + βˇ1 xt + β2 wt + β3 zt + vt

(9.4) (9.5)

Donde la ecuación (9.4) es la regresión restringida mientras que la ecuación (9.5) es la no-restringida. El estad´ıstico de prueba puede ser una F, si se usa la fórmula estudiada en la primera parte del curso y también más adelante, cuando se vea GrangerCausalidad [ver ecuación (11.3)] o bien una χ2 si se usa una razón de verosimilitudes [log-likelihood ratio, en inglés]. Para calcular esta u´ ltima se debe en primera instancia, obtener la log verosimilitud maximizada de cada regresión.25 Denotaremos lR y lN R a las verosimilitudes de la regresión Restringida y No-Restringida, respectivamente, El estad´ıstico de prueba se obtiene de la siguiente manera: LR = −2 × (lR − lN R )

(9.6)

Bajo la hipótesis nula, el estad´ıstico LR tiene una distribución asintótica χ2 con un número de grados de libertad igual al número de restricciones (es decir al número de variables agregadas). Es importante siempre tener claro lo siguiente: 1. H0 : Ninguna de las variables omitidas es significativa, 25

Estas regresiones se pueden estimar por el método de máxima verosimilitud. Mientras la especificación sea lineal, los estimadores serán idénticos a los de MCO; en el recuadro de la regresión del programa Gretl aparece dicha log-verosimilitud. Véase el cap´ıtulo correspondiente en el primer curso de econometr´ıa.

306

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

2. Ha : Al menos una de las variables omitidas es significativa. También es importante tener en cuenta los siguientes aspectos: 1. Esta prueba requiere que ambas regresiones dispongan del mismo tamaño de base. Lo anterior es particularmente relevante cuando en el conjunto de variables cuya importancia se quiere evaluar se encuentran algunas de las originales, sólo que rezagadas. La operación de rezago implica la pérdida de una observación. 2. El estad´ıstico de prueba adecuado cuando la especificación es lineal es la F (en cuyo caso se construye con base en las sumas de residuales de las regresiones restringida y no restringida); cuando la especificación es no-lineal, conviene usar el estad´ıstico LR. Prueba de variables redundantes La prueba de variables redundantes se construye con la misma filosof´ıa que la anterior; con base en ella es posible probar la significancia estad´ıstica de un subconjunto de variables incluidas en la especificación. En esencia, la prueba sirve para decidir si los parámetros estimados de dicho subconjunto de variables son todos igual a cero y, por ende, pueden ser eliminados de la especificación. Suponga por ejemplo que sospecha que el impacto de dos de las variables explicativas es, en conjunto, igual a cero.26 La metodolog´ıa es, en realidad idéntica a la de la prueba anterior (es decir que se corre una regresión restringida y otra no-restringida). Los estad´ısticos de prueba son los mismos que en el caso anterior [vea las ecuaciones (11.3) y (9.6)]. 1. H0 : Las variables son redundantes 2. Ha : Las variables no son redundantes Hay muchas más pruebas que conviene conocer al momento de llevar a cabo una estimación econométrica. Veremos una más, la prueba RESET de Ramsey, y en el siguiente cap´ıtulo un tema fundamental, el método de estimación por Variables Instrumentales. 26

Es decir que los efectos se cancelan entre ellos.

´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 307 9.4. DETECCION

9.4.2. Prueba de especificación de Ramsey La validez de la especificación es, vale la pena recalcarlo, muy dif´ıcil de probar.27 El hecho es que s´ı existen pruebas formales, y entre e´ stas destaca la Prueba RESET DE R AMSEY (REgression Specification Error Test).28 La detección de un posible error de especificación se hace con base en el análisis de los residuales. La intuición detrás de esta prueba es sencilla: si una combinación no-lineal de las variables independientes tiene poder explicativo en la variable dependiente, entonces se considerará que hay evidencia de que el modelo está mal especificado. Si bien el objetivo original de la prueba es detectar problemas de linealidad, lo cierto es que esta prueba se emplea en una vasta gama de problemas: F ORMA F UNCIONAL I NCORRECTA, las variables, ya sea la dependiente o alguna de las explicativas, requieren una transformación (logar´ıtimica, de potencia, rec´ıproca,...) VARIABLES O MITIDAS, la matriz de explicativas no contiene todas las variables relevantes. N O O RTOGONALIDAD, causada por errores de medición en las explicativas, Simultaneidad, presencia de la variable dependiente rezagada en tanto explicativa,... H ETEROSCEDASTICIDAD, término de error con varianza no constante. Ramsey mostró que los rompimientos de supuestos arriba mencionados generan un vector de errores con media no-nula. Las hipótesis en cuestión (en una especificación Y = Xβ + U ) son por ende: 1. H0 : U ∼ N (0, σ 2 I) 2. Ha : U ∼ N (µ, σ 2 I), donde µ 6= 0. Resulta fácil explicitar lo anterior con un ejemplo: 27

No obstante, también es importante señalar que la presencia de autocorrelación y/o heteroscedasticidad constituye un indicio revelador de que la especificación es mejorable. 28 Ramsey, J.B. “Tests for Specification Errors in Classical Linear Least Squares Regression Analysis”, J. Royal Statist. Soc. B., 31:2, 350-371 (1969).

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

308

Ejemplo 17 El caso de una variable omitida. Suponga que la especificación correcta es:

Y

= Xβ + Zγ + U,

(9.7)

dónde U ∼ N (0, σ 2 I) y las dimensiones de X, Z, β, y γ son, T × K, T × 1, K × 1 y 1 × 1. Si se estima la regresión: Y

= Xδ + V.

(9.8)

Queda claro que, si hemos de respetar el verdadero modelo, V = γZ + U . Asumiendo regresores determin´ıstas,29 y recordando que los residuales de tal regresión se pueden representar usando nuestra famosa matriz idempotente Mx = I − X(X ′ X)−1 X ′ : Vˆ = Mx Y = Mx Zγ + Mx U.

(9.9)

Nos encontramos con que E(Vˆ ) = Mx Zγ Se obtiene la misma no nulidad del término de error al inducir formas funcionales erróneas y simultaneidad. La realización de la prueba es fácil y se ejemplifica a continuación; suponga la siguiente especificación cuya validez se desea probar: yt = α + βxt + ut En primera instancia, se sugiere graficar los residuales, uˆt , contra los ajustados, yˆt : si aparece un patrón, conviene sospechar de la existencia de un problema en la especificación.30 Además, ello da pie a pensar que los valores ajustados yˆt podr´ıan proveer información importante. Por eso, si al incluir transformaciones de yˆt en tanto variables explicativas, la R2 se incrementa sustancialmente, se considera evidencia relativa a un error de especificación. Las etapas de la prueba son las siguientes: 29 30

O bien, tomando esperanza condicionada en X y Z. La intuición de esto se provee más adelante.

´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 309 9.4. DETECCION 1. Estime el modelo original, yt = α+βxt +ut (La R2 de esta regresión tendrá el sub´ındice V ) y construya los valores ajustados yˆt as´ı como los residuales estimados uˆV t , 2. Estime una segunda regresión, donde aparezcan los valores ajustados con distintas transformaciones (La R2 de esta regresión tendrá el sub´ındice N ): yt = α1 + β1 xt + β2 yˆt2 + β3 yˆt3 + uN t 2 3. En ambas regresiones recupere la medida de bondad de ajuste, R2 : RN y RV2 , donde los sub´ındices N y V se refieren a la ecuación donde aparecen los valores ajustados y a la regresión original, respectivamente.

4. Para construir el estad´ıstico de prueba, recurrimos una fórmula conocida desde la primera parte de este manual: F=

2 (RN − RV2 ) /Kn 2 (1 − RN ) /(T − Kn )

donde Kn es el número de regresores adicionales en la segunda regresión. Sólo resta comparar el estad´ıstico calculado con el valor cr´ıtico de la distribución F al nivel de confianza deseado. Ramsey de hecho ofreció en su propuesta cuatro pruebas: 1. La prueba RESET, explicada anteriormente, 2. La prueba RASET, una prueba de correlación de rango entre—combinaciones de—variables ajustadas y residuales al cuadrado, 3. La prueba KOMSET, un estad´ıstico de prueba de Kolmogorov que discrimina entre distribuciones F centradas y no centradas, 4. La prueba BAMSET, una prueba de heterogeneidad de la varianza. Huelga decir que la u´ nica prueba que soportó los embates del tiempo, al menos en econometr´ıa, es la primera. La intuición de la prueba RESET no es tan obvia como podr´ıa parecer en un principio. Siguiendo el u´ ltimo ejemplo (de variable omitida) podemos esbozar hasta cierto grado tal intuición:

310

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

Comentario 3 Asumiendo que la especificación correcta es la que aparece en la ecuación (9.7), tenemos dos posibilidades, estimarla omitiendo una variable [es decir, estimando la eq. (9.8)] o bien estimar la especificación correcta. Al usar la especificación correcta, ya se ha probado que los estimadores son insesgados y consistentes, por lo que Uˆ = Y −(Yˆ ) resulta ser un vector donde ya no quede nada de información. Por lo mismo, la relación entre residuales y (potencias de) variables ajustadas simplemente no deber´ıa existir. Si por el contrario, omitimos la variable, parece lógico que la resta Y − Y˜ (donde el tilde implica que se usaron los estimadores sesgados de la especificación con variable omitida) no logre extraer toda la información: el residual estimado no queda liberado de toda la información u´ til. La información que queda en dicho residual está probablemente muy maltrecha, pues se obtuvo con estimadores sesgados e inconsistentes; es mala información, pero información al fin y al cabo. Por otra parte, los valores ajustados también son un pésimo resultado, pero, al igual que con los residuales, contienen información de las variables explicativas, inclusive de aquellas que omitimos. Ambos vectores contienen información relevante (aunque distorcionada). Hacer un diagrama de dispersión entre ellas, con un poco de suerte, logrará manifestarla. Es importante recalcar que la prueba de Ramsey se usa sobre todo para cuestiones de especificación incorrecta. La siguiente simulación (resultados presentados en una gráfica) explicará el porqué: Ejercicio 11 Simule en MatlabT M dos procesos (Y1 y Y2 ). 1. Y1 sigue la especificación (9.7), 2. Y2 sigue la especificación no lineal que aparece en la leyenda de la gráfica (9.4). 3. En ambos casos, escoja usted los valores de los parámetros de la especificación, 4. La matriz X tiene dimensiones T × K, donde K = 2. Amabas variables se distribuyen normalmente (usted escoja esperanzas y varianzas). La variable omitida genérela de la siguiente manera: Z = ut × t, donde ut ∼ iidN (0, 2),

´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 311 9.4. DETECCION (a)

(b) 2 Residuales Estimados

Residuales Estimados

6000 4000 2000 0 −2000 −4000

−200

−100 0 Valores ajustados

100

1.5 1 0.5 0 −0.5 −1 −1.5

200

−2,000

0 2,000 Valores ajustados

4,000

6,000

(c)

Residuales Estimados

40 20 0 −20 −40 −60

−10

−5

0 Valores ajustados

5

10

15

Figura 9.4: Relación entre residuales y valores ajustados. (a) Especificaci´ on estimada correcta; (b) Variable omitida (ver ejemplo); (c) Forma funcional incorrecta: yt = 4xβ1t1 x2t /β2 β3

5. Estime por MCO tres regresiones: a) Y1 = X δˆ + Vˆ1 , b) Y1 = [XZ] βˆ + Uˆ , c) Y2 = X γˆ + Vˆ2 . 6. Con cada regresión construya los residuales y los valores ajustados, 7. Contruya los tres diagramas de dispersión. ¿Nota usted algún patrón? ¿En qué caso considera usted que será más eficaz la prueba RESET?

9.4.3. Heteroscedastidad e incorrecta especificación En alguna ocasión se ha mencionado que existe una cierta relación entre el rompimiento de los supuestos de homoscedasticidad e independencia con problemas de especificación. Lo anterior ha sido muy heur´ıstico, as´ı es que aprovecharemos este

312

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

espacio para darle un poco más de formalidad: es cierto, cuando una especificación está mal, ello se puede traducir en heteroscedasticidad y autocorrelación. En cierta forma, estos u´ ltimos dos fenómenos pueden considerarse como parte de la sintomatolog´ıa de una especificación incorrecta. Ello es particularmente cierto con la heteroscedasticidad. Suponga que la especificación correcta es la siguiente: yt = α + β1 x1t + β2 x2t + ut Para hacer más elocuente la ejemplificación, asumamos que el comportamiento de la variable x1t tiene un fuerte componente de autocorrelación (podr´ıa ser un proceso AR(1), por ejemplo) mientras que la varianza de la variable x2t es muy heterogénea. 1. Un primer econometrista decide estimar una especificación incompleta pues omite x1t : yt = δ1 + γ1 x2t + v1t En este caso el componente autoregresivo no considerado (la variable omitida) se filtra al ruido estimado. 2. Un segundo econometrista decide estimar una especificación incompleta pues omite x2t : yt = δ2 + γ2 x1t + v2t En este caso el componente heteroscedástico no considerado (la variable omitida) se filtra al ruido estimado. Llevamos a cabo tales estimaciones (con datos simulados) y recuperamos los residuales estimados de ambas regresiones. Note lo que obtuvimos en la figura (9.5).

Esto mismo lo podemos ver de forma heur´ıstica cuando nos equivocamos con el supuesto de linealidad. Suponga que la verdadera especificación es: yt = α + βxt + wtγ + ut Queda claro que la especificación no es lineal en γ. Si un tercer econometrista estima, yt = α + βxt + γwt + ut , equivocándose al asumir linealidad, se puede encontrar con que sus residuales estimados tienen un comportamiento similar al de la figura 9.6:

´ DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 313 9.4. DETECCION (a) 10 8 6 4 2 0 −2 −4 −6 −8 0

50

100

150

200

250

300

350

400

450

500

300

350

400

450

500

(b) 60 50 40 30 20 10 0

50

100

150

200

250

Figura 9.5: Efectos de una omisión de variable relevante en los residuales estimados: panel (a), el caso de la autocorrelación [residuales]; panel (b), el caso heteroscedástico [residuales al cuadrado]. En ambas figuras el comportamiento de los residuales (la serie más volatil) se compara con el de las verdaderas innovaciones (las menos volatil).

Note como el error de especificación parece generar observaciones aberrantes (Outliers en inglés). Resulta obvio que el componente no considerado se transmina al término de error. ¿Cuál es la moraleja? Pues simplemente que cuando se detecta autocorrelación y/o heteroscedasticidad es válido suponer que tenemos un error de especificación. Es por lo anterior que, en la práctica, PRIMERO HAN DE E FECTUARSE LAS P RUE ´ LAS DE H ETEROSCEDAS ´ Y DESPU ES BAS DE C ORRECTA E SPECIFICACI ON ´ . TICIDAD Y AUTOCORRELACI ON

´ Y ORTOGONALIDAD ´ CAPITULO 9. ESPECIFICACION

314

0

50

100

150

200

330

340

250

350

300

360

350

400

450

500

370

Figura 9.6: Efectos sobre los residuales estimados al asumir una linealidad que en realidad no se cumple.

Cap´ıtulo 10 Variables Instrumentales Hasta ahora, todo lo que sabemos hacer es estimar mediante el Método de M´ınimos Cuadrados Ordinarios.1 Como hemos visto, MCO tiene muchas ventajas, entre las que destacan su cómputo sencillo y el hecho de que, bajo ciertos supuestos los estimadores son MELI (Mejores Estimadores Lineales Insesgados). Pero la verdad es que el método también tiene desventajas. Una de las principales es la que hemos venido estudiando: no es fácil lograr que el término de error sea ortogonal a las variables explicativas. Existen muchas fuentes potenciales que inhiben o, mejor dicho hacen que se viole este supuesto: errores de medición, omisión de variables importantes, simultaneidad,. . . Veremos, por consecuencia, un método que facilite el tránsito a una estimación consistente (que de paso nos resuelva, al menos potencialmente, el problema de ortogonalidad). El uso de las Variables Instrumentales tiene su origen en estudios relacionados con la estimación de curvas de oferta y demanda. Fue a través del análisis de algunos economistas, tales como P.G. Wright, Henry Shultz, Elmer Working y Ragnar Frisch, que estaban interesados en estimar elasticidades de oferta y demanda, que nacieron las Variables Instrumentales (IV , por sus siglas en inglés). La justificación del método es muy sencilla; se usan las IV para estimar relaciones estad´ısticas cuando no es factible realizar experimentos controlados. El término “Variables Instrumentales ” se le atribuye a Olav Reiersol (1945) aunque es posible que sea Ragnar Frisch quien lo acuñara. Su formulación apareció por primera vez en el apéndice de un libro de Philip G. Wright (1928).2 En los años 20, una 1

Sin olvidar, claro está, que también conocemos el Método de Momentos as´ı como el de Máxima Verosimilitud. 2 De acuerdo a Stock y Watson (2003), el autor de dicho apéndice es el hijo de Wright, cuyo nombre era Sewall, un estad´ıstico destacado.

315

´ CAPITULO 10. VARIABLES INSTRUMENTALES

316

fuente importante de ingresos del gobierno de los Estados Unidos estaba constituida por las tarifas que se cobraban a bienes importados. Wright deseaba encontrar la tarifa adecuada para aceites y grasas vegetales y animales que el pa´ıs compraba del exterior. El monto de las tarifas afecta la demanda por esos bienes, por lo que a Wright le quedaba claro que necesitaba estimar la elasticidad-precio de tales productos; contaba con una fantástica base de datos de precios y cantidades anuales que corr´ıa desde 1912 hasta 1922 relativas al consumo de mantequilla. Ten´ıa la opción de correr una regresión por MCO entre Cantidad y Precio, ambas transformadas a logaritmos, y obtener un estimador de dicha elasticidad. Afortunadamente, también supo entender que las observaciones de que dispon´ıa no necesariamente coincid´ıan con la demanda exclusivamente, sino con puntos de equilibrio entre demanda y oferta. Más afortunadamente aún, a Wright se le ocurrió la forma de darle la vuelta al problema. Era necesario conseguir una tercera variable (que ahora llamar´ıamos instrumento) que fuera capaz de desplazar la oferta, pero no la demanda. Con esta información adicional, fue posible identificar, en la nube de puntos, los que corresponden a la demanda exclusivamente. Lo anterior es fácilmente representable en una figura:3

Precio

Precio

Equilibrio 2

Precio

Equilibrio 3

Equilibrio 1

(a) Cantidad

(c)

(b) Cantidad

Cantidad

Figura 10.1: El problema de la identificación y su solución.

Note como en el panel (a) está representado el problema al que se enfrentó Wright. Los datos que dicho autor recabó no representan exclusivamente a la demanda, ni a 3

La descripción del trabajo de Wright está basada en Stock y Watson (2003).

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

317

la oferta, sino que corresponden a equilibrios de precio y cantidad donde se vac´ıa el mercado. La imposibilidad de estimar la demanda—o la oferta—aislada resulta obvia. En el panel (b) se muestra un diagrama de dispersión análogo al que se habrá enfrentado Wright. ¿Realmente cree usted posible trazar la oferta y la demanda con base en esa nube de puntos? Finalmente, el panel (c) muestra intuitivamente la solución; ¿qué tal si podemos aislar los puntos de equilibrio en los que sólo se desplazó la oferta? Entonces s´ı, as´ı s´ı es posible estimar la demanda. Wright consideró que necesitaba información relativa a la oferta que, a su vez, no afectara la demanda. Se le ocurrió utilizar la variable de pluviometr´ıa. La lluvia es evidentemente una variable relacionada con la oferta, al menos en la que corresponde a productos agr´ıcolas. Paralelamente, nada parece indicar que la gente consuma menos o más cereal (por ejemplo) en los d´ıas lluviosos; la lluvia no parece tener relación con la demanda. Ese fue, posiblemente, el primer instrumento del mundo.

10.1.

El estimador de Variables Instrumentales

El método de Variables Instrumentales que ahora vamos a estudiar permite obtener estimadores consistentes de los parámetros β en la especificación Y = Xβ + ǫ aun cuando las variables explicativas tengan relación con el término de error. Como ya se ha señalado en reiteradas ocasiones, dicha relación entre explicativas y error queda manifiesta si la esperanza entre e´ stas no es nula. Ahora bien, podemos replantear este problema en términos, no de esperanza, sino muestrales: 1 plim (X ′ ǫ) 6= 0 T El uso del método IV requiere estrictamente que se disponga de un conjunto de variables, denotadas como INSTRUMENTOS , que pueda acomodarse en una matriz ´ será nuestra matriz de instrumentos, es decir, un nuevo de dimensiones (T ×K). Esta conjunto de variables explicativas.4 Denotemos a los instrumentos con la letra Z: Z = [z1 , z2 , . . . , zk ] donde zi para i = 1, . . . , K es un vector de T × 1. A esta matriz sólo le podremos llamar matriz de instrumentos si y sólo si satisface las siguientes condiciones: 4

Algunas de las variables explicativas originales pueden y deben ser utilizadas como Variables Instrumentales. Esto quedará más claro posteriormente.

´ CAPITULO 10. VARIABLES INSTRUMENTALES

318

1. Relación entre instrumentos y término de error: 1 plim (Z ′ ǫ) = 0 T 2. Relación entre instrumentos y explicativas: 1 plim (Z ′ X) = Σ T 3. Propiedades de los instrumentos: 1 plim (Z ′ Z) = Σ∗ T

Ambas matrices,

P

y

P∗

deben existir y no ser singulares.5

La primera condición garantiza que los instrumentos no están correlacionados asintóticamente con el término de error. La segunda condición permite la existencia de una relación entre instrumentos y variables explicativas originales. La tercera condición garantiza que las Variables Instrumentales, las zs , para s = 1, . . . , K sean linealmente independientes entre s´ı. Lo anterior establece con claridad y precisión las propiedades que debe tener un instrumento. Recuerde que el telón de fondo es agregar más información a nuestra regresión. En el ejemplo de las ecuaciones simultáneas, la idea era agregar información que sólo afectara a una ecuación (dicho coloquialmente, que sólo moviera una, la oferta por ejemplo, dejando quieta la otra (la demanda) para as´ı poder identificarla). Sea cual sea la información adicional que decidamos agregar, e´ sta, en forma de instrumentos, debe satisfacer las tres condiciones antes enumeradas. Llega ahora el momento de presentar la manera en la que vamos a agregar esta información. Procederemos a lo bruto, como podrán darse cuenta. Para obtener el estimador de Variables Instrumentales partimos de la especificación de la relación: 5

¿Por qué cree usted que eso es importante?

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

319

Y = Xβ + ǫ Ahora, pre-multiplicándola por la matriz de instrumentos, obtenemos: Z ′ |{z} X β + Z ′ |{z} Y = Z ′ |{z} ǫ |{z} |{z} T ×K K×1 K×T T ×1 T ×1 | {z } | {z } | {z } K×1

K×1

K×1

A esta especificación transformada podemos aplicarle la fórmula de MCO para estimar β. Dicha fórmula es, como bien saben: βˆM CO = (X ′ X)−1 X ′ Y . Sólo nos queda ahora ver las consecuencias sobre la especificación. Ahora s´ı, reescribiendo la fórmula:

βÎV

= (X ′ ZZ ′ X)−1 X ′ ZZ ′ Y = (Z ′ X)−1 (X ′ Z)−1 X ′ Z Z ′ Y | {z } I

βÎV

′

−1

′

= (Z X) Z Y

Tenga muy presente que no estamos alterando la especificación original. Es decir, ˆ habremos estimado Y = X βˆ + Uˆ . Por cierto, este una vez obtenido el nuevo β, estimador es sesgado: E(βÎV ) 6= β Para mostrar lo anterior, procederemos con un ejemplo sencillo. Asuma que tenemos tres variables, yt , xt y zt . Las tres están centradas (por lo que su media es cero) y las primeras dos están relacionadas en la especificación yt = βxt + ǫt . Suponga además que existe un problema de ortogonalidad, es decir que E(xt ǫt ) 6= 0. Afortunadamente contamos con un instrumento válido (es decir que satisface las condiciones expuestas anteriormente) representado por la variable zt . Veamos como queda nuestro estimador de IV en este caso concreto:

´ CAPITULO 10. VARIABLES INSTRUMENTALES

320

βÎV

−1

= (Z ′ X) Z ′ Y 1 X z t yt = P z t xt P zt (βxt + ǫt ) P = zx P t t z t ǫt = β+P z t xt

(10.1)

Anteriormente, con nuestro estimador de MCO llegábamos a una expresión en la que pod´ıamos disociar las variables xt y ǫt gracias al supuesto de ortogonalidad [ver ecuación (9.3)]. En este caso, dicha separación de términos no es posible, excepto si impusiéramos un supuesto rid´ıculamente fuerte de ortogonalidad entre zt y ǫt , cosa que no vamos a hacer. Para entender esto, intentemos obtener la esperanza de esta u´ ltima expresión: P z t ǫt ˆ E βIV . = β+E P z t xt

En este caso, no podemos separar las esperanzas, como en la ecuación (9.3): P X zt z t ǫt 6= E P E(ǫt ) E P z t xt z t xt

La razón de esto es muy obvia; partimos de un problema de ortogonalidad concreto: E(xt ǫt ) 6= 0. Ello impide separar la esperanza y, más trágicamente, hace que el estimador no sea insesgado. Afortunadamente, ese mismo estimador S Í es consistente.6 6

Para los siguientes desarrollos es importante recordar lo siguiente: (A·B)′ A·A−1

= =

B ′ ·A′ I

(A·B)−1 ′ A−1

=

B −1 ·A−1

=

(A′ )−1

El u´ nico que podr´ıa causar duda es el u´ ltimo. Si parte de A × A−1 = I ⇒ (A × A−1 )′ = (A−1 )′ × A′ = I ⇒ (A−1 )′ = (A′ )−1 .

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

321

Ello obedece a que el operador plim s´ı permite separar expresiones que el operador esperanza debe dejar juntas: βÎV

= (Z ′ X)−1 Z ′ (Xβ + ǫ) = (Z ′ X)−1 Z ′ Xβ + (Z ′ X)−1 Z ′ ǫ = β + (Z ′ X)−1 Z ′ ǫ

Ahora s´ı, aplicamos el operador plim:

plim βÎV

= β + plim[(Z ′ X)−1 Z ′ ǫ] T = β + plim[ (Z ′ X)−1 Z ′ ǫ] "T −1 # 1 ′ 1 ′ plim = β + plim ZX Zǫ T T {z } {z }| | Σ

0

= β

Obtener la varianza es un poco más laborioso. En primera instancia, obtengamos la expresión que servirá de base para los cálculos subsecuentes. Partimos de la expresión del estimador: βÎV = β + (Z ′ X)−1 Z ′ ǫ ˆ βIV − β = (Z ′ X)−1 Z ′ ǫ ′ ′ − β βÎV − β = (Z ′ X)−1 Z ′ ǫǫ′ Z (Z ′ X)−1

βÎV

βÎV − β

Usando la u´ ltima fórmula de la nota al pie de página anterior, obtenemos: ′ βÎV − β = (Z ′ X)−1 Z ′ ǫǫ′ Z(X ′ Z)−1

Calculando el l´ımite en probabilidad, obtenemos: h i h i −1 ′ ′ −1 ′ ′ ′ ˆ ˆ plim (βIV − β)(βIV − β) = plim (Z X) Z ǫǫ Z(X Z)

´ CAPITULO 10. VARIABLES INSTRUMENTALES

322

Estas sumas requieren ser normalizadas (es decir, divididas por T ) para as´ı asegurar su convergencia en probabilidad (Denotaremos la varianza asintótica con un sub´ındice a) :

V ara (βÎV ) = plim plim = plim plim

"

"

"

"

= plim

"

plim

"

V ara (βÎV ) = 0

1 ′ ZX T 1 ′ XZ T 1 ′ ZX T 1 ′ XZ T

−1 #

−1 #

−1 #

−1 #

1 ′ ZX T

−1 #

1 ′ XZ T

−1 #

· plim(Z ′ ǫǫ′ Z) · 1 T2 · plim(Z ′ ǫ)plim(ǫ′ Z) · 1 T2 · plim |

1 ′ 1 ′ Z ǫ ·plim ǫZ · T T {z } 0

Comentario 4 Observe cuidadosamente el desarrollo anterior. Notará que la varianza se colapsa cuando está as´ı normalizada (es decir, dividida entre T ). Dicho resultado es lógico si consideramos que el estimador de IV es consistente; si los estimadores convergen a los verdaderos parámetros, su varianza debe desaparecer con el aumento del tamaño de muestra. Claro está que si normalizamos por una potencia menor de T quizá logremos evitar el colapso antes mencionado. El siguiente desarrollo requiere la utilización de un Teorema del L´ımite Central; esto tiene la virtud de incluir, aparte de la varianza, la distribución de los parámetros estimados. Encontrar una distribución l´ımite no degenerada de los estimadores de IV requiere el uso del Teorema del L´ımite Central de Lindberg-Feller: Teorema 17 (Lindberg-Feller) Sea {ǫt } t = 1, 2, ..., T independiente e idénticamente distribuido con media cero y varianza σ 2 < ∞ ; si los elementos zt,k de la

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES matriz de instrumentos Z son tales que |zt,k | es finito y el l´ımite l´ımT →∞ es una matriz definida positiva,7 entonces:

323 Z′Z T

= Σ∗

1 d √ Z ′ ǫ−→N (0, σ 2 Σ∗ ) T Con este resultado podemos volver a calcular la varianza de los estimadores IV , esta vez sin que se nos colapse: (βÎV − β) = (Z ′ X)−1 Z ′ ǫ √ T T (βÎV − β) = √ (Z ′ X)−1 Z ′ ǫ T 1 = T (Z ′ X)−1 √ Z ′ ǫ T −1 1 1 = (Z ′ X)−1 √ Z ′ ǫ T T −1 1 ′ 1 √ Z ′ǫ = ZX T T | {z } | {z } Σ−1

N (0,σ 2 Σ∗ )

Aqu´ı es importante recordar que, al multiplicar una distribución normal con media cero y varianza constante por una constante, si bien la media no cambia, la varianza s´ı; e´ sta debe ser multiplicada por el cuadrado de dicha constante: √ d 2 −1 ∗ −1′ ˆ T (βIV − β)−→N 0, σ Σ Σ Σ

Ahora que el método de IV ya ha sido expuesto, conviene mencionar el precio a pagar, es decir, sus limitaciones. En esta vida T ODO SE PAGA , T ODO SE C OMPRA. El método de Variables Instrumentales, aportación de la econometr´ıa a la estad´ıstica, funciona bien siempre y cuando se logren obtener esos famosos instrumentos válidos. En realidad, la dificultad en la ejecución de IV no es en s´ı la aplicación de sus fórmulas, sino más bien la búsqueda de los instrumentos adecuados. Más adelante se mostrarán algunas pruebas que allanan el camino. Antes de preocuparnos por esa cuestión, veamos, más concretamente, como podremos emplear IV en la práctica. 7

Conocidas como Condiciones de Grenander.

´ CAPITULO 10. VARIABLES INSTRUMENTALES

324

10.2.

M´ınimos Cuadrados en 2 Etapas

El estimador IV suele denominarse estimador de M Í NIMOS C UADRADOS EN 2 E TAPAS (2SLS, por sus siglas en inglés: Two Stages Least Squares). Ello obedece a que, en tiempos pretéritos y sobre todo con la carencia de poder de cómputo, los estimadores de IV se calculaban en dos pasos relativamente sencillos, cada uno. No es extremadamente dif´ıcil demostrar que IV y 2SLS es lo mismo; por ello, lo vamos a hacer. Para eso, primero que nada debemos entender que es exactamente 2SLS. Suponga que se desea estimar la siguiente especificación:

yt = β1 + β2 x2t + β3 x3t + β4 x4t + β5 x5t + ut Y = Xβ + U

Tenemos, para no perder la costumbre, el siguiente problema: x4t y x5t son variables endógenas del sistema y están por ende correlacionadas con el término de error. Por fortuna, contamos con las variables w1t y w2t que constituyen Variables Instrumentales válidas8 (ver condiciones arriba). En particular nos importa que tales variables estén correlacionadas con x4t y x5t respectivamente pero ninguna de ellas lo esté con el término de error, ut . El número de instrumentales, como ya señalamos, debe coincidir con el número de explicativas, es decir ser igual a K. 1. Definamos Z = [1, x2 , x3 , w1 , w2 ]:9 matriz de variables exógenas o predeterminadas. 2. Estimemos, usando MCO, una regresión con cada variable explicativa problemática del modelo (es decir x4t y x5t ) contra el vector de variables exógenas. Cuando el instrumento es, a la vez explicativa, no vale la pena correr la regresión puesto que el resultado es obvio.10 8

Poco se ha discutido respecto al número de Variables Instrumentales, l. Por el momento baste ´ y la ecuación no tiene una u´ nica solución; l = k decir que l < k implica S UB - IDENTIFICACI ON ´ E XACTA y la ecuación tiene una u´ nica solución; l > k implica S OBRE implica IDENTIFICACI ON ´ y tenemos más de lo que necesitamos para encontrar la solución (entonces hay IDENTIFICACI ON que escoger).Todo esto se discutirá más adelante as´ı como en el cap´ıtulo referente a ecuaciones simultáneas. 9 Aqu´ı se explicita que si algunas variables no tienen problemas de endogeneidad, entonces pueden ser utilizadas como instrumentos de ellas mismas. 10 Explique esta afirmación.

´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS

325

xit = zt δi + eit En donde zt es un vector-renglón que incluye las realizaciones en el tiempo t de los instrumentos. 3. Calculemos los valores ajustados de cada variable explicativa: xît = zt δî 4. Recupere los K vectores estimados, xît para i = 1, 2, . . . , K, y agrúpelos (sin ˆ Finalmente, olvidar las variable cuya regresión no corrió) en una matriz X. estime la regresión: ˆ + Residuales Y = Xβ Estos pasos resumen el método 2SLS. Ahora s´ı veamos porque aplicarlo es equivalente a la estimación por IV . Veamos el estimador de δi :11 −1 δî = (Z ′ Z) Z ′ xi

o bien propongamos una expresión que nos calcule todos los parámetros en cuestión en una sola operación: −1 δˆ = (Z ′ Z) Z ′ X

Dónde, 

  δˆ =   

δˆ11 δˆ12 .. . δˆ1k

δˆ21 · · · δˆk1 .. δˆ22 . .. . . .. . . . ˆ ˆ δ2k · · · δkk

     

Es importante señalar que las variables que usamos para 2SLS, contenidas en la ˆ pueden ser calculadas directamente haciendo:12 matriz X 11

Note que cuando se corre una explicativa contra las exógenas y que e´ stas u´ ltimas incluyen a dicha explicativa, todos los parámetros se hacen cero excepto el de la explicativa que se hace igual a la unidad y por ende: zît = zit . 12 ¡Pruébelo!

´ CAPITULO 10. VARIABLES INSTRUMENTALES

326

ˆ = Z δˆ X Ahora bien, retomemos el estimador de β por el método de M´ınimos Cuadrados en 2 Etapas: ˆ ′ X) ˆ −1 X ˆ ′Y βˆ2SLS = (X Procederemos a entender mejor el puente entre IV y 2SLS mediante una nueva notación; denotemos como eît a los residuales estimados de las regresiones: xit = zt δî + eît Una de las principales propiedades del Método de M´ınimos Cuadrados Ordinarios es que los residuales estimados son ortogonales a las variables explicativas de la regresión debido a la forma en que e´ stos son calculados (si no lo recuerda bien, revise el desarrollo de las ecuaciones normales; vea la ecuación 2.2). Aplicado a nuestro caso, obtenemos: X

zt · eît = 0

De ah´ı resulta fácil ver que los valores ajustados (ˆ xit = zt δî ) también son ortogonales a los residuales (note que eît es un escalar, por lo que se puede reacomodar en la expresión): X

xît · eît = =

X

X

| |

zt δî · eît zˆt · eît δi {z } =0 {z }

(1×1)

As´ı, ya tenemos clara la ortogonalidad entre residuales y valores ajustados en una regresión. Procedemos ahora a ver la relación entre residuales de una regresión y valores ajustados de otra:

´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS

X

X

xˆjt · eît =

X

=

| |

327

zt δˆj · eît zˆt · eît δj {z } =0 {z } (1×1)

De ah´ı es fácil inferir que esos mismos residuales no están correlacionados con los valores ajustados de cualquiera de esas regresiones. Note que la ortogonalidad de cumple para todo i, j = 1, 2, . . . , K. Sabiendo lo anterior, recordamos como están construidas las variables de la segunda regresión en 2SLS: xît = zt δî xit = xît + eît Si multiplicamos esta u´ ltima expresión por xˆjt , donde j = 1, 2, . . . , K obtenemos: xˆjt ·xit = xˆjt ·ˆ xit + xˆjt ·ˆ eit Y si ahora aplicamos el operador de sumatoria... X

xˆjt ·xit = =

X

X

xˆjt ·ˆ xit + xˆjt ·ˆ xit

X

|

xˆjt ·ˆ eit {z }

=0

Este resultado nos permite manipular la fórmula de los estimadores de 2SLS de la siguiente manera: −1 ˆ ′X ˆ ˆ ′Y X X ′ ˆ ′Y ˆ = X X −1 X

βˆ2SLS =

Ahora s´ı, ya nada más falta un paso para demostrar que el método en dos etapas es lo mismo que el de Variables Instrumentales. Necesitaremos tres de los resultados hasta aqu´ı obtenidos:

´ CAPITULO 10. VARIABLES INSTRUMENTALES

328 ˆ = Z δˆ 1. X 2. δˆ = (Z ′ Z)−1 Z ′ X ˆ ′ X)−1 X ˆ ′Y 3. βˆ2SLS = (X

Empecemos transponiendo las primeras dos: ˆ ′ = δˆ′ Z ′ X δˆ′ = X ′ Z(Z ′ Z)−1

Ahora reemplazamos estas u´ ltimas dos en la tercera ecuación: ˆ ′ X)−1 X ˆ ′Y βˆ2SLS = (X −1 = (δˆ′ Z ′ X) δˆ′ Z ′ Y −1 −1 −1 = (X ′ Z)(Z ′ Z) (Z ′ X) (X ′ Z)(Z ′ Z) Z ′ Y −1

−1

−1

= (Z ′ X) (Z ′ Z)(X ′ Z) (X ′ Z)(Z ′ Z) Z ′ Y | {z } ′

−1

′

′

I −1

= (Z X) (Z Z)(Z Z) Z ′ Y | {z } I

−1 βˆ2SLS = (Z ′ X) Z ′ Y

Como verán, obtenemos una formulación idéntica a la del estimador de IV antes estudiado: βˆ2SLS = (Z ′ X)−1 Z ′ Y βˆ2SLS = βÎV Ahora que ya sabemos la equivalencia de ambos métodos, es posible decir que las propiedades de los estimadores son, por ende, las mismas. De esta manera, ya no es necesario estudiarlas.

´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS

329

Ejercicio 12 Suponga que tenemos la siguiente relación entre las variables x2 , w1 , w2 y y :

x1t = 7 + uxt + 0.9 · uxt−1 x2t = x1t + 0.7 · vt √ uxt ∼ iidN 0, 2

vt yt w1t w2t uw1t uw2t

∼ = = = ∼

iidN (0, 2) 3 + 1.5 · x2t + vt 1.8 + 0.5 · x1t + uw1t −3 − 0.9 · x1t + uw2t iidN (0, 2) 3 ∼ iidN 0, 2

Donde todas las variables son iguales a cero cuando t = 0. P REGUNTAS : 1. Genere todos los datos en un programa de Matlab. 2. Exporte tales datos al Gretl y: Estime por MCO la especificación: yt = α + βx2t + ut Estime por IV (2SLS) la especificación: yt = α + βx2t + ut usando como instrumento w1t . Estime por IV (2SLS) la especificación: yt = α + βx2t + ut usando como instrumento w2t . Estime por IV (2SLS) la especificación: yt = α + βx2t + ut usando como instrumento w1t y w2t (note que se trata de una estimación sobre identificada). 3. Construya en Gretl la verdadera l´ınea de regresión, compárela con las que estimó en el inciso anterior. 4. Regrese al Matlab, haga la estimación por MCO as´ı como por 2SLS, como se expuso en clase.

330

´ CAPITULO 10. VARIABLES INSTRUMENTALES

5. Convierta su código en un experimento de Monte Carlo (es decir, rep´ıtalo 500 veces) y obtenga los histogramas del estimador de la pendiente por ambos métodos. ¿Observa alguna diferencia? Ejercicio 13 Estimación de una Curva de Phillips. Como es bien sabido, la curva de Phillips se identificó emp´ıricamente hace ya medio siglo; dicha curva relaciona el nivel de desempleo con la tasa de inflación. Actualmente la evidencia ya no es tan contundente al estudiar esta relación. Este ejercicio consiste en hacer una estimación rápida de la Curva de Phillips para México: 1. Busque por internet los siguientes datos: Tasa de inflación, (la del consumidor o la del productor). Tasa de Desempleo Abierto Tradicional (TDAT), Tasa de Desempleo Abierto Alternativa (TDAA), Tasa de Presión Efectiva Económica (TPEE),13 Número de afiliados al IMSS,... 2. Estime la relación Desempleo-Inflación basado en todo lo que sabe usted de econometr´ıa; haga su estimación por MCO y por IV ; los instrumentos son, en este caso, las tasas de desempleo alternativas, as´ı como el primer rezago de la tasa de inflación (lo que se conoce como una variable predeterminada), fungiendo e´ ste como variable de expectativas–adaptativas–de inflación. La especificación a probar es la siguiente:14 πt = α + β1 πtE + β2 Dt + ut 3. Redacte un documento decente en el que quede asentado lo que usted conoce de la Curva de Phillips, los resultados de sus estimaciones y la conclusión a la que llega con base en estos datos. Ejercicio 14 Hemos estudiado hasta ahora un estimador de Variables Instrumentales en el que el número de columnas de la matriz Z ,l, es igual al número de columnas de la matriz X, K. No obstante, también vimos que es posible estimar por IV cuando l > K. Pero no se ha demostrado que, en ese caso, el estimador de 13

Información disponible en INEGI La especificación aqu´ı propuesta es una simplificación de las curvas de Phillips que hoy en d´ıa se suelen estimar; está inspirada del material que aparece en Makiw (2002), [Macroeconomics], pp. 358-371. 14

´ 10.2. MINIMOS CUADRADOS EN 2 ETAPAS

331

los parámetros es consistente. Asuma la relación Y = Xβ +U en la que se cumplen todos los supuestos excepto el de ortogonalidad. Asuma también que dispone de una matriz Z de instrumentos válidos, es decir que satisfacen las condiciones especificadas con anterioridad. La fórmula de Variables Instrumentales cuando l > K es la siguiente:

βÎV



−1

−1 = X ′ Z (Z ′ Z) Z ′ X  | {z } ′

= [X Pz X]

Pz −1 ′

X Pz Y

X ′ Z (Z ′ Z) | {z Pz

−1

Z′ Y }

1. Explique de donde salió esta fórmula. 2. Demuestre que este estimador es consistente. 1. (gran) ayuda para la primera pregunta: basta con reinterpretar el estimador de M´ınimos Cuadrados Generalizados. Vea el desarrollo de la sección 6.2 en la página 209. Asuma, por simplicidad que los instrumentos son variables no estocásticas. Nuestra especificación (que se supone correcta) es Y = Xβ +U Si multiplicamos por la matriz de variables instrumentales traspuesta, |{z} Z , l×T

nos queda: Z ′Y

= Z ′ Xβ + Z ′ U

Note como las innovaciones de esta extraña nueva especificación no son, en cierta forma, idóneos (en MCO, E(U U ′ ) = σ 2 IT ); si calculamos la varianza de las innovaciones (apoyándonos en el supuesto simplificador), obtenemos: E(Z ′ U ) · (Z ′ U )′ = σ 2 |{z} Z ′ Z Note como dicha matriz no es una identidad, Ω

como deber´ıa ser. Podemos entonces aplicar MCG, es decir encontrar una matriz P tal que P ΩP ′ = Il . En este caso es fácil encontrar dicha matriz P : P ΩP ′ = Il Ω = P −1 P ′−1 Z ′ Z = P −1 P ′−1

A partir de aqu´ı, basta con emplear las expresiones de MCG y mediante el reemplazo de Ω por Z ′ Z se llega a la fórmula de Variables Instrumentales.

332

´ CAPITULO 10. VARIABLES INSTRUMENTALES

2. ayuda para la segunda pregunta: Retome la fórmula del estimador y reemplace la variable Y por la verdadera especificación, Y = Xβ + U . Descubrirá rapidamente que puede llegar a una expresión con la forma: βÎV = β + algo. A la expresión resultante apl´ıquele entonces el “plim”; constatará que es posible emplear los supuestos hechos a los instrumentos y obtener el resultado solicitado.

10.3.

Problemas con los instrumentos

Existen dos problemas potencialmente graves con el método de IV. La cuestión más espinosa en el uso de Variables Instrumentales se da, tristemente, al momento de escoger los instrumentos. Las propiedades más deseadas de e´ stos es que, (i) no estén asintóticamente correlacionados con el término de error y (ii) estén muy correlacionados con las variables explicativas endógenas (las que causan el problema). Atacaremos primero el punto (ii).

10.3.1. Relevancia de los instrumentos Cuando existe un problema de ortogonalidad, lo tratamos de resolver usando instrumentos que provean información suficiente para aislar los movimientos exógenos. Necesitamos por ende que los instrumentos sean relevantes, es decir, que e´ stos expliquen una proporción lo más grande posible de los movimientos de las variables explicativas, las X’s. Entre más relevantes sean los instrumentos, mejores serán nuestros estimadores. Lo anterior corre en el mismo sentido que el tamaño de muestra; entre más datos usemos, mayor seguridad tendremos en que las propiedades asintóticas serán apropiadas y por ende, los estimadores convergerán al verdadero valor de los parámetros. Esto u´ ltimo además nos da pie para señalar que todas las bondades del método sólo existen en muestras grandes; en lo que respecta a muestras pequeñas, lo u´ nico con lo que podemos jugar es con la relevancia de los instrumentos (con objeto de asegurar que no estamos estimando algo inservible). Los instrumentos que no explican gran cosa de la variabilidad de las x se definen como ´ I NSTRUMENTOS D EBILES (weak instruments, en inglés). Usar instrumentos débiles es, en s´ı, un problema potencialmente grave. El sesgo que ya hab´ıamos señalado del Método se agrava en esta situación y las propiedades en muestras pequeñas son, para acabar pronto, muy pobres. Retomemos el resultado de la ecuación (10.1) en el que tenemos tres variables, yt , xt y zt , centradas. Las primeras dos están relacionadas en la especificación yt = βxt + ǫt . Existe un problema de ortogonalidad

10.3. PROBLEMAS CON LOS INSTRUMENTOS

333

con la variable xt pero contamos con un instrumento representado por la variable zt . Vimos, en ese caso concreto que nuestro estimador de IV es: βÎV

P z t ǫt = β+P z t xt

Recuerde que las variables están centradas, por lo que, si normalizamos por segundo elemento, obtendr´ıamos:

βÎV

= β+

1 T

el

Cov(zt , ǫt ) Cov(zt , xt )

Asuma por un momento que nuestro instrumento no sólo es débil sino de plano totalmente irrelevante. Su covarianza ser´ıa entonces cero, por lo que, de nuestra fórmula anterior podemos deducir que estar´ıamos dividiendo por cero: ¡el sesgo explotar´ıa! Para minimizar este riesgo, lo que se debe hacer es sustentar en la teor´ıa económica la selección de los instrumentos y confiar en nuestro conocimiento del problema. Claro está, también es importante verificar algunos elementos estad´ısticos más concretos. En espec´ıfico, se recomienda, al momento de emplear el método de 2SLS, detenerse un poco en la primera etapa. Reviste especial importancia verificar las regresiones de cada variable endógena contra el conjunto de variables exógenas; asegúrese que la R2 de esta regresión sea alta y que los coeficientes estimados sean, en conjunto, estad´ısticamente significativos (esto, huelga decir, habrá de hacerlo mediante una prueba de F).

10.3.2. Exogeneidad de los instrumentos El segundo problema de IV radica en asegurar que los instrumentos realmente sean exógenos y no tengan relación con el término de error. Esta propiedad no puede ser estudiada (es decir probada) cuando el sistema está exactamente identificado: hasta ahora hemos visto el método de IV en el caso en el que el número de instrumentos (que denotaremos con la letra l) es igual al de variables explicativas. No obstante, vimos que IV es equivalente a 2SLS. En este u´ ltimo, recordemos, se corre una serie de regresiones donde cada variable endógena sirve de dependiente y todas las variables exógenas (es decir, las explicativas sin problema de endogeneidad y los instrumentos) sirven de explicativas. Nada nos impedir´ıa incluir más Variables

334

´ CAPITULO 10. VARIABLES INSTRUMENTALES

Instrumentales de las necesarias. Si lo piensan bien, estamos proyectando las l Variables Instrumentales en K variables ajustadas, que luego usaremos en la segunda etapa del método. Lo que ocurre es que combinamos linealmente las l variables para obtener sólo K. Se puede decir que, los instrumentos sobrantes son restricciones lineales adicionales en esta proyección. En este caso, como se señaló en una nota al pie de página, se dice que el modelo está S OBRE -I DENTIFICADO. La idea de incorporar más información a nuestra estimación por medio de un mayor número de instrumentos es tentadora. Además, siendo que ya tenemos instrumentos sobrantes (l − K > 0), aqu´ı s´ı podemos probar si los instrumentos son válidos o no. Es muy importante realizar estas pruebas, por lo que se invita al lector nunca omitirlas. En otras palabras, si se cuenta con demasiados instrumentos, no hay que desecharlos, puesto que sirven para probar la validez de e´ stos. La prueba que aqu´ı proveeremos para evaluar los instrumentos en sistemas sobre-identificados se denomina P RUEBA J DE S ARGAN. Como ya se señaló, estudiar estad´ısticamente la validez de los instrumentos cuando el número de e´ stos es igual al número de explicativas simplemente no se puede. De hecho, la u´ nica manera de probar si los instrumentos son válidos estriba en tener muchos más instrumentos (l > K), ¿por qué? la razón es relativamente fácil de intuir. Imagine momentáneamente que, en nuestra especificación, del lado de las explicativas sólo hay un regresor endógeno (es decir, no ortogonal al término de error) pero que, además, contamos con dos Variables Instrumentales. Podr´ıamos en ese caso estimar de dos maneras distintas la especificación, una con cada instrumento. Resulta obvio que esas dos estimaciones no arrojarán un estimador idéntico debido a la variación muestral. No obstante, si los dos instrumentos son realmente exógenos, entonces las estimaciones de nuestros parámetros deber´ıan ser relativamente cercanas, puesto que el estimador es consistente. ¿Qué pensar´ıa usted si los dos estimadores son muy distintos? Lo más prudente ser´ıa inferir que, o bien uno de los dos instrumentos no es válido o, peor aún, ninguno de los dos lo es. Es esa diferencia entre estimadores la que se utiliza para juzgar la exogeneidad de los instrumentos. Deber´ıa quedar claro que, si sólo disponemos de un instrumento, pues no es posible compararlo con nada más. Esa es la razón por la que sólo se puede probar la validez de los instrumentos cuando hay un excedente de e´ stos. Como ya dijimos, existe una prueba muy socorrida para evaluar lo anterior; responde al nombre de P RUEBA DE S ARGAN y se construye mediante el siguiente proceder:15 15

El art´ıculo original es de Sargan, John D. (1958): “The Estimation of Economic Relationships Using Instrumental Variables”. La descripción del procedimiento está basada en Stock y Watson (2003).

10.3. PROBLEMAS CON LOS INSTRUMENTOS

335

1. Suponga que la regresión de interés es: Y = |{z} X β + |{z} W γ + ut . T ×p

T ×q

La partición de las variables explicativas corresponde a una clasificación de las mismas en dos grupos: a) Las variables exógenas, es decir, que no causan problemas de ortogonalidad; supongamos que son, en total, q; w1t , . . . , wqt , b) Las variables endógenas, es decir, que causan problemas de ortogonalidad; son las restantes, digamos, p (p + q = K). Las denotamos x1t , . . . , xpt . 2. Suponga además que tiene usted l > q instrumentos, z1t , . . . , zlt . 3. Estime la especificación original usando el método de variables instrumentales y recupere los residuales de la especificación original (pero estimada por IV), uˆt . 4. Estime usando MCO una segunda regresión, donde uˆt es la variable dependiente. Como explicativas, use todos los instrumentos (z) as´ı como todas las variables exógenas (w): uˆt = δ0 + δ1 z1t + . . . + δl zlt + δl+1 w1t + . . . + δl+q wqt + ǫ1t Calcule la prueba de significancia conjunta F, que involucra dos regresiones, la restringida y la no-restringida. La regresión no restringida es la ecuación anterior, mientras que la restringida es: uˆt = γ0 + γ1 w1t + . . . + γq wqt + ǫ2t 5. El estad´ıstico de prueba se calcula mediante la siguiente fórmula: S =l∗

(SRCr − SRCnr )/l , SRCnr /(T − (l + q) − 1)

donde SRC se refiere a la suma de residuales al cuadrado, mientras que los sub´ındices r y nr se refieren a la regresión restringida y no restringida, respectivamente.

336

´ CAPITULO 10. VARIABLES INSTRUMENTALES

6. dicho estad´ıstico, bajo la hipótesis nula se distribuye como χ2l−p,g.l. , donde, recuerde, l es el número de instrumentos, mientras que P es el número de regresores endógenos. Note como el número de grados de libertad corresponde al número de instrumentos “excedentes” o “sobrante”. Esta prueba, como se mencionó en un principio, sólo sirve en casos sobre-identificados. 7. Ahora, como siempre, sólo falta saber cuales son las hipótesis y la distribución bajo la nula, a) H0 : Los instrumentos son válidos (ortogonales al término de error), b) Ha : Al menos uno de los instrumentos no es válido.

Resulta evidente que, en caso de rechazar la hipótesis nula, tendr´ıamos el problema de no saber cuales instrumentos son válidos y cuales no. No obstante, existe siempre la posibilidad de hacer distintos paquetes de instrumentos y realizar la prueba para cado uno de ellos. Dichos paquetes omitir´ıan uno o más instrumentos. As´ı, eventualmente podr´ıa identificar los instrumentos válidos. Huelga decir que eso implica, cuando menos, bastante trabajo. A continuación se muestra el código (en lenguaje Matlab) que genera una función capaz de realizar la prueba de Sargan: %______________________________________________________ function [S,PV]=Sargan_test(y,x,w,z) % function [S,PV]=Sargan_test(y,x,w,z) %______________________________________________________ % Argumentos: % y: Variable dependiente % x: Variables explicativas que s´ ı generan prob% -lema de ortogonalidad % w: Variables explicativas que no generan prob% -lema de ortogonalidad % Si no hay, escriba []. % z: Instrumentos (m´ as instrumentos que va% -riables c/problema) %______________________________________________________ % No incluya constante (el c´ odigo la incluye autom´ a% ticamente) %______________________________________________________

10.3. PROBLEMAS CON LOS INSTRUMENTOS

337

% Salida: % S: Estad´ ıstico de prueba de Sargan % PV: P-valor del estad´ ıstico %______________________________________________________ T=length(y); %______________________________________________________ % Primera regresi´ on X1=[ones(T,1),w,x]; X2=[ones(T,1),w,z]; X3=[ones(T,1),w]; Reg1=inv(X1’*X2*inv(X2’*X2)*X2’*X1)*X1’*X2*... inv(X2’*X2)*X2’*y; U=y-X1*Reg1; % Segundas regresiones Reg2a=(inv(X2’*X2))*X2’*U; e1=U-X2*Reg2a; SRCnr=sum(e1.ˆ2); Reg2b=(inv(X3’*X3))*X3’*U; e2=U-X3*Reg2b; SRCr=sum(e2.ˆ2); % Estad´ ıstico de prueba if isempty(w) q=0; else q=length(w(1,:)); end p=length(x(1,:)); l=length(z(1,:)); S=l*((SRCr-SRCnr)/l)/(SRCnr/(T-l-q-1)); % P-valor PV=1-chi2cdf(S,l-p); %______________________________________________________ El siguiente código, también de Matlab, muestra como generar dos variables, xt y yt , linealmente relacionadas con, además, un problema de ortogonalidad con el término de error de dicha relación. El código genera además tres instrumentos, dos de ellos fuertes y válidos, y un tercero inválido. La prueba S, al menos con estos datos simulados, funciona especialmente bien: %______________________________________________________ % C´ odigo para formular un problema de ortogonalidad

338

´ CAPITULO 10. VARIABLES INSTRUMENTALES

% entre ’x’ y ’y’ y % generaci´ on de instrumentos, v´ alidos y no v´ alidos. %______________________________________________________ T=100; p1=0.9; p2=2; p3=5; p4=2.7; p5=2.3; p6=3;p7=1.5; Alpha=2; Beta=4; u=randn(T,1).ˆ2; v=randn(T,1)*p3; x=p4*u+v; z1=p1*x+randn(T,1)*p2-p4*u; z2=p1*x+(randn(T,1)*p6).ˆ2-p4*u; z3=p5*x+(randn(T,1)*p7).ˆ2; y=Alpha+Beta*x+u; X=[ones(T,1),x]; Z1=[ones(T,1),z1]; Z2=[ones(T,1),z2]; Z3=[ones(T,1),z3]; Bols=((X’*X)ˆ-1)*X’*y; Biv1=((Z1’*X)ˆ-1)*Z1’*y; Biv2=((Z2’*X)ˆ-1)*Z2’*y; Biv3=((Z3’*X)ˆ-1)*Z3’*y; [[2;4],Bols,Biv1,Biv2,Biv3]; % Hagamos la prueba de Sargan: [S1,PV1]=Sargan_test(y,x,[],[z1,z2]) [S2,PV2]=Sargan_test(y,x,[],[z1,z3]) %______________________________________________________ Al ejecutar esta simulación, deberá fijarse en que se corre dos veces la prueba S. En la primera corrida, ambos son instrumentos válidos, mientras que en la segunda, sólo uno lo es. Consecuentemente, la prueba se rechaza en el segundo caso; ello permite pensar en que, si usted cuenta con múltiples instrumentos, identificar eventuales instrumentos inválidos es sólo cuestión de realizar múltiples combinaciones de instrumentos para as´ı poder identificar aquel o aquellos que no sirven.

10.4.

La Prueba de Hausman

Una de las pregunta más relevantes en cuanto al uso de Variables Instrumentales es, simplemente, cuando usarlo. Podemos sospechar que hay variables explicativas

10.4. LA PRUEBA DE HAUSMAN

339

medidas con error pero quizá no sepamos si tales errores son suficientemente grandes como para provocar una inconsistencia de nuestros estimadores de la cual haya que preocuparse; de forma análoga, podemos estar preocupados porque algunas de nuestras variables explicativas no sean realmente exógenas sino justamente endógenas. Pero hasta el momento eso se ha quedado como una sospecha y nuevamente ignoramos que tan grave es el problema de inconsistencia que esta situación genera. En ambos casos aqu´ı expuestos, si dicha inconsistencia no se revela, quedar´ıa plenamente justificado el uso de MCO. Si nuestros regresores son exógenos, también son instrumentos válidos, por lo que MCO será consistente, pero además insesgado, por lo que resulta un método de estimación preferible a IV .

10.4.1. La prueba de Hausman Con base en lo anterior, es evidente que disponer de una prueba que tenga la ortogonalidad entre explicativas y errores como hipótesis nula y la no-ortogonalidad como alternativa (con el añadido de que otras variables—las instrumentales—s´ı sean ortogonales a ese mismo término de error) ser´ıa u´ til. Presentaremos en esta sección una prueba que satisface tal necesidad. Si bien los or´ıgenes de la prueba se remontan a un art´ıculo de Durbin en 1954, la prueba fue posteriormente afinada por Wu (1973) y por Hausman (1978).16 Las hipótesis nula y alternativa de la prueba de Hausman pueden expresarse como sigue: 1. H0 : Y = Xβ + U , U ∼ N (0, σ 2 I), E(X ′ U ) = 0, 2. Ha : Y = Xβ + U , U ∼ N (0, σ 2 I), E(Z ′ U ) = 0. Bajo la Hipótesis nula, tanto el estimador de MCO como el de IV son consistentes, mientras que bajo la alternativa, sólo el de IV lo es. Por ende, es fácil deducir que, = 0 bajo H 0 ˆ ˆ plim βIV − βM CO 6= 0 bajo Ha Aqu´ı utilizaremos un resultado de Hausman que resuelve fácilmente la prueba: Teorema 18 Suponga dos variables, xt y yt relacionadas linealmente, yt = α + βxt + ut . 16

Algunos autores se refieren a esta prueba como la Durbin-Wu-Hausman; en nuestro caso, sólo usaremos al u´ ltimo autor.

´ CAPITULO 10. VARIABLES INSTRUMENTALES

340

Si este modelo satisface todos los supuestos de la regresión (correcta especificación, homoscedasticidad, independencia y normalidad de los errores, ortogonalidad, estacionariedad), situación que caracteriza a la hipótesis nula, entonces, bajo dicha hipótesis nula, la varianza asintótica de la diferencia entre el estimador del parámetro beta por IV y por M CO, que denotaremos qˆ = βÎV − βˆM CO , es simplemente la resta de las varianzas de tales estimadores: V ar(ˆ q) = σ ˆβ2ÎV − σ ˆβ2ˆM CO Prueba 2 La demostración del resultado anterior es sorprendentemente intuitiva. Requiere, en primera instancia, demostrar los siguiente: Cov(βˆM CO , qˆ)

def

= =

σβ,q 0

Recuerde que estamos bajo H0 , es decir, no hay problema de ortogonalidad. En ese caso, ambos estimadores son consistentes (aunque el de MCO es el más eficiente). Lo anterior nos garantiza que, bajo H0 : plim(ˆ q) = 0 ˆ y def´ınalo de la siguiente manera: Ahora imagine un nuevo estimador de β, d, dˆ = βˆM CO + λˆ q, dónde λ es una constante cualquiera (téngalo bien presente). Es importante también tener muy claro que este extraño estimador está al abasto del econometrista, es decir: es posible estimar una relación usando MCO e IV, definir arbitrariamente ˆ Resulta obvio que, cualquiera que sea el una constante λ y, finalmente, calcular d. valor de dicha λ, el nuevo estimador satisface lo siguiente: ˆ = β. plim(d) Resumiendo, dˆ es un estimador consistente de β, para todo λ ∈ R. Veamos ahora la varianza de nuestro nuevo estimador: ˆ = V ar(βˆM CO ) + λ2 V ar(ˆ V ar(d) q ) + 2λCov(βˆM CO , qˆ) = V ar(βˆM CO ) + λ2 V ar(ˆ q ) + 2λσβ,q | {z } ∗

10.4. LA PRUEBA DE HAUSMAN

341

La parte de la expresión señalada con un asterisco tiene que ser positiva. Ello obedece a que el estimador de MCO es, según el teorema de Gauss-Markov, el más eficiente posible. Cualquier otro estimador sólo puede tener una varianza mayor (o en el mejor de los casos, igual). Por ello, podemos afirmar que: λ2 V ar(ˆ q ) + 2λσβ,q ≥ 0

(10.2)

Ahora considere el signo del primer elemento de la parte izquierda de la ecuación (10.2): λ2 V ar(ˆ q ) ≥ 0. Esto resulta obvio, pues, siendo λ un valor real, elevado al cuadrado seguro no es negativo; de igual manera, la varianza, en el peor de los casos, ser´ıa nula, pero seguro no podr´ıa ser negativa. As´ı, es el segundo elemento, 2λσβ,q , el que podr´ıa definir el signo de la expresión. Si tomamos en cuenta lo que sabemos hasta ahora, es decir: 1. La varianza de nuestro estimador dˆ es: V ar(βˆM CO ) + λ2 V ar(ˆ q ) + 2λσβ,q , 2. El estimador de MCO, βˆM CO es el más eficiente, es decir, el de m´ınima varianza, 3. λ2 V ar(ˆ q ) ≥ 0, 4. λ ∈ R (λ tiene que poder ser cualquier número real). Podemos deducir que σβ,q sólo puede ser cero. Para ello, suponga que σβ,q > 0. En ese caso, sabiendo que podemos tomar cualquier valor de λ, podr´ıamos justa y arbitrariamente tomar el siguiente: σβ,q V ar(ˆ q) Si reemplazamos lo anterior en la ecuación (10.2), misma que debe ser igual o mayor que cero, obtenemos: λ=−

σβ,q V ar(ˆ q)

2

V ar(ˆ q) − 2

σβ,q σβ,q ≥ 0 V ar(ˆ q) 2 σβ,q ≥ 0 − V ar(ˆ q)

La u´ ltima espresión, marcada en rojo, es evidentemente falsa. Si σβ,q > 0 fuera negativa, entonces nosotros podr´ıamos escoger arbitrariamente una constante λ

´ CAPITULO 10. VARIABLES INSTRUMENTALES

342

que generara el sinsentido de la u´ ltima expresión.17 Debemos concluir por ende que σβ,q no puede ser positiva. Suponga que el otro caso, en el que σβ,q < 0. Sabiendo que podemos tomar cualquier valor de λ, podr´ıamos ahora justamente tomar el siguiente: λ=−

σβ,q V ar(ˆ q)

Si reemplazamos otra vez lo anterior en la parte de la fórmula de la varianza de qˆ que debe ser igual o mayor que cero, obtenemos:

−

2 σβ,q ≥ 0 V ar(ˆ q)

Otra vez llegamos a un absurdo, por lo que conclu´ımos que σβ,q tampoco puede ser negativa. Si σβ,q no es ni positiva ni negativa, sólo le resta ser igual a cero: σβ,q = 0 Ahora s´ı, podemos concentrarnos en la varianza de qˆ. Sabiendo que qˆ = βÎV − βˆM CO , es fácil establecer que: βÎV = βˆM CO + qˆ Usando la expresión anterior, podemos calcular la varianza del estimador de IV : σ ˆβ2ÎV

= σ ˆβ2ˆM CO + V ar(ˆ q ) + 2σβ,q = σ ˆβ2ˆM CO + V ar(ˆ q)

Ya sólo queda reacomodar los términos: V ar(ˆ q) = σ ˆβ2ÎV − σ ˆβ2ˆM CO 17

Lo que muestra lo anterior es lo siguiente: para que la varianza del nuevo estimador sea superior a la de MCO (algo que necesariamente debe ocurrir), la constante λ debe quedar limitada a ciertos valores, es decir, no puede adoptar cualquiera que esté inclu´ıdo en los reales. No obstante, vimos que λ deber´ıa poder tener cualquier valor. Eso es un absurdo.

10.4. LA PRUEBA DE HAUSMAN

343

Ahora s´ı, sabiendo que: (i) bajo la hipótesis nula qˆ tiende a cero; (ii) que ambos estimadores se distribuyen asintóticamente normal (ver en la sección anterior) y conociendo la varianza de la diferencia, es posible afirmar que: qˆ a ∼ N (0, 1) desv.std(ˆ q) a

donde ∼ denota “se distribuye asintóticamente”. Si elevamos al cuadrado, obtendremos lógicamente: qˆ2 a ∼ χ21 g.l. var(ˆ q) Esta ser´ıa la distribución del estad´ıstico de Hausman bajo la hipótesis nula. La verdad es que existe una forma alternativa de presentar dicha prueba. Para ello, recurriremos a un ejemplo, que versa sobre el problema de los errores de medición en variables explicativas. Antes presentaremos, bajo la modalidad Receta de Cocina, la versión multivariada de la prueba.

10.4.2. La prueba de Hausman multivariada Es posible realizar una prueba de Hausman en el marco de una regresión multivariada donde el problema de endogeneidad no esté circunscrito a una sola variable. Sea nuestra especificación:

yt = x1t β1 + x2t β2 + · · · + xkt βk + ǫt

(10.3)

Supongamos que n de las k [n < k] variables son endógenas y tienen relación con el término de error. Agrupemos las variables endógenas en una matriz que denotamos ´ Xn y a la que llamaremos M ATRIZ DE VARIABLES E ND OGENAS . A las restantes variables explicativas las agrupamos en la matriz de variables exógenas Xm [m < k; n + m = k]. Habiendo hecho esta partición, nuestra especificación es ahora: Y

= Xn βn + Xm βm + ǫ

Supongamos ahora que tenemos una matriz de instrumentos Zl donde Zl es una matriz de dimensiones T × l, con l > n. Definimos Z = [Zl Xm ] y X = [x1t x2t · · · xkt ] de tal suerte que se satisfagan las siguiente condiciones ya harto conocidas:

´ CAPITULO 10. VARIABLES INSTRUMENTALES

344

1 ′ (Z ǫ) = 0 T 1 plim (Z ′ X) = Σ T 1 plim (Z ′ Z) = Σ∗ T plim

Para llevar a cabo la prueba de Hausman estimamos por MCO las regresiones Xn ˆ n la matriz donde almacenamos los valores ajustados. En contra Z y obtenemos X otras palabras corremos la matriz de variables endógenas contra la nueva matriz de variables exógenas. Es con esta nueva matriz que estimamos ahora:

Y

ˆnδ + ǫ = Xn βn + Xm βm + X

ˆ Evaluamos entonces la significancia del coeficiente asociado a Xn , δ: siendo la 1 ′ hipótesis nula de la prueba de Hausman H0 : plim T Xn ǫ = 0 [es decir que las variables que conforman Xn no están relacionadas con el término de error]. Bajo H0 : ′ a ˆ −1 δˆ ∼ δˆ [var(δ)] χ2n g.l.

La manera de hacer la prueba de Hausman antes expuesta corresponde a la propuesta de Wu (1973).18 En el caso de que no conozcamos las variables que son endógenas al término de error [o mejor dicho, que no sepamos que variables son potencialmente endógenas], la prueba de Hausman en una regresión conjunta se ejecuta de la siguiente manera. Recuerde que se asume que disponemos de más instrumentos que variables explicativas [l > k] y que los primeros deben ser instrumentos válidos: 1. Correr la regresión por MCO y recuperar el vector de estimadores βM CO as´ı como la matriz de Varianza-Covarianza. 2. Correr la regresión por el método IV y recuperar el vector de estimadores βIV as´ı como la matriz de Varianza-Covarianza. 18

En el libro Econometric Theory and Methods de Davidson y MacKinnon se demuestra la equivalencia entre ambos procederes.

10.4. LA PRUEBA DE HAUSMAN

345

3. Calcular el siguiente estad´ıstico de prueba:

ˆ ′ (var ˆ H = Q ˆ (Q))−1 Q donde:

ˆ = βÎV − βˆM CO Q var ˆ (Q) = var ˆ (βIV ) + var ˆ (βM CO ) Resulta importante resaltar que el cálculo de este estad´ıstico s´ı es sensible al rompimiento de los supuestos de heteroscedasticidad e independencia. Por ello, en caso de que se disponga de evidencia en ese sentido, se recomiendo utilizar la matriz robusta de Varianza-Covarianza.

10.4.3. Detección de errores de medición en variables explicativas Anteriormente descubrimos que los errores de medición de las variables son especialmente importantes cuando e´ stos ocurren en las variables explicativas. Es posible, si se cuenta con información adicional referente a la relación, y, especialmente relacionada con esa variable que creemos mal medida, identificar el problema. No sobra recalcar que lo que veremos a continuación es un caso especial de la muy conocida P RUEBA DE H AUSMAN.19 Veamos cual es el proceder en este caso. Suponga que deseamos estimar la siguiente especificación:20 ¨ t + ǫt yt = βx Pero sospechamos que existen errores importantes en la medición de la variable explicativa (x∗t = xt + vt ) y que en realidad, estamos estimando: yt = βx∗t + ǫ∗t 19 20

De hecho, como ya se explicó antes, corresponde a la propuesta de Wu (1973). Se asume por simplicidad, nuevamente, que las variables están centradas en cero.

´ CAPITULO 10. VARIABLES INSTRUMENTALES

346

Donde, recordando lo visto en cap´ıtulos anteriores, obtenemos un residual que corresponde a: ǫt ∗ = ǫt − βvt

Para corregir este problema, podemos usar IV ; no obstante, para ello necesitamos una variable instrumental, zt , correlacionada con xt pero no con ǫt ni con vt (es decir, que no esté correlacionada con ǫ∗t ). Supongamos que la relación entre xt y zt es la siguiente: xt = γ·zt + wt donde wt es un ruido blanco iid, centrado en cero y con varianza constante. Si estimáramos esta relación por medio de MCO, sólo lo podr´ıamos hacer con la variable mal medida. En ese caso obtendr´ıamos: x∗t = xˆ∗t + wˆt Por lo que podr´ıamos calcular la variable ajustada: xˆ∗t = γˆ · zt

(10.4)

Reemplazando la variable explicativa por lo encontrado en la ecuación (10.4) en la especificación original (en la que sospechamos que hay un error de medición), obtenemos lo siguiente: yt = β xˆ∗t + β wˆt + ǫ∗t Es fácil probar que no existe relación asintótica entre la variable explicativa ajustada, xˆ∗t , y el término de error: P γˆ zt (ǫt − βvt ) 1X ∗ ∗ = plim xˆt ǫt plim T T = 0

Con esto aseguramos una estimación consistente de β. Por otra parte, ahora tenemos otro parámetro a estimar que, de hecho, tiene el mismo valor. El hecho de que exista un error de medición, no obstante, tiene efectos sobre este u´ ltimo:

10.4. LA PRUEBA DE HAUSMAN

1 plim Σwˆt ǫt ∗ T

347

1X ∗ = plim (xt − γˆ zt ) (ǫt − βvt ) T

El producto de la variable instrumental con el término de error puede eliminarse gracias a los supuestos que hicimos respecto a las propiedades de un instrumento. Recuerde además que la variable mal medida hab´ıa sido definida como x∗t = xt +vt . Con esto en mente podemos continuar el desarrollo:

1 plim Σwˆt ǫt ∗ T

1X ∗ = plim − βxt vt T 1 X = plim − β (xt + vt ) · vt T

No hay relación entre la variable explicativa–bien medida–y el error de medición, por lo que, en el l´ımite, la covarianza entre ambas es cero. Sólo nos queda el u´ ltimo producto, que no es otra cosa sino la varianza del error de medición. Nuevamente, en el l´ımite, la suma de dicho error al cuadrado tiende a esa varianza: 1 ∗ = −βσv2 plim Σwˆt ǫt T As´ı pues, en presencia de un error de medición, el parámetro que acompaña a wˆt estará estimado de manera inconsistente. No obstante, y esto es E N E XTREMO I MPORTANTE, si no hay error de medición, la varianza de e´ ste podr´ıa considerarse nula, es decir: σv2 = 0 En ese caso, la estimación del segundo parámetro, que también es β, será consisˆ tente. Representemos al estimador de este segundo β con otra letra: δ. En ese caso, podemos manipular nuevamente la especificación a estimar: yt = β · xˆ∗t + δ · wˆt + ǫ∗t

si reemplazamos xˆ∗t por x∗t − wˆt , obtenemos:

yt = βx∗t + (δ − β) · wˆt + ǫ∗t

348

´ CAPITULO 10. VARIABLES INSTRUMENTALES

Note como, en caso de no haber error de medición, el estimador de δ tiende a β; lo mismo ocurre con el estimador de β. Por ello, p δˆ→β

p De ello se deduce que δˆ − βˆ → 0. Es con base en lo anterior que se puede hacer la prueba de hipótesis. Al parámetro de esta u´ ltima especificación se le puede aplicar una sencilla prueba t, como siempre; si resulta estad´ısticamente igual a cero, no habrá evidencia de errores de medición. Si por el contrario, se rechaza la prueba, tendremos entonces que comenzar a preocuparnos por reemplazar esa variable. Resumamos esta prueba rápidamente; los pasos de e´ sta son: 1. Correr una regresión donde xˆ∗t sea la variable dependiente y zt , un instrumento, sea la explicativa; 2. Obtener residuales de esa regresión: wˆt∗ ; 3. Correr una segunda regresión en donde yt sea la variable explicada y x∗t y wˆt∗ sean las explicativas; 4. Aplicar un sencillo estad´ıstico t de significancia al parámetro asociado al residual.21

21

Si tuviéramos sospechas de otras variables más respecto a su mediación, ser´ıa necesario correr más regresiones como la primera e incluir otros residuales en la segunda. En este caso, convendr´ıa más hacer una prueba de hipótesis conjunta sobre todos los parámetros asociados a los residuales.

Cap´ıtulo 11 Causalidad, exogeneidad y estabilidad cum hoc ergo propter hoc

Falacia de la causalidad: “con ello y por consecuencia, debido a ello”

post hoc ergo propter hoc

Falacia de la causalidadbis : “esto es previo a ello y por consecuencia, ello es debido a esto” A lo largo del cap´ıtulo anterior vimos que muchas cosas pueden salir mal cuando se estima una relación. Afortunadamente existen también muchos métodos de detección y alguna que otra solución. Si bien Variables Instrumentales, que estudiamos en en la sección anterior, constituye una solución para muchos de nuestros problemas recién descubiertos, vale la pena discutir otros aspectos que permiten al econometrista realizar un mejor ejercicio de estimación. Espec´ıficamente, vamos a comenzar con una propuesta de Granger para controlar/comprender/acotar la cuestión de la causalidad entre nuestras variables.1 1

Este apartado incluye secciones de la tesis de Eduardo Vera Valdés (2007).

349

350

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

11.1.

La Causalidad en el sentido de Granger C AUSALIDAD : Ley en virtud de la cual...

Si bien uno desear´ıa tener una definición contundente de lo que es Causalidad, lo cierto es que no la hay; no al menos una que logre unanimidad. De hecho, veremos como en realidad definir causalidad es más complicado de lo que parece. No resulta muy aventurado señalar que, en ciencia, es necesario dar una definición de lo que se quiere discutir antes de empezar la discusión respecto al tema de interés. Sin dicha definición el tema central adquiere el riesgo de ni siquiera ser abordado debido a la confusión de los términos empleados. Una buena definición puede, en ocasiones ayudar más en el esclarecimiento de un tema que un argumento elaborado. Aún si matemáticamente es posible definir cualquier estructura con la expresión que se nos ocurra, se busca en general darle un respaldo teórico. Este respaldo es importante ya que recurre en ocasiones a palabras de uso cotidiano en nuestro lenguaje. Las definiciones deben producir la menor—de preferencia ninguna—confusión en las personas que lean los resultados. En general, es de esperar que una persona que lea un resultado en Estad´ıstica entienda que se quiere decir con Esperanza, Varianza, Mediana; se espera que no confunda estos términos con su acepción coloquial. A la par de esta complicación, el tener que respaldar teóricamente nuestra definición tiene también grandes ventajas. Una vez planteada la definición, e´ sta puede ser usada, obviamente, dentro del contexto en el cual se planteó; se tiene por entendido el significado en ese a´ mbito restringido. Existen conceptos muy arraigados en nuestro lenguaje; en general no es necesario definir manzana o pera para poder hablar de ellas; pero, no siendo e´ ste el caso con el concepto de causalidad, nos vemos en la impetuosa necesidad de plantear y respaldar una definición. La intención de esta introducción es (i) recalcar la importancia de las definiciones en ciencia y (ii) lograr un convencimiento respecto a la importancia de plantear y respaldar una definición de causalidad.

11.1.1. Filosof´ıa detrás de Causalidad Mucho ha sido el trabajo realizado para definir un concepto de causalidad que sea aceptado, si no por toda la comunidad cient´ıfica, al menos por una amplia mayor´ıa.2 El concepto de causalidad ha evolucionado a la par del pensamiento humano. Hay 2

Cabe resaltar el trabajo realizado por Aristóteles y Leibniz y Hume, al buscar una definición.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

351

en la actualidad muchas teor´ıas y definiciones, muchas de ellas en franca contraposición. No es de extrañar que una palabra tan utilizada en nuestro vocabulario e implicando e´ sta un concepto tan ligado a la experiencia personal no tenga una definición precisa ni sea fácil formular una definición aceptada por todos. Grandes pensadores han contribuido en este ejercicio. Aristóteles se embarcó en la búsqueda de una teor´ıa de causalidad como parte de su estudio de la naturaleza. ´ como muchos de sus contemporáneos, cre´ıa que la u´ nica forma de explicar un El, fenómeno es mediante el estudio de las causas que lo originan. Cre´ıa además que la búsqueda de una causa era lo mismo que la búsqueda de una respuesta a la pregunta: ¿P OR QU E´ ? En F´ısica, Aristóteles plantea la siguiente restricción al conocimiento humano: No tenemos conocimiento real de algo hasta que no hemos logrado responder a su ¿Por qué?, es decir, a lo que lo causa... Con ello en mente y como un instrumento para su trabajo es que Aristóteles decide formular su teor´ıa de causalidad; en F´ısica II y en Metaf´ısica V plantea su teor´ıa de las cuatro causas: 1. Causa material; la encargada del qué; por ejemplo, el bronce de una estatua. 2. Causa formal; la encargada de la forma; por ejemplo, el molde de la estatua. 3. Causa eficiente; el cómo fue hecho; por ejemplo, el artesano. 4. Causa final; el para qué fue hecho; por ejemplo, la decoración, el ornato. Es con esta teor´ıa que Aritóteles busca explicar la naturaleza y todos los fenómenos de e´ sta. En la actualidad nuestro concepto de causa no incluye los dos primeros de la teor´ıa de Aristóteles; las vemos a ambas como producto del ingenio del artesano (en el ejemplo arriba descrito). Es sobre todo importante resaltar su defensa a su ´ planteaba que en la naturaleza todo acontece como parte de un “causa final”. El proceso mayor al cual queda supeditada la naturaleza; ello con motivo de un fin tentativamente “bueno”. Es en F´ısica donde Aristóteles postula que el desarrollo de la dentadura de los animales se da con el u´ nico fin de que el animal sobreviva y no como simple coincidencia. Más adelante, al momento de plantear la definición que usaremos (debida a Granger ....), veremos que uno de nuestros supuestos es que el futuro no puede causar al pasado, supuesto en franca contraposición con la teor´ıa de la causa final de Aristóteles. “Este fin por el cual las cosas se desarrollan” es una postura que defiende la posibilidad de que el futuro realmente cause al pasado. Esto

352

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

es equivalente a decir que el hecho de querer estudiar una carrera es lo que hace que los estudiantes asistan a la Preparatoria.3 Como defensa de nuestra hipótesis, se plantea esta otra forma de pensar: que al ser su intención estudiar una carrera, es que se realizan acciones que en un futuro causen su ingreso a la Licenciatura. Se ha mantenido nuestra hipótesis; siendo as´ı que lo que originó estas acciones es la concepción arraigada de que el presente o el pasado causan al futuro, no viceversa. En tiempos menos reculados, durante la Edad Media, el concepto de causalidad, as´ı como todo el desarrollo humano, fue visto como originado y provocado por Dios. Es as´ı como el concepto cae en una especie de “oscurantismo” en el cual se postula que todo lo que sucede en la naturaleza es obra de Dios, incluyendo, por supuesto, todas las causas y efectos. En esta forma de pensar, el hombre no es capaz de causar algo, no es sino la voluntad de Dios y las acciones de e´ ste lo que originan todo. Si bien esta postura es defendible teológicamente, no permite avanzar epistemológicamente.4 Dicha postura no puede ser planteada cient´ıficamente sin incurrir en controversias ajenas a la ciencia. Además, en la actualidad tenemos la creencia que nuestras acciones s´ı causan consecuencias (En general consideramos que el que un conductor ebrio impacte su veh´ıculo es producto del nivel de alcohol en la sangre de dicho conductor). Muchas de la teor´ıas actuales de causalidad han sido producto del trabajo realizado por David Hume en el siglo XVIII. Hume, quien en principio rechaza toda noción de causa5 decide más tarde tomar una postura constructiva y plantea una definición de causalidad sobre la cual se pueda debatir. Esta postura es parecida a la asumida por Granger en “Probando Causalidad. Un punto de vista personal”. Hume dice lo siguiente: “Podemos definir una causa como un objeto seguido de otro, donde todos los objetos similares al primero son seguidos de objetos similares al segundo.”6 3

Otro ejemplo ser´ıan las pol´ıticas y medidas adoptadas por un Banco Central para as´ı cumplir su meta inflacionaria; y es que en esta forma de pensar, es el lograr esta meta lo que causa estas pol´ıticas. 4 Siguiendo las ra´ıces griegas de ambos términos, se sabe que la teolog´ıa es el estudio de dios, mientras que la epistemolog´ıa corresponde al estudio del conocimiento. 5 En Hume (1740) plantea, No tenemos otra noción de causa y efecto que la obtenida de que ciertos objetos que siempre han sucedido conjuntamente, y que en situaciones anteriores se les ha encontrado inseparables. Nosotros no podemos adentrarnos en la razón de esta conjunción, sólo observamos los acontecimientos, y debido a esta constante conjunción, los objetos adquieren una unión en la imaginación. 6 Hume 1748, sección VII.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

353

Este planteamiento parece recavar las ideas que se ten´ıan sobre causalidad. El siglo XIX, de hecho, consolidó en cierta forma esta manera de pensar. Alentados por la revolución newtoniana, los cient´ıficos, especialmente los f´ısicos, consideraron que el universo era una especie de gran mecanismo de relojer´ıa, es decir, un universo regido por reglas deterministas que explicitan las relaciones entre las variables y determinan las causalidades. Lo anterior ´ınstó a muchos a pensar que, conociendo tales reglas, no habr´ıa misterios que resolver. Esto queda plasmado en el D EMONIO DE L APLACE : Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podr´ıa concebir un intelecto que en cualquier momento dado conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a análisis, podr´ıa condensar en una simple fórmula el movimiento de los grandes cuerpos del universo y del a´ tomo más ligero; para tal intelecto nada podr´ıa ser incierto y el futuro as´ı como el pasado estar´ıan frente sus ojos.7 La concepción determinista del universo cambió radicalmente al surgir la Mecánica Cuántica. En esta u´ ltima, los procesos estocásticos juegan un papel central. Cabe destacar que no lo hizo sin oposición del establishment cient´ıfico. Instó a Einstein a formular su célebre frase: “D IOS NO J UEGA A LOS DADOS”. No obstante, conforme dicho establishment fue, literalmente, muriendo, imperó un nuevo paradigma.8 En todo caso, as´ı como la Mecánica Cuántica revolucionó a la F´ısica, también lo hizo con nuestra idea de causalidad. Es justamente en este contexto que nace el concepto de causalidad probabil´ıstica.

11.1.2. Causalidad en Probabilidad El reciente e´ xito de la Mecánica Cuántica ha debilitado nuestra fe en el determinismo. En e´ sta, al contrario de la Mecánica Clásica, sólo podemos hablar de la probabilidad de que algo ocurra después de cierta acción; no se tiene certeza de cual será el resultado. Debido a ello los filósofos encuentran atractiva una teor´ıa de causalidad que no presuponga determinismo. Una de las teor´ıas que surgen como respuesta a este deseo ha sido la causalidad probabil´ıstica. La idea central de esta teor´ıa es que las causas aumentan la probabilidad de sus efectos, un efecto puede ocurrir aún en la ausencia de una causa o 7

Pierre Simon Laplace, 1814. Fuente: Wikipedia [http://es.wikipedia.org/wiki/Pierre_Simon_Laplace]. 8 Resalta la respuesta dada por Hawking a la célebre frase de Einstein: Dios no sólo juega a los dados, sino que a veces los tira donde nadie los puede ver.

354

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

puede no suceder en presencia de e´ sta. Debido a que las teor´ıas probabil´ısticas de causalidad sólo requieren un aumento en la probabilidad de sus efectos, resultan más compatibles con el indeterminismo de la Mecánica Cuántica, y, de hecho, con el indeterminismo de las variables económicas. La idea central de que una causa aumenta la probabilidad de sus efectos puede ser expresada formalmente mediante la metodolog´ıa de la probabilidad condicional. Usando la notación estándar en probabilidad, denotaremos P (B|A) a la probabilidad condicional de B dado A; i.e. la probabilidad de que el evento B suceda, provisto que sucedió el evento A. Una forma natural de entender que el evento A aumenta la probabilidad del evento B es que P (B|A) > P (B|Ac ) por lo que el primer intento hacia una teor´ıa de causalidad probabil´ıstica ser´ıa: Definición 13 A causa B si y sólo si P (B|A) > P (B|Ac ) Aún cuando esta formulación es acorde con el indeterminismo, plantea un nuevo problema debido a las correlaciones espurias. Si ambos eventos A y B son a la vez causados por un tercer evento C puede darse el caso en que P (B|A) > P (B|Ac ) aún cuando A no cause B. Por ejemplo, sea A el evento de que un individuo tenga los dientes manchados , y sea B que el individuo padezca de cáncer pulmonar. Es de esperar que P (B|A) > P (B|Ac ), esto debido a que fumar tiende a producir ambos efectos. Según nuestra experiencia, los individuos con dientes manchados tienen más probabilidad de ser fumadores y por lo tanto más probabilidad de padecer cáncer pulmonar. Intuitivamente, la solución a este problema es el requerir que las causas aumentan la probabilidad de sus efectos ceteris paribus. As´ı como los hebreos son considerados “la gente del libro”, los economistas son considerados “la gente del modelo”.9 Son de enorme importancia en el estudio económico los modelos formales de variables económicas: con ellos se pueden determinar la relación entre ciertas variables de interés dejando que el resto permanezca sin cambios. Esta idea central de que el resto permanezca sin cambios o ceteris paribus10 es una piedra angular del análisis económico. Con estas ideas como sustento, los efectos del evento A de la definición anterior permanecen obligatoriamente constantes en situaciones de prueba, es decir: 9

James L. Heckman 2000 La noción de ceteris paribus es atribu´ıda a A. Marshall aún cuando e´ l mismo no usó este término en su libro (veáse A. Marshall, 1920). 10

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

355

Definición 14 A causa B si y sólo si P (B|A y S) > P (B|Ac y S) para cada situación de prueba S.11 Una situación de prueba es un conjunto de factores que se dejan fijos durante la prueba; es importante recalcar que no se puede dejar fijo el resto de variables en nuestro experimento. Supongamos que C es la causa de B y a su vez es causada por A; al dejar fijo C concluir´ıamos que A no causa B siendo esto falso. Debido a esta posible transitividad, es importante asegurarse de no dejar fuera del experimento causas de B que son a su vez resultado de la acción de A. Sea el conjunto independiente de causas de B el que incluya todos los factores causantes de B no causados a su vez por A, entonces una situación de prueba será el conjunto maximal de los conjuntos independientes de causas de B. Definiendo as´ı causalidad y situaciones de prueba hemos obtenido una teor´ıa que es compatible con el indeterminismo y que logra distinguir entre causas y correlaciones espurias. ´ Esta teor´ıa, y sobre todo las ideas principales detrás de ella, serán el eje central de la definición que nosotros usaremos de causalidad. Nuestra visión de causalidad será una con enfoque probabil´ıstico aplicada a series de datos de variables económi´ cas, una visión E CONOM ETRICA , para llamarlo por su nombre.

11.1.3. Causalidad en Econometr´ıa La Econometr´ıa fue desarollada como herramienta de la Econom´ıa para interpretar y analizar datos económicos. Siendo el objeto de trabajo de la Econometr´ıa los datos recabados, se han adoptado y adaptado métodos de Estad´ıstica y Probabilidad para su análisis. Siendo de especial interés las causas que originan cambios en variables económicas (como medio para establecer pol´ıticas económicas) se han desarrollado algunas teor´ıas de causalidad aplicables a los datos recabados. Existen dos teor´ıas principales de causalidad en Econometr´ıa, una debida a MarshalNeyman-Rubin basada en resultados potenciales, y la otra debida a Wiener-GrangerSims basada en predicibilidad.12 Nosotros fijaremos nuestra atención en la segunda, la de Wiener-Granger-Sims. En este enfoque se toma como medio para definir causalidad a la predicibilidad de las variables. Usando la notación de Series de Tiempo, denotaremos como xt a la observación en el tiempo t de la variable x; de esta forma la definición debida a Granger nos indica 11

Las primeras versiones de esta teor´ıa fueron presentadas en Cartwight (1979) y Skyrms (1980) Véase también el concepto de “screening off” presentado en Reichenbach (1956) y Suppes (1970). 12 Véase Lechner (2006) y Heckman (2000) para una discusión de mayor profundidad en cuanto a la diferencia de estos conceptos.

356

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

que la variable x causa a la variable y si somos capaces de dar una mejor predicción del valor futuro de y usando el valor contemporáneo de x. Definición 15 Decimos que xt causa a yt+1 si somos capaces de predecir mejor yt+1 usando toda la información disponible, que si la información distinta de xt hubiera sido usada.13

11.1.4. La Granger-Causalidad Retomando la noción de causalidad de Granger, analizaremos la metodolog´ıa de la prueba que lleva el mismo nombre. Para probar si una variable x causa a la variable y plantearemos la siguiente ecuación:14 yt = γ0 + α1 yt−1 + α2 yt−2 + . . . . . . + αr yt−r + β1 xt−1 + . . . + βs xt−s + u1t

(11.1)

De acuerdo a la definición propuesta por Granger, de ser x una causa de y, podr´ıamos esperar que la regresión (11.1), que definiremos como regresión no restringida, se ajuste a los datos mejor que en la siguiente ecuación... yt = γ0 + α1 yt−1 + α2 yt−2 + . . . + αr yt−r + u2t

(11.2)

... donde se omite la variable x y a la que denominaremos regresión restringida. Para poder evaluar la aportación en capacidad explicativa—que no predictiva, n´ otese— P recuperamos las sumas de residuales al cuadrado de ambas regresiones, uˆ2Rt y P uˆ2N Rt , respectivamente. Posteriormente, realizaremos el siguiente cálculo: F =

(SRCR − SRCN R ) /s SRCN R / (T − r − s)

(11.3)

Donde SRCR y SRCN R corresponden a la suma de residuales cuadráticos de la regresión restringida y de la no-restringida, respectivamente; la hipótesis nula, evidentemente trata de la no-significancia de los s rezagos de la variable x en la regresión no-restringida. De cumplirse dicha hipótesis nula, nuestro cálculo corresponderá a 13 14

Véase Granger (1969). Es muy importante siempre dejar claro que esta causalidad es en el sentido de Granger.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

357

una distribución de F de Fisher dado que se trata de un cociente de sumas cuadráticas independientes cuya distribución es, en ambos casos, χ2 . As´ı pues, esta es la forma en la que se prueba la hipótesis nula de no Causalidad en el sentido de Granger entre variables. Es posible definir el número de rezagos de ambas variables en las regresiones auxiliares mediante criterios de selección tales como el de Akaike (AIC) o el Bayesiano (BIC), que ya hab´ıamos visto en el primer curso de econometr´ıa. Para finalizar la discusión, vale la pena dejar bien asentado que estamos probando: 1. H0 : x no causa en el sentido de Granger a y 2. Ha : x s´ı causa en el sentido de Granger a y

Ejemplo 18 Explicar algunos aspectos adicionales de la prueba de Granger-Causalidad (GC) es más fácil mediante un ejemplo. Una pregunta que podr´ıamos tratar de responder con esta prueba es la siguiente: ¿E L P IB G RANGER -C AUSA L A D EMANDA D E D INERO [P IB → M ]? ´ [M → P IB]? ¿O ACASO ES AL R EV ES As´ı, haremos dos veces la prueba, y no sólo una vez. De lo anterior es evidente que pueden salir diversos resultados, mismos que el econometrista siempre debe contemplar: 1. P IB → M y M → P IB > causalidad unidireccional del ingreso a la demanda de dinero, 2. P IB → M y M → P IB > causalidad unidireccional de la demanda de dinero al ingreso, 3. P IB 6↔ M Sin relación causal, 4. P IB ↔ M Causalidad bidireccional.

358

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

11.2.

Exogeneidad

11.2.1. Exogeneidad a` la Cowles Commission La exogeneidad con la que lidiaremos en buena parte de este curso (espec´ıficamente será usada en el contexto de las ecuaciones simultáneas) está más emparentada con su concepción clásica (es decir, la que estableció la Comisión Cowles) que con la que preconizaron Engle, Hendry y Richard en un famoso art´ıculo de 1983. Espec´ıficamente, la exogeneidad que utilizamos en este curso se denomina E XOGENEIDAD E STRICTA: Definición 16 Sea el modelo yt = α + βxt + ut . La variable xt es estrictamente exógena s´ı es estocásticamente independiente del término de error para todo periodo: xt kut+s ∀ s donde k denota independencia estocástica. ´ : Una definición menos exigente es la de P REDETERMINACI ON Definición 17 Sea el modelo yt = α + βxt + ut . La variable xt es predeterminada s´ı es estocásticamente independiente del término de error contemporáneo y futuro: xt kut+s ∀ s ≥ 0 Es posible establecer exogeneidad estricta en nuestros modelos mediante la prueba de Hausman que ya conocemos. Esencialmente, dicha exogeneidad estricta corresponde al supuesto de ortogonalidad que hemos estudiado hasta ahora. En lo que corresponde al concepto de variable predeterminada, e´ ste también será estudiado con mucho más detalle cuando abordemos el tema de las ecuaciones simultáneas. No obstante, resulta importante discutir un poco más sobre la predeterminación. Suponga que disponemos de una variable que no satisface la definición de estricta exogeneidad, pero s´ı la de predeterminación. Al no ser estrictamente exógena, no podemos utilizarla como regresor en la especificación, puesto que rompe el supuesto de ortogonalidad harto estudiado hasta ahora y obtendr´ıamos estimadores sesgados e inconsistentes. La solución es estimar la ecuación mediante Variables Instrumentales. Es ah´ı donde entra en juego la definición más laxa de exogeneidad. Suponga que nuestro regresor si puede considerarse predeterminado. Lo anterior

11.2. EXOGENEIDAD

359

implica que, rezagos de dicho regresor pueden ser empleados como instrumentos. Lo anterior nos abre una nueva cantera de donde extraer instrumentos. Huelga decir que ello no nos exime de ejecutar las pruebas de relevancia y validez de los instrumentos. En la próxima sección veremos algunas extensiones del concepto de exogeneidad que se han suscitado desde principios de los ochenta.

11.2.2. Exogeneidad a` la Engle, Hendry y Richard Como ya señalamos en la sección anterior, el concepto de exogeneidad ha evolucionado en los u´ ltimos tiempos. En particular, los tres autores que aparecen en el encabezado fueron los precursores de un concepto de exogeneidad más fino. En voz de algunos expertos esta extensión no tiene un alcance excesivo para cuestiones emp´ıricas, aunque dicha afirmación es, cuando menos, debatible.15 En todo caso vale la pena conocer su naturaleza y comprender, al menos intuitivamente, su importancia en teor´ıa. En particular destaca una respuesta a la famosa Cr´ıtica de Lucas.16 En este art´ıculo se presentan tres tipos de exogeneidad: ´ 1. EXOGENEIDAD D EBIL 2. E XOGENEIDAD F UERTE 3. S UPER E XOGENEIDAD Suponga, para aclarar un poco las ideas, que tenemos el siguiente modelo: yt = βzt + ǫ1t zt = α1 zt−1 + α2 yt−1 + ǫ2t

(11.4)

Suponga además que nuestro interés radica exclusivamente en estimar la primera ecuación. Hasta ahora, nuestra preocupación ha sido verificar que la variable zt sea exógena al término de error de la primera ecuación. Según Engle et al, esa preocupación está mal planteada. La exogeneidad relevante depende de la razón por la cual se desea estudiar la primera regresión (que es la que estimar´ıamos). De acuerdo a esos autores, existen tres razones para hacerlo: 15

Davidson y Mackinnon (2004) y Maddala (1992) inter alia desestiman el concepto, pero otros autores, como Ericsson, Johansen, Hunter, Juselius, Ahumada, Granger, Campos y Hansen, no. Consulte el libro Testing Exogeneity de Ericsson y Irons para más detalles. 16 Misma que será abordada más adelante.

360

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

1. C ON UNA FINALIDAD INFERENCIAL , ES DECIR , PARA OBTENER ESTI ´ PAR AMETRO ´ ´ ( COMO PODR Í A SER MADORES DE ALG UN DE INTER ES β), ´ 2. C ON UNA FINALIDAD PREDICTIVA , ES DECIR , HACER PRON OSTICOS DE y CONDICIONADOS EN z, ´ DE POL Í TICA ECON OMICA ´ 3. C ON UNA FINALIDAD DE ELABORACI ON , ´ ES DONDE ES NECESARIO ASEGURAR QUE LA PRIMERA ECUACI ON ´ ESTRUCTURALMENTE INVARIANTE A CAMBIOS EN LA DISTRIBUCI ON MARGINAL DE z. Como bien puede sospechar, a cada finalidad le corresponde un tipo de exogeneidad. Note que la super exogeneidad es, en cierta manera, la respuesta a la C R Í TICA DE L UCAS.17 Procederemos de la siguiente manera; daremos en un inicio la definición de exogeneidad débil, misma que explicitaremos a través del estudio del modelo de Telaraña (Cobweb Model, en inglés). Posteriormente daremos las definiciones faltantes y proporcionaremos espec´ıficamente sus consecuencias teóricas en econom´ıa y econometr´ıa. Exogeneidad débil Definición 18 Sean dos variables aleatorias denotadas yt y zt , con distribución conjunta Fx (xt ; θ), donde xt = (yt , zt ). La variable zt es débilmente exógena en el periodo de muestra T y en referencia al parámetro de interés ψ si y sólo si existe una reparametrización de θ en tanto λ, donde λ = (λ′1 , λ′2 )′ , tal que: 1. ψ sea u´ nicamente función de λ1 , 2. La factorización de la densidad conjunta sea de la forma:18 Fx (xt ; θ) = Fy|x (yt | zt ; λ1 ) · Fz (zt ; λ2 ) donde λ ∈ Λ1 × Λ2 17

¿Conoce usted la Cr´ıtica de Lucas? Recuerde que la distribución conjunta es igual al producto de la distribución condicional y la distribución marginal. 18

11.2. EXOGENEIDAD

361

donde el vector de parámetros θ comprende al conjunto completo de parámetros del proceso conjunto; λ1 y λ2 son los parámetros de la distribución condicional y marginal, respectivamente; Θ, Λ1 , y Λ2 son los espacios paramétricos respectivos de θ, λ1 , y λ2 . Esta obscura definición se hará más clara con el ejemplo del modelo de Telaraña que usaremos a continuación. Es importante señalar que no estudiaremos con mucho detalle la dinámica de dicho modelo, puesto que eso lo haremos en el cap´ıtulo siguiente: Ejemplo 19 El Modelo de Telaraña:19 suponga un mercado donde la demanda y la oferta se rigen con base al siguiente modelo:

pt = bqt + v1t qt = kpt−1 + ǫ2t

(11.5) (11.6)

donde v1t ∼ iidN (0, σ 2 ), ǫ2t ∼ iidN (0, ω22 ), E(qt v1t ) = 0 y E(ǫ2t v1t ) = 0; las variables están transformadas en logar´ıtmos. La interpretación es bastante directa; la ecuación (11.5) se deriva de una ecuación de demanda, el precio pt vac´ıa el mercado dada la cantidad qt ofertada. El valor 1 corresponde a la elasticidad-precio de la demanda. Por otra parte, la ecuación b (11.6) es la función de oferta que captura como la cantidad que los productores deciden ofrecer en t es función del precio que obtuvieron en t − 1. El parámetro k es la elasticidad-precio de la oferta. En este tipo de modelo, el estudio de la estabilidad del sistema puede ser en muchas ocasiones el principal objeto de estudio (en series de tiempo, denotar´ıamos esto como estudio de estacionariedad). En particular, en una versión tan sencilla, es fácil ver la manera de analizarla; basta con encontrar lo que hasta ahora hemos llamado ecuación reducida mediante la combinación de las dos ecuaciones: pt = ρpt−1 + ǫ1t donde ρ = b · k y ǫ1t ∼ iidN (0, ω11 ). En el próximo cap´ıtulo quedará claro (esperemos) que, si | ρ |< 1, la dinámica del mercado es estable; si | ρ |= 1, el mercado 19

La ejemplificación de la exogeneidad débil con base en este modelo fue retomada de Ericsson (1994). También se retomaron elementos de la discusión que aparece en Johnston y DiNardo (1997), as´ı como en Maddala (1992).

362

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

genera precios que oscilan sin que e´ stos convergan, y; si | ρ |> 1, la dinámica es inestable.20 Ahora s´ı, veamos como nuestro parámetro de interés as´ı como los espacios paramétricos determinan si la variable qt en la ecuación (11.5) es débilmente exógena o no y con respecto a que parámetro lo es. Recuerde que nuestro objetivo es justamente poder estimar esa ecuación sin preocuparnos de la otra. Considere que lo que nos interesa estimar es la función de demanda. En particular, considere si las dos condiciones que permiten exogeneidad débil quedan satisfechas. En la definición de exogeneidad débil hac´ıamos referencia a los parámetros de la densidad condicional y los de la densidad marginal. En este caso es fácil identificarlos: Parámetros de la densidad condicional: λ1 = (b, σ 2 ) Parámetros de la densidad marginal: λ2 = (k, ω22 ) La primera condición para que qt sea débilmente exógena es que el parámetro de interés sea función u´ nicamente de los parámetros de la densidad condicional. Si dicho parámetro es la elasticidad de la demanda, 1b , entonces deber´ıa quedar claro que la primera condición s´ı se cumple; por otra parte, si la estabilidad del sistema, ρ, es el parámetro de interés, entonces, esa misma condición ya no se cumple (puesto que b y k pertenecen a λ1 y λ2 , respectivamente). Dado que ese parámetro requiere el conocimiento de las dos ecuaciones (contrariamente a 1b ), hacerlo sólo con la primera ecuación resultar´ıa inadecuado. As´ı, la variable qt satisface la primera condición de la exogeneidad débil (ED) cuando el parámetro de interés es b, pero no cuando e´ ste es ρ. Como podrán ver, la selección del parámetro de interés no es trivial. La segunda condición de ED se puede interpretar como el libre albedr´ıo de los parámetros en cada espacio paramétrico. Los parámetros de λ1 y los de λ2 deben ser libres en su variación y no estar restringidos mutuamente. Presentaremos ahora tres situaciones en las que a veces se satisface la condición y a veces no. Para efectos de claridad en la exposición, haremos caso omiso de σ 2 y de ω22 en sus respectivos espacios paramétricos. Lo anterior permite que el espacio paramétrico completo, denotado Λ pueda ser analizado en un plano (puesto que se trata del espacio de (b, k)). Vea el gráfico (11.1, panel a)] 20

En todo caso, si asume que el proceso empezó en el tiempo 0 y que en ese momento el precio era P0 , por sustitución puede llegar a la expresión pt = ρt p0 + ρt−1 ǫ1,1 + . . . + ǫ1,t +. Si | ρ |< 1 el sistema olvida los ǫs pasados (a una tasa exponencial, por cierto); si | ρ |= 1 el sistema nunca olvida los ǫs pasados y por lo mismo no podemos esperar convergencia alguna hacia el equilibrio; si | ρ |> 1 el sistema no sólo no olvida los ǫs pasados, sino que la importancia de los mismos crece (también, a una tasa exponencial) entre más remotos sean.

11.2. EXOGENEIDAD

363

1. Suponga que tanto b como k pueden adoptar cualquier valor real sin restricción alguna. El espacio paramétrico Λ es entonces ℜ2 , es decir, el plano real entero. Para cada valor de k, el parámetro b puede adoptar cualquier valor entre el intervalo (−∞, +∞) (lo que corresponde a Λ1 ) y viceversa. Los valores de los parámetros de la densidad condicional no afectan el rango de los valores que puedan adoptar los parámetros de la densidad marginal (y viceversa). Ello implica que λ1 y λ2 son libres en su variación (tienen libre albedr´ıo); De forma equivalente, y con objeto de acercarnos a la segunda condición de la ED, podemos decir que, en este caso, el espacio paramétrico Λ es el producto Λ1 × Λ2 : (−∞, +∞) × (−∞, +∞), lo cual corresponde a ℜ2 . Una vez satisfecha la segunda condición, podemos decir que qt es débilmente exógena a la elasticidad ( 1b ). 2. Ahora suponga que restringimos los valores de b y k de tal suerte que aseguramos que el sistema es estable. Ello implica satisfacer la siguiente condición: | b · k |< 1. Esta vez, el espacio paramétrico no es tan grande. De hecho, es fácil representarlo en el plano [ver gráfico (11.1, panel b)]. Lo importante aqu´ı es constatar que los valores de k s´ı afectan los valores de b (y viceversa). Por ejemplo, si k = 0.5, entonces b queda limitado a estar en el intervalo (−2, +2); si k = 0.2, entonces b queda esta vez limitado a estar en el intervalo (−5, +5); si b = 1, entonces k queda limitado a estar en el intervalo (−1, +1). Expresado de otra manera, el espacio paramétrico Λ ya no es el producto Λ1 ×Λ2 : (−5, +5)×(−1, +1), lo cual no corresponde a Λ, que está acotado por | b·k |< 1. También esto se puede interpretar de la siguiente manera: el valor de k es informativo del valor de b, lo confina. Ya para rematar, constatamos que el libre albedr´ıo entre los dos espacios paramétricos ya no se da. La inferencia usando solamente la densidad condicional cuando nos limitamos a versiones estables del modelo, nos hace perder información relevante. No podemos saber respecto a esa estabilidad sin considerar la densidad marginal (vaya, la ecuación de oferta, en este caso). 3. Asuma ahora, por ejemplo, que la teor´ıa económica o bien la intuición (muy aguda) sugiere las siguientes restricciones: La elasticidad de la oferta, k, yace en el intervalo [0, 1), La elasticidad de la demanda, 1b , es negativa y mayor o igual a uno en valor absoluto.

364

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD Note que la segunda restricción implica que −1 ≤ b ≤ 0. El espacio paramétrico Λ aparece en la figura [ver gráfico (11.1, panel c)]. El parámetro b estará entre −1 y 0 independientemente del valor que adopte k, que a su vez será cualquier valor entre 0 y 1. En este caso, los parámetros s´ı tienen libre albedr´ıo y no hay restricciones cruzadas que, valga la expresión, los restringan. Esta vez el producto de los espacios paramétricos, Λ1 × Λ2 : [−1, 0] × [0, +1) si corresponde con el espacio paramétrico Λ en donde (b, k) yace. As´ı, al imponer unas restricciones sobre las elasticidades, hemos vuelto a satisfacer la segunda condición de la ED: qt es débilmente exógeno sobre la elasticidad de la demanda.

Figura 11.1: Posibles espacios paramétricos (usando el modelo Telaraña). (a) sin restricciones de ninguna ´ındole (satisface 2a condición de ED); (b) condicionado a que sea estable (no satisface 2a condición de ED); (b) condicionado a que sea estable más restricciones de elasticidad (satisface 2a condición de ED). Fuente: Fundamentado en el ejemplo propuesto por Ericsson y Irons (1994) con extensiones propias.

En s´ıntesis, el espacio paramétrico, as´ı como el parámetro de interés son elementos fundamentales en el establecimiento de su condición de exogeneidad débil, tanto en el a´ mbito econométrico como en el económico. La selección de e´ stos puede resultar cr´ıtica respecto a la condición de exogeneidad de una variable.

11.2. EXOGENEIDAD

365

Exogeneidad fuerte El lector habrá notado que el concepto de exogeneidad débil exigió una ejemplificación donde aparecen rezagos. Ello le imprime a nuestros modelos propiedades dinámicas (evolucionan en el tiempo). Si bien el tratamiento dinámico en econometr´ıa hará objeto de todo un cap´ıtulo (el siguiente) y no ahondaremos demasiado de momento, s´ı es importante recalcar el lazo entre las propiedades de las variables (en tanto exógenas o endógenas) y la dinámica de la especificación. Como hab´ıamos mencionado al principio de esta sección, la ED corresponde al análisis de parámetros de interés; ah´ı mismo también señalamos que la exogeneidad fuerte (EF) está emparentada con la finalidad de elaborar pronósticos. Esto u´ ltimo, si lo piensan con detenimiento, tiene relación con otra discusión que ya llevamos a cabo anteriormente: la G RANGER -C AUSALIDAD. La causalidad en el sentido de Granger se refiere, a grandes trazos, a la capacidad predictiva de una variable con respecto a otra. As´ı, si lo que nos interesa es poder predecir el comportamiento de una variable, yt , con base en otra más, zt , no sólo nos interesará que la segunda sea débilmente exógena a todos los parámetros de nuestra especificación (11.4) sino que además, la primera no cause en el sentido de Granger a la segunda. De esta manera, podremos asegurarnos de varias cosas: en primera instancia, con base en la ED, sabremos que la estimación será posible; si además tenemos que la capacidad predictiva es unidireccional y sólo va de z a y (Maddala prefiere llamar a esto precedencia), entonces podremos utilizar nuestra estimación para hacer pronósticos sin preocuparnos de una retroalimentación–inexistente–al no haber tomado en cuenta el modelo marginal (11.6). La definición de exogeneidad fuerte es la siguiente: Definición 19 Sean dos variables aleatorias yt y zt . La variable zt es fuertemente exógena en el periodo de muestra T s´ı: 1. zt es débilmente exógena a todos los parámetros del modelo condicional, 2. yt no causa en el sentido de Granger a zt . La mejor forma de entender este nuevo concepto es, otra vez, con un pequeño ejemplo que se ha simplificado para resaltar algunos puntos sin perder tiempo en cuestiones ajenas a la EF. Suponga los siguientes modelos, condicional as´ı como marginal: yt = b0 zt + b1 zt−1 + b2 yt−1 + v1t zt = π21 yt−1 + π22 zt−1 + ǫ2t

(11.7) (11.8)

366

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

donde v1t ∼ iidN (0, σ 2 ), ǫ2t ∼ iidN (0, ω22 ). Recuerde que la exogeneidad nos preocupa porque queremos ver si podemos usar sólo el modelo condicional (11.7) para satisfacer nuestros fines sin tomar en cuenta el modelo marginal (11.8). En este caso, nuestros fines se traducen en predecir yt con base a la estimación de la especificación (11.7). Pero esta vez la ED no basta; resulta obvio, por las ecuaciones, que la variable zt no puede ser tratada como fija en el ejercicio de predecir yt . Nuestra variable zt se ve influenciada por el rezago yt−1 . Esa relación de la variable débilmente exógena con el pasado de la endógena hace imposible hacer pronósticos de más de un paso sin tomar en cuenta el modelo marginal (que es lo que no queremos). Para poder hacer pronósticos de esa forma, necesitamos que π21 = 0. As´ı, podremos prescindir de (11.8). Más importante aún, es esa condición la que se prueba con la Granger-Causalidad. Super exogeneidad El concepto de super exogeneidad (SE) es el que definiremos de manera más coloquial. Como se señaló en un principio, la SE es requerida si la finalidad es hacer análisis de pol´ıtica económica. Esto está muy emparentado con la famosa Cr´ıtica de Lucas. Para poder ahondar al respecto, empezaremos dando la definición de la SE: Definición 20 Sean dos variables aleatorias yt y zt . La variable zt es super exógena en el periodo de muestra T s´ı: 1. zt es débilmente exógena a todos los parámetros del modelo condicional, 2. Los parámetros de la densidad condicional son invariantes ante cambios en la densidad marginal de zt . El concepto de invarianza puede ser explicado de la siguiente manera. Suponga que las ecuaciones (11.7) y (11.8) corresponden al Producto Interno Bruto, P IB (yt ) y al agregado monetario M0 (zt ). La Ecuación marginal, (11.8) podr´ıa entonces corresponder a una regla de decisión de las autoridades monetarias (es decir que el Banco Central tomar´ıa la decisión de fijar M0 con base en esa ecuación), mientras que la ecuación condicional, (11.7), representar´ıa la reacción de los agentes económicos en materia de producción ante cambios en el stock monetario. La Cr´ıtica de Lucas sugiere que la estimación de esta u´ ltima ecuación bajo un cierto régimen monetario no provee información válida respecto al comportamiento de los agentes ante otro régimen. Aqu´ı lo importante a decir es que, s´ı M0 es SE, la Cr´ıtica de Lucas ya no aplicar´ıa. Técnicamente, recuerde que los parámetros de la densidad condicional

11.2. EXOGENEIDAD

367

fueron denotados λ1 y los de la densidad marginal, λ2 . La invarianza exige que los cambios en λ2 dejen a λ1 inalterada. El análisis de pol´ıtica pública justamente requiere con frecuencia cambios en la densidad marginal (que se interpretar´ıan como intervenciones). Si se desea estimar u´ nicamente el modelo condicional y realizar análisis de pol´ıtica económica, es necesario que zt sea super exógena, de lo contrario, al cambiar la densidad marginal, fruto de la pol´ıtica económica, cambiar´ıa la densidad condicional, por lo que nuestra estimación dejar´ıa de ser válida y u´ til. Es importante tener clara la diferencia entre EF y SE. Retomemos un momento el ejemplo anterior. Conciba ahora la ecuación (11.8) como una demanda de dinero, donde yt y zt son, respectivamente, demanda de dinero y tasa de interés. Considere a la ecuación (11.7) como una función de reacción de un Banco Central (en caso de que e´ ste tenga una). Ya para terminar, póngase en los zapatos del ´ Banco Central. Este controla la función de reacción. Bajo un escenario dado puede decidir su forma de tomar decisiones, por lo que podr´ıa alterar los parámetros de su función de reacción. Básicamente, lo que necesita nuestro querido banquero central es que los parámetros de la demanda de dinero no se alteren ante cambios en los parámetros de la función de reacción. Si ese es el caso, entonces el banquero central puede simular su sistema (usando las dos ecuaciones y asumiendo que, en la primera, el parámetro de interés es débilmente exógeno) para observar los efectos de dicho cambio de pol´ıtica. No está haciendo predicción en el mismo sentido que lo har´ıa una consultor´ıa. El Banco Central requiere la estabilidad paramétrica de la ecuación condicional para conocer el impacto en un cambio de pol´ıtica. Podr´ıamos estimar los cambios paramétricos en la primera ecuación mediante la incorporación de variables dicotómicas; posteriormente podr´ıamos probar esas mismas variables dicotómicas en la ecuación condicional para probar si los parámetros de e´ sta se ven afectados por los cambios en la ecuación marginal. Si estas dummies no son significativas, entonces tendremos evidencia, para la muestra disponible, de la tan necesi´ tada invarianza. Esta, aunada a la exogeneidad débil, permitir´ıa pensar que tenemos una variables super exógena y que por ende, podemos usar la primera ecuación para evaluar diversas pol´ıticas monetarias. Concibamos un ejemplo en el que la SE no se da. Retomemos las ecuaciones (11.7) y (11.8) como demanda de dinero y regla de desición del Banco Central, respectivamente. Digamos que ese sistema es válido para la regla que usó el Banco, de 1521 a 1999. En el año 2000 la cambia y la perversa naturaleza económica modifica el sistema de la siguiente manera:

368

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

yt = b0 zt + b1 zt−1 + γ0 DUt zt + γ1 DUt zt−1 + b2 yt−1 + v1t bis bis yt−1 + π22 zt−1 + ǫ2t zt = π21

(11.9) (11.10)

donde DUt = 0 si t < 1999 y DUt = 1 e.o.c. Deber´ıa resultarles obvio que, si el Banco avaluó los efectos de su cambio de pol´ıtica basado en estimaciones del modelo original, andará muy errado. Note que no es posible asegurarnos que los parámetros de la condicional serán siempre invariantes ante cambios en los parámetros de la marginal. Sólo podemos constatar que lo han sido en una muestra particular. Por lo mismo, la super exogeneidad permanecerá siempre como una conjetura. Lo cierto es que, en tanto conjetura, siempre estaremos en riesgo de que datos adicionales nos prueben lo contrario. La relación entre los tres tipos de exogeneidad puede ser representada de manera muy elocuente con un diagrama de Venn como el que aparece en la figura (11.2).

Exogeneidad Débil

Exogeneidad Fuerte

Causalidad de Granger

Super Exogeneidad

Invarianza

Figura 11.2: Diagrama de Venn en exogeneidad

11.2. EXOGENEIDAD

369

Ejemplo 20 Los tres conceptos de exogeneidad pueden ser mejor entendidos por medio de un ejemplo. Suponga que se quiere estimar una demanda de dinero. La motivación de esta estimación puede variar según el econometrista que lo haga y donde trabaje: 1. Estudiante del curso de econometr´ıa II. La motivación principal de e´ ste es el carácter coercitivo del profesor que lo obliga a estimar la demanda. Es razonable asumir que dicho profesor solicitará la estimación de la elasticidad de la demanda de dinero con respecto a una variable, digamos la tasa de interés. El estudiante deberá preocuparse por obtener un estimador de e´ sta que sea consistente, razón por la cual sólo requiere que la variable tasa de interés sea débilmente exógena al parámetro de interés. El resultado que se presentará es un número que represente lo más fielmente posible la elasticidad en cuestión. 2. Egresado de la carrera de econom´ıa que logró colocarse en una consultor´ıa privada. En este caso, al recién egresado–y orgulloso empleado de una firma consultora con nombre en inglés y base en Polanco–le encargan hacer pronósticos de la demanda de dinero, mismos que formarán parte de un proyecto que le venderán a alguna obscura dependencia pública o bien a un banco comercial por millones y millones de devaluados pesos. El recién egresado no sólo debe preocuparse por estimar correctamente la demanda de dinero (es decir, no sólo requiere exogeneidad débil), sino que además debe tener cierta confianza en la capacidad predictiva de su estimación. Para ello, debe asegurarse que sólo necesita estimar la demanda de dinero (la ecuación condicional) y no también la ecuación de la tasa de interés (por ejemplo). Como ya se vio antes, a este brillante egresado sólo le hará falta tomar sus estimaciones del curso de econometr´ıa II y aplicar una prueba de GrangerCausalidad. Si no hay Granger-Causalidad de la tasa de la demanda de dinero a la tasa de interés, entonces podrá usar su ecuación para construir pronósticos. 3. Egresado ya no tan joven que logró meterse al Banco de México. A este brillante egresado, ya más cuarentón y con algunas canas, ahora le han solicitado que evalúe la posibilidad de cambiar las reglas de la subasta de CETES que ha venido usando Banxico. Las autoridades máximas quieren ver el impacto de e´ stos cambios en la demanda de dinero. En ese sentido, nuestro viejo egresado conoce la manera en la que el Banco reacciona, por lo que sólo necesita saber, además de que la tasa de interés es débilmente exógena al

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

370

parámetro de interés, si cambios en las reglas de tales subastas no alterarán la manera en la que reaccionan los agentes en las subastas. Si eso es cierto, podrá usar toda la información disponible para presentarle a su jefe algunas simulaciones que indiquen que pasar´ıa, confiado en que su estimación de la elasticidad seguir´ıa siendo válida ante tales cambios. Probar la exogeneidad de una variable es posible; el problema es que se requiere, intuitivamente, modelar la variable exógena, que es justamente lo que se quiere evitar (la idea es sólo estimar la ecuación condicional). No obstante, hacer las pruebas es factible. Quizá la forma más evidente de probar la exogeneidad débil radica en ´ DE E RROR (ECM, por sus siglas en inglés). Este los modelos de C ORRECCI ON tipo de modelos se estudia con detalle en cursos de series de tiempo y macroeconometr´ıa. No obstante, para efectos de este curso, daremos una muy suscinta explicación de e´ stos. Desgraciadamente, para ello es necesario contemplar una cantidad no despreciable de conceptos, espec´ıficamente estacionariedad y cointegración.

11.3.

Mecanismo de Corrección de Error

Tanto el Mecanismo de Corrección de Error (MCE) como el Modelo de Corrección de Error son conceptos anteriores al de cointegración. Inicialmente concebidos por Sargan (1964) [como una liga entre equilibrios estáticos en econom´ıa teórica y modelos dinámicos emp´ıricos] y extendidos posteriormente por Hendry y Anderson (1977), Davidson, Hendry, Srba y Yeo (1978), Hendry y Mizon (1978) y Hendry, Pagan y Sargan (1984), e´ stos precedieron la teor´ıa de la cointegración [Granger (1981), Granger y Weiss (1983) y Engle y Granger (1987)]. De hecho, los creadores de la cointegración establecen, en los art´ıculos antes mencionados, la relación teórica entre MCE y cointegración. Cabe señalar que, en una entrevista, Clive Granger admitió haber discutido con David Hendry sobre la validez del MCE a finales de los 70, principios de los 80. En esa discusión Granger afirmó que e´ l podr´ıa probar que el concepto de MCE era erróneo; posteriormente, Granger no sólo se dio cuenta que el MCE era un mecanismo adecuado para modelar la dinámica de relaciones de equilibrio, sino que además concibió la cointegración, como una reinterpretación mucho más rica del MCE. Pese al evidente orden cronológico de todos estos temas, resulta más intuitivo empezar por no estacionariedad y cointegración y rematar con mecanismos de corrección de error.

´ DE ERROR 11.3. MECANISMO DE CORRECCION

371

11.3.1. Estacionariedad y Ergodicidad Esta primera subsección tiene la intención de enmarcar la teor´ıa que abordaremos en lo sucesivo. Definiremos un conjunto de nociones fundamentales que nos acompañarán en el resto de este cap´ıtulo: la noción de serie de tiempo, la de proceso aleatorio y la de estacionariedad. Note que todo lo anterior ya hab´ıa sido abordado en la primera parte del curso (vea la página 116). Quizá le conviene dar una revisada. Series de tiempo: Gran cantidad de variables son medidas a intervalos regularmente espaciados en el tiempo (segundo, minuto, hora, d´ıa, semana, quincena, mes, trimestre, año,. . . ). Definamos pues un conjunto de observaciones equiespaciadas en el tiempo de la siguiente manera: Definición 21 Se denomina Serie de tiempo/temporal/cronológica a una sucesión de observaciones equiespaciadas en el tiempo. Con objeto de realizar un tratamiento estad´ıstico sobre las series de tiempo, les asociamos una estructura probabil´ıstica. Suponemos entonces que dicha serie temporal es próxima a las realizaciones de un fenómeno aleatorio obtenidas con base en un muestreo. De ah´ı el apelativo proceso aleatorio. Lo anterior puede comprenderse mejor gráficamente:

Densidad

PROCESO ALEATORIO

Tiempo 1 0.8 0.6 0.4 0.2 0

0

0.5

1

Figura 11.3: Proceso aleatorio

372

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD En cada instante t tenemos una variable aleatoria que sigue una distribución particular (en este caso, una normal). Se dispone de una sola realización de la distribución para cada tiempo. Las caracter´ısticas anteriores pueden cristalizarse en dos supuestos fundamentales, estacionariedad y ergodicidad. En teor´ıa de la probabilidad, un proceso estocástico, estacionario y ergódico implica, esencialmente, que (i) las propiedades de dicho proceso no cambiarán con el tiempo y (ii) que e´ stas (las propiedades estad´ısticas), como pueden ser su esperanza teórica y su varianza, pueden deducirse a partir de una u´ nica observación en cada periodo, si el número de periodos observados es suficientemente grande. En palabras llanas, estos conceptos pueden explicarse de la siguiente manera: 1. Estacionariedad es la propiedad de un proceso aleatorio que garantiza que sus propiedades estad´ısticas, léase sus momentos, no cambian a lo largo del tiempo. Hay muchas variedades de estacionariedad: de primer orden, de segundo orden, de enésimo o´ rden, amplia, estricta. Nosotros sólo emplearemos dos de estas definiciones. 2. Un proceso que satisface un teorema de ergodicidad (es decir, un proceso ergódico) es tal que permite que el cálculo emp´ırico (o muestral) de sus momentos, usando las observaciones, se aproxime asintóticamente a su equivalente teórico. Es importante hacer notar que en series de tiempo sólo recolectamos una observación por periodo. Piense, por ejemplo en el dato del PIB. Ese dato es una estimación de la producción hecha en un pa´ıs. Por lo general, sólo un instituto lo calcula. En un mundo ideal, habr´ıa muchos institutos haciendo lo mismo y al final de cada trimestre podr´ıamos promediar los distintos estimadores del PIB sabiendo que, todos ellos estar´ıan extra´ıdos de la misma distribución (para ello har´ıa falta explicitar supuestos técnicos que de momento omitimos). En la práctica, sólo tenemos una por trimestre. Para promediar, sólo podemos hacerlo con observaciones que no se hicieron en los mismos periodos; es la propiedad de la ergodicidad la que garantiza que al hacer eso nuestro estimador sigue siendo adecuado. A continuación definiremos con mucha más precisión esos conceptos: Estacionariedad: la estacionariedad es quizá una de las palabras más frecuentemente empleada en econometr´ıa de series de tiempo. Es importante entender con claridad a que se refiere:

´ DE ERROR 11.3. MECANISMO DE CORRECCION

373

Definición 22 Estacionariedad Estricta: un proceso {yt }∞ t=−∞ es estrictamente estacionario si, para cualesquiera j1 , j2 , . . . , jn , la distribución conjunta de (Yt , Yt+j1 , Yt+j2 , . . . , Yt+jn ) depende u´ nicamente de los intervalos que separan las fechas (j1 , j2 , . . . , jn ) y no de las fechas en s´ı. La estacionariedad estricta es un concepto demasiado exigente para fines prácticos. Requiere que todos los momentos del proceso sean independientes del tiempo. Es por ello que habremos de utilizar una versión más ligera, que sólo involucre a los dos primeros momentos: Definición 23 Estacionariedad Débil o en covarianzas: Sea {yt }∞ t=−∞ un proceso aleatorio. Si ni su media ni sus autocovarianzas (µt y γjt ∀j = 1, 2, ..) dependen del instante t entonces el proceso es débilmente estacionario o bien estacionario en covarianzas: • E (yt ) = µ para todo t • E (yt − µ) · (yt−j − µ) = γj para todo t y cualquier j. Podemos definir un tipo de estacionariedad aún más cómodo añadiendo normalidad: Definición 24 Un proceso estacionario Y se dice gaussiano si su densidad conjunta, fyt ,yt+j1 ,...,yt+jN (yt , yt+j1 , ..., yt+jN ) es Normal, para todo J1 , J2 , ..., JN . Cuando el proceso es normal se obtienen propiedades en extremo convenientes. La principal es que una distribución normal sólo requiere de los dos primeros momentos, media y varianza, para ser caracterizada enteramente. Ello hace que si un proceso débilmente estacionario es gaussiano, entonces también es estrictamente estacionario.

374

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Si recuerda la gráfica (2.14) no le resultará descabellado pensar que la riqueza en el año t, t = 1900, . . . , 2000 (aproximada con en el PIB per cápita en PPC base 1970) es una serie que lleva mucha inercia (es decir, su comportamiento presente depende en gran medida de su comportamiento pasado); en otras palabras, la riqueza actual depende en gran medidad de la riqueza de que se dispon´ıa en el per´ıodo inmediato anterior, Rt = F (Rt−1 ). Claro está, deber´ıamos incluir en dicha función elementos provistos por la teor´ıa económica: escolaridad, experiencia laboral, género, etc. De momento, nos despreocuparemos de ese conjunto de variables agregándolo vilmente en una variable Vt . Nuestra función queda as´ı: Rt = F (Rt−1 , Vt ) Podemos una función más expl´ıcita: Rt = α + Rt−1 + Vt Esto es lo que se llama una ecuación en diferencia. Aprenderán a servirse de ellas para fines econométricos en series de tiempo. Olvidando momentaneamente las cuestiones probabil´ısticas, podemos tratar de resolver la ecuación de forma recursiva, es decir, reemplazando Rt−1 por la expresión correspondiente, según la función (asumimos que si la función es válida en t, también lo es en cualquier otro momento, τ 6= t). Rt = α + Rt−1 + Vt = α + α + Rt−2 + Vt + Vt−1 = α + α + α + Rt−3 + Vt + Vt−1 + Vt−2 .. . Los detalles de esta resolución los verán en un futuro no tan lejano, si acaso se interesan por el análisis de series de tiempo. Por ahora basta decir que, asumiendo que la serie tiene un principio, R0 , si seguimos reemplazando llegaremos hasta e´ l. Y para eso, habremos tenido que hacer t reemplazos:

Rt = R0 + α · t +

t−1 X i=0

Vt−i

´ DE ERROR 11.3. MECANISMO DE CORRECCION

375

Las propiedades de la suma que aparece en el extremo derecho son complicadas y por el momento nos conformaremos con tratarlo como si fueran innovaciones,21 con E (Vt ) = 0. Note como el tiempo, denotado por la letra t, aparece expl´ıcitamente en la expresión. Si tratamos de obtener su esperanza, pues el valor de t no está sujeto a cuestiones estocásticas, por lo que puede considerarse como determinista, lo mismo ocurre con la riqueza inicial, que asumiremos como un dato conocido:

E (Rt ) = R0 + α · t + E (Rt ) = R0 + α · t

t X i=1

E (Vt−i ) | {z } =0

La esperanza de la serie, como se observa en la u´ ltima l´ınea, no es constante en el tiempo, puesto que se modifica en función de e´ ste. Es decir, si t = 1980, la esperanza de la riqueza será R0 + α · 1980, mientras que si t = 2000, la esperanza de la riqueza será R0 + α · 2007. Lo anterior muestra que nuestra variable no respeta lo establecido en la definición de estacionariedad débil débil; no es, por tanto, una variable estacionaria. Los detalles respecto a las consecuencias de este problema se verán en Análisis de Series de Tiempo, pero es importante retener que si las series con las que queremos trabajar tienen una naturaleza parecida a la que inventamos ´ N O S IRVE. El problema, as´ı como ahora, T ODA LA E CONOMETR Í A C L ASICA su solución se presentan más adelante. Lo importante, por el momento, es saber que muchas series macroeconómicas no parecen ser estacionarias. Lo anterior se afirma con base en una serie de art´ıculos bastante considerable, siendo el original, un trabajo de Nelson y Plosser (1982). Vale la pena mencionar que en la actualidad se debate mucho la naturaleza estocástica/determinista del componente de tendencia de las series macro. No obstante, existe un gran consenso en lo que respecta su no estacionariedad.

11.3.2. Regresión Espuria El fenómeno de la regresión espuria, puesto en relieve en econometr´ıa por Granger y Newbold (1974),22 tiene mucho que ver con la no estacionariedad (si bien 21

Este supuesto puede levantarse sin mucha pena, pero no tiene caso puesto que complicar´ıa la exposición. 22 Ventosa-Santaulària (2009) provee una revisión de la literatura un poco más extendida. El art´ıculo puede ser descargado en http://www.hindawi.com/journals/jps/2009/802975.pdf.

376

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

no está circunscrito a ello). Puesto que aún no tenemos los elementos para estudiarla teóricamente, de momento nos conformaremos con un pequeño experimento de Monte Carlo. Dicho experimento sólo tiene la finalidad de ilustrar el fenómeno, aunque se hará de manera muy extendida, para que no queden dudas respecto al alcance de este problema.23 Lo primero que necesitamos para ilustrar el fenómeno de regresión espuria es proveer una definición formal de la misma. Usaremos una inspirada en el trabajo de Granger, Hyung y Jeon (2001):24 Definición 25 Una regresión espuria ocurre cuando se infiere evidencia de una relación lineal entre dos variables independientes entre s´ı pero con propiedades temporales “fuertes” (mucha persistencia o dependencia fuerte del pasado) con base en los instrumentos básicos de M´ınimos Cuadrados Ordinarios (R2 , Estad´ısticos t, prueba conjunta de F,...). Los procesos generadores de datos Los procesos generadores de datos (DGP s, por sus siglas en inglés) que vamos a usar para simular las series deben garantizarnos dos cosas: 1. que las series no estén relacionadas entre s´ı, 2. que las series no sean estacionarias. Usaremos el proceso no estacionario más sencillo: zt = zt−1 + uzt , dónde z = x, y. Asumiremos que el proceso empieza en z0 = 0 y que uzt ∼ N (0, σz2 ). As´ı, podemos resolver la ecuación de la siguiente manera: zt =

t X

uzi .

|i=1{z } ξt

23

Esta sección está basada en la que aparece en el libro de Davidson y MacKinnon (2004): “Econometric Theory and Methods.” 24 Es importante señalar que este fenómeno ya hab´ıa sido identificado por Yule, en 1927, pero no en el contexto de una regresión, sino de un coeficiente de correlación.

´ DE ERROR 11.3. MECANISMO DE CORRECCION

377

El término a la derecha de la ecuación es el componente de tendencia estocástico, mejor conocido como una ra´ız unitaria o bien proceso integrado de orden uno, zt ∼ I(1). Si calculamos la esperanza y la varianza de este proceso, obtendremos:

E(zt ) = E(

t X

uzi )

i=1

= 0 

V (zt ) = E  = t·

σz2 .

t X i=1

uzi

!2  

As´ı, este proceso no satisface la segunda condición de la definición de estacionariedad débil. Su varianza (un segundo momento) depende del tiempo. Usaremos otro proceso también, el visto en el ejemplo de la riqueza; lo utilizaremos utilizando una notación más estándar (se mantienen los supuestos antes explicitados): wt = µw + wt−1 + uwt = µw t + ξw,t . El simple hecho de incluir una constante en el DGP conlleva cambios importantes. Ahora el proceso no sólo tiene una ra´ız unitaria, sino que además incluye una tendencia lineal determinista.25 Además, como se vio justamente en el ejemplo del principio de la sección, ahora la esperanza del proceso ya no es constante: E(wt ) = µw t. En todo caso, ahora ya tenemos dos ejemplos de procesos no estacionarios. Note como, al aplicar la primera diferencia a esta serie (operador diferencia, denotado ∆), recuperamos la estacionariedad. Si el proceso no tiene deriva: ∆(zt ) = zt − zt−1 = uzt Si el proceso s´ı tiene deriva 25

Dado que la constante en realidad es una tendencia determinista, suele ser denominada “deriva” o drift en inglés.

378

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

∆(wt ) = µw + uwt Lo anterior es sorprendentemente simple e importante. Si un proceso requiere ser diferenciado una vez para volverlo estacionario, se dice que es integrado de orden uno; si se requiere diferenciar dos veces, entonces el proceso es I(2) y as´ı sucesivamente. As´ı, podemos aprovechar nuestra notación para definir el comportamiento tendencial de nuestras series:

zt ∼ I(1) ∆(zt ) = uzt ∼ I(0) wt ∼ I(1) ∆(wt ) = µw + uwt ∼ I(0) Ya con dos procesos no estacionarios a la mano es posible ilustrar el fenómeno de la regresión espuria. Para ello, lo más conveniente es repoducir el experimento de Monte Carlo presentado por Granger y Newbold en 1974. Ejercicio 15 Ilustración de la regresión espuria: en este ejercicio de programación, deberá generar artificialmente cuatro series no estacionarias e independientes entre s´ı. Preferentemente, hágalo en matlab: 1. Defina el tamaño de muestra, T = 250 (un tamaño cercano al que se encuentra en la práctica), 2 2 2 2. Defina las varianzas de nuestras cuatro variables, σx1 = 1, σx2 = 0.7, σy1 = 2 1.2 y σy2 = 4,

3. genere cuatro ruidos independientes, ux1t , ux2t , uy1t y uy2t , con esperanza cero y varianza definida en el inciso anterior, 4. defina dos constantes, µx = 0.04 y µy = 0.07, 5. Construya la serie “tiempo”, tps = (1, 2, 3, . . . , T )′ [use el comando cumsum],

´ DE ERROR 11.3. MECANISMO DE CORRECCION

379

6. Asuma que los valores iniciales de todas las series son igual a cero, x1,0 = x2,0 = y1,0 = y2,0 = 0, 7. Construya las series no estacionarias, aplicando un operador de suma móvil a los ruidos; x1 y y1 no tienen deriva; las otras dos s´ı [use el comando cumsum para la tendencia estocástica], 8. Grafique las dos series, 9. Estime las regresiones y1t = α1 + δ1 x1t + u1t y y2t = α2 + δ2 x2t + u2t . De ambas regresiones almacene el estimador de delta, el estad´ıstico t asociado, la R2 y el estad´ıstico DW (Durbin-Watson), 10. Repita 1, 000 veces los pasos anteriores (es decir, haga un experimento de Monte Carlo) y genere los histogramas de todas las caracter´ısticas de las regresiones recopiladas en el inciso anterior. El código debió haberle quedado parecido al siguiente: %-----------------------------------------------% Regresi´ on espuria % Simulaci´ on de procesos independientes % Estimaci´ on de regresiones %-----------------------------------------------clear all %-----------------------------------------------% Declaraci´ on del tama˜ no de muestra, # de % replicaciones, varianzas y constantes: T=250; Sx1=1; Sx2=sqrt(0.7); R=1000; Sy1=sqrt(1.2); Sy2=2; Mx=0.04; My=0.07; %-----------------------------------------------% Vectores de almacenamiento: D1=zeros(R,1); D2=zeros(R,1); tD1=zeros(R,1); tD2=zeros(R,1); R21=zeros(R,1); R22=zeros(R,1); DW1=zeros(R,1); DW2=zeros(R,1); %------------------------------------------------

380

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

for j=1:R % Generaci´ on de ruidos y del "tiempo": Ux1=randn(T,1)*Sx1; Ux2=randn(T,1)*Sx2; Uy1=randn(T,1)*Sy1; Uy2=randn(T,1)*Sy2; Cste=ones(T,1); Tps=cumsum(Cste); % Generaci´ on de variables no estacionarias: x1=cumsum(Ux1); y1=cumsum(Uy1); x2=Mx*Tps+cumsum(Ux1); y2=My*Tps+cumsum(Uy1); % Estimaci´ on de regresiones y almacenamiento: REG1=ols(y1,[Cste,x1]); REG2=ols(y2,[Cste,x2]); % [necesita descargar la librer´ ıa jpl para tener % acceso al comando ‘‘ols’’] D1(j)=REG1.beta(2); D2(j)=REG2.beta(2); tD1(j)=REG1.tstat(2); tD2(j)=REG2.tstat(2); R21(j)=REG1.rsqr; R22(j)=REG2.rsqr; DW1(j)=REG1.dw; DW2(j)=REG2.dw; end %-----------------------------------------------% Gr´ afico de Series: figure(1) subplot(2,1,1) plot(Tps,x1,Tps,y1) subplot(2,1,2) plot(Tps,x2,Tps,y2) %-----------------------------------------------% Histogramas: figure(2) subplot(2,4,1) hist(D1,20);title(’(a)’); subplot(2,4,2) hist(tD1,20);title(’(b)’); subplot(2,4,3) hist(R21,20);title(’(c)’); subplot(2,4,4)

´ DE ERROR 11.3. MECANISMO DE CORRECCION

381

hist(DW1,20);title(’(d)’); subplot(2,4,5) hist(D2,20);title(’(e)’); subplot(2,4,6) hist(tD2,20);title(’(f)’); subplot(2,4,7) hist(R22,20);title(’(g)’); subplot(2,4,8) hist(DW2,20);title(’(h)’); Si todo le salió bien, sus gráficos deber´ıan parecerse a estos:

x1,y1

(a)

(b)

15

160

10

140

5

120

0

100

−5

80

−10

60

−15

40

−20

20

−25

0

100

200

0 −5

(c)

(d)

200

(e)

300

250

250

200

150 200

150 100

150 100 100

50

50

50

0

5

0 −50

0

50

0

0

0.5

1

0

0

0.2

0.4

tiempo

(abis)

(bbis) 160

140

20

140

120

120

15 x2,y2

(cbis)

25

120

80

60

0

100

200

40

50

20

20 0 −5

60

40

40

−5 −10

100

60

0

100

80

80 5

(ebis) 140

150

100

100

10

(dbis) 200

0

5

0 −50

20 0

50

100

0

0

0.5

1

0

0

0.2

0.4

tiempo

Figura 11.4: Regresión espuria. (a) series no estacionarias independientes; (b) estimador de δ; (c) estad´ıstico t asociado a delta; (d) R2 ; (e) estad´ıstico Durbin-Watson. Super´ındice “bis” indica que las variables tienen deriva La razón por la que también se incluyó el estad´ıstico Durbin-Watson el ejercicio de Monte Carlo es muy sencilla. Existe una regla de dedo (quizá podr´ıamos llamarla una regla heur´ıstica) para determinar de manera preliminar la posibilidad de que la inferencia extra´ıda de una regresión sea espuria. Como se vio anteriormente, el estad´ıstico DW se usa formalmente para identificar autocorrelación de primer orden. Las simulaciones de Granger y Newbold y, posteriormente, los resultados teóricos de Phillips (1987) permiten saber que la bondad del ajuste en una regresión

382

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

espuria, medida por la R2 , no se colapsa, sino que se distribuye entre cero y uno (en el caso de ra´ıces unitarias sin deriva) o bien tiende a uno (cuando las ra´ıces unitarias tienen deriva). También está bien establecido que el estad´ıstico DW e´ se s´ı, se colapsa (tiende a cero). La regla heur´ıstica es, concretamente, la siguiente: C UANDO LA BONDAD DEL AJUSTE ES MAYOR AL ESTAD Í STICO DW , R2 > ´ SEA ESPURIA . DW , CONSIDERE LA POSIBILIDAD DE QUE SU REGRESI ON Debe quedar claro que esta regla, aunque sencilla y práctica, dista mucho de ser infalible. Tan solo u´ sela como indicativo de que quizá no esté lidiando correctamente con el supuesto de estacionariedad de las series. ¿Un problema de especificación? Davidson y MacKinnon argumentan que el principal efecto de la regresión espuria (rechazo de la hipótesis nula de los estad´ısticos t individuales) se debe, al menos en parte, a un problema de especificación. Para entender dicho argumento, considere dos variables independientes entre s´ı gobernadas por ra´ıces unitarias sin deriva: yt = yt−1 + uyt xt = xt−1 + uxt Suponga ahora que busca relacionarlas, linealmente, mediante una regresión estimada con MCO: yt = βxt + ut La fuerza del argumento de Davidson y MacKinnon estriba en lo siguiente: la hipótesis nula del estad´ıstico t asociado a β es que este u´ ltimo es igual a cero, lo cual es cierto, puesto que las series son independientes. No obstante, si usted impone en la regresión el que β = 0, se queda con una expresión notoriamente alejada del verdadero proceso generador de y: y t = ut Según esta u´ ltima ecuación, yt se comporta como un proceso estacionario I(0). Eso, huelga decir, no es cierto. Davidson y MacKinnon sugieren que la correcta especificación del modelo ser´ıa más bien:

´ DE ERROR 11.3. MECANISMO DE CORRECCION

383

yt = βxt + δyt−1 + ut Note que, al imponer la restricción β = 0, nos queda una especificación correcta de la variable dependiente, yt = δyt−1 +ut , especialmente si δ = 1. Lo anterior implica que la regresión espuria puede verse, efectivamente como un problema de especificación. No obstante, el fenómeno de la regresión trasciende la especificación. Hay un problema espec´ıfico con el hecho de trabajar con variables no estacionarias. Si sólo se tratara de un problema de especificación, entonces deber´ıamos poder observar que, para el caso de dos series independientes, el estad´ıstico t asociado a β en la u´ ltima regresión sólo deber´ıa rechazarse un 5 % (si usamos un nivel de 5 %, claro está). Eso desgraciadamente no ocurre. Para verlo, basta con repetir el ejercicio anterior. Ejercicio 16 Ilustración de la regresión espuria, segunda parte: en este ejercicio de programación, deberá generar artificialmente dos series no estacionarias e independientes entre s´ı: 1. Defina las varianzas de nuestras dos variables, σx2 = 1 y σy2 = 1.2, 2. genere dos ruidos independientes, uxt y uyt , con esperanza cero y varianza definida en el inciso anterior, 3. Asuma que los valores iniciales de todas las series son igual a cero, x0 = y0 = 0, 4. Construya las series no estacionarias, aplicando un operador de suma móvil a los ruidos, 5. estime la regresión yt = βxt δ + yt−1 + ut . Almacene el estad´ıstico asociado a β, 6. Repita 1, 000 veces los pasos anteriores para distintos tamaños de muestra, T = 25, 40, 100, 200, 500, 1000 y grafique la tasa de rechazo de la hipótesis nula (usando un valor cr´ıtico igual a 5 %) si usted ejecutó correctamente el ejercicio, debió obtener un gráfico similar a esto:26 26

En realidad, siguiendo las instrucciones antes marcadas dif´ıcilmente llegará al mismo gráfico. Si realmente quiere obtenerlo, aumente el número de tamaños de muestra (en incrementos de 5 observaciones desde 20 hasta 750) y, sobre todo, aumente el número de replicaciones a 1, 000, 000.

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

384

0.50 0.45

Nivel de la prueba (tasa de rechazo)

0.40 0.35

Nivel, regresión yt=b xt+d yt−1+ut, +/− 16%

0.30 0.25

Nivel nominal (esperado), 5% 0.20 0.15 0.10 0.05 0.00

100

200

300

400 Tamaño de muestra

500

600

700

Figura 11.5: Regresión espuria usando la especificación correcta. Note que el nivel no es el 5 % esperado, aún tomando en cuenta la ra´ız unitaria en yt .

En todo caso, es evidente que la prueba, usando un nivel nominal de 5 % arroja un verdadero nivel más cercano a 15-17 %... Esta severa distorción, aunque menor a la anterior, es aún suficiente como para dudar de la inferencia estad´ıstica en presencia de series no estacionarias.

11.3.3. Prueba de Ra´ız Unitaria Ahora que ha quedado claro que las variables no estacionarias distorcionan severamente las propiedades de las pruebas estándar en la regresión, es importante conocer los instrumentos para: 1. detectar la no estacionariedad, 2. hacer inferencia robusta en presencia de series no estacionarias. La prueba Dickey-Fuller En esta sección abordaremos el primer punto. Existen varias pruebas para identificar series no estacionarias. La más importante, por su impacto en la literatura y también por el hecho de seguir vigente en las aplicaciones, es, sin lugar a dudas, la prueba

´ DE ERROR 11.3. MECANISMO DE CORRECCION

385

Dickey-Fuller. Esa prueba está diseñada para identificar procesos con ra´ız unitaria. La idea de base es muy sencilla. Suponga que tiene el siguiente proceso: yt = ρyt−1 + uyt Por lo visto en la sección anterior, recordará que el proceso es estable/estacionario si | ρ |< 0, mientras que si ρ = 1, el proceso tiene una ra´ız unitaria. La manera más intuitiva de salir del paso es corriendo una regresión idéntica a la especificación y haciendo una prueba sobre el parámetro ρ: tρ =

ρˆ − 1 σ ˆρ

Lo podr´ıamos hacer aún más fácil; si manipulamos la expresión restándole a la expresión y−1 de ambos lados, obtenemos: ∆yt = (ρ − 1) yt−1 + uyt | {z } def

=γ

As´ı, el estad´ıstico t asociado a γ tendr´ıa las mismas hipótesis nula y alternativa de siempre: 1. H0 : γ = 0. Ello implica que ρ = 1 y que hay una ra´ız unitaria, 2. Ha : γ < 0. Ello implica que ρ < 1 y que el proceso es estacionario. Lo primero que debe tomar en cuenta es que la prueba es de una sola cola. Si nos concentramos primero en la hipótesis alternativa, entonces el proceso es estacionario. En ese caso, todos los supuestos necesarios para que la regresión arroje inferencia válida se cumplen, por lo uno podr´ıa esperar que la prueba funcione: si el proceso es estacionario, el estad´ıstico t asociado al estimador de γ será negativo y lo suficientemente grande (en valor absoluto) como para poder rechazar la hipótesis nula. El problema radica en el comportamiento de γ cuando el proceso realmente tiene una ra´ız unitaria (ahora estamos bajo H0 ). Habiendo visto lo que pasa con la regresión propuesta por Davidson y MacKinnon, deber´ıa quedar claro que, bajo la hipótesis nula, el estad´ıstico t no tiene un comportamiento estándar (en este caso, no se distribuye como una N (0, 1)). Eso se puede ilustrar fácilmente mediante un experimento de Monte Carlo:

386

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Ejercicio 17 Distribución de la prueba Dickey-Fuller: en este ejercicio de programación, deberá generar artificialmente una serie no estacionaria, aplicarle la prueba de Dickey-Fuller, repetir el experimento 500 veces, obtener la distribución del estad´ısto t y compararlo con una normal estándar: 1. Defina la varianza de nuestra variables, σy2 = 1 y el tamaño de muestra, T = 1, 000, 2. genere un ruido iid normal, uyt , con esperanza cero y varianza definida en el inciso anterior, 3. Asuma que los valores iniciales de la serie son igual a cero, y0 = 0, 4. Construya la series no estacionaria, aplicando un operador de suma móvil al ruido, 5. Aplique la prueba DF y almacene el estad´ıstico t asociado a γ, 6. Repita 500 veces los pasos anteriores y obtenga el histograma del estad´ıstico t, 7. calcule el percentil 5 % de la distribución de DF, 8. Superponga la distribución normal estándar, 9. Compare. Note como la cola izquierda de la distribución (que es la que nos interesa) es distinta a la de la normal estándar; está “más a la izquierda” y es más pesada. Lo anterior queda confirmado con el valor del percentil 5 % Por esa sencilla razón, no es posible usar los valores cr´ıticos de siempre. Afortunadamente, Dickey y Fuller calcularon dichos valores cr´ıticos y los tabularon. Hoy en d´ıa, todos los paquetes econométricos los tienen incorporados entre sus opciones. El código que genera lo anterior es: %-----------------------------------------% Prueba de Dickey-Fuller, distribuci´ on %------------------------------------------clear all

´ DE ERROR 11.3. MECANISMO DE CORRECCION

387

0.50 0.45

Función de Densidad de Probabilidad

0.40 0.35

N(0,1)

0.30 0.25 0.20 0.15 0.10 0.05

−4

−3

−2

−1

0

1

2

3

4

Figura 11.6: Distribución de la prueba Dickey-Fuller y comparación con la Distribución normal estándar.

% Declaraci´ on del tama˜ no de muestra, # de % replicaciones, varianzas y constantes: T=1000; Sy=1; R=10000; % Vectores de almacenamiento: tic; tB=zeros(R,1); for j=1:R % Generaci´ on de ruidos. Uy=randn(T,1)*Sy; % Generaci´ on de variables no estacionarias: y=cumsum(Uy); on de regresiones y almacenamiento: % Estimaci´ y1=y(1:T-1); dy=y(2:T)-y(1:T-1); REG=ols(dy,y1); tB(j)=REG.tstat; end toc; % Distribuci´ on de la prueba:

388

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

tBs=sort(tB); SN=normpdf(tBs); [DF,DFa]=hist(tB); DFo=DF/R; clf; bar(DFa,DFo);hold on;plot(tBs,SN);hold off; % Valores cr´ ıticos: CincoPC_1=quantile(tB,0.05,1); CincoPC_2=norminv(0.05,0,1); Ahora bien, la prueba DF tiene varias sutilezas (más correcto ser´ıa decir que adolece de ciertas limitaciones). La primera y más obvia radica en la especificación de la regresión auxiliar. Imagine que en vez de tener ra´ıces unitarias sin deriva, tenemos ra´ıces unitarias con deriva, en ese caso, la especificación de la prueba deberá ser distinta. Si estamos bajo la hipótesis nula, el proceso que genera a la variable es: yt = µy + yt−1 + uyt Si le restamos yt−1 a la expresión de ambos lados, obtenemos: ∆yt = µy + uyt Note como, para tomar en cuenta la famosa deriva, debemos incluir una constante en la especificación de la regresión:

∆yt = α + γyt−1 + ut Considere ahora el siguiente proceso generador de datos:

yt = µy + yt−1 + δy t + uyt

(11.11)

Si resuelve la ecuación, se encontrará con una sorpresa. Ejercicio 18 Retome el PGD presentado en la ecuación (11.11) y resuélvala. Demuestre que surge un componente determinista de tendencia cuadrática.

´ DE ERROR 11.3. MECANISMO DE CORRECCION

389

Los valores cr´ıticos del estad´ıstico t asociado a γ var´ıan en función de los elementos deterministas que incluya en la regresión auxiliar. Existe además otro problema. La prueba DF es sensible a las propiedades del término de error del PGD. En concreto, la prueba no sirve bien si dicho término no es independiente. Afortunadamente, es posible extender la regresión auxiliar para corregir esa sensibilidad; basta con poner rezagos de la variable dependiente:

∆yt = α + γyt−1 + δt +

k X

∆yt−i + ut

i=1

Subsiste ahora el problema de determinar cuantos rezagos incluir. Afortunadamente, para ello también hay solución. Todo esto se verá en la siguiente subsección. Procedimiento muestral En la práctica no sólo no conocemos si el proceso es estacionario, sino que también ignoramos si existen términos deterministas relevantes as´ı como el orden de un eventual proceso AR(p) que gobierna al término de error. Existen por ello una serie de recomendaciones para obtener la especificación correcta de la regresión auxiliar DF: 1. Inicie con la regresión DF que incluye constante y tendencia determinista. 2. A esta u´ ltima, aña´ dale una buena cantidad de rezagos de la variable dependiente para controlar por autocorrelación; una fórmula ad hoc de escoger el número máximo de rezagos es: " 41 # T Lmax = 12 100 3. Antes de decidir sobre la ra´ız unitaria y los términos deterministas, debe reducir el número de rezagos hasta llegar a una cantidad o´ ptima: Use el criterio de Akaike (obtenga un m´ınimo) Paralelamente, use la significancia estad´ıstica de los parámetros asociados a dichos rezagos

390

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD Verifique, mediante el correlograma y el estad´ıstico Ljung-Box que los rezagos supervivientes realmente eliminan la evidencia de autocorrelación El criterio que prima sobre los demás es el de Akaike.

4. Habiendo ya definido el número de rezagos, compruebe si hay evidencia de ra´ız unitaria: Si no hay ra´ız unitaria, verifique la significancia de los componentes deterministas. Dado que la serie es, en principio, estacionaria, los valores cr´ıticos de la normal estándar son adecuados para esta tarea. a) Si los parámetros son significativos, entonces ha terminado. b) Si la tendencia no es significativa, vuelva a aplicar la prueba sin e´ sta (siga los pasos desde el principio). Si al hacerlo cambia la conclusión respecto a la ra´ız unitaria (es decir, si ahora s´ı la acepta), entonces regrese a la regresión auxiliar con tendencia. c) Si la constante no es significativa, siga los mismos pasos que en los incisos anteriores. Si s´ı hay ra´ız unitaria, verifique, en primera instancia, la significancia de la tendencia determinista (recuerde que en este caso, dicha tendencia en realidad es cuadrática y no hace mucho sentido). Los valores cr´ıticos de la normal estándar ya no son válidos. Use los que aparecen abajo de estas instrucciones. • Si la tendencia no es significativa, elim´ınela de la regresión auxiliar y vuelva a correr la prueba. a) Si la evidencia de Ra´ız Unitaria cambió (es decir, ahora no hay), entonces retome la especificación anterior. b) Si la evidencia de Raiz Unitaria no cambió, ahora verifique la constante. Siga los mismos pasos que con la tendencia. Valores cr´ıticos para los componentes deterministas en la Dickey-Fuller : En esta sección damos los valores cr´ıticos de los elementos deterministas para evaluar la significancia estad´ıstica de los mismos en la regresión auxiliar de la prueba Dickey-Fuller cuando la prueba arroja evidencia de Ra´ız Unitaria:

´ DE ERROR 11.3. MECANISMO DE CORRECCION DF (1)

10 % ±2.83

5% ±3.16

391 1% ±3.80

Cuadro 11.1: Valores Cr´ıticos asintóticos para el estad´ıstico t de la constante y de la tendencia cuando se incluye tendencia y constante en la regresión auxiliar. DF (2)

10 % ±2.52

5% ±2.82

1% ±3.42

Cuadro 11.2: Valores Cr´ıticos asintóticos para el estad´ıstico t de la constante cuando se incluye sólo constante en la regresión auxiliar.

Para terminar, mostramos un diagrama que creemos hará más fácil el empleo de la prueba Dickey-Fuller. En dicho diagrama se hace abstracción de la selección de rezagos para controlar por autocorrelación. Ello se hace para que el diagrama no quede demasiado recargado. No obstante, no debe olvidar que cada vez que estime una regresión auxiliar de Dickey-Fuller, debe incluir el número adecuado de tales rezagos.

11.3.4. Cointegración El concepto de Cointegración es, en realidad, sumamente sencillo e intuitivo. Cuando estudiamos la regresión espuria, establecimos que e´ sta se da cuando las variables no son estacionarias; si lo piensa con detenimiento, se dará cuenta que cada variable, xt y yt tiene un componente de tendencia estocástica independiente del de la otra. La cointegración es un caso especial en que las series siguen siendo no estacionarias, pero, a diferencia del caso espurio, comparten en componente de tendencia estocástico. La primera relación cointegrada que verá es la siguiente:

yt = µy + βy xt + uyt xt = xt−1 + uxt t X = uxt , i=1

(11.12)

(11.13)

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

392

Raíz Unitaria

Inicio: Estimar Prueba ADF incluyendo constante y Tendencia; evaluar con base en ésta si hay evidencia de raíz unitaria o no

Verifique Significancia de la Tendencia Significativa (valores críticos no estándar) No Significativa

Significativa Verifique Significancia de la Tendencia (valores críticos estándar)

Raíz unitaria con tendencia cuadr. y lineal

Sin Raíz Unitaria*

Verifique Significancia de la Constante (valores críticos no estándar) No Significativa

Raíz unitaria sin deriva

Raíz Unitaria*

Sin Raíz Unitaria Significativa

Significativa

Verifique Significancia de la Constante (valores críticos estándar) Proceso estacionario

Raíz unitaria con deriva

Estimar Prueba ADF sencilla; evaluar con base en ésta si hay evidencia de raíz unitaria o no Raíz Unitaria

Proceso estacionario en tendencia.

No Significativa

Estimar Prueba ADF incluyendo constante; evaluar con base en ésta si hay evidencia de raíz unitaria o no

Estimar Prueba ADF incluyendo constante; evaluar con base en ésta si hay evidencia de raíz unitaria o no Raíz Unitaria

Sin Raíz Unitaria

Raíz Unitaria* Sin Raíz Unitaria*

No Significativa

Estimar Prueba ADF sencilla; evaluar con base en ésta si hay evidencia de raíz unitaria o no Sin Raíz Unitaria

Proceso estacionario de media cero

* : Note como, cada vez que al quitar un regresor cambia la decisión respecto a la Raíz Unitaria, se retoma la especificación anterior.

Figura 11.7: Modo de empleo sugerido de la DF

dónde uz ∼ I(0) para z = x, y. Con base en lo explicitado en los apartados anteriores, es fácil saber que xt ∼ I(1). ¿Qué podr´ıa decirse de la otra variable, yt ? Será, como siempre, cuestión de desarrollar un poco su ecuación:

´ DE ERROR 11.3. MECANISMO DE CORRECCION

393

yt = µy + βy xt + uyt = µy + βy (xt−1 + uxt ) + uyt t X = µy + βy uxt + uyt . i=1

Con base en el desarrollo anterior, resulta ahora fácil también darse cuenta que yt ∼ I(1). La peculiaridad dePeste caso es que la fuente de no estacionariedad de ambas variables es la P misma, ti=1 uxt . Es como si las dos fueran remolcadas en el tiempo por el mismo ti=1 uxt . Observe el comportamiento de tales variables en la simulación del gráfico (11.8), panel b y compárelo con el que tienen dos variables no estacionarias independientes, en el mismo gráfico, panel b.

Ahora bien, el concepto original de cointegración, formulado por Granger (1980) y Engle y Granger (1987), interpreta las ecuaciones (11.12) y (11.13) de una manera sutilmente diferente. Habrá notado que especificamos con harta claridad que las innovaciones de la primera ecuación, uyt , era estacionarias, I(0). Bueno, pues reacomodemos un poco los términos de esa ecuación:

yt − µy − βy xt = uyt I(1) − µy − βy I(1) = I(0) Dicho acomodo puede resultar trivial a primera vista, pero obsérvelo con más detenimiento. Del lado derecho de la ecuación aparece una combinación lineal de dos variables I(1) que arroja un proceso I(0). En otras palabras, la cointegración, según Granger, estriba en una combinación lineal particular de variables no estacionarias que tiene como resultado, una variable con un orden de integración menor, en este caso, estacionario. La definición formal de Granger es la siguiente: Definición 26 Los componentes del vector wt = (yt , xt )′ se dicen cointegrados de orden d, b, denotado wt ∼ CI(d, b), si: 1. Todos los componentes del vector wt están integrados del mismo orden d,

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

394

(a)

(b)

10

15

5

10 5

0 yt

yt

0 −5

−5 −10

−10

−15

−15

−20 −10

−5

0

5

10

15

20

−20 −10

25

−5

0

5

xt (c)

20

25

10 Resid. espurios/cointegrados

x

t

y coint. t

20 xt, yt y y2,t

15

(d)

30

10 0 −10 y indep. −20 0

10

xt

t

50

100

150

Tiempo

200

250

5 0 −5 −10 u coint.

u espurio

t

t

−15 0

50

100

150

200

250

Tiempo

Figura 11.8: Variables cointegradas y Espurias: (a) Diagrama de dispersión entre dos variables independientes; (b) Diagrama de dispersión entre dos variables cointegradas; (c) Variables cointegradas y espurias; (d) residuales cointegrados y espurios 2. Existe un vector B = (µy , βy ) tal que la combinación lineal Bwt resulte ser integrada de orden (d − b), donde b > 0. Dicho vector se denomina V ECTOR C OINTEGRANTE.

´ DE ERROR 11.3. MECANISMO DE CORRECCION

395

Para ilustrar todo lo anterior, se generaron tres variables: xt ∼I(1), ytIndep ∼ I(1) y ytCoint ∼ I(1), de tal suerte que, en particular, ytCoint , xt ∼ CI(1, 1). Posteriormente es estimaron dos ecuaciones, ytCoint = α1 + β1 xt + uC,t y ytIndep = α2 + β2 xt + uI,t . Note que la segunda especificación es t´ıpicamente espuria; la primera es cointegrada. Finalmente, se recuperaron los residuales de ambas regresiones. Puede observar su evolución en el tiempo en el gráfico (11.8), páneles c y d. ¿N OTA USTED ALGUNA DIFERENCIA SIGNIFICATIVA ? Si es usted observador, habrá notado que los residuales de la regresión espuria tienen un comportamiento rid´ıculamente parecido al de una ra´ız unitaria, es decir, al de un proceso I(1). Eso, no está usted para saberlo ni yo para contarlo, pero hace mucho sentido. Una combinación lineal cualquiera de variables I(1) arrojará residuales que también serán I(1). ¡La u´ nica combinación lineal que arroja residuales integrados de orden cero es la que ofrece el famoso vector cointegrante! Lo anterior da pie a ´ una prueba de cointegración muy sencilla. Esta consiste en aplicarle una prueba de ra´ız unitaria, como la Dickey-Fuller que vimos anteriormente, a los residuales de la regresión. Si dicha prueba encuentra evidencia de estacionariedad en los residuales, usted tendrá ante s´ı una regresión cointegrada. Ahora bien, existen algunas sutiles diferencias entre esta prueba de ra´ız aplicada a los residuales estimados y una prueba de ra´ız aplicada a una serie observada cualquiera: 1. La primera diferencia importante reside en el hecho de que usted está aplicando la prueba a una serie que no es observada, si no estimada. Ello, implica que la prueba se puede equivocar por razones adicionales. El error puede provenir no de la prueba en s´ı, si no de diferencias debidas a que los residuales estimados no son idénticos a las innovaciones. La distribución de la prueba de ra´ız unitaria, por lo mismo, no es igual. Es necesario obtener nuevos valores cr´ıticos para llevarla a cabo. 2. Cuando vimos la prueba Dickey-Fuller, pusimos el e´ nfasis en la selección de componentes de tendencia deterministas. Dicha problemática no debe presentarse en una prueba de ra´ız sobre los residuales, pues e´ stos deber´ıan estar centrados en cero y no deber´ıa haber ningún elemento de tendencia determinista. As´ı, la prueba de ra´ız unitaria se suele hacer u´ nicamente con la especificación más sencilla de Dickey-Fuller, es decir, sin constante ni tendencia. Todas estas diferencias hacen que el nombre de la prueba ya no sea Dickey-Fuller; a la prueba de ra´ız unitaria sobre residuales se le conoce como prueba Engle y Granger, en honor a sus proponentes.

396

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Ejercicio 19 Simule tres variables integradas de orden uno: una variable xt ∼ I(1) con o sin deriva, como prefiera; dos variables yti para i = Coint, Indep. Una de ellas debe estar cointegrada con xt mientras que la otra debe ser independiente. Estime dos regresiones, una entre variables cointegradas, la otra entre variables independientes. Recupere los residuales y apl´ıqueles la prueba Engle y Granger. Realice las operaciones anteriores 1, 000 veces (es decir, ejecute un experimento de Monte Carlo). Compare la distribución simulada del estad´ıstico de prueba Engle y Granger con la distribución de la prueba Dickey-Fuller mostrada anteriormente en el curso. Es importante destacar que la comparación es mucho más ilustrativa si, en vez de comparar histogramas, compara percentiles. Los valores cr´ıticos de la prueba Engle-Granger son, por las razones antes expuestas, distintos. El siguiente cuadro, reproducido del libro de Walter Enders, página 441 T 50 100 200 500 50 100 200 500

1% Dos Variables -4.123 -4.008 -3.954 -3.921 Cuatro Variables -5.017 -4.827 -4.737 -4.684

5%

10 %

1%

-3.461 -3.398 -3.368 -3.350

-3.130 -3.087 -3.067 -3.054

-4.592 -4.441 -4.368 -4.326

-4.324 -4.210 -4.154 -4.122

-3.979 -3.895 -3.853 -3.828

-5.416 -5.184 -5.070 -5.003

5% Tres Variables -3.915 -3.828 -3.785 -3.760 Cinco Variables -4.700 -4.557 -4.487 -4.446

10 % -3.578 -3.514 -3.483 -3.464 -4.348 -4.240 -4.186 -4.154

Cuadro 11.3: Valores Cr´ıticos de la prueba Engle-Granger (fuente: Enders, 2004).

11.3.5. Mecanismo de Corrección de Error Como bien vimos en la sección anterior, dos—o más—variables cointegradas básicamente comparten el componente de tendencia estocástica. Ello redunda en una relación de equilibrio de largo plazo entre tales variables. Si observa nuevamente la figura (11.9) seguramente notará que dos series cointegradas se mueven de forma sincronizada a través del tiempo. No obstante, en esa misma figura deberá usted notar también que, en periodos de muy corto plazo, las variables pueden tener reaccio-

´ DE ERROR 11.3. MECANISMO DE CORRECCION

397

nes que las alejan de dicha relación de equilibrio de largo plazo. Tales alejamientos se deben a las innovaciones en el sistema (los choques).

0

100

200Cointegradas 300 400 Series

500

0

100 Series200Independientes 300 400

500

Figura 11.9: Series cointegradas e independientes

As´ı pues, las innovaciones tienden a degradar la “sincron´ıa” entre las variables cointegradas; la idea del MCE es que debe existir en la relación un mecanismo que permita corregir las desviaciones de corto plazo de la relación de equilibrio. La figura (11.10) refleja correctamente lo dicho hasta ahora. Note como las variables xt y yt tienen un comportamiento sincronizado a lo largo de toda la muestra (T = 500). Es cierto que la variable dependiente (azul) tiende a ser más volátil que la explicativa (verde), pero la tendencia de largo plazo es la misma. Por otra parte, cuando nos acercamos (panel b) y sólo tenemos en cuenta 50 observaciones, resulta evidente que los choques de corto plazo alejan ambas variables de su relación de equilibrio. Esto se manifiesta en las innovaciones (rojo); dichas innovaciones son concebidas, en este marco conceptual, como desequilibrantes.

Las matemáticas necesarias para establecer un MCE no han sido expuestas en este manual puesto que quedan fuera del material adecuado. Si bien no resultan especialmente complejas, s´ı requieren una presentación más detallada que no tiene cabida

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

398

(a) 80

Valor

60 40 20 0 0

50

100

150

200

250

300

350

400

450

500

Observación (b) 80 60 40 20 0 100 110 120 130 140 150

Figura 11.10: Variables cointegradas e innovaciones (xt en verde; yt en azul y; uyt en rojo): Panel (a) simulación (T = 500)de un proceso cointegrado. Panel (b) Acercamiento (sólo 50 observaciones) en el manual.27 No obstante lo anterior, partiremos de la siguiente base: las condiciones que aseguran que un sistema de dos o´ más variables está cointegrado son exáctamente las mismas que garantizan que dichas variables pueden representarse en un MCE. Este valioso resultado lo obtuvo Granger en 1987: Teorema 19 Representación de Granger: Para un conjunto cualquiera de variables integradas de orden uno, I(1), el modelo de Corrección de Error y el modelo de cointegración son representaciones equivalentes. 27

Para ello, se recomienda ampliamente utilizar un manual de econometr´ıa de series de tiempo.

´ DE ERROR 11.3. MECANISMO DE CORRECCION

399

La manera más sencilla de presentar el MCE es mediante un ejemplo: Ejemplo 21 Suponga que estamos interesados en la relación entre impuestos e ingreso: τt = α + βyt + ut , dónde τt representa la recaudación de un cierto impuesto y y el ingreso, ambos del periodo t = 1, 2, . . . , T . Finalmente, suponga que estudia las variables y estima la relación (por MCO) y obtiene lo siguiente: 1. τt ∼ I(1) y yt ∼ I(1), 2. α ˆ > 0 y βˆ > 0, 3. uˆt ∼ I(0). En otras palabras, las dos series son integradas de orden uno, existe una combinación lineal entre ellas que resulta ser integrada de orden cero (cointegran) y los parámetros son todos positivos. El obtener evidencia de cointegración permite confiar en que la regresión representa la ecuación de equilibrio de largo plazo. Ello implica que impuestos e ingreso mantienen un v´ınculo fort´ısimo. Dicho v´ınculo queda reflejado en la recta de regresión; las desviaciones de dicha recta (denotadas errores o innovaciones) sólo nos alejan momentáneamente de la relación de equilibrio, pero rápidamente algo se encargará de regresarnos a la recta. Ese algo es el mecanismo de corrección de error. Si las variables en niveles, τt y yt , son I(1), la primera diferencia de las mismas deberá ser I(0): ∆(τt ) ∼ I(0) y ∆(yt ) ∼ I(0). Eso ya lo sab´ıamos, pero ahora conviene estudiar desde otra perspectiva a la primera diferencia. Dicha diferencia, ∆(τt ) = τt − τt−1 por ejemplo, representa el cambio en los impuestos del periodo t − 1 al t. Si efectivamente existe una relación de equilibrio de largo plazo entre variables, entonces el cambio deber´ıa estar direccionado, al menos parcialmente, a la corrección del desequilibrio en el periodo pasado, ut : 1. Suponga que el desequilibrio en t − 1 es ut−1 > 0. Ello implica que τt−1 > α + βyt−1 . Sólo hay dos formas de empezar a corregir dicho desequilibrio (recuerde que β > 0): disminuimos los impuestos (∆τt < 0) o aumentamos el ingreso (∆yt > 0). As´ı, el mecanismo de corrección de error deber´ıa tener signo negativo para el ajuste via impuestos y positivo para el ajuste via ingreso.

400

´ CAPITULO 11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

2. Suponga que el desequilibrio en t − 1 es ut−1 < 0. Ello implica que τt−1 < α + βyt−1 . Nuevamente, sólo hay dos formas de empezar a corregir dicho desequilibrio (recuerde otra vez que β > 0): aumentamos los impuestos (∆τt > 0) o disminuimos el ingreso (∆yt < 0). Note como el mecanismo de corrección de error deber´ıa tener el mismo signo que en el caso anteior: negativo para el ajuste via impuestos y positivo para el ajuste via ingreso. Al MCE lo representa el error. La versión más sencilla del primero está en función u´ nicamente del segundo. Note que hay dos ecuaciones, una por cada variable cointegrada: ∆τt = ατ ut−1 + ǫτ,t ∆yt = αy ut−1 + ǫy,t Lo anterior corresponde a las ecuaciones de corto plazo (las ecuaciones que miden los ajustes de periodo a periodo) en oposición a la cointegrante, que suele ser considerada como la de largo plazo. Esta ecuación, si la estudia detenidamente, notará que en cada ecuación sólo aparecen variables estacionarias (I(0)). Lo anterior permite, entre otras cosas, llevar a cabo inferencia tradicional sobre ellas. En realidad, lo más importante en estas ecuaciones radica en el estudio de las αs, referidas usualmente como parámetros de velocidad de ajuste (por obvias razones). Es importante verificar que el signo sea el adecuado y tomar en cuenta si el parámetro es estad´ısticamente significativo (puesto que trabaja con variables estacionarias, puede utilizar el estad´ıstico t para ello). En el estudio de estos parámetros es justamente dónde se puede insertar el concepto de exogeneidad. Todo esto se ve en la siguiente sección. Recomendamos llevar a cabo el siguiente ejercicio antes de seguir avanzando. Ejercicio 20 Lleve a cabo la estimación sugerida en el ejemplo anterior usando datos para México. Dichos datos pueden ser descargados en la Secretar´ıa de Hacienda y Crédito Público (SHCP) y en el Instituto Nacional de Estad´ıstica y Geograf´ıa (INEGI). Como impuesto, use el impuesto al valor agregado (mensual); como ingreso, use el PIB (trimestral). Recuerde que el dato de recaudación de un mes corresponde a lo declarado el mes anterior, por lo que deberá rezagar toda la serie para que coincidan los periodos en medición. Busque eventuales transformaciones logar´ıtmicas con base en la prueba Ramsey-RESET; no olvide ajustar estacionalmente las series (puede usar el método X-12 ARIMA, disponible en GRETL). Busque evidencia de cointegración y estime el MCE. ¿Según sus cálculos cuál es la elasticidad-ingreso de los impuestos?

´ DE ERROR 11.3. MECANISMO DE CORRECCION

401

11.3.6. Probando exogeneidad débil Es finalmente, mediante el estudio de los signos que podremos saber si una variable es débilmente exógena. En nuestro ejemplo, deber´ıamos esperar, si existe realmente un MCE, que ατ < 0 y αy > 0. De esa forma, un error en el tiempo t − 1 ajustar´ıa en la dirección correcta ambas variables. Note que los signos correctos dependen, no solo de la variable sino también de los signos de los parámetros en la relación cointegrada. Por ejemplo, si β fuera negativa, habr´ıamos tenido que voltear los signos. El estudio de los parámetros αi , desgraciada y afortunadamente, no acaba ah´ı. Al estimar el MCE debemos ineludiblemente verificar que los signos sean los correctos, pero existen varias combinaciones posibles, algunas de ellas válidas. Lo anterior lo representamos en el siguiente cuadro: Caso 1 2 3 4 5 6 7 8 9

Signo ατ 0 0 =0

Interpretación αY >0 =0 =0 >0 0: Equilibrio en el cuadrante positivo bis, 0 < γ11 <

γ21 : β21

Equilibrio en el cuadrante positivo tris.

Los términos de error, u1 y u2 pueden concebirse como choques en las funciones de oferta y demanda. Resulta evidente que podr´ıamos incluir otras variables relevantes. No obstante, con objeto de hacer la presentación lo más didáctica posible, haremos caso omiso de ello inicialmente. Nuestro problema, como siempre es estimar los parámetros de interés, sólo que esta vez, los parámetros están repartidos en dos ecuaciones. Tomando en cuenta que disponemos de series de observaciones, una de precios y otra de cantidades, vale la pena recordar la dificultad inherente: ´ ¿C OMO E STIMAR D OS F UNCIONES D ISTINTAS A PARTIR DE UN S OLO ´ ? D IAGRAMA DE D ISPERSI ON Dicha dificultad ya la hab´ıamos abordado con detalle al principio del curso. Vale la pena repasar la sección que estudia los efectos de simultaneidad, as´ı como la figura al principio del cap´ıtulo de Variables Instrumentales, que repetimos en este apartado [figura (13.1)]. En esta u´ ltima, debe quedar claro la dificultad intr´ınseca de estimar dos ecuaciones cuando no tenemos información particular de una y otra. Más importante aún es la relación bi-direccional entre ambas variables de interés, el precio ´ y la cantidad. Estas se afectan la una a la otra y no parece haber forma de aislarlas. Como ya hab´ıamos visto, la solución consiste en aportar información adicional (en ese caso, nuestro modelo estructural deberá modificarse). Ahora bien, ¿qué tanta información deberemos añadir? Esa es la pregunta más dif´ıcil de contestar en el estudio de los modelos de ecuaciones simultáneas... Tan importante es que le adju´ dicaremos un nombre y lo estudiaremos con detenimiento: IDENTIFICACI ON

´ 13.3. EL PROBLEMA DE LA IDENTIFICACION

451

Figura 13.1: Ecuaciones simultáneas

yt

yt

xt yt

xt xt

13.3.

El problema de la identificación

Hemos ya probado que el problema de simultaneidad se da porque los términos de error, u1 y u2 , están relacionados con las variables que usamos como regresores (que no son exógenos, como debieran). Ello impide que la estimación por MCO sea consistente. Entender intuitivamente qué es la identificación resulta fácil. Si existe alguna manera de estimar una ecuación del sistema de manera consistente, entonces diremos que esa ecuación está identificada. Lo mismo aplica, obviamente, para cada ecuación del sistema. Por ello, la identificación debe hacerse, no de manera global, sino estudiando cada una de las ecuaciones de comportamiento de nuestro sistema.

13.3.1. ¿Qué es la identificación? En esta sección abordaremos con un enfoque más técnico la cuestión de la identificación. El poder obtener estimadores consistentes exige que usemos información apropiada; en este sentido es importante recalcar los siguientes elementos: No es un mero problema de método de estimación. Tampoco lo es, u´ nicamente, del tamaño de muestra. El objetivo es encontrar estimadores de parámetros estructurales interpretables a la luz de la teor´ıa económica.

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

452

El problema de la identificación puede plantearse muy sencillamente de forma matricial. Re-expresemos el sistema de ecuaciones antes propuesto de la siguiente manera: BYt + CXt = Ut Las nuevas matrices son:

1 β12 B = β21 1 y1t Yt = y2t γ11 C = γ21 u1t Ut = u2t Xt = 1

(13.1)

Asumimos además que: Ut ∼ iidN (0, Σ), donde Σ es una matriz de varianzacovarianza positiva-definida. V ar(Ut )

= = = def

=

E (Ut Ut′ ) 2 u1t u1t u2t E u1t u2t u22t 2 σ1 0 0 σ22 Σ

En lo que respecta la notación, es importante recalcar lo siguiente: 1. Yt : incluye u´ nicamente variables endógenas. 2. Xt : incluye u´ nicamente variables exógenas–o predeterminadas–entre las que se podr´ıa incluir tendencias deterministas, constantes, variables que satisfagan los requerimientos de los instrumentos. Por el momento sólo aparecen en ella las constantes.

´ 13.3. EL PROBLEMA DE LA IDENTIFICACION

453

Volvamos a reducir el sistema9 [es decir, encontremos las ecuaciones reducidas] sólo que esta vez lo haremos de manera más expedita: B −1 (BYt + CXt ) = B −1 (Ut ) Yt + B −1 CXt = B −1 Ut −1 Yt = |−B{z C} Xt + B −1 Ut | {z } Π

Vt

Y t = Π · Xt + V t

(13.2)

¿Qué hay con los nuevos residuales, Vt = B −1 Ut ? Vt ∼ iidN (0, Ω) La normalidad resulta obvia, puesto que se multiplica a algo normalmente distribuido por constantes. Lo “normal” tiene media cero; por ello, la esperanza no cambiará con la multiplicación. Aqu´ı lo importante es ver que es la matriz Ω. B = B

−1

Ut

1 β12 β21 1

1 −β12 = −β21 1 u1t = u2t

1 1 − β12 β21

Podemos reparametrizar la primera matriz: "

1 1−β12 β21 −β12 1−β12 β21

−β12 1−β12 β21 1 1−β12 β21

#

≡

b11 b12 b21 b22

Ahora s´ı, podemos estudiar los residuales: Vt = B −1 Ut u1t b11 b12 · = u2t b21 b22 b11 u1t + b12 u2t = b21 u12 + b22 u2t 9

Note que invertimos una matriz; ello implica que es cuadrada (e invertible). ¿Por qué estamos tan seguros de ello?

454

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

Finalmente, podemos calcular las esperanzas que nos interesan:

E (Vt ) = 0

h ′ i V ar (Vt ) = E B −1 Ut Ut′ B −1 ′ = B −1 Σ B −1 La ecuación en forma reducida muestra que cada variable endógena es función de TODOS los términos de error estructurales. Si tratamos de correr una de las regresiones basados u´ nicamente en una ecuación estructural, como ya lo vimos, tendremos la certeza de obtener estimadores sesgados e inconsistentes.

13.3.2. Más sobre la identificación La identificación es también, esencialmente, lo que requerimos para poder transitar del modelo reducido al modelo estructural, y en espec´ıfico a sus parámetros, una vez estimado el modelo reducido. Lo que a continuación se presenta es otra manera de entender ese puente. Recordemos nuevamente el sistema estructural BYt + CXt = Ut Con el sistema de ecuaciones que hemos venido utilizando ha quedado claro que, aún conociendo–más bien estimando–los parámetros del modelo reducido, Π, no hay manera de regresarnos a los parámetros que realmente nos interesan, es decir, las β’s y las γ’s. Para asegurarnos que el concepto de identificación, que de hecho es clave en econometr´ıa, sea correctamente entendido, todav´ıa podemos señalar lo siguiente. Consideremos el número de parámetros reducidos (vea la ecuación 13.2): sólo son dos. Consideremos ahora el número de parámetros estructurales (vea la ecuación 13.1): aún normalizando β11 = 1 y β22 = 1 nos quedan cuatro parámetros a estimar. Es importante recalcar que los parámetros reducidos pueden interpretarse como ecuaciones que están en función de los parámetros estructurales. Nos enfrentamos pues a la dif´ıcil, vaya, imposible tarea de resolver cuatro incógnitas con sólo dos ecuaciones. Ello redunda en una infinidad de matrices B y C que satisfacen Π = −B −1 C.

´ ´ INFORMACION 13.4. INCORPORANDO MAS

13.4.

455

Incorporando más información

Hasta ahora hemos utilizado un sistema de ecuaciones muy sencillo con objeto de entender claramente las cuestiones relativas a la identificación. Es momento de emplear una versión más compleja, que incluya más variables–exógenas o predeterminadas–en nuestras ecuaciones. Lo anterior, como pueden intuir con base en lo visto de Variables Instrumentales, permitirá resolver nuestro problema de identificación. El nuevo modelo que estudiaremos es:

y1t + β12 y2t + γ11 x1t + γ12 x2t = u1t β21 y1t + y2t + γ21 x1t + γ23 x3t + γ24 x4t = u2t Donde, como anteriormente, el sistema corresponde a un mercado; la variable y1 es el precio mientras que y2 es la cantidad. Las restricciones económicas lógicas son, esencialmente las mismas. Hemos incluido nuevas variables; x1 , podr´ıa representar la ordenada en el origen [lo que permite incorporar constantes en ambas ecuaciones]; x2 podr´ıa ser el ingreso de los consumidores que participan en ese mercado. Las restantes variables, x3 y x4 , podr´ıan representar cuestiones que afectan espec´ıficamente la producción, como podr´ıan ser, el nivel salarial, el concepto de ajuste de inventarios (véase cap´ıtulo anterior), etc. . . Las variables endógenas rezagadas, as´ı como las variables exógenas (sean e´ stas contemporáneas o bien estén rezagadas) forman el conjunto de variables predeterminadas. La propiedad fundamental compartida por todas radica en su independencia del término de error contemporáneo y futuro, es decir, que satisfacen el supuesto de predeterminación, el requerimiento de exogeneidad más laxo propuesto por la Cowles Commission (Vea la definición 17, página 358). De hecho, ser´ıa conveniente explicitar dicho supuesto:

E [yn,t−i , un,t+j ] = 0 ∀ n = 1, 2 i = 1, 2, . . . j = 0, 1, . . . E [xk,t−j , un,t+j ] = 0 ∀ k = 1, 2, 3, 4 j = 0, 1, . . . Huelga decir que la representación matricial antes propuesta, BYt + CXt = Ut también es válida en este caso. La diferencia estriba en las dimensiones de los distintos elementos:

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

456

1 β12 B = β21 1 y1t Yt = y2t γ11 γ12 0 0 C = γ21 0 γ23 γ24 u1t Ut = u2t

Xt = [x1t , x2t , x3t , x4t ]′

Podemos de nueva cuenta obtener la forma reducida de este sistema estructural, que es: Yt = −B −1 CXt + B −1 Ut Yt = ΠXt + Vt Los coeficientes reducidos serán, en esta ocasión: Π = −B −1 C 1 γ11 γ12 0 0 1 −β12 = − γ21 0 γ23 γ24 1 − β12 β21 −β21 1 1 γ11 − β12 γ21 γ12 −β12 γ23 −β12 γ24 = − γ23 γ24 1 − β12 β21 −β21 γ11 + γ21 −β21 γ12 1 β12 γ21 − γ11 −γ12 β12 γ23 β12 γ24 = 1 − β12 β21 β21 γ11 − γ21 β21 γ12 −γ23 −γ24 Reparametricemos esta expresión:

Π =

Π11 Π12 Π13 Π14 Π21 Π22 Π23 Π24

Y volvamos, por un momento, a nuestra notación escalar:

´ 13.5. CONDICIONES DE IDENTIFICACION

457

y1t = Π11 x1t + Π12 x2t + Π13 x3t + Π14 x4t + v1t y2t = Π21 x1t + Π22 x2t + Π23 x3t + Π24 x4t + v2t En la expresión anterior es fácil verificar como la forma reducida hace que cada variable endógena sea función de todas y cada y una de las variables predeterminadas. Nuevamente, la cuestión relevante es saber si, una vez estimados los parámetros reˆ podemos regresar a los parámetros estructurales. Veremos como en esta ducidos, Π, ocasión s´ı podemos. Es conveniente empezar con los parámetros correspondientes a las variables endógenas. En este caso resulta muy fácil obtenerlos; basta con hacer las siguientes operaciones:10 β12 = −Π13 Π−1 23 β21 = −Π22 Π−1 12 Las anteriores expresiones denotan el tránsito entre los parámetros del modelo reducido y los del modelo estructural. Note que e´ stas se pueden interpretar como las restricciones que permiten dicho tránsito. Ya teniendo β12 y β21 es posible11 calcular 1 . De esta manera podremos recuperar γ12 , γ23 el inverso del determinante, 1−β12 β21 y γ24 . Para terminar, podemos calcular γ11 y γ21 despejándolas de las expresiones de Π11 y Π22 . As´ı, queda claro que el modelo de ecuaciones de este mercado, tal y como está especificado resulta en un sistema identificado: ambas ecuaciones están identificadas. Es importante hacer notar que, en otras especificaciones, podr´ıamos obtener una sola ecuación identificada. En buena medida, nuestro objetivo radica en que la ecuación que nos interesa esté identificada (las demás no nos interesan en demas´ıa). Sabiendo lo anterior, podemos estimar el modelo reducido y luego recuperar los parámetros estructurales.

13.5.

Condiciones de identificación

Resulta indispensable conocer con antelación si, en el sistema de ecuaciones que se pretende estimar, los parámetros de interés están identificados. Asuma, como 10

Si tiene paciencia, descubrirá que hay dos expresiones para obtener β12 ; la ecuación está de hecho sobre-identificada. 11 De hecho, tenemos un problema de sobre-identificación con respecto al parámetro β12 , que as al abordar también podemos obtenerlo al hacer: β12 = −Π14 Π−1 24 . al respecto ahondaremos m´ la–desgraciadamente no tan famosa como debiera–Cr´ıtica de Liu.

458

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

en las secciones anteriores, un sistema de ecuaciones estructurales con G variables endógenas. Podremos entonces expresarlo como BYt + CXt = Ut , donde t = 1, 2, . . . , T , dim(B) es (G × G), dim(C) es (G × K) y Yt , Xt y Ut son vectorescolumna de dimensiones (G × 1), (K × 1) y (G × 1), respectivamente. Estudiemos la matriz de parámetros B: 

  B= 

β11 β21 .. .

β12 β22

. . . β1G β2G . . . .. .

βG1 βG2 . . . βGG

    

Es importante recalcar que, a diferencia de los desarrollos anteriores, en este caso no normalizamos los parámetros.12 Es usual normalizar los parámetros que aparecen en la diagonal, es decir, reemplazar βii por uno para i = 1, . . . , G. Este modelo, BYt + CXt = Ut , puede ser escrito de forma más compacta aún. Definamos dos nuevas matrices. La primera, A, incluirá todos los parámetros, incluyendo aquellos que son cero según nuestro modelo original. Definiremos también la matriz Z, que contendrá todas las variables, endógenas, exógenas y predeterminadas:

A = [B C]  β11 β12 . . . β1G  β21 β22 β2G  =  .. . . . ...  . βG1 βG2 . . . βGG

γ11 γ21 .. .

γ12 . . . γ22 ...

γ1K γ2K .. .

γG1 . . . . . . γGK

    

De la matriz que contiene todas las variables, sólo describiremos una columna, la t-ésima: 12

Antes, por ejemplo, el parámetro que acompañaba a yi en la i-ésima ecuación era igual a la unidad.

´ 13.5. CONDICIONES DE IDENTIFICACION

459



Zt

 y1t  ..  .     yt  yGt  = =  xt  x1t   .   ..  xkt

Dejamos al lector la tarea de verificar que A × Zt = Ut . Por ahora seguimos proponiendo nuevas notaciones; denotemos αi al i-ésimo renglón de la matriz A. A manera de ejemplo, α1 Zt no es otra cosa más que. . . β11 y1t + β12 y2t + . . . + β1G yGt + γ11 x1t + γ12 x2t + . . . + γ1k xKt ´ E STRUCTURAL DEL S ISTEMA. Note que . . . es decir, L A P RIMERA E CUACI ON en esta representación del modelo, todas las variables, tanto endógenas como exógenas, aparecen en todas las ecuaciones. En ello difiere de los modelos que hab´ıamos usado como ejemplo. Necesitamos entonces establecer un sistema de restricciones que nos permitan representar el modelo tal y como lo especificamos originalmente (en el ejemplo anterior, no todas las exógenas aparecen en todas las ecuaciones. En otras palabras, algunos de los parámetros son restringidos a un valor igual a cero).

13.5.1. Restricciones de exclusión Para acabar de entender las condiciones de identificación, nos concentraremos en la primera ecuación del sistema. ¡E S I MPORTANT Í SIMO R ECALCAR QUE E STE E JERCICIO DEBE H ACERSE PARA CADA UNA DE LAS E CUACIONES! En otras palabras, se estrudia ecuación por ecuación el problema de la identificación (no se usa el sistema el sistema completo). En el ejemplo que hemos venido desarrollando, al igual que en los anteriores, no todas las variables están necesariamente presentes en cada ecuación estructural. Digamos por ejemplo que, en un modelo con tres variables endógenas (y1 y2 y y3 ), las primeras dos s´ı aparecen en las tres ecuaciones mientras que la tercera, y3 , sólo lo hace en las ecuaciones estructurales dos y tres. Lo anterior constituye una restricción que podr´ıamos expresar de la siguiente manera:13 13

Se elabora una expresión por cada restricción.

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

460



β11 β12 β13 . . . β1G γ11 . . . γ1k

    ·   

0 0 1 0 .. . 0





         = α1 ·       

0 0 1 0 .. . 0

= 0

        

´ DE EXCLUSI ON ´ . Note que La expresión anterior se conoce como R ESTRICCI ON tendremos bastantes de este tipo de restricción, varias para la primera ecuación del sistema as´ı como para las demás.

13.5.2. Restricciones homogéneas lineales Aprovechando la estructura de restricciones que acabamos de crear, podemos imponer además, a priori, restricciones que involucren dos o más elementos de α1 , Digamos que, en α1 , los coeficientes asociados a y2 y y4 son iguales [o as´ı lo creemos]. Esta restricción puede expresarse como: 

β11 β12 β13 . . . β1G γ11 . . . γ1k

     ·    

0 1 0 −1 0 .. . 0





          = α ·  1          = 0

0 1 0 −1 0 .. . 0

          

´ HOMOG ENEA ´ LINEAL . A esta expresión se le denomina R ESTRICCI ON

13.5.3. Reagrupando las restricciones estructurales Ya que tenemos todas las restricciones de la primera ecuación, reagrupemos todo en una matriz de restricciones, a la que llamaremos φ, con (G + K) renglones.14 Podremos entonces sintetizar todas las restricciones relativas a la primera ecuación: 14

¿Por qué?

´ 13.5. CONDICIONES DE IDENTIFICACION

461

α1 φ = 0 En donde, asumiendo que sólo existen las dos restricciones antes presentadas: 

     φ=    

 0 0 0 1   1 0   0 −1   0 0   .. ..  . .  0 0

El número de columnas es igual al número de restricciones, que denotaremos R. Por ende, las dimensiones de φ son las siguientes: dim(φ) = (G + K) × R

13.5.4. Restricciones entre el modelo estructural y el reducido Además de las restricciones sobre las que ya hemos hablado, que están derivadas a priori de la especificación del modelo estructural, existe otro tipo de restricciones; se trata de restricciones sobre los parámetros contenidos en α1 [seguimos en el caso de la primera ecuación] relativas a la relación entre los coeficientes estructurales y los reducidos. ´ L O ANTERIOR ES EL ELEMENTO FUNDAMENTAL PARA LA COMPRENSI ON ´ DESARROLLANDO . L AS RESTRICCIONES DE EXCLUSI ON ´ DE LO QUE SE EST A ´ AS Í COMO LAS LINEALES HOMOG ENEAS SON IMPUESTAS POR EL USUARIO . ´ DE ESTAS ´ ´ E NTRE M AS SE IMPONGAN , MENOS PAR AMETROS ESTRUCTURA ´ LES TENEMOS QUE RECUPERAR . S I EL N UMERO ES REDUCIDO HASTA EL PUNTO EN QUE COINCIDE CON LAS RESTRICCIONES — NO IMPUESTAS POR ´ ´ REDUCI NOSOTROS , SINO — QUE GENERA EL TR ANSITO DE LA ECUACI ON ´ DA A LA ESTRUCTURAL , ENTONCES HABREMOS OBTENIDO UNA ECUACI ON IDENTIFICADA . Para elucidar dichas restricciones, iniciemos el desarrollo con la expresión de los parámetros reducidos y hagamos unas cuantas manipulaciones:

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

462

Π = −B −1 C BΠ = −C BΠ + |{z} C = 0 |{z} G×K

(13.3)

G×K

BΠ + CIK = 0

Donde IK es una matriz identidad K × K. Recomendamos que verifique el resultado de esta expresión usando un ejemplo sencillo donde, por ejemplo, G = 2 y K = 3. Obtendrá un sistema idéntico al expresado en la ecuación 13.4. Ahora aprovecharemos una de las matrices antes definidas para dar una expresión alternativa; recuerde que A = [B C], la matriz que contiene todos los parámetros, posee las siguientes dimensiones: dim(A) = G × (G + K) Definamos la matriz W de la siguiente manera: Π W = IK Con base en lo anterior, podemos inferir rápidamente que dim(W ) = (G+K)×K. Podemos entonces expresar la ecuación (13.3) de la siguiente manera: A·W =0 lo que corresponde a:15

     15

β11 β21 .. .

β12 β22

. . . β1G β2G . . . .. .

γ11 γ21 .. .

γ12 . . . γ22 ...

γ1K γ2K .. .

βG1 βG2 . . . βGG γG1 . . . . . . γGK



Π11 . . . Π1K .. ...  .. .  .     ΠG1 . . . ΠGK · 0 0   1  . .. .  .. .. . 0 ... 1 



    =0   

Note que aqu´ı todav´ıa no normalizamos las β’s de las variables endógenas en la diagonal.

´ 13.5. CONDICIONES DE IDENTIFICACION

463

Note que, en realidad, lo que estamos haciendo corresponde al ejemplo en el que comprobamos la identificación de los parámetros; en ese caso lo hicimos usando la notación escalar; ahora empleamos la matricial. Estudiemos con particular atención los elementos del primer renglón del producto anterior: β11 Π11 + β12 Π21 + . . . + β1G ΠG1 + γ11 = 0 β11 Π12 + β12 Π22 + . . . + β1G ΠG2 + γ12 = 0 . .. . = .. β11 Π1K + β12 Π2K + . . . + β1G ΠGK + γ1K = 0

(13.4)

Dichas ecuaciones expresan T ODAS LAS R ESTRICCIONES QUE E XISTEN EN ´ ´ TRE PAR AMETROS E STRUCTURALES Y PAR AMETROS R EDUCIDOS DE LA ´ P RIMERA E CUACI ON . Llamémoslas, en su conjunto, REP ER1 [Relación entre parámetros Estructurales y Reducidos de la ecuación uno]. Lo anterior puede expresarse, matricialmente, de manera más elegante: REP ER1 : α1 W

13.5.5. Elucidando la identificación Como ya hemos señalado, la identificación en un sistema de ecuaciones simultáneas debe hacerse ecuación por ecuación. Hasta el momento, hemos logrado expresar de manera sencilla todas las restricciones que se imponen en una ecuación en particular, tanto las referentes a la especificación como las que surgen de la relación entre el modelo estructural y el reducido. Para poder saber si una ecuación dada está identificada, necesitamos juntar en una sola expresión todas las restricciones. Empecemos por recordar dichas restricciones: 1. Restricciones de exclusión y homogéneas lineales: α1 × φ 2. Restricciones REP ER1 : α1 × W Juntarlas en una sola expresión es fácil; basta con concatenar horizontalmente las matrices W y φ: dim=(G+K)×(K+R)

α1 ×

z }| { [W φ]

464

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

Para entender la manera en la que es posible averiguar si la ecuación está identificada debemos detallar más las dimensiones de esta meta-matriz de restricciones. Si dim(α1 ) = 1 × (G + K) y dim ([W φ]) = (G + K) × (K + R), entonces, la meta-matriz de restricciones será: dim (α1 · [W φ]) = 1 × (K + R) As´ı pues α1 [W φ] = 0 puede ser considerado como un sistema en el que aparecen K + R ecuaciones. Lo relevante ahora es saber cuantas incógnitas tenemos: E N LO QUE RESPECTA [W φ]: 1. Los elementos que aparecen en W son los que están en Π (los parámetros reducidos) as´ı como en una matriz identidad de dimensión K. En principio, conocemos la matriz Π o bien la estimamos, por lo que sus elementos no nos son desconocidos. Con respecto a la matriz identidad, pues, obviamente, ah´ı tampoco hay elementos desconocidos. 2. Por otra parte, las restricciones a priori sobre el modelo estructural, ya sean las de exclusión o las homogéneas lineales, fueron impuestas por nosotros En la matriz φ, por ende, tampoco hay elementos desconocidos. E N LO QUE RESPECTA α1 : Pues resulta evidente que es en este vector donde están todas nuestros elementos desconocidos; por una parte están los parámetros asociados a las variables endógenas, β1i ∀ i = 1, 2, . . . , G, y por otra están los que acompañan a las variables exógenas o predeterminadas, γ1j ∀ j = 1, 2, . . . , K. En este desglose deberá quedar claro que estamos buscando resolver K +G incógnitas mediante K + R ecuaciones. Si deseamos que la ecuación esté identificada, entonces el número de ecuaciones debe ser igual al número de incógnitas. No obstante, como generalmente normalizamos uno de los parámetros asociados a las variables endógenas, perdemos una incógnita, por lo que la condición de identificación es ligeramente menos dura. Las ecuaciones las construiremos con base en la matriz [W φ]. ´ DE S ER L INEALMENTE I NDEPENDIENTES D ICHAS E CUACIONES H ABR AN (el que dos de ellas, por ejemplo, no lo sean, implica que en realidad son sólo una ecuación) por lo que su número está directamente representado por el rango de e´ sta. As´ı, la condición de identificación puede ser expresada técnicamente como:

´ 13.5. CONDICIONES DE IDENTIFICACION

465

ρ ([W φ]) = G + K − 1

´ DE R ANGO, sólo puede ser impleEsta condición, conocida como la C ONDICI ON mentada en sistemas de ecuaciones relativamente chicos. Calcular el rango de la matriz [w φ] y satisfacer la condición exige que dicha matriz tenga G + K − 1 columnas independientes. Para que ello pueda suceder, lo primero que se debe cumplir es que la matriz tenga, cuando menos G + K − 1 columnas. Lo segundo que debe suceder es que esas columnas deben ser independientes. A la primera condición se ´ DE O RDEN [N ECESARIA –P ERO N O S UFICIENTE ]. le denomina C ONDICI ON Es muy fácil implementarla, basta con contar el número de variables exógenas, endógenas, y de restricciones presentes en la ecuación para saber si se cumple. Existen otras derivaciones análogas a la anterior para saber si una ecuación en un sistema de ecuaciones está o no identificada. No obstante, es importante tener claro que la que realmente cuenta es la Condición de Rango estudiada previamente.

13.5.6. Reglas prácticas La discusión anterior constituye una explicación detallada del procedimiento que permite saber si una ecuación en espec´ıfico, en un sistema de ecuaciones simultáneas, está identificada. En la práctica usaremos un procedimiento más sencillo. Para ello, necesitaremos, para variar, expander un poco la notación; aprovecharemos para recordar algunas que establecimos recientemente: 1. G: Número total de variables endógenas en el sistema 2. gi : Número total de variables endógenas en la i-ésima ecuación 3. K: Número total de variables predeterminadas (incluye exógenas, obviamente) en el sistema 4. ki : Número total de variables predeterminadas (incluye exógenas, obviamente) en la i-ésima ecuación Ahora daremos una versión en extremo sencilla de la condición de orden. Es impor´ DE O RDEN ES N ECESARIA PERO N O S UFI tante recordar que la C ONDICI ON CIENTE para asegurar la identificaci´ on de una ecuación):

466

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

Definición 27 En un modelo con G ecuaciones simultáneas, se dice que una ecuación satisface la condición de orden (es decir, está potencialmente identificada) siempre y cuando el número de variables predeterminadas que no aparecen en dicha ecuación (exclu´ıdas) no sea inferior al número de variables endógenas inclu´ıdas en esa misma ecuación, menos uno. Lo anterior se puede expresar más facilmente de la siguiente manera:

K − ki ≥ gi − 1

Si K − ki = gi − 1 se dice que la ecuación está—potencialmente—exáctamente identificada; Si K − ki < gi − 1 se dice que la ecuación está sub-identificada. Ahora veamos como trabajar con la condición de rango, que es, dicho sea de paso, ´ S UFICIENTE para asegurar la identificación de la ecuación. Una regla C ONDICI ON práctica—y sencilla—para la condición de rango es menos evidente. No obstante, proveemos la siguiente, extra´ıda del libro de Gujarati: Definición 28 En un modelo con G ecuaciones simultáneas, una ecuación está identificada si y sólo si es posible calcular al menos un determinante no nulo con base en las matrices de dimensiones (G − 1) × (G − 1) que se puedan formar con los coeficientes asociados a las variables (tanto endógenas como predeterminadas) exclu´ıdas de esa ecuación en particular pero inclu´ıdas en las demás. La explicación de ambas reglas resulta más fácil exponerla con base en un ejemplo. Usaremos una versión modificada del ejemplo expuesto en el libro de Gujarati, simplificado y adaptado—de diversas formas—a nuestro proceder habitual. Supongamos el siguiente sistema de ecuaciones: y1t + β12 y2t + β13 y3t + γ11 + γ12 x2t = u1t y2t + β23 y3t + γ21 + γ22 x2t + γ23 x3t = u2t β31 y1t + y3t + γ31 + γ34 x4t = u3t

(13.5) (13.6) (13.7)

Lo primero que haremos es “replantear” este sistema en una tabla que haga más fácil su lectura (vea la tabla 13.1). Empezaremos con la condición de orden de las tres ecuaciones:

´ 13.5. CONDICIONES DE IDENTIFICACION Ecuación y1 13.5 1 13.6 0 13.7 β31

y2 β12 1 0

y3 β13 β23 1

Constante γ11 γ21 γ31

467 x2 γ12 γ22 0

x3 0 γ23 0

x4 0 0 γ34

Cuadro 13.1: Representación de los parámetros de un sistema de 3 ecuaciones.

1. K − k1 = 4 − 2 = 2; g1 − 1 = 3 − 1 = 2 ⇒ K − k1 = g1 − 1: identificación exacta. 2. K − k2 = 4 − 3 = 1; g2 − 1 = 2 − 1 = 1 ⇒ K − k2 = g2 − 1: identificación exacta. 3. K − k3 = 4 − 2 = 2; g3 − 1 = 2 − 1 = 1 ⇒ K − k3 ≥ g3 − 1: sobreidentificación. Según esta regla, las dos primeras ecuaciones están exáctamente identificadas y la u´ ltima está sobre-identificada. Veamos ahora que dice la condición de rango. Debemos encontrar al menos un determinante no-nulo de las matrices 2 × 2 que se puedan formar con los coeficientes de variables exclu´ıdas en nuestra ecuación. Note que, en la primera ecuación, las u´ nicas variables exclu´ıdas en su especificación son x3 y x4 . Además, dichas variables s´ı aparecen en las otras dos ecuaciones. Ello implica que sólo podemos utilizar los coeficientes asociados a e´ stas para construir una matriz de dimensiones (G − 1) × (G − 1) = 2 × 2. Sólo es posible generar una matriz as´ı, y la denotaremos Θ: Θ =

γ23 0 0 γ34

Resulta evidente que el determinante de esa matriz no es cero, siempre y cuando γ23 y γ34 sean ambos distintos a cero: | Θ | = γ23 × γ34 6= 0 Ello implica que la matriz tiene rango completo: ρ (Θ) = 2

468

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

Con base en lo anterior podemos estar seguros de que la primera ecuación está exactamente identificada. Para concluir esta sección, es importante explicar la manera en que interactúan ambas reglas de identificación: 1. Si la condición de orden señala que una ecuación está exáctamente identificada y la de rango encuentra una o más sub-matrices (G − 1) × (G − 1) con determinante no nulo: la ecuación está exáctamente identificada. 2. Si la condición de orden señala que una ecuación está sobre-identificada y la de rango encuentra una o más sub-matrices (G−1)×(G−1) con determinante no nulo: la ecuación está exáctamente identificada. 3. Si la condición de orden señala que una ecuación está exácta/sobre-identificada y la de rango no encuentra una sub-matriz (G−1)×(G−1) con determinante no nulo: la ecuación está subidentificada. 4. Si la condición de orden señala que una ecuación está sub-identificada: la ecuación está subidentificada (no hace falta calcular la condición de rango). Ejercicio 26 Retome el ejemplo de esta sección y calcule la condición de rango de las otras dos ecuaciones. ¿Qué obtiene usted?

13.5.7. Variables Exógenas: algunas sugerencias Ya en las postrimer´ıas del estudio de ecuaciones simultáneas conviene presentar un ejemplo intuitivo para entender mejor los trucos de la modelación de sistemas de ecuaciones simultáneas. Se ha hablado muy poco de la distinción entre exógenas y exógenas en términos económicos (puesto que en términos econométricos, lo hemos hecho hasta el cansancio). Pensemos entonces en un ejemplo muy sencillo: un mercado de pescados en un pueblo costero.16 Tenemos, como siempre, oferentes, que son los pescadores, y demandantes, los habitantes del pueblo. Como siempre, también, tenemos observaciones a través del tiempo (¡diarias!) del comportamiento de dicho mercado. Como ya saben, resulta obvio que si especificamos el modelo de la siguiente manera, 16

Inspirado de un ejemplo que aparece en un documento de LC Adkins: http://www.learneconometrics.com/gretl/ebook.pdf.

´ 13.5. CONDICIONES DE IDENTIFICACION

469

qt = α + βpt , qt = γ + δpt ,

e´ ste no puede estar identificado. Debemos incluir variables exógenas. ¿Cuáles podr´ıan o, mejor dicho, deber´ıan ser tales variables? La definición de las variables exógenas no es trivial (volveremos a discutir esto más adelante). Pero en este mercado, hay candidatos cuyas caracter´ısticas son muy halagüeñas: 1. Variables exógenas que sólo afectan la oferta: pluviometr´ıa, e´ poca de vedas, condiciones del mar, tormenta (ésta podr´ıa ser dicotómica). Es razonable suponer que el deseo de comer pescado no está dictado por el clima; dicha variable sólo afecta, en principio, a los pobres pescadores. 2. Variables exógenas que sólo afectan la demanda: cristianos, como porcentaje del total, d´ıa de la semana, cuaresma (ésta también podr´ıa ser dicotómica). Es sabido que los miembros de la religión católica tienden a consumir más pescado en ciertas e´ pocas del año y también ciertos d´ıas. 3. Variables que posiblemente afecten tanto a la demanda como a la oferta: precio de la carne de res, precio del pollo, precio del cerdo, precio del avestruz, e´ poca del año (de hecho, si la veda coincide con la cuaresma, tales variables deber´ıan ingresar a esta lista),. . . Si bien estas variables muy posiblemente tengan efectos en el mercado de pescado, no es tan claro si afectan a la demanda, a la oferta o quizá a ambas. Si bien no se pretende descubrir el hilo negro del negocio de la pesca en esta corta subsección, si aspiramos a dejar claro que la búsqueda de las variables exógenas (y de hecho, también la discriminación entre endógenas y exógenas) es más dificil de lo que parece. En realidad, el e´ xito de la estimación de este tipo de modelos depende en gran medida del acierto con que se tomen estas decisiones. A manera de conclusión de este cap´ıtulo, señalamos tan solo lo siguiente: si se pretende estimar un sistema de ecuaciones simultáneas, es fundamental hacer el estudio de identificación de cada una de las ecuaciones. Una vez que se “sabe” que la ecuación que nos interesa está identificada, sólo falta estimarlas. Para ello, ya no necesitamos extendernos; basta con emplear el método que estudiamos extensamente: el sistema de ecuaciones estructural puede estimarse mediante el método

470

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

de Variables Instrumentales. Hay hartas variantes y refinamientos de dicho método, pero ello no impide que 2SLS permanezca como el método por excelencia en econometr´ıa ante cualquier problema de ortogonalidad.

13.6.

El efecto desplazamiento (“Crowding out”)

13.6.1. ¿Qué es el Crowding out? El efecto desplazamiento, o bien Crowding Out en inglés, se refiere a la relación que existe entre inversión privada e inversión pública. En pocas palabras, la primera podr´ıa reducirse (podr´ıa ser desplazada) si aumenta la segunda. Ello obedece a que la inversión pública se financia con deuda pública; lo anterior puede reducir los canales de financiamiento de los agentes privados y por ende forzarlos a invertir menos. Lo anterior implica una distorción en los mercados de fondeo. Cualquier inversión por parte del Gobierno habrá de ser financiada, (i) emitiendo deuda, (ii) imprimiendo dinero (y eventualmente generando inflación), y; (iii) aumentando impuestos. En cualquier caso, dicha inversión tendrá efectos sobre la inversión, pero también sobre el consumo privado (puesto que constituye un costo de oportunidad de esas variables).17 El efecto desplazamiento, no obstante, no está aceptado de manera unánime. Hay investigadores que consideran que la inversión pública tiene efectos positivos sobre la econom´ıa y que su relación con la inversión privada es más bien de complementariedad. En palabras de Felipe Fonseca:18 “... Existe un creciente consenso respecto al efecto positivo que genera la inversión pública en los procesos de crecimiento de las econom´ıas [...] Si bien el trabajo seminal de Barro (1990) sobre los determinantes del crecimiento económico, e´ ste obtien un impacto no significativo de la inversión pública en las tasas de crecimiento económico, [...] una serie de estudios han dado cuenta de resultados en el sentido opuesto [...] En dichos estudios, se argumenta que la razón para esperar un efecto positivo de la inversión pública en el crecimiento económico es la expansión de la capacidad productiva en un a´ rea o sector determinado.” Al margen de esta discusión, podr´ıamos intentar aprovechar nuestros recién adquiridos conocimientos en materia de ecuaciones simultáneas para elucidar el efecto crowding out en México. 17

Esta definición somera habr´ıa de ser expandida. Los elementos básicos fueron inspirados del art´ıculo de Wikipedia: http://es.wikipedia.org/wiki/Efecto_desplazamiento. 18 Ver Fonseca Hernández (2009).

13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)

471

13.6.2. Metodolog´ıa y datos La base de datos La infomación económica que utilizaremos ha sido extra´ıda del INEGI, Banco de México y de la Reserva Federal de los Estados Unidos19 , y comprende las siguientes variables: 1. Producto Interno Bruto (Ingreso): Y , 2. Producto Interno Bruto (Ingreso): Yp ,20 3. Consumo de Gobierno (Gobierno): Cg , 4. Consumo privado (Consumo): Cp , 5. Inversión privada (Inversion Privada): Ip , 6. Inversión pública (Inversion Pública): Ig , 7. Importaciones (Importaciones): M , 8. Exportaciones (Exportaciones): X, 9. Tasa de interés real de Cetes a 28 d´ıas (Tasa): i, 10. Ingresos tributarios (Impuestos): T , 11. Tipo de Cambio Real (TCR): RER, 12. Producto Interno Bruto de Estados Unidos (PIBeeuu): Y ∗ . 13. Crisis de 2008, variable dicotómica21 , (Crisis08), DU . La base de datos tiene una periodicidad trimestral y comprende observaciones para el periodo 2003 (primer trimestre) – 2011 (cuarto trimestre). Puede ser descargarda en: https://dl.dropbox.com/u/1307356/Arxius%20en%20la%20web/Cursos/EcuacionesSimultaneas.gdt Toda la información comprende datos que han sido ajustados estacionalmente y, si corresponde, están en pesos base 2003 (inclusive el PIB de Estados Unidos; sólo el tipo de cambio real no fue ajustado). 19

Base de Información Económica: http://www.inegi.org.mx/sistemas/bie/, Banxico: http://www.banxico.org.mx/ y FRED database: http://research.stlouisfed.org/fred2/. 20 Este PIB está construido sólo tomando en cuenta consumo e inversión. 21 La variable es igual a cero antes del segundo trimestre de 2008 y es igual a uno hasta el segundo semestre de 2009 (y cero después).

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

472 14.4

Inversión privada lnversión pública

Millones de pesos, base 2003 (en logs)

14.2 14 13.8 13.6 13.4 13.2 13 12.8 12.6 12.4 2003

2004

2005

2006

2007 2008 año

2009

2010

2011

Figura 13.2: Evolución de la inversión privada y la inversión pública Ejercicios Econométricos Separaremos el ejercicio econométrico en dos partes. En la primera, estableceremos un modelo bastante sencillo, lo que nos permite abordar de nueva cuenta el problema de la identificación de una manera aún más práctica. Empezaremos por diseñar un modelo muy sencillo: Cp,t + γ11 + β12 Yp,t = u1,t Ip,t + γ21 + β23 Yp,t + γ22 Ig,t = u2,t Yp,t + γ31 + β31 Cp,t + β32 Ip,t = u2,t

(13.8) (13.9) (13.10)

Note que, en este sistema de ecuaciones, estamos interesados particularmente en la segunda ecuación, la de la inversión privada. Resumiendo nuestra hipótesis, si existe un efecto de crowding out, el parámetro que acompaña a la variable de inversión pública, γ22 deber´ıa ser positivo (si plantea la ecuación despejando la variable de inversión privada, notará que el signo hace más sentido). Podr´ıamos utilizar las técnicas sugeridas en la sección anterior para decidir si la tercera ecuación satisface las condiciones de orden y de rango. No obstante, dejaremos eso “para después”. Intentemos estimar las ecuaciones en GRETL. Para ello, abra el programa y active la pestaña “Modelo”. La u´ ltima opción de esa pestaña refiere a ecuaciones simultáneas; dé “clic” en dicha opción. En el cuadro que aparece, seleccione “M´ıni-

13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)

473

mos Cuadrados en dos etapas” como método de estimación y capture las ecuaciones. Esta u´ ltima deberá quedarle como se muestra a continuación: equation equation equation endog Cp

Cp Ip Yp Ip

0 Yp 0 Yp Ig 0 Cp Ip Yp

Debe capurar la lista de variables endógenas después de las ecuaciones; el programa se encarga de elucidar las variables exógenas y/o predeterminadas. Si efectivamente está usando el programa GRETL, descubrirá rápidamente que e´ ste calcula automáticamente la condición de orden, misma que algunas de las ecuaciones aparentemente no logran satisfacer. Siendo esa condición necesaria (aunque no suficiente), deberemos pensar en una especificación mejor: Cp,t + γ11 + β12 Yp,t + γ12 Cg,t + γ13 DUt = u1,t Yp,t + γ21 + β21 Cp,t + β23 Ip,t + γ23 DUt + γ24 Yp,t−1 = u2,t Ip,t + γ31 + β32 Yp,t + γ33 DUt + γ25 Ig,t = u3,t

(13.11) (13.12) (13.13)

El nuevo sistema incluye ahora información de la crisis del 2008, que presumiblemente afectó a las tres variables, as´ı como el gasto público, que dejamos en la ecuación del consumo (deber´ıa, eventualmente, poder capturar los efectos sobre el consumo privado), etc. Note como fueron capturadas diversas variables exógenas/predeterminadas, con objeto de identificar las ecuaciones. Capture el nuevo sistema y trate de estimarlo.: equation equation equation endog Cp

Cp Yp Ip Ip

0 Yp Cg Crisis08 0 Cp Ip Crisis08 Yp_1 0 Yp Crisis08 Ig Yp

Esta vez las ecuaciones del sistema s´ı satisfacen la condición de orden, lo que permite, identificar los parámetros estructurales. Si estudia los valores de los parámetros estimados, notará que los signos corroboran la idea de que el gasto y la inversión públicos distorcionan y desplazan el consumo y la oferta privados. Limitaciones y otras posibilidades El ejemplo que se ha dado para ilustrar la estimación de un sistema de ecuaciones simultáneas tiene algunas limitaciones. En este manual se ha estudiado a fondo el

474

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

método de MC2E, por lo que fue este u´ ltimo el que usamos. No obstante, la ecuación de comportamiento del ingreso es, en realidad, bastante criticable. Por la forma en que construimos en ingreso, dicha ecuación corresponde en realidad a una identidad imcompleta. En otras palabras, tenemos un error de especificación notorio en la segunda ecuación. La solución obvia es reemplazarla por una identidad. Lamentablemente, el método de MC2E no permite tomar en cuenta identidades; para ello, ser´ıa necesario estimar el sistema usando máxima verosimilitud con información completa (MVIC). Puesto que esa técnica no se abordó, nos limitaremos a presentar los resultados usándola “ciegamente” en el programa. Nuevamente, habrá que cambiar la especificación: Cp,t + γ11 + β12 Yp,t + γ12 Cg,t + γ13 DUt = u1,t Yp,t − Cp,t − Cg,t − Ip,t − Ig,t = 0 Ip,t + γ31 + β32 Yp,t + γ33 DUt + γ25 Ig,t = u3,t

(13.14) (13.15) (13.16)

Es importante señalar que, si quisiéramos calculcar la condición de rango (o de orden), el procedimiento ser´ıa igual. Sólo recuerde que ahora los parámetros no los tiene que estimar, sino simplemente igualar a −1. La captura en GRETL deber´ıa verse as´ı:22 equation Cp equation Ip identity Yp endog Cp Ip instr const

0 Yp Cg Crisis08 0 Yp Ig Crisis08 = Cp + Cg + Ip + Ig Yp Cg Crisis08 Ig

El resultado es el siguiente (note que presentamos la ecuaciones de manera clásica): Cp,t = 912787 + 0.72Yp,t − 1.34Cg,t − 52684.7DUt Yp,t = Cp,t − Cg,t − Ip,t − Ig,t Ip,t = −1.39 × 106 + 0.4033Yp,t + 87635DUt − 1.63095Ig,t

(13.17) (13.18) (13.19)

Todos los parámetros son estad´ısticamente significativos a 5 % (la mayor´ıa lo son al 1 %). En cuanto a la bondad del ajuste, ambas R2 son superiores a 98 %. Los residuales de ambas ecuaciones superan las pruebas de homoscedasticidad y de normalidad (aunque no de autocorrelación). El parámetro que corresponde al efecto del gasto público sobre el consumo privado tiene el signo correcto. Lo mismo sucede con el caso de la inversión. Hay efecto desplazamiento. 22

No olvide cambiar el método de estimación.

13.6. EL EFECTO DESPLAZAMIENTO (“CROWDING OUT”)

475

Este ejercicio es muy sencillo y, sobre todo, emplea una base de datos demasiado corta (36 observaciones). Es obvio que puede mejorarse. No obstante, el resultado econométrico parece ser bastante robusto, aunque hay que tomar en cuenta los efectos que habr´ıa en nuestra apreciación del mismo si consideráramos la posibilidad de que algunas variables no fueran estacionarias. En todo caso, el grueso de la literatura referente a las ecuaciones simultáneas fue hecho antes de la revolución de las ra´ıces unitarias, por lo que, momentáneamente, haremos un paréntesis a ese respecto. A cambio de eso, se sugiere enfáticamente hacer los siguientes ejercicios. Ejercicio 27 Calcule tanto la condición de orden como la de rango a la ecuación de inversión privada de los tres sistemas de ecuaciones presentados en este cap´ıtulo. Ejercicio 28 La especificación utilizada es en extremo sencilla. Habrá notado que la base de datos contiene otras variables. Habrá notado también que ninguna de las variables está en logaritmos o bien que no hay mucho e´ nfasis en las cuestiones dinámicas (rezagos). Proponga y estime un mejor modelo, actualizando la base de datos, incluyendo eventualmente más ecuaciones y/o más variables exógenas. No olvide demostrar que la ecuación de inversión privada está identificada.

476

´ ´ CAPITULO 13. MODELOS DE ECUACIONES SIMULTANEAS

Cap´ıtulo 14 Ep´ılogo El material que presenta este curso queda, en lo esencial, inserto en el trascendental enfoque de la famos´ısima “Comisión Cowles”,1 cuyo nombre se deriva del hecho que la mayor parte de los que construyeron este paradigma, lo hicieron al amparo de dicha comisión, radicada en Chicago a finales de los años cuarenta as´ı como en los años cincuenta. La Comisión Cowles, en particular, sosten´ıa que la macroeconom´ıa es susceptible de ser representada por un sistema de ecuaciones simultáneas, generador de todas las variables. Entre los postulados principales de este enfoque destaca la distinción entre variables exógenas y endógenas y dicha distinción, como bien se ha visto, fue refinada en los años ochenta con objeto de incorporar en la metodolog´ıa econométrica la Cr´ıtica de Lucas. En cierto sentido, (i) la separación las variables exógenas y endógenas [como lo suger´ıa la Comisión Cowles], (ii) y la estructura causal impuesta en los sistemas de ecuaciones constituyen ambas decisiones a priori del econometrista. Más grave aún, y eso en correspondencia con el estado del arte de la e´ poca, ambas decisiones no pueden considerarse como falsables. Las cr´ıticas a la econometr´ıa propuesta por la Comisión Cowles no son pocas ni carecen de fundamento; vale la pena enumerarlas: 1. Tipificación de las variables: la clasificación entre variables exógenas y endógenas es, en ocasiones, arbitraria. 2. Cr´ıtica de Liu: es posible que existen muchas variables que deber´ıan ser inclu´ıdas en las ecuaciones de un sistema que, de hecho, no aparecen, puesto 1

Si bien sufre múltiples e importantes alteraciones debidas a las aportaciones más recientes en el campo.

477

´ ´ CAPITULO 14. EPILOGO

478

que el econometrista las omitió con objeto de lograr los requisitos de indentificación de la especificación. En palabras más llanas, es posible manipular arbitrariamente la especificación de una ecuación con el mezquino y vulgar interés de asegurar la identificación de los parámetros. 3. Cr´ıtica de Lucas: a este respecto, con objeto de no ser demasiado redundantes con lo que ya se ha dicho, sólo señalaremos que los modelos de ecuaciones simultáneas ten´ıan por objeto pronosticar los efectos de cambios en las variables exógenas sobre las endógenas (asumiendo por ejemplo que dichas variables exógenas corresponden a variables de control de alguna autoridad, como la tasa de interés de corto plazo o las tasas impositivas, etc.). No obstante, si hay alteraciones en las variables exógenas y los agentes–maximizadores– son capaces de preveerlas, modificarán su comportamiento. De ser cierto, los coeficientes estimados en un sistema de ecuaciones no puedan ser asumidos como independientes de los cambios en variables exógenas. La respuesta a esta cr´ıtica, como ya lo saben, vino dada por definiciones más precisas de la exogeneidad. La evolución reciente de la econometr´ıa se traduce en una vasta cantidad de propuestas las unas más sofisticadas que las otras. Destaca la hibridación de las técnicas de series de tiempo con la econometr´ıa, que ha dado pie a la macroeconometr´ıa moderna. Son los principios técnicos de esta ramificación as´ı como sus potenciales aplicaciones a cuestiones emp´ıricas, las que se estudian en los siguientes cursos:

E CONOMETR Í A DE S ERIES DE T IEMPO Y

M ACROECONOMETR Í A

Cap´ıtulo 15 Ejercicios (ii) P REGUNTA # 1 Preguntas de conocimientos generales: responda brevemente (cinco renglones, no más) a las siguientes preguntas: 1. ¿Qué efecto tiene la autocorrelación sobre los estimadores? 2. ¿Qué efecto tiene la heteroscedasticidad sobre los estimadores? 3. ¿En qué consiste el supuesto de Ortogonalidad? ¿Qué efecto tiene sobre la regresión cuando dicho supuesto no se cumple? 4. ¿Qué efecto tiene la multicolinealidad sobre los estimadores? 5. ¿Qué es un diagrama de Venn? 6. ¿Cuál es la diferencia entre el modelo estructural y el reducido? 7. ¿Cómo verificar´ıa si algunas variables son redundantes? 8. ¿Para qué sirve la prueba de Hausman? 9. ¿En qué consiste el método de estimación de MC2E? 10. ¿En qué consiste el método de estimación de MCG? P REGUNTA # 2 ¿Cuál es el caso más grave de los mencionados a continuación? 479

´ CAPITULO 15. EJERCICIOS (II)

480 Variable dependiente medida con error Variables explicativas medidas con error

P REGUNTA # 3 ¿Cuáles deben ser las propiedades de una variable instrumental si se quiere que e´ sta sea válida? Proporcione las condiciones técnicas; explique su significado (5 l´ıneas max.) P REGUNTA # 4 Cada pregunta vale 10 puntos. 1. ¿En que consiste el Método de Variables Instrumentales? 2. ¿Qué problema resuelve? 3. Si tuviera que aplicarlo con una regresión espec´ıfica, ¿Cómo lo ejecutar´ıa? 4. ¿Es importante el número de variables instrumentales adicionales que se incluyan en este método de estimación? P REGUNTA # 5 ¿Qué entiende usted por Granger-Causalidad? Detalle como especificar´ıa la prueba. P REGUNTA # 6 Asuma la siguiente relación entre xt y yt : yt = βxt + wt El problema es que nuestros datos están mal medidos: yt∗ = yt + uyt x∗t = xt + uxt uyt ∼ iidN (0, σy2 ), uxt ∼ iidN (0, σx2 ), wt ∼ iidN (0, σw2 ) Demuestre si este estimador es consistente o no.

481 P REGUNTA # 7 En clase se vio un estimador de Variables instrumentales en el que el número de columnas de la matriz Z, l , era igual al número de columnas de la matriz X . No obstante, también vimos que era posible que l > K . Pero no se demostró que, en ese caso, el estimador era consistente. Asuma la relación Y = Xβ + U en la que se cumplen todos los supuestos excepto el de ortogonalidad. Asuma también que dispone de una matriz Z de instrumentos válidos (recuerde que necesita los detalles técnicos). La fórmula de variables instrumentales cuando l > K es la siguiente (por cierto, para derivarla, basta con formular el estimador de M´ınimos Cuadrados Generalizados, pero e´ sta no es la cuestión): βÎV = (X ′ Z(Z ′ Z)−1 Z ′ X)−1 X ′ Z(Z ′ Z)−1 Z ′ Y | | {z } {z } Pz

Pz

= (X ′ Pz X)−1 X ′ Pz Y

Demuestre la consistencia de este estimador (no olvide los factores de normalización) P REGUNTA # 8 Explique que sabe usted de exogeneidad: a) En el sentido de la Comisión “Cowles” b) En el sentido de Engle, Hendry y Richard P REGUNTA # 9 Asumamos el siguiente modelo: Yt = b0 + b1 Xt + Ut X t = a 0 + a 1 Y t + a 2 Zt + V t Donde se cumplen los siguientes supuestos: E(Ut ) E(Ut2 ) E(Ut Uτ ) E(Vt ) E(Vt2 ) E(Vt Vτ ) E(Ut Vt )

= = = = = = =

0 σu2 0 0 σv2 0 0

´ CAPITULO 15. EJERCICIOS (II)

482

La persona encargada de las estimaciones sólo conoce la primera relación (la que tiene a Yt como variable dependiente) y por ende la estimará sin tomar en cuenta la segunda. ¿Qué supuesto de la regresión se rompe? Demuéstrelo, ¿Qué ocurrirá con los estimadores obtenidos? P REGUNTA # 10 Indique las condiciones que requiere satisfacer una variable para ser: a) Fuertemente exógena con respecto a otra, b) Súper exógena con respecto a otra P REGUNTA # 11 Considere el siguiente modelo, yt = α + β

∞ X

wi xt−i + εt , donde 0 < w < 1.

i=0

Resuélvalo de tal forma que obtenga una expresión que s´ı sea estimable. Comente acerca de las propiedades del término de error resultante. P REGUNTA # 12 Cuando se estima una especificación dinámica, ¿El cumplimiento de cuál supuesto es importante verificar? ¿Por qué? Justifique. P REGUNTA # 13 ¿En qué consiste la metodolog´ıa de General a Simple? Señale cuál es el principal argumento que aboga a favor de dicha metodolog´ıa. P REGUNTA # 14 ¿Cuál es la diferencia entre el modelo estructural y el reducido? P REGUNTA # 15 ¿Qué entiende usted por condición de Orden y Condición de Rango?

483 P REGUNTA # 16 ¿Cuál es, concretamente, la condición de orden? Calcúlela en el modelo siguiente: Y1t + β12 Y2t + γ11 X1t + γ12 X2t = U1t β21 Y1t + Y2t + γ21 X1t + γ23 X3t + γ24 X4t = U2t P REGUNTA # 17 ¿Qué efecto tiene la no-ortogonalidad entre variables explicativas y término de error sobre los estimadores? P REGUNTA # 18 Indique tres casos en los que se rompe el supuesto de ortogonalidad. P REGUNTA # 19 ¿Qué efecto tiene la multicolinealidad sobre los estimadores? P REGUNTA # 20 ¿Para qué sirve la prueba de Hausman? ¿Cuál es la lógica detrás de e´ sta? ¿Cómo se lleva a cabo? P REGUNTA # 21 Explique la Cr´ıtica de Lucas. P REGUNTA # 22 Suponga que se dispone de T = 120 observaciones de K = 7 variables explicativas, x1t , x2t , ..., xkt ,as´ı como de una variable dependiente, yt . Se sospecha que existe un rompimiento estructural en un cierto punto de la muestra, en la observación 40. Con base en esto u´ ltimo, se parte la muestra en dos; posteriormente se estima la regresión por MCO de la variable dependiente contra todas las demás (la primera puede ser considerada como un vector en el que sólo aparecen “unos”) usando: (i) todos los datos; (ii) sólo los datos de la primera parte de la muestra, y; (iii) sólo los datos de la segunda parte de la muestra. De cada regresión se obtienen las siguientes sumas de residuales al cuadrado (no necesariamente en el mismo orden): (1) 545, (2) 777 y (3) 1607.

´ CAPITULO 15. EJERCICIOS (II)

484

1. Indique cuál de las tres sumas corresponde a la regresión que empleó todos los datos. Justifique su respuesta (la explicación es lo que más importa) 2. Con la información proporcionada es posible hacer una prueba de cambio estructural. ¿Cuál es? 3. ¿Cuál es la hipótesis nula de esa prueba?, y ¿la alternativa? 4. ¿Cómo se distribuye el estad´ıstico bajo la hipótesis nula? 5. Calcule dicha prueba. 6. Si efectuó bien los cálculos, le debió salir un estad´ıstico de prueba tal que su p-valor es 0.006. ¿Acepta o rechaza la hipótesis nula? P REGUNTA # 23 Conteste las siguientes preguntas: 1. ¿Qué entiende usted por la hipótesis de expectativas racionales? 2. ¿Cuál es la propiedad que una variable debe tener, estad´ısticamente, para que la Cr´ıtica de Lucas no aplique? Explique. 3. Indique dos maneras de probar que la hipótesis de expectativas racionales se cumple. P REGUNTA # 24 Suponga que dispone de dos variables, xt y yt . Suponga además que, en una especificación lineal de tipo yt = α + βxt + ut tenemos evidencia de que la variable explicativa es débilmente exógena en el sentido de Engle, Hendry y Richard [es decir, con respecto al parámetro de interés, en este caso,β]. Con base en lo anterior, se lleva a cabo una prueba de estabilidad del sobre ambas variables ¿A qué conclusión llegar´ıa usted si? a) Se identifican cambios estructurales en xt pero no en yt b) Se identifican cambios estructurales en xt y en yt c) No se identifican cambios estructurales en xt ni en yt

485 P REGUNTA # 25 Suponga una variable yt que se genera de la siguiente manera: yt = β + uyt Donde β es un parámetro fijo y uyt representa las innovaciones que son iid con esperanza nula y varianza constante σu2 . El estimador de M´ınimos Cuadrados Ordinarios de Beta es y¯, es decir la media de la variable, cuya varianza poblacional es 2 σu , donde T es el tamaño de muestra. Un investigador algo necio insiste en estimar T ˆ la relación yˆt = βˆ1 + βˆ2 xt . Dicho investigador usa la clásica fórmula: βˆ2 x¯i. h β1 = y¯ − 2 Cabe recordar que la varianza poblacional de este estimador es: σu2 T1 + P (xx¯t −¯x)2 . Por simplicidad, asuma que la variable explicativa no es estocástica. Dado todo lo anterior, demuestre que: a) y¯ es, de hecho, el estimador de MCO de βˆ1 . b) El valor de la R2 en la regresión del econometrista. P REGUNTA # 26 En este ejercicio, las variables están centradas. Suponga que la variable dependiente se genera de la siguiente manera: yt = βxt + δzt + ut Pero el investigador es medio tarugo y sólo estima: yt = φxt + vt Suponga además que la variable xt es normal centrada en cero y con varianza constante σx2 ; estudie el comportamiento asintótico de φˆ bajo los escenarios: a) zt = ρxt + ωt , b) zt = ωt donde ut y wt son ruidos iid normales centrados en cero y con varianzas constantes, σu2 y σω2 , respectivamente. P REGUNTA # 27

´ CAPITULO 15. EJERCICIOS (II)

486

Suponga que las variables xt y yt se generan de la siguiente manera: yt = βxt + ut xt = µ x + w t x˜t = xt + vt vt = δ + γzt para g = u, w, z, gt ∼ iidN 0, σg2

Suponga además que el econometrista sólo tiene acceso a la variable x˜t y que pretende estimar la regresión: yt = βˆx˜t + ǫt a) ¿Es el estimador sesgado o insesgado? b) Calcule la consistencia del estimador. P REGUNTA # 28 Suponga que la verdadera especificación es: yt = βxt + ut donde yt y xt son variables centradas. Suponga además que se cumplen todos los supuestos de la regresión. Un avezado econometrista estima correctamente el modelo ˆ t + uˆt ] pero después se hace bolas y corre una segunda regresión: [yt = βx yt = γˆ yˆt + ǫt ˆ t] donde yˆt representa los valores estimados de la primera regresión [ˆ yt = βx a) ¿Cuál es su intuición? ¿Qué cree que arroje como estimador la segunda regresión? b) Demuestrelo. c) Proceda igual pero con variables no centradas y regresiones que incluyen la constante. ¡Aproveche el resultado anterior! P REGUNTA # 29

487 Suponga un modeloP yt = α + βxt + ut estimado por MCO. ¿Por qué podemos estar tan seguros de que uˆt = 0? Si en vez de ese modelo, usamos P yt = βxt + ut (¡sin que las variables estén centradas!), ¿se puede afirmar que uˆt = 0? Explique su respuesta. P REGUNTA # 30 Suponga el siguiente sistema de ecuaciones simultáneas: y1t = α1 + β1 x1t + β2 x2t + β3 y2t + u1t y2t = α2 + β4 x2t + β5 y1t + u2t y3t = α3 + β6 x1t + u3t

(15.1) (15.2) (15.3)

¿Está identificada la segunda ecuación? Proporcione sólo las condiciones necesarias. P REGUNTA # 31 Suponga que desea estudiar la relación entre xnt y ytn y emplea para ello el siguiente modelo: yt = βxt + ut donde yt = ytn − y¯n y xt = xnt − x¯n y la correlación entre las variables originales es cero: ρxn ,yn = 0 Demuestre que βˆ = 0. Ayuda: la fórmula del coeficiente de correlación es: P (zt − z¯)(wt − w) ¯ ρz,w = pP P (zt − z¯)2 (wt − w) ¯ 2

El resultado del ejercicio anterior puede generalizarse de la siguiente manera: Los estimadores (parámetros) asociados a un subconjunto de variables explicativas en una regresión [por ejemplo, βˆ3 y βˆ4 en la regresión yt = βˆ1 + βˆ2 x2t + βˆ3 x3t + βˆ4 x4t + uˆt ] serán iguales a cero si dichas variables asociadas (en el ejemplo ser´ıan x3t y x4t ) no están correlacionadas ni con la variable dependiente (yt ) ni con las demás explicativas (otra vez, en nuestro ejemplo, ser´ıan x1t y x2t ). Asuma, para el siguiente ejercicio, que se cumplen las condiciones de este resultado. Debe recordar además que, por construcción, los residuales de una regresión tienen una correlación igual a cero con las variables independientes.

´ CAPITULO 15. EJERCICIOS (II)

488

P REGUNTA # 32 Suponga que se estiman las siguientes regresiones: yt = α ˆ 1 x1t + α ˆ 2 x2t + uˆ1t yt = γˆ x2t + vˆyt ˆ 2t + vˆxt x1t = δx ˆvxt + uˆ2t vˆyt = βˆ

(15.4) (15.5) (15.6) (15.7)

donde yt = ytn − y¯n , x1t = xn1t − x¯n1 (no es una constante) y x2t = xn2t − x¯n2 . Demuestre que: 1. βˆ = α ˆ1 2. uˆ1t = uˆ2t P REGUNTA # 33 Suponga que estima el siguiente modelo: st = α + βrt + ut Dónde, St es el tipo de cambio peso/dólar, rt es el diferencial de tasas de interés entre México y Estados Unidos y ut es el término de error. ¿Cómo probar´ıa usted la presencia de autocorrelación? En caso de que encontrara evidencia de autocorrelación ¿qué har´ıa usted? P REGUNTA # 34 Defina los siguientes conceptos y ejecute los cálculos solicitados: 1. Estacionariedad débil. 2. Operador diferencia, ∆. Desarrolle ∆3 (xt ). 3. Orden de integración, I(d). Si xt ∼ I(1), ¿qué puede decir de ∆(xt )? 4. Operador rezago, L. Desarrolle (1 − 2L + 3L2 − 5L5 )xt . P REGUNTA # 35

489 Suponga que dos variables (xt y yt ) fueron generadas independientemente como procesos I(1) sin deriva. ¿Qué pasar´ıa si intentara usted estimar la regresión yt = α + βxt ? P REGUNTA # 36 Suponga que tiene usted datos de E.E.U.U. respecto al salario (w) de una población; sabe además, la edad (E) y el color de piel de cada individuo (con tres clasificaciones u´ nicamente: negro, blanco o moreno), el número de años de escolaridad y su promedio (escolar, también). ¿Qué problema le ve a la ecuación siguiente? wi = α + β1 Ei + β2 N egroi + β3 Blancoi + β4 M orenoi + ut Dónde las variables N egro, Blanco y M oreno son variables dicotómicas que valen uno si el individuo tiene la piel de dicho color y cero si no. Suponga que corrige el problema de especificación del inciso anterior. Explique ahora porqué la ecuación (corregida) sigue sin ser un buen modelo para determinar si hay dicriminación por salario en esa población. Proponga una especificación mejor con la información provista en este ejercicio; explique porqué es mejor su propuesta. P REGUNTA # 37 ¿Cierto o falso? Un econometrista corre una regresión entre dos variables (se incluye constante); todos los supuestos se cumplen, sólo que la variable dependiente está medida con error; el error es un ruido blanco centrado en cero con varianza constante. El estimador de la pendiente tiene sesgo. P REGUNTA # 38 Un econometrista corre una regresión entre dos variables (yt∗ = α + βxt + ut ); todos los supuestos se cumplen, sólo que la variable dependiente está medida con error; el error es un ruido distribuido como normal, con varianza constante y esperanza igual a µE 6= 0. ¿Hay consistencia en el estimador de β? Suponga que xt ∼ N (0, σx2 ), yt = α + βxt + ut , yt∗ = yt + Et y Et ∼ N (µE , σE2 ). P REGUNTA # 39 El padre de Juan tiene cinco hijos; les puso nombres raros: Diez, Veinte, Treinta, Cuarenta... ¿Cómo crees que se llama el quinto?

490

´ CAPITULO 15. EJERCICIOS (II) P REGUNTA # 40

Complete la siguiente serie: 7 = 5, 5 = 5, 10 = 4, 9 = 5, 15 = 6, 16 = 9, 100 = 4, 14 = . . . , 28 = . . .. P REGUNTA # 41 En este manual se explica la prueba Dickey-Fuller, misma que sirve para probar la hipótesis nula de ra´ız unitaria. Dicha prueba es muy sensible a cambios estructurales en la variable y por lo mismo, e´ stos deben ser incorporados a la prueba, de la misma manera que se incorporaron elementos deterministas, como la constante y la deriva. Suponga que el proceso que generó realmente los datos (PGD) es el siguiente: yt = µy + yt−1 + γy DUyt + uyt ,

donde µy = 0.14 y γy = 0.21 son parámetros, uyt ∼ N 0, 21 corresponde a las innovaciones, y t = 1, . . . , T con T = 500, es el tamaño de la muestra; DUyt es una variable dicotómica que vale cero si t < 251 y uno si t ≥ 251. uy0 = y0 = 0. 1. resuelva la ecuación del PGD, Note que le deber´ıa quedar la suma de la variable dicotómica con distintos rezagos. Si tiene dificultades resolviendo dicha suma, haga un ejemplo sencillo en una hoja con T = 10. Notará que llega a una suma fácil de interpretar. 2. Escriba el código de Matlab que permita realizar la siguiente variante de la prueba Dickey-Fuller (se asume que la variable dicotómica s´ı es conocida por el econometrista): ∆(yt ) = α + βyt−1 + φDUyt 3. Aplique la prueba a una variable generada iid, distribuida normalmente con esperanza cero y varianza igual a 2. ˆ 4. Recupere el valor numérico del estad´ıstico t asociado a beta. 5. Al haber modificado la regresión auxiliar de la prueba Dickey-Fuller, los valores cr´ıticos usuales para dicha prueba ya no sirven. Realice un Monte Carlo en el que genere la variable y bajo la hipótesis nula y obtenga los valores cr´ıticos del estad´ıstico tβ al 1 %, 5 % y 10 %. Es como calcular el histograma sólo que no se pide el gráfico. Se obtienen 500 réplicas del estad´ıstico de prueba, se ordenan de menor a mayor (el comando es “sort”) y se extraen las que corresponden a los percentiles solicitados (el comando es “quantile”). Recuerde que la prueba es una sola cola (la del lado negativo).

491 P REGUNTA # 42 Considere las siguientes siete situaciones: 1. Se estima la regresión yt = α + βxt + ut ; se sabe que σ 2 = (γxt )2 (γ es una constante cualquiera), 2. Se estima la regresión yt = α + β1 x1t + β2 x2t + ut ; se sabe que: a) x1t = θx2t + v1t , dónde v1t ∼ iidN (0, 1/3),

b) ut = φut−1 + v2t , dónde v2t ∼ iidN (0, 1/2). 3. Se estima la regresión yt = α + βxt + ut ; se sabe que E(xt ut ) 6= 0, 4. Se estima la regresión yt = α + βxt + ut ; se sabe que: a) zt ∼ I(1) para z = x, y,

b) ∃ una combinación lineal de ambas variables que resulta ser I(0). 5. Se estima la regresión yt = β1 x1t + β2 x2t + . . . + β7 x7t + ut ; se sabe que T = 7, 6. Se estima la regresión yt = α + β1 x1t + β2 x2t + ut ; se sabe que x1t ⊥x2t , 7. Se estima la regresión yt = α + βxt + ut ; se sabe que V AR(ut ) = K 4 , dónde K es una constante cualquiera. En algunas de estas situaciones la estimación de la regresión podr´ıa tener alguna(s) de las siguientes dificultades: a Hiperventilación, b Heteroscedasticidad, c Alopecia, d Micronumerosidad, e Cointegración, f Alopat´ıa,

´ CAPITULO 15. EJERCICIOS (II)

492 g No ortogonalidad, h Hipermetrop´ıa, i Regresión espuria, j Multicolinealidad, k Autocorrelación, l No hay ningún problema,

m El problema no aparece en ninguna de las opciones a-k, n ausencia de grados de libertad. Identifique, entre las siguientes opciones, la que identifica correctamente el problema de cada regresión: : [k], [i] y [h], [c], [e], [i], [m], [a] : [b], [j] y [k], [g], [e] y [l], [d], [l], [l] : [c], [f] y [i], [g], [b], [j], [m] y [n], [h] : [b], [j] y [k], [g], [e] y [l], [n], [l], [l] : [b], [k], [g], [e], [d], [l], [l] : [k], [j] y [k], [g], [e] y [l], [d], [l], [l] : [b], [j], [g],[l], [d], [l], [l] : [b], [j], [g],[l], [d], [i], [l] : [b], [a], [d], [i], [l], [l], [b] : [b], [j], [g], [e] y [l], [d], [l], [b] : [b], [j], [g],[l], [d], [m], [l] : ninguna de las anteriores. : Hay dos secuencias de respuesta correctas entre las once primeras. ¿Cuáles?

493 : Hay tres secuencias de respuesta correctas entre las once primeras. ¿Cuáles? : Hay tres secuencias de respuesta correctas entre las once primeras. ¿Cuáles? : Hay cuatro secuencias de respuesta correctas entre las once primeras. ¿Cuáles? : Hay cinco secuencias de respuesta correctas entre las once primeras. ¿Cuáles? : Hay seis secuencias de respuesta correctas entre las once primeras. ¿Cuáles? Tome en cuenta que, entre las 18 opciones que se ofrecen, sólo hay una respuesta correcta. P REGUNTA # 43 Suponga que la verdadera relación entre dos variables es la siguiente: yt = α + δxt + ut . Suponga además que se cumplen todos los supuestos habidos y por haber, por lo que los estimadores de MCO de α y δ son insesgados y consistentes. Ahora imagine que el econometrista comete un error de especificación y estima la siguiente regresión: ˆ t + vˆt . yt = βx Suponga, además, que: 1 P D 1. T − 2 Tt=1 xt → N (0, σx2 ), P P 2. T −1 Tt=1 x2t → σx2 , 3. xt ⊥ut (son ortogonales). D

P

Donde → quiere decir “converge a esa distribución” y “→” quiere decir “converge en probabilidad”. Note adem´ as que, para que se den esas convergencias, la primera √ suma debe ser dividida por T y la segunda por T . Ello quiere decir que ambas sumas crecen “a una cierta velocidad” proporcional a una potencia del tamaño de muestra. ˆ ¿Es consistente o inconsistente el estimador β? P REGUNTA # 44 Suponga que está frente a alguien que sabe mucha estad´ıstica pero nada de econometr´ıa. El estad´ıstico quiere justamente hacer un estudio de demanda por dinero y le pide consejo respecto a las pruebas que debe realizar y el o´ rden en que debe ejecutarlas. Escr´ıbale la lista, explicándole las razones del orden de las pruebas. De hecho, no escatime en explicaciones.

494

´ CAPITULO 15. EJERCICIOS (II)

Parte III Herramental matemático básico

495

Apéndice A Tendencia central y dispersión En primera instancia cabe recordar al famoso operador sumatoria. El s´ımbolo es la letra griega mayúscula Σ y la forma en la que la utilizaremos en este curso es: T X

Xt = X1 + X2 + X3 + .... + XT

t=1

Por lo general todas nuestras sumatorias irán desde que t es igual a 1 hasta T . Para simplificar un poco la notación omitiremos eso a menos que justamente la sumatoria cubra otro per´ıodo. Ahora procedemos a resumir algunas reglas fundamentales: sea κ una constante, 1. 2. 3.

P

P

P

κ=κ∗T κ · Xt = κ ∗ (Xt + Yt ) =

P

P

Xt Xt +

P

Yt

Con este operador podemos recordar algunos elementos básicos de estad´ıstica.

1. Media de la Variable aleatoria X: X ¯= 1 X Xt T 497

´ ´ APENDICE A. TENDENCIA CENTRAL Y DISPERSION

498

2. Variable en desviaciones: X

¯ Xt − X

¯ Xt − X X

¯ Xt − XT X X = Xt − Xt

=

= O

3. Medida de dispersión: la varianza V ar (X) = = = = =

1 T 1 T 1 T 1 T 1 T

X X

¯ Xt − X

2

¯ 2 − 2Xt X ¯ Xt2 + X X X ¯ 2 T − 2X ¯ Xt2 + X Xt X 2 1 X 2 X 2 2 Xt − 2 Xt Xt + 2 T T X 1 X 2 Xt Xt2 − T

4. Covarianza: 1X ¯ Yt − Y¯ Xt − X T X X 1 X ¯ ¯ Y¯ T = Xt Yt − Y¯ Xt − X Yt + X T 1X 1 X X = Xt Yt − Xt Y t − 2 T T 1 X X 1 X X X Xt Y + Yt t t T 2 T2 1 X 1X X = Xt Yt Xt Y t − T T

Cov(X, Y ) =

Apéndice B Operador Esperanza B.1. definición Buena parte del curso requerirá el cálculo de las esperanzas de estimadores con el objeto de conocer el eventual sesgo de los mismos. Si bien el operador esperanza ya ha sido inculcado en cursos anteriores, vale la pena darle una pequeña revisada. Si bien hay varias medidas centrales relevantes—media y moda por ejemplo, la que más usaremos es la media. Definición 29 El valor esperado de una variable aleatoria es:  P (X discreta)  x Xi Pi µ = E(X) =  R Xf (x)dx (X continua) x donde, Pi y f (x) fungen como ponderadores.

R

Cabe señalar que el s´ımbolo no es otra cosa más que una “S” estilizada.1 Lo anterior es una medida de tendencia central. También existen medidas de dispersión. Las que más usaremos son: la varianza y su ra´ız, la desviación estándar.

1

En tiempos de la invención del cálculo (Leibniz y Newton), dicho s´ımbolo no exist´ıa. Para explicitar una suma se escrib´ıa la palabra entera (SUMA). Posteriormente, se acordó una simbolog´ıa aceptada por todos.

499

´ APENDICE B. OPERADOR ESPERANZA

500

Definición 30 La varianza de una variable aleatoria es:

B.2.

σx2 = V ar(X) = E(X − µ)2  P 2 (X discreta)  x (Xi − µ) Pi =  R (X − µ)2 f (x)dx (X continua) x

Algunas reglas del operador esperanza

Conviene familiarizarse con el manejo del operador esperanza; entre otras cosas es necesario saber que, siendo a y b dos constantes: 1. E(aX + b) = aE(X) + b 2. E (aX)2 = a2 E (X 2 )

3. En lo que concierne a la varianza:

V ar (X) = = = =

E(X − µ)2 E(X 2 ) + µ2 − 2µE(X) E(X 2 ) + µ2 − 2µµ E(X 2 ) − µ2

As´ı, el operador varianza tiene sus reglas muy particulares. Suponga dos variables aleatorias, x e y, as´ı como dos constantes, a y b; entonces: a) V ar(axt + byt ) = a2 V ar(xt ) + b2 V ar(yt ) + 2abCov(xt , yt ) b) V ar(axt − byt ) = a2 V ar(xt ) + b2 V ar(yt ) − 2abCov(xt , yt ) c) V ar(a) = 0

Apéndice C La distribución normal La distribución normal también es conocida como distribución Gaussiana,1 pues tiene la forma de ese tipo de funciones, f (x) = a · exp− fórmula de la distribución normal es:

(x−b)2 2c2

. Concretamente, la

(x−µ)2 1 f (x; µ, σ 2 ) = √ exp− 2σ2 σ 2π

donde µ y σ 2 son la esperanza y la varianza de x, respectivamente. Es conocido que esta distribución tiene forma de campana (ver gráfico C.1). Cuando µ = 0 y σ 2 = 1, la distribución normal se denomina estándar.

La distribución normal es ubicua en estad´ıstica por diversas razones, entre las que destacan: (i) es muy tratable anal´ıticamente; (ii) es la distribución resultante del Teorema del L´ımite Central; (iii) su forma acampanada la hacen idónea para estudiar gran cantidad de fenómenos naturales. Existe una inmensa—y accesible—literatura que estudia esta distribución, por lo que sólo nos concentraremos en algunas de sus propiedades, particularmente las que nos pueden llegar a ser de utilidad.Destaca que los momentos son muy fáciles de obtener: 0 p E[x − µ] = σ p !! 1

Johann Carl Friedrich Gauss (1777-1855). Cient´ıfico Matemático (y f´ısico) de nacionalidad Alemana. Contribuyó de manera importante en los campos de la teor´ıa de números, la estad´ıstica, el análisis, la geometr´ıa diferencial, la geodes´ıa, la geof´ısica, la electrostática, la astronom´ıa y la o´ ptica.

501

´ NORMAL ´ APENDICE C. LA DISTRIBUCION

502

1.4

1.2

N(0,0.3)

1.0

N(0,1)

0.8

0.6

N(3,0.7) N(0,2)

0.4 N(0,4) 0.2

0.0

−6

−4

−2

0

2

4

6

Figura C.1: Ejemplos de Densidad Normal donde !! implica doble factorial: el producto de todos los enteros impares, por ejemplo: 7!! = 1 × 3 × 5 × 7 Destaca que s´ı la distribución normal está centrada en cero, los momentos impares serán siempre cero. (Destaca también, claro, que todos los momentos son función de la esperanza y la varianza, es decir, de los dos primeros momentos). La fuente de este apéndice es, por cierto, Wikipedia.

Apéndice D ´ Algebre matricial Este apéndice no pretende ser exhaustivo, ni mucho menos. Tan sólo habrá de ser considerado como un formulario ad hoc para efectos de este manual. En otras palabras, sólo presentaremos resultados que son u´ tiles para el desarrollo de los resultados de libro. Este apéndice se presenta a sugerencia de Juan Pablo de Bottom,1 a manera de teorema: Teorema 20 Sea A una matriz de K × K. Entonces, las siguientes 12 afirmaciones son equivalentes (es decir, cualquiera de ellas implica las restantes 6.):2 1. A es invertible, 2. | A |6= 0 (determinante distinto de cero), 3. ρ(A) = K (rango igual a K), 4. Las columnas y los renglones de A son linealmente independientes, 5. La u´ nica solución al sistema homogéneo Ax = 0 es la solución trivial x = 0, 6. El sistema Ax = b tiene una solución u´ nica para cada K-vector b, 7. El número 0 no es un vector caracter´ıstico (eigenvector) de A, 1

De hecho, e´ l lo escribió con base en Grossman (1995); Poole (2010). En realidad, una matriz invertible tiene muchas más propiedades. Por ejemplo, “la forma escalonada por renglones de A tiene K pivotes”, “v(A) = 0, (nulidad de A, ∼ núcleo/kernel)”, “A se puede expresar como el producto de matrices elementales”,. . . . No obstante, con las siete enumeradas tenemos suficiente. 2

503

504

´ ´ APENDICE D. ALGEBRA MATRICIAL

Apéndice E Independencia entre la varianza estimada y los parámetros MCO Para obtener el resultado de indepencia entre los parámetros estimados por MCO y el estimador de la varianza, empezaremos por definir claramente el objetivo, que es: h i 2 2 2 ˆ ˆ Cov(β, σ ˆ ) = E (β − β)(ˆ σ −σ ) = E βˆσ ˆ 2 − βσ 2 = 0

Note que ya omitimos las esperanzas de los estimadores, pues ya está probado que ambos son estimadores insesgados. As´ı, nuestro objetivo es demostrar que esa covarianza es cero. Como se puede ver del desarrollo anterior, necesitamos calcular 2 ˆ ˆ . De hecho, para que la covarianza sea cero, esta esperanza deber´ıa ser E βσ igual a βσ 2 . Eso es lo que vamos a probar:

i h ˆ 2 = E (X ′ X)−1 X ′ Y Uˆ ′ Uˆ T −1 E βˆσ Note que dividimos por T y no por T − K. El divisor correcto es el segundo, pero haremos abstracción de ello, para dejar más simples las especificaciones. Para deshacernos de todos los elementos estimados (todos los “gorros”) y del vector de la variable dependiente, (i) reemplazaremos Y por la verdadera especificación, y, 505

´ ´ 506 APENDICE E. INDEPENDENCIA ENTRE PARAMETROS Y VARIANZA (ii) haremos uso de nuestra famosa matriz idempotente, Mx = I − X(X ′ X)−1 X ′ , cuyas propiedades están explicadas en el curso (ver p. 142): ˆ 2 = T −1 E (β + (X ′ X)−1 X ′ U )U ′ Mx U E βˆσ = T −1 E (βU ′ Mx U + (X ′ X)−1 X ′ U U ′ Mx U = T −1 βσ 2 T + E (X ′ X)−1 X ′ U U ′ Mx U

Sólo resta obtener una esperanza. Note que en e´ sta sólo hay variables explicativas deterministas (de acuerdo con la primera parte del curso) y el término de error. Explicitemos la esperanza. P RIMERO, note que: dim (X ′ X)−1 X ′ U U ′ Mx U = K × 1

S EGUNDO, el término (X ′ X)−1 X ′ generar´ıa una matriz de K × T compuesta de expresiones dependientes u´ nicamente de X:   q11 q12 . . . q1T  q21 q22 . . . q2T    (X ′ X)−1 X ′ =  .. .. ..  ...  . . .  qK1 qK2 . . . qKT

No importa, para efectos de este desarrollo, la fórmula espec´ıfica de los elementos qij . Baste saber que son función exclusiva de variables explicativas deterministas. T ERCERO, podemos hacer lo mismo con el otro elemento determinista, Mx :   W11 W12 . . . W1T  W21 W22 . . . W2T    Mx =  .. .. ..  ...  . . .  WT 1 WT 2 . . . WT T

Al igual que en el caso anterior, lo importante es recordar que sólo hay variables explicativas en esa matriz. C UARTO, las matrices que sólo incluyen al término de error son:   u1 u1 u1 u2 . . . u1 uT  u2 u1 u2 u2 . . . u2 uT    U U ′ =  .. .. ..  , ...  . . .  uT u1 uT u2 . . . uT uT

507 y,

 u1  u2    U =  ..  .  .  

uT

Q UINTO, Al realizar el cálculo (X ′ X)−1 X ′ U U ′ (la primera parte), obtendr´ıamos una matriz de dimensiones K × T cuyo elemento i = 1, 2, . . . , K, j = 1, 2, . . . , T ser´ıa: T X

qit uj ut

t=1

S EXTO, al realizar el cálculo Mx U (la segunda parte), obtendr´ıamos un vector de dimensiones T × 1 cuyo i-ésimo elementos i = 1, 2, . . . , T ser´ıa: T X

Wit ut

t=1

´ S EPTIMO (y u´ ltimo), al multiplicar las dos expresiones anteriores, el resultado, ′ −1 ′ ((X X) X U U ′ Mx U ), es un vector de dimensiones T × 1, cuyo i-ésimo elemento ser´ıa: T X t=1

qit u1 ut

T X

W1t ut +

t=1

T X t=1

qit u2 ut

T X

W2t ut + . . . +

t=1

T X t=1

qit uT ut

T X

W T t ut

t=1

Note como, en el i-ésimo elemento (es decir en cualquiera) el término ui se multiplica por todos los demás términos ut y luego se vuelve a multiplicar por todos los términos ut . En otras palabras, sólo nos puede quedar (omitiendo q y W ): u i uj uk Si recordamos que el término de error es iid, no importan los valores de i, j y k; sean cuales sean, la esperanza de ui uj uk siempre será cero. Si i = j = k, el tercer momento de una normal centrada en cero es cero también. Lo mismo ocurre si i = j 6= k o bien i 6= j 6= k, etc. En otras palabras: 2 ˆ ˆ = βσ 2 E βσ

´ ´ 508 APENDICE E. INDEPENDENCIA ENTRE PARAMETROS Y VARIANZA Retomando la expresión de la covarianza, demostramos que e´ sta es igual a cero: ˆ σ Cov(β, ˆ 2 ) = βσ 2 − βσ 2 = 0 Note que lo que obtuvimos es independencia lineal. Los estimadores de la Varianza y los parámetros no están correlacionados. Afortunadamente para nosotros, tanto βˆ como los residuales, Uˆ se distribuyen normalmente. Bajo estas extraordinarias condiciones, ausencia de correlación implica independencia.

Apéndice F Origen de MCO: Legendre En este apéndice se reproducen las páginas de libro en las que fue propuesto por primera vez el método de M´ınimos Cuadrados Ordinarios. Se presenta la portada del libro “Nouvelles Méthodes Pour la Determination des Orbites des Comètes”, escrito en 1805 por Adrien-Marie Legendre, as´ı como las páginas del apéndice donde el método se detalla con gran claridad. Este libro fue digitalizado por Université de Strasbourg.1

1

http://num-scd-ulp.u-strasbg.fr:8080/327/

509

510

´ APENDICE F. ORIGEN DE MCO: LEGENDRE

Figura F.1: “Nouvelles Méthodes Pour la Determination des Orbites des Comètes”, A.M. Legendre (1805), Portada. Fuente: Université de Strasbourg http://num-scd-ulp.u-strasbg.fr:8080/327/.

511

Figura F.2: A.M. Página 72 del libro de Legendre

512

´ APENDICE F. ORIGEN DE MCO: LEGENDRE

Figura F.3: A.M. Página 73 del libro de Legendre

513

Figura F.4: A.M. Página 74 del libro de Legendre

514

´ APENDICE F. ORIGEN DE MCO: LEGENDRE

Figura F.5: A.M. Página 75 del libro de Legendre

Apéndice G MCO usando Excel 2007 Para poder estimar una regresión usando el programa Excel es necesario tener habilitado el módulo de Análisis de datos. Si no es el caso en su versión, ejecute los siguientes pasos: 1. Abra el programa Excel, 2. Con el ratón, seleccione la pestaña DATOS, 3. Coloque el ratón bajo H ERRAMIENTAS DE DATOS y dé clic con el botón derecho del ratón, 4. Seleccione P ERSONALIZAR BARRA DE H ERRAMIENTAS ..., 5. En el menú emergente, dé clic en C OMPLEMENTOS (opciones a la izquierda), ´ 6. En el menú emergente, dé clic en H ERRAMIENTAS PARA A N ALISIS , 7. Dé clic en I R ... y espere mientras se instala el módulo (siga las instrucciones). Una vez instalado dicho módulo, podrá observar como, en la pestaña DATOS apare´ DE DATOS . Si da ce una nueva opción, en el extremo derecho del listón: A N ALISIS ´ . Aparece clic ah´ı, aparece un menú emergente; una de las opciones es R EGRESI ON entonces un menú en el que debe usted indicar cual es la variable dependiente, la o las independientes, si desea que haya constante en la especificación,...

515

516

´ APENDICE G. MCO USANDO EXCEL 2007

´ Indice alfabético Determinante de una matriz, 42, 122, 168– Ajuste de Inventarios, 406, 435 172, 200 Autocorrelación, 44–46, 48, 57, 67, 101, 120, 190–193, 196, 203–205, 209– 211, 213–220, 226, 252, 254, 257, Ergodicidad, 352 Estabilidad, 252, 329, 341–343, 347, 382, 259, 288, 407, 408, 411, 413 383, 386, 388, 394, 396, 427 Autocovarianza, 353 Estacionariedad, 44, 48, 107, 108, 120, 190, 254, 351–353, 355, 369 Causalidad, 251, 329–335, 418 Estacionariedad estricta, 353 Coeficiente de correlación, 32–35, 146, Exogeneidad, 316, 329, 338–340, 346, 149, 172–175, 212, 213, 215 348–350, 383, 422, 428, 458 Exogeneidad Débil, 339–347, 349, 350, Cointegración, 350, 376–378 382, 423 Comisión Cowles, 30, 47, 338, 426, 428, Exogeneidad Estricta, 338, 382 457 Exogeneidad Fuerte, 345, 382 Condición de Rango, 445 Consistencia, 50, 54–56, 76, 77, 189, 190, Expectativas, 391–393, 399, 401 219, 223, 225–227, 251–254, 262, Expectativas Adaptativas, 403, 405–407, 414, 422 263, 266, 271–274, 277, 280, 284– 286, 297, 299, 302, 304, 312, 313, Expectativas Naives—hyperpage, 392, 399, 400 316, 318, 325, 326, 338, 349, 408– Expectativas Racionales, 414–416, 418– 411, 428, 431, 434 420, 422, 423 Consistencia temporal, 416, 417 Correlograma, 370 Granger-Causalidad, 287, 336, 337, 345, Cr´ıtica de Liu, 437, 457 346, 349, 382 Cr´ıtica de Lucas, 339, 340, 346, 383, 392, 420, 421, 423, 427, 457, 458 HAC (Matriz de Varianza-Covarianza RoCriterio de Información de Akaike, AIC, busta a la autocorrelación y a la 150, 337, 413 heteroscedasticidad), 226 Criterio de Información de Schwarz, SIC HCCME (Matriz de Varianza-Covarianza Robusta a la heteroscedasticidad), (BIC), 150, 337, 413 517

518

´ ´ INDICE ALFABETICO

Prueba RESET de Ramsey, 253, 288, 289, 226 291 Heteroscedasticidad, 45, 190–195, 203– 209, 214, 219, 220, 225, 226, 252, Ra´ız Unitaria, 369, 370 257, 288 Homoscedasticidad, 44, 48, 57, 67, 101, Rango de una matriz, 122, 131, 167, 177, 182 116, 120, 189–191, 197, 203, 205– Regresión espuria, 355 208, 220, 223, 252, 259, 391 Sesgo, 50, 52–54, 56, 57, 61, 62, 70, 72, Idempotencia, 133, 134, 143, 144, 484 73, 76, 77, 102, 124, 128, 129, Identificación, 281, 298, 306, 430–432, 133, 137, 138, 189, 190, 194, 203, 434, 435, 437, 439, 443, 444, 449, 206, 219, 223, 224, 227, 251– 458 254, 260–263, 266, 271, 277, 280, Instrumentos, 87, 213, 254, 286, 299, 300, 281, 284, 285, 301, 302, 314, 315, 304–306, 312–314, 316–318, 432 318, 338, 408, 410, 419, 428, 434 Instrumentos Débiles, 314, 315 Super Exogeneidad, 340, 346, 348, 382, Instrumentos Exógenos, 315 383, 423 M´ınimos Cuadrados Generalizados, MCG, Teorema de Gauss-Markov, 56, 61, 63, 193, 195, 196, 200, 202, 205, 206, 128–130, 151, 195, 206 214, 219, 313 Mejores Estimadores Lineales Insesga- Variables Instrumentales (Método), 286, dos, MELI, 61, 77, 128, 195, 206, 288, 297, 299, 300, 305, 306, 309, 252, 297 312–316, 318, 411, 430, 435, 450 Modelo Autoregresivo, 369 Modelo de Telaraña, 340, 341, 344, 392, 393, 399, 400 Modelo Estructural, 441, 443, 444 Modelo Reducido, 434, 437 Modelos de Corrección de Error, 350, 377 Observaciones aberrantes, 294 Ortogonalidad, 254, 257, 261, 263, 271, 277–279, 284, 286, 297, 301, 302, 312, 314, 318, 338, 391, 409, 411, 425, 428, 450 Parsimonia, 252, 401, 411, 412 Predeterminación, 435 Prueba de Sargan, 316

Bibliograf´ıa A LDRICH , J. (1995): “Correlations genuine and spurious in Pearson and Yule,” Statistical Science, 10(4), 364–376. B OX , G., AND G. J ENKINS (1970): Time Series Analysis: Forecasting and Control. San Francisco, Holden Day. B REUSCH , T., AND A. PAGAN (1980): “The Lagrange Multiplier Test and its Applications to Model Specification in Econometrics,” Review of Economic Studies, 47, 239–254. C HOW, G. (1960): “Tests of equality between sets of coefficients in two linear regressions,” Econometrica: Journal of the Econometric Society, pp. 591–605. DAVIDSON , R., AND J. M AC K INNON (1993): Estimation and inference in econometrics. Oxford University Press New York. D ICKEY, D., AND W. F ULLER (1979): “Distribution of the estimators for autoregressive time series with a unit root,” Journal of the American statistical association, pp. 427–431. E NDERS , W. (1995): Applied econometric time series. Wiley New York. E NGLE , R., AND C. G RANGER (1987): “Co-integration and error correction: representation, estimation, and testing,” Econometrica: journal of the Econometric Society, pp. 251–276. E NGLE , R., D. H ENDRY, 51(2), 277–304.

AND

J. R ICHARD (1983): “Exogeneity,” Econometrica,

E RICSSON , N., AND J. I RONS (1994): Testing exogeneity. Oxford University Press, USA. 519

520

´ BIBLIOGRAFIA

F ISHER , I. (1925): “Our unstable dollar and the so-called business cycle,” Journal of the American Statistical Association, 20(150), 179–202. ´ F ONSECA H ERN ANDEZ , F. (2009): “El impacto de la inversión pública sobre la inversión privada en México, 1980-2007,” Estudios Económicos, pp. 187–224. F RISCH , R. (1933): “Editor’s Note,” Econometrica, 1, 1–4. G OLDFELD , S., AND R. Q UANDT (1965): “Some tests for homoscedasticity,” Journal of the American Statistical Association, 60(310), 539–547. G RANGER , C. (1969): “Investigating causal relations by econometric models and cross-spectral methods,” Econometrica, 37(3), 424–438. (1981): “Some properties of time series data and their use in econometric model specification,” Journal of econometrics, 16(1), 121–130. G RANGER , C., AND P. N EWBOLD (1974): “Spurious regressions in econometrics,” Journal of econometrics, 2(2), 111–120. G RANGER , C., N. S WANSON , M. WATSON , AND E. G HYSELS (2001): Essays in Econometrics: Collected Papers of Clive WJ Granger. Cambridge University Press. G RANGER , C., AND A. W EISS (1983): “Time series analysis of error-correction models,” Studies in Econometrics, Time Series, and Multivariate Statistics, pp. 255–278. G RANGER IV, C., N. H YUNG , AND Y. J EON (2001): “Spurious regressions with stationary series,” Applied Economics, 33(7), 899–904. G REENE , W. (1997): Econometric analysis. Prentice Hall Upper Saddle River, NJ. G ROSSMAN , S. (1995): Multivariable calculus, linear algebra, and differential equations. Saunders College Pub. G UJARATI , D. (1988): Basic econometrics. McGraw-Hill New York. G UJARATI , D., AND D. P ORTER (2010): Econometr´ıa. McGraw-Hill New York. H AMILTON , J. (1994): Time Series Analisys. Princeton.

´ BIBLIOGRAFIA

521

H ANSEN , B. (1992): “Tests for parameter instability in regressions with I (1) processes,” Journal of Business & Economic Statistics, pp. 321–335. H AYASHI , F. (2000): Econometrics. Princeton University Press Princeton. H ENDRY, D. (1980): “Econometrics-Alchemy or Science?,” Economica, 47(188), 387–406. H ENDRY, D., AND G. A NDERSON (1977): “Testing Dynamic Specification in Small Simultaneous Systems: An Application to a Model of Building Society Behaviour in the United Kingdom,” Frontiers in Quantitative Economics, 3, 361–383. H ENDRY, D., AND G. M IZON (1978): “Serial correlation as a convenient simplification, not a nuisance: A comment on a study of the demand for money by the Bank of England,” The Economic Journal, 88(351), 549–563. H ENDRY, D., AND M. M ORGAN (1995): The Foundations of Econometric Analysis. Cambridge University Press. H ENDRY, D., A. PAGAN , AND J. S ARGAN (1984): “Dynamic Specification,” Handbook of Econometrics, 2, 1023–1100. H ENDRY, D., F. S RBA , AND S. Y EO (1978): “Econometric modelling of the aggregate time-series relationship between consumers’ expenditure and income in the United Kingdom,” The Economic Journal, 88(352), 661–692. H UME , D. (1740): A Treatise of Human Nature. (1748): An Enquiry Concerning Human Understanding. J EVONS , W. (1965): “The Theory of Political Economy, reprint of Jevons (1871),” New York: Kelley. J OHNSTON , J., AND J. D INARDO (1998): Econometric Methods. McGraw Hill. J OLLIFFE , I. (2005): Principal component analysis. Wiley Online Library. K IM , T.-H., Y.-S. L EE , AND P. N EWBOLD (2003): “Spurious Regressions With Processes Around Linear Trends or Drifts,” Discussion Papers in Economics. K LEIN , L., AND A. G OLDBERGER (1955): An Econometric Model of the United States, 1929-1952. North-Holland Pub. Co.

522

´ BIBLIOGRAFIA

L APLACE , P. (1814): A Philosophical Essay on Probabilities. L EAMER , E. (1983): “Let’s take the con out of econometrics,” American Economic Review, 73(1), 31–43. L ECHNER , M. (2006): “The Relation of Different Concepts of Causality in Econometrics,” Discussion Paper of the Department of Economics, University of St. Gallen. L EGENDRE , A. (1805): Nouvelles méthodes pour la détermination des orbites des comètes. F. Didot. L UCAS J R , R. (1976): “Econometric Policy Evaluation: A Critique.,” 1, 19–46. M ADDALA , G. (1988): Introduction to Econometrics. Collier Macmillan. M C C LOSKEY, D., AND S. Z ILIAK (1996): “The Standard Error of Regressions,” Journal of Economic Literature, 34(1), 97–114. M OORE , H. (1914): Economic Cycles: Their Law and Cause. The Macmillan company. M ORGAN , M. (1990): The History of Econometric Ideas. Cambridge University Press. N ELSON , C., AND C. P LOSSER (1982): “Trends and random walks in macroeconmic time series:: Some evidence and implications,” Journal of monetary economics, 10(2), 139–162. N EWEY, W., AND D. K ENNETH (1987): “West, 1987, A simple, positive semidefinite, heteroskedasticity and autocorrelation consistent covariance matrix,” Econometrica, 55(3), 703–708. ` N ORIEGA , A., AND D. V ENTOSA -S ANTAUL ARIA (2006): “Spurious Regression Under Broken Trend Stationarity,” Journal of Time Series Analysis, 27, 671–684. (2007): “Spurious Regression And Trending Variables,” Oxford Bulletin of Economics and Statistics, 7, 4–7. (2008): “Spurious Cointegration: the Engle-Granger test in the presence of Structural Breaks,” RePEc, 7, 1–7.

´ BIBLIOGRAFIA

523

P HILLIPS , P. (1986): “Understanding Spurious Regressions in Econometrics,” Journal of Econometrics, 33, 311–340. P INDYCK , R., AND D. RUBINFELD (1998): Econometric models and economic forecasts. McGraw-Hill New York. P OOLE , D. (2010): Linear algebra: A modern introduction. Brooks/Cole Publishing Company. R AMSEY, J. (1969): “Tests for specification errors in classical linear least squares regression analysis,” Journal of the Royal Statistical Society, 31(2), 350–371. R AO , C. (1952): “Advanced statistical methods in biometric research.,” . R EICHENBACH , H. (1971): “The Direction of Time. 1956,” Berkeley: University of Cali. S ARGAN , J. (1958): “The estimation of economic relationships using instrumental variables,” Econometrica: Journal of the Econometric Society, pp. 393–415. (1964): “Wages and prices in the United Kingdom: a study in econometric methodology,” Econometric analysis for national economic planning, 16, 25–54. S KYRMS , B. (1980): Causal Necessity: A Pragmatic Investigation of the Necessity of Laws. Yale University Press. S TOCK , J., AND M. WATSON (2003): Introduction to Econometrics, 2/E. AddisonWesley. S UPPES , P. (1970): A probabilistic theory of causality. North-Holland. T INBERGEN , J. (1939): “Statistical testing of business-cycle theories II. Business cycles in the United States of America, 1919-1932,” Geneva: League of Nations, Economic Intelligence Service, 1939. V ENTOSA -S ANTAULARIA , D. (2009): “Spurious regression,” Journal of Probability and Statistics, 2009, 1–27. ` V ENTOSA -S ANTAUL ARIA , D. (2006): “¿Qué es la Econometr´ıa?,” Acta Universitaria, 16(3), 47–65. ` V ENTOSA -S ANTAUL ARIA , D., AND J. V ERA -VALD E´ S (2008): “GrangerCausality in the presence of structural breaks,” Economics Bulletin, 3(61), 1–14.

524

´ BIBLIOGRAFIA

W HITE , H. (1980): “A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity,” Econometrica, 48(4), 817–838. (2001): Asymptotic theory for econometricians. Academic press New York. W RIGHT, P. (1928): The Tariff on Animal and Vegetable Oils. The Macmillan company. Y ULE , G. (1897): “On the theory of correlation,” Journal of the Royal Statistical Society, 60(4), 812–854. (1926): “Why do we Sometimes get Nonsense-Correlations between TimeSeries?–A Study in Sampling and the Nature of Time-Series,” Journal of the Royal Statistical Society, 89(1), 1–63.

Econometria I- Ventosa

Short Description

Description

Comments

We need your help!