Econometria-Casas

April 29, 2017 | Author: Nahum Chuco | Category: N/A
Share Embed Donate


Short Description

Descripción: Econometria...

Description

CAPITULO 1 EL MODELO DE REGRESIÓN LINEAL

1.1. EL ANÁLISIS DE REGRESIÓN 1.1.1 Interpretación El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión. Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”. La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson, quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma similar hacia la estatura promedio de la población. En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida como la media de Y condicional en X, a través de una relación funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el siguiente capítulo, y las observaciones muestrales de X e Y.

1

Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Econometría Moderna

El Modelo de Regresión Lineal

Una interpretación más moderna de regresión indica que la misma es cualquier aproximación de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X, siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o independientes (X), con el objeto de estimar la media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la relación entre el estudio de Galton y la definición moderna del término regresión. A menudo se confunden los términos regresión y correlación, los cuales están estrechamente ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de correlación pretende medir el grado de asociación lineal entre dos variables a través del coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se analiza una regresión se trata de estimar o de predecir el valor promedio de una variable (llamada explicada, dependiente o endógena) utilizando valores fijos3 de las variables explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior, puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un análisis de regresión, será posible predecir valores de la variable dependiente utilizando realizaciones de las independientes.

1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión? El análisis económico toma en consideración diversas variables en conjunto. La relación entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa que existe una relación negativa entre las dos variables y, para contrastar el modelo, se necesitará utilizar simultáneamente datos de ambas variables. Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de la siguiente forma: f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 )

(1.1)

2

El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento de dichas variables. Formalmente: ρ = Cov (Y , X ) (σ x )(σ y )

3

Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en otro capítulo. 4 Se puede expresar matemáticamente de la siguiente manera: 3(un − u+1) = (Q+1 − Q f ) , donde un y Qf indican que el producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural. 5 Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se utilizan en el estudio de las relaciones existentes entre éstas.

10

Econometría Moderna

El Modelo de Regresión Lineal

Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución condicional mientras que la marginal no se utilizará, por el momento. De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos indica que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el ingreso permanente. La función anterior expresa únicamente una relación matemática, sin embargo, y tal como se indicó en la introducción del libro, uno de los objetivos de la econometría es formular un modelo econométrico a partir de un modelo económico, para luego proceder a la estimación y comprobación del mismo a partir de los datos muestrales. En consecuencia, se debe transformar la función anterior en un modelo econométrico, por ejemplo consideremos el siguiente modelo de regresión lineal6: C = β 0 + β 1 r + β 2 Yd + β 3 w + β 4 Yp + µ

(1.2)

donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada (el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación indica la relación exacta entre la variable explicada (C) y las demás variables llamadas explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los β son conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos7, cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la variable independiente. El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una regresión puede interpretarse como la media condicional de Y dado X. Formalmente: E (C /r, Yd, w, Yp ) = f (Xi)

(1.3)

Un punto importante que debe notarse es que la estructura de la relación entre la variable explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse como una aproximación lineal de Taylor de un problema no lineal.

1.1.3

Definiciones Básicas

Una vez que hemos entendido el concepto de regresión como la modelación de la media condicional de una distribución de probabilidades es deseable realizar algunas definiciones básicas que vamos a utilizar a lo largo del libro. El modelo de regresión lo podemos plantear de manera general de la siguiente forma: 6

Este modelo será estudiado en el Capítulo III. Formalmente: ∂Y = β es decir, cada parámetro representa la derivada parcial de la variable dependiente con i ∂X i respecto a cada variable explicativa. 7

11

Econometría Moderna

El Modelo de Regresión Lineal

y t = β 1 + β 2 x 2t + β 3 x3t + ............. + β k x kt + µ t La variable Y que es aquella que condicionamos a los valores que adopte las demás variables (X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de cada una de las variables explicativas se pueden agrupar de manera separada y el efecto conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo que estamos haciendo es separar a la variable explicada en dos conjuntos: •

La parte sistemática o determinística que viene representada por :

β 1 + β 2 x 2t + β 3 x3t + ............. + β k x kt Esta es la parte que es sugerida por el investigador y establece una relación sistemática y de dependencia entre la variable explicada y las variables explicativas. Dado el concepto de media condicional de la regresión, la parte sistemática representa lo que en promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de media condicional, la predicción será aquel valor que esperamos tenga nuestra variable dependiente con mayor probabilidad. •

La parte aleatoria o estocástica que viene representada por el término de error ( µ ). Dado que la economía busca estudiar el comportamiento económico de las personas no podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un contexto estocástico debido a que existen muchos factores no controlables como los estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los descubrimientos de nuevos productos y tecnologías que pueden afectar de manera inesperada cualquier relación que queramos estimar. Estos factores pueden ser importantes en un momento determinado pero no afectan de manera permanente a la variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño. Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las variables que afectan la producto de manera sistemática (incluidas en la parte explicada de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño, nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más probable.

Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera: •

Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del producto bruto interno.



Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de

12

Econometría Moderna

El Modelo de Regresión Lineal

vida de las personas a través de la medición de ingresos y acceso a servicios básicos como la salud, educación, nutrición. Etc. •

Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores. Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos para realizar la recolección de la información a lo largo del tiempo. En el Perú son pocos los casos en donde se han construido estos paneles de datos. Sin embargo, empresas privadas han invertido en la construcción de estos paneles dado que proveen muy buena información acerca de cambios en los patrones de consumo e ingresos de las personas.

Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de los modelos que pretendamos estimar.

1.1.4 ¿Cómo obtener los parámetros? Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los parámetros verdaderos (los β ´s) son desconocidos. Por ello, debemos desarrollar una estrategia que nos permita realizar una estimación adecuada de los mismos. En este punto es conveniente tener claro el concepto de estimación. Un estimador se define como cualquier fórmula o función de los datos que permite obtener estimaciones de los parámetros desconocidos. Así, se deduce que una estimación es el valor numérico que resulta de la aplicación de esta función a un conjunto de datos muestrales específicos.8 Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los parámetros desconocidos por los estimadores correspondientes. Como estos no son los verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con las siguientes expresiones: Y = Xβ + u

modelo teórico



Y = X βˆ + e

(1.4)

modelo empírico

En este caso hemos optado por expresar el modelo de manera general donde X es una matriz que contiene todos los datos de las variables explicativas. Denotaremos al número de variables explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk. β es un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β ) 8

Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para todas las muestras posibles.

13

Econometría Moderna

El Modelo de Regresión Lineal

por su estimador ( βˆ ). De igual manera ocurre con los errores teóricos ( µ ) y los errores empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los parámetros. La estimación de los parámetros se deriva de un problema de predicción condicional. En dicho problema se observa la realización de un vector aleatorio X y se desea predecir la realización de una variable aleatoria Y. En este punto debemos introducir el concepto de función de pérdida, la cual recibe este nombre debido a que la presencia de un estimador implica que existe un predictor que trata de explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un problema de minimización de la siguiente forma: Min E [L (Y - P) / X] P

(1.5)

Observado Estimado Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la siguiente condición: 0 RV > LM (Berndt y Savin (1977)). Analicemos ahora un ejemplo adicional que ayude a entender la analogía e intuición detrás de los tres tests planteados. Consideremos nuevamente la estimación por máxima verosimilitud del parámetro β y el contraste de la hipótesis H0:f(β) = 0.

Considerando el gráfico anterior, si la restricción f(β) = 0 es válida su imposición no debe ocasionar una reducción considerable en el valor de la función de verosimilitud y, por tanto, el test de RV se basa en la distancia L(β! ) − L (β r ) . Por otro lado, si la restricción es válida,

f (β! ) debería ser cercano a cero (ya que el estimador de máxima verosimilitud es consistente), en este sentido, el test de Wald se basa en f (β! ) evaluando su distancia de cero. Finalmente, si la restricción es válida el estimador restringido debería ser cercano al valor que maximiza la

135

Econometría Moderna

Máxima Verosimilitud

función de verosimilitud por lo que el test Lagrange (LM) se basa en evaluar la pendiente de la función (score) en el estimador restringido.

5.6.6 Cómo se realiza la estimación en la práctica. En la primera parte de este capítulo se usó un ejemplo y se habló que una de las formas de realizar la estimación era a través de un proceso de tanteo. Este procedimiento es el que más se utiliza en la práctica. No siempre es posible obtener un estimador de forma analítica porque la forma de las funciones de probabilidad conforme se utilizan formas funcionales más complejas y distribuciones multivariadas los cálculos analíticos no son de fácil resolución y se requiere de métodos numéricos de aproximación para obtener los estimados de máxima verosimilitud. Estos métodos reciben en general el nombre de algoritmos de optimización. En general, son pasos ordenados a seguir que se repiten hasta lograr satisfacer ciertos criterios. Uno de los enfoques que más se utiliza es el de la resolución de problemas linealescuadráticos. Se considera a un problema de optimización con estructura lineal cuadrática, cuando la función objetivo es a lo más de grado dos en los parámetros a estimar, las posibles restricciones del problema son todas funciones lineales de los parámetros. La estimación analítica de este tipo de funciones es bastante sencilla. Este caso se presenta en las estimaciones econométricas del modelo lineal general por mínimos cuadrados ordinarios, puesto que al ser el modelo original un tipo de modelo lineal en los parámetros; la función a minimizar: sumatoria de errores al cuadrado, representará una función cuadrática (los parámetros a estimar estarán elevados a lo más al exponente 2). Sin embargo no ocurre algo similar en las estimaciones econométricas por máxima verosimilitud, en las que la función a maximizar: función de verosimilitud, adopta regularmente formas bastante complejas. En este último tipo de estimación econométrica (aplicando el método de máxima verosimilitud), la obtención analítica de los parámetros se hace imposible en determinadas funciones, en cambio, no ocurre algo similar en estimaciones por mínimos cuadrados, en ellas, aplicando las condiciones de optimización señaladas posteriormente, se puede llegar fácilmente a los parámetros deseados. Ante la dificultad que se presenta en la obtención analítica de los parámetros estimados usando las condiciones de optimización, se hace necesario utilizar una serie de procedimientos numéricos, denominados algoritmos, los cuales serán expuestos a continuación. Generalmente los problemas de optimización no lineal son resueltos por técnicas iterativas. Al tener una estimación, una nueva estimación es lograda por una regla dada, esta última constituye un mejoramiento de la inicial. Si este procedimiento tiene éxito, la estimación final satisfará todas las propiedades requeridas de la estimación inicial. Las reglas de estos procedimientos iterativos proveen las bases de la optimización no lineal particular. Existe un rango amplio de algoritmos posibles. Ellos difieren en el empleo de las derivadas parciales de la función; así, algunos requieren segundas derivadas, otros únicamente primeras derivadas, y otros más no las emplean. Los algoritmos basados en las primeras derivadas ofrecen la opción de calcular numéricamente los parámetros. La elección de un determinado algoritmo se encuentra directamente relacionado con el tipo de función a maximizar o minimizar. Estos métodos son muy eficientes y evitan muchas de las dificultades presentes en la estimación no lineal, evidentemente esto no implica que todos los problemas de optimización no lineal queden resueltos. Algunas de las rutinas están sujetas a

136

Econometría Moderna

Máxima Verosimilitud

problemas de ejecución quedando los resultados expuestos a malas interpretaciones, se hace necesario tener mucho cuidado en el manejo de dichos resultados. Existen varios tipos de algoritmos de optimización que están en función del problema a resolver y de la complejidad de la función a optimizar. Entre los más utilizados están los de descenso rápido (steepest descent), Newton-Raphson y el algoritmo del scoring. En verdad existen muchas variedades de los mismos que están diseñados para resolver problemas de la presencia de varios máximos o mínimos y otros problemas que pueden aparecer en la práctica. Para ilustrar la lógica de estos algoritmos utilizaremos el algoritmo del scoring. Este se define según la siguiente fórmula: −1 θˆn = θˆn −1 + [I (θˆn −1 )] S (θˆn −1 )

Según esta expresión vemos que el vector de parámetros a estimar (denotado por θ en la fórmula) es actualizado por una expresión que depende de la matriz de información y del score de la función log-verosímil. Expliquemos en detalle la lógica que está detrás de esta expresión. 1.

2.

3.

4.

En primer lugar debemos partir de un valor inicial del valor del parámetro. Este puede ser proveído por el usuario o por otro método de estimación. En modelos sencillos se puede empezar con valores calculados por ejemplo por el método de mínimos cuadrados ordinarios. Una vez que se tiene estos valores se calcula el valor del vector de score y la matriz de información. Como sabemos el score debe ser cero en el estimador de máxima verosimilitud. Partiendo de un valor inicial arbitrario es muy difícil que el score sea cero. Sin embargo, pensemos en la información que nos brinda el score. Si su valor es positivo quiere decir que estamos a la izquierda del valor máximo y por tanto debemos avanzar hacia la derecha de la función. El valor positivo del score precisamente nos indica en cuánto debemos avanzar hacia la derecha. Ahora bien, esta información es aún incompleta para ver cómo el salto a la derecha en el valor del parámetro se transforma en un aumento del valor de la función log-verosímil. Este pedazo de información faltante nos es brindada, en el caso de este algoritmo de optimización, por la matriz de información que es una medida de la curvatura de la función log-verosímil. Así vemos que de la multiplicación de estas magnitudes nos indican el grado de corrección que debe hacerse sobre el estimado inicial. Una vez que se obtiene el nuevo valor se vuelve a realizar la operación anterior. Si el score sigue siendo distinto de cero se procederá a realizar una nueva corrección del estimado. A cada repetición del proceso se le denomina una iteración. El algoritmo seguirá operando tantas veces como sea necesario. Como se mencionó en el paso 3, el algoritmo se repite tantas veces como sea necesario. Para decidir si se sigue realizando las iteraciones se compara el estimado obtenido en cada iteración con el obtenido en la iteración inmediata anterior. La decisión de continuar está relacionada a lo que se denomina criterio de convergencia. Este es proveído por el usuario, aunque la mayoría de programas utiliza el valor de 0.001 para decidir si el proceso se detiene o no. Esto quiere decir que si la diferencia de cada uno de los estimados con el obtenido en la anterior iteración es mayor a este valor, el proceso continúa. Si es menor, el proceso se detiene y el último estimado es el que se reporta como el estimado de máxima verosimilitud. Obviamente podría hacerse más pequeño el criterio de convergencia pero ello implicaría un costo en tiempo dado que sería necesario realizar más iteraciones. Como se puede ver, este método es una buena aproximación para obtener el máximo de una función.

137

Econometría Moderna

Máxima Verosimilitud

Los diferentes algoritmos difieren en la expresión que utilizan para multiplicar al score. Este nos indica la dirección hacia la cual debe moverse el valor del estimado. La ponderación que se le dé a ese cambio vendrá dado por el la magnitud por la que se multiplique. En el caso del algoritmo descrito lo que se utiliza es la matriz de información que nos da una medida de la curvatura de la función log-verosímil. La elección de otras magnitudes estará supeditada a criterios como la velocidad de convergencia y la forma y dificultad de la función a maximizar. Un gráfico nos puede ayudar a entender los pasos a seguir. En él se está representando la función log-verosímil. El eje horizontal contiene los valores posibles del parámetro. Por simplicidad estamos suponiendo que sólo estimamos un parámetro. El eje vertical mide los valores de la función log-verosímil.

En el gráfico se puede apreciar que iniciamos el proceso con un valor inicial θˆ0 y se calcula el score que estaría representado por la línea tangente a la función log-verosímil. Si el score es mayor a cero como nos indica la pendiente de la línea tangente ello implica que debemos movernos hacia la derecha tal como nos señala la línea a la derecha de θˆ0 . El proceso se repite hasta que se llegue al valor del parámetro que maximice la función log-verosímil, θˆmax .

5.6.7 A manera de conclusión. En este capítulo hemos revisado el planteamiento, estimación y propiedades del estimador de máxima verosimilitud. Entre los principales resultados encontrados podemos mencionar que este estimador parte del supuesto que la población se distribuye según una función de probabilidad específica y lo que se busca es, dada una muestra de datos, escoger el valor de los parámetros que haga que la probabilidad de ocurrencia de la muestra sea la máxima posible. De esta manera lo que se busca es que el supuesto inicial sea lo más creíble o verosímil posible. La literatura acerca de este estimador es extensa y de hecho podría elaborarse todo un texto acerca de las aplicaciones y propiedades del mismo. Sin embargo, ello escapa de los alcances de un libro de texto de pregrado como el actual. No obstante lo anterior, tener una idea general de las propiedades y principios detrás de este estimador es importante debido al uso cada vez más generalizado del mismo. La velocidad con la que se va avanzando en la rapidez de las computadoras han hecho mucho más factible realizar la estimación por este método además que muchos nuevos estimadores están basados en este principio.

138

CAPITULO 6 QUIEBRE ESTRUCTURAL

6.1. DEFINICIÓN DEL PROBLEMA El procedimiento normal al estimar una regresión bajo los supuestos del modelo lineal general (MLG), conduce a la obtención de coeficientes que representan estimados de los parámetros poblacionales de la regresión. Al estimar una ecuación de regresión múltiple y utilizarla para predecir observaciones futuras que no pertenecen al espacio muestral que dio origen al coeficiente estimado, se supone que los parámetros1 son constantes durante todo el periodo de estimación y de predicción2. Por lo general se supone que las distintas realizaciones o submuestras que conforman el espacio muestral total, son generadas por una misma estructura económica. Sin embargo, cuando se tiene sospecha o evidencia de la existencia de una variación estructural del sistema económico subyacente en algún momento del periodo muestral, se aplican las pruebas de cambio (o quiebre) estructural. De este modo, se verifica si dicha variación es lo suficientemente importante como para generar cambios en los coeficientes del modelo. Tomando en cuenta lo anterior, se puede definir como cambio estructural a la variación atípica del conjunto de observaciones, generada por una innovación o alteración en la estructura económica básica sobre la cual se sustenta la serie. Como se entiende, el concepto de cambio estructural está íntimamente ligado a la noción de estabilidad de parámetros ya que si se produce un quiebre, los parámetros no serán constantes para todo el periodo muestral. En términos más prácticos, el cambio estructural se genera en aquel período donde se detecta un quiebre pronunciado dentro de la evolución de la serie. 1

Nótese que son los parámetros los que se asumen como constantes bajo el supuesto de estabilidad y que los estimadores de dichos parámetros, sometidos a las pruebas de estabilidad deberán comportarse siguiendo este patrón. 2 Se supone estabilidad intertemporal de parámetros (parámetros constantes dentro del período de estimación y dentro del de predicción).

Econometría Moderna

Como se verá en las siguientes líneas, el cambio puede darse ser en el intercepto, en una o varias de las pendientes del modelo o en ambos y la solución para cada caso será particular (para ello definiremos las llamadas variables dicotómicas, binarias o dummies en intercepto o en pendiente). Las pruebas de detección, por otro lado, sí son aplicables de manera general puesto que para evaluar la existencia de inestabilidad de parámetros, en cualquiera de los tres casos, basta que exista una distorsión relevante (ya sea en intercepto, pendiente o en ambas) en la evolución del sistema, mercado o economía que se materializa en cambios en el modelo estimado. Todo ello implicaría que la hipótesis de inexistencia de quiebre se rechace. Tomando en cuenta los conceptos antes mencionados, resulta claro que la intuición del quiebre estructural tiene más sentido en series de tiempo que en modelos de corte transversal. Es más coherente imaginar que la serie de observaciones de la variable que introduce el quiebre lo experimenta a partir de una fecha a consecuencia del cambio estructural, que imaginar que entre distintas observaciones de un conjunto de datos de corte transversal se produzca una variación fuerte como consecuencia de un fenómeno semejante (cambio estructural). En todo caso, resulta prudente no descartar la posibilidad de evaluar la presencia de un cambio estructural en un modelo que contiene datos de corte transversal, ya que de hecho los resultados de estos modelos pueden indicar inestabilidad de parámetros. De hecho si uno agrupa las observaciones de corte transversal en orden ascendente o descendente tomando en cuenta una variable explicativa y encuentra que existe un quiebre estructural en un parámetro podría estar identificando la presencia de un valor de la variable independiente que altera la relación de comportamiento con la variable dependiente. Esto podría considerarse como un umbral a partir del cual la relación cambia. En el caso de los modelos de series de tiempo, existe un patrón predeterminado de ordenamiento: la sucesión temporal, no interesa si los valores de las variables explicativas aumenten o disminuyan, por el contrario, la existencia de ciclos enriquecerá el modelo puesto que si a pesar de ellos el coeficiente de determinación es alto, la regresión será representativa. Sin embargo, en los modelos de corte transversal, el criterio de ordenamiento de las observaciones depende del investigador y ese ordenamiento de hecho influye en los resultados de los tests de cambio estructural puesto que el “momento” (en este caso, la “observación”) en que se produce, y en última instancia, la presencia de quiebre dependerá del criterio de orden que se empleó. Es por esto que el presente capítulo se centrará únicamente en analizar el concepto de quiebre estructural desde la perspectiva de la modelación de series de tiempo. Tal como se indicó líneas arriba, existen dos tipos de quiebre estructural bien definidos y un tercero que nace de la combinación de los dos primeros. Específicamente: i) Quiebre en Intercepto: En este caso, los efectos sistemáticos que afectan a la variable dependiente y que el modelo no recoge, han sufrido un cambio (quiebre estructural) haciendo que el intercepto varíe. Esto implica que ha habido un cambio en el nivel autónomo manteniendo los efectos marginales (medidos por las pendientes). ii) Quiebre en Pendiente: A diferencia del caso anterior, las consecuencias del cambio estructural que no son recogidos por el modelo afectan a los efectos marginales (coeficientes de regresión). Es decir, los regresores afectarán en mayor o menor proporción (dependiendo si los coeficientes de regresión aumenten o disminuyan respectivamente) a la variable explicada a partir de la fecha de quiebre. Por ejemplo, en el caso de un modelo bivariado, la submuestra anterior al período de quiebre dará origen a una recta de regresión estimada con

Capítulo 6: Quiebre Estructural una pendiente distinta a la generada con las observaciones de la submuestra posterior a la fecha de quiebre. iii) Quiebre en Intercepto y en Pendiente: Si el cambio estructural conduce a observaciones que generan una recta de regresión estimada con distinta pendiente e intercepto a partir del período de quiebre. Es una combinación de los dos casos anteriores. Tal como se puede notar, el rechazo de la hipótesis planteada de estabilidad de parámetros no sólo depende de la existencia de quiebre. También se puede rechazar tal hipótesis cuando el modelo no está bien especificado y tal deficiencia conduce a que los efectos sistemáticos que no son recogidos por el modelo afecten al intercepto o a las pendientes cuando se consideran diferentes submuestras.

(a) Quiebre en Intercepto

(b) Quiebre en Pendiente

(c) Quiebre en Intercepto y Pendiente Figura 6.1 Los ejemplos clásicos que se emplean para explicar el proceso de quiebre estructural con modelos que incluyen series económicas son las etapas de transición entre épocas de guerra y de paz, de auge y depresión, de desastres naturales, de procesos hiperinflacionarios, y otros fenómenos que afecten significativamente a las variables empleadas en el modelo de regresión que se evalúa.

Econometría Moderna

EJEMPLO 6.1

Como caso ilustrativo se plantea un modelo bivariado en el cual se analiza en qué proporción el PBI peruano es explicado por las exportaciones. La presencia de quiebre estructural en intercepto y en pendiente es notoria. Observe el gráfico de la izquierda en la Figura 6.1. La recta de regresión estimada no recoge los efectos sistemáticos que afectan al PBI en 1987 y que implican una cambio en los regresores que afectan a las variables que explican al producto. Al realizar la prueba de estabilidad, se detecta la existencia de parámetros inestables. Tras correr la regresión para la submuestra anterior y posterior al quiebre, se obtienen estimados discrepantes y que reflejan el problema de cambio estructural. El rechazo de la hipótesis de estabilidad puede deberse ya sea a que la especificación del modelo no es lo suficientemente rica como para capturar la distorsión (y de hecho casi ocurre, puesto que para explicar al PBI por el método del gasto es prudente incorporar otras variables explicativas como el consumo, gasto fiscal, etc.), o ya sea que en 1987 la coyuntura económica del país haya experimentado fuertes fluctuaciones y cambios estructurales que se reflejan en la inestabilidad de los coeficientes del modelo. Así pues, el periodo de inestabilidad económica y pésima administración pública que experimentó el Perú durante la gestión de Alan García representa el escenario en el que ocurre este cambio estructural. La crisis del gobierno de Alan García a partir de 1987, en donde los niveles de inflación y recesión de la producción, así como el empeoramiento de la distribución funcional del ingreso, han registrado cifras nunca antes vistas en la historia económica peruana, explican el cambio estructural detectado en este ejemplo. Las estrategias usuales de modelos con crecimiento “hacia afuera” vía promoción de exportaciones, en particular manufactureras, y el alejamiento de modelos con crecimiento “hacia adentro” vía un proceso de sustitución de importaciones que expande la sustitución hacia industrias productoras de bienes intermedios y de capitales puede ser una justificación a la mayor importancia que empiezan a tomar las exportaciones como determinantes del producto. La instauración de organismos como PROMPEX es un claro indicador del interés del Gobierno por impulsar el desarrollo del sector exportador. Esto explica el porqué la pendiente de la segunda regresión es más empinada, es decir el coeficiente que acompaña a esta explicativa incrementa el efecto marginal que ésta tiene sobre la dependiente. 60000

60000

40000

40000

40000

20000

PBI

PBI

PBI

60000

20000

0

20000

0

0

1000

2000

3000 X

1896-1995

4000

5000

0 0

1000

2000

3000

4000

X

1896-1987 Figura 6.2

5000

0

1000

2000

3000

4000

X

1988-1995

5000

Capítulo 6: Quiebre Estructural

LS // Dependent Variable is PBI Sample: 1896 1995 Included observations: 100 Variable

Coefficient

Std. Error

t-Statistic

C X

-3535.998 7.563716

1013.423 0.509200

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.692448 0.689309 6951.661 4.74E+09 -1025.557 0.155067

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-3.489164 14.85412

Prob. 0.0007 0.0000 7417.541 12471.67 17.71327 17.76537 220.6449 0.000000

LS // Dependent Variable is PBI Sample: 1896 1987 Included observations: 92 Variable

Coefficient

Std. Error

t-Statistic

C X

-2015.186 5.184631

509.7807 0.288336

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.782253 0.779834 3443.638 1.07E+09 -878.8054 0.388793

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-3.953045 17.98120

Prob. 0.0002 0.0000 4492.371 7339.086 16.31007 16.36489 323.3237 0.000000

LS // Dependent Variable is PBI Sample: 1988 1995 Included observations: 8 Variable

Coefficient

Std. Error

t-Statistic

Prob.

C X

-43990.55 23.18801

20725.24 5.627127

-2.122559 4.120756

0.0780 0.0062

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.738911 0.695396 5347.436 1.72E+08 -78.87576 2.021519

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

41057.00 9688.967 17.38106 17.40092 16.98063 0.006211

Econometría Moderna

EJEMPLO 6.2

Otro ejemplo ilustrativo es el que a continuación se explica. Analice la evolución de la variación mensual del índice de precios al consumidor para el Perú entre 1979 y 2000.

Inflación en el Perú 1979-2000 180% 160% 140% 120% 100% 80% 60% 40% 20% 0% 2000

1999

1998

1997

1996

1995

1994

1993

1992

1991

1990

1989

1988

1987

1986

1985

1984

1983

1982

1981

1980

1979

-20%

Figura 6.3 Como se puede observar en el gráfico, la inflación en el Perú experimentó durante las dos últimas décadas de los noventas 3 etapas notoriamente demarcadas. La primera de ellas, entre 1979 y 1988, muestra un período relativamente estable con una inflación mensual promedio de 5.41 por ciento. Entre 1988 y 1990, con el gobierno de Alan García, se inicia un período de crisis, que en nuestros términos representa un fuerte shock exógeno. Al respecto, el financiamiento del déficit fiscal y los créditos a las empresas públicas y el Banco Agrario fueron las causas más importantes del crecimiento desmesurado de la base monetaria, lo que significó una inflación mensual promedio de 29.48. A partir de los noventas, la situación estabilizarse y se llega a recobrar la disciplina monetaria perdida durante los años precedentes, y que en su momento llevó a cometer vicios de intervención estatal en la actividad económica. A partir de 1992, el Banco Central de Reserva cuenta con su propia ley orgánica que le permite resguardar su autonomía, y de esta manera, evita los excesos que el gobierno pueda cometer con la política fiscal. El presente modelo se construye a partir de inflación mensual (inf), la cual se pretende explicar mediante el cambio mensual de M1 (cm1). La figura 6.4 muestra cómo durante los 3 períodos demarcados, la recta de regresión cambia de pendiente.

Capítulo 6: Quiebre Estructural

Ene 1979 - Mar 1988

Abr 1988 - Oct 1990

0.25

Nov 1990 - Dic 2000

2.0

0.25 0.20

0.20 1.5

0.15 1.0

INF

INF

INF

0.15 0.10

0.10 0.05 0.5

0.05

0.00 -0.1

0.00

0.0

0.1

0.2

0.3

0.0 0.0

0.2

CM1

0.4

0.6

0.8

-0.05 -0.2

1.0

-0.1

0.0

0.1

CM1

CM1

Figura 6.4

Dependent Variable: INF Method: Least Squares Sample(adjusted): 1979:02 1988:03 Included observations: 110 after adjusting endpoints Variable C CM1 R-squared Adjusted R-squared S.E. of regresión Sum squared resid Log likelihood Durbin-Watson stat

Coefficient

Std. Error

t-Statistic

Prob.

0.054921 0.027756

0.003693 0.044191

14.87256 0.628103

0.0000 0.5313

0.003640 -0.005586 0.027644 0.082535 239.6428 0.697555

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

0.056545 0.027567 -4.320778 -4.271678 0.394513 0.531262

Dependent Variable: INF Method: Least Squares Sample: 1988:04 1990:10 Included observations: 31 Variable C CM1 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

Coefficient

Std. Error

t-Statistic

Prob.

8.81E-05 1.218745

0.081107 0.269230

0.001086 4.526778

0.9991 0.0001

0.414043 0.393838 0.222627 1.437326 3.616546 2.391484

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

0.319522 0.285946 -0.104293 -0.011778 20.49172 0.000094

0.2

0.3

Econometría Moderna

Dependent Variable: INF Method: Least Squares Date: 08/28/01 Time: 15:08 Sample(adjusted): 1990:11 2000:11 Included observations: 121 after adjusting endpoints Variable C CM1 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

Coefficient

Std. Error

t-Statistic

Prob.

0.016192 0.165640

0.002910 0.048541

5.564291 3.412385

0.0000 0.0009

0.089130 0.081476 0.028974 0.099902 257.8197 0.608440

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

0.020413 0.030232 -4.228425 -4.182213 11.64437 0.000881

Tal como se observa en el primer cuadro de regresión, los resultados indican que la recta de regresión estimada no explica con un grado de ajuste alto a la variable dependiente. Si se divide el espacio muestral en dos subconjuntos diferenciados por el momento de quiebre, se logra entender porqué la estimación global (empleando todos los elementos de la muestra) no era robusta. Para cada subespacio muestral, los coeficientes de regresión cambian drásticamente. Tras realizar sendas regresiones, el coeficiente de determinación se ve incrementado notablemente comparado con el caso de la regresión global. Todas estas precisiones dan un claro indicio de la existencia de inestabilidad de parámetros o de cambio estructural.

Ahora que ya se tiene una idea general de la naturaleza y origen del problema del cambio estructural, se pasarán a tratar los métodos de detección de esta anomalía.

6.2. CÓMO DETECTAR UN CAMBIO ESTRUCTURAL 6.2.1 Test de Chow3 Una de las aplicaciones más comunes del test F es la evaluación de la existencia de cambio estructural. El test de Chow o prueba de estabilidad mediante el análisis de varianza, compara las sumas de errores al cuadrado (o suma de cuadrados residual) de modelos restrictos e irrestrictos para analizar la existencia de cambio estructural. Suponga que se evalúa la estabilidad de un modelo multivariado de k+1 regresores:

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k

3 Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol. 28, no. 3, pp 591 - 605. Esta prueba, si bien es conocida como test de Chow, fue discutida ocho años antes por C.R.Rao en “Advanced Statistical Methods in Biometric Research”, Nueva York: Wiley, 1952 y por Kullback y H.M.Rosenblatt en “On the Analysis of Multiple Regression in k Categories”, Biometrika, 1957, pp. 67-83.

• El primer paso para realizar el test consiste en tomar dos subconjuntos independientes del total de la muestra y correr una regresión con las mismas variables explicativas del modelo original. Cada subconjunto consta de n1 y n2 observaciones respectivamente. Así se obtiene: Yt = α1 + β11x1t + β12x2t + ... + β1kxkt + µ

t = 1,2,…,n1

Yt = α2 + β21x1t + β22x2t + ... + β2kxkt + µ

t = n1+1, … , N

En forma matricial:

 y1   X 1   β 1   µ1   y  =  X  β  + µ   2   2  2   2  • El segundo paso es construir la hipótesis sobre la cual se realizará la prueba estadística. Como es obvio, lo que se hará es analizar el comportamiento de los coeficientes de regresión de ambos modelos, y la hipótesis planteada implica la igualdad de dichos coeficientes para asegurar la estabilidad de los parámetros de regresión y por ende la ausencia de quiebre. Formalmente:

H0 :

 α1   α 2  β  β   11   21   β 12  =  β 22       M   M   β 1k   β 2 k 

H1 :

 α1   α 2  β  β   11   21   β 12  ≠  β 22       M   M   β 1k   β 2 k 

Matricialmente: Rβ = q

donde R = [I: -I]

y q=0

Es importante resaltar que la igualdad de coeficientes debe cumplirse para todos ellos a la vez, si al menos uno de ellos fuese diferente, entonces se aceptará la hipótesis alternativa. • Como tercer paso se construye el estadístico F tomando en cuenta la suma de cuadrados residual de cada uno de los dos subconjuntos y la suma de cuadrados residual de la combinación de ambos:

(∑ er2 − ∑ eu2 ) F=

∑ eu2

k

∼ F( k , n1 + n2 − 2 k )

(n1 + n2 − 2k )

donde :

∑e

2 u

=

∑e

2 1

+

∑e

2 2

(6.1)

Econometría Moderna

EJEMPLO 6.3 El procedimiento para evaluar el test consiste en examinar el valor del estadístico F que arroja el programa y contrastarlo con el de tabla. Si el valor es menor al de tabla, se acepta la hipótesis de estabilidad de los coeficientes, caso contrario se acepta la existencia de quiebre estructural. Sin embargo, al momento de realizar este test, es necesario introducir como insumo la fecha en que se presume se produce el quiebre. Esto es una desventaja puesto que si el número de observaciones es alto, la fecha de quiebre puede pertenecer a un subconjunto bastante amplio de esta muestra y realizar el test para cada período resultaría engorroso. Se sabe, sin embargo, que el quiebre se producirá en el período en el que el F tome el valor más alto. Este programa genera series (Y y X1) de 500 observaciones. El modelo autogenerado contiene una variable dependiente definida como Y = 0.5 + 0.3X1. Asimismo, se crea una serie y1 que contiene un cambio estructural en intercepto y en pendiente y sobre la cual se evaluará el quiebre estructural, tenga en cuenta el cambio radical en el intercepto introducido a partir del periodo 281 (el intercepto pasa de 0.5 a 20) y en la pendiente (de 0.3 a 0.7). Note que el programa subdivide la muestra total en dos submuestras e introduce la distorsión en el segundo intervalo (280 - 500), por lo tanto, el quiebre se producirá en el periodo 280. La ecuación EQ contiene al modelo libre de quiebre, por lo tanto el estimado obtenido tras ejecutar dicha regresión será el que se espera obtener tras eliminar el quiebre de la variable exógena. La ecuación EQD contiene el modelo que ha subsanado el quiebre pues introduce las dummies en intercepto y en pendiente. Si analiza esta regresión y compara los resultados con los obtenidos para el modelo “normal” (sin quiebre), notará que los valores son semejantes:

Modelo Real LS // Dependent Variable is Y Sample: 1 500 Included observations: 500 Variable C X1

Coefficient 0.500000 0.300000

R-squared Adjusted R-squared S.E. of regression F-statistic Prob(F-statistic)

Std. Error

7.65E-17 7.65E-18

1.000000 1.000000 1.71E-15 1.54E+33 0.000000

t-Statistic

6.54E+15 3.92E+16 Mean dependent var S.D. dependent var Sum squared resid Durbin-Watson stat

Prob.

0.0000 0.0000 0.560643 3.001924 1.46E-27 1.831856

Capítulo 6: Quiebre Estructural

Modelo con Quiebre LS // Dependent Variable is Y1 Sample: 1 500 Included observations: 500 Variable C X1

Coefficient 8.984574 0.892797

Std. Error

0.541397 0.054148

t-Statistic

16.59518 16.48806

Prob. 0.0000 0.0000

R-squared 0.353126 Mean dependent var 9.165048 Adjusted R-squared 0.351827 S.D. dependent var 15.03372 S.E. of regression 12.10352 Akaike info criterion 4.990985 Sum squared resid 72954.66 Schwarz criterion 5.007844 Log likelihood -1955.216 F-statistic 271.8560 Durbin-Watson stat 0.672825 Prob(F-statistic) 0.000000

Modelo con Dummies LS // Dependent Variable is Y1 Sample: 1 500 Included observations: 500 Variable C X1 D1*X1 D2

Coefficient 0.499156 0.292692 1.412031 19.48763

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

Std. Error

0.063505 0.006328 0.009560 0.095484

0.995058 0.995028 1.060017 557.3237 -736.6038 2.075011

t-Statistic

7.860112 46.25504 147.7077 204.0929 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Prob. 0.0000 0.0000 0.0000 0.0000 9.165048 15.03372 0.124538 0.158255 33291.60 0.000000

Observe cómo en el modelo con variables dummies, tanto el intercepto como la pendiente se acercan a los valores reales de los parámetros. En las últimas secciones del capítulo se describe detalladamente el álgebra matricial de este procedimiento. Si se deseara evaluar la presencia de quiebre para otras series, lo único que se debe hacer es modificar el programa en los comandos que hacen referencia a series autogeneradas, por ejemplo en lugar de trabajar con la series Y y X1 se abre el archivo de trabajo que contiene la información y se cargan las series a la ventana de programación. Así mismo, se deberá arreglar el tamaño de muestra que fue predeterminado en 500 observaciones para el ejemplo. Note que la separación en submuestras para generar el quiebre ya no será útil en este caso para generarlo, pero sí para curarlo. En este sentido, una vez ejecutado el programa y conocida la fecha de quiebre, se sabe a partir de qué periodo hacer que las dummies funcionen.

Econometría Moderna

∑e

2 r

= suma de cuadrados residual para todo el conjunto de datos (modelo restringido) . Esto se conoce como suma de cuadrados residual restringida y a través de ella se impone la restricción de igualdad de parámetros.

∑e

2 1

∑e

2 2

= suma de cuadrados residual para el primer subconjunto de datos. = suma de cuadrados residual para el segundo subconjunto de datos.

• En seguida se realiza el test y se compara el F estadístico hallado en el paso anterior con el F tabular con k y (n1 +n2 -2k) grados de libertad. Si el estadístico resulta ser menor al tabular entonces se acepta la hipótesis de estabilidad, caso contrario la consolidación de datos no tiene sentido, es decir, agrupar los subconjuntos para correr una regresión conjunta sería inútil puesto que los coeficientes difieren para cada submuestra. En muchos casos, esta evaluación se realiza para comprobar si al ampliar el tamaño de muestra, las nuevas observaciones suponen un cambio significativo con respecto al resto de la muestra. En estos casos, el tamaño del segundo subconjunto (n2) puede ser muy pequeño y ello haría imposible estimar el segundo de los modelos por falta de grados de libertad (n2-k) sería negativo puesto que n2 es muy pequeño). En el caso extremo en que n2 = k,

∑e

2 2

= 0 y por lo tanto, el estadístico quedaría

de la forma:

(∑ er2 − ∑ e12 ) F=

∑e

2 1

k

(6.2)

(n1 − k )

Esta expresión es válida para el caso en el que n2 < k como se verá en el test predictivo.

6.2.2 Test Predictivo para estabilidad4 Esta prueba es útil cuando el tamaño de muestra del segundo subconjunto es menor al número de regresores más uno (si k no incluye el intercepto), ya que bajo estas condiciones no es posible realizar la regresión del segundo modelo (con n2 observaciones) y consecuentemente no se puede obtener la suma de cuadrados residuales necesaria para realizar el test de la sección anterior. Como su nombre lo indica, la prueba inicia con la regresión del primer subconjunto de observaciones (de n1 elementos) para luego realizar, y sobre la base de estos resultados, predicciones para las n2 observaciones del segundo subconjunto. Una vez realizada la predicción, se prueba la hipótesis de que los errores de predicción tienen media cero en cuyo caso se rechazaría la presencia de un quiebre estructural. Dado que se espera que los errores de predicción tendrán un valor esperado nulo, se entiende que los valores predichos para el segundo subgrupo se aproximarán en promedio a los reales, en cuyo caso, los estimadores 4

Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol. 28, no. 3, pp 591 - 605.

Capítulo 6: Quiebre Estructural empleados para aproximar a la variable dependientes serán válidos y estables durante todo el periodo cubierto por la muestra total. En este sentido, el estadístico a evaluar será el siguiente:

(∑ e r2 − ∑ e12 ) F=



e12

( n2 )

∼ F n ,n − k ( 2 1 )

(6.3)

(n1 − k )

Como se observa, el estadístico se construye con n2 y n1-k grados de libertad puesto que el numerador está incluyendo de manera indirecta la suma de cuadrados residual del modelo predicho. Así mismo, y dado que el denominador sólo incluye a la primera submuestra, los grados de libertad se reducen al tamaño de la primera submuestra menos el número de parámetros del modelo. En este caso, es posible revertir el orden de las submuestras, es decir, es lícito intercambiar el primer y segundo período para ver si la estabilidad de parámetros se mantiene con la predicción de las observaciones de los elementos del primer subconjunto y no del segundo. Sin embargo, bajo condiciones normales, si el número de elementos de la segunda submuestra es mayor al número de regresores (incluyendo al intercepto), es decir, si se cuenta con suficientes grados de libertad, es preferible el análisis de varianza pues resulta una prueba más potente para descartar la existencia de quiebre estructural. Tal como se vio anteriormente, el Test de Chow realiza un análisis basado en la descomposición del espacio muestral en dos realizaciones o submuestras. Un supuesto esencial en la ejecución de este test es que la varianza para cada subconjunto es idéntica puesto que de no ser así, se violaría uno de los supuestos del MLG ya que se aceptaría la existencia de heterocedasticidad. Puesto que se evalúan dos subconjuntos independientes y diferentes que conforman el espacio muestral total, el supuesto de homocedasticidad implica que las regresiones de dichos subconjuntos tiene un término de error que se distribuye con una varianza idéntica para cada submuestra.

Figura 6.4

Econometría Moderna Según estudios realizados por Schmidt y Sickles5 (1977), Ohtani y Toyoda (1985) y Toyoda y Ohtani (1986), bajo estas circunstancias se podría sobrestimar el nivel de significancia de las pruebas estadísticas tratadas en los dos puntos anteriores. Esto implica aceptar un t estadístico como mayor que un t tabular cuando en realidad es menor . Esto se entiende claramente recurriendo a la gráfica de una distribución de probabilidades con zonas limitadas por los niveles de confianza. Una vez que se haya constatado que las varianzas difieren considerablemente para cada una de las submuestras (de un modo semejante al sugerido en el test de Goldfeld y Quandt) y teniendo en cuenta que el test de Wald es aplicable sólo para muestras grandes, se realiza la prueba de estabilidad de los parámetros. Suponga que θ1 y θ2 son dos estimadores distribuidos normalmente basados en muestras independientes (esto se asemeja a los pasos iniciales que se siguen en la ejecución del test de Chow) y con matrices de covarianzas V1 y V2. Bajo la hipótesis nula de que los dos estimadores tienen el mismo valor esperado (igual al parámetro, lo cual implica la estabilidad del mismo para las dos muestras), se concluye que: (θ1 − θ2) ∼ N (0, V1 + V2) En seguida se construye el estadístico de Wald con el cual se realizará la prueba: W = (θ1 − θ2) ‘(V1 + V2)-1(θ1 − θ2) ∼ χ 2

con k +1 grados de libertad

(6.4)

Es de utilidad la aplicación de este estadístico puesto que considera restricciones y varianzas estimadas. En este caso, la restricción que se impone es la igualdad de los coeficientes en ambas regresiones. Como se sabe, el test de Wald evalúa las restricciones, si éstas se cumplen, las estimaciones hechas por las ecuaciones de regresión restringidas e irrestrictas no deberían discrepar en gran magnitud, es decir, en el caso de estabilidad, los coeficientes deberían ser estables y por lo tanto se rechazaría la presencia de quiebre estructural. Si el valor del estadístico es muy elevado, se rechazará la hipótesis nula de estabilidad. Esta evaluación es válida sólo para muestras grandes puesto que el estadístico de Wald requiere como dato previo la matriz de covarianza para las perturbaciones de las regresiones ejecutadas para cada submuestra, es decir, demanda como insumo a V1 + V2. Dado que en la práctica sólo se cuenta con los estimadores de tales parámetros resulta conveniente trabajar con muestras grandes ya que en estos casos los resultados no se distorsionan significativamente si se emplean los estimadores en lugar de V1 + V2. Para muestras pequeñas y moderadas, el test de Wald presenta alta probabilidad de arrojar resultados con error tipo I, es decir, el frecuente rechazo de la hipótesis planteada de estabilidad cuando en realidad ésta es verdadera. Una forma de evitar el error es emplear valores críticos mayores a los normales (recordemos que para rechazar la hipótesis nula el valor estadístico debe ser mayor al valor tabular de modo que si el valor tabular o crítico aumenta, la probabilidad de rechazar la hipótesis planteada se reduce). 5

P. Schmidt y R. Sickles 1977. “Some further evidence on the use of the Chow test under heteroskedasticity”, Econometrica, Vol. 45, No.5, pp. 1293 - 1298.

Capítulo 6: Quiebre Estructural

EJEMPLO 6.5 Al hacer el análisis de las perturbaciones, se detecta heterocedasticidad:

White Heteroskedasticity Test: F-statistic Obs*R-squared

103.9318 147.4495

Probability Probability

0.000000 0.000000

Test Equation: LS // Dependent Variable is RESID^2 Sample: 1 500 Included observations: 500 Variable C X1Q X1Q^2

Coefficient 16996.56 -0.535115 -0.000522

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.294899 0.292062 12519.07 7.79E+10 -5425.469 0.068123

Std. Error 899.4082 1.336643 0.000240

t-Statistic 18.89749 -0.400343 -2.175656

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Prob. 0.0000 0.6891 0.0301 10082.14 14879.03 18.87600 18.90129 103.9318 0.000000

Se sabe que existe un quiebre estructural en el periodo 280 (pues el programa así lo determina), pero que también existe heterocedasticidad en el modelo, entonces, la división de las submuestras se hará justo en el período 280 y se aplicará el Test de Wald. Tras correr las dos regresiones (una para las 279 observaciones y otra para las restantes), se obtienen los estimadores (θ1 , θ2) y las varianzas estimadas de tales estimadores. Así pues: θ1 = 0.498078

θ2 = 0.079632

V1 = 2.21204147308e-06

V2 = 1.63880104589e-08

De donde se obtiene un estadístico W = 78574.2142 que por ser demasiado alto indica que la restricción de igualdad de estimadores no se cumple, lo cual lleva a rechazar la estabilidad de coeficientes.

6.2.3 Test alternativos de residuos recursivos para evaluar la estabilidad Los tests que se presentan a continuación están basados en el empleo de residuos recursivos y fueron propuestos por Brown, Durbin y Evans(1975). La estructura de estas pruebas sigue una lógica similar al test predictivo para estabilidad pero no llegan a ser tan potentes como el test de Chow original. Sin embargo, tienen la ventaja de no requerir la fecha en que se produce el quiebre como insumo necesario para evaluar las hipótesis.

Econometría Moderna Suponga que el espacio muestral total consta de n observaciones. El residuo recursivo de la enésima observación se define como el error de predicción de la variable explicada hallado empleando el estimador MCO obtenido a partir de las t-1 observaciones anteriores. Formalmente:

et = y t − xt ' β t −1 MCO Lo que interesa es calcular el residuo recursivo normalizado. Para ello es necesario conocer la varianza del residuo recursivo (et ), que está definida por la siguiente ecuación:

Var (et ) = σ µ2 [1 − xt ' ( X t −1 ' X t −1 ) −1 xt ] Note que se emplea minúsculas para nombrar a las variables que involucran sólo observaciones del período t y mayúsculas para las mismas variables pero que incluyen las t-1 observaciones anteriores. Una vez obtenida la varianza se construye el residuo recursivo normalizado:

wt =

et −1

1 + xt ' ( X t ' X t ) xt

∼N (0, σ µ2 )

(6.5)

Bajo la hipótesis planteada de estabilidad de parámetros, wt se distribuye como una Normal con media cero y varianza constante e independiente de ws ∀ s ≠ t. Brown Durbin y Evans sugieren dos pruebas basadas en el residuo recursivo normalizado, éstas son: i) Test CUSUM (Cumulate Sum of Residuals) Como su nombre lo indica, esta prueba se basa en la suma acumulada de los residuos normalizados. El estadístico que se emplea es el estadístico CUSUM o Wt: t

Wt =

wr

∑ σˆ

r = k +1

(6.6)

2

donde: T

σˆ = 2

∑ (w

r = k +1

r

T

− w)2

T − k −1

y

w=

∑w

r = k +1

r

T −k

Si los valores del residuo recursivo normalizado cambian en el tiempo de manera sistemática, se tomará como evidencia de inestabilidad en el modelo. Bajo la hipótesis nula de estabilidad, Wt tiene media cero y una varianza aproximadamente igual al número de residuos acumulados (ya que cada término tiene varianza igual a uno y además son independientes). La evaluación se realiza graficando el estadístico CUSUM a lo largo del tiempo. Si esta gráfica permanece dentro de las bandas de confianza (definidas por dos rectas que conectan los puntos [k, ± α(T-k)1/2] y [T, ± 3α(T-

Capítulo 6: Quiebre Estructural k)1/2] donde α representa diversos valores de significancia6) entonces los coeficientes son estables en el tiempo, pero si la gráfica traspasa las bandas, se rechaza la hipótesis planteada y se reconoce la existencia de un cambio estructural en el modelo para el período muestral. Cabe destacar que la prueba se realiza trazando la gráfica alrededor del eje de abscisas, es decir, se espera que el estadístico CUSUM fluctúe alrededor del valor nulo. Si eso ocurre, la línea permanecerá dentro de las bandas de confianza y se aceptará la estabilidad de parámetros, en otras palabras, se acepta que la suma de residuos recursivos tiene esperanza nula. 60 40 20 0 -20 -40 -60 20

40

60

80

100 120 140 160 180 200

CUSUM

5% Significance

Figura 6.5 ii) Test CUSUM2 (Cumulate Sum of Square Residuals) En este test alternativo se emplea el estadístico CUSUM2 o St que hace referencia a la suma acumulada de los residuos normalizados al cuadrado. Formalmente: t

St =

∑w

2 r

∑w

2 r

r =k T r =k

(6.7)

Dado que los residuos recursivos se distribuyen independientemente, tanto el numerador como el denominador son sumas de variables que se distribuyen como una Chi-cuadrado, cada una con un grado de libertad. Por lo tanto el valor esperado de este estadístico E[St] es aproximadamente igual a (t - k)/(T- k). La prueba se realiza graficando los valores de E[St] para cada momento en el tiempo. Si esta gráfica sobrepasa los límites impuestos por el intervalo de confianza E[S] ± c07 entonces se rechaza la hipótesis nula y se acepta la presencia de quiebre.

Los valores de α que se encuentran en el paper de Brown et al. son α = 0.948 al 95% de confianza y α = 1.1143 al 99%. 7 c0 depende de T-k y del nivel de significancia deseado. 6

Econometría Moderna

1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 20

40

60

80

100 120 140 160 180 200

CUSUM of Squares

5% Significance

Figura 6.6 Es preciso señalar además que ambas pruebas (CUSUM y CUSUM2) dan indicios de la fecha de quiebre. Dado que son pruebas gráficas, la exactitud de la fecha de quiebre no es una de sus ventajas, sin embargo aproxima con un margen de error aceptable tal período. Por ejemplo, siguiendo el caso de la inflación en el Péru, se sabe que existen dos quiebres: el primero de ellos se da en Marzo de 1988 y el segundo se da en octubre de 1990. Teniendo esto en cuenta, al realizar las pruebas de residuos recursivos CUSUM y CUSUM2, se obtienen los siguientes resultados: 1.2

60

1.0

40

0.8 20 0.6 0 0.4 -20

0.2

-40

0.0 -0.2

-60 50

100 CUSUM

150

200

250

50

100

150

CUSUM of Squares

5% Significance

200

250

5% Significance

Figura 6.7 Finalmente, cabe señalar que existe una ventaja del test CUSUM2 sobre el test CUSUM convencional puesto que al elevar al cuadrado los errores se elimina la distorsión que pueden incluir los signos de los errores. El test CUSUM normal sólo agrega los errores de predicción que se van obteniendo al ir ampliando la muestra en una observación, pero estos errores pueden tener signos contrarios y cancelar su efecto, distorsionando el resultado de la prueba. El test CUSUM2 no es afectado por este problema ya que al elevar al cuadrado los errores, se elimina el efecto del signo, sin embargo, la intuición del estadístico no es tan pura como en el caso convencional ya que no se espera que sea nulo en promedio sino se busca que el valor esperado sea igual a (t - k)/(T - k).

Capítulo 6: Quiebre Estructural iii) Test t de Harvey y Collier: Existe un test propuesto por Harvey y Collier (1977) relacionado al uso de residuos recursivos para evaluar la estabilidad y que se basa en la media muestral de tales residuos. Bajo la hipótesis nula de estabilidad, la media muestral de los residuos recursivos ( w ) se distribuye normalmente con media cero y varianza σ2/(T - k). En este test, se evalúa la hipótesis de que la media de wt es cero a través de la construcción de un estadístico t que se compara con un valor tabular con T - k - 1 grados de libertad:

t=

( T − k )w ∼ tT - k -1 s

(6.8)

donde: r =T

2

s =

∑ (w

r = k +1

r

2

− w)

T − k −1

iv) Test de Predicción de una Etapa: Como se puede inferir de la definición, cada residuo recursivo es el error de una predicción de una etapa (es decir la discrepancia entre el valor estimado de la iésima observación predicho con las i 1 observaciones anteriores). Tal error puede ser comparado con su desviación estándar bajo la hipótesis nula con el propósito de evaluar si el valor de la variable dependiente en el periodo t ha provenido del modelo estimado empleando todas las observaciones hasta ese punto. En la figura 6.8, se traza los residuos recursivos y los errores estándares en la parte superior, y en la parte inferior, se muestran los valores de las probabilidades para aquellos puntos muestrales en los cuales la hipótesis de estabilidad de coeficientes se rechazaría a niveles de 0, 5, 10 y 15% de riesgo. Tal como se ve, en el periodo 280 existe una acumulación de puntos bien marcada y con niveles de confianza muy altos (casi 0% de riesgo). 500 0 -500 -1000 0.00

-1500

0.05 0.10 0.15 50

100 150 200 250 300 350 400 450 500

One-Step Probability

Figura 6.8

Recursive Residuals

Econometría Moderna v) Test de Predicción de N Etapas: Este test gráfico, arroja los resultados que se obtendrían si se ejecutase el Programa 6.2. El test explota los cálculos recursivos para armar una secuencia de tests de Chow predictivos. En contraste a la versión convencional del Test de Chow Predictivo, éste no requiere como insumo la fecha en que se cree se genera el quiebre pues automáticamente calcula todos los casos posibles empezando con el tamaño de muestra más pequeño posible para estimar la ecuación de predicción e ir introduciendo una observación adicional cada vez. El gráfico muestra en la parte superior los residuos recursivos y las probabilidades de rechazo de estabilidad en la parte inferior con 0, 5, 10 y 15% de riesgo. En este caso, el quiebre se detecta en el periodo 280, con lo cual se puede concluir consistentemente y sin contradicción con ninguna de las pruebas anteriores que el cambio estructural existe y se da en el periodo 280. 500 0 -500 -1000 0.00

-1500

0.05 0.10 0.15 50 100 150 200 250 300 350 400 450 500 N-Step Probability

Recursive Residuals

Figura 6.9 vi) Estimaciones de Coeficientes Recursivos: 6

1.5 1.0

5 0.5 4

0.0 -0.5

3 -1.0 2

-1.5 20

40

60

80

100 120 140 160 180 200

Recursive C(1) Estimates

20

± 2 S .E .

40

60

80

100 120 140 160 180 200

Recursive C(2) Estimates

Figura 6.10

± 2 S .E .

Capítulo 6: Quiebre Estructural Esta prueba gráfica permite trazar la evolución de cualquier coeficiente a medida que la muestra empleada para regresionar se amplía cada vez más. El gráfico muestra la evolución del coeficiente seleccionado para todas las posibles ecuaciones estimadas recursivamente. Si tal gráfico muestra variaciones significativas a medida que se va adicionando mayor cantidad de observaciones para estimar las ecuaciones, entonces se tiene un argumento fuerte que indica la presencia de quiebre estructural.

6.3. ALGUNAS CRÍTICAS A LOS TESTS DE CAMBIO ESTRUCTURAL En general, los diversos tests alternativos propuestos para evaluar la estabilidad de los coeficientes son menos potentes que el Test de Chow de análisis de varianza. Sin embargo, éste también tiene debilidades y no es aplicable en cualquier espacio muestral, a continuación se citan tres críticas referidas a estas pruebas: 1. A.L. Wilson8 afirma que si bien el test predictivo de estabilidad propuesto por Chow es sugerido sólo para el caso en el que el tamaño de muestra del segundo subconjunto es menor que el número de regresores (es decir, cuando no existen suficientes grados de libertad para correr la regresión del segundo modelo)9, debería ser considerado también en el caso en el que el tamaño de muestra de tal subconjunto sea mayor al número de regresores. Esto debido a que la prueba predictiva tiene propiedades deseables de potencia cuando existen algunos errores desconocidos de especificación. 2. Rea10 establece que no es posible considerar la prueba predictiva de Chow para evaluar estabilidad en el caso de insuficiencia de grados de libertad. Afirma que lo único que demuestra este test es que el error de predicción tiene media cero, es decir que las predicciones son insesgadas. Si no existe cambio estructural, el error de predicción tendrá una media de cero. Pero si el error de predicción tiene media cero, no necesariamente se aceptará la existencia de estabilidad de parámetros en el caso en que n2 < (k+1). En otras palabras, el error de predicción podrá tener una media cero aun si los coeficientes son inestables si, por ejemplo, los regresores tienen un comportamiento atípico. Rea concluye que no es posible afirmar a partir de los resultados de los tests de Chow que los parámetros son estables, sólo se puede afirmar que no lo son. Es decir, no considera al test de Chow como una prueba de estabilidad sino como una de insesgamiento en la predicción. Rea considera que todo lo dicho es válido sólo en el caso de la prueba predictiva aplicada cuando n2 < k+1, es decir si n1 y n2 son mayores que k + 1, las dos pruebas de predicción aplicadas sobre cada submuestra son de estabilidad. 3. Como se mencionó anteriormente, surge un problema al realizar los tests de estabilidad cuando existe heterocedasticidad. Si las varianzas del error de ambas muestras son distintas, entonces las pruebas predictivas y de análisis de varianza arrojan resultados imprecisos en el sentido de que se subestiman los valores tabulares de los estadísticos y se tiende a caer en un error de tipo I. Ante esta situación se emplea el test de Wald explicado en la sección II parte iii.

8

A.L.Wilson “When is the Chow Test UMP?” The American Statistician,Vol.32, No.2, mayo 1978, pp. 66-68. Ver sección II parte ii. 10 J.D.Rea “Indeterminacy of the Chow Test when the number of observations is insufficient” Econometrica, vol. 46, No. 1, enero 1978, pág. 229.

9

Econometría Moderna 6.4. CÓMO SE CORRIGE UN CAMBIO ESTRUCTURAL Tal como se hizo referencia en la parte introductoria del capítulo, existen dos razones por las cuales se puede aceptar la existencia de quiebre estructural en un modelo. Una de ellas radica en la deficiente especificación del modelo, de modo que éste no captura ciertos shocks o fluctuaciones que sí serían incorporados de presentar una especificación más rica. Tales fluctuaciones pueden ser aceptadas como cambios estructurales que generan modelos estimados con coeficientes inestables. La segunda razón consiste en la presencia de un cambio sistemático que afecta a la variable dependiente y que no es recogido por el modelo correctamente especificado. Para corregir el problema de cambio estructural surgen por lo tanto dos posibles soluciones: 6.4.1 Reespecificación del Modelo Si no se posee la certeza de que el modelo que se está empleando para explicar el comportamiento de la variable dependiente está bien especificado, es decir, si no presenta una estructura tal que las variables independientes explican con un grado de ajuste elevado a la variable dependiente a pesar de los ciclos y fluctuaciones que ella presente, entonces es conveniente tratar de reespecificar el modelo introduciendo nuevas variables o extrayendo las irrelevantes. Como se sabe, el primer paso para el desarrollo de una evaluación econométrica es la especificación del modelo. Generalmente, y sobre todo en los modelos estructurales, la construcción de los modelos está basada sobre intuición y teoría económica. A pesar de que dichos modelos tengan un sustento teórico sólido, la regresión puede arrojar resultados discrepantes. En esos casos es conveniente revisar la especificación de la ecuación de regresión. En este sentido, si se acepta la hipótesis de cambio estructural dentro de modelos deficientemente especificados, se estaría aceptando la existencia de un problema subsanable con una correcta especificación, es decir, se puede introducir una variable relevante que mejore el modelo de manera que el grado de ajuste de los puntos observados a la recta de regresión sea mayor y a la vez tal improvisación repercuta en la capacidad que tienen las variables independientes para explicar los cambios sistemáticos que afecten al modelo. El análisis riguroso acerca de error de especificación, se realiza en el capítulo X. No obstante, las conclusiones relevantes y que deben considerarse son las siguientes: • En el caso de omisión de variables relevantes, existirá un sesgo en la estimación de los parámetros. • En el caso de introducción de variables irrelevantes, el estimador no es segado, entonces podría considerarse razonable una estrategia de introducir una elevada cantidad de variables explicativas en el modelo de regresión. Sin embargo, tal estrategia conduce a aumentar la varianza con que se estiman los coeficientes de las variables explicativas verdaderamente relevantes, sobre las que se perdería en consecuencia, precisión. Por lo tanto, la introducción de variables relevantes será beneficiosa sólo si no afecta la precisión de estimación de los coeficientes del resto de explicativas. En este sentido, será provechoso reespecificar el modelo para que capture el quiebre incorporando tales variables, puesto que si antes el modelo no explicaba con la suficiente exactitud a la variable explicada y esa era la razón de la aceptación de inestabilidad de parámetros, tras incrementar el grado de exactitud con que las

Capítulo 6: Quiebre Estructural explicativas describen a la endógena, es muy posible que el problema desaparezca. Por otra parte, otra estrategia para solucionar el problema de quiebre consiste en reducir el número de variables puesto que alguna de ellas puede que origine inestabilidad en alguno de los periodos a la hora de correr la regresión. Tal como se mencionó, si la variable es irrelevante, el modelo será mejorado, pero si es relevante, los estimadores quedarían sesgados y se tendría que decidir entre la omisión de la variable o la inestabilidad de los coeficientes. En este caso es recomendable convivir con el quiebre puesto que se podría solucionar con introducción de variables dummies. Además, la contribución marginal de esa variable podría ser muy relevante para explicar el comportamiento sistemático de la variable endógena. 6.4.2 Introducción de Variables Dicotómicas El procedimiento algebraico para solucionar el problema de series que presentan quiebre dependerá si el cambio estructural es en media, tendencia o en ambas. Sin embargo, en todos los casos se hará uso de variables dummy o dicotómicas. Dado que las variables dicotómicas pueden tomar sólo dos valores (1 y 0), se deduce rápidamente que tomará un valor para el subespacio anterior al quiebre y otro para el posterior. Es decir, además de las variables independientes originales del modelo, se incluyen las variables dummy como explicativas adicionales. Precisamente, la función que tendrán será la de explicar la presencia del quiebre. Como se sabe, el test más potente para detectar la detección de la existencia de cambio estructural es el test de Chow, prueba que requiere como insumo la fecha en que se sospecha se genera el quiebre. Por lo tanto, una vez hecha la prueba y tras haber rechazado la hipótesis nula de estabilidad de los coeficientes, se conocerá cuándo se produce el cambio estructural en las series. Con esta información se podrá solucionar el problema incorporando variables dummy. i) Cambio en Intercepto: En este caso, el procedimiento para la corrección consiste en introducir una dummy aditiva al modelo, la que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir de él. Resulta redundante comprobar la significancia estadística del coeficiente de la dummy ya que se verificó la existencia de quiebre con el test de estabilidad.

Figura 6.11

Econometría Moderna La intuición detrás de la incorporación de una dummy aditiva en el caso de un cambio en media resulta bastante sencilla. Puesto que la dummy empieza a “funcionar” a partir del período inmediatamente siguiente al quiebre, lo que hará será explicar la variación en el intercepto de la recta de regresión estimada, solucionando de esta manera el problema.

donde: =

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k + µ

modelo original

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k + µ + γd

modelo con dummy

d=0

∀ t =1,2,...,tquiebre

1

∀ t = tquiebre+1, ...., T

reordenando:

Y = (α + γd ) + β 1 x1 + β 2 x 2 + ... + β k x k + µ 1 1  M  1 Y=  1  M 1  1

0 0 M 0 1 M 1 1

x11 x12 M x1t quiebre x1tquiebre +1 M x1,n −1 x1n

L x k1  L x k 2  α  O M    γ L x ktquiebre    β  + µ L x ktquiebre +1   1   M O M   β  L x k , n −1   k   L x kn 

Claramente se observa que la dummy afecta al intercepto a partir del período tquiebre +1 puesto que recién entonces toma valores no nulos. Gracias a la influencia de la variable dummy a partir del periodo tquiebre, la nueva recta de regresión ya no presenta un cambio en media y por lo tanto, los coeficientes serán estables, es decir válidos para explicar el comportamiento de la variable endógena para todo el intervalo muestral. ii) Cambio en Pendiente: En este caso la corrección se realiza introduciendo una variable dummy multiplicativa al modelo que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir de él. Esta variable afectará directamente al regresor que esté ocasionando el quiebre. Si fuesen varias las variables explicativas que presentan un cambio estructural, se deberá incluir una dummy por cada una de ellas. Cada dummy empezará a “funcionar” en el período inmediatamente siguiente en que se genera el quiebre dentro de la serie a la cual afecta. Suponga un modelo bivariado: Y = α + β1x1 + µ

modelo original

Y = α + β1x1 + µ + γdx1

modelo con dummy

Capítulo 6: Quiebre Estructural donde:

∀ t = 1,2,...,tquiebre

d=0

∀ t = tquiebre+1, ...., T

=1 reordenando:

Y = α + (β1 + γd)x1 + µ

x11 1 1 x12  M M  1 x1, tquiebre y=  1 x1, t +1 quiebre  M M  1 x 1,n − 1  x 1n 1

     α   β  + µ x 1, tquiebre +1   1    γ  M  x 1,n −1   x1n  0 0 M 0

Note que la tercera columna de la matriz de información contiene a los valores de la dummy que multiplica a la observación de la exógena correspondiente al periodo, por eso es que no aparecen valores unitarios una vez producido el quiebre. Al igual que en el caso de un quiebre en media, se puede esbozar gráficamente el efecto de la variable dummy sobre la serie que presenta el quiebre en tendencia:

Figura 6.12 Para un modelo multivariado, por otro lado, se sigue un procedimiento similar. Se crea una variable dummy por cada exógena que introduzca quiebre al modelo. Para verificar esto, suponga un modelo multivariado en el cual las tres primeras explicativas presentan quiebre: Y = α + β1x1 + β2x2 + ... + βkxk + µ

modelo original

Y = α + β1x1 + β2x2 + ... + βkxk + µ + γ1d1x1 + γ2d2x2 + γ3d3x3

modelo con dummy

donde:

d=0

∀ t = 1,2,...,tquiebre

Econometría Moderna ∀ t = tquiebre+1, ...., T

=1 y reordenando:

Y = α + (β1 + γ1d1)x1 + (β2 + γ2d2)x2 + (β3 + γ3d3)x3 + β4 x4 + ... + βkxk + µ

0 1 1 0  1 M  1 x1,tquiebre 1 x1,t +1 quiebre  1  Y= M  M 1 1  1  1 1 x1n

0 0 0 0 M

0 0 0 0 0 0 0 M

x 2,t quiebre x 2 ,tquiebre +1 M

x11 x12

x 21 x 22

M

M

x1n

x2 n

x3,t quiebre x3,t quiebre +1

x2 n

M x3 n

x31 L x k 1   α  x31 L x k 2   γ 1   γ 2     γ 3    β1     β 2  +µ M O M β3       M          x3 n L x kn   β k 

Observe la matriz de información. Notará que las dummies empiezan a “funcionar“ en distintos períodos (según la fecha en que se produzca el quiebre en cada serie) para cada endógena. Es importante señalar que, en este caso, la inclusión de una dummy multiplicativa podría generar multicolinealidad si es que el quiebre ocurre en un período muy cercano al inicial. Imagine un espacio muestral de 500 observaciones. Si una de las exógenas presenta un cambio estructural en el período 6, las 494 observaciones restantes entrarán a constituir la nueva columna (generada a través del producto de la dummy con la variable) en la matriz de información, y esta será idéntica a la original para 496 períodos. iii) Cambio en Intercepto y en Pendiente: La solución en este caso es una fusión de las dos secciones anteriores. Así, para el caso bivariado, se tiene lo siguiente:

donde:

Y = α + β1x1 + µ

modelo original

Y = α + β1x1 + µ + γdx1 + γ2d2

modelo con dummy

d=0 =1

∀ t = 1,2,...,tquiebre ∀ t = tquiebre+1, ...., T

reordenando: Y = (α+ γ2 d2) + (β1 + γd)x1 + µ

Capítulo 6: Quiebre Estructural Los efectos de la inclusión de estas variables dummy pueden verificarse, nuevamente, a través de un gráfico:

Figura 6.13 El álgebra matricial, tanto para el caso bivariado como para el multivariado, es semejante a los casos anteriores. A continuación se representa la matriz de información para el caso bivariado con quiebre en media y en tendencia:

1 1  M  1 Y=  1  M 1  1

0 0 0 0 M M 0 0 1 x1,t quiebre +1 M M 1 x1, n −1 1 x1n

      α  x1,t quiebre    γ +µ x1,tquiebre +1  γ   2  M  β   1 x1,n −1   x1n  x11 x12 M

La segunda columna de la matriz de información contiene la dummy que soluciona el quiebre en media y la tercera la que soluciona el quiebre en tendencia.

CAPITULO 7 PREDICCIÓN

7.1. INTRODUCCIÓN Recuérdese que cuando un investigador está interesado en diseñar un modelo econométrico, tal que sea satisfactorio o congruente con toda la data que posee, enfrenta, en general, tres objetivos o propósitos1. El primero consiste en realizar pruebas estadísticas acerca de los parámetros del modelo, es decir, probar ciertas restricciones utilizando los tests de inferencia estadística estudiados en el Capítulo 4. El segundo es utilizar el modelo para estimar el valor futuro de una variable endógena, es decir predecir el valor de Y en un periodo fuera de la muestra, dado el valor de las exógenas. Finalmente, y tal vez uno de los más ambiciosos, consiste en utilizar el modelo para la simulación de políticas económicas. El tema del presente capítulo consiste en analizar el segundo objetivo. Específicamente, nos centraremos, entre otros puntos, en los requisitos que debe cumplir el modelo antes de realizar una predicción. Para tal fin, debemos efectuar las pruebas estadísticas, ya conocidas, que garanticen que el modelo está apto para realizar pronósticos confiables. Así, en la parte final del Capítulo, desarrollaremos un ejercicio aplicado utilizando las herramientas del Econometric Views para que el lector se familiarice con el tipo de previsiones que realiza un economista o un alumno que se interese por la Econometría. De esta manera, se puede intuir cuál es la definición de una predicción. En términos de Pyndick & Rubinfield(1991)2, se define una predicción como un estimado cuantitativo acerca de la verosimilitud de eventos futuros basados en información pasada y actual. En este sentido, se pueden hacer pronósticos utilizando distintos modelos econométricos. Algunos de estos se detallan a continuación: 1

Ver la introducción del cuarto capítulo. Pyndick Robert S. and Rubinfield Daniel L. (1991), Econometric models and economic forecast. Capítulo 8, p. 180. EE.UU.

2

Econometría Moderna



Predicción

Modelos estructurales uni-ecuacionales: Son el tipo de modelos que se han trabajado hasta ahora, por ejemplo el siguiente modelo lineal general:

Y = Xβ + µ •

Sistemas de ecuaciones estructurales: Por ejemplo en el modelo de IS-LM de Macroeconomía

C = C 0 + bYd I = I 0 − hr Y =C + I •

Modelos de series de tiempo: los modelos de series de tiempo muestran una secuencia de datos numéricos asociados con un instante específico de tiempo. A manera de ejemplo, se citarán los índices diarios de las cotizaciones de las acciones en la Bolsa de Valores de Lima (BVL). Así, se puede construir un modelo autorregresivo (AR) pues se tiene como variables explicativas a rezagos de la variable endógena, o bien un proceso de medias móviles (MA), el cual representa un promedio ponderado de los shocks pasados y actuales de una serie. Como se verá en un capítulo posterior3, una serie de este tipo es estacionaria. Esta última característica, garantiza que los estimadores obtenidos por un proceso (MA) sean confiables. AR(p) Yt = ρ 0 + ρ1Yt −1 + ρ 2Yt −2 + .... + ρ p Yt − p + µ t Yt = θ 0 + et + θ 1et −1 + θ 2 et −2 + .... + θ q et −q

MA(q)

Tal como se mencionó líneas arriba, antes de realizar la predicción un modelo debe cumplir ciertos requisitos para que el pronóstico de la variable independiente sea confiable y verosímil.

7.2. REQUISITOS 1) El modelo lineal estimado no presente errores de especificación. Recordemos que una ecuación de regresión presenta una buena especificación4, cuando tanto su forma funcional como su función de distribución de probabilidades es correcta y, además, no existen variables omitidas ni redundantes que deben ser incluidas o extraídas, respectivamente del modelo. Una de las vías utilizadas que para analizar la presencia de una buena especificación es la prueba de Ramsey. 2) Los parámetros deben ser estables. Como estudiamos en el Capítulo 6, el análisis de posibles cambios estructurales en los parámetros, implica realizar las pruebas gráficas de estabilidad como son Cusum Cuadrado o el test de Chow5. 3) Se corrija la presencia de perturbaciones no esféricas esto es, los problemas poblacionales en la distribución de probabilidad del error: heterocedasticidad y autocorrelación. Con tal fin, se realizan las pruebas estadísticas para detectar y corregir dichos problemas.

3

Véase el Capítulo de Series de tiempo estacionarias. En la sección 6.4 del Capítulo de Cambio Estructural, se mostró los problemas que ocasionan una mala especificación. 5 Ver la sección 2 del Capítulo 6. 4

174

Econometría Moderna

Predicción

4) Sólo debe existir una dirección de causalidad: de las variables independientes hacia la dependiente. Para determinar si existe este requisito, se puede utilizar el criterio de Causalidad a lo Granger.

7.3. TIPOS DE PRONÓSTICOS i)

Predicción puntual. La ecuación estimada es la representación estadística de la media de la distribución condicional de la variable dependiente en las independientes. En función a ello, cuando se habla de una predicción puntual, se trata de la predicción de los valores futuros de la variable endógena ( Yt ) en términos del valor de la media condicional, por lo que obtendremos un único valor o número. Un ejemplo sería el anuncio que la inflación para el año próximo será de 0.5% mensual.

ii)

Predicción por intervalos. Si queremos tener mayor información acerca de la distribución condicional un elemento importante es conocer la varianza. Esta magnitud nos permite tener un idea de la dispersión que presenta la variable dependiente. Si tomamos en cuenta la varianza, sabemos que dentro de un rango que tiene como centro la media, podremos encontrar un determinado porcentaje de las observaciones6. Un ejemplo de este tipo de pronóstico sería decir que la inflación estará en valores desde 0.15% hasta 0.36% mensual para el año próximo.

7.4. CLASIFICACIÓN DE PRONÓSTICOS: Si introducimos otros aspectos podemos plantear clasificaciones alternativas: a) Predicciones incondicionales. Este tipo de predicciones se refieren a aquellas que se realizan si se conocen los valores de las variables independientes del modelo para los períodos en los cuales se va realizar el ejercicio de predicción. b) Predicciones condicionales. En este caso, los valores de las variables independientes para los períodos en los cuales se va a realizar el ejercicio de predicción, no se conocen con certeza y por tanto deben ser estimados. c) Predicciones ex–ante. Son las predicciones más allá del periodo de estimación y son hechas usando variables explicativas que pueden o no ser conocidas con certeza. Nótese que este tipo de predicciones puede ser condicional o incondicional, dependiendo de la información muestral con la que se cuente.

d) Predicciones ex –post. Cuando las observaciones, tanto de la variable dependiente como de las independientes, son conocidas con certeza. Lo anterior implica que este tipo de predicciones sea solamente incondicional. Este tipo de pronósticos es utilizado para evaluar la bondad predictiva de nuestros modelos a partir de los indicadores que se analizarán más adelante. El gráfico de la siguiente página puede ser útil para ilustrar la diferencia entre los dos últimos tipos de pronósticos presentados. Si apreciamos el eje horizontal que representa el tiempo, veremos que el período T es aquel que denota la información muestral con que contamos. La t minúscula indica la porción de información muestral que utilizamos para estimar un modelo. La diferencia entre t y T es lo que se llama muestra de validación y dichas observaciones se utilizan para realizar la predicción ex-post. El procedimiento es el siguiente: 6

Por ejemplo, si consideramos una distribución normal en un intervalo que tiene como centro la media desviaciones estándar generalmente encontraremos el 95% de las observaciones.

±2

175

Econometría Moderna

Predicción

con el modelo estimado hasta t se realizan predicciones utilizando la información de las observaciones de las variables independientes. Con ello se obtienen los estimados (o predicciones) de la variable dependiente para ese período. Como tenemos la información de la variable dependiente observada se puede realizar la comparación entre los valores observados y las predicciones del modelo. La predicción ex-ante implica utilizar el modelo estimado con la T observaciones y de allí estimar valores de las variables independientes según distintos modelos y supuestos y de allí se procede a realizar el verdadero ejercicio de predicción. La idea es que la predicción ex –post se debe realizar primero para evaluar qué modelo es el que nos permite realizar la mejor predicción a través de las distintas evaluaciones que se hacen. Una vez seleccionado el mejor modelo se procede a realizar la predicción ex –ante.

Pronóstico

Pronóstico

Ex - post

Ex - ante

Tiempo

t

T Ejemplo 7.1

Se tiene el siguiente modelo: Yt = β 0 + β1 K t −3 + β 0 Lt −2 + µ t donde la producción (Yt) depende de los valores rezagados del capital (Kt) y del trabajo (Lt). Por otro lado, se observa que con este modelo se pueden pronosticar los valores futuros de la producción para los períodos siguientes que deseemos. Sin embargo, debemos tener en cuenta que dentro de las predicciones posibles de hacer con este modelo tendremos una gran variedad. Así las predicciones de y t +1 e y t + 2 serán predicciones ex – ante pero incondicionales debido a que los rezagos de K y L son aquellos que explican el valor actual de y. Hasta el periodo t+2 los valores que explicarán a la variable dependiente serán k t −1 y Lt que son valores conocidos en el periodo t. Cuando pasemos al periodo t+3 el valor de K seguirá siendo conocido pero el de L tendrá que estimarse. Por ello se podrá decir que la predicción ex –ante a partir del periodo t+3 será condicional.

7.5. EVALUACIÓN DE UNA PREDICCIÓN: Para evaluar una predicción es preciso contar con un criterio de evaluación tal que haga que las predicciones seleccionadas sean confiables. Por tal motivo, es conveniente introducir el concepto de error de predicción. Recuérdese que en el primer capítulo se definió al error estimado de la regresión como la discrepancia entre el valor de la variable dependiente y su valor estimado. Ahora se utilizará un concepto similar para definir al error de predicción. Es decir, el error de predicción muestra la

176

Econometría Moderna

Predicción

diferencia que existe entre el valor futuro pronosticado de la variable endógena y su valor futuro observado7. Es conveniente recordar que para evaluar la bondad de un estimador se analizaban las propiedades de insesgamiento y eficiencia. De esta manera, decíamos que el estimador MCO( β ) es MELI porque cumplía con estas propiedades bajo las condiciones de Gauss Markov. Por consiguiente, se necesita verificar que el error de predicción posee la menor varianza porque, de ese modo, se obtendría el mejor pronóstico de la variable Yt8. Si es que se cumple lo anterior, se concluye que la estimación por MCO provee la mejor predicción para todos los estimadores linealmente insesgados. Tomando en cuenta los conceptos anteriores, es necesario y útil conocer el origen del error de pronóstico. Este puede surgir de cuatro fuentes: a) La naturaleza aleatoria del modelo (µ t+1). b) Los valores estimados de los parámetros son variables aleatorias que pueden fluctuar. Por lo tanto, puede existir error en la estimación del vector ( β ). c) Para predicciones condicionales podemos cometer errores en el pronóstico de las variables independientes. d) Errores de especificación en la ecuación de pronóstico.

En las siguientes líneas, se analizará cuál es la mejor predicción y las propiedades que presenta el error de pronóstico para diferentes casos.

Primer Caso: Predicción incondicional Cuando se hace una predicción incondicional, a partir de un modelo de regresión, se necesita conocer el valor de las variables explicativas para todo el periodo de predicción. Este caso puede resultar no creíble; sin embargo, frecuentemente ocurre porque en muchos modelos de series temporales, que son utilizados para realizar pronósticos, se incluye una estructura dinámica. En otras palabras, se utilizan modelos que incluyen variables explicativas rezagadas las cuales están predeterminadas para el periodo en que se evalúa la predicción. Por otro lado, es posible realizar este tipo de pronósticos si es que el investigador cuenta con series de tiempo estacionales o variables demográficas cuya variación es lenta y previsible. Notemos que, es importante construir modelos que pueden utilizarse para generar predicciones incondicionales. Su importancia radica en que, de ese modo, se elimina una fuente del error de pronóstico cuando se construyen modelos condicionales. A continuación, se analizará un modelo de regresión bivariado que cumple con los supuestos de una predicción incondicional. Yt = α + βX t + ε t

donde

ε t ∼ N (0, σ ε2 )

Dado un valor conocido de X t +1 , interesa calcular el mejor predictor para Yt +1 si todos los parámetros son conocidos con certeza. De esta manera, el mejor pronóstico resulta la media condicional de la regresión: 7 8

Formalmente: eˆt +1 = (Yˆt +1 − Yt +1 ) . El mejor pronóstico sería: Yˆt + 1 = αˆ + βˆX t + 1

177

Econometría Moderna

Predicción Yˆt +1 = E( Yt +1 ) = α + βX t +1

(7.1)

lo anterior es cierto por que el error de predicción se define como: eˆt +1 = Yˆt +1 − Yt +1 = −ε t +1

(7.2)

Ahora, se verificará si este error de predicción posee las propiedades deseables de todo buen estimador. Insesgamiento:

E (eˆt +1 ) = E (−ε t +1 ) = 0

(7.3)

σ e2 = E (eˆt +1 ) 2 = E (−ε t +1 ) 2 = σ ε2

(7.4)

Varianza :

Nótese que, al construir una ecuación de regresión lineal y al utilizarla para realizar pronósticos incondicionales, no se asegura que la predicción obtenida será igual a la observada ( Yˆt +1 − Yt +1 = 0 ). Lo anterior es atribuido a la presencia del término de error del modelo que hace que el valor de Yt+1 no este sobre la línea de regresión. De esta manera, solamente podemos afirmar que el error de predicción tendrá una media igual a cero y una varianza igual a la de la perturbación del modelo σε2. Como se dijo anteriormente, se puede realizar una predicción de la variable endógena puntual o por intervalos. Para la segunda, es necesario construir un intervalo de confianza y se puede realizar, a partir de lo anterior, pruebas de inferencia relativas al valor predicho la variable dependiente. Se recuerda que, al realizar pruebas de inferencia se plantea un conjunto de restricciones (impuestas por la teoría económica o por el desarrollo de nuestra propia intuición), que se desea verificar si tienen validez o no. Como primer paso, se debe partir de una distribución de probabilidad conocida y luego estandarizar el error de la predicción: Si ε t ∼ N (0, σ ε2 ) El error de predicción normalizado, resulta:

λ=

Yˆt +1 − Yt +1 σε

∼ N (0,1)

(7.5)

Así, con una confianza del 95% se obtiene: Prob (−λ 0.025 ≤

Yˆt +1 − Yt +1 ≤ λ 0.025 ) = 0.95 σε

(7.6)

donde el valor predicho de la variable dependiente se encuentra en el siguiente rango: Yˆt +1 − λ 0.025σ ε ≤ Yt +1 ≤ Yˆt +1 + λ 0.025σ ε

(7.7)

De la expresión anterior se deduce que si el modelo predice bien, o en otras palabras, si los pronósticos son fiables, el verdadero valor se ubicará dentro del intervalo. De modo que, uno de los motivos por los cuales nos inclinaríamos a pensar que el modelo no funciona de manera adecuada es verificar que el valor de la variable Yt+1 cae fuera de los límites del intervalo planteado en (9.7). Así, este intervalo sirve para realizar tests acerca de la calidad del pronóstico. Gráficamente:

178

Econometría Moderna

Predicción

Figura 7.1

Las bandas de confianza, para un 95% de confianza, de una predicción donde se conocen los valores de los parámetros. Sin embargo, se debe tener mucho cuidado antes de descartar un modelo econométrico por el hecho de arrojar una "mala predicción". El lector se preguntará ¿por qué? la respuesta es simple, basta recordar que el “rechazo9 de una hipótesis nula no implica que la teoría subyacente esté errada. Para afirmar lo anterior, se debe realizar muchas pruebas y acumular mucha evidencia en contra. En el mismo sentido, vale decir que para concluir que un modelo no es satisfactorio y sus pronósticos no son fiables, el investigador deberá efectuar repetidas observaciones y más de una prueba estadística. Antes de estudiar el siguiente caso, es importante que se puntualicen algunas observaciones. Las cuales, reforzadas con los conocimientos adquiridos en capítulos anteriores, ayudarán a tener en claro los conceptos descritos en esta sección. Observaciones 1) Un R2 alto y un T- estadístico significativo no necesariamente indica que el modelo predice bien. Lo anterior es consecuencia de un cambio estructural en la economía durante el periodo de predicción y que modifica el valor de los parámetros10. Así, el modelo no puede explicar lo que realmente sucede en el sector económico por que las reglas de juego han sido cambiadas: un shock de oferta negativo o la discrecionalidad del gobierno cuando cambia una regla fija. Por ejemplo, el gobierno fija la cantidad de dinero que va emitir basándose en una regla del k%11 preestablecida y conocida por todos los agentes económicos. Un empresario fija sus niveles de producción de acuerdo con la cantidad demandada estimada para el próximo periodo. Si es que el gobierno decide financiar su deuda a través de señoreaje, generará un incremento en la demanda agregada y un incentivo para que se active la inflación. De esta manera, el pronóstico realizado por el investigador no será fiable y la empresa no podrá cubrir la demanda de su producto. 9

Frecuentemente se utiliza este término. Pero, en realidad cuando se afirma que una hipótesis nula es rechazada, se quiere decir que no existe suficiente evidencia estadística para afirmar que la hipótesis se acepta. 10 Recordemos que en el Capítulo 6, sino que podrían ocurrir cambios en la economía, no previsibles por los agentes económicos, que generen quiebre o variaciones atípicas en los parámetros de la ecuación de regresión. Asimismo, se debe recordar que uno de los requisitos y supuesto básico para realizar una predicción es que los parámetros sean estables dentro y fuera de la muestra. 11 Milton Friedman propuso la llamada regla del K%. La cual esta diseñada para obligar a las autoridades a escoger una misma tasa de crecimiento monetario en cada periodo.

179

Econometría Moderna

2)

Predicción

Un R2 bajo y un T- estadístico malo, no necesariamente significa que el modelo realiza pronósticos inexactos. Esto se debe a que, si existe poca variación en la variable dependiente el R2 será reducido. El resultado anterior, se debe a que las variables independientes pierden la capacidad de explicar correctamente a la variable endógena. Sin embargo, dada las características del modelo, resulta fácil predecir el comportamiento de la serie.

Segundo Caso: Predicción incondicional, cuando no se conocen los parámetros En la mayoría de los casos en los que se efectúa el tipo de evaluaciones descritas en el presente capítulo, no se pueden conocer con certeza todos los parámetros del modelo ni tampoco la varianza del error. De esta manera, se retomará el caso anterior pero utilizando este nuevo supuesto, que se ajusta más a la realidad. Partamos de un modelo lineal simple y supongamos que se dispone de series temporales para X t y Yt (t = 1, 2, 3,.........T). En este caso, no conocemos el modelo verdadero y por ello se estiman los parámetros mediante las técnicas mínimo cuadráticas descritas en el Capítulo 2 y 3. De modo que, si al investigador le interesa predecir el valor de Yt+1 asociado al valor de Xt+1 de la manera más verosímil posible, por ejemplo si Y es el saldo de la balanza de pagos y X representa los pagos de la deuda externa, se podría predecir el saldo de la cuenta de capitales si en el futuro el gobierno decide refinanciar sus deudas. Así, el valor futuro de X t puede estar dentro del recorrido de la muestra o, como es más frecuente, podríamos estar interesados en la predicción para un valor de X que esté fuera del alcance de la muestra. Recuérdese que es posible realizar dos tipos de tareas predictivas o dos formas distintas de predicción. Éstas son: predicción por puntos o predicción por intervalos, de la misma forma que podemos obtener un estimador para β 12 puntual o por intervalos. Sin embargo, en la práctica una predicción por puntos no es tan confiable sin un indicador de su precisión, por ello es necesario estimar el error de la predicción. Por otro lado, en diversos textos de econometría, la predicción puntual es también llamada individual, pues interesa en predecir un valor individual de la regresión (Y) correspondiente a Xt+1. De esta manera, luego de estimar la ecuación de regresión por MCO, el siguiente objetivo consiste en obtener la mejor predicción de Y correspondiente al valor de Xt+113. Formalmente: Yˆt +1 = αˆ + βˆX t +1

(7.8)

Además, el modelo verdadero en el periodo de predicción (t+1) sería:

Yt +1 = α + βX t +1 + ε t +1

(7.9)

notemos que ε t +1 indica el valor que se obtendría de la distribución de los errores en el periodo de predicción. Para este caso, definimos el error de predicción de la siguiente manera:

eˆt +1 = Yˆt +1 − Yt +1

12 13

Este parámetro es el que se incluye en la regresión de Y sobre X, del modelo teórico ( Y = Xβ + µ ). Recordemos que en el segundo capítulo vimos que el mejor estimador resulta la media de la regresión.

180

Econometría Moderna

Predicción = (αˆ − α ) + ( βˆ − β )X t +1 − ε t +1

(7.10)

Ahora, se verifican sus propiedades: i)

Insesgamiento:

E (eˆt +1 ) = E [(αˆ − α ) + ( βˆ − β ) X t +1 − ε t +1 ] = 0

(7.11)

Este resultado se obtiene debido a que los estimadores MCO ( α , β ) son insesgados y la variable X es conocida para el periodo de predicción (t+1).

ii)

Varianza:  1 ( X t +1 − X ) 2  σ e2t +1 = σ ε2 1 + +  2  T ∑ ( X t +1 − X ) 

(7.12)

Para la demostración de este resultado, se han utilizado las expresiones de las varianzas de los parámetros estimados en el modelo bivariado analizados en el capítulo 2.

[

Var (eˆt +1 ) = Var (αˆ − α ) + ( βˆ − β ) X t +1 − ε t +1

]

= Var (αˆ ) + X t2+1Var ( βˆ ) + 2Cov(αˆ , βˆ ) X t +1 + Var (ε t +1 )

(7.13)

donde:

σ2 σ ε2 Var ( βˆ1 ) = ε = 2 2 ∑ xt ∑ (X t − X )  1 X2 +  Var (αˆ ) = σ ε2   ∑ (X − X )2 T  t   Cov(αˆ , βˆ ) = − X

σ ε2 2 ∑ (Xt − X )

Reemplazando estos valores tenemos:   (2 X ) X t +1 X t2+1 1 X2 + + − + 1 Var (eˆt +1 ) = σ ε2  2 2 2  ∑ (X − X )  T ∑ (Xt − X ) ∑ (X t − X ) t   2  1 (X t +1 − X ) σ 2f = σ ε2 1 + +  T ∑ (X − X )2 t 

   

(7.14)

Nótese que la varianza del error de predicción presenta tres importantes componentes: la varianza de la variable X, el tamaño de la muestra y la desviación existente entre X t + 1 y la

181

Econometría Moderna

Predicción

media de X ( X ). Por otro lado, así como se mencionaron algunas condiciones acerca de los resultados del caso anterior, es importante señalar lo siguiente: i)

Si el tamaño de la muestra (T) es grande, se reduce la varianza, dado que cuando se dispone de mayor información las estimaciones de los parámetros ganan precisión. De esta manera, los mejores pronósticos de Y serán los correspondientes a aquellos valores de X en torno a los cuales se disponga de la mayor información muestral.

ii)

A mayor dispersión de X, la varianza de los estimadores de la ecuación de regresión será menor y por tanto el error de predicción presentará una menor dispersión.

iii)

Si la desviación de Xt+1 con respecto a su media es reducida, la varianza del error de predicción es también reducida. Asimismo, se observa que cuando X t +1 = X , la varianza del error de predicción alcanza su valor mínimo.

iv)

Si el horizonte de predicción es largo, la varianza tenderá a incrementarse, bajo el supuesto que Xt+1 se aleja de X .

Cabe mencionar que, de acuerdo con la expresión (9.10) eˆt +1 es una función de variables que se distribuyen normalmente14, y así presenta la misma distribución. Además, si se conociera el verdadero valor de la varianza del error de predicción se podrían construir intervalos de confianza similares al descrito en (9.7), utilizando el error normalizado. Es decir: eˆt +1 σf

∼ N(0,1)

En la práctica el supuesto anterior no se da, lo cual implica que se debe estimar σ 2f . Así, se obtiene: 2  X t +1 − X  1 (7.15) σˆ 2f = σˆ ε2 1 + + T ∑ ( X t − X )2   

(

)

Estandarizando el error de predicción: Yˆt +1 − Yt +1 σˆ f

∼T(t-k)

Dado que el presente análisis esta dirigido a un modelo de regresión lineal simple, este error normalizado se distribuye según una T de Student con (t-2) grados de libertad. Además, se observa que en la expresión anterior, la única variable desconocida es Yt +1 . De modo que se puede aproximar su valor utilizando un intervalo de confianza del 95%15. Formalmente: Yˆt +1 − t 0.025σˆ f ≤ Yt +1 ≤ Yˆt +1 + t 0.025σˆ f

(7.16)

Si se reemplazan todos los valores de la muestra para X y se obtienen intervalos de confianza para cada una de las variables, así se genera lo que se conoce como “banda de confianza para la Recordemos que los estimadores MCO, ( α , β ) siguen un proceso estocástico y la distribución de cada uno se supone que es la normal. 15 La gráfica muestra como para cada valor de X, la distancia entre la recta de regresión y uno de los límites de confianza es idéntico al doble de la estimación de la desviación estandar de la predicción. 14

182

Econometría Moderna

Predicción

función de regresión poblacional”. Como se sabe, dicha función de regresión poblacional representa, precisamente, la media condicional de Y dados los valores de X. Gráficamente:

Figura 7.2 Intervalos de confianza para una predicción donde los valores de los parámetros son desconocidos.

Una característica importante de las bandas de confianza que se muestran en el gráfico anterior, es que su amplitud aumenta conforme aumenta el horizonte de predicción. Sin embargo, alcanza su menor tamaño cuando X t +1 = X . Lo anterior sugiere que la capacidad de predicción de la línea de regresión muestral decrece a medida que X t +1 se aleja progresivamente de X . Además de la predicción por puntos y por intervalos, analizada en páginas anteriores, se puede estar interesados en calcular el pronóstico de la media condicional de Y para el periodo (t+1) dado los valores de las variables independientes. Este caso será ilustrado, a continuación, con el siguiente ejemplo.

Ejemplo Supóngase que luego de aplicar el método MCO a un conjunto de observaciones se obtiene la siguiente función de regresión muestral: Yˆt +1 = 36.569 + 0.847 X t +1 Sea X t +1 = 75 y se desea predecir el valor medio de Yt+1 dada la información acerca de la variable independiente, E (Yt +1 / X t +1 = 75) . Ahora, se hallará la estimación puntual de esta predicción media ( Yˆ ): t +1

Yˆt +1 = 36.569 + 0.847(75) = 100.094 Puesto que se está estimando el verdadero valor de E (Yt +1 / X t +1 ) mediante Yˆt +1 , es probable que estos dos valores sean diferentes y así se defina un error en la predicción. Con la

183

Econometría Moderna

Predicción

finalidad de evaluar este error, es necesario encontrar la distribución muestral de Yˆt +1 . Así, de la función de regresión muestral se tiene: Yˆt +1 = αˆ + βˆX t +1 Ahora, hallemos el valor esperado de la expresión anterior: E (Yˆt +1 ) = E (αˆ ) + E ( βˆ ) X t +1 = α + βX t +1 esto se cumple porque los estimadores son insesgados, dado a que han sido obtenidos por el método MCO. Así, se obtiene un estimador insesgado de E (Yt +1 / X t +1 ) : E (Yˆt +1 ) = E (Yt +1 / X t +1 ) = α + βX t +1 Ahora, hallemos la varianza del estimador: Var (Yˆt +1 ) = Var (αˆ ) + Var ( βˆ ) X t2+1 + 2 cov(αˆ , βˆ ) X t +1

(7.17)

donde, utilizando las mismas formulas que en el segundo caso16, se tiene el siguiente resultado: 2  1 (X t +1 − X ) Var( Yˆt +1 ) = σˆ f = σˆ ε2  +  T ∑ ( X − X )2 t 

   

(7.18)

Así se demuestra que el estimador del valor futuro de Y se distribuye normalmente, con media y varianza definidas en pasos anteriores. Ahora, se estandariza el error de predicción, para obtener los intervalos de confianza y hacer pruebas de inferencia. Formalmente: Yˆt +1 − (α + βX t +1 ) ≈ T (t − k ) σˆ f Se puede utilizar un intervalo de confianza del 95%, como en el caso anterior, para aproximar el valor de E(Yt+1/Xt+1):

[

]

Prob αˆ + βˆX t + 1 − t 0.025σˆ f ≤ α + βX t + 1 ≤ αˆ + βˆX t + 1 + t 0.025σˆ f = 0.95 Ahora, supongamos que en el ejemplo anterior se tienen 20 observaciones, la media muestral de X es igual a 55 , σˆ ε2 = 2.38 y la varianza muestral de X t es 16.5. Por tanto, la varianza de Yˆ sería: t +1

 1 (75 − 57 )2 + Var (Yˆt +1 ) = 2.38  20 330  = 2.4557

   

16

Notemos que, a diferencia del caso anterior, cuando realizamos una predicción media, se elimina el componente de la varianza del error de la regresión de Yt+1. De esta manera, la varianza del error de predicción, que es lo mismo que la varianza de la estimación deYt+1, es más reducida que el de una predicción puntual.

184

Econometría Moderna

Predicción

Por los procedimientos descritos líneas arriba, se puede construir un intervalo de confianza para la verdadera media de Y dado X t +1 ( E (Yˆt +1 ) = E (Yt +1 / X t +1 ) = α + βX t +1 ). Reemplazando los valores se obtiene: 100.094 − 2.086(2.4557) ≤ α + βX t + 1 ≤ 100.094 + 2.086(2.4557) o, en otros términos: 94.9714 ≤ E (Yt +1 / X t + 1 = 75) ≤ 105.21659 La expresión anterior, se debe leer de la siguiente manera: para un valor de Xt+1=75, en 95 de cada 100 veces los intervalos de confianza incluirán el verdadero valor medio. Del procedimiento anterior se puede deducir que la mejor estimación para este valor es la predicción puntual: 100.094.

Tercer Caso: Predicción condicional En el desarrollo de los casos anteriores se ha mantenido como supuesto que: se conocen de antemano los valores de las variables explicativas. En líneas precedentes, se ha mencionado que este supuesto no refleja, en varias ocasiones, lo que verdaderamente ocurre en la práctica. Esto se explica porque cuando se desea utilizar el modelo para realizar pronósticos ex ante, a veces es necesario prever valores futuros de las variables explicativas antes de realizar las predicciones. Para tenerlo más claro y de un modo más intuitivo, se dirá que la naturaleza estocástica de los valores estimados para las X originarán predicciones de la variable Y menos fiables que los obtenidos en el caso de predicciones incondicionales. Una de las importantes conclusiones que se obtendrán del presente análisis, es que los intervalos de confianza del 95% para el error de predicción son de mayor amplitud cuando también se pronostican los valores de las X. A continuación, se planteará un caso particular de manera simple pero del que se podrá obtener resultados que enriquecerán nuestro análisis. Así, considerando un modelo de regresión bivariado: Yt = α + βX t + ε t

∀ t=1,2,3,...........T

donde εt ∼ N ( 0 ,σ µ2 ) dado que no se conoce con certeza los valores de la variable independiente, se estima su valor futuro (para el periodo t+1). Como se expresa a continuación: Xˆ t +1 = X t +1 + µ t +1

µ ∼ N ( 0 ,σ µ2 )

(7.19)

Además, las variables aleatorias ( ε t , µ t ) no presentan correlación. Es decir el proceso de error asociado con la predicción de X t +1 es independiente del proceso de error asociado con cada una de las Y. A pesar de que es más probable que las variables X sean estocásticas, un supuesto restrictivo utilizado en la estimación por MCO17 y retomado en esta sección es que las variables independientes son determinísticas o frecuentemente denominadas exógenas. La exogeneidad de estas variables se ve reflejada en que no presentan correlación alguna con el 17

Recordemos que en el primer capítulo desarrollamos los supuestos implicados en la estimación por Mínimos Cuadrados Ordinarios, y uno de los supuestos básicos era que las variables independientes no siguen un proceso estocástico. Asimismo, hicimos notar que este supuesto era muy restrictivo.

185

Econometría Moderna

Predicción

término de error presente en la ecuación. Por otro lado, el pronóstico de la variable dependiente resulta: Yˆt +1 = αˆ + βˆ Xˆ t +1

(7.20)

de esta manera, se define el error de pronóstico de la siguiente manera:

eˆt +1 = (αˆ − α) + (βˆ Xˆ t +1 − βX t +1 ) − ε t +1

(7.21)

Siguiendo los procedimientos utilizados en páginas anteriores, se probarán las propiedades de este error: Insesgamiento18: E (eˆt +1 ) = E (αˆ − α) + E βˆ ( X t +1 + µ t +1 ) − β X t +1 − E (ε t +1 ) = 0

[

]

La varianza del pronóstico resulta:

σˆ 2f



= σˆ ε2 1 +  

2 2 1 ( X t +1 − X ) + σ µ + 2 T ∑ (X t − X )

  + β 2σ 2 µ  

(7.22)

Un procedimiento similar al de la demostración de la varianza para el caso anterior se utilizará a continuación. Si el lector tiene alguna dificultad con los cálculos que se describirán en las siguientes líneas, se recomienda revisar el Capítulo 2. eˆt +1 = (αˆ − α ) + ( βˆXˆ t +1 − βX t +1 ) − ε t +1

[

Var (eˆt +1 ) = Var (αˆ − α ) + Var ( βˆXˆ t +1 − βX t +1 ) + 2Cov (αˆ − α )( βˆXˆ t +1 − βX t +1 ) + Var (ε t + 1 )

] (7.23)

Resulta útil, para el desarrollo del segundo y tercer término de la expresión anterior, reemplazar en la expresión anterior la siguiente transformación:

βˆXˆ t +1 − βX t +1 = βˆ ( Xˆ t +1 − X t +1 ) + X t +1 ( βˆ − β ) Así, el segundo término de la expresión (7.23) resulta: Var ( βˆXˆ t +1 − βX t +1 ) = Var ( βˆ ( Xˆ t +1 − X t +1 )) + Var ( X t +1 ( βˆ − β ))

(7.24)

donde: Var( βˆ ( Xˆ t +1 − X t +1 )) = E( βˆ ( Xˆ t +1 − X t +1 )) 2 = E( βˆ 2 ( Xˆ t +1 − X t +1 ) 2 ) E  βˆ 2 ( Xˆ t + 1 − X t + 1 ) 2  =  βˆ 2 + Var ( βˆ )Var ( µ t + 1 )    

18

Esta propiedad se cumple, puesto que el estimador de β no tiene relación con µt+1 .

186

Econometría Moderna

Predicción

para obtener este resultado, se hace uso de la ecuación (7.19), de los supuestos acerca de las perturbaciones estocásticas y de la siguiente relación: βˆ 2 = β 2 + Var ( βˆ ) . Luego, se reemplaza la ecuación (7.24) en la expresión anterior, así se tiene: Var ( βˆXˆ t +1 − βX t +1 ) =  βˆ 2 + Var ( βˆ )Var ( µ t + 1 ) + X t2+1Var ( βˆ )  

(7.25)

Por otro lado, el tercer término de la ecuación (9.23) se reduce a:

[

]

[

]

[

Cov (αˆ − α )( βˆXˆ t +1 − βX t +1 ) = Cov (αˆ − α ) βˆ ( Xˆ t +1 − X t +1 ) + X t +1Cov (αˆ − α )( βˆ − β ) = X t+1Cov(αˆ , βˆ )

]

(7.26)

Por último, reemplazando las ecuaciones (7.25) , (7.26) en la expresión (7.23) y agrupando términos, se obtiene la ecuación correspondiente a la varianza del error de pronóstico para una predicción condicional: Var (et +1 ) = Var (αˆ ) + ( β + Var ( βˆ ))σ µ2 + X t2+1Var ( βˆ ) + 2 X t +1Cov(αˆ , βˆ ) + σ ε2 (7.27) = Var (αˆ ) + Var ( βˆ ) X t2+1 + σ µ2 + 2 X t +1Cov(αˆ , βˆ ) + σ ε2 + β 2σ µ2

[

]

Ahora, como en el segundo caso, se utilizará las expresiones correspondientes a las medidas de dispersión de los estimadores mínimo cuadráticos, desarrolladas en el Capítulo 2. De esta manera, se obtendrá la expresión (7.22) comparable con el resultado obtenido en (7.15). Analicemos comparativamente tales expresiones. Así, se observa que en la ecuación (7.22) se adicionan dos términos positivos. En primer lugar, el último componente de tal expresión indica que dada la estimación de la variable aleatoria X, se incrementa la dispersión del error de predicción, así se comprueba que al introducir supuestos más realistas (el desconocimiento de los valores futuros de las variables independientes) al modelo aumenta la posibilidad de cometer errores en la predicción. En segundo lugar, para conseguir reducir al máximo la expresión (7.22) es necesario que el pronóstico de Xt+1 se obtenga con una varianza mínima o nula. Por el analisis anterior, se deduce que los intervalos de confianza del 95% para una predicción condicional tendrá mayor amplitud que los obtenidos después de efectuar una predicción incondicional. El cálculo se complica cuando se quiere obtener los intervalos de confianza para predicciones condicionales pues se observa que en la expresión (7.21) se incluyen productos de variables aleatorias que se distribuyen normalmente. Así, el pronóstico de la variable dependiente no seguirá una distribución normal como en el caso anterior.

7.6. TEST DE PRONÓSTICO PARA UNA PREDICCIÓN EXPOST Recuérdese que, uno de los test alternativos de residuos recursivos para evaluar la estabilidad de parámetros en un modelo, visto en el Capítulo 619, es el test de predicción de una etapa ("One step forecast test"). El cual se abordará, con mayor detalle, en esta sección. Así, el estadístico Chi- cuadrado para el análisis de una etapa es una prueba de la estabilidad de los parámetros, incluyendo a la varianza del error del modelo de regresión. Lo que hace este

19

Recomendamos revisar la sección 6.2.4 del presente libro para una mejor comprensión de lo descrito en esta sección.

187

Econometría Moderna

Predicción

test es buscar la estabilidad en el periodo extramuestral comparándolo con el valor registrado durante el periodo muestral. Acontinuación se detallará el tratamiento formal:

Test Chi- cuadrado: T +H



eˆt2

2 t =T +1 σˆ ε

≈ χ 2 (H )

donde H representa el número de periodos a pronosticar, el numerador indica una proxy de la varianza del error de pronóstico durante el periodo de predicción y el denominador indica dicha varianza dentro del periodo muestral. Se sabe que toda prueba estadística posee una hipótesis nula, la cual está sujeta a rechazo o aceptación. La hipotesis nula, para este test, indica que no ocurren cambios estructurales en ningún parámetro durante la muestra (periodo de estimación) y el periodo de predicción ex post. De modo que, en las siguientes líneas se denotará β1 al parámetro dentro de la muestra y a β 2 como el parámetro fuera de ella. Un tratamiento similar tendrán las varianzas, formalmente:

H0 :

β1 = β 2

σ ε2 = σ 2f Notése el parecido de esta prueba con el test de Chow, bajo el test de Chow rechazar la hipótesis de estabilidad implica que el modelo es rechazado para todo el periodo muestral. Mientras que en este caso, el rechazar la hipótesis nula implica que el modelo no brinda resultados fiables o exactos para predicciones ex ante. La regla es la siguiente:

Si

χ 2 ≤ χ 2(H )

el modelo predice bien, por tanto se puede usar para predicción ex ante.

Si

χ 2 ≥ χ 2(H )

el modelo no predice bien, no se puede usar para predicción ex ante.

7.7. CRITERIOS

PARA COMPARAR LA CAPACIDAD PREDICTIVA DE MODELOS QUE COMPITEN ENTRE SÍ

Además del test mencionado líneas arriba, exsiten diversos criterios que nos permiten evaluar la calidad de una predicción. Estos criterios son arbitrarios por lo que podrían ser bienvenidos criterios adicionales que sugieran los lectores.. Acontinuación presentaremos los más utilizados en el trabajo aplicado:

188

Econometría Moderna

Predicción

1) Raíz del error cuadrático promedio (ECM). Este indicador lo que busca es obtener el error promedio para un horizonte de predicción. Este se aproxima por la raíz cuadrada del promedio de los errores elevados al cuadrado: RECM=

1 T+H 2 ∑ eˆ t H t =T +1

2) Error absoluto medio. Este indicador busca obtener el error de predicción promedio a través del valor promedio para un horizonte de predicción dado (de H períodos) de los valores absolutos de los errores: T +H



EMA=

t =T +1

eˆt

H

3) Media del valor absoluto del error porcentual. Los dos anteriores indicadores están influencados por las unidades en las cuales están medidas las variables dpendientes de los distintos modelos que se evalúan. Una alternativa propuesta en este indicador es calcular el promedio de los valores absolutos de los errores de predicción para un horizonte de predicción dado con respecto al valor observado de la variable dependiente en cada periodo: EPMA=

1 T + H eˆt ∑ H t =T +1 Yt

4) Coeficiente de desigualdad de Theil: (U de Theil), fue propuesto por Theil en el año 1961 y es el que más se utiliza para evaluar predicciones. Esta prueba lo que busca es tratar de acotar el valor del indicador de bondad de predicción de tal manera que esté en el intervalo (0,1). Una de las versiones que se utiliza de este indicador es la que se presenta a cotinuación:

U=

1 T +H 2 ∑ (Yt − Yˆt ) H t =T +1 1 T +H ˆ 2 1 T +H 2 ∑ Yt + ∑ Yt H t =T +1 H t =T +1

Este indicador muestra, de alguna manera, si la correlación entre los valores predichos y los valores observados en una predición ex-post es alta o baja. Este se puede apreciar en el numerador de la expresión. Dado esto podemos explorar los siguientes casos : •

Si U tiende a cero, el modelo puede ser utilizado para predecir dado que sus pronósticos serán fiables. La razón de que esto sea cero es que el numerador es cero y ello implica que los valores predichos son muy parecidos a los valores observados.



Si U tiende a 1, el modelo el modelo no sirve para predecir sus pronósticos no son reales. Nótese que solamente si Yt Yˆt = 0 (son ortogonales entre sí), el numerador será muy parecido al denominador. No son exactamente iguales porque en el denominador tenemos la suma de las raíces cuadradas y en el numerador tendríamos la raíz cuadrada de la suma de los términos del denominador.

189

Econometría Moderna

Predicción

Usualmente, es recomendable descomponer la U de Theil en tres proporciones. Estas nos dan mayor información acerca de las fuentes del error. Y son utilizadas por algunos programas econométricos o estadísticos. La descompsoción se hace de tal manera que: Sesgo + Varianza + Covarianza =1 La expresión que se utiliza para descompner la U de Theil proviene del error cuadrático de predicción medio, el cual se puede escribir como:

∑ ( yˆ

− y t ) / H = ( yˆ − y ) + (σˆ yˆ − σˆ y ) 2 + 2 (1 − r )σˆ yˆ σˆ y 2

t

Donde: i)

Sesgo (Bias proportion): indica la presencia de algún error sistemático, esto es, si es que se está sub o sobre prediciendo sistemáticamente. Esta proproción debe ser lo más pequeña posible, para considerar al pronóstico confiable. La expresión que se utiliza para computar este proporción es el siguiente:

( yˆ − y )2

∑ ( yˆ

− yt )2 / H

t

El indicador analiza si es que las medias de los valores predichos y valores observados son muy distintas. Como sabemos si se realiza una estiamción el valor promedio de los valores predichos y los valores observados son iguales. En este caso se toma sólo una parte de la muestra y se generan valores predichos con el modelo estimado con una proporción de la muestra. Si los valores de las medias son distintos entonces podremos considerar que existe sesgo en la predicción. ii)

Varianza (Variance proportion): indica la habilidad del pronóstico para replicar la variabilidad de la variable real observada. Si esta proporción es grande significa que el modelo posee menor capacidad para replicar el comportamiento de la serie. Esto se computa a partir de la siguiente expresión:

(σˆ

∑ ( yˆ

− σˆ y ) 2



− yt )2 / H

t

Esta proporción analiza si las predicciones tienen una variabilidad similar a las variables observadas. Se analiza entonces si es que el modelo es capaz de replicar la variabilidad de las observaciones actuales de la variable. iii) Covarianza (Covariance proportion): Esta medida analiza la correlación que existe entre los valores predichos y los valores observados. Se clacula a partir de la siguiente expresión:

2(1 − r )σˆ yˆ σˆ y

∑ ( yˆ

t

− yt ) 2 / H

donde r es el coeficiente de correlación entre los valores predichos y los valores observados.

190

Econometría Moderna

Predicción

!" Comando Eviews Si se desea utilizar el Econometric Views para predecir una variable, se deben realizar todas las pruebas referidas en la sección (X.2) sobre el modelo que explica dicha variable y, después de correr esta regresión, se utiliza la opción Forecast del menú del cuadro de regresión. Dentro de esta opción, se tienen dos sistemas o métodos para realizar la predicción. La conveniencia de utilizar una u otra depende de si el interés está en realizar una predicción ex post o ex ante, o si se utiliza un modelo autorregresivo o no. Estos métodos son los siguientes: i) Dinamic: este método utiliza los valores predichos para realizar las predicciones de modelo de regresión. Hace lo siguiente:

ˆ t +1 = αˆ + βˆ Yt Y ˆ t + 2 = αˆ + βˆ Y ˆ t +1 Y

ii) Static: en este caso se utilizan los valores reales de las variables

ˆ t +1 = αˆ 0 + αˆ 1Yt Y ˆ t + 2 = αˆ 0 + αˆ 1Yt +1 Y

Analicemos, con más detalle, estos dos conceptos. En primer lugar, cuando se dispone de la información necesaria (observaciones para la variable dependiente) se puede utilizar el método estático. De modo que, para hacer predicción ex-post resulta el más adecuado en términos de bondad predictiva porque utiliza los valores reales. Sin embargo, si se desea hacer una predicción fuera de la muestra, no podremos utilizar tal método dadas sus características. En ese caso se utilizará el sistema dinámico. Cabe mencionar que, analizar la bondad predictiva del modelo con la opción static puede sesgar nuestros resultados si luego utilizamos la opción dynamic para la predicción ex ante. A continuación, se plantearemos los siguientes ejemplos para profundizar todos los conocimientos descritos en este Capítulo.

7.8. EJEMPLOS APLICATIVOS Ejemplo Para aclarar estos conceptos se considera el siguiente ejemplo20 donde se busca demostrar la capacidad predictiva de un modelo que incluye la variable dependiente: DEPEND, y los regresores: INDEP1, INDEP2, INDEP3 y DEPEND(-1). Con este propósito, se debe escoger una adecuada muestra de validación (para una predicción ex–post) y un conjunto apropiado de estadísticos de eficiencia predictiva. Es decir, se debe responder a la pregunta: ¿Qué muestra de trabajo (período de estimación), muestra de validación y estadísticos utilizaría, de tal modo que optimice el atractivo de su modelo en términos de bondad predictiva? 20

Primera pregunta del Exámen Parcial del curso Ïnformática para Economistas de la Universidad del Pacífico.

191

Econometría Moderna

Predicción

Así, el modelo cuya bondad predictiva se desea evaluar es el siguiente:

depend = β 0 + β 1indep1 + β 2 indep 2 + β 3indep3 + β 4 depend (−1) + µ

Date: 06/14/98 Time: 23:39 Sample: 2 200 Included observations: 199 Variable

Coefficient

Std. Error

t-Statistic

Prob.

C INDEP1 INDEP2 INDEP3 DEPEND(-1)

213.0174 3.442259 1.023553 2.515853 0.302066

85.88013 0.406753 0.010462 1.402607 0.009614

2.480404 8.462785 97.83736 1.793698 31.41787

0.0140 0.0000 0.0000 0.0744 0.0000

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.981684 0.981307 16.94872 55728.25 -843.045 1.775883

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

1236.272 123.9630 5.685189 5.767935 2599.484 0.000000

Según la sección (7.2), el primer paso para comprobar la bondad predictiva de un modelo consiste en verificar la no-existencia de algún tipo de problema, así se debe comprobar que: • • • • •

El error del modelo se distribuye normalmente (Test de normalidad del error - Jarque Bera). El modelo está bien especificado (Test de Ramsey) Los parámetros son estables (Test CUSUM cuadrado). El error del modelo no presenta heterocedasticidad (Test de White) El error no se encuentra autocorrelacionado (Test de Breusch-Godfrey).

Pruebas estadísticas Ahora, se probará si nuestro modelo cumple con los requisitos antes descritos. De esta manera, se empieza con probar la normalidad del error, utilizando el test de normalidad (JarqueBera)

192

Econometría Moderna

Predicción

20 Series: Residuals Sample 2 200 Observations 199

15 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis

10

5

Jarque-Bera Probability

0 -50.0 -37.5 -25.0 -12.5

0.0

12.5

25.0

-2.56E-14 -0.504959 44.16566 -48.35876 16.77665 0.074088 2.999243 0.182058 0.912991

37.5

Dado que ya se conoce la hipótesis nula de este tipo de test, sólamente se dirá que la probabiliadad asociada al estadístico indica que la hipótesis nula de normalidad del error es no rechazada (aceptada en el argot común). Luego se prueba la especificación del modelo, con el test RESETde Ramsey. Así, después de correr la regresión en el Econometrics Views y de realizar la prueba correspondiente, se obtiene los siguientes resultados, en resumen:

Ramsey RESET Test: F-statistic Log likelihood ratio

0.807717 2.508764

Probability Probability

0.490998 0.473709

Test Equation LS// Dependent Variable is DEPEND Sample: 2 200 Included observations:199

Notemos que, la probabilidad asociada al F estadístico del test de Ramsey RESET es igual a 0.49. Por lo que no se puede rechazar la hipótesis nula de que el modelo está bien especificado. Es decir que todos los regresores cumplen con el objetivo de explicar bien el modelo. Ahora, se prueba la estabilidad de los coeficientes. Los siguientes test fueron estudiados en el Capítulo (6) del presente libro: Tests de Estabilidad de Parámetros: A) Test Cusum cuadrado B) Test de parámetros recursivos

193

Econometría Moderna

Predicción

7

1.10

6

1.2

1.05

5 4

1.00 3

1.0

2

0.95

1 0

0.90 20

0.8

40

60

80

100

120

140

160

Recursive C(1) Estimates

180

200

40

60

80

100

120

140

160

Recursive C(2) Estimates

15

0.6

20

± 2 S.E.

180

200

± 2 S.E.

0.34 0.32

10

0.30 0.28

5

0.26

0.4

0

0.24 0.22

-5

0.20

0.2

-10

0.18 20

40

60

80

100

120

140

160

Recursive C(3) Estimates

0.0

180

200

20

± 2 S.E.

40

60

80

100

Recursive C(4) Estimates

120

140

160

180

200

± 2 S.E.

1200

800

400

-0.2 20 40 60 80 100 120 140 160 180 200

0

-400

CUSUMof Squares

5% Significance

-800 20

40

60

80

100

Recursive C(5) Estimates

120

140

160

180

200

± 2 S.E.

El Test de CumsumQ, señala de modo gráfico que los parámetros hallados para la muestra utilizada son estables a lo largo de la misma. Sin embargo, se observa que el valor del test toca la banda de confianza alrededor del intervalo 115 a 120. Para asegurar de que no existe quiebre en esos periodos se utiliza un prueba mas potente como es el Test de Chow para los periodos desde 115 a 120, el resultado de estos tests fue que no se puede aceptar la presencia de quiebre estructural de los parámetros. Es necesario recordar que la prueba de estabilidad de parámetros es muy importante al momento de evaluar la bondad de predicción de un modelo. Si se tiene que una determinada muestra presenta muchos quiebres, se tiene que enfrentar la probabilidad que en el futuro los parámetros también cambien de valor por lo que el modelo perdería su capacidad predictiva.

White Heteroskedasticity Test: F-statistic Obs*R-squared

2.455404 18.64598

Probability Probability

0.014944 0.016872

Test Equation: LS // Dependent Variable is RESID^2 Sample: 2 200 Included observations: 199 Por el cuadro anterior se observa que existe evidencia de heterocedasticidad, problema que comúnmente debe ser solucionado antes de realizar una predicción. Pero, recuérdese la intuición que está detrás de un error heterocedástico. La heterocedasticidad hace que σ2µ deje de ser una constante y por tanto un supuesto básico de la regresión por MCO se violaría. Así, la varianza del error del modelo de regresión sería una función del tiempo. Lo cual deberá tomarse en cuenta al momento de calcular la amplitud de los intervalos de confianza. De esta manera, la heterocedasticidad parece afectar al modo como se hallan los intervalos de confianza más no a la predicción misma, lo cual sí sucede con la autocorrelación.

194

Econometría Moderna

Predicción

En consecuencia, para efectos del ejemplo presentado, se decide dejar de lado el problema de la heterocedasticidad. Pues, como se ha señalado, ésta no afectará a la predicción en sí. A continuación se probará la autocorrelación del error.

Breusch-Godfrey Serial Correlation LM Test: F-statistic Obs*R-squared

0.845386 4.353219

Probability Probability

0.519123 0.499759

Test Equation: LS // Dependent Variable is RESID

El Test de Breusch-Godfrey nos señala que no existe suficiente evidencia estadística para confirmar la presencia de autocorrelación del error en el modelo. La autocorrelación, a diferencia de la heterocedasticidad, sí altera el modo de generar las predicciones numéricas. Por ello, si los resultados hubieran sido desfavorables tendríamos que resolver el problema utilizando los métodos ya estudiados en el Capítulo 8.

Evaluación de la predicción Como primer paso para evaluar la predicción del modelo se elige una muestra de validación al azar, por ejemplo las 5 últimas observaciones. Al aplicar la opción forecast static del E-Views resulta lo siguiente:

Actual: DEPEND Forecast: DEPENDF Sample: 195 200 Include observations: 6 Root Mean Squared Error Mean Absolute Error Mean Absolute Percentage Error Theil Inequality Coefficient Bias Proportion Variance Proportion Covariance Proportion

23.32726 19.21309 1.570302 0.009255 0.133292 0.034349 0.832359

Como se observa en el cuadro de regresión precedente, el modelo parece adecuado para predecir, pues el estadístico U propuesto por Theil, es muy cercano a cero. Por otro lado, el sesgo y la varianza son relativamente pequeños mientras que la covarianza entre la variable observada y la predicha es grande. En otras palabras, están altamente correlacionadas, lo cual es favorable para la predicción. El problema planteado consiste en hallar la muestra de validación con la cual se obtenga la mejor prueba de la bondad predictiva del modelo. Para tal fin, es recomendable utilizar un procedimiento estático dado que éste utiliza los valores observados de la variable dependiente rezagada que se halla dentro del modelo en lugar de los predichos.

195

Econometría Moderna

Predicción

Para evaluar las distintas predicciones se decide utilizar el estadístico de la U de Theil y el Error cuadrático medio. Pues, como se ha desarrollado en páginas anteriores, el primer estadístico no enfrenta el problema de unidades de medida, y es el más confiable de los estadísticos de predicción. Luego, para encontrar estos estadísticos en cada muestra de validación se elaboró el un programa en E-Views que se presenta en el anexo 7.1. Al correr el programa y observar la tabla “TABLA” vemos que la mejor U de Theil así como el menor error cuadrático medio corresponden a la muestra de validación desde 164 a 200.

mejor # utheil 163.00000

mejor utheil 0.0059560

mejor # ecm 163.00000

mejor ecm 15.037422

Donde: Mejor # utheil Mejor utheil Mejor # ecm Mejor ecm

= tiempo de la última observación antes del primer momento de la muestra de validación con la menor U de Theil. = la menor U de Theil de las diferentes muestras de validación evaluadas. = tiempo de la última observación antes del primer momento de la muestra de validación con el menor error cuadrático medio. = el menor error cuadrático medio de las diferentes muestras de validación evaluadas.

ANEXO 7.1 'PROGRAMA PARA HALLAR LA MEJOR MUESTRA DE VALIDACIÓN ÓPTIMA '============================================================== 'En la primera parte se definen los valores que serán utilizados a lo largo del programa, las primeras tres variables toman el valor de la última observación a partir de la cual se desea realizar una predicción ex post (si son iguales a 155, se tomará pruebas expost a partir de 156, calculando los parámetros hasta 155, luego se hará la prueba expost a partir de 157 hasta 200, tomando los parámetros con la muestra tomada hasta 156 y así sucesivamente). 'El total indica el número de observaciones conque se trabaja. Por otro lado el !menutheil será utilizado para considerar los u de Theil menores al valor indicado, y el !menecm indicará cuál es el mínimo error cuadrático medio con el que al final del programa se trabajará. '!col será utilizada porque indica el numero total de regresiones que se tendrán. !q=150 !per=150 !ult=150 !k=!q-1 !total=200 !col=200+1-!q equation temp matrix(5,!col) betas=0 !menutheil=1 !menecm=1000 %0 %1 %2 %3

196

Econometría Moderna

Predicción

'============================================================== 'En esta parte del programa se busca hallar los coeficientes estimados, con los que se "predecirá" en la predicción expost y se evaluará la bondad de dicha predicción. Para ello, se comienza corriendo una regresión de las variables a utilizar con una muestra desde 1 hasta la señalada en !q (donde se parte la muestra), los coeficientes obtenidos sin guardados en una matriz denominada "betas". Luego, se hallarán los parámetros de la regresión que usa una muestra desde 1 hasta !q+1 (156 en este caso) y así sucesivamente hasta utilizar la muestra entera, y guardar todos los parámetros obtenidos en las !col regresiones dentro de la matriz creada. while !q 0.8). Bajo estas circunstancias, el estadístico F indicará que no todos los coeficientes de regresión serán cero a la vez, pues con el coeficiente de determinación se concluyó que las explicativas eran relevantes. Sin embargo, la existencia de t bajos indica que se aceptarán las hipótesis de nulidad de los regresores para varias explicativas consideradas individualmente, contradiciendo los resultados anteriores. Aunque este diagnóstico es razonable, su desventaja es que “es demasiado fuerte, en el sentido de que la multicolinealidad se considera dañina, únicamente cuando la totalidad de las influencias de las variables explicativas sobre Y no se pueden separar12”

9.3.2 Altas correlaciones entre los regresores Si el coeficiente de correlación simple, de orden cero, o entre dos regresores, es alto (mayor a 0.8) entonces, la multicolinealidad constituye un problema grave. Sin embargo, esta correlación no es imprescindible para que exista multicolinealidad fuerte. Las correlaciones de orden cero elevadas son una condición suficiente pero no necesaria para la existencia de multicolinealidad debido a que ésta puede existir a pesar de que dichas correlaciones sean comparativamente bajas (menores a 0.5). En los modelos que involucran más de dos variables independientes, el coeficiente de correlación simple no proporciona una guía infalible sobre la presencia de multicolinealidad. Sin embargo, si sólo existen dos variables independientes y están correlacionadas, es obvio que este indicador será suficiente.

9.3.3 Test de Farrar Glauber A pesar de que la prueba de Farrar Glauber ha sido criticada por economistas como T. Krishna Kumar, John O´Hagan y Brendan McCabe, esta es una de las más completas y fidedignas para detectar multicolinealidad grave en un modelo de regresión, sobre todo si éste consta de más de dos variables explicativas.

12

Jan Kmenta, Elements of Econometrics.

276

Econometría Moderna

Multicolinealidad

Este test consta de tres etapas: i) Test de Ortogonalidad (χ χ2): En esta etapa se busca evaluar la ortogonalidad de las variables independientes. Si el resultado de la evaluación arroja que se rechaza la hipótesis de existencia de ortogonalidad, entonces se aceptará la posibilidad de existencia de multicolinealidad y se pasa a la segunda etapa. H0 : las X son ortogonales. H1 : las X no son ortogonales. El estadístico relevante para esta etapa del test se construye a partir de la siguiente relación: (2 k + 5)   * ln ( valor del determinante estandarizado) χ 2 calc = − n − 1 − 6   χ2calc ❞ χ2 (k(k-1))/2 g.l.

donde: χ2calc : es el valor estimado de χ2 n : es el tamaño de la muestra k : es el numero de variables asociadas a pendientes (sin incluir el intercepto) Para hallar el determinante estandarizado se construye la matriz de correlación. Para tres variables explicativas, por ejemplo, la matriz de correlación vendría dada por:  1 R =  rx 3x 2 rx 4 x 2

rx 2 x 3 1 rx 4 x 3

rx 2 x 4  rx 3x 4  1 

|R| = valor del determinante estandarizado • Si χ2calc > χ2 tabla se rechaza el supuesto de ortogonalidad, se acepta que los X no son ortogonales. • Si χ2calc < χ2 tabla se acepta el supuesto de ortogonalidad. Mientras más alto sea el χ2 estimado, más severo será el grado de la multicolinealidad entre las variables explicativas.

ii) Test F: En esta segunda etapa, luego de haber detectado que las variables predeterminadas no son ortogonales, se regresiona cada explicativa contra el resto de independientes para ver cuál de éstas está más colineada conjuntamente con las demás. Se observa el coeficiente de determinación de cada regresión y se selecciona aquella variable explicativa que, tras haber sido regresionada con las demás en conjunto, arroje el F estimado más alto. 277

Econometría Moderna

x2 = f (x3,...,xk) x3 = f (x2,x4...,xk)

Multicolinealidad

→ →

R2x2 . x3, x4, ..., xk R2x3 . x2, x4, ..., xk

y así hasta xk H0 : H1 :

R2xi . x2,x3, x4, ..., xk = 0 R2xi . x2,x3, x4, ..., xk ≠ 0 Fi =

R 2 x i . x 2 , x 3 , x 4 , ... , x k / (k - 1)

(1 - R 2 x i . x 2 , x 3 , x 4 , ... , x k ) / (n − k)

❞ F(k-1, n-k)

• Si Fi > Ftabla se acepta la hipótesis alternante, es decir que la variable xi está colineada con las demás explicativas. • Si Fi < Ftabla se acepta la hipótesis planteada, entonces la multicolinealidad no existe. Conociendo el F más alto y contrastándolo contra el valor en tablas, se sabrá cuál es la relación dominante entre las variables explicativas.

iii) Test t: En esta última etapa se hallan los coeficientes de correlación parcial para conocer con cual variable explicativa está más relacionada la variable seleccionada en la etapa anterior. H0 : H1 :

rxixj . x2,x3, x4, ..., xk = 0 rxixj . x2,x3, x4, ..., xk ≠ 0

t=

r x i x j . x 2 , x 3 , x 4 , ... , x k

n-k

(1 - rx i x j . x 2 , x 3 , x 4 , ... , x k )

❞ t( n-k)

• Si t > t tabla se acepta la hipótesis alternante, entonces la multicolinealidad es alta. • Si t < t tabla se acepta la hipótesis planteada, es decir que la variable xi no está colineada con la variable xj entonces, se puede convivir con multicolinealidad.

9.4. ¿QUÉ HACER FRENTE A LA MULTICOLINEALIDAD? Las siguientes son algunas de las soluciones al problema de multicolinealidad.

9.4.1 Regresión por cordillera Una de las soluciones que se emplea con más frecuencia para curar el problema de la multicolinealidad es el uso de la regresión por cordillera. En términos generales, la idea consiste en añadir una constante (λ) a las varianzas de las variables explicativas (es decir, a los

278

Econometría Moderna

Multicolinealidad

elementos de la diagonal de la matriz X´X) antes de resolver las ecuaciones normales de modo que las intercorrelaciones se reducen.

Ejemplo: Para entender la aplicación del método de regresión por cordillera, se hará uso del siguiente programa: Programa 9.1 !" workfile cordillera u 100 genr x1=nrnd genr x2= x1+nrnd/1000 genr y = x1 + x2+ nrnd/5 equation eq1.ls y x1 x2 c smpl 1 99 equation eq2.ls y x1 x2 c smpl 1 100 matrix (100,3) mtx genr c1=1 group g1 c1 x1 x2 stom(g1,mtx) matrix (3,100) mtxt=@transpose(mtx) matrix (3,3) mtxx = mtxt*mtx matrix (100,1) mty stom(y,mty) matrix (3,1) mtxy =mtxt*mty matrix (3,1) mtb0 = (@inverse(mtxx))*mtxy vector v1=@rowextract(@columnextract (mtxx,3),2) vector v2=@rowextract(@columnextract (mtxx,2),2) vector v3=@rowextract(@columnextract (mtxx,3),3) mtos(v1,s23) mtos(v2,s22) mtos(v3,s33) smpl 1 1 genr r23=(s23*s23)/(s22*s33) smpl 1 100 scalar l1=0.05 scalar l2=0.5 scalar l3=1.5 scalar l4=5 scalar l5=7.5 scalar l6=10 scalar l7=20 matrix (3,3) matri = @identity(3) for !x=1 to 7 matrix (3,3) sum{!x} = l{!x}*matri matrix (3,3) cord{!x} = mtxx+sum{!x} matrix (3,1) mtb{!x} = (@inverse(cord{!x}))*mtxy vector v1{!x}=@rowextract(@columnextract (cord{!x},3),2)

279

Econometría Moderna

Multicolinealidad

vector v2{!x}=@rowextract(@columnextract (cord{!x},2),2) vector v3{!x}=@rowextract(@columnextract (cord{!x},3),3) mtos(v1{!x},s23{!x}) mtos(v2{!x},s22{!x}) mtos(v3{!x},s33{!x}) smpl 1 1 genr r23{!x}=(s23{!x}*s23{!x})/(s22{!x}*s33{!x}) smpl 1 100 next

Resultados !" LS // Dependent Variable is Y Sample: 1 100 Included observations: 100 Variable

Coefficient

Std. Error

t-Statistic

Prob.

X1 X2 C

-29.18545 31.16150 -0.020095

24.22895 24.23263 0.024123

-1.204569 1.285931 -0.833029

0.2313 0.2015 0.4069

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.987414 0.987155 0.238919 5.536988 2.792123 2.235130

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-0.258300 2.108048 -2.833719 -2.755564 3805.078 0.000000

LS // Dependent Variable is Y Sample: 1 99 Included observations: 99 Variable

Coefficient

Std. Error

t-Statistic

Prob.

X1 X2 C

-37.74754 39.72551 -0.024270

24.79090 24.79477 0.024152

-1.522637 1.602173 -1.004866

0.1311 0.1124 0.3175

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.987688 0.987431 0.237533 5.416525 3.355522 2.174848

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-0.257176 2.118746 -2.845059 -2.766419 3850.559 0.000000

Como se observa, el programa genera series colineales (x1 y x2) y corre dos regresiones: una con todos los elementos del espacio muestral y otra con un elemento menos. Al analizar los resultados y comparar los coeficientes de los regresores, se aprecia un cambio drástico en la magnitud de los mismos, esto es un síntoma evidente de la existencia de la multicolinealidad. Así mismo, los altos coeficientes de determinación en ambas regresiones indican que la bondad de ajuste es buena, de igual manera, el test de probabilidad conjunta (F) indica que se rechaza la hipótesis de nulidad conjunta de los coeficientes de los regresores; sin embargo los test de 280

Econometría Moderna

Multicolinealidad

probabilidad individual (t) indican que los regresores no son significativos, como ya se explicó, éste es otro síntoma de la existencia de multicolinealidad severa. Ante este problema, se procede a construir la matriz X´X para poder añadir el coeficiente λ a la diagonal, así, la matriz original X´X para la muestra completa (100 observaciones) es la siguiente:

MATRIZ X´X C X1 X2

c 100 -12.205275 -12.195719

x1 -12.205275 113.252169 113.233954

x2 -12.195719 113.233954 113.215839

Con estos datos, se puede hallar el coeficiente de correlación entre las variables x1 y x2, que por los comandos del programa, se sabe, son las variables colineadas13: 2 r23

=

(S 23 )2

S 22 * S 33 (113.233953713) 2 r232 = = 0.999999136234 113.252169258 * 113.21583889 El resultado obtenido era esperado, pues al ser las variables x1 y x2 colineadas, el coeficiente de correlación entre éstas debe ser muy cercano a la unidad. Sin embargo, luego de sumar el coeficiente λ a la diagonal de X´X, los coeficientes de correlación disminuyen puesto que se incrementan los factores que componen el denominador de este estadístico. Así, si λ = 5, se tendrá: 2 r23

r232 =

=

(S 23 )2 ( S 22 + 5) * ( S 33 + 5)

(113.233953713) 2 = 0.917209529644 (113.252169258 + 5) * (113.21583889 + 5)

Es fácil observar que se trata de una solución mecánica. A medida que los valores de λ se incrementen, el coeficiente de correlación irá disminuyendo. ρ232

β0cordillera β1cordillera β2cordillera

λ=0 (ΜΧΟ) 0.999999 −0.020095 −29.18545 31.16150

λ=0.05 0.999117 −0.01781 0.95628 1.01474

λ=0.5 0.991226 −0.018216 0.980678 0.986394

λ=1 λ=5 0.974023 0.917210 −0.019085 −0.021924 0.978272 0.964000 0.980078 0.964439

λ=7.5 0.879618 −0.023775 0.953698 0.953942

λ=10 0.844291 −0.025491 0.943573 0.943721

λ=20 0.722309 −0.031210 0.905074 0.905081

Los estimadores hallados por el método de regresión por cordillera son sesgados, puesto que se obtienen distorsionando la diagonal de la matriz X´X. Referente a este aspecto, cabe mencionar que la transformación de la matriz X´X puede realizarse de dos modos:

13

La segunda línea del programa genera una variable aleatoria distribuida como una normal. En seguida, la tercera línea genera otra variable igual a la anterior más una perturbación poco significativa (observar la división entre 1000) −1 [X´X + λΙ] X

281

Econometría Moderna •

Multicolinealidad

El primero de ellos, que da origen al estimador de regresión por cordillera simple consiste en seguir el procedimiento detallado en la sección anterior, es decir sumar un escalar λ a los elementos de la diagonal de X´X: β cordillera = [X´X + λΙ]−1X´Y donde I es una matriz identidad

• El segundo método da origen al estimador por cordillera estricto y consiste en multiplicar los elementos de la diagonal de la matriz X´X por un escalar λ=1+ρ: β cordillera = [X´X + ρD]−1X´Y donde D es una matriz diagonal que contiene los elementos de la diagonal de X´X En el ambos casos,. la adición de λ a las varianzas produce estimadores sesgados14 pero el argumento es que si la varianza puede reducirse15, bajará el error cuadrático medio. Hoerl y Kennard demuestran que existe siempre una constante λ>0 tal que k

k

i =1

i =1

∑ MSE (βi * *) < ∑ MSE (βi*) donde β i** son los estimadores de β i a partir de la regresión por cordillera, β i* los estimadores MCO y k es el número de regresiones. Por desgracia, λ es una función de los parámetros de regresión y la varianza de error, que son desconocidos. Sin embargo, Hoerl y Kennard sugieren que se pruebe con diferentes valores de λ y se elija el valor de modo que el sistema se “estabilice” o los coeficientes no tengan valores poco razonables, por tanto, argumentos subjetivos. Algunos otros han sugerido obtener estimados iniciales de bi y s2 y después utilizar el λ estimado. Es posible iterar este procedimiento y obtener el estimador por cordillera iterado. La utilidad de este procedimiento también ha sido cuestionada. Otro problema sobre la regresión por cordillera es el hecho de que no es invariante ante las unidades de medida de las variables explicativas y transformaciones lineales de las variables. Si se tienen dos variables explicativas x1 y x2 , y x1 se mide en decenas y x2 en millares, no tiene sentido sumar el mismo valor de λ a las varianzas de ambas. Es posible evitar este problema si se normaliza cada variable dividiéndola entre su desviación estándar. Aún sí x1 y x2 se miden en unidades similares, en algunos casos hay diferentes transformaciones lineales de x1 y x2 que tienen la misma sensibilidad. Existen situaciones diferentes bajo las cuales la regresión por cordillera surge en forma natural. Estas permiten entender las circunstancias bajo las cuales el método podrá ser útil. A continuación mencionaremos dos de ellas.

i) Mínimos cuadrados restringidos Suponga que se estima los coeficientes de regresión sujetos a la condición de que 14

E [ β cordillera] = [X´X + λΙ]−1X´Xβ

15

Var [ β cordillera] = σ2 [X´X + λΙ]−1X´X[X´X + λΙ]−1

282

Econometría Moderna

Multicolinealidad

k



bi2 = c

i =1

entonces se obtendría algo similar a la regresión por cordillera. La λ que se utiliza es el multiplicador de Lagrange en la minimización. Para observarlo, suponga que se tienen dos variables explicativas. Se tiene el estimador de mínimos cuadrados restringidos minimizado: S(y - b1x1 - b2x2)2 + λ( b12 + b22-c) donde λ es el multiplicador de Lagrange. Al diferenciar esta expresión con respecto a b1 y b2 e igualar las derivadas con cero, se obtienen las ecuaciones normales: 2S(y - b1x1 - b2x2)(-x1) +2λb1 = 0 2S(y - b1x1 - b2x2)(-x2) +2λb2 = 0 Estas ecuaciones pueden escribirse como (S11 + λ) b1 + S12 b2 = S1y S12b1 + (S22 + λ)b2 = S2y en donde S11 = S x12, S12 = S x1x2 , etcétera. Por lo tanto, se obtiene la regresión por cordillera y λ es el multiplicador de Lagrange. El valor de λ se decide por el criterio b12 + b22 = c. En este caso, el procedimiento para elegir λ es claro. Rara vez se da el caso en el que se conoce previamente la bi que se encuentra en la forma Sbi2=c.Pero también puede utilizarse alguna información menos concreta para elegir el valor de λ en la regresión por cordillera. La regresión por cordillera de Brown y Beattie sobre los datos de la función de producción utiliza el conocimiento previo de las relaciones entre los signos de las bi .

ii) Interpretación de los errores de medida Considérese un modelo de dos variables con mínimos cuadrados restringidos. Supóngase que se añade errores aleatorios con media igual a cero y varianza λ tanto para x1 como para x2. Dado que estos errores son aleatorios, no afectan la covarianza entre x1 y x2. Las varianzas de x1 y x2 se incrementarán en λ. Por lo tanto, se obtiene el estimador de regresión por cordillera. Esta interpretación hace que el estimador por cordillera sea un poco sospechoso. Smith y Campbell dicen que esta interpretación se resume en la frase: “úsense datos menos precisos para obtener estimados más exactos”. Estas son situaciones en las que es fácil justificar la regresión por cordillera. En casi todos los demás casos, se involucra un juicio subjetivo que a veces se equipara con una “vaga información previa”. Los métodos bayesianos permiten un análisis sistemático de los datos con una vaga información previa.

283

Econometría Moderna

Multicolinealidad

Debido a las deficiencias ya discutidas de la regresión por cordillera, este método no se recomienda como solución general al problema de la multicolinealidad. En particular, la forma más sencilla del método (donde una constante λ se agrega a cada varianza) no tiene demasiada utilidad.

9.4.2 Regresión por componentes principales Otra solución que muchas veces se sugiere para el problema de la multicolinealidad es la regresión por componentes principales. Esta cura implica un procedimiento más sofisticado pero a la vez permite una mejor comprensión intuitiva de la solución al problema de la multicolinealidad. Supongamos que tenemos k variables explicativas. Entonces es posible considerar algunas funciones lineales de estas variables: z1 = a1x1 + a2x2 + … + akxk z2 = b1x1 + b2x2 + … + bkxk etc. Supongamos que los coeficientes que acompañan a los regresores xi (ai) se eligen de modo tal que la varianza de z1 se maximice, sujeta a la condición de que a12 + a22 + … + ak2 = 1 Esto se conoce como condición de normalización. (Es necesaria, o de otro modo la varianza de z1 se elevará en forma indefinida). Se dice entonces, que z1 es el primer componente principal. Es la función lineal de las x que tiene la mayor varianza (sujeta a la regla de la normalización). Lo que se ha hecho hasta esta etapa es generar combinaciones lineales de los regresores (que originalmente presentaban alta correlación lineal) que presenten conjuntamente una dispersión elevada, se maximiza la varianza. Esto se realiza con el propósito de formar grupos de componentes principales que serán empleados como regresores en lugar de las variables originales (como estos componentes principales tienen alta varianza, no estarán correlacionados entre sí) El proceso de maximizar la varianza de la función lineal z sujeta la condición de que el cuadrado de la suma de los coeficientes de las x es igual a uno, produce k soluciones. Correspondiendo a esto, se construyen k funciones lineales, z1,z2,…zk. Estas se conocen como componentes principales de las x. Pueden ordenarse de manera que var(z1) > var(z2) > . . . > var(zk) z1, la que tiene mayor varianza, se conoce como primer componente principal, z2 es la siguiente varianza más grande y se conoce como segundo componente principal, y así sucesivamente. Estos componentes principales tienen las siguientes propiedades: 1. var(z1) + var(z2) + … + var(zk) = var(x1) + var(x2) + … + var(xk). 2. A diferencia de las x que están correlacionadas, las z son ortogonales o no correlacionadas.

Por lo tanto no existe multicolinealidad entre ellas. A veces se sugiere que, en lugar de regresionar y sobre x1, x2, … , xk, deberá regresarse sobre z1, z2, … zk. Pero esto no soluciona el problema de multicolinealidad. Si se regresara y sobre las z y después se sustituyeran los valores de éstas en términos de las x, al final se obtendría las mismas respuestas que antes. El hecho de que las z carezcan de correlación no significa que se obtendrán mejores estimaciones de los coeficientes en la ecuación original de

284

Econometría Moderna

Multicolinealidad

regresión. De modo que es válido utilizar los componentes principales sólo si se regresa y sobre un conjunto de las z. Pero este procedimiento representa también algunos problemas. Estos son: 1. El primer componente principal z1, si bien es el que tiene la mayor varianza, no necesariamente tiene la mayor correlación con y. De hecho, no necesariamente existe una relación entre el orden de los componentes principales y el grado de correlación con la variable dependiente y. 2. Es posible pensar en elegir sólo aquellos componentes principales que tengan una alta correlación con y y eliminar el resto, pero se puede usar el mismo tipo de procedimiento con el conjunto original de variables x1,x2, …, xk si se elige primero la variable que tiene la máxima correlación con y, después la que posee la correlación parcial más elevada, y así sucesivamente; esto es lo que hacen los “programas de regresión por pasos”. 3. Muchas veces las combinaciones lineales z no tiene significado en términos económicos. Por ejemplo, ¿qué significa 2 (ingreso)+ 3 (precio)? Este es uno de los inconvenientes más importantes del método. 4. Al cambiar las unidades de medición de las x se modificarán los componentes principales. Es posible evitar este problema si se estandarizan todas las variables para tener una varianza unitaria.

Derivación formal de los estimadores generados por componentes principales. Sea z1 una combinación lineal de todos los regresores, tal que: z1 = X.c1

16

Como el coeficiente de determinación (R2) de la regresión de cualquier columna de X sobre z1 será el mismo para cualquier escalar múltiplo de c1, se impone una restricción para levantar esta indeterminación: z1´z1 = 1 Para cada columna (xk) de la matriz de información (X), la suma de errores al cuadrado será igual a: ek´ek = xk´[I - z1 (z1 ´z1)-1 z1´]xk17 considerando la restricción: ek´ek = xk´[I - z1 z1´]xk Generalizando, para todas las columnas de X, se busca minimizar : 16 La matriz X de orden nxk contiene en cada columna a las observaciones correspondientes a cada una de las variables explicativas. Uno de los supuestos básicos del modelo de regresión lineal considera que las k columnas deben ser linealmente independientes para garantizar la no singularidad de la matriz X´X. Sin embargo, generalmente se tiene menos de k fuentes de información verdaderamente independientes, es decir menos fuentes de variación. El uso del método de componentes principales es un intento de extraer de la matriz de información X aquellas variables que representen la mayor (o toda) la fuente de variación de X. 17 x = zβ e = x - zβMCO e ‘= x’ - βMCO’.z’ e’e = x’x - x’z βMCO - βMCO’z’x + βMCO’z’z βMCO e’e = x’x - x’z (z’z)-1z’x - x’z(z’z)-1z’x + x’z(z’z)-1z’z(z’z)-1z’x e’e = x’(I- z(z’z)-1z’)x

285

Econometría Moderna

Multicolinealidad

K

∑ ek ' ek = tr ( X ' (I − zk ' zk ) X )

18

k =1

sujeta a la restricción ya enunciada. Esto equivale a maximizar el sustrayendo de esta ecuación, con lo cual se elabora el siguiente Lagrangiano:

L = tr(X’z1z1’X) + λ(1−z1’z1) Permutando la traza y considerando que z1 = x.c1, se deduce que:

L = c1’(X’X)2c1 + λ(1−c1’(X’X)c1)19 Ahora que se tiene el Lagrangiano en función de c1 se halla la condición de primer orden derivando L respecto a c1 (recuerde que lo que se pretende es armar los componentes principales, que son combinaciones lineales de los regresores ponderados por coeficientes c1, por ello, se trata de encontrar estos ponderadores): ∂L 2(X’X)2c1 - 2 λ(X’X)c1 = 0 = ∂c1 (X’X)c1 - λ c1 = 0

((X’X) - λ)c1 = 0 (X’X) =λ

20

Teniendo esto en cuenta se observa que se debe maximizar :

L = c1’(X’X)2c1 + λ(1−c1’(X’X)c1) = λ 2(c1’c1) + λ(1− λ(c1’c1)) pero (c1’c1)=1 entonces:

L = λ 2 + λ(1− λ) = λ Por lo tanto, para maximizar el lagrangiano, se debe elegir un vector característico (c1) asociado a la mayor raíz característica (λ). Con esto se habrá obtenido la combinación lineal de mayor varianza (el primer componente principal) Estos pasos pueden ser repetidos en búsqueda de una segunda combinación lineal de los regresores originales (columnas de X) teniendo en cuenta el mismo criterio y además que esta segundo componente principal debe ser ortogonal al primero.

18 Como se ve, la suma de errores al cuadrado (ek´ek = xk´[I - z1 z1´]xk) involucra además del componente principal a los elementos de la diagonal de X. Es obvio que para hallar la sumatoria de ek’ek se debe hallar la traza de la matriz generada en esta ecuación puesto que ésta (la traza) se define como la suma de los componentes de la diagonal principal de una matriz. 19 z1 = Xc1 X’z1 = X’Xc1 z1’X = c1’X’X tr (X’z1z1’X) = tr (X’Xc1’c1X’X) = tr (AA’) donde A = X’Xc1’ tr (A2) = tr (X’Xc1’)2 = c1’(X’X)2c1 20 Ya que c1 no puede ser cero puesto que es el vector de coeficientes que estamos buscando.

286

Econometría Moderna

Multicolinealidad

Se pueden armar hasta k componentes principales (k es el número de variables contenidas en la matriz de información). Los estimadores por componentes principales se hallan regresionando la variable dependiente contra un conjunto de componentes principales. Si se regresiona la explicada versus todos los componentes principales, se obtendrán resultados equivalentes a regresionar la explicada versus todas las explicativas originales que presentaban el problema de multicolinealidad. Puesto que los componentes principales son ortogonales, en la nueva regresión, la multicolinealidad se elimina. Ahora, que ya se sabe cómo armar los componentes principales, se procede a hallar los estimados de los coeficientes de regresión: Suponga que de las k columnas de X se usan L λσ }< 1 / λ 2

σ es la desviación estándar de la distribución de x, µ es la media de la misma distribución y λ es una constante arbitraria. Si fijamos el valor de esta última magnitud en 2, por ejemplo, la desigualdad nos dice que la probabilidad de que una observación está alejada de la media de la distribución en dos desviaciones estándar para ambos lados es menor al 25%. De alguna manera representa la cota superior de la probabilidad de tal evento. Si tomamos en cuenta una distribución normal podemos recordar que aproximadamente el 95% de las observaciones se encuentra dentro del intervalo de dos desviaciones estándar a cada lado de la media. Esto nos indica que la probabilidad de que una observación esté alejada más de dos desviaciones estándar de la media es de 5% lo cual es menor que la cota superior impuesta por la desigualdad de Chebychev. Si utilizamos esta desigualdad para el caso del estimador que estamos analizando, tomaría la siguiente forma:

{

}

Pr mt − ( µ + C / T ) > λ Var (mt ) < 1 / λ 2 Si introducimos la siguiente expresión:

ε = λ Var (m t ) podemos obtener lo siguiente:

1 Var (mt ) = λ2 ε2 Si introducimos estas expresiones en nuestra desigualdad, ésta queda de la siguiente forma:

Pr{mt − ( µ + C / T ) > ε }<

Var (mt )

ε2

Si aplicamos límites, la expresión anterior se transforma en:

Pr{mt − µ > ε }<

Var (mt )

ε2

Si el estimador es consistente, debería cumplirse que la probabilidad es cero5. La única forma de que esta condición sea asegurada es que la varianza del estimador converja a cero a medida que la muestra tiende a infinito. Lo anterior nos indica que una condición adicional para asegurar la consistencia de un estimador no es sólo que éste sea insesgado asintóticamente sino que la varianza de la distribución tienda a cero. Ambas condiciones aseguran que la distribución colapsa en el valor del verdadero estimador. El insesgamiento asintótico sólo nos asegura que la media de la distribución coincide con el verdadero estimador pero no implica que la varianza se desvanezca. Una conclusión de lo anterior es que la consistencia implica al insesgamiento asintótico. Una forma más sencilla de denotar al límite en probabilidad es la de Plim. Una de las ventajas de trabajar con el límite en probabilidad es que permite simplificar los cálculos drásticamente debido a que puede aplicarse a funciones no lineales de variables aleatorias. Por ello, muchas veces es mucho más sencillo probar la consistencia de un parámetro que su insesgamiento. La simplicidad del uso del límite en probabilidad quedará ilustrada a partir de las siguientes propiedades: 1.

P lim β = β . El límite en probabilidad de una constante es la misma constante.

2.

P lim( y1 ± y 2 ) = p lim y1 + p lim y 2 . y1 e y2 son variables aleatorias.

3.

P lim( y1 ⋅ y 2 ) = P lim y1 ⋅ P lim y 2 . y1 e y2 son variables aleatorias.

4.

y P lim 1  y2

 P lim y1  = . El plim de la división de dos variables aleatorias es igual a la  P lim y 2

división de los plims de cada una de las variables aleatorias. 5.

P lim[g ( y )] = g [P lim( y )]. El límite en probabilidad de una función continua de una variable aleatoria y es igual a la función del Plim.

A partir de las propiedades 4 y 5 queda claro la ventaja de trabajar tomando en cuenta los límites en probabilidad. Por ejemplo, si queremos analizar la esperanza de una razón de variables aleatorias y éstas no son independientes entre sí, la esperanza se tiene que aplicar a 5

Debemos indicar que lo expuesto parece lo inverso de lo mencionado cuando se definió la propiedad de consistencia. Sin embargo, debe notarse que el signo de desigualdad dentro de l corchete no es menor que sino mayor que. Ello explica porqué la probabilidad es igual a 0.

toda la expresión en su conjunto y no se puede trabajar el numerador y el denominador por separado. En el caso del límite en probabilidad vemos que sí se puede aplicar por separado a cada una de las expresiones que forman la razón. Esto facilita los cálculos de manera importante. Como complemento a las propiedades ya enunciadas podemos enunciar dos adicionales referidas a la operatividad del Plim en el caso de matrices de variables aleatorias: 6.

P lim( A ⋅ B) = P lim( A) ⋅ P lim( B) . Donde A y B son matrices conformables.

7.

P lim A −1 = (P lim A) . A es una matriz cuadrada no singular.

( )

−1

Una vez que hemos definido las propiedades del límite en probabilidad estamos en posición de poder analizar la consistencia de distintos estimadores con el fin de mostrar la operatividad del concepto. Iniciemos nuestro análisis estudiando la consistencia del estimador MCO: Como sabemos el estimador MCO tiene la siguiente fórmula:

βˆ = ( X ′X ) −1 X ′Y Si reemplazamos el modelo lineal general en la expresión anterior obtenemos la siguiente expresión:

βˆ = β + ( X ′X ) −1 X ′µ Esta es la expresión que usualmente se utiliza para analizar el insesgamiento del parámetro. Como sabemos se aplica esperanza a toda la expresión y como las x son fijas el operador de esperanza sólo es aplicable al término de error. Si queremos analizar la consistencia del estimador debemos hacer uso de un procedimiento que es estándar para cada operación de esta tipo. Este procedimiento consiste en dividir cada uno de los elementos de las matrices involucradas por T que es el número de observaciones. Esto ocasiona que cada una de las expresiones estén expresadas en término de sus valores promedios. Así, la expresión anterior queda de la siguiente forma: −1

 X ′X   X ′µ  βˆ = β +      T   T  La ventaja de esta transformación radica en que estamos multiplicando y dividiendo la última expresión por el término T, lo cual la deja inalterada. Si queremos hacer explícita la expresión X ′X / T obtenemos lo siguiente: 2 X ′X 1  ∑ x1i =  T T ∑ x1i x 2i

∑x x ∑x 1i

2 2i

2i

  

De igual manera se podría representar el vector X ′µ / T . Aplicando los límites en probabilidad la expresión anterior y tomando en cuenta queda transformada de la siguiente manera: −1

 X ′µ   X ′′X  P lim βˆ = β + P lim   P lim  T   T 

Si la matriz X contiene regresores no estocásticos (fijos) como lo establecen los supuestos del modelo lineal general podemos suponer que según las propiedades del límite en probabilidad:

Lim T →∞

X ′X X ′X = T T

Esto se deriva a partir de que el Plim de una constante es la misma constante. Ahora bien si la matriz X contiene regresores que son estocásticos podemos suponer que los momentos muestrales convergen a sus momentos poblacionales:

 X ′X  P lim =Q  T  Donde Q es una matriz cuadrada no singular que contiene los momentos poblacionales. Ahora, si queremos analizar el término X ′µ / T sus términos serían los siguientes. Si consideramos que x1 es la variable referida al intercepto, el vector quedaría de la siguiente manera:

1   P lim ∑ µ i   X ′µ   T P lim =   T   P lim 1 x 2i µ i  ∑ T   El primer término del vector tiende a la media de los errores que sabemos es igual a cero. Por otro lado, el segundo término captura la covarianza entre x2 y el término de error. Como sabemos uno de los supuestos es que la covarianza entre dos elementos es igual a cero. El resultado de todo lo anterior es que cada uno de los elementos del vector es igual a cero. Tomando en cuenta todos los resultados obtenidos hasta el momento podemos proceder a unir las piezas para analizar la consistencia de nuestro estimador MCO:

P lim βˆ = β + Q −1 ⋅ 0 = β Con esto comprobamos que el estimador MCO es consistente. Debemos recordar que este estimador es insesgado también. Algo que se deriva de esta análisis es que un estimador insesgado también será consistente. La razón de ello radica en que si la distribución tiene como centro el verdadero parámetro a medida que ésta vaya convergiendo a un punto es obvio que colapsará en el verdadero valor del parámetro. Lo discutido con respecto al estimador MCO no se cumple de manera inversa. Todo estimador sesgado no necesariamente es inconsistente. De hecho tenemos muchos estimadores sesgados que son consistentes lo cual asegura que con un muestra grande pueden ser utilizados como buenas aproximaciones. Podemos decir que la mayoría de estimadores son de este tipo. El caso del estimador MCO es un caso especial que cumple con todas las propiedades de muestras pequeñas y grandes. Un caso que nos permitirá ilustrar la discusión precedente es el del estimador por Cordillera que se utiliza para corregir la multicolinealidad y que fue revisado en el capítulo anterior. La fórmula de este estimador es la siguiente: −1 βˆ c = (X ′X + λI ) X ′Y

La lógica del estimador es agregar constantes a la diagonal principal de la matriz X´X con el fin de aumentar su tamaño y hacer que la matriz sea invertible. Si queremos analizar su

insesgamiento debemos reemplazar Y por el modelo teórico ( Xβ + µ ). Realizando esta operación obtenemos la siguiente expresión: −1 −1 βˆ c = (X ′X + λI ) X ′Xβ + (X ′X + λI ) X ′µ

de la expresión anterior se deduce fácilmente que si aplicamos el operador de esperanza matemática, el último término de la derecha será igual a cero. Igualmente por simple inspección el primer término de la derecha no será igual al verdadero parámetro por lo que se puede concluir que el parámetro será sesgado y el sesgo tendrá un carácter multiplicativo. Ello no nos debe llevar a pensar que el estimador no tiene ninguna utilidad. Para ello debemos analizar su consistencia. Tomando esta expresión y realizando la transformación ya utilizada (dividir entre T) obtenemos lo siguiente:

 X ′X λI  βˆ c =  +  T   T

−1

X ′X  X ′X λI  β + +  T T   T

−1

X ′µ T

Si volvemos a utilizar los supuestos planteados para el caso del estimador MCO, podemos imponer las siguientes condiciones:

X ′X =Q T X ′µ Lim =0 T →∞ T Lim T →∞

De manera similar, si analizamos la expresión λI / T veremos que el numerador es una constante y que conforme T tiende a infinito la expresión colapsará a cero. Ello porque el numerador no crece y el denominador crece sin límite. Utilizando ese resultado podemos proceder a analizar la consistencia del estimador:

P lim βˆ c = (Q + 0 ) Qβ + (Q + 0) ⋅ 0 = β −1

como podemos apreciar el estimador es consistente por lo que si contamos con una muestra grande lo podremos utilizar como una buena aproximación al verdadero parámetro. Con esto hemos ilustrado la conveniencia de trabajar la consistencia de un estimador. Las propiedades de muestras grandes pueden ser de gran utilidad al momento de analizar la bondad de distintos estimadores. Casos como el analizado los iremos estudiando en el resto de capítulos del presente texto.

10.6 A MODO DE CONCLUSIÓN El presente capítulo ha pretendido hacer una presentación sucinta de algunos de los principales elementos de la teoría asintótica. Se ha incidido en los concepto más relevante para analizar una de las propiedades de muestras grandes más importantes que es la consistencia. De lo discutido aquí se puede decir que si un parámetro converge en probabilidad también lo hará en distribución. La obtención de la distribución asintótica escapa de los objetivos del presente texto debido a que se requieren algunos conceptos y definiciones más complejas. Sin embargo, basta decir que si comprobamos la consistencia de un estimador, podemos suponer que su distribución será normal y podremos usar los procedimientos tradicionales de inferencia estadística. Debe mencionarse que lo expuesto aquí dista mucho de ser una presentación rigurosa pero creemos que brinda las principales herramientas útiles para el análisis de estimadores para un texto de pregrado.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF