ECONOMETRIA CORTE TRANSVERSAL
Short Description
Download ECONOMETRIA CORTE TRANSVERSAL...
Description
Econometría de Corte Transversal Las herramientas metodológicas que se presentan a continuación son aplicables a información obtenida en un momento en el tiempo para un grupo determinado de “individuos”, sean éstos personas, empresas, bancos, etc.. Por lo mismo, el componente temporal pierde (momentáneamente) importancia, centrándose ahora el interés en las similitudes o disparidades de ese grupo en determinado instante de tiempo; es así que nuestras observaciones pasarán a tener el subíndice i (y ya no t), donde i hace referencia al individuo i de la muestra. Pese a esta característica de la información, el uso de MCO no se invalida siempre que la dependiente sea una variable continua sin ninguna limitación, siendo sólo necesario ser cuidadoso con la posible heterocedasticidad del modelo estimado, la misma que debe ser convenientemente corregida. No obstante, cuando la dependiente no satisface estas condiciones, el estimador MCO deja de ser el más apropiado surgiendo otros estimadores de mejores propiedades finitas y asintóticas. Son éstos estimadores el centro del análisis de las siguientes páginas. Debido a que el problema se centra en la dependiente, dividiremos el análisis sobre la base de las características que ésta muestre, distinguiendo entre una dependiente discreta de aquella que siendo continua tiene rangos limitados de trabajo.
1. Variable dependiente discreta 1.1. Las binomiales Son aquellas que toman sólo dos valores, tradicionalmente 0 y 1, es decir: Yi = 1, si se cumple cierta condición 0, de cualquier otra forma por ejemplo, Yi = 1, si una persona trabaja 0, si una persona no trabaja
1
1.1.1. Modelo de Probabilidad Lineal (MPL) Supongamos que decidimos modelar la variable dependiente de (1) usando un modelo lineal de la forma: Yi = β ' X i + ui ,
2
donde E ( ui ) = 0 . Podemos decir que: E ( Yi / X i ) = 1 Prob( Yi = 1) + 0 Prob( Yi = 0)
3
además de (2) se puede deducir que:
E ( Yi / X i ) = β ' X i
4
1
por lo que se puede concluir que:
Pr ob( Yi = 1) = β ' X i = Yi
5
es decir, la probabilidad de que la persona trabaje es β´Xi, la que por lógica tiene que estar entre 0 y 1. No obstante, en el modelo no hay nada que restringa a Yi a estarlo. Además, se tiene problemas con el error, pues éste toma sólo dos valor, a saber: Si Yi = 1 Yi = 0 Total
ui 1- β´ Xi - β´ Xi
Pr β´ Xi 1- β´ Xi 1
P(Yi =1) P(Yi = 0)
Es decir, el error es binomial y no normal, siendo su varianza igual a:
Var (u i ) = (1 − β ' X i ) 2 ( β ' X i ) + ( − β ' X i ) 2 (1 − β ' X i ) = β ' X i (1 − β ' X i ) 1
6
de forma tal que, como depende de las observaciones, termina siendo heterocedástica. De esta forma podemos concluir que existen tres grandes limitaciones para el uso del estimador MCO en estos modelos: • El error es heteroscedástico • El error no es normal • Nada restringe a Yi = β´ Xi = Pr (Yi = 1) a estar entre 0 y 1 Los dos primeros problemas pueden ser resueltos con relativa facilidad, utilizando MCG y ampliando la muestra, respectivamente. No obstante, no existe forma de resolver el último problema, razón por la cual nos vemos en la necesidad de trabajar con un método que garantice que la probabilidad resultante se mueva entre esos límites; para ello se recurrirá a la función de distribución acumulada del error, la cual será utilizada para hallar el estimador MV de los parámetros de interés. 1.1.2. Los modelos probabilísticos: Probit y Logit Supongamos que se tiene el siguiente modelo: Yi * = β ' X i + ui
7
en el que Yi * es una variable no observable e igual, por ejemplo, al “número de horas deseadas de trabajo”. La variable que se observa es Yi, la misma que toma el valor de 1 si Yi * > 0, y de 0 si Yi * < 0. Note que ahora β ' X i es igual a E ( Yi * / X i ) y no a E ( Yi / X i ) , por lo que no hay necesidad de que esté restringido a 0 y 1, más aún si tenemos en cuenta que la Pr(Yi=1) ya no es igual a B’Xi. Es así que: Pr ( Yi = 1) = Pr ( Yi * > 0) = Pr ( ui 1
> -β ' X i )
Nótese que ello implica que:
Var (u i ) = β ' X i (1 − β ' X i ) = Pr ( Yi = 1) [1 − Pr ( Yi = 1) ] 2
= 1 − F ( −β ' X i )
8
donde F(•) es la función de densidad acumulada del error. La función de verosimilitud pertinente, para los n individuos de una muestra, estaría dada por: L=
∏ F (−β ' X ) ∏ [1 − F (−β ' X )] i
Yi = 0
9
i
Yi =1
Si F(u) es normal estándar estaríamos hablando del modelo Probit, mientras que si fuera logística2 nos referiríamos al modelo Logit. Cabe mencionar que como ambas funciones son simétricas podemos concluir que Pr ( Yi = 1) = 1 - F(- β ' X i ) = F ( β ' X i ) . Comparemos un poco más estas dos funciones. La principal diferencia entre ellas es la amplitud de sus colas, ya que la logística tiene colas más anchas. Por lo mismo los resultados que se obtienen con cada una de ellas no son comparables. Dado que en el modelo probit el uso de una normal estándar arroja β´s estandarizados (siendo σ=1), la comparación con los β’s logit requiere estandarizar estos últimos también, para lo cual hay que dividir los estimados entre la desviación estándar, que es igual a π
3 . Es
decir βL 3 vs. π
βP
Dado que no hay forma de saber a priori cómo se comportan los errores de los modelos que queremos estimar, y que la diferencia entre estas funciones es relativamente sutil, la elección entre probit y logit dependerá del mejor ajuste que se logre utilizando una u otra indistintamente. Finalmente, vale la pena comparar las implicancias de utilizar los modelos probabilísticos frente a la posibilidad de utilizar MPL. Como vimos en 1.1.1, el MPL implica que Pr(Yi = 1) = β´ Xi , mientras que los modelos probabilísticos suponen que Pr(Yi = 1) = F(β´ Xi ). De esta forma, en el primer caso el efecto marginal o impacto de un cambio en una unidad de las X’s sería constante, a saber: ∂ Pr(Yi = 1) =β ∂X
10
mientras que para los modelos probabilísticos este efecto sería: ∂ Pr(Yi = 1) = f ( β ' Xi ). β ∂X
11
es decir, dependería del nivel de las X’s para cada individuo. Esto último coincide con lo que se observa en la vida real. Por ejemplo, el cambio en la probabilidad de que un niño asista al colegio frente a un aumento en el ingreso, será distinto en el caso de
Recuérdese que la función logística tiene la siguiente especificación: exp(u) F(u) = 1 + exp(u) 2
3
familias de altos y bajos ingresos, esperando para las primeras un incremento casi nulo de la probabilidad y para las segundas una bastante mayor.3 Veamos ahora la matemática del modelo Logit. Su función de verosimilitud se define como:
n
L=
∏ i =1
1 1 + exp( β ' X i )
1−Yi
exp( β ' X i ) 1 + exp( β ' X i )
Yi
12
n
exp ( β
L =
∑X Y) i i
i =1
13
n
∏ ( 1 + exp (β ' X )) i
i =1
Y tomando logaritmo: ln L = β
∑ X Y − ∑ ln[ 1 + exp (β ' X )] i i
i
derivando respecto a los parámetros y maximizando:
exp ( β ' X i ) ∂ ln L = ∑ X i Yi − ∑ × X ik = 0 = S ( β 0 ) ∂β 1 + exp ( β ' X i )
14
Como vemos, 14 es una ecuación no lineal en β, por lo que para resolverla es necesario recurrir a algún método iterativo. Uno de los más usado es el de NewtonRaphson. Así, se define:
β 1 = β 0 + [ I( β
0
) ] −1 S ( β 0 )
donde [I(β0)] es la matriz de información. De esta forma, se utiliza un valor cualquier para β0, que podría ser el de MCO, y se continúa iterando hasta hallar el β que haga S(β0) = 0. 1.1.3. Bondad de Ajuste Para establecer la bondad de ajuste del modelo se requeriría comparar la predicción de la variable dependiente con la realmente observada. No obstante, en un modelo discreto ello pierde sentido ya que se observa la elección real (0 ó 1, en el caso binomial) mientras que el modelo arroja probabilidades. Es así que el R2, que se basaría en estos errores distorsionados, pierde sentido. Una alternativa lo constituye el Test de la Razón de Verosimilitud, cuya Ho es que todos los β’s del modelo (excepto la constante), o un subconjunto de ellos, es igual a 0. El estadístico asociado se define como: Cuando hablamos de bajos ingresos no queremos referirnos a las familias de mayor pobreza entre las que es posible que la mencionada probabilidad también sea nula. Esto último no hace sino reafirmar la lógica del uso de la función de densidad cuyos extremos son menos empinados que el resto de la función. 3
4
λ=
max L( O ) max L( β )
15
donde L*(0) es la función de verosimilitud del modelo restringido (que sólo considera constante, o las explicativas que no están sometidas a la prueba de significancia) y L*(β) es la del modelo completo. Según Wilks (1962): −2 ln λ ∼ X 2 ( q )
16
donde q es el número de restricciones. A partir de la función de verosimilitud es posible construir un seudo R 2 . Así hay que tener en cuenta que como L(•) es generalmente una productoria de probabilidades puede tomar valores entre 0 y 1. Por ello, ln L(•) < 0. Si definimos L*(•) como el valor máximo del logaritmo de la función de verosimilitud, es decir: L*(•)= máx ln L(•) Entonces debe ser cierto que: L*(β) ≥ L*(0) Es decir, L*(β) debe estar muy cerca de 0 para que el modelo estimado sea bueno, y cuanto mejor sea la distancia respecto a L*(0) debería ser mayor. Es así que si definimos el seudo R2 como: ρ2 = 1−
L * ( Ω)
17
L * ( 0)
Si el modelo es bueno L*(β) se aproximaría a 0, por lo que ρ2 tendería a 1. Si el modelo es malo L*(β) estaría muy cerca de L*(0) por lo que ρ2 tendería a 0. Como regla práctica, es de esperar que un buen modelo tenga un ρ2 entre 0.2 y 0.4.
1.1.4. Procedimiento para estimar un modelo Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se explican a continuación: 1. Analizar la matriz de correlaciones entre la dependiente y el conjunto de posibles explicativas. A partir de ella se busca rescatar dos cosas: • Establecer el grado de relación de las explicativas y la dependiente así como su signo esperado. • Establecer la posible correlación entre explicativas potenciales. Como regla práctica, si dos variables tienen una correlación mayor a 75% se debe elegir entre ellas a aquella que ajuste mejor; no incluir a ambas en el modelo.
5
2. Analizar tablas cruzadas entre la dependiente y las explicativas que mostraron en 1. ser las más relacionadas con la primera. A través de este análisis se pretende confirmar la dirección y magnitud de la relación. 3. Estimar la ecuación con todas las explicativas que aparecieron como relevantes en 1 y 2. Una vez corrido el modelo dejar aquellas explicativas que tengan el signo esperado y cuya probabilidad asociada a t no sea mayor a 10% ó 15%. Nótese que en el caso de los modelos discretos el t reduce su validez, por lo que se relaja la necesidad de ser muy estrictos respecto de las conclusiones que arroja este test. Uno de los resultados claves del modelo estimado es la predicción de la probabilidad asociada a la variable dependiente, la misma que puede ser determinada para la media muestral o para individuos con características específicas dentro de la muestra. 4. Determinar los efectos impactos de las variables explicativas del modelo. En el caso de una variable explicativa discreta k éste sería igual a:
EI k =
∂ Pr ( Yi = 1) = f ( βˆ ' X i ) . βˆ ki ∂ Xk
18
El mismo que puede ser evaluado en la media muestral o para un conjunto específico de valores de las explicativas. En el caso de una variable explicativa discreta tendría que calcularse la diferencia de la probabilidad cuando dicha variable toma un valor u otro. Por ejemplo, si estamos analizando la decisión de trabajar y la variable explicativa de interés es el sexo de la persona, definido como 1 si es hombre y 0 si es mujer, el efecto impacto de la misma sobre la probabilidad de trabajar sería:
(
)
(
)
EI X 2 = F β 1 X 1 + β 2 (1) + β 3 X 3 + β 4 X 4 +.... - F β 1 X 1 + β 2 (0) + β 3 X 3 + β 4 X 4 +....
En este caso también podría calcularse el efecto para la media muestral o para características determinadas del individuo. Note que cualquiera sea el tipo de variable explicativa, el efecto impacto arroja el cambio de la probabilidad, en puntos porcentuales, frente a la variación en una unidad de la explicativa, razón por la cual su utilidad es mayor cuando analizamos explicativas discretas. 5. Determinar la elasticidad de la probabilidad respecto de cambios en las variables explicativas. La misma puede definirse como para la variable explicativa k:
η K = EI X K .
K X F ( βˆ ' X )
19
La elasticidad indica el cambio porcentual en la probabilidad ante una variación de 1% en la variable explicativa de interés, razón por la cual resulta más conveniente estimarla para explicativas continuas. No obstante, dado que
6
carece de unidades, la elasticidad puede servir también para rankear todas las variables explicativas de acuerdo con su importancia relativa en el modelo.
1.2.
Modelos Multinomiales
Los modelos multinomiales son aquéllos cuyo objetivo es explicar variables dependientes discretas pero de múltiples opciones, de forma tal que se modela el proceso a través del cual una persona escoge entre diferentes alternativas de elección, de acuerdo con aquélla que le dé la más alta utilidad. De esta forma, si definimos: *
U ij = β ' xij + ε ij
20
donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j, dicha utilidad está en función de un conjunto de variables explicativas x ij, a través de los parámetros β, que pueden o no depender de las alternativas de elección. El modelo general se basa en la resolución de la función de verosimilitud construida a partir de la función de distribución conjunta de cada uno de los individuos de la muestra. Es decir:
L=
n
∏P
Yi1
i1
. Pi 2
Yi 2
......Pim
21
Yim
i =1
donde Yij toma el valor de 1 si el individuo i escoge la categoría j y Pij es la probabilidad del mismo de elegir dicha categoría. La especificación de las probabilidades estará en función del tipo de modelo multinomial que se esté trabajando, el que depende a su vez de la forma de la variable que se quiere explicar. 1.2.1. Variables dependientes no ordenadas Son aquéllas que se caracterizan por especificar un conjunto de posibles alternativas que no presentan una relación de orden entre ellas, como por ejemplo, profesiones, hobbies, modos de transporte, marcas de cigarrillos, etc. Tomando el primer ejemplo, supóngase que se desean explicar los determinantes del tipo de ocupación del jefe de hogar de las familias peruanas, de forma tal que la variable se define como: Yi = Ocupación del jefe de hogar = 1 Médico 2 Abogado 3 Carpintero • • . • m Otros
7
De esta forma, se tienen en total m categorías no ordenadas. El hecho de que éstas no puedan ser relacionadas de acuerdo a algún ordenamiento específico genera la necesidad de establecer un orden a priori a través de la selección de una categoría base o referencial. A partir de ella se podrá especificar la probabilidad de escoger cada categoría, utilizando un conjunto de modelos binomiales entre ellas y la categoría base, es decir: P1 = F ( β 1' X ) P1 + Pm P2 = F ( β 2' X ) P2 + Pm
22
Pj
(
= F β j' X
Pj + Pm
)
donde F(•) es la función de densidad de los errores de la ecuación explicativa de la utilidad. A partir de (22) se define una especificación para Pj y Pm de forma que:4
( ) ( F( β ' X ) = = G( β 1 − F( β ' X )
)
Pj = Pj F β j ' X + Pm F β j ' X Pj Pm
j
j
j'
X
23
)
donde G(•) es la función de densidad de la diferencia de los errores de las ecuaciones explicativas de la utilidad que da la alternativa j y la m. Ahora se puede derivar la probabilidad de escoger la categoría m aplicando sumatoria al cociente Pj/Pm: m −1
Pj
j =1
m
∑P
=
m −1 1 − Pm 1 = −1= G β j' X Pm Pm j =1
∑ (
m −1 Pm = G β j ' X + 1 j =1
∑ (
)
)
−1
24
y a partir de Pm hallar la probabilidad de escoger una alternativa j cualquiera:
(
)
Pj = G β j ' X Pm
(
G β j' X
Pj = 1+
)
25
m −1
∑ G( β j =1
j'
X
)
Las expresiones de Pj y Pm resultan ser el centro del interés del modelo. G(•) puede ser normal o logística, aunque dada la necesidad de evaluar múltiples integrales en el caso de usar una normal se prefiere la distribución logística, resultando lo que se conoce como el Modelo Logit Multinomial. En el mismo los β resultan ser parámetros relativos respecto de la categoría base por lo que no pueden ser analizados en forma individual. Este modelo tiene especificaciones determinadas que dependen de la utilidad final que se le dé. Así, cuando se supone que la probabilidad de escoger una categoría j 4
Ver Amemiya (1983) 8
depende exclusivamente de características del individuo i se puede reescribir el Pj de (25), de forma que:
(
G β j' X i
Pij = 1+
)
m −1
∑ G( β
j'
26
)
Xi
j =1
donde, como se observa, las variables explicativas dependen del individuo i. No obstante, es posible tener una especificación alternativa en donde las explicativas dependen del individuo y de la alternativa, mientras que los β son invariables a ambos factores. Este es el conocido modelo condicional de McFadden (1973) en donde la probabilidad de que el individuo i escoja la alternativa j está dada por:
(
G β ' X ij
Pij = 1+
)
27
m −1
∑ G( β ' X ) ij
j =1
en esta especificación los β representan los "precios implícitos" de las diferentes características de las alternativas a escoger (o pesos específicos) mientras que Xij es la valoración que el individuo i tiene respecto de cada característica de la alternativa j. Como se observa, la especificación de cada modelo responde a un objetivo específico. Así, el primer modelo definido por (26) se utiliza para predecir la probabilidad que un individuo fuera de la muestra escoja una de las m alternativas analizadas, dadas sus características específicas. Por su lado, el modelo que define (27) permite predecir la probabilidad de escoger una alternativa no considerada entre las m estimadas, pero para la que se tienen las valoraciones de cada individuo i Xij; ello gracias a que se cuenta con los precios implícitos o ponderaciones de las características de las m alternativas con las que se realizó la estimación.5 Finalmente, sería posible considerar un modelo combinado que incorpore tanto la valoración de las características de las alternativas como aquéllas de los individuos que conforman la muestra. Ello implicaría una nueva especificación de la probabilidad de que el individuo i escoja la alternativa j de la forma:
(
Pij = 1+
G β ' X ij + α 'j Yi
)
∑ G( β ' X
' j Yi
m −1 j =1
ij
+α
28
)
Es posible notar, además, que en el primer modelo el número de parámetros a estimar es igual al número de variables explicativas del individuo por m-1, si es que se considera la normalización de uno de los parámetros a estimar (βo=0). En el segundo modelo se estiman tantos parámetros como características se hayan considerado para cada alternativa. 5
9
donde Xij representa las valoraciones del individuo i respecto de las características de la alternativa j, mientras que Yi indica las características particulares del individuo i. 1.2.2. Variables dependientes ordenadas Las variables multinomiales ordenadas son aquéllas que indican diversas alternativas que guardan entre sí un ordenamiento específico. Ese sería el caso de un ranking de prioridades de inversión, de rangos de ingresos, de categorías de instituciones prestadoras de salud, entre otras variables. Si tomamos este último ejemplo podríamos definir la variable Yi como: Yi = Institución de salud donde se obtiene el servicio = 4 Clínicas particulares = 3 Hospitales públicos = 2 Centros y postas = 1 Otros proveedores Este ordenamiento supone que son las instituciones a las que se les coloca un mayor valor de la variable Y las de mejor servicio. El modelo se basa en la definición de un índice de performance I*, el que se encuentra relacionado con un conjunto de variables explicativas vinculadas con el individuo y las alternativas j, tal como:
Ii * = β ' X i + εi
29
Asimismo se establecen puntos de corte (α's) entre los cuales se mueve el I*. Así, si I*
View more...
Comments