Regresión Lineal

December 6, 2017 | Author: Eleazar Santos Ortiz | Category: Coefficient Of Determination, Linear Regression, Analysis Of Variance, Multivariate Statistics, Statistical Theory

Share Embed Donate

Report this link

Short Description

Download Regresión Lineal...

Description

Regresión lineal

Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Regresión lineal múltiple La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.

Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:

donde

es el error asociado a la medición del valor

de modo que con

y siguen los supuestos

(media cero, varianza constante e igual a un

y

).

Interpretación de los coeficientes En un Modelo de Regresión Lineal Múltiple a los parámetros que acompañan a las variables explicativas también se les denomina coeficientes de regresión parcial, pues miden el efecto que ocasionan sobre la variable explicada los cambios en la variable explicativa a la que acompañan, cuando están presentes otras variables: o bien , dado que es independiente de la observación en la que se encuentre. En este sentido, la estimación de puede considerarse como una medida del efecto causal, una vez se han neutralizado, tanto en el regresando como en el regresor las variaciones causadas por las restantes variables explicativas del modelo y se interpretaría como el cambio en la variable explicada producido por un cambio unitario en la variable explicativa a la que acompañan, manteniendo constantes las demás variables. Una de las hipótesis del MRLC es la ausencia de relaciones lineales entre los regresores (condición de rango o hipótesis de rango pleno), y es precisamente esta hipótesis de independencia lineal de los regresores la que hace posible aislar el efecto de cada uno de ellos. No obstante, las buenas propiedades del vector de estimadores se siguen cumpliendo siempre y cuando la dependencia lineal entre los regresores no sea exacta (multicolinealidad aproximada), sin embargo, hay que señalar que en estas situaciones la interpretación de los coeficientes debe hacerse con cautela, puesto que éstos pueden estar recogiendo el efecto no sólo de la variable a la que acompañan, sino también el efecto de las variables relacionadas con ella. En el análisis económico y/o empresarial es bastante difícil encontrar regresores completamente ortogonales, lo habitual es que exista un determinado grado de dependencia lineal entre ellos, el cual debe procurarse que no sea demasiado grande, para que su efecto no sea demasiado pernicioso. Los coeficientes de regresión parcial dependen de las unidades de medida de las variables a las que acompañan, por lo que no son directamente comparables Véase que en la salida del comando OLS cada coeficiente de regresión parcial estimado ( ) [ESTIMATED COEFFICIENT] viene acompañado por su error estándar ( ) [STANDARD ERROR], que indica la precisión de la estimación y por su ratio t ( ) [T-RATIO], que indica su grado de significación. Para poder enriquecer la interpretación económica y/o empresarial de los resultados de la estimación de un modelo de regresión, en la salida del comando OLS, Shazam proporciona además de los

estimadores de los coeficientes de regresión parcial, los estimadores de los coeficientes estandarizados (STANDARDIZED COEFFICIENT) y de las elasticidades en media (ELASTICITY AT MEANS). Tanto los coeficientes estandarizados como las elasticidades en media no dependen de las unidades de medida de las variables a las que acompañan, es decir, son adimensionales por lo que son directamente comparables entre si. Los coeficientes beta se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la desviación estándar de la variable independiente y la desviación estándar de la variable dependiente , por lo que miden la importancia relativa de las variables independientes: Los coeficientes beta o coeficientes estandarizados permiten determinar cual es la variable explicativa que tiene mayor peso para la explicación del regresando . La interpretación los coeficientes beta es similar a las de los coeficientes de regresión parcial teniendo en cuenta que tanto la variable explicada como las explicativas están medidas en unidades de desviación estándar: miden el cambio en la variable dependiente (en unidades de desviación estándar) producido por un cambio unitario en la variable independiente a la que acompaña (en unidades de desviación estándar) manteniendo constantes las demás variables. La elasticidad en media mide el cambio porcentual en la variable dependiente producido por un cambio porcentual en la variable independiente a la que acompaña, manteniendo constantes las demás variables . Las elasticidades en media se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la media de la variable independiente y la media de la variable dependiente , por lo que miden la sensibilidad de la variable dependiente a los cambios en las variables independientes: .

Análisis de la varianza En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:



Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.



Las K muestras sobre las que se aplican los tratamientos son independientes.



Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de

obtenida a partir de toda la

información muestral, en dos partes:



Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias.



Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:

Media Global: Variación Total:

Variación Intra-grupos:

Variación Inter-grupos:

Tablas ANOVA Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reuna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:

Fuente de variación Intergrupo

Suma de cuadrados

Grados de libertad t-1

Intragrupo o Error

N-t

Total

N-1

Cuadrado medio

F

COEFICIENTES DE REGRESIÓN Se llama coeficiente de regresión a la pendiente de la recta de regresión: en la regresión Y/X : b = Sxy / Sx2 en la regresión X/Y b' = Sxy / Sy2 El signo de ambos coincidirá con el de la covarianza, indicándonos la tendencia (directa o inversa a la covariación).Es interesante hacer notar que b.b'= r2

Coeficiente de determinación

Ajuste ordinario por mínimos cuadrados. Mientras los puntos no disten mucho de la línea de la regresión, el coeficiente de determinación adoptará valores altos.

En estadística, el coeficiente de determinación, denominado R2 y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o testear una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo. 1 Hay varias definiciones diferentes para R2 que son algunas veces equivalentes. Las más comunes se refieren a la regresión lineal. En este caso, el R2 es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existe varios resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el R2 adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R2 donde este valor puede tomar valores negativos2 .

Cálculo

Un modelo estadístico se construye para explicar una variable aleatoria que llamaremos dependiente a través de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que, en este caso, el error cuadrático medio es su varianza, el máximo error cuadrático medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. La media cuadrática de los residuos es la varianza residual. Si representamos por residual por ecuación:

la varianza de la variable dependiente y la varianza

, el coeficiente de determinación viene dado por la siguiente

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%. En variables económicas y financieras, suele ser difícil conseguir un coeficiente de determinación mayor de un 30%.

Para la regresión lineal Para la regresión basta con hacer el cuadrado del coeficiente de correlación de Pearson.

Donde:   

es la covarianza de es la desviación típica de la variable es la desviación típica de la variable

Modelo lineal En un modelo lineal, la variable dependiente

se explica mediante la ecuación

. Si observamos veces tanto la variable aleatoria como los factores, podemos ordenar nuestras observaciones de la variable dependiente en una matriz mientras que colocaremos las de los factores en la matriz de

regresión . Cada observación corresponderá a una coordenada de y a una fila de . Cada columna de la matriz de regresión corresponde a las observaciones de un factor. En cada observación el modelo cometerá un error:

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

es la parte de la variación de es la parte de la variación de

explicada por el modelo lineal.

que no explica el modelo lineal.

Sumando estas dos partes, obtenemos

.

Problema: El valor del coeficiente de determinación siempre aumenta cuando incluimos nuevas variables en el modelo, incluso cuando éstas son poco significativas o tienen poca correlación con la variable dependiente. Para resolverlo tenemos el coeficiente de determinación corregido.

Confusión , variable externa a la relación que se evalúa, y produce sesgos en la relación entre variable dependiente e independiente, que se deben controlar con ajustes estadísticos (análisis estratificado o multivariante).

Interacción y confusión en la regresión Los modelos de regresión pueden usarse con dos objetivos: 1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y 2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el

nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2). El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso. La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras. Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina variable de confusión para la asociación. Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas. En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan. Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es Y = 0 + 1 X1 donde 1 cuantifica la asociación: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo Y = 0 + 1 X1 + 2 X2

produce una estimación para 1 diferente del modelo anterior. Evidentemente esta definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusión si la estimación de 1 obtenida por el modelo Y = 0 + 1 X1 + 2 X2 + ... + k Xk es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de 1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%). El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es Y = 0 + 1 X1 + 2 X2 + 3 X1 X2 En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es Y = 0 + 1 x1+ 2 x2+ 3 x1x2 y para los valores x1 + 1 y x2 Y = 0 +  1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2 restando ambas se encuentra el cambio en Y por una unidad de cambio en X1 manteniendo fijo X2 1 + 3 x2 que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en  unidad de cambio en X2 manteniendo fijo X1 es 2

Y

por una

+ 3 x1

Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente  3 es cero (no hay interacción), o distinto de cero (existe interacción). En caso de que exista interacción los coeficientes 1 y 2 por sí solos no significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada por las expresiones anteriores.

Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión.

Regresión Lineal

Short Description

Description

Comments

We need your help!