Regrecion Lineal

March 9, 2018 | Author: miguelleivamogollon | Category: Regression Analysis, Linear Regression, Statistics, Confidence Interval, Correlation And Dependence
Share Embed Donate


Short Description

Download Regrecion Lineal...

Description

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

Capítulo VI Regresión Lineal Simple Estadística no es solo una colección de técnicas computacionales. Es una forma de pensamiento acerca del mundo. G. E. Dallal

1. Introducción En 1889 en su libro “Herencia Natural”, Francis Galton se refirió a la “ley de la regresión universal”. El dijo que “cada peculiaridad en un hombre es compartida por sus parientes, pero en promedio, en un grado menor”. A lo que él se refería era a que si un individuo tenía alguna característica extrema (por ejemplo muy alto, muy bajo, muy gordo, etc.) entonces su descendencia tendería también hacia esos extremos, pero éstos no serían tan extremos como el padre. En 1903, Karl Pearson, amigo de Galton, colectó más de 1000 registros de tallas de padres e hijos y con está información estimó la siguiente línea para explicar la talla del hijo en función a la del padre (en pulgadas): Talla del hijo = 33.73 + 0.516 Talla del padre Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos, Pearson notó una tendencia en los padres bajos a tener hijos bajos pero en promedio no tan bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendían a tener hijos de 64.5 a 67 pulgadas). De igual manera observó que padres altos tendían a tener hijos altos pero en promedio no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendían a tener hijos de 70 a 72 pulgadas). Este es el concepto de “regresión a la media”, es decir, existe una tendencia a que los valores extremos se muevan hacia el promedio de la población. Este mismo fenómeno es observado frecuentemente en la práctica. Por ejemplo, individuos con una presión arterial alta en un momento tenderán en forma natural a disminuir su presión al cabo de un tiempo más que a aumentarla. Así, si un tratamiento para disminuir la presión es aplicado solo a personas con presión alta, el efecto del tratamiento se verá confundido con la disminución natural, haciendo difícil su detección.

2. Regresión Lineal Simple El análisis de regresión lineal simple trata el problema de predecir o estimar una variable, llamada respuesta, a partir de otra variable llamada predictora o explicativa. A la primera se le Ing. Raúl Eyzaguirre Pérez [email protected]

88

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

conoce también como variable dependiente y se le representa generalmente con la letra Y, mientras que a la segunda se le conoce como variable independiente y se le representa generalmente con la letra X. Ejemplo 1: Conforme los quesos maduran, ocurren varios procesos químicos que determinan el sabor del producto final. En un estudio en queso cheddar, 10 muestras de queso fueron analizadas en su composición química. Además, una medida subjetiva del sabor fue obtenida combinando los escores asignados por varios sujetos que probaron el queso. Los datos se dan a continuación: Muestra 1 Sabor 12.3 AA 4.543 H2S 3.135 AL 0.86

2 47.9 5.759 7.496 1.81

3 37.3 5.892 8.726 1.29

4 21 5.242 4.174 1.58

5 0.7 4.477 2.996 1.06

6 40.9 6.365 9.588 1.74

7 18 5.247 6.174 1.63

8 15.2 5.298 5.22 1.33

9 16.8 5.366 3.664 1.31

10 0.7 5.328 3.912 1.25

Las variables son: Sabor: Puntaje de sabor subjetivo, obtenido combinando los puntajes de varios sujetos. AA: Logaritmo natural de la concentración de ácido acético. H2S: Logaritmo natural de la concentración de sulfuro de hidrógeno. AL: Concentración de ácido láctico. El objetivo de este estudio es evaluar el efecto de las variables AA, H2S y AL (variables independientes o predictoras) en el sabor del queso (variable dependiente o respuesta). A continuación se presenta un gráfico de dispersión entre las variables Sabor y AA: 50

Sabor

40 30 20 10 0 4.5

5.5

6.5

AA En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” la concentración de ácido acético. El gráfico muestra una aparente relación de dependencia entre ambas variables en el sentido de que a mayor concentración de ácido mayor será la calificación del sabor. Ing. Raúl Eyzaguirre Pérez [email protected]

89

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

2.1. Modelo Estadístico El modelo poblacional de regresión lineal simple es el siguiente: Yi = α + βX i + ε i donde Yi es la variable dependiente; Xi es la variable independiente; α y β son parámetros desconocidos llamados coeficientes de regresión (intercepto y pendiente respectivamente) y εi son los errores del modelo, independientes y normalmente distribuidos con media cero y variancia σ 2, esto es, ε ~ N (0, σ 2). 2.2. Estimación del Modelo Dada una muestra de n observaciones bivariadas (X,Y), el modelo estimado es el siguiente: Yi = a + bX i + ei

i=1...n

donde a es el estimador de α y b el estimador de β. Los parámetros del modelo son estimados por el método de Mínimos Cuadrados. Este método permite obtener los valores estimados de α y β de modo que la suma de los errores al cuadrado sea mínima; es decir, de lo que se trata es de calcular a y b de modo que se minimice la siguiente expresión: n

n

i =1

i =1

∑ ei2 = ∑ (Yi − a − bX i )2 La aplicación de este método da los siguientes resultados para la estimación de los parámetros: n

SP( XY ) βˆ = b = = SC ( X )

∑ ( X i − X )(Yi − Y ) i =1

n

∑(X i =1

i

− X )2

n

=

∑ X Y − nXY i =1 n

i i

∑X i =1

2 i

− nX 2

αˆ = a = Y − bX La interpretación de estos valores, desde una perspectiva matemática, es clara. El intercepto a es el valor estimado de la variable Y cuando la variable X es cero y la pendiente b es el cambio estimado en Y por cambio unitario en X. Sin embargo, la interpretación de a tendrá sentido solo en el caso en que un valor de X = 0 sea posible y además, cuando valores cercanos a X = 0 hallan sido utilizados en la estimación. Para ilustrar estas ideas vea el siguiente caso. En el gráfico que se presenta a continuación se observa la relación entre las variables diámetro y volumen para una muestra de 7 árboles con diámetros de entre 16 y 18 pulgadas.

Ing. Raúl Eyzaguirre Pérez [email protected]

90

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

Volumen

60

50

40

16

17

18

Diámetro La ecuación de regresión estimada en este caso es: Volumen = -79.27 + 7.5 Diámetro El intercepto estimado es –79.27, lo cual indicaría que a un diámetro de cero el volumen estimado es de –79.27 pies cúbicos. Obviamente esto no tiene ningún sentido ya que un diámetro de cero es imposible (no habría árbol). Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor estimado de Y cuando X = 0 no sería válida ya que para la construcción del modelo se emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas. Para llevar la discusión a un plano más realista suponga que se desea estimar, a partir del modelo anterior, el volumen de un árbol con un diámetro de 10 pulgadas. A continuación se presenta un diagrama de dispersión con la muestra completa de 31 árboles cuyos diámetros van desde 8.3 hasta 20.4. 80

70

Volumen

60

50

40

30

20

10 10

15

20

Diámetro

La curva sólida muestra la relación entre ambas variables para los datos de los 31 árboles y la línea punteada corresponde a la ecuación estimada con los 7 árboles iniciales. Como se puede Ing. Raúl Eyzaguirre Pérez [email protected]

91

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

apreciar, la línea recta es bastante buena para describir la relación entre el diámetro y el volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su ajuste ya no es tan bueno conforme los valores de X se alejan de dicho rango. El modelo lineal simple podría ser aceptable para estimar el volumen de un árbol con un diámetro de 15 ó inclusive 14 pulgadas pero definitivamente no para uno de 10. Ejemplo 1 (Cont.): Se va a estimar el modelo de regresión que considera a la variable AA como variable predictora. Quedan como ejercicios los análisis de los casos de las variables H2S y AL. Y = 21.08

∑X

X = 5.3517 b=

2 i

∑Y

= 289.34

i

2

= 6789.06

∑ X Y = 1193.91 i i

1193.91 − 10(21.08)(5.3517) = 22.44 289.34 − 10(5.3517) 2

a = 21.08 − 22.44(5.3517) = −99.03 El modelo estimado es: Yˆ = −99.03 + 22.44 X 50

40

Sabor

30

20

10

0 4.5

5.5

6.5

AA

En este caso el intercepto, –99.03, correspondería al puntaje estimado del sabor de un queso cuando el logaritmo natural de la concentración de ácido acético es igual a cero. Dado que en la estimación de este modelo se utilizaron valores de AA de 4.477 hasta 6.365, esta interpretación no tiene validez. La pendiente en cambio, 22.44, es siempre interpretable y en este caso indica que por cada incremento unitario en el logaritmo natural de la concentración de ácido acético, se estima un incremento en el puntaje del sabor de 22.44 puntos.

Ing. Raúl Eyzaguirre Pérez [email protected]

92

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

2.3. Análisis de Variancia El análisis de variancia permite evaluar si el modelo es o no significativo (si X explica o no a Y). Hipótesis: H0: β = 0 H1: β ≠ 0 Cuadro de Análisis de Variancia (Cuadro ANVA): Las hipótesis anteriores son evaluadas a través del análisis de la variancia de Y. Dado el modelo Yi = a + bX i + ei , la variancia de Y es explicada por la regresión ( bX i ) y por el error (ei). El término a no participa del análisis ya que es una constante. El cuadro de análisis de variancia es el siguiente: Fuentes de variación

gl

SC

Regresión

1

b SP(XY)

Error

n–2

SC(Y) – b SP(XY)

Total

n–1

SC(Y)

CM

Fc

SC(Reg) gl(Reg) SC(Error) gl(Error)

CM(Reg) CM(Error)

Estadístico de Prueba: Fc =

CM(Reg) ∼ F(1, n − 2 ) CM(Error)

Regla de Decisión: La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que el valor de tabla F(1−α , 1, n − 2) . Ejemplo 1 (Cont.): Para el caso de las variables Y = sabor y X = AA, se tiene lo siguiente: H0: β = 0 H1: β ≠ 0 o dicho literalmente: H0: El sabor del queso no depende de la concentración de ácido acético. H1: El sabor del queso sí depende de la concentración de ácido acético.

Ing. Raúl Eyzaguirre Pérez [email protected]

93

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

Cuadro ANVA: Fuentes de variación Regresión Error Total

gl 1 8 9

SC 1476 869 2345

CM 1476 109

Fc 13.58

El valor de tabla para un nivel de significación del 5% es F( 0.95, 1, 8) = 5.318. Como el valor calculado es mayor al valor de tabla se rechaza H0. En conclusión, existe suficiente evidencia estadística para aceptar que el sabor del queso depende de la concentración de ácido acético a través de un modelo lineal. 2.4. Coeficiente de Correlación y de Determinación El coeficiente de determinación mide el porcentaje de la variabilidad de la respuesta que es explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente expresión: r2 =

SC(Regresión) SC(Total)

El coeficiente de correlación es una medida de la asociación existente entre dos variables cuantitativas. Este coeficiente toma valores desde –1 hasta 1. Para interpretar un coeficiente de correlación tenga en cuenta lo siguiente: -

Un valor de –1 significa una perfecta correlación negativa, es decir, todos los puntos caen sobre una línea con pendiente negativa.

-

Un valor de 0 significa no correlación.

-

Un valor de 1 significa una perfecta correlación positiva, es decir, todos los puntos caen sobre una línea con pendiente positiva.

El coeficiente de correlación es la raíz cuadrada del coeficiente de determinación con el signo de b (pendiente estimada). Ejemplo 1 (Cont.): Para el ejemplo tratado en esta sección se tiene: r2 =

1476 = 0.63 2345

El 63% de la variabilidad del sabor es explicado por la concentración de ácido acético. r = 0.63 = 0.79 0.79 indica una elevada correlación positiva. Es preciso tener en cuenta que asociación estadística no implica la existencia de una relación causal. Por ejemplo, el siguiente gráfico muestra la relación entre las variables X: Número de Ing. Raúl Eyzaguirre Pérez [email protected]

94

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

cigüeñas y Y: Número de habitantes (en miles) de la ciudad de Oldenburg entre los años 1930 y 1936.

Población (en miles)

75

65

55 150

200

250

Número de cigüeñas Note que el ajuste es bastante bueno. 2.5. Predicción El objetivo principal del análisis de regresión es construir un modelo que permita predecir el valor de Y cuando la variable X toma un valor determinado. Una vez que se ha determinado la validez del modelo de regresión lineal simple, la ecuación de pronóstico estará dada por: Yˆi = a + bX i El valor Yˆ puede interpretarse de dos maneras; como el valor individual predicho de Y para un valor dado de X, y como la media estimada de Y para un valor dado de X. Tanto el pronóstico como la estimación pueden tomar la forma de un intervalo, y al igual que en el caso puntual, el intervalo puede tomar dos formas (aunque aquí no solo la interpretación será diferente, sino también el cálculo); un intervalo de predicción para el valor individual de Y dado un valor de X, y un intervalo de confianza para el valor medio de Y dado un valor X. Por ejemplo, si se ha construido un modelo para predecir la precipitación anual en función a ciertos factores observables en el año anterior, uno podría estar más interesado en predecir la precipitación del próximo año y evaluar cuánto podría esta variar (intervalo de predicción) que en estimar la precipitación media en años posteriores a años con las características del actual. Por otro lado, si se está estudiando la relación entre el volumen de madera y el diámetro del árbol, uno estaría más interesado (por cuestiones de manejo forestal) en el volumen medio de madera de un conjunto dé árboles para determinado diámetro que en el volumen de madera de un árbol en particular con dicho diámetro. De hecho, el valor de pronóstico tendrá mayor variabilidad que la media estimada. El intervalo de predicción de 100 (1 – α)% para un valor de Y dado X está dado por: Ing. Raúl Eyzaguirre Pérez [email protected]

95

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

 1 ( X − X )2  IP(Y X ) = Yˆ X ± t(1−α / 2,n − 2) CME 1 + + 2  n ∑ ( X − X )  El intervalo de confianza de 100 (1 – α )% para la media de Y dado X está dado por: 1 ( X − X )2  IC ( µY X ) = Yˆ X ± t(1−α / 2,n − 2) CME  + 2  n ∑ ( X − X )  Ejemplo 1 (Cont.): Para el ejemplo tratado en esta sección, se estimará puntualmente y por intervalo el sabor de un queso en el que la variable AA es igual a 6. La estimación puntual está dada por: Yˆ = −99.03 + 22.44(6) = 35.63 Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro lado, no todos los quesos con AA = 6 tendrán el mismo sabor, pero el puntaje promedio estimado de estos será también igual a 35.61. El intervalo de predicción del 95% para el valor individual está dado por:  1 ( X − X )2  IP(Y X ) = Yˆ X ± t(0.975,n − 2) CME 1 + + 2  n ∑ ( X − X )   1 (6 − 5.352) 2  = 35.63 ± 2.306 108.7 1 + +  2.93  10  = 35.63 ± 26.81 = [8.82; 62.44] El intervalo de confianza del 95% para la media de Y es: 1 ( X − X )2  ˆ IC ( µY X ) = Y X ± t(0.975,n − 2) CME  + 2  n ∑ ( X − X )   1 (6 − 5.352) 2  = 35.63 ± 2.306 108.7  +  2.93 10  = 35.63 ± 11.86 = [23.77; 47.49]

Ing. Raúl Eyzaguirre Pérez [email protected]

96

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

Anexo: Salida de Minitab Regression Analysis: Sabor versus AA The regression equation is Sabor = - 99.0 + 22.4 AA Predictor Constant AA

Coef -99.03 22.443

S = 10.42

SE Coef 32.76 6.090

R-Sq = 62.9%

T -3.02 3.69

P 0.016 0.006

R-Sq(adj) = 58.3%

Analysis of Variance Source Regression Residual Error Total

DF 1 8 9

SS 1476.0 869.4 2345.4

MS 1476.0 108.7

F 13.58

P 0.006

Predicted Values for New Observations New Obs 1

Fit 35.63

SE Fit 5.14

95.0% CI 23.77, 47.49)

(

(

95.0% PI 8.82, 62.44)

Values of Predictors for New Observations New Obs 1

AA 6.00

Regression Plot Sabor = -99.0302 + 22.4434 AA S = 10.4246

R-Sq = 62.9 %

R-Sq(adj) = 58.3 %

80

Sabor

40

0

Regression 95% CI 95% PI 4.5

5.5

6.5

AA

Ing. Raúl Eyzaguirre Pérez [email protected]

97

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

Ejercicios En cada uno de los siguientes casos efectúe lo siguiente: -

Estime la línea de regresión lineal simple. Interprete los coeficientes de regresión (pendiente e intercepto). Efectúe el análisis de variancia. Calcule e interprete el coeficiente de determinación y el de correlación. Calcule el intervalo de predicción y de confianza para el valor individual y valor medio de Y dado un valor de X (escogido por conveniencia)

1. Se efectuó un experimento para evaluar el efecto del zinc en el peso de cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios por grupo al final de la semana están expresados como porcentajes sobre los pesos iniciales. Ingesta de zinc Peso Medio %

0 100

2 92

4 95

8 90

12 98

16 85

30 67

2. Se desea investigar la relación entre el porcentaje de niños que han sido inmunizados contra la difteria, tos ferina y tétano (DPT) y la mortalidad infantil (tasa de mortalidad por cada 1000 niños menores de 5 años). Los datos (información para el 1999) correspondientes a una muestra aleatoria de 20 países son: Nación Bolivia Brasil Canadá China Egipto Etiopía Finlandia Francia Grecia India

Inmunización 40 54 85 95 81 26 90 95 83 83

Mortalidad 165 85 9 43 94 226 7 9 12 145

Nación Inmunización Italia 85 Japón 83 México 65 Polonia 98 Senegal 47 Turquía 74 Reino Unido 75 USA 97 URSS 79 Yugoslavia 91

Mortalidad 11 6 51 18 189 90 10 12 35 27

3. Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la otra. Mientras más rápido ellos mueven sus alas, mas fuerte es el chirrido que ellos producen. Los científicos han notado que los grillos mueven sus alas más rápido cuando hace calor que cuando hace frío. Por lo tanto, escuchando el tono de los chirridos, es posible establecer la temperatura del aire. A continuación se presentan registros del tono (en vibraciones por segundo) de los chirridos de grillos en 15 diferentes temperaturas: Vibraciones por segundo 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14 Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76 Ing. Raúl Eyzaguirre Pérez [email protected]

98

Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I

Regresión Lineal Simple

4. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo la temperatura dentro del recinto pudo ser controlada. Los resultados obtenidos son los siguientes: Temperatura (ºC) Latidos/minuto

22 22 24 24 26 26 28 28 30 30 20.8 22.3 24.1 25.6 25.7 27.2 27.3 28.8 29.4 31.9

Temperatura (ºC) Latidos/minuto

32 32 34 34 36 36 38 38 40 40 32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0

5. Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentración de estrona en saliva (X) para predecir la concentración del esteroide en plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos: X Y

1 30

7 25

8 31

Ing. Raúl Eyzaguirre Pérez [email protected]

9 27

9 39

11 38

13 43

14 49

14 55

16 48

17 51

18 64

20 63

23 68

99

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF