CAPÍTULO I REGRESIÓN LINEAL
Short Description
Download CAPÍTULO I REGRESIÓN LINEAL...
Description
Estadística Inferencial II Raúl Jiménez González
Instituto Tecnológico de Ensenada
Contenido CAPÍTULO 1. Regresión lineal simple y múltiple 1.1. Regresión Lineal simple 1.1.1. Prueba de hipótesis en la regresión lineal simple. 1.1.2. Calidad del ajuste en regresión lineal simple 1.1.3. Estimación y predicción por intervalo en regresión lineal simple 1.1.4. Uso de software estadístico 1.2. Regresión lineal múltiple 1.2.1. Pruebas de hipótesis en regresión lineal múltiple 1.2.2. Intervalos de confianza y predicción en regresión múltiple 1.2.3. Uso de un software estadístico 1.3. Regresión no lineal CAPÍTULO 2. Diseño de experimentos de un factor 2.1. Familia de diseños para comparar tratamientos 2.2. El modelo de efectos fijos 2.3. Diseño completamente aleatorio y ANOVA 2.4. Comparaciones o pruebas de rangos múltiples 2.5. Verificación de los supuestos del Modelo 2.6. Uso de un software estadístico CAPÍTULO 3. Diseño de bloques. 3.1. Diseños en bloques completos al azar. 3.2. Diseño en cuadrado latino. 3.3. Diseño en cuadrado grecolatino. 3.4. Uso de un software estadístico. CAPÍTULO 4. Conceptos básicos en diseños factoriales 4.1. Diseños factoriales con dos factores 4.2. Diseños factoriales con tres factores 4.3. Diseño factorial general 4.4. Modelos de efectos aleatorios 4.5. Uso de un software estadístico CAPÍTULO 5. Series de tiempo 5.1. Modelo clásico de series de tiempo 5.2. Análisis de fluctuaciones 5.3. Análisis de tendencia 5.4. Análisis de variaciones cíclicas 5.5. Medición de variaciones estacionales e irregulares 5.6. Aplicación de ajustes estacionales 5.7. Pronósticos basados en factores de tendencia y estacionales.
1.1. Regresión Lineal simple El análisis de regresión se usa con el propósito de predicción. La meta del análisis de regresión es desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este capítulo se centra en un modelo de regresión lineal simple, que usa una variable numérica independiente para predecir la variable numérica dependiente . Para establecer una relación cuantitativa entre y es necesario disponer de cierta información muestral. Esta información consiste de un conjunto de pares de observaciones de y , donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación, o la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Tabla 1.1 Datos de resistencia de pulpa Porcentaje de fibra Resistencia 4 6 8 10 12 14 16 18 20 22 24 26 28 30
134 145 142 149 144 160 156 157 168 166 167 171 174 183
Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con . Para tener una idea de la relación que existe entre y , los 14 pares de datos son graficados en un diagrama de dispersión de la figura 1.1. De la inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que la suposición de linealidad entre las dos variables parece ser razonable El diagrama de dispersión es una grafica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El valor de la variable independiente X, se traza en relación con el eje horizontal y el valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de la relación entre
dos variables puede tomar muchas formas, que van desde algunas funciones matemáticas sencillas a otras en extremo complicadas. La relación más elemental consiste en una línea recta o relación lineal. Gráfica de dispersión de Resistencia vs. Porcentaje de fibra 190 180
Resistencia
170 160 150 140 130 5
10
15 20 Porcentaje de fibra
25
30
Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa
La relación del modelo matemático adecuado tiene influencia de la distribución de los valores X y Y en el diagrama de dispersión. Es sencillo ver esto si se examinan las siguientes graficas.
Figura 1.2 Relación entre dos variables
En la grafica 1 se observa que los valores de Y, en general, aumentan en forma lineal cuando se incrementa X . En la grafica 2 es un ejemplo de una relación lineal negativa. Cuando X crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación puede ser el precio de un producto específico y la cantidad de ventas.
En la grafica 3 se muestra un conjunto de datos en el que existe muy poca o ninguna relación entre X y Y. Para cada valor de X aparecen valores altos y bajos de Y. En la grafica 4 muestran una relación curvilínea entre X y Y. Los valores de Y aumentan cuando X crece, pero el incremento disminuye para valores altos de X. un ejemplo de esta relación curvilínea puede ser la edad y el costo de mantenimiento de una maquina. Cuando la máquina tiene muchos años, el costo de mantenimiento se eleva con rapidez al principio, pero después de cierto número de años se nivela. En la grafica 5 muestra una relación parabólica o en forma de U entre X y Y. Conforme X aumenta, al principio Y disminuye; pero si X aumenta más, Y no sólo deja de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación puede ser el número de errores por hora en una tarea y número de horas trabajadas. Por ultimo en la grafica 6 indica una relación exponencial o curvilínea negativa entre X y Y. en este caso, Y disminuye con rapidez al principio del incremento de X pero después, cuando X aumenta más, la velocidad de disminución es mucho menor. Un ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo dado de automóvil y los años que tiene. El primer año el valor baja en forma drástica respeto a su precio original; sin embargo, la disminución es mucho más lenta en los años subsecuentes.
El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas para algunas observaciones y negativas para otras, en términos matemáticos se minimiza la suma de los cuadrados de las diferencias. Gráfica de línea ajustada
Resistencia = 130,7 + 1,624 Porcentaje de fibra 190
S R-cuad. R-cuad.(ajustado)
180
3,87648 93,0% 92,4%
Resistencia
170 160 150 140 130 5
10
15 20 Porcentaje de fibra
25
30
Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la distancia a los puntos es la más pequeña posible
Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo:
(1.1)
Donde es un error aleatorio con media cero y varianza . También suponga que los errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, ( ) , se puede ver que el valor esperado de la variable Y, para cada valor de X, está dado por línea recta (
) (1.2)
En donde son los parámetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será necesario estimar los dos parámetros, que tienen los siguientes significados: - Es el punto en el cual la línea recta intercepta o cruza el eje y. - Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos, obtendremos lo siguiente: ∑( )
,
∑(
-) (1.3)
De esta forma, se quieren encontrar los valores de que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra en la figura 1.3. El procedimiento matemático para minimizar los errores de la ecuación (1.3) y así encontrar los estimadores de mínimos cuadrados de , consiste en derivar a con respecto a , y derivar también a con respecto a , se obtiene: ∑ (
∑
(
,
-)
,
-)
Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con respecto a las dos incógnitas ( ), se obtiene la solución única: ̂
(1.4)
̂
̅
̂ ̅ (1.5)
donde ̅ )(
∑(
̅)
(∑
∑
)(∑
) (1.6)
̅)
∑(
(∑
∑
) (1.7)
̅ ̅ son las medias muestrales de las dos variables, es decir, ∑ ̅
∑
̅
De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la resistencia de la pulpa. Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia De la pulpa
̂ 4 6 8 10 12 14 16 18 20 22 24 26 28 30
134 145 142 149 144 160 156 157 168 166 167 171 174 183
Ʃ ̅
Ʃ
16 36 64 100 144 196 256 324 400 484 576 676 784 900 Ʃ
=4 956
17 956 21 025 20 164 22 201 20 736 25 600 24 336 24 649 28 224 27 556 27 889 27 241 30 276 33 489 Ʃ
= 353 342
137,2 140,4 143,7 146,9 150,2 153,4 156,7 159,9 163,2 166,4 169,7 172,9 176,2 179,4
536 870 1 136 1 490 1 728 2 240 2 496 2 826 3 360 3 652 4 008 4 446 4 872 5 490 Ʃ
Ʃ ̂ 2216.6
= 39 150
̅
(
)( (
) )
̂
̂
(
)(
)
̂
(
̂)
10,24 21,16 2,89 4,41 38,44 43,56 0,49 8,41 23,04 0,16 7,29 3.61 4,84 12,96 ( ̂)
-3,2 4,6 -1,7 2,1 -6,2 6,6 -0,7 -2,9 4,8 -0,4 -2,7 -1,9 -2,2 3,6 (
̂)
Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel, está dada por ̂ En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de resistencia de 1.6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada.
Nota: La calculadora científica, trae la función de Regresión Lineal, una vez activada esta función, se procede a capturar por parejas (X, Y) correspondientes sin olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa correspondiente de acuerdo al modelo de esta. Utilizando un paquete computacional el resultado arrojado sería el siguiente: Resumen de Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695 R^2 ajustado 0,92430717 Error típico 3,876481166 Observaciones 14 ANÁLISIS DE VARIANZA Regresión Residuos Total
Intercepción Porcentaje de fibra
Grados de libertad 1 12 13
Suma de cuadrados 2400,531868 180,3252747 2580,857143
Promedio de los cuadrados 2400,531868 15,02710623
F 159,7467824
Valor crítico de F 2,70702E-08
Coeficientes 130,6747253 1,624175824
Error típico 2,417790201 0,128504099
Estadístico t 54,047173 12,63909737
Probabilidad 1,05975E-15 2,70702E-08
Inferior 95% 125,406813 1,344189444
Pronóstico Resistencia 137,1714286 140,4197802 143,6681319 146,9164835 150,1648352 153,4131868 156,6615385 159,9098901 163,1582418 166,4065934 169,6549451 172,9032967 176,1516484 179,4
Residuos -3,171428571 4,58021978 -1,668131868 2,083516484 -6,164835165 6,586813187 -0,661538462 -2,90989011 4,841758242 -0,406593407 -2,654945055 -1,903296703 -2,151648352 3,6
Análisis de los residuales Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Resumen de Minitab Análisis de regresión: Resistencia vs. Porcentaje de fibra La ecuación de regresión es Resistencia = 131 + 1,62 Porcentaje de fibra
Predictor Constante Porcentaje de fibra
Coef. de EE 2,418 0,1285
Coef 130,675 1,6242
S = 3,87648 R-cuad. = 93,0% Análisis de varianza Fuente Regresión Error residual Total
GL 1 12 13
P 0,000 0,000
R-cuad.(ajustado) = 92,4%
SC 2400,5 180,3 2580,9
MC 2400,5 15,0
Porcentaje de fibra Resistencia 4,0 134,00 6,0 145,00 8,0 142,00 10,0 149,00 12,0 144,00 14,0 160,00 16,0 156,00 18,0 157,00 20,0 168,00 22,0 166,00 24,0 167,00 26,0 171,00 28,0 174,00 30,0 183,00
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14
T 54,05 12,64
F 159,75
Ajuste 137,17 140,42 143,67 146,92 150,16 153,41 156,66 159,91 163,16 166,41 169,65 172,90 176,15 179,40
P 0,000
Ajuste SE Residuo 1,97 -3,17 1,75 4,58 1,55 -1,67 1,37 2,08 1,22 -6,16 1,11 6,59 1,04 -0,66 1,04 -2,91 1,11 4,84 1,22 -0,41 1,37 -2,65 1,55 -1,90 1,75 -2,15 1,97 3,60
Residuo estándar -0,95 1,32 -0,47 0,57 -1,68 1,77 -0,18 -0,78 1,30 -0,11 -0,73 -0,54 -0,62 1,08
Tabla 1.4 Formulas básicas para el Análisis de regresión para el modelo ̂
̂ ̅
̅
Es el punto en el cual la línea recta intercepta o cruza el eje Y
̂ ̂
Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o ̂
̂
∑
(
̅ )(
∑
(
̅)
∑
(∑
)
Sumatoria de XX
∑
(
̅)
∑
(∑
)
Variabilidad total
̅
∑
̅
∑
̅)
(∑
∑
)(∑
)
Sumatoria de XY
Media de X Media de Y ∑ ̂
̂
disminuye la variable por cada unidad que se incrementa Ecuación de la regresión lineal estimada
(
̂)
̂
Sumatoria de los cuadrados del error
Suma de cuadrados de la regresión Estimador insesgado de la varianza Cuadrado medio del error
Cuadrado medio total ̂
̂
=√
√
√
Error estándar de estimación Coeficiente de determinación en regresión lineal simple
̂
Estadístico
√
̂
( ⁄
)√
(
[
̅)
(
]
para prueba de hipótesis en regresión lineal simple
)
̂
)√
( ⁄
(
[
̅)
]
Estimación por intervalos para
, en
regresión lineal simple ̂
̂
( ⁄
)√
( ⁄
)√
̂
̂
[
̅
]
)√
( ⁄
̂
̂
( ⁄
Estimación por intervalos para la pendiente en regresión lineal simple )√
[
̅
]
Estimación para la ordenada al origen en regresión lineal simple
Ejemplo. Suponga que el gerente de una cadena de servicios de entrega de paquetería desea desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las tiendas individuales basado en el número de clientes que realizan compras. Se seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes resultados. Tienda 1 2 3 4 5 6 7 8 9 10
Clientes 907 926 506 741 789 889 874 510 529 420
Ventas ($000) 11,20 11,05 6,48 9,21 9,42 10,08 9,45 6,73 7,24 6,12
Tienda 11 12 13 14 15 16 17 18 19 20
Clientes 679 872 924 607 452 729 794 844 1010 621
Ventas ($000) 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41
(a) Grafique el diagrama de dispersión. (b) Suponga una relación lineal y utilice el método de mínimos cuadrados para encontrar los coeficientes de regresión y (c) Interprete el significado de la pendiente. (d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que tienen 600 clientes.
(e) ¿Qué otros factores además del número de clientes pueden afectar las ventas?
Respuestas a) Gráfica de dispersión de Ventas vs. Clientes 12 11
Ventas
10 9 8 7 6 400
500
600
700 Clientes
800
900
1000
b) Los coeficientes son
= 2,3086 y = 0,0088 c) Por cada cliente más, se espera un incremento en las ventas de 0,0088612 de miles de dólares en promedio. ( ) d) ̂ e) Factores tan variados como, atención al cliente, lejanía, falta de estacionamiento etc., etc. Resumen de Excel Coeficientes
Error típico
Estadístico t
Probabilidad
Intercepción
2,308620077
0,486903934
4,741428269
0,000162977
Clientes
0,008861219
0,000647589
13,68338889
5,93374E-11
1.1.1. Prueba de hipótesis en la regresión lineal simple. En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes, sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación entre y . Una primera forma de hacer esto es probar una serie hipótesis sobre el modelo. Para ello es necesario suponer una distribución de probabilidad para el término de error, Es usual suponer normalidad: se distribuye en forma normal, independiente, con media cero y varianza . Por lo general, la hipótesis de mayor interés plantea que la pendiente es significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis:
(1.9)
El estadístico de prueba es: ̂ √ (1.10)
Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución Student con grados de libertad. Se rechaza si el valor absoluto de este estadístico es mayor que el correspondiente valor crítico obtenido de tablas, es decir, se rechaza si: | | ( ⁄ ) (1.11)
En caso contrario no se rechaza . No rechazar que , en el caso del modelo de regresión lineal simple, implica que no existe una relación lineal significativa entre y ; por tanto, no existe relación entre estas variables o ésta es de otro tipo. La suma de cuadrados de los residuos o suma de cuadrados del error ( ) y se utiliza para estimar la varianza del error de ajuste de un modelo, y está dada por: ∑(
̂) (
)
A partir de la ecuación (1.12) se obtiene que el valor esperado de la suma de ), del error está dado por: cuadrados ( (
)
(
) (1.13)
Por lo tanto, un estimador insesgado de
está dado por:
̂ (
)
En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hipótesis sería el siguiente:
Aplicando el estadístico de prueba ̂ √
√
⁄
El valor de -Student encontrado en tablas con 0,05 de nivel de significancia es ( ⁄
|
)
(
)
⁄
|
grados de libertad y un
(
)
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p . En ocasiones, en lugar de probar que , puede ser de interés probar que es igual a cierta constante ( ), en este caso en el numerador del estadístico de la expresión (1.10) se resta , es decir, el estadístico queda de la siguiente manera( ̂ )⁄√ , y el criterio de rechazo es el mismo. Si se utiliza como criterio de rechazo la comparación de la significancia observada (p-value o valor p) contra la significancia predefinida ( ), entonces se rechaza si el valor p . Por otro lado, con respecto del parámetro siguiente hipótesis:
suele ser de interés probar la
(1.15)
El estadístico de prueba es el siguiente: ̂ √
̅
[
] (
)
El cual tiene una distribución -Student con grados de libertad, por lo que se rechaza si: | | ( ⁄ ) o si se utiliza el criterio de la significancia observada se rechaza si el valor-p . No rechazar que simplemente significa que el punto de corte de la línea recta pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que , puede ser de interés probar que es igual a cierta constante ( ); en ese caso, en el numerador del estadístico de la expresión (1.16) se resta , es decir, el estadístico queda de la siguiente manera: ̂
√
[
̅
] (1.17)
y el criterio de rechazo es el mismo.
En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hipótesis sería el siguiente:
Aplicando el estadístico de prueba ̂ √
̅
[
]
√
|
|
El valor de -Student encontrado en tablas con de nivel de significancia es ( ⁄
)
|
(
)
⁄
|
grados de libertad y un 0,05
(
)
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p . La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los mismos se sintetizan en la siguiente tabla: Parámetro
̂
Estimación
̅
Intercepción
̂ ̅
Error estándar √
̂
[
̅
Estadístico ̂ ]
√
[ ̂
√
Pendiente
̅
Valor-p
√
]
(
| |)
(
| |)
Las pruebas de hipótesis para el ejemplo de las ventas contra clientes, el resumen que nos arroja Excel y Minitab incluye el cálculo del valor de t y el valor-p, optando por cualesquiera de ambos estadísticos las hipótesis quedarían de la siguiente manera:
El valor de -Student encontrado en tablas con de nivel de significancia es ( ⁄
|
)
|
(
⁄
)
(
grados de libertad y un 0,05
)
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p . En el caso de las hipótesis para la intercepción tenemos:
|
|
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula valor-p .
Resumen de Excel Coeficientes
Error típico
Estadístico t
Probabilidad
Intercepción
2,308620077
0,486903934
4,741428269
0,000162977
Clientes
0,008861219
0,000647589
13,68338889
5,93374E-11
Ejercicios 1.- ¿Cuál es el propósito general del análisis de regresión? 2.- En el análisis de regresión intervienen dos tipos de variables: las independientes y las dependientes. Explique con sus palabras y a través de ejemplos, las características de estos dos tipos de variables. 3.- En el artículo de Concrete Research (Características del concreto cerca de la superficie: Permeabilidad intrínseca), se presentaron los datos sobre la resistencia a la compresión y la permeabilidad intrínseca de varias mezclas y curados de concreto. Las cantidades resumidas son ,Ʃ , Ʃ = 23 530, Ʃ , Ʃ = 157.42, y Ʃ = 1 697.80. Suponga que las dos variables se relacionan de acuerdo con el modelo de regresión lineal simple. a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen b) Use la ecuación de la recta ajustada para predecir la permeabilidad que se observaría cuando la resistencia a la compresión es = 4,3. c) Dé una estimación puntual de la permeabilidad media cuando la resistencia a la compresión es = 3,7. d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1.
4.- Se utilizaron métodos de regresión para analizar los datos de un estudio para investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8.86, Ʃ , Ʃ = 143 215.8, Ʃ = 1 083.67. a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen. Grafique la recta de regresión b) Use la ecuación de la recta ajustada para predecir la deflexión del pavimento que se observaría cuando la temperatura superficial es de 85 . c) ¿Cuál es la deflexión media del pavimento cuando la temperatura superficial es 90 ? d) ¿Qué cambio en la deflexión media del pavimento se esperaría para un cambio de 1 en la temperatura superficial? 5.- Se piensa que el número de libras de vapor consumidas mensualmente por una planta química se relaciona con la temperatura ambiente promedio (en ) de ese mes. En la tabla siguiente se muestra la temperatura y el consumo anual: Mes Ene. Feb. Mar. Abr. May Jun. Jul. Ago. Sep. Oct. Nov. Dic.
Temperatura 21 24 32 47 50 59 68 74 62 50 41 30
Consumo/1 000 185.79 214.47 288.03 424.84 454.58 539.03 621.55 675.06 562.03 452.93 369.95 273.98
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajuste el modelo de regresión que relacione el consumo de vapor ( ) con la temperatura promedio ( ). b) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperatura promedio es 55 ? c) ¿Qué cambio se espera en el consumo de vapor promedio cuando la temperatura mensual promedio cambia 1 ? d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor ajustado y el residual correspondiente. 6.- En un artículo de Journal of Environmental Energineering se reportan los resultados de un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte central de Rhode Island. Los datos que se presentan a continuación corresponden a la concentración de cloruros (en mg/l) y al área de carretera de la vertiente (en %).
4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5 0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62
Trace un diagrama de dispersión de los datos. ¿Parecería apropiado un modelo de regresión lineal simple en este caso? b) Ajuste el modelo de regresión lineal simple usando el método de mínimos cuadrados. c) Estime la concentración de cloruros media de una vertiente que tiene 1% del área de carretera. d) Encuentre el valor ajustado que corresponde a = 0.47 a)
7.- Demuestre que en un modelo de regresión lineal simple el punto ( ̅ ̅) se localiza exactamente sobre la recta de regresión de mínimos cuadrados. 8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite y = volumen del desgaste ( ), son: 240 181 193 155 172 110 113 75 94 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0
a) Construya un diagrama de dispersión de los datos. ¿Parecería plausible un modelo de regresión lineal simple? b) Ajuste el modelo de regresión lineal simple usando mínimos cuadrados. c) Estime el desgaste por rozamiento cuando la viscosidad es = 30. d) Obtenga el valor ajustado de cuando = 22,0 y calcule el residual correspondiente.
9.- Considérense los datos del ejercicio 4 para carretera y = deflexión del pavimento.
= temperatura superficial de una
a) Pruebe la significación de la regresión utilizando . Encuentre el valor P para esta prueba. ¿Qué conclusiones pueden sacarse? b) Estime c) Estime los errores estándar de la pendiente y la ordenada al origen. 10.- En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento. Los datos obtenidos se muestran en la siguiente tabla. Tiempo (minutos) Rendimiento (%)
10
15
20
8
12
13
15
12
14
20
19
18
64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3
a) ¿En este problema cuál variable se considera independiente y cuál dependiente? b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos). d) ¿La calidad del ajuste es satisfactoria? Argumente e) Destaque el valor de la pendiente de la recta e interprételo en términos practicos. f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y obtenga un intervalo de confianza para esta estimación.
11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura promedio. a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta prueba? Enuncie las conclusiones que resultan de esta prueba. b) Estime c) Estime los errores estándar de la pendiente y la ordenada al origen. d) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba. e) Pruebe la hipótesis contra usando . Encuentre el valor P para esta prueba y saque conclusiones. 12.- En el ejercicio 6 se presentan los datos para corrientes superficiales y = área de carretera. a) Pruebe la hipótesis contra indicado con un nivel de significancia del 0,01 (
= concentración de cloruros en usando el procedimiento ).
1.1.2. Calidad del ajuste en regresión lineal simple En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una relación significativa entre y ; sin embargo, no hemos visto si tal relación permite hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué tanta de la variabilidad presente en fue explicada por el modelo, además si se cumplen los supuestos de los residuos.
Coeficiente de determinación
. Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la regresión lineal simple esto se distingue al observar si los puntos tienden a ajustarse razonablemente bien a la línea recta (véase la figura 1.3). Pero otro criterio más cuantitativo es el que proporciona el coeficiente de determinación, el cual está definido por:
(1.17)
Es claro que . En general se interpreta como la proporción de la variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de la resistencia de la pulpa (tabla 1.1) tenemos ̂
∑
( (∑
)( )
=
=
)
= 2580.86
Por lo tanto, podemos decir que 93% de la variación observada en la resistencia es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste es satisfactorio, y que por ello, la relación entre es descrita adecuadamente por una línea recta. Nota. El resultado arrojado por Excel o Minitab, incluye el análisis de varianza para el modelo de regresión simple cuyo cuadro sintético es el siguiente: Fuente de variación Regresión
Error o residual
Suma de cuadrados ̂
Grados de libertad
Cuadrado medio
Valor-p (
1
)
̂
Total
Resumen de Excel Resumen de Excel
Estadísticas de la regresión Coeficiente de correlación múltiple Estadísticas de la regresión 0,964432318 correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695 Coeficiente 0,930129695 R^2 ajustadode determinación R^2 0,92430717 R^2 ajustado 0,92430717 Error típico 3,876481166 Error típico 3,876481166 Observaciones 14 Observaciones 14 ANÁLISIS DE VARIANZA Regresión
Regresión Residuos Residuos Total Total
Intercepción Porcentaje de fibra
Grados de de libertad libertad Grados 1 1 12 12 13 13
Suma de de cuadrados cuadrados Suma 2400,531868 2400,531868 180,3252747 180,3252747 2580,857143 2580,857143
Promedio de de los los cuadrados cuadrados Promedio 2400,531868 2400,531868 15,02710623 15,02710623
Coeficientes 130,6747253 Coeficientes 1,624175824
Error típico 2,417790201 Error típico 0,128504099
Estadístico t 54,047173 Estadístico t 12,63909737
Valor crítico crítico de de FF FF Valor 159,7467824 2,70702E-08 159,7467824 2,70702E-08
Probabilidad 1,05975E-15 Probabilidad 2,70702E-08
Inferior 95% 125,406813 Inferior 95% 1,344189444
Intercepción de varianza en Minitab 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813 Análisis Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444 Análisis de los residuales Fuente GL SC MC F P Regresión 1 2400,5 2400,5 159,75 0,000 Observación Pronóstico Resistencia Residuos Análisis de los residuales Error residual 12 180,3 1 137,1714286 15,0 -3,171428571 Total 13 2580,9 2 140,4197802 4,58021978 Observación Pronóstico Resistencia Residuos 3 143,6681319 -1,668131868 14 137,1714286 -3,171428571 146,9164835 2,083516484 150,1648352 -6,164835165 25 4,58021978 S = 3,87648 R-cuad. 140,4197802 = 93,0% R-cuad.(ajustado) = 92,4% 153,4131868 6,586813187 36 143,6681319 -1,668131868 7 156,6615385 -0,661538462 48 146,9164835 2,083516484 159,9098901 -2,90989011 5 150,1648352 -6,164835165 163,1582418 ajustado 4,841758242 Coeficiente9 de determinación . Este coeficiente se calcula de la 10 166,4065934 -0,406593407 6 153,4131868 6,586813187 siguiente manera: 11 169,6549451 -2,654945055 7 156,6615385 -0,661538462 12 172,9032967 -1,903296703 8 159,9098901 -2,90989011 13 176,1516484 -2,151648352 9 163,1582418 4,841758242 14 179,4 3,6 10 166,4065934 -0,406593407 (1.18) 11 169,6549451 -2,654945055 12 172,9032967 -1,903296703 13 -2,151648352 donde el cuadrado medio total, 176,1516484, se obtiene al dividir la suma de cuadrados total, , 14 179,4 3,6 entre sus grados d libertad. Cuando hay muchos términos en un modelo, el estadístico
se prefiere en lugar de , puesto que este último es engañoso al incrementarse en forma artificial con cada término que se agrega al modelo, aunque sea un término que no contribuya en nada a la explicación de la respuesta. En cambio, el incluso baja de valor cuando el término que se agrega no aporta nada. Se cumple que
. En general, para fines de predicción se recomienda un coeficiente de determinación ajustado de al menos 0.7. En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de determinación ajustado está dado por:
Observe que estos coeficientes son arrojados automáticamente en Excel y Minitab.
Coeficiente de correlación . Es bien conocido que el coeficiente de correlación, , mide la intensidad de la relación lineal entre dos variables Si se tiene pares de datos de la forma ( ), entonces este coeficiente se obtiene de la siguiente manera:
√ (1.19)
Se puede ver que ; si es próximo a , entonces tendremos una relación lineal negativa fuerte, y si es próximo a cero, entonces diremos que no hay correlación lineal, y finalmente se es próximo a , entonces tendremos una relación lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de correlación es; ∑
(∑
∑
√
)(∑
(∑
√(
(
)
)
(
)(
)(
)
)
)
lo cual habla de una correlación lineal positiva fuerte.
Error estándar de estimación ̂. Una medición sobre la calidad del ajuste de un modelo lo da el error estándar de estimación, que es una estimación de la desviación estándar del error, . En el caso de la regresión lineal simple, está dado por:
̂
√
= (1.20)
√
̂
√
Es claro que a medida que el modelo ajuste mejor, la consecuencia el error estándar de estimación también será menor.
será menor y en
Análisis gráfico de residuos. Como complemento a lo que se ha discutido hasta aquí, un análisis adecuado de los residuos proporciona información adicional sobre la calidad del ajuste del modelo de regresión y de esa manera es posible verificar si el modelo es adecuado. Las gráficas que suelen hacerse para completar el diagnóstico del modelo consisten en: a) graficar los residuos en papel de probabilidad normal, b) graficar los residuos contra los predichos.
Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye la gráfica de probabilidad normal que se muestra en la figura 1.4. En ésta se aprecia que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya que los puntos en esta gráfica tienden a ajustarse a la línea recta. Gráfica de probabilidad normal (la respuesta es Resistencia)
99
95 90
Porcentaje
80 70 60 50 40 30 20 10 5
1
-10
-5
0 Residuo
5
10
Figura 1.4 Gráfica de probabilidad normal para los residuos de la resistencia de la pulpa
A partir de la tabla 1.2 es fácil obtener la gráfica de residuos contra predichos que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta gráfica los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica y diagnosticar cuál es la falla que registra el modelo.
vs. ajustes
(la respuesta es Resistencia) 7,5 5,0
Residuo
2,5 0,0 -2,5 -5,0 140
150
160 Valor ajustado
170
180
Figura 1.5 Gráfica de residuos contra estimados o predichos ̂ para la resistencia de la pulpa
En particular la figura 1.5 no muestra ninguna anomalía, lo cual es una evidencia más a favor del modelo de regresión simple para este ejemplo.
1.1.3. Estimación y predicción por intervalo en regresión lineal simple Una de las aplicaciones más importantes en un análisis de regresión es hacer estimaciones de la respuesta media para un valor dado de X. En el caso particular de la regresión lineal simple, sabemos que un estimador puntual de la respuesta media lo da la recta de regresión: ̂
̂
̂
Además de esto, en ocasiones es de interés obtener una estimación por intervalos para ̂ a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuación: ̂
( ⁄
)√
[
(
̅)
]
(
)
̂
)√
( ⁄
[
(
̅)
] (1.21)
A este intervalo se le conoce como intervalo para la recta de regresión. Note que su amplitud depende del y de la distancia entre y ̅ . La amplitud es mínima cuando = ̅ y se incrementa conforme | ̅ | se hace más grande. Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la respuesta media en = 12 (porcentaje de fibra) Primeramente calculemos el estimador puntual para ̂ cuando por ̂
̂
̂
(
)(
)
= 12 , está dado
y un intervalo de confianza al 95% para ̂ ̂
( ⁄
)√
(
[
̅)
√
]
(
[
De aquí que el intervalo de confianza para la respuesta media en por: (
)
]
= 12 está dada
)
Además de la estimación puntual para la pendiente y la ordenada al origen, ̂ ̂ , es posible obtener estimaciones de los intervalos de confianza para estos parámetros. La anchura de estos intervalos de confianza es una medida de la calidad global de la recta de regresión. Si los términos del error, del modelo de regresión tienen una distribución normal e independiente, entonces tienen ambos una distribución igual a la de una variable aleatoria grados de libertad. Esto lleva a la siguiente definición de los intervalos de confianza del ( )% para la pendiente y la ordenada al origen. ̂
)√
( ⁄
̂
̂
)√
( ⁄
̂ (1.22)
̂
)√
( ⁄
̅
[
]
̂
)√
( ⁄
[
̅
] (1.23)
En el caso del intervalo de confianza para la pendiente de los datos del porcentaje de fibra (tabla 1.1) tenemos ̂
( ⁄
)√
̂
√
(
)
Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042 Ejemplo En un artículo se presentaron los datos de la concentración del licor verde ( ), y la producción de una máquina papelera ( ). Los datos se muestran en la tabla siguiente
Número de observación 1 2 3 4 5 6 7 8 9 10 11 12 13
Concentración Del licor verde ( ) 40 42 49 46 44 48 46 43 53 52 54 57 58
Producción (tons ) 825 830 890 895 890 910 915 960 990 1010 1012 1030 1050
a) Encuentre un intervalo de confianza de 99% para ̂ ̂ b) La concentración media de cuando la producción es toneladas c) Encuentre un intervalo de predicción de 99% para la concentración de cuando toneladas
1.2. Regresión lineal múltiple En muchas situaciones prácticas existen varias variables independientes que se cree que influyen o están relacionadas con una variable de respuesta , y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de . Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia, el número de personas que la habitan, la temperatura promedio de la zona, etcétera. Sea variables independientes o regresoras, y sea una variable de respuesta, entonces el modelo de regresión lineal múltiple con variables independientes es el polinomio de primer orden:}
(1.22)
Donde los son los parámetros del modelo que se conocen como coeficientes de ( ) regresión y es el error aleatorio, con media cero, ( ) . Si en la ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo es una línea recta; si , tal ecuación representa un plano. En general, la ecuación (1.22)representa un hiperplano en el espacio de dimensiones generado por las variables { }.
El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22) es función lineal de los parámetros desconocidos La interpretación de éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es la ordenada al origen, y mide el cambio esperado en por cambio unitario en cuando el resto de las variables regresoras se mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple por el método de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:
̂
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂ ∑
̂
∑
∑
̂ ∑
∑
̂
̂
(1.23)
Estas ecuaciones se pueden resolver para ̂ , ̂ y ̂ mediante cualquier método apropiado para resolver sistemas de ecuaciones lineales Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12 muchachos. Tabla 1.5 Peso, estatura y edad Peso Estatura Edad 64 71 53 67 55 58 77 57 56 51 76 68
57 59 49 62 51 50 55 48 52 42 61 57
8 10 6 11 8 7 10 9 10 6 12 9
Para encontrar los coeficientes de regresión ( ̂ , ̂ y ̂ ) múltiple mediante el método de mínimos cuadrados seria de la siguiente manera:
Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple Y
X1
X2
Y2
X 12
X 22
X 1Y
X 2Y
X1 X 2
64 71 53 67 55 58 77 57 56 51 76 68
57 59 49 62 51 50 55 48 52 42 61 57
8 10 6 11 8 7 10 9 10 6 12 9
4096 5041 2809 4489 3025 3364 5929 3249 3136 2601 5776 4624
3249 3481 2401 3844 2601 2500 3025 2304 2704 1764 3721 3249
64 100 36 121 64 49 100 81 100 36 144 81
3648 4189 2597 4154 2805 2900 4235 2736 2912 2142 4636 3876
512 710 318 737 440 406 770 513 560 306 912 612
456 590 294 682 408 350 550 432 520 252 732 513
y
x1
x2
y 2
x22
x1 y
x2 y
x1 x2
753
x12
643
106
48,139
34,843
976
40,830
6,796
5,779
Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene ̂ ̂
̂ ̂
̂
̂ ̂
̂
̂
Resolver este sistema de tres ecuaciones lineales para ̂ , ̂ y ̂ , es por lo menos tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta clase de cálculos son realizados por la computadora. El resultado seria el siguiente ̂ tanto la ecuación de regresión es
, ̂
y ̂
por lo
̂ La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la siguiente secuencia:
|
|
|
|
̂
( (
) ( )
) )
Siguiendo la misma secuencia de la multiplicación para el denominador, así como para ̂ y ̂ |
|
|
|
|
|
|
|
̂
̂
Sustituyendo los valores tendremos
̂
̂
753 40,830 6,796
643 34,843 5,779
106 5,779 976
753 40,830 6,796
643 34,843 5,779
12 643 106
643 34,843 5,779
106 5,779 976
12 643 106
643 34,843 5,779
(2.56070963x1010+ 2.525323601x1010+ 2.501139642x1010) – (2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010) ( 408081216 + 393885082 + 393885082 ) – ( 391495948 + 400762092 + 403526224 )
̂
Siguiendo el mismo procedimiento correspondiente para ̂ y ̂ tenemos los coeficientes de regresión múltiple
Análisis de regresión: Peso vs. Estatura; Edad en Minitab La ecuación de regresión es Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Predictor Constante Estatura Edad
Coef 3,65 0,8546 1,506
S = 5,36321
Coef. de EE 16,17 0,4517 1,414
T 0,23 1,89 1,07
R-cuad. = 70,9%
P 0,826 0,091 0,315
R-cuad.(ajustado) = 64,4%
Análisis de varianza Fuente Regresión Error residual Total
GL 2 9 11
SC 629,37 258,88 888,25
MC 314,69 28,76
F 10,94
P 0,004
Resumen Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,841756673 0,708554296 0,643788584 5,363214691 12
ANÁLISIS DE VARIANZA Regresión Residuos Total
Intercepción Estatura Edad
Grados de libertad 2 9 11
Suma de cuadrados 629,3733536 258,8766464 888,25
Promedio de los cuadrados 314,6866768 28,76407182
F 10,9402688
Valor crítico de F 0,003895018
Coeficientes 3,651215805 0,854609929 1,50633232
Error típico 16,16780562 0,451664156 1,414265835
Estadístico t 0,22583249 1,892135824 1,06509843
Probabilidad 0,82637676 0,0910251 0,31457045
Inferior 95% -32,9229014 -0,167125373 -1,692959262
Pronóstico Peso 64,41464032 69,13652482 54,56509625 73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264
Residuos -0,414640324 1,863475177 -1,565096251 -6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356
Análisis de los residuales Observación 1 2 3 4 5 6 7 8 9 10 11 12
1.2.1. Pruebas de hipótesis en regresión lineal múltiple Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribución a la explicación de la respuesta. También requerimos de la suposición de que los errores se distribuyen en forma normal, independientes, con
media cero y varianza ( las observaciones son:
( (
)). Una consecuencia de esta suposición es que ∑ ).
La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver si la regresión es significativa. Esto se logra probando la siguiente hipótesis:
Aceptar significa que ningún término o variable en el modelo tiene una contribución significativa al explicar la variable de respuesta, . Mientras que rechazar implica que por lo menos un término en el modelo contribuye de manera significativa a explicar . El procedimiento para probar esta hipótesis es una generalización del procedimiento utilizado para probar la hipótesis equivalente en regresión lineal simple. El estadístico de prueba para la significancia del modelo de regresión lineal múltiple esta dado por: ⁄ ⁄( ) (1.24)
que bajo
tiene una distribución ) o también si
(
).
(
(
Así, se rechaza
)
Ejemplo Se probará la significación de la regresión (con pesos , estaturas y edades de la tabla 1.5
) utilizando los datos de los
El valor de calculado por formula nos da un valor de comodidad observamos el resumen arrojado por Excel y/o Minitab ⁄ ⁄(
si
= 10,9402 ,por
10,94
)
En tanto que el valor de encontrado en tablas cuando tenemos un nivel de significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el cual es igual a 4,26 ( (
) )
=
(
)= (
)
Se rechaza la Hipótesis nula
Dado que el valor encontrado en formula es mayor al punto crítico en base al nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la alterna lo
cual implica que por lo menos un término en el modelo contribuye de manera significativa a explicar Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple Fuente de Suma de Grados de Cuadrado variación cuadrados libertad medio Regresión K ⁄ (∑ ) ̂ Resumen
̂
Error o residuo
Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 Total R^2 ajustado Error típico Observaciones
0,841756673 0,708554296 0,643788584 5,363214691 12
(∑
)
n-1
ANÁLISIS DE VARIANZA Regresión Residuos Total
Grados de libertad 2 9 11
Suma de cuadrados 629,3733536 258,8766464 888,25
Promedio de los cuadrados 314,6866768 28,76407182
F 10,9402688
Valor crítico de F 0,003895018
Coeficientes
Error típico 16,16780562 0,451664156 1,414265835 F
Estadístico t 0,22583249 1,892135824 1,06509843
Probabilidad 0,82637676 0,0910251 0,31457045
Inferior 95% -32,9229014 -0,167125373 -1,692959262
Análisis de varianza en 3,651215805 Minitab Intercepción Estatura Edad Fuente Regresión Análisis de los residuales Error residual Total Observación
0,854609929
1,50633232 SC MC 629,37 314,69 10,94 258,88 28,76 888,25 Pronóstico Peso Residuos
GL 2 9 11 1 2 3 4 5 6 7 8 9 10 11 12
64,41464032 69,13652482 54,56509625 73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264
P 0,004
-0,414640324 1,863475177 -1,565096251 -6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356
Coeficiente de determinación
El que un modelo sea significativo no necesariamente implica que sea bueno en términos de que explique la variación de los datos. Por ello es importante tener mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de residuales y el coeficiente de determinación. Con la información del análisis de varianza de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación , y el coeficiente de determinación ajustado :
(1.25)
⁄(
) ⁄(
) (1.26)
Ambos coeficientes se interpretan de forma similar al caso de regresión lineal simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por el modelo. Se cumple que ; en general, para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores superiores a 0,7. Cuando en el modelo hay términos que no contribuyen de manera significativa a éste, el tiende a ser menor que el . Por lo tanto, es deseable depurar el modelo y para ello las siguientes pruebas de hipótesis son de mucha utilidad.
Para los datos de la tabla 1.5 tenemos que
Coeficiente de correlación múltiple Es la raíz cuadrada del coeficiente de determinación √ (1.27) y es una medida de la intensidad de la relación entre la variable dependiente, , y el conjunto de ) variables o términos en el modelo (
Error estándar de estimación Al igual que en regresión lineal simple, el error estándar de estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una interpretación similar a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltiple, el error estándar de estimación, ̂
⁄(
√
) (1.28)
En el caso del ejemplo de los pesos, estatura y edades tenemos ̂
√
⁄(
)
1.2.2. Intervalos de confianza y predicción en regresión múltiple En los modelos de regresión múltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresión * +. Por ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada coeficiente en lo individual está dado por: ̂
( ⁄
)√
̂
( ⁄
)√
(1.29)
Tabla 1.8 Análisis de regresión múltiple Parámetro Estimación Error estándar ̂ Intercepción √
Estadístico ̂
Valor-p | |) (
√ Resumen
̂
Estadísticas de la regresión Coeficiente de correlación múltiple . Coeficiente de determinación R^2 . R^2 ajustado Error típico Observaciones
√
0,841756673 . 0,708554296 . 0,643788584 5,363214691 12
Grados de libertad 2 9 11
Regresión Residuos Total
Intercepción Estatura Edad
√
Suma de cuadrados 629,3733536 258,8766464 888,25
Coeficientes 3,651215805 0,854609929 1,50633232
Error típico 16,16780562 0,451664156 1,414265835
Pronóstico Peso
Residuos
73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264
-6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356
| |)
(
√
. .
̂
ANÁLISIS DE VARIANZA
̂
. . ̂ √Promedio de los cuadrados 314,6866768 28,76407182
Estadístico t 0,22583249 1,892135824 1,06509843
(
| |)
F 10,9402688
Valor crítico de F 0,003895018
Probabilidad 0,82637676 0,0910251 0,31457045
Inferior 95% -32,9229014 -0,167125373 -1,692959262
Análisis de los residuales Observación
1 64,41464032 -0,414640324 de confianza con respecto a la respuesta También es posible obtener un intervalo 2 69,13652482 1,863475177 media en un punto particular, digamos -1,565096251 está dado por: 3 54,56509625
̂
( ⁄
)√
4 5 6 7 8 9 10 11 12
(
)
( )
Ejercicios de regresión lineal múltiple
̂
( ⁄
)√
(
)
13.- ¿Por qué se requiere la regresión lineal múltiple? 14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno ( ) con la profundidad en pies ( ) y el contenido de humedad ( ). Se hicieron 10 observaciones, obteniéndose las siguientes cantidades resumidas ∑
, ∑
, ∑ ,∑
, ∑
y∑
, ∑
, ∑
, ∑
,
a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo b) Estime los parámetros del modelo del inciso a) c) ¿Cuál es la resistencia predicha cuando pies y
?
15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y dicromato de aluminio. En este proceso se controla el pH de la solución, la temperatura, la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un experimento, la relación del pH y la temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:
pH 1,2 1,8 1,2 1,8 1,2 1,8 1,2 1,8 1,5 1,5
Temperatura -8 -8 8 8 -8 -8 8 8 0 0
Espesor 9 14 10 19 8 12 11 20 14 13
a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente b) Ajuste un modelo del tipo y anote la ecuación del modelo ajustado c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un pH = 2 y una temperatura de 10 grados? d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas de hipótesis y coeficientes de determinación. 16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio reportado por un grupo de cinco panelistas que probaron todos los quesos y los calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación: Sal 6 5,5 4,5 4 4,5 5,5 5 5
Cuajo 0,3 0,387 0,387 0,3 0,213 0,213 0,3 0,3
Sabor 5,67 7,44 7,33 6,33 7,11 7,22 6,33 6,66
a) Ajuste el modelo b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo, los residuales y el coeficiente de determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del ajuste aplique las pruebas de hipótesis d) Compare el error estándar de estimación (√ ( ) para ambos modelos e) ¿Cuál modelo prefiere para explicar el sabor?
) y los coeficientes de determinación
17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química se relaciona con la temperatura ambiente promedio ( ), el número de días laborales del mes ( ), la pureza promedio del producto ( ) y las toneladas del producto producidas ( ). Se cuenta con los datos del último año, los cuales se presentan en la tabla siguiente:
240 236 290 274 301 316 300 296 267 276 288 261
25 31 45 60 65 72 80 84 75 60 50 38
24 21 24 25 25 26 25 25 24 25 25 23
91 90 88 87 91 94 87 86 88 91 90 89
100 95 110 88 94 99 97 96 110 105 100 98
a) Ajuste un modelo de regresión lineal múltiple a estos datos b) Prediga el consumo de electricidad para un mes en el que días y toneladas c) Calcule para este modelo. Interprete esta cantidad d) Grafique los residuales contra ̂. Interprete la grafica
,
1.2.3. Uso de un software estadístico Excel En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple; para ello, es necesario realizar la siguiente secuencia de opciones: Datos
Análisis de datos
Regresión
Generalmente Excel no trae instalado la herramienta de análisis de datos esta debe instalarse con la siguiente secuencia: 1.- En la hoja de cálculo de Excel (pantalla principal) hacer click con el puntero en el símbolo del sistema localizado en el extremo superior izquierdo 2.- De la ventana desplegada hacer click en opciones de Excel
3.- De la ventana desplegada hacer click en complementos
4.- De la ventana desplegada hacer click en ir
5.- De la ventana desplegada hacer click en ir
6.- De esta ventana activar la casilla de herramientas para análisis (palomearla) y dar click en aceptar. De esta manera hemos activado la opción de análisis de datos. Para capturar la tabla de datos para el análisis de regresión lineal simple o múltiple, primeramente capturamos los datos en la hoja de cálculo, posteriormente activamos Datos seguido de Análisis de datos y seleccionamos Regresión Datos
Análisis de datos
Regresión
En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos para la variable dependiente Rango de entrada y para la(s) variable(s) regresora(s) Rango de entrada
Activamos la casilla de rótulos, por default está indicado en una hoja nueva, seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y curva de regresión ajustada y aceptar.
Minitab En minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego Regresión seguida de Regresión nuevamente
De la ventana desplegada en Respuesta indicamos la variable de respuesta, en este caso es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera de las opciones posibles, terminando en aceptar.
1.3. Regresión no lineal Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla de regresión lineal simple
Cuando las variables X y Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica, exponencial, potencial etc. Supongamos que al hacer la representación gráfica correspondiente la distribución bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación entre las dos variables, pero desde luego, esa relación no es lineal. Por tanto, debemos buscar la función que ha de describir la dependencia entre las dos variables. Nos limitaremos al estudio de las más utilizadas: la función parabólica, la logarítmica, la exponencial y la potencial.
Parábola de Regresión En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. La expresión general de un polinomio de 2º grado es:
donde a, b y c son los parámetros. El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima: ∑(
̂)
donde, siguiendo la notación habitual, yi son los valores observados de la variable dependiente, e los valores estimados según el modelo; por tanto, podemos escribir D de la forma: ∑(
̂)
∑(
)
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresión lineal simple). ∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
Función Exponencial, Potencial y Logarítmica El problema de ajustar un modelo potencial, de la forma y uno exponencial se reduce al de la función lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresión de la función potencial, obtendremos:
Como vemos es la ecuación de una recta: , donde ahora . De modo que el problema es sencillo, basta con transformar Y en y X en y ajustar una recta a los valores transformados. El parámetro b del modelo potencial coincide con el coeficiente de regresión de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).
Modelo exponencial: Tomando logaritmos en la expresión de la función exponencial, obtendremos:
También se trata de la ecuación de una recta , pero ahora ajustándola a y a X; de modo que, para obtener el parámetro A del modelo exponencial, basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).
Modelo logarítmico: La curva logarítmica Y = a + b es también una recta, pero en lugar de estar referida a las variables originales X e Y, está referida a y a Y. Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos que el de una recta, estos tres últimos se reducen al modelo lineal sin más que transformar adecuadamente los datos de partida.
View more...
Comments