1_Regresión Lineal Simple
Short Description
Download 1_Regresión Lineal Simple...
Description
UNIDAD
1
REGRESIÓN LINEAL SIMPLE
OBJETIVO EDUCACIONAL Al término de esta unidad el alumno será capaz de: •
Interpretar el proceso metodológico para la construcción de un modelo de regresión lineal simple, así como manipular un conjunto de datos, ya sea con una calculadora de escritorio o un programa de computadora diseñado especialmente para ello o a través de un paquete estadístico con el fin de obtener los parámetros del modelo.
1.1 Introducción El término regresión fue usado por primera vez como concepto estadístico en 1877 por Sir Francis Galton; quien efectuó un estudio que demostró que las estaturas de los hijos de padres altos tendían a retroceder, o a “regresar”, hacia la estatura promedio de la población. Regresión fue el nombre que le dio al proceso general de predecir una variable a partir de otra. 1
__________________________________________________________________________________ Estadística II
El objetivo en el análisis de regresión lineal es el desarrollo de un modelo estadístico que pueda ser utilizado para predecir los valores de una variable de respuesta o dependiente basados en los valores de al menos una variable independiente o explicatoria. En esta unidad enfocaremos nuestra atención en un modelo de regresión lineal simple que utiliza una sola variable numérica independiente X
para predecir la variable numérica dependiente
Y.
En la unidad 2
desarrollaremos un modelo de regresión múltiple que utiliza varias variables explicatorias (X1, X2, . . . . , Xk) para predecir una variable numérica dependiente Y. Diagrama de Dispersión. En el análisis de regresión que implica una variable dependiente y una variable independiente, los valores individuales se representan en una gráfica bidimensional conocida como diagrama de dispersión. En la siguiente gráfica se muestran los tipos de relación más comunes que pueden observarse en los diagramas de dispersión. Grafica 1.1. Tipos de relación
2
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
Modelo de regresión lineal simple. La naturaleza de la relación entre dos variables puede tomar muchas formas, desde las sencillas hasta las funciones matemáticas extremadamente complicadas. La relación más sencilla consiste en una línea o relación lineal, de la forma yi = β 0 + β 1 xi + ε i donde: β 0 es la intersección con el eje Y para la ecuación poblacional; β 1 es la pendiente de la ecuación poblacional y el error aleatorio εi, es el error del modelo, debe necesariamente tener una media de cero.
Si ciertas suposiciones son válidas (Normalidad,
Homocedasticidad,
Independencia del Error y Linealidad), entonces la intersección con el eje Y de la muestra (b0 ) y la pendiente de la ecuación muestral (b1) pueden utilizarse como estimaciones de los respectivos parámetros de la ecuación poblacional. Por consiguiente, la ecuación de regresión de la muestra que representa al modelo de regresión lineal será: ˆy i = b0 + b1 x i
1.2 Estimación de Parámetros. El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la línea recta para la cual las diferencias entre los valores reales (yi) y los valores que serían estimados a partir de la línea ajustada de regresión ( ˆy i ) sean lo más pequeñas posible. Debido a que tales diferencias serán positivas y negativas para las diferentes observaciones, se minimiza matemáticamente la expresión n
∑
e i2
i =1
=
n
∑
i =1
( y i − ˆy i ) 2 =
n
∑ [y
− ( b0 + b1 x i )]
2
i
i=1
Esta técnica matemática utilizada para determinar los valores de b0 y b1 que mejor se ajusten a los datos observados se conoce como método de mínimos cuadrados. Cualesquiera valores diferentes de b0
y
b1 que sean diferentes a los determinados por el método de mínimos
cuadrados tendrían como resultado una suma mayor del cuadrado de las diferencias entre el valor real y el valor estimado. José Armando Rodríguez Romo
3
__________________________________________________________________________________ Estadística II n
∑
Al derivar parcialmente la expresión
e i2 =
i =1
n
∑
( y i − ˆy i ) 2 =
i =1
n
∑ [y
− ( b0 + b1 x i )] , 2
i
i=1
primero con respecto a b0 y después con respecto a b1, e igualar a cero, obtenemos las siguientes dos ecuaciones conocidas como normales:
I.
nb0 + b1
II .
b0
n
∑ i=1
n
n
xi = ∑ yi ∑ i =1 i=1
x i + b1
n
∑ i=1
n
xi yi ∑ i=1
x i2 =
b0 y b1 de los respectivos coeficientes de regresión
Las estimaciones de mínimos cuadrados
β 0 y β 1 . Dada la muestra {(xi, yi), i= 1, 2, . . . , n}, se calculan por medio de las siguientes fórmulas que resultan de resolver de manera simultanea para b0 y b1:
⎛ n ⎞⎛ n ⎞ ⎜ n xi yi − x i ⎟⎜ yi ⎟ ⎜ i = 1 ⎟⎜ i = 1 ⎟ i=1 ⎝ ⎠⎝ ⎠ n
∑
b1 =
∑
∑
⎛ n ⎞ n x i2 − ⎜ xi ⎟ ⎜i =1 ⎟ i=1 ⎝ ⎠ n
∑
n
2
=
∑
∑
S xy
b0 =
S xx
n
i=1
yi − b ∑ xi i=1
n
= y − b1 x
donde:
S xx =
∑
i=1
S xy =
2
n
n
∑
i=1
xi2
⎞ ⎛ n xi ⎟ / n −⎜ ⎜i=1 ⎟ ⎠ ⎝
∑
S yy =
2
n
∑
yi2
i=1
⎞ ⎛ n yi ⎟ / n −⎜ ⎜i=1 ⎟ ⎠ ⎝
∑
⎛ n ⎞⎛ n ⎞ x i yi − ⎜ x i ⎟⎜ yi ⎟ / n ⎜ i = 1 ⎟⎜ i = 1 ⎟ ⎝ ⎠⎝ ⎠
∑
∑
Propiedades de los Estimadores. Puede demostrarse que
E ( b0 ) = β 0
⎡1 x2 ⎤ y V ( b0 ) = σ ⎢ + ⎥ S x x ⎦⎥ ⎣⎢ n
E ( b1 ) = β 1
4
2
y V ( b1 ) =
σ2 Sxx José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
En consecuencia b0
es un estimador insesgado de la ordenada al origen
β 0 y b1 es un
estimador insesgado de la pendiente verdadera β 1 . Una estimación insesgada de σ 2 es:
σˆ 2 = s 2 =
S yy − b1 S x y SCE = n−2 n−2
Estimación por Intervalos de Confianza para los Parámetros Intervalo de Confianza para β 0 . Un intervalo de confianza del ( 1 − α )100% para el parámetro β 0 en la línea de regresión y i = β 0 + β 1 x i + ε i es: n
∑
b0 − t α
/ 2,n − 2
s
n
∑x
x i2
i=1
nS xx
< β 0 < b0 + t α
/ 2,n − 2
2 i
i=1
s
nS xx
Intervalo de Confianza para β 1 . Un intervalo de confianza del ( 1 − α )100% para el parámetro β 1 , en la línea de regresión y i = β 0 + β 1 x i + ε i es:
b1 − t α
s / 2,n − 2
S xx
< β 1 < b1 + t α
s / 2,n − 2
S xx
1.3 Pruebas de Hipótesis en la Regresión Lineal Simple 1) Las hipótesis son
H0 : β1 = 0
(la variación de Y resulta de fluctuaciones aleatorias que son independientes de los valores de X)
H1 : β1 ≠ 0
(existe una cantidad significativa en la variación de Y que se explica por la variación de X)
2) El estadístico de prueba es:
t0 =
b1 − β 1 ,0 Sb
=
b1 − β 1 ,0 s2 / Sx x
3) La regla de decisión para un nivel de significancia α y v = n − 2 grados de libertad es Rechazar H0 si t 0 > t 1−α / 2 , n− 2
ó
Pvalor ≤ α
4) Evaluar el estadístico de prueba: José Armando Rodríguez Romo
5
__________________________________________________________________________________ Estadística II
5) Decisión: se rechaza o no se rechaza H0 6) Conclusión: el rechazo de H 0 : β 1 = 0 , implica que existe una cantidad significativa en
la variación de Y que se explica por la variación de X Para probar la significancia de la regresión se puede utilizar el análisis de varianza 1) Las hipótesis son
H0 : β1 = 0
(La variación de Y resulta de fluctuaciones aleatorias que son independientes de los valores de X)
H1 : β1 ≠ 0
(Existe una cantidad significativa en la variación de Y que se explica por la variación de X)
2) El estadístico de prueba es: f 0 =
SCR / 1 CMR = SCE /( n − 2 ) CME
3) La regla de decisión para un nivel de significancia α , v 1 = 1 Rechazar H0 si f 0 > f vv21, 1− α
ó
y v 2 = n − 2 es
Pvalor ≤ α
4) Evaluar el estadístico de prueba: Análisis de varianza para probar la hipótesis nula H 0 : β 1 = 0 Fuente de Variación
Suma de Cuadrados
Regresión
SCR = b1 S x
Error
SCE = S y y − b1 S x y
Total
y
Grados de Libertad
Cuadrados Medios
fo
1
CMR
CMR s2
n−2
s2 =
SCE n−2
SCT = S y y
5) Decisión: se rechaza o no se rechaza H0 6) Conclusión: el rechazo de H 0 : β 1 = 0 implica que existe una cantidad significativa en
la variación de Y que se explica por la variación de X
6
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
1.4 Predicción de Nuevas Observaciones Intervalo de Confianza para μY | x 0
Un intervalo de confianza del ( 1 − α )100% para la
respuesta media μY | x0 es:
ˆy 0 − t α
/ 2,n − 2
2 1 ( x0 − x ) + < E ( y 0 ) < ˆy 0 + t α n S xx
s
Intervalo de Confianza para y0
/ 2,n − 2
2 1 ( x0 − x ) + n S xx
s
Un intervalo de confianza del ( 1 − α )100% para una sola
respuesta y0 es:
ˆy 0 − t α
/ 2,n − 2
s
2 1 ( x0 − x ) 1+ + < y 0 < ˆy 0 + t α n S xx
/ 2,n − 2
s
2 1 ( x0 − x ) 1+ + n S xx
1.5 Mediciones de la Adecuación del Modelo de Regresión Al evaluar la adecuación de un modelo de regresión a un conjunto de datos lo que se quiere, es verificar que se cumplen las suposiciones necesarias para poder hacer un análisis de regresión, que son: 1. Normalidad, requiere que los valores de Y estén distribuidos normalmente en cada valor de X. 2. Homocesdasticidad, requiere que la variación alrededor de la línea de regresión sea constante para todos los valores de X. 3. Independencia del error,
requiere que el error (la diferencia entre un valor
observado y un valor estimado) es independiente de cada valor de X. 4. Linealidad, establece que la relación entre las variables es lineal.
1.5.1 Análisis Residual Se definen los residuos como e i = y i − ˆy i , i = 1, 2, . . . , n, donde y i es una observación y ˆy i es el valor estimado correspondiente a partir del modelo de regresión. A menudo es útil graficar los residuos: 1) en secuencia de tiempo (si se conoce), 2) contra ˆy i , y 3) contra la variable independiente x. Estas gráficas suelen verse como una de los cuatro patrones generales de la José Armando Rodríguez Romo
7
__________________________________________________________________________________ Estadística II
figura 1.2 El patrón a) representa la situación normal, en tanto que los patrones b), c) y d) representan anomalías. Si los residuos aparecen como en b), entonces la varianza de las observaciones puede incrementarse con el tiempo o con la magnitud de las y i o x i . Si una gráfica de los residuos contra el tiempo tiene la apariencia de b), entonces la varianza de las observaciones se incrementa con el tiempo. Las gráficas contra y i y y i que se observan como c) indican también desigualdad de varianza. Las gráficas de residuos que se observan como d) indican insuficiencia del modelo; esto es, términos de mayor orden que deben ser añadidos al modelo. Figura 1.2 Patrones para las gráficas de los residuos
8
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
1.5.2 Prueba de Falta de Ajuste La suma de cuadrados del error consiste en dos partes: la cantidad debida a la variación entre los valores de y dentro de los valores dados de x y el componente que normalmente reciben el nombre de contribución por falta de ajuste. La primera refleja la mera variación aleatoria o el error experimental puro, mientras que el segundo componente es una medición de la variación sistemática debida a los términos de orden superior. Para calcular la suma de cuadrados del error puro debemos tener observaciones repetidas en y para al menos un nivel de x. Suponga que tenemos n observaciones en total tales que y 11 , y 1 2 , K , y 1 n1 observaciones repetidas en x1 y 2 1 , y 2 2 , K , y 2 n2 observaciones repetidas en x2
M
M
y k 1 , y k 2 , K , y k nk observaciones repetidas en xk
Donde k es el numero de valores diferentes de x. Un procedimiento computacional para separar la suma de cuadrados del error en los dos componentes que representan el error puro y la falta de ajuste es el siguiente: 1
Calcule la suma de cuadrados del error puro:
SCE puro =
k
ni
∑∑( y
− yi • ) = 2
ij
i =1 j=1
2
k
ni
∑∑
i = 1j = 1
y i2 j -
ki
Ti2•
i=1
ni
∑
Reste la suma de cuadrados del error puro de la suma de cuadrados del error, por medio de lo cual se obtiene la suma de cuadrados debida a la falta de ajuste. Los grados de libertad para falta de ajuste se obtienen también restando: (n –2) – (n – k) = k – 2.
Una prueba para la “bondad de ajuste” del modelo lineal de regresión es la siguiente: 1) Las hipótesis son
H 0 : El modelo lineal se ajusta adecuadamente a los datos
H 1 : El modelo lineal no se ajusta a los datos 2) El estadístico de prueba es: f 0 =
José Armando Rodríguez Romo
SCE − SCE puro s2(k − 2 ) 9
__________________________________________________________________________________ Estadística II
3) La regla de decisión para un nivel de significancia α , v 1 = k − 2 Rechazar H0 si f 0 > f vv21, 1− α
ó
y v 2 = n − k es
Pvalor ≤ α
4) Evaluar el estadístico de prueba:
Fuente de Variación
Análisis de varianza para probar la linealidad de la regresión Grados Suma de Cuadrados de Cuadrados Medios Libertad SCR = b1 S x y
1
CMR
SCE = S y y − b1 S x y
n−2
SCE − SCE puro
k−2
SCE n−2 SCE − SCE puro
Regresión Error Falta de
ni
k
SCE puro =
∑∑
y i2 j -
i = 1j = 1
ki
Ti2•
i=1
ni
∑
SCT = S y y
Total
n−k
CMR s2
s2 =
k−2
Ajuste Error Puro
fo
s2 =
SCE − SCE puro s2 ( k − 2 )
SCE puro n−k
n−1
Donde k = valores distintos de x, x1 , x 2 ,K , xk , de tal forma que la muestra contenga n1 valores observados de la variable aleatoria y1 correspondiente a x1, n2 valores observados de y2 correspondientes a x2, y así , sucesivamente, nk valores observados de yk correspondientes a k
xk, ( n = ∑ ni , i =1
Ti • =
ni
∑y
ij
)
j=1
5) Decisión: se rechaza o no se rechaza H0 6) Conclusión: si H 0 no se rechaza, entonces no hay razón aparente para dudar que el
modelo lineal es adecuado.
1.5.3 Coeficiente de Determinación El coeficiente de determinación muestral, r 2 expresa la proporción de la variación total de los valores de la variable Y que se pueden contabilizar o explicar por una relación lineal con los valores de la variable aleatoria X.
r
10
2
=
2 S xy
Sx xSy y
=
SCR Sy y José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
1.6 Transformaciones Lineales En ocasiones encontramos que el modelo de regresión lineal
yi = β 0 + β 1 xi + ε i
es
inapropiado porque la función de regresión verdadera no es lineal; la necesidad de realizar una transformación es bastante simple de diagnosticar en el caso de la regresión lineal simple debido que las gráficas de dos dimensiones dan una imagen real de cómo entra cada variable en el modelo. En ciertas situaciones una función no lineal puede expresarse como una línea recta utilizando una transformación apropiada.
Tales modelos lineales se llaman lineales
intrínsecamente. (Ver tabla 1.1) Tabla 1.1 Algunas transformaciones útiles Transformación
Forma de regresión lineal simple
y * = ln y
y * contra x
y * = log y ; x * = log x
y * contra x *
Forma funcional que relaciona y con x Exponencial: Potencia: Recíproca:
y = αeβ x
y = α xβ ⎛1⎞ y = α + β⎜ ⎟ ⎝ x⎠
Función Hiperbólica: y =
x α + βx
y* =
x* =
1 x
1 ; y
x* =
y contra x *
1 x
y * contra x *
1.7 Correlación La intensidad de una relación entre dos variables de una población por lo general se mide mediante el coeficiente de correlación poblacional ρ . Es costumbre referirse a la estimación r como el coeficiente de correlación producto-momento de Pearson, o simplemente coeficiente
de correlación muestral; cuyos valores van desde −1, correspondiente una correlación perfecta negativa, hasta +1, correspondiente a una correlación perfecta positiva, de asociación lineal entre dos variables X y Y. Se estima con el coeficiente de correlación muestral r, donde:
ρˆ = r = b
José Armando Rodríguez Romo
S xx S yy
=
S xy S x x S yy
11
__________________________________________________________________________________ Estadística II
Ejemplo 1.1 Las cantidades de un compuesto químico y, en gramos, que se disuelven en 100 gramos de agua a varias temperaturas, x, en ° C, se registran como sigue:
x °C
y ( gr ) 0 0 0 15 15 15 30 30 30 45 45 45 60 60 60 75 75 75
xy
y2
x2
8 6 8 12 10 14 25 21 24 31 33 28 44 39 42 48 51 44
a) Elaborar el diagrama de dispersión b) Obtener la ecuación de regresión c) Interprete los valores de los coeficientes de regresión estimados b0 y b1 d) Pruebe la hipótesis:
H0 : β1 = 0
contra la alternativa
H1 : β1 ≠ 0
e interprete la
decisión resultante, empleando el estadístico t e) Utilice el análisis de varianza para probar la significancia de la regresión f)
Utilice el análisis de varianza para probar la linealidad de la regresión (prueba de falta de ajuste)
g) Obtenga e interprete el coeficiente de determinación muestral r 2 h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de predicción del 95% para una respuesta individual para Y cuando x0 = 35 i ) Trazar una gráfica de probabilidad normal de los residuales para verificar el supuesto de normalidad.
12
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
j ) Trazar e interpretar una gráfica de los residuales versus valores predichos para verificar el supuesto de homocedasticidad. k ) Trazar e interpretar una gráfica de los residuales versus orden de obtención de los datos para verificar el supuesto de independencia. Solución. En seguida se presenta la solución de este problema a) Elaborar el diagrama de dispersión
Diagrama de Dispersión para Cantidad vs Temperatura 60
Cantidad
50 40 30 20 10 0 0
15
30
45
60
75
90
Temperatura Se observa en el diagrama una posible relación lineal directa. b) Obtener la ecuación de regresión
x °C 0 0 0 15 15 15 30 30 30 45 45 45 60 60 60 75 75 75 675 José Armando Rodríguez Romo
y ( gr ) 8 6 8 12 10 14 25 21 24 31 33 28 44 39 42 48 51 44 488
xy
x2
y2
0 0 0 180 150 210 750 630 720 1395 1485 1260 2640 2340 2520 3600 3825 3300 25005
0 0 0 225 225 225 900 900 900 2025 2025 2025 3600 3600 3600 5625 5625 5625 37125
64 36 64 144 100 196 625 441 576 961 1089 784 1936 1521 1764 2304 2601 1936 17142 13
__________________________________________________________________________________ Estadística II
2
⎛ n ⎞ = ∑ xi2 − ⎜ ∑ xi ⎟ / n = 37125 − (675 )2 / 18 = 11812.5 ⎜i =1 ⎟ i=1 ⎠ ⎝ n n ⎛ ⎞⎛ n ⎞ = ∑ xi yi − ⎜ ∑ xi ⎟⎜ ∑ yi ⎟ / n = 25005 − (675 )(488 ) / 18 = 6705 ⎜ i = 1 ⎟⎜ i = 1 ⎟ i=1 ⎝ ⎠⎝ ⎠ n
S xx S xy
2
⎛ n ⎞ S yy = ∑ − ⎜ ∑ yi ⎟ / n = 17142 − (488 )2 / 18 = 3911.777778 ⎜i=1 ⎟ i=1 ⎠ ⎝ 6705 488 ⎛ 675 ⎞ b1 = = 0.567619 − ( 0.567619 )⎜ y b0 = ⎟ = 5.8254 11812.5 18 ⎝ 18 ⎠ n
yi2
Entonces la ecuación de regresión es:
ˆy = 5.8254 + 0.567619 x c) Interprete los valores de los coeficientes de regresión estimados b0 y b1
b0 = 5.8254 representa el valor de la cantidad disuelta cuando la temperatura es 0 ° C b1 = 0.567619, significa que la cantidad disuelta aumenta en 0.567619 gramos por cada grado centígrado que aumente la temperatura. d) Pruebe la hipótesis: H 0 : β 1 = 0 contra la alternativa H 1 : β 1 ≠ 0 e interprete la decisión resultante, empleando el estadístico t i) Las hipótesis son
H 0 : β 1 = 0 (la variación de la cantidad disuelta resulta de fluctuaciones aleatorias que son independientes de los valores de la temperatura)
H1 : β1 ≠ 0
(existe una cantidad significativa en la variación de la cantidad disuelta que se explica por la variación de la temperatura)
ii) El estadístico de prueba es:
t0 =
b1 − 0 Sb
=
iii) La regla de decisión para un nivel de significancia
b1 − 0 s2 / Sx x
α = 0.05 y v = n − 2 = 16 grados
de libertad es Rechazar H0 si t 0 > 2.12 ó
Pvalor ≤ 0.05
iv) Evaluar el estadístico de prueba:
σˆ 2 = s 2 = 14
S yy − b1 S x y n− 2
=
3911.777778 − 0.567619( 6705 ) 16
= 6.6183
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
t0 =
b1 − 0 s2 / Sx x
=
0.567619 − 0
= 23.9803
6.6183 11812.5
v) Decisión: como t 0 = 23.9803 > 2.12 , se rechaza H0 vi) Conclusión: el rechazo de H 0 :
β 1 = 0 , implica que existe una cantidad significativa
en la variación de la cantidad disuelta que se explica por la variación de la temperatura e) Utilice el análisis de varianza para probar la significancia de la regresión i) Las hipótesis son
H 0 : β 1 = 0 (la variación de la cantidad disuelta resulta de fluctuaciones aleatorias que son independientes de los valores de la temperatura)
H1 : β1 ≠ 0
(existe una cantidad significativa en la variación de la cantidad disuelta que se explica por la variación de la temperatura)
ii) El estadístico de prueba es:
f0 =
SCR / 1 CMR = SCE /( n − 2 ) CME
iii) La regla de decisión para un nivel de significancia
α = 0.05 y v = n − 2 = 16 grados
de libertad es Rechazar H0 si f 0 > 4.49 ó
Pvalor ≤ 0.05
iv) Evaluar el estadístico de prueba: Análisis de la Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 3805.89 1 3805.89 575.06 0.0000 Residuo 105.892 16 6.61825 ----------------------------------------------------------------------------Total (Corr.) 3911.78 17 v) Decisión: como F = 575.06 > 4.49 ó Pvalor=0.0000 < 0.05 se rechaza H0 vi) Conclusión: la regresión es significativa, tal como se obtuvo en la prueba t, existe una
cantidad significativa en la variación de la cantidad disuelta que se explica por la variación de la temperatura) f) Utilice el análisis de varianza para probar la linealidad de la regresión (prueba de falta de ajuste) José Armando Rodríguez Romo
15
__________________________________________________________________________________ Estadística II
i.
Las hipótesis son
H 0 : El modelo lineal se ajusta adecuadamente a los datos
H 1 : El modelo lineal no se ajusta a los datos SCE − SCE puro
ii.
El estadístico de prueba es: f 0 =
iii.
La regla de decisión para un nivel de significancia α , v 1 = k − 2
s2(k − 2 )
y v2 = n − k
es Rechazar H0 si f 0 > 3.26 iv.
ó
Pvalor ≤ 0.05
Evaluar el estadístico de prueba: Análisis de Varianza con Falta de ajuste -------------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor -------------------------------------------------------------------------------Modelo 3805.89 1 3805.89 575.06 0.0000 Residuo 105.892 16 6.61825 -------------------------------------------------------------------------------Falta de ajuste 36.5587 4 9.13968 1.58 0.2420 Error puro 69.3333 12 5.77778 -------------------------------------------------------------------------------Total (Corr.) 3911.78 17
v.
Decisión: el valor de f = 1.58 es menor que 3.26, NO se Rechaza H0
vi.
Conclusión: por lo que el modelo lineal es adecuado
g) Obtenga e interprete el coeficiente de determinación muestral r 2
r
2
=
2 S xy
Sx xSy y
=
( 6705 ) 2 ( 11812.5 )( 3911.777778 )
= 0.9729 = 97.29%
Esto significa que el 97.29% de la variación en la cantidad del compuesto químico que se disuelve en 100 gramos de agua se explica por la variación en la temperatura. h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de predicción del 95% para una respuesta individual para Y cuando x0 = 35
ˆy 0 = 5.8254 + 0.567619 x 0 = 5.8254 + 0.567619( 35 ) = 25.6921 Intervalo de Confianza del 95% para la respuesta media, E ( y ) es: 25.6921 − 2.12( 2.5726 )
( 35 − 37.5 ) 2 1 + < E ( y ) < 25.6921 + 2.12( 2.5726 ) 18 11812.5
( 35 − 37.5 ) 2 1 + 18 11812.5
24.4005 < E(y) < 26.9837 16
José Armando Rodríguez Romo
_____________________________________________________________ Regresión Lineal Simple y Correlación
Intervalo de Confianza del 95% para una sola respuesta y0 es: 25.6921 − 2.12( 2.5726 )
1+
1 ( 35 − 37.5 ) 2 + < y 0 < 25.6921 + 2.12( 2.5726 ) 18 11812.5
1+
1 ( 35 − 37.5 ) 2 + 18 11812.5
20.1193 < y0 < 31.2649
Gráfico de Probabilidad Normal
i ) Trazar una gráfica de probabilidad normal
de normalidad. En la gráfica se observa que los puntos siguen la línea recta, por lo que podemos suponer que los residuales se distribuyen
porcentaje
de los residuales para verificar el supuesto
99.9 99 95 80 50 20 5 1 0.1
en forma normal.
residuales versus valores predichos para verificar el supuesto de homocedasticidad. No se observa ningún patrón en la gráfica en forma de embudo, por lo que se satisface el supuesto de homocedasticidad.
-2.4
-0.4
1.6
3.6
5.6
Residuales Residuo estudentizado
j ) Trazar e interpretar una gráfica de los
-4.4
Gráfico de Residuos 2.9 1.9 0.9 -0.1 -1.1 -2.1 0
10
20
30
40
50
Y_Cant predicho k ) Trazar e interpretar una gráfica de los residuales versus orden de obtención de los datos para
No se observa ningún patrón anormal en la gráfica, por lo que se satisface el supuesto de independencia.
Residuo estudentizado
verificar el supuesto de independencia.
Gráfico de Residuos 2.9 1.9 0.9 -0.1 -1.1 -2.1 0
3
6
9
12
15
18
número de fila
José Armando Rodríguez Romo
17
__________________________________________________________________________________ Estadística II
EJERCICIOS DE LA UNIDAD I 1. Las calificaciones de un grupo de estudiantes en su reporte de medio año (x) y en los exámenes finales (y) fueron los siguientes: x y
77 82
50 66
71 78
71 44
81 55
94 85
(x0 = 85) 96 99
96 95
96 97
99 99
67 70
67 68
81 70
50 60
2. Se llevó a cabo un estudio acerca de la cantidad de azúcar refinada obtenida (y), mediante un cierto proceso a varias temperaturas (x), diferentes. Los datos se codificaron y registraron en (x0 = 1.75)
la siguiente tabla. x y
1.0 8.1
1.1 7.8
1.2 8.5
1.2 8.8
1.2 8.2
1.3 9.6
1.3 9.9
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
3. En tipo de espécimen metálico de prueba, la resistencia normal (x) está funcionalmente relacionada con la resistencia de corte (y).
El siguiente es un conjunto de datos (x0 = 24.5)
experimentales codificados para las dos variables: x y
26.8 26.5
25.4 27.3
28.9 24.2
23.6 27.1
27.7 23.6
23.9 25.9
24.7 26.3
28.1 22.5
26.9 21.7
27.4 21.4
22.6 25.8
25.6 24.9
4. Las cantidades de sólidos eliminados (y), en gramos, de un material particular cuando se le expone a periodos de secado de diferentes duraciones (x), en horas, se registraron como (x0 = 6.0)
sigue: x y
4.4 4.4 13.1 14.2
4.5 9.0
4.5 4.8 4.8 5.5 5.5 5.7 5.7 11.5 10.4 11.5 13.8 14.8 12.7 15.1
x y
6.3 6.3 6.9 6.9 7.5 7.5 7.8 7.8 13.8 16.5 16.4 15.7 17.6 16.9 18.3 17.2
5.9 9.9
5.9 12.7
5. Se aplica una prueba de ubicación de matemáticas a todos los alumnos de primer grado que están ingresando a una institución de educación superior. No se admiten a los que obtienen una calificación inferior a 35 en el examen de matemáticas y se les coloca en un curso de regularización.
Las calificaciones del examen de ubicación y del examen final de 20 (x0 = 60)
estudiantes fueron las siguientes:
18
x y
50 53
35 41
35 61
40 56
55 68
65 36
35 11
60 70
90 79
35 59
x y
90 54
80 91
60 48
60 71
60 71
40 47
55 53
50 68
65 57
50 79
José Armando Rodríguez Romo
View more...
Comments