REGRESION
March 30, 2023 | Author: Anonymous | Category: N/A
Short Description
Download REGRESION...
Description
A N Á L ISIS DE AN DE REGRESI REGRESIÓN L INEA L SIMPL E
Introducción Anscom ombe be (197 (1973) 3) “Gr “Grap aphs hs in Sta Stati tist stic ical al An Anal alys ysis is”” Ejemplo : Ansc
x(a)(b)(c)
y(a)
y(b)
y(c)
x(d)
y(d)
10 8 13 9
8.04 6.95 7.58 8.81
9.14 7.46 8.14 6.77 8.74 12.74 8.77 7.11
8 8 8 8
6.58 5.76 7.71 8.84
11 14 6 4
8.33 9.96 7.24 4.26
9.26 8.10 6.13 3.10
7.81 8.84 6.08 5.39
8 8 8 19
8.47 7.04 5.25 12.50
12 7 5
10.84 4.82 5.68
9.13 7.26 4.74
8.15 6.42 5.73
8 8 8
5.56 7.91 6.89
Ejemplo: Anscombe (1973) “Graphs in Statistical Analysis” (Las Gráficas en el Análisis Estadístico) En todos los casos, la recta de regresión de y sobre x es:
S R2
yˆ = 3 + 0.5 x
= 1.52
R2
= 0.82
Por lo tanto las cuatro regresiones parecen idénticas. El análisis de los residuos refleja una situación completamente distinta.
Ejemplo : Ansc Anscom ombe be (197 (1973) 3) “Gr “Grap aphs hs in Sta Stati tist stic ical al An Anal alys ysis is”” Residuales
Inf nfe erenci rencia a si simu multlta anea para lo loss pa p aráme rámetr tros os del modelo mo delo Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa) por ciento de que ambos estimados son correctos es:
ˆ0 n( β
n
n
i =1
i =1
− β 0 ) + 2∑ xi ( β ˆ0 − β 0 )( β ˆ1 − β 1 ) + ∑ x 2 i ( β ˆ1 − β 1 ) 2
2 MSE
≤ F α , 2,n−2
Est stim ima aci ción ón si simu multlta anea de la respu respue est sta a media
Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores específicos X, por ejemplo, X1, X2, …., Xm, que tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) por ciento.
2 ( ) 1 x x ⎛ − ⎞ i ˆ ⎜ ⎟⎟ ( ) : E Y X i Y Xi ± Δ MSE ⎜ + S xx ⎠ ⎝ n
La Delta Delta de de Bonferro Bonferroni ni como sigue: sigue:
Δ = (2 F α , 2,n−2 )1/ 2
Pre redi dicci cción ón de nueva nuevass observa o bservacio cione ness El conjunto de intervalos de predicción para m nuevas observaciones en los niveles niveles X1, X1, X2,…, Xm que tienen tienen un nivel nivel de confianza confianza de al menos menos (1-alfa) es: 2 ⎞ ⎛ ( ) 1 x x − i ˆ ⎟⎟ Y Xi : Y Xi ± Δ MSE ⎜⎜1 + + xx n S ⎠ ⎝
Test pa para ra la corre correla lación ción Para probar la hipótesis H0: ρ = ρ0 contra H1: ρ ≠ ρ0 , donde ρ0 no es cero. Si n ≥ 25 se utiliza el estadístico transformación-z de Fisher:
Z = arctanh ( r ) =
Con media:
1 2
ln
1 + r 1 − r
μ Z = arctanh( ρ ) 1
y desviación estándar:
σ Z 2
= n−3
En base a la fórmula de la distribución normal, se calcula el estadístico Z0 siguiente para probar la hipótesis Ho: ρ = ρ0,
Z 0
( ρ 0 )( = (arctanh( r ) − arctanh
tanh ⎛ ⎜ arctanhr −
⎝
Z
n−3
ρ tanh ⎛ ⎜⎝ arctanhr + n − 3 ⎞ ⎠⎟ ≤ ≤ α / 2
Z
α / 2
n − 3 ⎞ ⎠⎟
Riesgo iesgoss en el el uso u so de la regresió regresión n Hay varios abusos comunes en el uso de la regresión que deben ser mencionados: • Los m mode odelos los d de e reg regres resión ión s son on vá válid lidos os como como ec ecuaci uacione ones s de interpolación sobre el rango de las variables utilizadas en el modelo. No pueden ser válidas para extrapolación fuera de este rango. • La di dispo sposic sición ión d de e los val valore ores s X jue juega ga un p pape apell impo importa rtante nte e en n el ajuste de mínimos cuadrados. Mientras que todos los puntos tienen igual peso en la determinación de la recta, su pendiente está más influ influenciad enciada a por los val valores ores extremos extremos de X. En es este te caso debe hacerse un análisis minucioso de estos puntos y en todo caso elimina eliminarlos rlos y re – estima estimarr el modelo modelo..
Extrapolación
Generalización
En la figura figura se observan observan dos puntos puntos que que influyen influyen en el modelo de ajus ajuste, te, ya que si se quitaran, el modelo de línea recta se modificaría.
Dos observaciones con mucha influencia (A,B)
• Los outliers u observaciones malas pueden distorsionar seriamente el ajuste de mínimos cuadrados. En la figura, la observació obser vación n A par parece ece se serr un “o “outlier” utlier” o valor malo ya que cae muy lejos de la línea de ajuste de los otros datos. Debe investigarse esta observación.
Localiza Loca lización ción de un “outlier” “outlier” (A)
• Si se en enc cue uent ntrra q que ue do dos s v var aria iabl bles es es está tán n rrel elac acio iona nada das s fuertemente, no implica que la relación sea causal, se debe investigar inves tigar la relac relación ión causa – efect efecto o ent entre re e ellas. llas. Por ejempl ejemplo o el número de enfermos mentales vs. número de licencias recibidas.
Causalidad
Corr orre elación ecol ecológi ógica ca
• En algunas aplicaci cio ones el valor de la variable rre egresora X requerida para predecir a Y es desconocida, por ejemplo al tratar de predecir la carga eléctrica el día de mañana en relación con la máxima temperatura de mañana, primero debe estimarse cuál es esa temperatura.
Regr gre esi sión ón a tr tra avés del orig or ige en Algunas situaciones implican que pase la línea recta a través del origen y deben adecuar a los datos. Un modelo de no intersección frecuentemente se presenta en los procesos químicos y otros procesos de manufactura, el modelo queda como:
ˆ x yˆ = β 1
2
^
x0 MSE
Y 0 ± t a / 2,n−2
n
∑
xi2
i =1
^
Y h ± t a / 2, n − 2
⎞ ⎛ ⎟ ⎜ h2 x ⎜1 + n ⎟ MSE ⎜ 2 ⎟ ⎜ ∑ xi ⎟ ⎝ i =1 ⎠
Ejemplo El tiempo requerido por un tendero para surtir su negocio de refrescos refre scos a así sí como el nú número mero de e envase nvases s coloc colocados ados se m muestr uestra a en la siguiente tabla. En este caso si el número de envases X = 0 entonces el tiempo Y = 0.
el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con intersección resultando en:
El estadístico t para la prueba Ho: β0 = 0 es to = -0.65, por tanto el coeficiente no es significativo a un alfa de 0.01, implicando que el en modelo de no intersección puede proporcionar una estimación superior, este caso √MS MSE E = 0.298 .2988 8 y R2 = 0.9983 y, como √MS MSE E es meno menorr que que en el modelo con intercepto, es superior.
Ejemplo Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es una característica importante de calidad que se sospecha es función de la antigüedad del propelente (X). Los datos se muestran a continuación:
El diagrama de dispersión de la resistencia al corte versus el propelente se muestra a continuación
La figura sugiere que hay una relación estadística inversa entre la resistencia al corte y la antigüedad del propelente, y el supuesto de relación lineal parece ser razonable, para estimar los parámetros del modelo se calcula Sxx y Sxy:
orma ma alt alte ern rna a For
Pru rue ebas de hi hipó pótesis tesis de d e la pe pend ndiente iente e in intercepci tercepción ón
An A n ál álii s i s d e vvar arii anza an za
Decisión Deci sión:: rechaz rechazar ar Fo = 165.21 165.21 > F
= 4.414
0.05; 1, 18
Esti stimación mación po porr inte int ervalo en en β1 y σ
Inte nt erv rva alo de e est stim ima ación ci ón para la respuesta media
Predicci redicción ón de nuevas nuevas o observa bservacio ciones: nes:
Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10 semanas seman as de antigüe antigüedad dad te tendrá ndrá una re resiste sistencia ncia al co corte rte de entre entre 204 2048.32 8.32 a
2464.32 psi.
Infe nf erenci rencia a simul si multane tanea a para lo loss parámetro parámetross d de el mo modelo delo La región del 95% de confianza para β0 y β1, si β0est = 2627.82 y β1est = -37.15, suma Xi2 = 4677.69, MSE = 9244.59 y F0.05,2,18 = 3.55 se tiene de la fórmula:
Esti stimació mación n si simu multlta anea de la respu respue est sta a media
Predicci redicción ón de nueva nuevass o observa bservacio ciones nes Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi, respectivamente. Para la regresión lineal simple y m = 2 se tiene:
Coefic oeficiente iente de dete determ rmin ina ación ci ón Con los datos del ejemplo para la suma dey cuadrados la regresión la sumade de cuadrados total se tiene:
ADECUA CIÓN DEL MODEL MODELO O DE REGRESIÓN LINEA L INEAL L A DECUACIÓN Introducción
A An n ál álii s i s d e lo l o s r es esii d u o s
Ruid uido o Blanco
Preguntas quederesponden residuos los gráficos
¿Es lineal la relación entre las variables?
¿Depende
la varianza del valor de x?
¿Hay
datos atípicos?
¿Son
los datos independientes?
¿Son
los datos normales?
Por lo anterior los residuos representan los errores observados si el modelo es correcto. Los residuos pueden ser graficados para: 1. Verificar normalidad. 2. Verificar el efecto del tiempo si su orden es conocido en los datos. 3. Verificar la constancia de la varianza y la posible necesidad de transformar los datos en Y. 4. Verificar la curvatura de más alto orden que ajusta en las X’s.
A An n ál álii s i s g r áf áfii c o s d e res r esii d u al ales es
elaci cion ones es no linea li neales les Rela
Gráfico ráficoss de residu residuos os
Linealidad
El método de mínimos cuadrados estimará una recta de regresión tanto si hay relación lineal como si no la hay.
Comprobar si el modelo lineal se ajusta a los datos
Contraste
de hipótesis para la parámetros
Contraste
de regresión
Gráfico Gráfico
de y frente a x
de residuos frente a valores predichos
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresión polinómica)
Detectar la presencia para de datos atípicos o ausencia de otras variables importantes explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x según la ecuación var(y/x)=g(x), dividimos la ecuación de regresión por g(x).
Transformar Trans formar la v variab ariable le respu respuesta esta y puede qu que e también x
Si
lo anterior no funciona, cambiar el método de estimación
Mínimos cuadrados ponderados
Independencia
Los residuos deben ser aleatorios y no estar correlacionados.
Si la variable respuesta ha sido medida en el tiempo es esperable que exista dependencia temporal.
Si los datos son de tipo temporal conviene hacer un gráfico para ver si los datos tienen estructura temporal Residuos
Tiempo
Normalidad La hipótesis de normalidad es necesaria para justificar las distribuciones de los estimadores: 2 ⎛ ⎞ σ ⎟ β ˆ1 ~ N ⎜⎜ β 1 , 2 ⎟ x nS ⎝ ⎠
2 2 ⎛ ⎞ ⎛ ⎞ σ x ⎜⎜1 + 2 ⎟⎟ ⎟ β ˆ0 ~ N ⎜ β 0 , ⎜ ⎟ n ⎝ S x ⎠ ⎠ ⎝
Intervalos de confianza Ausencia de normalidad normalidad puede invalidar invalidar Contrastes de hipótesis
Gráficos para comprobar la normalidad: Gráfico Gráfi co probabilí probabilístic stico o normal normal de los residuos residuos Histograma de los residuos
Si la distribución de los residuos es normal, el gráfico ha de mostrar aproximadamente una línea recta
Resid siduos uos como c omo me m edid dida a de Aju Ajuste: ste: Los Re • Si el mode modelo lo es cier cierto to,, los los errores
cumplen:
• Si Sin n em embar bargo, go, estos estos erro errores res son no obse observa rvable bles. s. • Se definen los residuos del modelo como:
• Se ve verifica qu que:
Prop ropieda iedades des de los lo s Resid siduos uos::
σ
Los residuos no son una muestra aleatoria de una N(0, 2)
Ejemplo Se realizaron 25 observaciones de la variable Y y X como sigue: Hallar los residuales originales, estandarizados y estudentizados.
Recta estimada esti mada
An A n ál álii s i s d e Var Varii an anza za El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.
Gráfica de probabili probabilidad dad normal no rmal Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para verificar la normalidad.
Residua siduale less vs Fits
Observación Los residuales no son variables aleatorias independientes porque involucran los valores ajustados basados en los estimadores b 0 y b1 por lo cual se asocian con (n-2) grados de libertad. Sin
embargo, cuando el número de residuales es grande, comparado con el número de parámetros del modelo, el efecto de no independencia se vuelve relativamente intrascendente.
DETECCIÓN CIÓN Y TRATAMIEN TRATA MIENTO TO DE OBSERVACIONES OB SERVACIONES DETEC REMOTA REMO TAS S (OUTLIERS) (OUTL IERS)
De acuerdo con Dra rape perr y Smith Smith
Efectos de una observación sobre el modelo estimado
Efecto de un en punto punt o
Medi didas das basadas basadas en en los lo s residuo resid uoss
Efectos de los dif dife erente rentess tipos ti pos de puntos punto s sobre so bre la regre regresió sión n Se va a analizar el efecto de los valores potencialmente influyentes según su distancia a la media en el espacio de variables independientes: 1. Valores cercanos a la media 2. Valores intermedios 3. Valores alejados de la media
bse erv rva aci cion one es no n o alejadas alejadas de la media Obs
Difícilmente son influyentes
Observa bservacio ciones nes int inte ermedia
Son influyentes si son atípicos
Obs bse erv rva aci cion one es alejada lejadass de la media
Normalmente son influyentes aunque no sean atípicos
Niv ive eles de influ inf lue enc ncia ia (M (Medi dida dass de influ inf lue enc ncia ia a pr prio iori ri)) For orma ma gráfica para dete detect cta ar obs o bse erv rva aci cion one es re r emo motas. tas. Los valores normalizados del error mayor a 4 pueden marcarse como posibles observaciones remotas.
Las observaciones remotas pueden crear gran dificultad, al empujar
desproporcionadamente la línea ajustada de regresión, pero sólo serían descartables ante evide evidencias ncias como como mala toma de datos o procesamiento de los datos.
Valo res LEVE LEVERAGE RAGE Valores Otra forma simple no gráfica de medir su influencia es a través del vector palanca o leverage leverage que se evaluaría como:
Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si está desproporcionadamente distante de la mayor parte de los valores del regr re gres esor or.. Cada Cada hi hi refl reflej eja a la in infl flue uenc ncia ia de cad cada a xi xi sobr sobre e e ell mod model elo o de de regresión ajustado. ajustado. Si existen existen esos puntos puntos de influencia influencia quizá quizá sea necesario evaluar de nuevo la necesidad de mantenerlos en el modelo. Regl Re gla a de decisió decis ión n
Sea p es es el número número total total de variab variables les en el modelo, modelo, valore valores s de hi que superen el valor:
son indicadores de una alta influencia en el modelo
Medi didas das de d e ext extrañez rañeza a Me Medidas que indican si un punto tiene un comportamiento muy diferente del resto
Studentiz tudentiza ados Inte ntername rnamente nte:: formalmente el residuo residuo internamente internamente studentizado studentizado se obtiene obtiene como
Algunas propiedades: propiedades:
es pequeña.
tudentiza ados Exte xterna rname mente nte:: Studentiz Se define el residuo residuo externam externamente ente studentiz studentizado ado como como::
el subíndice (i) indica la exclusión del dato i-ésimo. Se demuestra que:
siduoss predichos Residuo
Propiedades Residuos Predichos
Medi dida dass de d e in inflflue uenc ncia ia a po post ste eri rior orii Indican si un valor afecta a la estimación del modelo
Medi didas das de la ro robu bust ste ez del mode mod elo a lo loss datos
Medid dida as de robustez rob ustez de los coefici coeficie entes estimados
Donde Don de ajj ajj es el j-és j-ésim imo o elemen elemento to de la la invers inversa a de X’X X’X Si | DFBETA | > 2/√n ⇒ observación influyente
Medidas de robustez de los valores estimados de la dependiente
Si | DFFI DFFITS TS | > 2 √(p/n) ⇒ dato influyente ( p = parámetros)
Medi didas das de robus rob ustez tez de los est stim ima ado dores res de la vari varia anza
Si COVRATIO > 1 + 3p/n o < 1 – 3p/n ⇒ dato influencial
Ejemplo: Analizar los datos de Forbes 1857. Punto de Ebullición y la Presión Barométrica para 17 los lugares en los Alpes Alpes y Esco Escocia cia..
Case Number
X:Temp ( F)
Y: Pressure (Inc (Inche hes s Hg Hg))
1
194.5
20.79
2
194.3
20.79
3
197.9
22.40
4
198.4
22.67
5
199.4
23.15
6
199.9
23.35
7 8
200.9 201.1
23.89 23.99
9
201.4
24.02
10
201.3
24.01
11 12
203.6 204.6
25.14 26.57
13
209.5
28.49
14
208.6
27.76
15
210.7
29.04
◦
16
211.9
29.88
17
212.2
30.06
(i) Está Está bien identificada la función para para la media??? media??? Podemos mirar el gráfico
vs.
. Esperamos no encontrar patrones.
Ejemplo: (Datos de Forbes) Se aprecia curvatura.
También podemos mirar el gráfico
vs.
Ejemplo: Datos de Forbes.
Ambos gráficos entregan la misma misma información: No está bien identificada identificada la media.
Podemos mirar el gráfico
NO. (Por qué?)
(ii) Es Es con c onst stante ante la varianz vari anza?? a?? Podemos mirar el gráfico homogénea.
Ejemplo: .
vs.
. Esperamos encontrar variabilidad
(iii) Vie Viene nen n todos to dos los datos datos del del mismo m ismo modelo? Outlie utli ers (observaciones observaciones remotas remotas o ale lejada jadas) s) • Son d dato atos s tales tales que que la respue respuesta sta es es muy gran grande de o muy muy pequeñ pequeña a en comparación al resto de los datos. • No es nece necesa sari riam amen ente te malo malo.. • Có Cómo mo dete detect ctar arlo lo? ? Usan Usando do que que
o que
Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.
Residuos Externamente Studentizados. Datos de Forbes.
Punto un toss Extre Extr emos mo s (o de apalancamiento). palancamient o). • El val alor or del del pre predi dict cto or está está muy muy ale aleja jad do. • No s sie iemp mpre re ttie iene ne rel relev evan anci cia. a. • Tam Tambié bién n se denom denomina inan n Puntos Puntos de de Palanc Palanca a o valore valores s Levera Leverage ge • La pala palanc nca a se se def defin ine e com como: o:
Ejemplo: Los dos puntos en el extremo derecho tienen la misma palanca. Sin embargo, el segundo caso es de mayor importancia.
(1)
(2)
untos os de Infl Influe uenci ncia a. Punt La idea es magnificar la influencia de cada punto en la regresión. • Cómo se afectan
y
• Cómo se afecta
?
• Cómo se afecta
?
?
La medida de Cook
entrega una medida de la influencia de cada observación.
Distancia ncia de Cook Cook (Datos (Datos de Forbes Forbes)) Ejemplo 1: Dista
Ejemplo 2: Dista Distancia ncia de Cook (Datos (Datos Ficticios Ficticios (1), dato no influyent influyente) e)
Distancia ncia de Cook (Datos (Datos Ficticios Ficticios (2), dato influye influyente) nte) Ejemplo 2: Dista
Pru rue eba bass de d e hip hipótesis ótesis con c on los re resi siduale dualess Existen ocasiones en que los análisis gráficos a veces no permite decidir con claridad acerca de un aspecto en particular acerca de los errores.
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresión polinómica)
Detectar
la presencia de datos atípicos o ausencia de otras variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x según la ecuación var(y/x)=g(x), dividimos la ecuación de regresión por g(x).
Transformar Trans formar la v variab ariable le respu respuesta esta y puede qu que e también x
Si
lo anterior no funciona, cambiar el método de estimación
Mínimos cuadrados ponderados
Transformaciones Las transformaciones se utilizan fundamentalmente por tres razones:
Linealiza Linea lizarr relacione relaciones s no-line no-lineales ales
Conseguir
homocedasticidad homocedasticidad
Conseguir
normalidad
Al transformar los datos no se pierde información pero hay que tener cuidado a la hora de interpretar los coeficientes. El modelo transformado ha de ser también validado
y = β 0 e β 1 x
→ log( y ) = β%0 + β %1 x
%
β 1 representa el incremento porcentual de y cuando x aumenta una unidad
log( y ) = log( β 0 ) + β 1 x
y = β 0 e
β 1 x
y = αeβx
y
) y ( g o l
log(y) = a + βx a = log(α)
x
x
Mod ode elo de d e regresió regresión n exp expon one enc ncial ial β % log( x ) y = β 0 x 1 → log( y ) = β%0 + β 1 % representa el incremento porcentual de y cuando x aumenta un 1% β 1 y = β 0 x
β 1
1 y
log( y ) = β%0 + β %1 log( x )
0 ) y ( g o l
log(x)
x
e y
= e β x β → y = β%0 + β %1 log( x) 0
1
β /100 0 re repr prese esenta nta el inc incre rem ment ento o de y cua cuand ndo o x aum aument entaa en un 1% %1/10
y
e
y
y = β%0
= e β x β 0
1
y
+ β %1 log( x)
x
log(x)
Cons onse ecu cue enc ncia ia de las las tr tra ans nsfor forma maci ciones ones La interpretación de los parámetros se refiere a la relación entre las variables transformadas, no a las originales
View more...
Comments