REGRESION

March 30, 2023 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download REGRESION...

Description

 

 A N Á L ISIS DE  AN DE REGRESI REGRESIÓN L INEA L SIMPL E

 

Introducción Anscom ombe be (197 (1973) 3) “Gr “Grap aphs hs in Sta Stati tist stic ical al An Anal alys ysis is”” Ejemplo : Ansc

x(a)(b)(c)

y(a)

y(b)

y(c)

x(d)

y(d)

10 8 13 9

8.04 6.95 7.58 8.81

9.14 7.46 8.14 6.77 8.74 12.74 8.77 7.11

8 8 8 8

6.58 5.76 7.71 8.84

11 14 6 4

8.33 9.96 7.24 4.26

9.26 8.10 6.13 3.10

7.81 8.84 6.08 5.39

8 8 8 19

8.47 7.04 5.25 12.50

12 7 5

10.84 4.82 5.68

9.13 7.26 4.74

8.15 6.42 5.73

8 8 8

5.56 7.91 6.89

 

Ejemplo:  Anscombe (1973) “Graphs in Statistical Analysis” (Las Gráficas en el Análisis Estadístico) En todos los casos, la recta de regresión de y sobre x es:

  S  R2

 yˆ = 3 + 0.5 x

= 1.52

R2

= 0.82

Por lo tanto las cuatro regresiones parecen idénticas. El análisis de los residuos refleja una situación completamente distinta.

 

Ejemplo : Ansc Anscom ombe be (197 (1973) 3) “Gr “Grap aphs hs in Sta Stati tist stic ical al An Anal alys ysis is”” Residuales

 

Inf nfe erenci rencia a si simu multlta anea para lo loss pa p aráme rámetr tros os del modelo mo delo Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa) por ciento de que ambos estimados son correctos es:

ˆ0 n( β 

n

n

i =1

i =1

−  β 0 )  + 2∑ xi ( β ˆ0 −  β 0 )( β ˆ1 −  β 1 ) + ∑ x 2 i ( β ˆ1 −  β 1 ) 2

2 MSE 

≤ F α , 2,n−2

Est stim ima aci ción ón si simu multlta anea de la respu respue est sta a media

Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores específicos X, por ejemplo, X1, X2, …., Xm, que tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) por ciento.

 

2 ( ) 1  x  x ⎛    −  ⎞ i ˆ ⎜ ⎟⎟ ( ) :  E  Y  X i Y  Xi ± Δ  MSE ⎜ + S  xx  ⎠ ⎝ n

La Delta Delta de de Bonferro Bonferroni ni como sigue: sigue:

Δ = (2  F α , 2,n−2 )1/ 2

Pre redi dicci cción ón de nueva nuevass observa o bservacio cione ness El conjunto de intervalos de predicción para m nuevas observaciones en los niveles niveles X1, X1, X2,…, Xm que tienen tienen un nivel nivel de confianza confianza de al menos menos (1-alfa) es: 2  ⎞ ⎛  ( ) 1  x  x   − i ˆ ⎟⎟ Y  Xi : Y  Xi ± Δ  MSE ⎜⎜1 + +  xx n S   ⎠ ⎝ 

 

Test pa para ra la corre correla lación ción Para probar la hipótesis H0: ρ = ρ0 contra H1: ρ ≠ ρ0 , donde ρ0 no es cero. Si n ≥ 25 se utiliza el estadístico transformación-z de Fisher:

 Z  = arctanh ( r ) =

Con media:

1 2

ln

1 + r  1 − r 

μ  Z   = arctanh( ρ ) 1

y desviación estándar:

σ  Z 2

= n−3

En base a la fórmula de la distribución normal, se calcula el estadístico Z0 siguiente para probar la hipótesis Ho: ρ = ρ0,

 

 Z 0

  ( ρ 0 )( = (arctanh( r ) −  arctanh

tanh ⎛  ⎜ arctanhr  −

⎝ 

 Z 

n−3

 ρ  tanh ⎛  ⎜⎝ arctanhr  + n − 3 ⎞  ⎠⎟ ≤ ≤ α  / 2

 

 Z 

α  / 2

n − 3 ⎞  ⎠⎟

 

Riesgo iesgoss en el el uso u so de la regresió regresión n Hay varios abusos comunes en el uso de la regresión que deben ser mencionados: • Los m mode odelos los d de e reg regres resión ión s son on vá válid lidos os como como ec ecuaci uacione ones s de interpolación sobre el rango de las variables utilizadas en el modelo. No pueden ser válidas para extrapolación fuera de este rango. • La di dispo sposic sición ión d de e los val valore ores s X jue juega ga un p pape apell impo importa rtante nte e en n el ajuste de mínimos cuadrados. Mientras que todos los puntos tienen igual peso en la determinación de la recta, su pendiente está más influ influenciad enciada a por los val valores ores extremos extremos de X. En es este te caso debe hacerse un análisis minucioso de estos puntos y en todo caso elimina eliminarlos rlos y re – estima estimarr el modelo modelo..

 

Extrapolación

 

Generalización

 

En la figura figura se observan observan dos puntos puntos que que influyen influyen en el modelo de ajus ajuste, te, ya que si se quitaran, el modelo de línea recta se modificaría.

Dos observaciones con mucha influencia (A,B)

 

• Los outliers u observaciones malas pueden distorsionar seriamente el ajuste de mínimos cuadrados. En la figura, la observació obser vación n A par parece ece se serr un “o “outlier” utlier” o valor malo ya que cae muy lejos de la línea de ajuste de los otros datos. Debe investigarse esta observación.

Localiza Loca lización ción de un “outlier” “outlier” (A)

 

• Si se en enc cue uent ntrra q que ue do dos s v var aria iabl bles es es está tán n rrel elac acio iona nada das s fuertemente, no implica que la relación sea causal, se debe investigar inves tigar la relac relación ión causa – efect efecto o ent entre re e ellas. llas. Por ejempl ejemplo o el número de enfermos mentales vs. número de licencias recibidas.

 

Causalidad

 

Corr orre elación ecol ecológi ógica ca

 

• En algunas aplicaci cio ones el valor de la variable rre egresora X requerida para predecir a Y es desconocida, por ejemplo al tratar de predecir la carga eléctrica el día de mañana en relación con la máxima temperatura de mañana, primero debe estimarse cuál es esa temperatura.

Regr gre esi sión ón a tr tra avés del orig or ige en  Algunas situaciones implican que pase la línea recta a través del origen y deben adecuar a los datos. Un modelo de no intersección frecuentemente se presenta en los procesos químicos y otros procesos de manufactura, el modelo queda como:

 

ˆ  x  yˆ =  β  1

 

2

^

 x0 MSE 

Y 0 ± t a / 2,n−2

n



 xi2

i =1

^

Y h ± t a / 2, n − 2

 ⎞ ⎛  ⎟ ⎜ h2  x ⎜1 + n ⎟  MSE    ⎜ 2 ⎟ ⎜ ∑ xi ⎟ ⎝  i =1  ⎠

 

Ejemplo El tiempo requerido por un tendero para surtir su negocio de refrescos refre scos a así sí como el nú número mero de e envase nvases s coloc colocados ados se m muestr uestra a en la siguiente tabla. En este caso si el número de envases X = 0 entonces el tiempo Y = 0.

 

el coeficiente es significativo a un alfa de 0.01.

 

Utilizando un modelo con intersección resultando en:

El estadístico t para la prueba Ho: β0 = 0 es to = -0.65, por tanto el coeficiente no es significativo a un alfa de 0.01, implicando que el en modelo de no intersección puede proporcionar una estimación superior, este caso √MS MSE E = 0.298 .2988 8 y R2 = 0.9983 y, como √MS MSE E es meno menorr que que en el modelo con intercepto, es superior.

 

Ejemplo Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es una característica importante de calidad que se sospecha es función de la antigüedad del propelente (X). Los datos se muestran a continuación:

 

El diagrama de dispersión de la resistencia al corte versus el propelente se muestra a continuación

La figura sugiere que hay una relación estadística inversa entre la resistencia al corte y la antigüedad del propelente, y el supuesto de relación lineal parece ser razonable, para estimar los parámetros del modelo se calcula Sxx y Sxy:

 

orma ma alt alte ern rna a For

 

Pru rue ebas de hi hipó pótesis tesis de d e la pe pend ndiente iente e in intercepci tercepción ón

 

 An  A n ál álii s i s d e vvar arii anza an za

Decisión Deci sión:: rechaz rechazar ar Fo = 165.21 165.21 > F

= 4.414

0.05; 1, 18  

Esti stimación mación po porr inte int ervalo en en β1 y σ

 

Inte nt erv rva alo de e est stim ima ación ci ón para la respuesta media

 

Predicci redicción ón de nuevas nuevas o observa bservacio ciones: nes:

Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10 semanas seman as de antigüe antigüedad dad te tendrá ndrá una re resiste sistencia ncia al co corte rte de entre entre 204 2048.32 8.32 a

2464.32 psi.  

Infe nf erenci rencia a simul si multane tanea a para lo loss parámetro parámetross d de el mo modelo delo La región del 95% de confianza para β0 y β1, si β0est = 2627.82 y β1est = -37.15, suma Xi2 = 4677.69, MSE = 9244.59 y F0.05,2,18 = 3.55 se tiene de la fórmula:

 

Esti stimació mación n si simu multlta anea de la respu respue est sta a media

 

Predicci redicción ón de nueva nuevass o observa bservacio ciones nes Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi, respectivamente. Para la regresión lineal simple y m = 2 se tiene:

Coefic oeficiente iente de dete determ rmin ina ación ci ón Con los datos del ejemplo para la suma dey cuadrados la regresión la sumade de cuadrados total se tiene:

 

 ADECUA CIÓN DEL MODEL MODELO O DE REGRESIÓN LINEA L INEAL L  A DECUACIÓN Introducción

 

 A  An n ál álii s i s d e lo l o s r es esii d u o s

 

Ruid uido o Blanco

 

Preguntas quederesponden residuos los gráficos 

¿Es lineal la relación entre las variables?

¿Depende

la varianza del valor de x?

¿Hay

datos atípicos?

¿Son

los datos independientes?

¿Son

los datos normales?

 

Por lo anterior los residuos representan los errores observados si el modelo es correcto. Los residuos pueden ser graficados para: 1. Verificar normalidad. 2. Verificar el efecto del tiempo si su orden es conocido en los datos. 3. Verificar la constancia de la varianza y la posible necesidad de transformar los datos en Y. 4. Verificar la curvatura de más alto orden que ajusta en las X’s.

 

 A  An n ál álii s i s g r áf áfii c o s d e res r esii d u al ales es

 

elaci cion ones es no linea li neales les Rela

Gráfico ráficoss de residu residuos os

 

Linealidad 

El método de mínimos cuadrados estimará una recta de regresión tanto si hay relación lineal como si no la hay.

Comprobar si el modelo lineal se ajusta a los datos

Contraste

de hipótesis para la parámetros

Contraste

de regresión

Gráfico Gráfico

de y frente a x

de residuos frente a valores predichos

 

Soluciones a la falta de linealidad 

Transformar las variables para intentar conseguir linealidad



Introducir variable adicionales (regresión polinómica)



Detectar la presencia para de datos atípicos o ausencia de otras variables importantes explicar la variable respuesta

 

Soluciones a la falta de homocedasticidad 

Si la variabilidad de la respuesta aumenta con x según la ecuación var(y/x)=g(x), dividimos la ecuación de regresión por  g(x).



Transformar Trans formar la v variab ariable le respu respuesta esta y puede qu que e también x

Si

lo anterior no funciona, cambiar el método de estimación

Mínimos cuadrados ponderados

 

Independencia 

Los residuos deben ser aleatorios y no estar correlacionados.



Si la variable respuesta ha sido medida en el tiempo es esperable que exista dependencia temporal.



Si los datos son de tipo temporal conviene hacer un gráfico para ver si los datos tienen estructura temporal Residuos

Tiempo

 

Normalidad La hipótesis de normalidad es necesaria para justificar las distribuciones de los estimadores: 2 ⎛   ⎞   σ  ⎟  β ˆ1 ~ N ⎜⎜ β 1 , 2 ⎟  x  nS ⎝   ⎠

2 2 ⎛   ⎞ ⎛   ⎞   σ   x  ⎜⎜1 + 2 ⎟⎟ ⎟  β ˆ0 ~ N ⎜ β 0 , ⎜ ⎟ n ⎝  S x  ⎠ ⎠ ⎝ 

Intervalos de confianza  Ausencia de normalidad normalidad puede invalidar invalidar Contrastes de hipótesis

Gráficos para comprobar la normalidad: Gráfico Gráfi co probabilí probabilístic stico o normal normal de los residuos residuos Histograma de los residuos

 

Si la distribución de los residuos es normal, el gráfico ha de mostrar aproximadamente una línea recta

 

Resid siduos uos como c omo me m edid dida a de Aju Ajuste: ste: Los Re • Si el mode modelo lo es cier cierto to,, los los errores

cumplen:

• Si Sin n em embar bargo, go, estos estos erro errores res son no obse observa rvable bles. s. • Se definen los residuos del modelo como:

• Se ve verifica qu que:

 

Prop ropieda iedades des de los lo s Resid siduos uos::

σ

Los residuos no son una muestra aleatoria de una N(0, 2)

 

Ejemplo Se realizaron 25 observaciones de la variable Y y X como sigue: Hallar los residuales originales, estandarizados y estudentizados.

 

Recta estimada esti mada

 

 An  A n ál álii s i s d e Var Varii an anza za El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.

 

Gráfica de probabili probabilidad dad normal no rmal Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para verificar la normalidad.

 

Residua siduale less vs Fits

 

Observación Los residuales no son variables aleatorias independientes porque involucran los valores ajustados basados en los estimadores b 0 y b1 por lo cual se asocian con (n-2) grados de libertad. Sin

embargo, cuando el número de residuales es grande, comparado con el número de parámetros del modelo, el efecto de no independencia se vuelve relativamente intrascendente.  

DETECCIÓN CIÓN Y TRATAMIEN TRATA MIENTO TO DE OBSERVACIONES OB SERVACIONES DETEC REMOTA REMO TAS S (OUTLIERS) (OUTL IERS)

 

De acuerdo con Dra rape perr y Smith Smith

 

Efectos de una observación sobre el modelo estimado

 

Efecto de un en punto punt o

 

Medi didas das basadas basadas en en los lo s residuo resid uoss

 

Efectos de los dif dife erente rentess tipos ti pos de puntos punto s sobre so bre la regre regresió sión n Se va a analizar el efecto de los valores potencialmente influyentes según su distancia a la media en el espacio de variables independientes: 1. Valores cercanos a la media 2. Valores intermedios 3. Valores alejados de la media

 

bse erv rva aci cion one es no n o alejadas alejadas de la media Obs

Difícilmente son influyentes

 

Observa bservacio ciones nes int inte ermedia

Son influyentes si son atípicos

 

Obs bse erv rva aci cion one es alejada lejadass de la media

Normalmente son influyentes aunque no sean atípicos

 

Niv ive eles de influ inf lue enc ncia ia (M (Medi dida dass de influ inf lue enc ncia ia a pr prio iori ri)) For orma ma gráfica para dete detect cta ar obs o bse erv rva aci cion one es re r emo motas. tas. Los valores normalizados del error mayor a 4 pueden marcarse como posibles observaciones remotas.

Las observaciones remotas pueden crear gran dificultad, al empujar

desproporcionadamente la línea ajustada de regresión, pero sólo serían descartables ante evide evidencias ncias como como mala toma de datos o procesamiento de los datos.  

Valo res LEVE LEVERAGE RAGE Valores Otra forma simple no gráfica de medir su influencia es a través del vector  palanca o leverage leverage que se evaluaría como:

Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si está desproporcionadamente distante de la mayor parte de los valores del regr re gres esor or.. Cada Cada hi hi refl reflej eja a la in infl flue uenc ncia ia de cad cada a xi xi sobr sobre e e ell mod model elo o de de regresión ajustado. ajustado. Si existen existen esos puntos puntos de influencia influencia quizá quizá sea necesario evaluar de nuevo la necesidad de mantenerlos en el modelo. Regl Re gla a de decisió decis ión n

Sea p es es el número número total total de variab variables les en el modelo, modelo, valore valores s de hi que superen el valor:

son indicadores de una alta influencia en el modelo  

Medi didas das de d e ext extrañez rañeza a Me Medidas que indican si un punto tiene un comportamiento muy diferente del resto

Studentiz tudentiza ados Inte ntername rnamente nte:: formalmente el residuo residuo internamente internamente studentizado studentizado se obtiene obtiene como

 Algunas propiedades: propiedades:

es pequeña.

 

tudentiza ados Exte xterna rname mente nte:: Studentiz Se define el residuo residuo externam externamente ente studentiz studentizado ado como como::

el subíndice (i) indica la exclusión del dato i-ésimo. Se demuestra que:

 

siduoss predichos Residuo

 

Propiedades Residuos Predichos

 

Medi dida dass de d e in inflflue uenc ncia ia a po post ste eri rior orii Indican si un valor afecta a la estimación del modelo

Medi didas das de la ro robu bust ste ez del mode mod elo a lo loss datos

 

Medid dida as de robustez rob ustez de los coefici coeficie entes estimados

Donde Don de ajj ajj es el j-és j-ésim imo o elemen elemento to de la la invers inversa a de X’X X’X Si | DFBETA |  > 2/√n ⇒ observación influyente

 

Medidas de robustez de los valores estimados de la dependiente

Si | DFFI DFFITS TS | > 2 √(p/n) ⇒ dato influyente ( p = parámetros)

 

Medi didas das de robus rob ustez tez de los est stim ima ado dores res de la vari varia anza

Si COVRATIO > 1 + 3p/n o < 1 – 3p/n ⇒ dato influencial

 

Ejemplo:  Analizar los datos de Forbes 1857. Punto de Ebullición y la Presión Barométrica para 17 los lugares en los Alpes Alpes y Esco Escocia cia..

Case Number

X:Temp ( F)

Y: Pressure (Inc (Inche hes s Hg Hg))

1

194.5

20.79

2

194.3

20.79

3

197.9

22.40

4

198.4

22.67

5

199.4

23.15

6

199.9

23.35

7 8

200.9 201.1

23.89 23.99

9

201.4

24.02

10

201.3

24.01

11 12

203.6 204.6

25.14 26.57

13

209.5

28.49

14

208.6

27.76

15

210.7

29.04



16

211.9

29.88

17

212.2

30.06

 

(i) Está Está bien identificada la función para para la media??? media??? Podemos mirar el gráfico

vs.

. Esperamos no encontrar patrones.

Ejemplo: (Datos de Forbes) Se aprecia curvatura.

 

También podemos mirar el gráfico

vs.

Ejemplo: Datos de Forbes.

 Ambos gráficos entregan la misma misma información: No está bien identificada identificada la media.

Podemos mirar el gráfico

NO. (Por qué?)

 

(ii) Es Es con c onst stante ante la varianz vari anza?? a?? Podemos mirar el gráfico homogénea.

Ejemplo: .

vs.

. Esperamos encontrar variabilidad

 

(iii) Vie Viene nen n todos to dos los datos datos del del mismo m ismo modelo? Outlie utli ers (observaciones observaciones remotas remotas o ale lejada jadas) s) • Son d dato atos s tales tales que que la respue respuesta sta es es muy gran grande de o muy muy pequeñ pequeña a en comparación al resto de los datos. • No es nece necesa sari riam amen ente te malo malo.. • Có Cómo mo dete detect ctar arlo lo? ? Usan Usando do que que

o que

 

Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.

 

Residuos Externamente Studentizados. Datos de Forbes.

 

Punto un toss Extre Extr emos mo s (o de apalancamiento). palancamient o). • El val alor or del del pre predi dict cto or está está muy muy ale aleja jad do. • No s sie iemp mpre re ttie iene ne rel relev evan anci cia. a. • Tam Tambié bién n se denom denomina inan n Puntos Puntos de de Palanc Palanca a o valore valores s Levera Leverage ge • La pala palanc nca a se se def defin ine e com como: o:

 

Ejemplo: Los dos puntos en el extremo derecho tienen la misma palanca. Sin embargo, el segundo caso es de mayor importancia.

(1)

(2)

 

untos os de Infl Influe uenci ncia a. Punt La idea es magnificar la influencia de cada punto en la regresión. • Cómo se afectan

y

• Cómo se afecta

?

• Cómo se afecta

?

?

La medida de Cook

entrega una medida de la influencia de cada observación.

 

Distancia ncia de Cook Cook (Datos (Datos de Forbes Forbes)) Ejemplo 1: Dista

 

Ejemplo 2: Dista Distancia ncia de Cook (Datos (Datos Ficticios Ficticios (1), dato no influyent influyente) e)

 

Distancia ncia de Cook (Datos (Datos Ficticios Ficticios (2), dato influye influyente) nte) Ejemplo 2: Dista

 

Pru rue eba bass de d e hip hipótesis ótesis con c on los re resi siduale dualess Existen ocasiones en que los análisis gráficos a veces no permite decidir con claridad acerca de un aspecto en particular acerca de los errores.

 

Soluciones a la falta de linealidad 

Transformar las variables para intentar conseguir linealidad



Introducir variable adicionales (regresión polinómica)

Detectar

la presencia de datos atípicos o ausencia de otras variables importantes para explicar la variable respuesta

 

Soluciones a la falta de homocedasticidad 

Si la variabilidad de la respuesta aumenta con x según la ecuación var(y/x)=g(x), dividimos la ecuación de regresión por  g(x).



Transformar Trans formar la v variab ariable le respu respuesta esta y puede qu que e también x

Si

lo anterior no funciona, cambiar el método de estimación

Mínimos cuadrados ponderados

 

Transformaciones Las transformaciones se utilizan fundamentalmente por tres razones: 

Linealiza Linea lizarr relacione relaciones s no-line no-lineales ales

Conseguir

homocedasticidad homocedasticidad

Conseguir

normalidad

 Al transformar los datos no se pierde información pero hay que tener  cuidado a la hora de interpretar los coeficientes. El modelo transformado ha de ser también validado

 

 y =  β 0 e β 1 x

→ log( y ) = β%0 + β %1 x

%

 β 1  representa el incremento porcentual de  y cuando x aumenta una unidad 

log( y ) = log( β 0 ) + β 1 x

 y =  β 0 e

 β 1 x

y = αeβx

y

        )       y         (       g       o         l

log(y) = a + βx a = log(α)

x

x

 

Mod ode elo de d e regresió regresión n exp expon one enc ncial ial  β  % log( x )  y =  β 0 x 1 → log( y ) = β%0 + β  1 %  representa el incremento porcentual de  y cuando x aumenta un 1%  β  1  y =  β 0 x

 β 1

 1  y

log( y ) =  β%0 + β %1 log( x )

0         )       y         (       g       o         l

log(x)

x

 

e y

= e β  x  β  → y =  β%0 + β %1 log( x) 0

1

 β  /100 0 re repr prese esenta nta el inc incre rem ment ento o de  y cua cuand ndo o x aum aument entaa en un 1% %1/10

 y

e

y

 y =  β%0

= e β   x β  0

1

y

+ β %1 log( x)

x

log(x)

 

Cons onse ecu cue enc ncia ia de las las tr tra ans nsfor forma maci ciones ones La interpretación de los parámetros se refiere a la relación entre las variables transformadas, no a las originales

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF