Regresion Lineal Multiple

December 10, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Regresion Lineal Multiple...

Description

 

Becerril Reyna Claudia Lizbeth

Ejercicio de regresión lineal múltiple 1.- La asociación de atletismo de Carolina está interesada en organizar el primer triatlón anual de Tarheel. Para atraer atletas de alto nivel, la asociación desea ofrecer premios en efectivo a los primeros lugares, estableciendo tiempos para los ganadores globales de la competencia de hombres. Como el recorrido no se ha recorrido antes, la asociación ha escogido 10 carreras de diferentes longitudes que considera comparables en clima y condiciones del recorrido. Como en toda carrera de atletismo, el ganador se determina con respecto a quien tenga menor tiempo en el recorrido. Millas  ___________________  __________ ____________ ___

Hombres __________ ___________ _

Lugares 1 2 3 4 5

Nado 2.4 2 1.2 1.5 0.93

Ciclismo 112 100 55.3 48 24.8

Carrera 26.2 18.6 13.1 10 6.2

Tiempos/min Tiempos/min 489 505 245 204 114

6 7 8 9 10

0.93 0.50 2.4 0.5 0.6

24.8 18 112 20 25

6.2 5 26.2 4 6.2

108 79 566 74 116

a)  Hacer un análisis de la correlación entre las variables: Reportar correlaciones bajas medias y altas entre: la variable dependiente con las variables independient independientes es y entre las variables independientes. VARIABLES Tiempo, lugar Tiempo, nado

CORRELACION -0.4854 0.9604

MEDIA ALTA

Tiempo, ciclismo Tiempo, carrera Lugar, nado Lugar, ciclismo Lugar, carrera Nado, ciclismo Nado, carrera Ciclismo, carrera

0.9932 0.9720 -0.5832 -0.5371 0.4943 0.9728 0.9652 0.9853

ALTA ALTA MEDIA MEDIA MEDIA ALTA ALTA ALTA

b)  Analizar gráficamente las correlaciones entre las variables.

 

2 4 6 8

20

60

100         0          0          5 

Tiempo

        0          0          3          0          0          1

        8          6 

Lugar 

        4         2

        5   . .         1

Nado

        5   . .         0          0          0          1

Ciclismo

        0          6 

        0          2         5          2

Carrera

        5          1

        5 

100

300

500

0.5

1.5

5

15

25

  Tiempo-Lugarr no hay tanta relación lineal según el gráfico y con la matriz de correlación -0.48 Tiempo-Luga concuerdan los análisis. Tiempo y nado si tienen una relación lineal. Tiempo y ciclismo tienen una relación mucho más lineal, esto quiere decir, que probablemente una de las variables tenga que salir del modelo. c)  Concluir con respecto a los dos análisis anteriores. La variable lugar podría salir del modelo por tener baja correlación con tiempo. Las demás variables están correlacionadas linealmente con el tiempo. Hay problemas de multicolinealidad entre los variables nado, ciclismo y carrera. Al menos alguna de estas debe salir del modelo.

d)  Analizar si existen puntos atípicos.

 

        0          0          5 

        0          0          4

        0          0          3 

        0          0          2

        0          0          1

        0 

Ti empo

Lugar

Nado

Ci cli smo

C arrera

  De acuerdo a la gráfica de cajas, aparentemente no se alcanza a observar ningún punto atípico. Sin embargo, de acuerdo a la distancia de Cook si existen puntos atípicos, en los puntos 2 y 8 ya que hay una distancia mayor a 1. e)  En caso de haber puntos atípicos e influyentes indicar si lo quitan o lo dejan, indicar porque toma esa decisión. Los puntos atípicos deben dejarse, ya que al tener una base de datos muy pequeña se estaría reduciendo aún más la base de datos, por esto y entre otras situaciones estadísticas es recomendable no quitar los puntos que aparecen como atípicos.

f)  Realizar y dar un modelo que involucre a todas las variables que se cree aportan información a la variable dependiente Tiempo = -57.519 + 5.588(lugar) + 8.368(nado) + 6.666(ciclismo) – 7.723(carrera) g)  Reportar los estadísticos necesarios que nos ayuden para realizar una comparación con modelos que se generarán posteriormente con estas mismas variables. R2 = 0.9929 R2ajustada= 0.9872 SCE = 2427

 

h)  Por medio de la función “step” determinar qué variables aportan información, para esto, hacer uso de las funciones “forward”, “backward” y “both”. Reportar los resultados con la

mayor claridad posible. El estadístico que nos ayuda en la selección de variables independientes es el criterio de información (AIC). En cada modelo aparece un valor del AIC y se escoge el modelo cuyo valor de AIC sea menor, en este caso: Para “forward” tenemos que: AIC=64.92

Tiempo ~ Lugar + Nado + Ciclismo + Carrera, siendo este el mejor modelo, notemos que incluye a todas las variables. Para “backward” notamos que el AIC es menor que en forward

AIC=62.98 Tiempo ~ Lugar + Ciclismo + Carrera, y el modelo se reduce a estas tres variables. Para “both” tenemos que:

Coincidiendo con backward AIC=62.98 Tiempo ~ Lugar + Ciclismo + Carrera, siendo entonces este el mejor modelo. i)  De los resultados del inciso anterior determinar cuál es el mejor modelo. Tiempo ~ Lugar + Ciclismo + Carrera Tiempo = -53.515 + 5.377(lugar) + 6.757(ciclismo) -7.467(carrera

 j)  Ahora es el momento de revisar si se cumplen con los supuestos sobre los errores.

 

Residuals vs Fitted

Normal Q-Q 2

ls a

5

di 1 s 1

sl

er

a u

d id

e 0 zi

s 0 e 1-

dr

R

a 1d 0

 

9

3

n at

1

2 S

-

100

200

300

400

1

-

-1. 5

500

 

Scale-Location

2. u di 1

2 a s

1

0

d 0

4.

dr

er

er 8.

d e

zi

dr a

d

n

n

at

at .0

S

0.5 1

1a

0 d

100

200

300

400

Cook's distance 1 -2

S 0

2

1 0.5

e

iz

1. 5

8

u id

s

0. 5

Residuals vs Leverage

sl

1 28

a

-0. 5

Theoretical Quantiles

Fitted values

ls

8

2

u

0

0. 0

500

Fitted values

0. 2

0.4

0. 6

0.8

Leverage

  Como podemos observar en los gráficos, en la gráfica de la distancia de cook no se cumplen los supuestos de los errores, ya que hay distancias mayores a 1. Y en el caso de la gráfica Residuals vs Fitted notamos que en el rango -30 hay puntos atípicos, por lo tanto de igual manera no se cumplen los supuestos sobre los errores. k)  En caso de no cumplirse algún supuesto, realizar la trasformación para corregir la deficiencia detectada. Normal Q-Q

Residuals vs Fitted .2

5. 1 als

3

0

3

u id .5 s

sl

re

a

0

.0 u

d

di 0

e 5. zi

s e

dr

R

0a

2.

d -0

n .5

1 9

4.5

at -1 S

5.0

5.5

1

-1.5

6.0

  a

2. 1 id

sl

1

a

re

di 1 0.

0 d

e

0 e iz

rd

0.5 1

rd 4.

a

0. a

0 d

1-

n

d n

at S

1 0.5

er

zi

ta 0. S 0

4.5

5.0

5.5

Fitted values

1.5

8

s

.8 d

0.5

0. u

3

s

-0.5

Residuals vs Leverage

Scale-Location 9

u

9

Theoretical Quantiles

Fitted values

ls

 

6.0

9 Cook's distance 1

0. -2

0. 0

0. 2

0. 4

0. 6

Leverage

0. 8

 

Después de realizada la transformación notamos que en la gráfica de residuals vs Fitted ahora si se cumplen los supuestos sobre los errores, ya que todos los puntos están contendidos dentro del rango. Sin embargo en la distancia de Cook nada cambio. Datos
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF