Seleccion de Variables - Métodos Stepwise

July 27, 2017 | Author: Anthony Alarcón Moreno | Category: Statistics, Regression Analysis, Analysis Of Variance, Scientific Method, Analysis
Share Embed Donate


Short Description

Descripción: Selección de Variables MÉTODOS STEPWISE WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadís...

Description

Selección de Variables MÉTODOS STEPWISE

WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadística y más. Anthony A. Alarcón Moreno

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Contenido Selección de Variables - Métodos Stepwise .................................2 1. Backward Elimination ...................................................................2 1.1 Conceptos previos .....................................................................2 1.2 Aplicación .....................................................................................5 2.Fordward Selection ...................................................................... 15

Página

1

3. Stepwise Selection ....................................................................... 23

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Selección de Variables - Métodos Stepwise Cuando, en un modelo de regresión lineal, disponemos de muchas variables explicativas, se hace necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan mejores predicciones que un modelo con todas las variables –en caso que el número de variables predictoras sea grande (más de 10). Para seleccionar la cantidad de variables, nos podemos plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, así como generar todos los modelos posibles. Reduciendo la cantidad de variables regresoras lograremos también que nuestro modelo sea un modelo parsimonioso –el modelo más simple que explica suficientemente bien los datos-. En este trabajo vamos a ver, de manera práctica, los métodos de selección STEPWISE, cuyos algoritmos son:  Backward Elimination  Forward Selection  Stepwise Selection

1. Backward Elimination

1.1 Conceptos previos

El modelo estará dado por www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

2

Empezaremos explicando este método, que empieza tomando todas las variables. Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde www.unconejonegro.blogspot.com-

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las variables son significativas y que explican el modelo, mientras que en el caso del valor de salida sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los valores F. Vamos a la gráfica:

Para el caso que escojamos un valor de salida α=0.10

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

3

Definimos

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Esta

Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.

Vemos que el área de la región de aceptación para el F=4 –ya sea OUT o IN- es 0.98907475 u2 www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

4

Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME). Calculamos el área de la región de aceptación

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Gráficamente sería:

1.2 Aplicación

Página

5

Ahora, con estos conceptos, seguiremos el método backward elimination. En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas las variables

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Página

6

Clicamos en Resultados… y seleccionamos la opción:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Clicamos en Aceptar y luego, en el panel principal, también le damos en Aceptar

Página

7

Y tendremos los resultados:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011 para F=4.

Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t, escogeríamos la más pequeña entre las que caen en la región de aceptación.

Página

8

Usando el p-valor, sería lo mismo.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Vemos que cae en la región de aceptación, y es la única. Ahora, como eliminamos X3, nuestro modelo quedaría así:

En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido. Con el minitab hacemos:

Damos Aceptar www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

9

Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una variable. Con estos datos calcularemos la estadística t

10

Y obtendremos:

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Graficándolo sería

Veamos, en el minitab vamos a la opción

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Minitab nos brinda una opción para realizar este método –backward eliminationautomáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las variables significativas.

11

Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se para el proceso y nos quedamos con el modelo

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Luego, vamos a Métodos… y

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

12

En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que queremos que sean analizadas por el método backward elimination

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar valores alfa y fijamos el valor de salida en 0.10

Clicamos Aceptar y veremos: www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

13

Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las pruebas t –aunque ustedes pueden usar cualquiera-.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un 90% de confianza, se reduce a

Página

14

Bueno, en adelante, para los otros métodos, las pruebas t y F son análogas. Veamos.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

2.Fordward Selection Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método backward elimination –página 7-

De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es X2. Entonces, empezaremos con el modelo de regresión simple

Página

15

Ahora, calcularemos el Anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos en Resultados…

Página

16

Activamos la segunda opción y clicamos Aceptar y también en el panel anterior. Y tenemos:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno Fijamos un valor de entrada, un

www.unconejonegro.blogspot.com con un α=0.05. Entonces nuestra estadística será: ( )

Con la regla de decisión ( ) | | Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso –de no haber sido significativa, se paraba y nos quedábamos con el modelo . De los resultados que obtuvimos en la tabla

Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1 (| | ). Entonces, incluiremos esta variable en el modelo. Nuestro modelo sería

Página

17

Con el matlab calcularemos el anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

En el panel que aparecerá, seleccionamos, como predictores, las variables X1 y X2

Página

18

Y obtendremos

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Luego, calcularemos la estadística

(

)

Usamos la regla de decisión

X1 X2

Regla de decisión | | | |

Decisión Significativa Significativa

Así obtenemos el anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

19

Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última variable, X3. Entonces nuestro modelo sería Calculamos el anova y la tabla de coeficientes para este modelo:

Anthony A. Alarcón Moreno

Calculamos la estadística de entrada

www.unconejonegro.blogspot.com

(

)

Usamos la regla de decisión Regla de Decisión X1 X2 X3

| | | | | |

Decisión Significativa Significativa No significativa

Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el modelo:

Página

20

Bueno, como en el caso anterior, minitab resume todo esto en un par de clics. Veamos.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Y nos saldrá:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos Aceptar y en el panel anterior, también.

21

Vamos a Métodos…

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Página

22

Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos. Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo modelo.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

3. Stepwise Selection

Página

23

Este método de selección de variables es la combinación de los dos anteriores, pero partimos, como en el método forward selection, desde un modelo de regresión simple, tomando como variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo obtuvimos en el método anterior (ver pág. 16)

Ahora, fijaremos

y (

)

(

)

Tenemos Decisión

Si en algunas de las dos pruebas resultase no significativa, entonces la decisión es no significativa; es decir, se elimina la variable. Como la variable X2 pasó, entonces incluiremos al modelo la variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t. www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

24

Significativa

Página

X2

Regla de Decisión Primera Prueba Segunda Prueba | | | |

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y X2 como variables independientes (Ver pág. 18)

Ahora, fijaremos

y

Tenemos Regla de Decisión Primera Prueba | | X1 | | X2

(

)

(

)

Decisión

Segunda Prueba | | | |

Significativa Significativa

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Le añadiremos la última variable, y haremos la misma prueba para las 3. Tenemos el anova y la tabla de coeficientes de los métodos anteriores (Ver pág. 20)

25

En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría

Anthony A. Alarcón Moreno

Ahora, fijaremos

www.unconejonegro.blogspot.com

y (

)

(

)

Tenemos

X1 X2 X3

Regla de Decisión Primera Prueba Segunda Prueba | | | | | | | | | | | |

Decisión Significativa Significativa No Significativa

Página

Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab nos permite ahorrarnos el trabajo. Veamos

26

Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos de selección Stepwise llegamos al mismo resultado. El modelo sería:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Seleccionamos todas las variables y clicamos en Métodos…

www.unconejonegro.blogspot.com

27

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Anthony A. Alarcón Moreno

www.unconejonegro.blogspot.com

Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también. Nos quedará

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.

Página

Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web, que está buenísima. ¡Recomiéndala!

28

Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras. Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo, según los métodos de selección de Stepwise, será:

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF