Seleccion de Variables - Métodos Stepwise
Short Description
Descripción: Selección de Variables MÉTODOS STEPWISE WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadís...
Description
Selección de Variables MÉTODOS STEPWISE
WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadística y más. Anthony A. Alarcón Moreno
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Contenido Selección de Variables - Métodos Stepwise .................................2 1. Backward Elimination ...................................................................2 1.1 Conceptos previos .....................................................................2 1.2 Aplicación .....................................................................................5 2.Fordward Selection ...................................................................... 15
Página
1
3. Stepwise Selection ....................................................................... 23
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Selección de Variables - Métodos Stepwise Cuando, en un modelo de regresión lineal, disponemos de muchas variables explicativas, se hace necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan mejores predicciones que un modelo con todas las variables –en caso que el número de variables predictoras sea grande (más de 10). Para seleccionar la cantidad de variables, nos podemos plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, así como generar todos los modelos posibles. Reduciendo la cantidad de variables regresoras lograremos también que nuestro modelo sea un modelo parsimonioso –el modelo más simple que explica suficientemente bien los datos-. En este trabajo vamos a ver, de manera práctica, los métodos de selección STEPWISE, cuyos algoritmos son: Backward Elimination Forward Selection Stepwise Selection
1. Backward Elimination
1.1 Conceptos previos
El modelo estará dado por www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
2
Empezaremos explicando este método, que empieza tomando todas las variables. Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde www.unconejonegro.blogspot.com-
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las variables son significativas y que explican el modelo, mientras que en el caso del valor de salida sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los valores F. Vamos a la gráfica:
Para el caso que escojamos un valor de salida α=0.10
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
3
Definimos
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Esta
Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.
Vemos que el área de la región de aceptación para el F=4 –ya sea OUT o IN- es 0.98907475 u2 www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
4
Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME). Calculamos el área de la región de aceptación
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Gráficamente sería:
1.2 Aplicación
Página
5
Ahora, con estos conceptos, seguiremos el método backward elimination. En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas las variables
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Página
6
Clicamos en Resultados… y seleccionamos la opción:
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Clicamos en Aceptar y luego, en el panel principal, también le damos en Aceptar
Página
7
Y tendremos los resultados:
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011 para F=4.
Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t, escogeríamos la más pequeña entre las que caen en la región de aceptación.
Página
8
Usando el p-valor, sería lo mismo.
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Vemos que cae en la región de aceptación, y es la única. Ahora, como eliminamos X3, nuestro modelo quedaría así:
En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido. Con el minitab hacemos:
Damos Aceptar www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
9
Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una variable. Con estos datos calcularemos la estadística t
10
Y obtendremos:
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Graficándolo sería
Veamos, en el minitab vamos a la opción
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Minitab nos brinda una opción para realizar este método –backward eliminationautomáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las variables significativas.
11
Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se para el proceso y nos quedamos con el modelo
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Luego, vamos a Métodos… y
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
12
En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que queremos que sean analizadas por el método backward elimination
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar valores alfa y fijamos el valor de salida en 0.10
Clicamos Aceptar y veremos: www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
13
Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las pruebas t –aunque ustedes pueden usar cualquiera-.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un 90% de confianza, se reduce a
Página
14
Bueno, en adelante, para los otros métodos, las pruebas t y F son análogas. Veamos.
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
2.Fordward Selection Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método backward elimination –página 7-
De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es X2. Entonces, empezaremos con el modelo de regresión simple
Página
15
Ahora, calcularemos el Anova y la tabla de coeficientes
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos en Resultados…
Página
16
Activamos la segunda opción y clicamos Aceptar y también en el panel anterior. Y tenemos:
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno Fijamos un valor de entrada, un
www.unconejonegro.blogspot.com con un α=0.05. Entonces nuestra estadística será: ( )
Con la regla de decisión ( ) | | Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso –de no haber sido significativa, se paraba y nos quedábamos con el modelo . De los resultados que obtuvimos en la tabla
Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1 (| | ). Entonces, incluiremos esta variable en el modelo. Nuestro modelo sería
Página
17
Con el matlab calcularemos el anova y la tabla de coeficientes
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
En el panel que aparecerá, seleccionamos, como predictores, las variables X1 y X2
Página
18
Y obtendremos
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Luego, calcularemos la estadística
(
)
Usamos la regla de decisión
X1 X2
Regla de decisión | | | |
Decisión Significativa Significativa
Así obtenemos el anova y la tabla de coeficientes
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
19
Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última variable, X3. Entonces nuestro modelo sería Calculamos el anova y la tabla de coeficientes para este modelo:
Anthony A. Alarcón Moreno
Calculamos la estadística de entrada
www.unconejonegro.blogspot.com
(
)
Usamos la regla de decisión Regla de Decisión X1 X2 X3
| | | | | |
Decisión Significativa Significativa No significativa
Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el modelo:
Página
20
Bueno, como en el caso anterior, minitab resume todo esto en un par de clics. Veamos.
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Y nos saldrá:
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos Aceptar y en el panel anterior, también.
21
Vamos a Métodos…
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Página
22
Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos. Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo modelo.
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
3. Stepwise Selection
Página
23
Este método de selección de variables es la combinación de los dos anteriores, pero partimos, como en el método forward selection, desde un modelo de regresión simple, tomando como variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo obtuvimos en el método anterior (ver pág. 16)
Ahora, fijaremos
y (
)
(
)
Tenemos Decisión
Si en algunas de las dos pruebas resultase no significativa, entonces la decisión es no significativa; es decir, se elimina la variable. Como la variable X2 pasó, entonces incluiremos al modelo la variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t. www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
24
Significativa
Página
X2
Regla de Decisión Primera Prueba Segunda Prueba | | | |
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y X2 como variables independientes (Ver pág. 18)
Ahora, fijaremos
y
Tenemos Regla de Decisión Primera Prueba | | X1 | | X2
(
)
(
)
Decisión
Segunda Prueba | | | |
Significativa Significativa
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Le añadiremos la última variable, y haremos la misma prueba para las 3. Tenemos el anova y la tabla de coeficientes de los métodos anteriores (Ver pág. 20)
25
En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría
Anthony A. Alarcón Moreno
Ahora, fijaremos
www.unconejonegro.blogspot.com
y (
)
(
)
Tenemos
X1 X2 X3
Regla de Decisión Primera Prueba Segunda Prueba | | | | | | | | | | | |
Decisión Significativa Significativa No Significativa
Página
Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab nos permite ahorrarnos el trabajo. Veamos
26
Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos de selección Stepwise llegamos al mismo resultado. El modelo sería:
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Seleccionamos todas las variables y clicamos en Métodos…
www.unconejonegro.blogspot.com
27
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Anthony A. Alarcón Moreno
www.unconejonegro.blogspot.com
Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también. Nos quedará
www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadística y más.
Página
Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web, que está buenísima. ¡Recomiéndala!
28
Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras. Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo, según los métodos de selección de Stepwise, será:
View more...
Comments