regresion logistica
Short Description
Download regresion logistica...
Description
1. Introducción La Regresión Logística es una técnica estadística multivariante que nospermite estimar la relación existente entre una variable dependiente nométrica, en particular dicotómica y un conjunto de variables independientesmétricas o no métricas. El Análisis de Regresión Logística tiene la misma estrategia que el Análisisde Regresión Lineal Múltiple, el cual se diferencia esencialmente delAnálisis de Regresión Logística por que la variable dependiente es métrica;en la práctica el uso de ambas técnicas tienen mucha semejanza, aunquesus enfoques matemáticos son diferentes. La variable dependiente o respuesta no es continua, sino discreta(generalmente toma valores 1,0). Las variables explicativas pueden sercuantitativas o cualitativas; y la ecuación del modelo no es una función linealde partida, sino exponencial; si bien, por sencilla transformación logarítmica,puede finalmente presentarse como una función lineal. Así pues el modelo será útil en frecuentes situaciones prácticas deinvestigación en que la respuesta puede tomar únicamente dos valores: 1,presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p). El modelo será de utilidad puesto que, muchas veces, el perfil de variablespuede estar formado por caracteres cuantitativos y cualitativos; y sepretende hacer participar a todos ellos en una única ecuación conjunta. El modelo puede acercarse más a la realidad ya que muchos fenómenos,como los del campo epidemiológico, se asemejan más a una curva que auna recta. Además la curva exponencial elegida como mejor ajuste, puedeser transformada logarítmicamente en una ecuación lineal de todas las variables, siendo así que el aparato matemático estudiado para la regresiónlineal múltiple será aplicable; aunque el investigador tenga, al final, quedeshacer la transformación para interpretar sus conclusiones. Si para el Modelo de Regresión Logística una variable regresora de tipocategórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)a fin que todas las posibilidades de la variable queden bien representadas enel modelo logístico. Cuando todas las variables regresoras son categóricas entonces se usa elmodelo Log lineal, ver Mc Cullagh (1983).
2. Objetivos De La Regresión Logística El objetivo primordial de esta técnica es el de modelar cómo influyen lasvariables regresoras en la probabilidad de ocurrencia de un sucesoparticular. Sistemáticamente tiene dos objetivos: Investigar cómo influye en la probabilidad de ocurrencia de un suceso, la presencia o no de diversos factores y el valor o nivel de los mismos. Determinar el modelo más parsimonioso y mejor ajustado que siendo razonable describa la relación entre la variable respuesta y un conjunto de variables regresoras.
3. Regresión Logística Y Otros Métodos Relacionados
El objetivo general de la Regresión Logística es predecir la probabilidad deun evento de interés en una investigación, así como identificar las variablespredictores útiles para tal predicción. Se pueden usar varios métodos multivariantes para predecir una variablerespuesta de naturaleza dicotómica a partir de un grupo de variablesregresoras.
El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dosmétodos eficaces pero plantean problemas cuando la variable respuesta esbinaria.
En el Análisis de Regresión Lineal Múltiple cuando la variable respuestatoma solo dos valores, se violan los supuestos de necesarios para efectuarinferencias, los problemas que se plantean son: 1. La distribución de los errores aleatorios no es normal. 2. Los valores predictados no pueden ser interpretados comoprobabilidades como en la Regresión Logística, porque no tomanvalores dentro del intervalo [0,1].
El Análisis Discriminante permite la predicción de pertenencia de la unidadde análisis a uno de los dos grupos pre-establecidos, pero se requiere quese cumplan los supuestos de multinormalidad de las variables regresoras yla igualdad de matrices de covarianzas de los dos grupos, pueden serdiferentes también; para que la regla de predicción sea óptima, Johnson(1982).
La Regresión Logística requiere mucho menos supuestos que el AD, por ellocuando satisfacen los supuestos requeridos para el AD, la RegresiónLogística trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple yla Regresión Logística, debido a que ambos tienen el mismo objetivo,predecir la variable respuesta a partir de las variables regresoras.
4. Regresión Logística Simple
Este modelo tiene la forma:
Yi= b0+ b1 xi+ εipara i = 1,2, ,n De esto se deduce que:
Si y = 1, εi =1- b0- b1 xi Si y = 0 ,εi= - b0- b1 xi Por tanto εi, no puede tener distribución normal debido a que toma valoresdiscretos, el Modelo de Regresión Lineal Simple, no es aplicable para elcaso de variable respuesta de tipo dicotómico. En el Análisis de Regresión Lineal simple, el punto inicial del proceso deestimación del modelo es un gráfico de dispersión de la variable respuestaversus la regresora, pero este gráfico resulta limitado cuando sólo hay dosvalores posibles para la variable respuesta, por tanto se debe usar otrosgráficos, éstos resultan de la suavización de los valores de la
variablerespuesta, representando después los valores de la variable respuestaversus la regresora. La notación que se usará en el presente trabajo para la Regresión Logísticaes misma que emplea Hosmer y Lemeshow (2000).
Sea
(x) = E(y x)
Que representa la media condicional de y =1dado x , donde (x)representa la probabilidad de que ocurra y =1, ciertamente no se esperaque
(x)tenga relación lineal
dentro del rango de la variable regresora. ¿Qué hay de la relación entre
x
(x)y para valores intermedios de x? Se espera una
relación curvilínea. Para cualquier valor grande de x , (x)tomará valores cercanos a 1 y para valores pequeños de x, el comportamiento de
(x)tomarávalores cercanos a cero. El gráfico que muestra
x
(x)versus es:
Figura N° 1 Curva en forma de S o sigmoidea que tiene las propiedades requeridas para (x)y que tiene las propiedades de una función de distribución deprobabilidad acumulada, para esta probabilidad se usa la función redistribución acumulada de la distribución logística dada por:
( ) ∑
(
| )
∑
. Siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la característica estudiada), en presencia de las covariables X (aquí X es un conjunto de n covariables x1, x2, ... , xn-1, xn). Los componentes de esta ecuación son:
b0es la constante del modelo o término independiente n el número de covariables bilos coeficientes de las covariables xi las covariables que forman parte del modelo. Tiene un gráfico similar a la Figura Nº 1, cuando b0 0, además este modelo toma valores en el intervalo [0,1].Cuando,
[y = 1] = 0.5el valor de x es:
, que
brinda informaciónmuy útil. Una transformación de (x)que es lo central del estudio de la RegresiónLogística es la transformación logit, transformación que se define entérminos
( )
[
(x)como:
( ) ] ( )
Lo importante de esta transformación es que tiene muchas propiedadessemejantes al Modelo de Regresión Lineal simple, por ejemplo es lineal ensus parámetros, puede ser continua y puede tomar cualquier valor realdependiendo de x.
Para el Modelo de Regresión Lineal simple, la variable respuesta, seexpresa como:
Y=E(x|y)+ε Para la variable respuesta dicotómica lo expresamos como:
( )
Y= Veamos que ocurre con este modelo:
( ) y tiene probabilidad ( )
Si y = 1, εi =
Si y = 0 ,εi= - ( )y tiene probabilidad
( )
Entonces εi tiene distribución binomial con media cero y varianza ( )
[
( )]. Por tanto la distribución condicional de la variable respuesta tiene
distribución de probabilidad binomial con media ( ).
5. Regresión Logística Múltiple En esta sección se generaliza el Modelo de Regresión Logística Simpletratado en la sección anterior, es decir consideraremos más de una variableregresora, en donde por lo menos una es de tipo cuantitativo. Sea el vector de variables regresoraŝ =(x1, x2 ,...., xk)por el momento asumiremos que están medidas por lo menos bajo escala intervalar. Sea la probabilidad condicional para que la variable respuesta sea igual a 1, denotado por: (
| ̂)
( ̂)
El modelo de regresión logística múltiple está dada por: (̂)
Para i=1,2,3………n; ( ̂)
( ̂) ( ̂)
La curva logística se refiere la variable independiente, X, a la media móvil de la DV, P ( ). La fórmula para hacerlo se puede escribir ya sea
O Donde P es la probabilidad de un 1 (la proporción de 1s, la media de Y), e es la base del logaritmo natural (aproximadamente 2.718) y A y B son los parámetros del modelo. El valor de un P rendimientos cuando X es cero, y b ajusta la rapidez de los cambios de probabilidad con el cambio de X una sola unidad (que pueden tener pesos normalizados y no normalizados b en la regresión logística, así como en la regresión lineal ordinaria). Debido a la relación entre X y P es no lineal, b no tiene una interpretación directa en este modelo como lo hace en regresión lineal ordinaria. La pérdida de función Una función de pérdida es una medida de ajuste entre un modelo matemático de los datos y los datos reales. Elegimos los parámetros de nuestro modelo para reducir al mínimo la maldad de ajuste o para maximizar la bondad del ajuste del modelo a los datos. Con los mínimos cuadrados (la función de pérdida sólo hemos utilizado hasta ahora), minimizamos SS resolución, la suma de cuadrados residuales. Esto también sucede para maximizar la SS
registro,
la suma de cuadrados debido a la regresión. Con los
modelos lineales o curvilíneos, existe una solución matemática al problema que minimice la suma de cuadrados, es decir, b = (X'X) -1X'yO b = R -1 r En algunos modelos, como la curva logística, no existe una solución matemática que producirá estimaciones de mínimos cuadrados de los parámetros. Para muchos de estos modelos, la función de pérdida elegida se llama máxima verosimilitud. Una probabilidad es una probabilidad condicional (por ejemplo, P (Y | X), la probabilidad de Y dado X). Podemos elegir los parámetros del modelo (A y B de la curva logística) al azar o por ensayo y error, y luego calcular la probabilidad de que
los datos dados los parámetros (en realidad, lo hacemos mejor que el sendero-yerror, pero no perfectamente). Vamos a elegir a nuestros parámetros, los que dan lugar a la mayor probabilidad calculada. Las estimaciones de máxima verosimilitud se llaman porque los parámetros se eligen para maximizar la probabilidad (probabilidad condicional de los datos que figuran estimaciones de los parámetros) de los datos de la muestra. Las técnicas de hoy en día para encontrar las estimaciones de máxima verosimilitud caer bajo el análisis de la etiqueta numérica general. Existen varios métodos de análisis numérico, pero todas siguen una serie similar de pasos. En primer lugar, el ordenador escoge algunas estimaciones iniciales de los parámetros. Entonces se calcula la probabilidad de que los datos que figuran las estimaciones de los parámetros. A continuación, va a mejorar las estimaciones de parámetros poco y volver a calcular la probabilidad de los datos. Lo hará por siempre hasta que nos diga que se detenga, lo que solemos hacer cuando las estimaciones de los parámetros no cambian mucho (por lo general un cambio de 0.01 o 0.001 es lo suficientemente pequeño como para decir que el equipo deje). [A veces le decimos a la computadora para detenerse después de un cierto número de intentos o repeticiones, por ejemplo, 20 o 250. Esto suele indicar un problema en la estimación.] Cuando en la Tierra ¿Esta cosas viene? Supongamos que sólo sabemos la altura de una persona y queremos predecir si esa persona es hombre o mujer. Podemos hablar de la probabilidad de ser hombre o mujer, o podemos hablar de las probabilidades de ser hombre o mujer. Vamos a decir que la probabilidad de ser hombre a una determinada altura es 0.90. A continuación, las probabilidades de ser hombre sería
.
(Las probabilidades también se encuentran contando el número de personas en cada grupo y dividiendo un número por el otro. Claramente, la probabilidad no es lo mismo que las probabilidades.) La función logaritmo natural se parece a esto:
Nótese que el logaritmo natural es cero cuando X es 1. Cuando X es mayor que uno, el registro se curva hacia arriba lentamente. Cuando X es menor que uno, el logaritmo natural es menor que cero, y disminuye rápidamente a medida que X se aproxima a cero. Cuando P = 0,50, lo más probable es .50/.50 o 1, y ln (1) = 0. Si P es mayor que 0.50, ln (P / (1-P) es positivo, si P es menor que 0.50, ln (odds) es negativo [Varios llevado a una potencia negativa es uno dividido por el número. por ejemplo, e
-10
= 1 / e
10.
Un logaritmo es un exponente de una base dada, por
ejemplo ln (e 10) = 10.] 5.1. Volver a la regresión logística. En la regresión logística, la variable dependiente es un logit, que es el logaritmo natural de las probabilidades, es decir,
Así que un logit es un registro de las probabilidades y las probabilidades son una función de P, la probabilidad de un 1. En la regresión logística, nos encontramos con logit (p) = a + bX,
Lo que se supone que es lineal, es decir, las probabilidades de registro (logit) se supone que es linealmente relacionada con X, nuestro IV. Así que hay una regresión ordinaria escondido allí. Podríamos, en teoría, hacer una regresión ordinaria con logits como nuestro DV, pero, por supuesto, no tenemos logits de ahí, tenemos 1s y 0s. Entonces, también, la gente tiene un logits cuesta trabajo entender. Podríamos hablar de las probabilidades en su lugar. Por supuesto, la gente le gusta hablar de probabilidades más de probabilidades. Para llegar hasta allí (a partir de logits a las probabilidades), primero tenemos que tener el registro de ambos lados de la ecuación. Entonces tenemos que convertir las probabilidades de una simple probabilidad:
La probabilidad de simple es la ecuación fea que has visto antes. Si las probabilidades de registro se relaciona linealmente con X, entonces la relación entre X y P es no lineal, y tiene la forma de la curva en forma de S que vimos en la gráfica y la forma de función (ecuación) que aparece inmediatamente por encima.
6. Ajuste Del Modelo De Regresión Logística Múltiple El ajuste se efectúa a través del uso de los métodos de máximaverosimilitud, los mismos que se encuentran en los softwares estadísticosque permiten analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observacionesindependientes (̂
toma los valores de 0 ó 1, para estimar ̂
), i=1,2,3………..n; donde
(
)que es el vector de parámetros desconocidos.
Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos Cuadrados para estimar ̂ , el cual minimiza la suma de cuadrados delerror, pero cuando la variable respuesta es binaria aplicar este método noprovee las mismas propiedades cuando es usado en variables respuestascontinuas. Por ello se usará el método de Máxima Verosimilitud, ya que obtendremosparámetros estimados que maximizan la probabilidad de obtener un conjuntode datos observados. La función de verosimilitud expresa la probabilidad de los datos observadoscomo una función de parámetros desconocidos. Los Estimadores de MáximaVerosimilitud de esos parámetros son aquellos que están en concordanciacon los datos observados. Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,supongamos que se dispone de n objetos u observaciones donde para cadauno de ellos existe una respuesta que puede ser:
yi0 o yi1
Las ecuaciones de verosimilitudes son: ∑
∑
Siendo xi0=1 y la ecuación equivalente es: ∑
(
)
Dónde: (∑ (∑
̂
) ̂
)
y se obtiene ̂ y el vector ̂ de la expresión
Es el estimador máximo verosímil de dada en su fórmula matricial es: (̂
̂)
̂
7. Aplicaciones:
Un ejemplo Supongamos que estamos trabajando con algunos médicos en pacientes de ataque cardiaco. La variable dependiente es si el paciente ha sufrido un segundo ataque al corazón dentro de 1 año (sí = 1). Tenemos dos variables independientes, uno es si el paciente completó un tratamiento coherente de las prácticas de control de la ira (sí = 1). El otro IV es una calificación en una escala de ansiedad-rasgo (una puntuación más alta significa más ansioso). Nuestros datos:
Persona
2 º ataque al corazón
El tratamiento de la Ira
Rasgo de Ansiedad
1
1
1
70
2
1
1
80
3
1
1
50
4
1
0
60
5
1
0
40
6
1
0
65
7
1
0
75
8
1
0
80
9
1
0
70
10
1
0
60
11
0
1
65
12
0
1
50
13
0
1
45
14
0
1
35
15
0
1
40
16
0
1
50
17
0
0
55
18
0
0
45
19
0
0
50
20
0
0
60
Nuestra matriz de correlación: Corazón
Tratar
Anx
Corazón
1
Tratar
- 0.30
1
Anx
0.59 **
- 0.23
1
Media
0.50
0.45
57,25
SD
0.51
0.51
13,42
Tenga en cuenta que la mitad de nuestros pacientes han tenido un segundo ataque al corazón. Sin saber nada más acerca de un paciente, y siguiendo el mejor en la práctica médica actual, que se lanza una moneda para predecir si van a tener un segundo ataque dentro de 1 año. De acuerdo a los coeficientes de correlación nuestros, los del grupo de tratamiento de la ira son menos propensos a tener otro ataque, pero el resultado no es significativo. Gran ansiedad se asocia con una mayor
probabilidad de tener otro ataque, y el resultado es significativo (de acuerdo a derecha). Ahora echemos un vistazo a la regresión logística, por el momento de examinar el tratamiento de la ira por sí mismo, haciendo caso omiso de los resultados de las pruebas de ansiedad. SAS muestra el siguiente: Variable de respuesta: CORAZÓN Niveles de respuesta: 2 Número de observaciones: 20 Función de enlace: Logit Respuesta de perfil Ordenado El valor de conteo CORAZÓN 0 =
10
1=
10
SAS nos dice lo que nos entiende a la modelo, incluyendo el nombre de la DV, y su distribución. Luego calcular las probabilidades con y sin incluir la variable de tratamiento. Modelo de Adaptación de la Información y la prueba beta Global hipótesis nula = 0 Criterio de Intercepción Intercepción de Chi-cuadrado Sólo y Las covariables -2 Log L 27,726 25,878 1,848
1df (p = 0,17) El ordenador calcula la probabilidad de los datos. Debido a que hay un número igual de personas en los dos grupos, la probabilidad de pertenencia al grupo inicial (sin considerar el tratamiento con la ira) es 0,50 por cada persona. Debido a que las personas son independientes, la probabilidad de todo el conjunto de personas es 0,50 20, un número muy pequeño. Dado que el número es tan pequeño, es costumbre tomar primero el logaritmo natural de la probabilidad y luego multiplicar el resultado por -2. El último paso hace que el resultado positivo. La estadística-2LogL (menos 2 veces el registro de la probabilidad) es un indicador de la maldad de ajuste, es decir, un gran número significa un mal ajuste del modelo a los datos. SAS imprime el resultado en -2 log L. Para el modelo inicial (interceptar solamente), nuestro resultado es el valor de 27.726. Este es un número de referencia que indica el ajuste del modelo. Este número no tiene ningún equivalente directo en la regresión lineal. Es más o menos análoga a la generación de algunos números al azar y la búsqueda de R 2 de estos números como una medida de referencia de ajuste en la regresión lineal ordinaria. Mediante la inclusión de un plazo para el tratamiento, la función de pérdida se reduce a 25,878, una diferencia de 1,848, que se muestra en la columna de Chi-cuadrado. La diferencia entre los dos valores de2LogL se conoce como la prueba de razón verosimilitud. Cuando se toma a partir de muestras grandes, la diferencia entre dos valores de2LogL se distribuye como chi-cuadrado:
Recordemos que la multiplicación de números es equivalente a agregar exponentes (lo mismo para la resta y la división de registros). Esto indica que la (L-2log) para una restringida (más pequeño) modelo - (-2LogL) para una completa (más grande) modelo es el mismo que el registro de la relación
de dos probabilidades, que se distribuye como chi-cuadrado. El modelo completo o mayor tiene todos los parámetros de interés en ella. La restricción se dice que está anidado en el modelo más grande. El modelo restringido tiene una o más de los parámetros en el modelo completo restringido a un cierto valor (normalmente cero). Los parámetros en el modelo anidado deben ser un subconjunto propio de los parámetros en el modelo completo. Por ejemplo, supongamos que tenemos dos sueros, uno categóricas y continuas una vez, y estamos buscando a un diseño de ATI. Un modelo completo podría haber incluido los términos de la variable continua, la variable categórica y su interacción (3 trimestres). Modelos restringidos podría eliminar la interacción o uno o más efectos principales (por ejemplo, podríamos tener un modelo con sólo la variable categórica). Un modelo anidado no puede tener como única IV, alguna otra variable categórica o continua no está contenido en el modelo completo. Si lo hace, entonces ya no es anidada, y no podemos comparar los dos valores de-2LogL para obtener un valor de chi-cuadrado. El chi-cuadrado se utiliza para probar estadísticamente si la inclusión de una variable reduce la maldad de ajuste de la medida. Esto es análogo a producir un incremento en R-cuadrado en regresión jerárquica. Si Chi-cuadrado es significativo, la variable se considera que es un predictor significativo en la ecuación, análoga a la significación del peso b en la regresión simultánea. Para nuestro ejemplo con el tratamiento de la ira sólo SAS produce lo siguiente: Análisis de las estimaciones de máxima verosimilitud Variable
Interceptar
DF
Par Est
Std. Err Wald
Pr> Chi- Stand.
Odds
CHISQ
cuadrado
Est
Ratio
1
- .5596
0.6268
0.7972
0.3719
.
.
Tratamiento 1
1,2528
0.9449
17566
0.1849
0.3525
3,50
La intersección es el valor de una, en este caso - .5596. Como de costumbre, no tiene demasiado interés en saber si a es igual a cero. El valor de b dado para el
tratamiento del cólera es 1,2528. elchi-cuadrado asociada a este b no es significativa, al igual que el chi-cuadrado para las covariables no fue significativa. Por lo tanto no podemos rechazar la hipótesis de que b es igual a cero en la población. Nuestra ecuación se puede escribir ya sea: Logit (P) = - 0,5596 1,2528 X ó
La interpretación principal de resultados de la regresión logística es encontrar los predictores significativos de Y. Sin embargo, otras cosas, a veces, se pueden hacer con los resultados. El Odds Ratio Recordemos que las probabilidades de que un grupo es:
Ahora las probabilidades de que otro grupo también sería P / (1-P) para ese grupo. Supongamos que organizar los datos de la siguiente manera: La ira de tratamiento Ataque del corazón
Sí (1)
No (0)
Total
Sí (1)
3 (a)
7 (b)
10 (a + b)
No (0)
6 (c)
4 (d)
10 (c + d)
Total
9 (a + c)
11 (b + d)
20 (a + b + c + d)
Ahora podemos calcular las probabilidades de sufrir un ataque al corazón por el grupo de tratamiento y el grupo sin tratamiento. Para el grupo de tratamiento, las
probabilidades son de 3/6 = 1/2. La probabilidad de un ataque al corazón es de 3 / (3 +6) = 3.9 = 0.33. Las probabilidades de que esta probabilidad es .33 / (1-.33) = .33/.66 = 1/2. Las probabilidades para el grupo sin tratamiento son 7.4 o 1.75. El odds ratio se calcula para comparar las probabilidades entre los grupos.
Si las probabilidades son las mismas en todos los grupos, el odds ratio (OR) será del 1,0. Si no, el O será mayor o menor que uno. La gente le gusta ver la relación de formularse en la dirección más grande. En nuestro caso, esto sería 1.75/.5 o 1,75 * 2 = 3.50. Ahora bien, si nos remontamos hasta la última columna de la impresión en el que se dice odds ratio en la columna de tratamiento, usted verá que el odds ratio es de 3,50, que es lo que conseguimos mediante la búsqueda de la odds ratio para las posibilidades del tratamiento de dos condiciones. También sucede que el correo1.2528 = 3.50. Tenga en cuenta que el exponente es nuestro valor de b de la curva logística.
8. Referencias: http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/ en_Tanagra_Variable_Selection_Binary_Logistic_Regression.pdf http://eric.univlyon2.fr/~ricco/tanagra/fichiers/en_Tanagra_Multinomial_Logistic_Regression.pdf
http://en.wikipedia.org/wiki/Multinomial_logit http://www.stat.psu.edu/~jglenn/stat504/08_multilog/01_multilog_intro.htm
View more...
Comments