Regresión logistica I

March 9, 2018 | Author: Alvaro Terrazas Peláez | Category: Logistic Regression, Regression Analysis, Linear Regression, Mathematics, Physics & Mathematics
Share Embed Donate


Short Description

Descripción: parte 1 de 3 clases de regresión logistica...

Description

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE MEDICINA HUMANA PROGRAMA DE SEGUNDA ESPECIALIDAD PROFESIONAL EN EPIDEMIOLOGÍA DE CAMPO - PREC

ANALISIS DE REGRESIÓN LOGISTICA BINARIA Mg. Ysela Agüero P.

ANALISIS DE REGRESION LOGISTICA Los métodos de regresión se han convertido en parte integrante de muchos análisis de datos relacionados con la descripción de la relación causal entre una variable respuesta (variable dependiente, efecto, etc.) y una o más variables predictivas (variables regresoras, variables independientes, covariables, factores, etc.). Particularmente, el análisis de regresión lineal se utiliza para modelar la relación causal entre una variable respuesta continua y un conjunto de variables explicativas continuas, las cuales se relacionan linealmente con la respuesta. Pero a menudo ocurre que, la variable respuesta (variable dependiente, efecto, etc.) no es continua sino más bien categórica y toma sólo dos (binaria) o más (multinomial) posibles valores. En estas clases se pretende introducir los conceptos relacionados con el manejo de los modelos de regresión logística incondicional, es decir, modelos basados en observaciones independientes. Existen modificaciones del modelo incondicional que nos permiten manejar datos dependientes, como ocurre para los estudios caso-control pareados que también son tratados en la literatura referida a la regresión logística.

ANALISIS DE REGRESION LOGISTICA Antes de comenzar el estudio del modelo de regresión logística es importante entender que el objetivo de un análisis usando los modelos de regresión, en general, es el mismo que cuando se usa cualquier otra técnica de construcción de modelos usada en estadística, esto es, Encontrar el mejor ajuste y el más parsimonioso, pero que a la vez, sea un modelo biológicamente razonable para explicar la relación entre un efecto (variable respuesta) y un conjunto de factores(variables explicativas ).

Recordemos que al construir modelos se tiene que seguir una serie de pasos: •Identificación y formular el modelo ideal (teórico). •Obtención de los datos para contrastarlos con el modelo • Estimación de parámetros •Validación del modelo •Uso del modelo (prediccion, estimación, clasificación, etc.) Si el modelo no es válido volver a la etapa de identificación proponer un nuevo posible modelo.

ANALISIS DE REGRESION LOGISTICA La elección del modelo adecuado en la etapa de identificación dependerá de los objetivos de la investigación, de la experiencia del investigador en el tema en cuestión, de la cantidad de posibles modelos que conozca, del tipo de datos con los que cuenta, etc. Por ejemplo, si la variable respuesta es binaria (dicotómica) un posible modelo a elegirse en la etapa de identificación será el modelo logístico. Cada una de las etapas en el análisis de datos tiene sus particularidades dependiendo del modelo elegido en la etapa de identificación. Pero, el análisis de regresión logística y el de regresión lineal tienen similitudes y diferencias las cuales intentaremos ilustrar con el ejemplo siguiente.

ANALISIS DE REGRESION LOGISTICA Ejemplo. Asociación entre la enfermedad cardiovascular y la edad Se realiza un estudio con una muestra aleatoria de tamaño 100 de una población de individuos adultos. El objetivo es evaluar la asociación entre la presencia de enfermedad coronaria (EC) y la edad. La tabla registra la identificación (ID), edad, y enfermedad coronaria (EC = 1: enfermedad presente, EC = 0 : no presenta evidencia de enfermedad). 7.7

1 2 3

20 23 24

EC 0 0 0

:: ::: 98 99

:: ::: 64 65

:: ::: 1 1

100

69

1

7.7

Enfermedad Coronaria

Dato sID EDAD

.7

.7

.7

.7

7.7 -.7 77

77

77

77

Edad

77

77

Diagrama de dispersión Edad vs EC

77

ANALISIS DE REGRESION LOGISTICA Ejemplo. Asociación entre la enfermedad cardiovascular y la edad El gráfico anterior no permite visualizar claramente la distribución de la enfermedad cardiovascular en las distintas edades , por lo que se construyó una tabla de contingencia entre las edades agrupadas y la presencia o ausencia de la enfermedad. La última columna de la tabla contiene las prevalencias de ECV Tabla. Enfermedad cardiovascular (ECV) y grupo de edad Grupo de edad

Número de sujetos

20-29 30-34 35-39 40-44 45-49 50-54 55-59 60-69

10 15 12 15 13 8 17 10

Enfermedad Prevalencia coronaria de Ausente Presente enfermedad 9 13 9 10 7 3 4 2

1 2 3 5 6 5 13 8

0.10 0.13 0.25 0.33 0.46 0.63 0.76 0.80

ANALISIS DE REGRESION LOGISTICA Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

Prevalencia de EC

7 00 ,

Observar que la relación entre la prevalencia de EC y la edad no es lineal, sino más bien presenta la forma de una curva en forma de “ S” (curva sigmoidea).

00 , 00 , 00 , 7 000 - 0 777 - 7 000 - 0 777 - 7 777 - 7 777 - 7 777 - 7 777 - 7

Grupo de edad

Figura. Prevalencia de EC y edad.

ANALISIS DE REGRESION LOGISTICA Ejemplo. Asociación entre la enfermedad cardiovascular y la edad Definamos la variable respuesta como: La variable independiente es continua

7 ECV presente Y = 7 ECV ausente

X : Edad

Consideremos un modelo logístico β 7+ β7 X

e E ( Y / X= ) x π= ( x) = β 7+ 7+ e

β7 X

Este modelo constituye un mayor acercamiento a la realidad biológica, pues, tiene más sentido pensar que la influencia de un factor de riesgo sobre la probabilidad de tener una enfermedad se asemeja más a una curva de tipo sigmoidea que a una recta.

ANALISIS DE REGRESION LOGISTICA Variables explicativas Numéricas Cuando una variable explicativa es numérica se puede incorporar en el modelo tal cual. Ejemplo : Para introducir las variables explicativas : “Número de cigarros que fuma ” y “nivel de colesterol en mg/dl” en un modelo de predicción de enfermedad coronaria, definimos : X1 : Número de cigarros que fuma;

X2 : Nivel de colesterol en mg/dl

ANALISIS DE REGRESION LOGISTICA Variables explicativas categóricas Cuando una variable explicativa es categórica se transforma definiendo variables artificiales. Por ejemplo, en el modelo de predicción de enfermedad coronaria, se desea introducir las variables explicativas : X1 : Hábito de fumar X2 : Nivel de colesterol

7 Fuma X7=  7 No fuma

7 Elevado X 7=  7 Normal

ANALISIS DE REGRESION LOGISTICA Variables explicativas categóricas politómicas Cuando una variable explicativa es categórica con más de dos categorías se transforma definiendo variables artificiales. Si el número de categorías es L se fija una de ellas como referencia y se define L-1 variables artificiales Ejemplo : Masa corporal (peso/talla2) medido con tres categorías (L=3).  Normal  Masa corporal= Sobrepeso  Obesidad 

Se fijará como referencia la categoría “normal” y se construirán 2 variables artificiales 7 Sobrepeso X 7=  7 Normal

7 Obesidad X 7=  7 Normal

ANALISIS ModeloDE deREGRESION regresión LOGISTICA logística múltiple El modelo de regresión logística puede extenderse para k variables explicativas Xk y se denomina modelo de regresión logística múltiple. x +...+ β k xk e β7+ β77 E (Y / X 7= x7,.... X k = xk ) = π ( X ) = β 7+ β77 x + ...+ β k xk 7+ e

El modelo supone que : 1.

Las observaciones de la variable respuesta (Yi) : i=1,2,…,n) independientes entre si.

2.

La distribución de la respuesta es Yi∼ B(πi) ; (Bernoulli)

3.

Las variables explicativas (X1, X2,…,XK) son independientes entre si.

4.

V(Yi) = πi(1- π i);

i=1,2,...,n

para

i=1,2,...,n

(Varianzas no son constantes.

son

ANALISIS ModeloDE deREGRESION regresión LOGISTICA logística múltiple Siguiendo la lógica del modelo de regresión lineal, la relación entre el predictor y la respuesta debe ser lineal, por lo que se necesita una transformación que permita expresar el modelo como una relación lineal entre los dos miembros de la igualdad. Se propone una transformación denominada, “transformación logit” .

 π (X )  logit(π ( X )) = ln   = β 7+ β 7x 7+ ...+ β kx k  7− π ( X )  Esta transformación consiste en dividir la proporción de éxitos, π(x), que puede ser una prevalencia, entre uno menos la proporción de éxitos, 1- π(x) y aplicarle el logaritmo a este cociente.

ANALISIS DE REGRESION LOGISTICA

Estimación de parámetros



Se podrían utilizar métodos numéricos de optimización para calcular los estimadores del vector de parámetros β por el método de máxima verosimilitud).



Dado que el modelo de regresión logística es un miembro de la familia de modelos lineales generalizados, la estimación de los parámetros se realizará por el método de mínimos cuadrados , iterativamente reponderados.



El procedimiento más utilizado para realizar la estimación es el método score de Fisher el cual se basa en la función score obtenida a partir de la función de verosimilitud ( Nelder y Wedderburn (1972)).

ANALISIS DE REGRESION LOGISTICA

Estimación de parámetros

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad Variables en la ecuación Paso a 7

edad Constante

B ,777 -7777 ,

Sig. Exp(B) ,777 00 , 00 ,777 ,777

a. Variable(s) introducida(s) en el paso7 : edad.

El modelo ajustado es:

 πˆ ( x ) ˆ ln  = β 7 + ˆβx7  7− πˆ ( x ) 

77 = −7. 7 7 7 +7. 7 edad

Aplicándole la transformación inversa − 77 . 77 77 +. 77 edad

e πˆ ( x ) = − 77 . 77 77 +. 77 edad 7+ e

Los coeficientes del modelo no tienen una interpretación directa

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados Para facilitar la interpretación de los coeficientes del modelo consideremos un modelo con una sola variable explicativa numérica:  El valor estimado para una edad x será :

 πˆ ( x )  ln  = ηˆ i x ( ˆ )=o β 7ˆ +x β  7− πˆ ( x ) 

Ventaja (Odds) para x

 El valor ajustado para una edad x +1 valor de será :

 πˆ ( x + 7) ln  = ηˆ i )  7− πˆ ( x +7

 ˆ xi ( )=o β7ˆ 

+7 xβ (

Ventaja (Odds) +) para (x+1)

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados La diferencia de ventajas (odds)

ηˆ ( x + 7) − ηˆ ( x ) = ln(Ventaja( x 7 +) −ln(Ventaja( x ) ˆ7 = β  Ventaja(x + 7)  ˆ = ln   β=7  Ventaja(x )  Aplicando el antilogaritmo

OREstimado =

Ventaja(x + 7) Odds (x +7) = Ventaja(x ) Odds (x )

βˆ7

=e

El OR se puede interpretar como el incremento en la “chance” de tener el evento dado que un individuo tiene un valor de la variable x+1 comparado con la chance de un individuo que tiene un valor x.

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados Ejemplo

ηˆ ( x + 7) − ηˆ ( x ) = ln(Ventaja( x 7 +) −ln(Ventaja( x ) ˆ7 = β  Ventaja(x + 7)  ˆ = ln   β=7  Ventaja(x )  Aplicando el antilogaritmo

OREstimado =

Ventaja(x + 7) Odds (x +7) = Ventaja(x ) Odds (x )

βˆ7

=e

El OR se puede interpretar como el incremento en la “chance” de tener el evento dado que un individuo tiene un valor de la variable x+1 comparado con la chance de un individuo que tiene un valor x.

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados Ejemplo:Asociación entre la enfermedad Ejemplo:Asociación entre la enfermedad

cardiovascular y la edad

La ecuación ajustada es: . 77 77 +. 77 E dad e− 77 πˆ ( x ) = . 77 77 +. 77 Edad 7+ e− 77 Calculamos la razón de ventajas Ventaja(x + 7) Odds (x +7) OREstimado = = Ventaja(x ) Odds (x )

77 . 77

=e

00 . =00

El OR estimado indica que una persona con (x+1) años de edad tiene 1.117 veces más “chance” (posibilidad o ventaja) de presentar enfermedad coronaria s comparado con otra persona con edad x. O, por cada año adicional en la edad de las personas , el “riesgo” estimado de tener enfermedad coronaria es 1.117

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF