Analisis de La Regresion (Teoria)

March 21, 2017 | Author: Jonier Holguin | Category: N/A
Share Embed Donate


Short Description

Download Analisis de La Regresion (Teoria)...

Description

Master Intervención Psicosocial

Análisis de la regresión

Modelos de análisis estadístico

I. Conceptos básicos. II. Regresión múltiple

Parte I. Conceptos básicos

Análisis estadístico En un sentido amplio, se refiere a todos los métodos que describen las relaciones que se dan entre diversas variables o dimensiones de variación.

Modelos de análisis estadístico y diseño de estudio

Conceptos básicos  Datos: observaciones realizadas de los individuos o grupos de individuos  Escalas de medida: no métricas (nominales y ordinales) y métricas (intervalos y de razón)  Diseños: estrategias de recogida de datos  Estrategia del diseño: transversal o longitudinal  Modelos de análisis: sistemas o ecuaciones que permiten inferir el tipo de relación entre los datos  Clases de relaciones: asociativas y causales

A propósito de los datos (1)

Elaboración de datos

Observación directa

Escala de medida

Dato científico o valor numérico

La conversión de una observación directa en un dato científico se realiza mediante la aplicación de una adecuada escala de medida.

Reunión de datos Sistemas de reunión de datos a) Tablas

b) Gráficos

Tablas 

Las tablas se usan en los informes científicos para resumir los datos u otra información que no puede ser presentada de forma conveniente en la narrativa del texto.

Acerca de las tablas Las tablas deben tener un título que informe claramente sobre su contenido como por ejemplo preferencias del partido político. Las tablas estadísticas deberían informar también sobre el número de observaciones que se incluyen (frecuencia). La parte superior de la columna del lado izquierdo de la tabla es referida como título de filas e informa sobre el contenido de las fila. El cuerpo de la tabla contiene los datos de interés. En el ejemplo propuesto se muestra el número de individuos que prefieren un partido político. ..//..

Las tablas que se refieren a una sola variable son conocidas por representaciones univariadas y las que informan sobre dos variables, representaciones bivariadas. En la representaciones bivariadas una variables está asociada a las filas y la otra a las columnas y se conocen, también, por tablas de contingencia. Ejemplo de tabla bivariada que relaciona preferencia de un partido político y afiliación religiosa (en paréntesis están los porcentajes).

Ejemplos (tablas)

Ejemplos (tablas)

Gráficos 

Con los gráficos se consigue una representación visual de los datos, por lo que es un procedimiento útil a la investigación. Los gráficos captan mejor la atención del lector, permite clarificar los resultados y facilitar su interpretación

Histograma de frecuencias o gráfico de barras El histograma de frecuencias es un gráfico que muestra la distribución de frecuencias de una variable de intervalo. El eje horizontal del histograma o gráfico de barras presenta los intervalos y el eje vertical la cantidad de puntuaciones de cada intervalo (frecuencia). La altura de la barra indica la frecuencia de casos de cada categoría. El gráfico siguiente muestra la cantidad de amigos reportados por estudiantes de un College americano. ..//..

Cantidad de amigos reportados por estudiantes de un College

En el segundo ejemplo, se muestra un gráfico de barras sobre el efecto de dos drogas antiansiolíticas. Se trata de una escala nominal y la diferencia entre el primer y segundo panel estriba en la forma de representar las unidades en el eje vertical (unidades pequeñas en el primer panel y punto cero y unidades grandes en el segundo). Nótese que la gran diferencia entre las dos drogas que se observa en el primer panel y que desaparece en la segunda representación.

Efectos de dos psicofármacos sobre la ansiedad

Polígono de frecuencias Es una forma alternativa de representa el histograma de frecuencias. Así, en lugar de barras se utilizan líneas que conectan las frecuencias de los intervalos de clase. En el ejemplo siguiente se muestra la misma información sobre la cantidad de amigos, pero utilizando el sistema de líneas y no de barras. De igual modo, se tiene el gráfico de la cantidad de divorcios al aprobarse correspondiente ley en el Estado de Nebraska.

Cantidad de amigos reportados por estudiantes de un College

Cantidad de divorcios antes y después de su promulgación en el Estado de Nebraska

Escalas de medida y datos (2)

Cuantificación de las variables Las variables se cuantifican al asignar valores numéricos a los atributos o características de los individuos, objetos y hechos de acuerdo a reglas. El proceso de asignación de los números de acuerdo a reglas se denomina medida.

Escalas de medida  Las reglas particulares de asignación de números a las variables se definen como escalas de medida. Clasificación: Nominal Ordinal débiles Escalas De intervalo De razón fuertes

Escalas de medida Nominal

1 = varón

2 = hembra

Ordinal 1

2

3

De intervalo 15

16 17

18

19

20 21 22

3

4

5

23

De razón 0

1

2

6

7

8

Ejemplos de escalas Nominal los valores sólo representan categorías o nombres (género, raza, religión, etc.) Ordinal los valores representan el orden en función del grado como actitud, preferencia, etc. De intervalo la distancia entre los valores se mantiene constante como la temperatura, respuestas correctas, etc. De razón cuando además de la constancia del intervalo hay un valor cero que coincide con la ausencia del atributo.

Escalas y naturaleza de los datos Escala Nominal Ordinal De intervalo De razón

Tipo

Dato

Cualitativa No-paramétrico Cuantitativa No-paramétrico Cuantitativa discreta Paramétrico Cuantitativa continua Paramétrico

Naturaleza de los datos y prueba estadística Datos de escala

Prueba estadística

Nominal Ordinal

Prueba no paramétrica

De intervalo De razón

Prueba no paramétrica y paramétrica

Variable dependiente

Datos métricos o gaussianos

Datos no métricos o no gaussianos

En torno a los diseños (3)

Concepto de diseño El diseño es una estrategia particular de recogida de datos y es función de los objetivos o hipótesis propuestos. Los diseños son transversales y longitudinales, según la no presencia o presencia de la dimensión temporal en el estudio.

A modo de resumen ¿Cuál es la relación entre diseño (estudio) matriz de datos y modelo de análisis? ¿Cuál es la estructura de cualquier investigación científica?

Estructura de la investigación en ciencias sociales Diseño

Datos

Modelo análisis

Problema

Estadístico

Hipótesis

Estimación

Variables

Inferencia Modelo de escala

A modo de resumen Se ha visto la secuencia entre las tres fases o momentos de una investigación: diseño, datos y análisis. Es importante conocer la estructura del diseño, así como los distintos procedimientos o tipos de investigación

Estructura del diseño (4)

Tipología del diseño de investigación Diseños observacionales Diseños correlaciones o predictivos (estudios de encuesta) Diseños cuasi-experimentales Diseños experimentales

Naturaleza de los datos (variable dependiente) Datos métricos o cuantitativos distribución gaussiana o normal)

(de

Datos no métricos o categóricos (de distribución no-gaussiana)

Estrategia del diseño y modelo de análisis Diseños experimentales y cuasiexperimentales

Diseño

Datos cuantitativos ANOVA

AR

Estrategia

Transversal

Longitudinal

Grupos paralelos

Medidas repetidas

Factorial

Cross-over

Datos cualitativos

MANOVA Medidas repetidas

Antes-después Cohortes

Factorial mixto

Split-plot

TC

Modelo log-lineal

Regresión logística

Diseños no experimentales En el contexto no experimental (experimento verdadero y cuasiexperimentales) los diseños suelen ser observacionales y correlacionales. Los diseños correlacionales se basan en el análisis de múltiples variables con el propósito de estimar la magnitud de cambio entre ellas.

Sigue… El objetivo es poder predecir la variable dependiente a partir de la o las variables predictoras o independientes. También se pretende explicar la proporción de variación de la variable dependiente por la o las variables independientes.

Modelos de análisis estadísticos (5)

¡Cuestión! Una vez recogidos los datos, ¿qué hacer con ellos? A esta cuestión cabe responder lo siguiente: los datos se analizan de acuerdo con modelos estadísticos adecuados a fin de derivar consecuencias teóricamente interpretables; es decir, se obtienen resultados que han de ser interpretados.

El modelo lineal general

Modelo estadístico general

Y = f(X) + g(E)

V.Dep.

Parte fija

Parte aleatoria

Concepto El modelo estadístico, o ecuación de carácter lineal, asume que una observación Y es el resultado de la combinación aditiva de alguna función f de variables fijas y de alguna función g de componentes aleatorios, y que tanto f como g pueden tomar parámetros conocidos o desconocidos. ..//..

continuación Considerada esta ecuación como un modelo estadístico general, se tiene que cualquier observación es la suma de dos partes o componentes: una parte fija o determinista, f(X), y una parte aleatoria desconocida, g(E).

Clases de relaciones entre variables o hipótesis (6)

Clases de hipótesis Asociativa Hipótesis Causal

Hipótesis asociativa

X

Y

Los valores de la variable X covarían con los valores de la variable Y

Ejemplos (hipótesis asociativas) a) Hay una correlación entre el estilo de dirección y la moral de los empleados b) La visualización de los dibujos animados está asociado con el comportamiento agresivo de los niños. c) La percepción de culpabilidad o inocencia de los acusados está asociada a los argumentos legales. ..//..

d) El consumo de heroína es función de la clase social. e) El consumo de tabaco está positivamente relacionado con el nivel de alerta en sujetos humanos. g) Los niños sensibles al ritmo progresan más en el aprendizaje de lectura.

Hipótesis causal

X

Y

Los valores de la variable X determinan los valores de la variable Y

Ejemplos (hipótesis causales) a) Leer dos veces una lista de ítems favorece su recuerdo. b) La intensidad de un estímulo determina una respuesta de discriminación más rápida. c) A mayor incentivo más rápido es el aprendizaje de una actividad académica. ..//..

d) El castigo genera respuesta de evitación. e) La frustración es causa de conductas agresivas. f) El nivel de alerta aumenta la efectividad del rendimiento escolar. g) El ejercicio aumenta el rendimiento en una actividad motora.

Contextos de las hipótesis Hipótesis

Contexto científico

asociativas

correlacional

causales

de manipulación

Universo de las hipótesis

 Hipótesis de investigación  Hipótesis estadística

Hipótesis de investigación Se plantean por intereses teóricos o sustantivos Definen cómo se relacionan las variables Suelen ser asociativas y causales

Hipótesis estadísticas Las hipótesis estadísticas se establecen mediante características de las poblaciones de origen. Las poblaciones de origen están definidas por parámetros, que son valores de la distribución fijos pero desconocidos. Los parámetros poblacionales se asemejan a los estadísticos de muestra y se estiman a partir de estos últimos.

continuación Mediante los datos de muestra podemos aceptar o rechazar, con cierto grado de confianza determinado numéricamente, una hipótesis hecha sobre una población determinada. Tal proceso se conoce como contraste de hipótesis estadísticas o prueba de significación estadística.

Prueba de hipótesis estadística En investigación social, interesa más los parámetros asociados a la parte fija del modelo estadístico porque representan la magnitud de un cambio (grado de asociación entre las variables) o el efecto causal (el impacto de una variable sobre otra). De ahí, el propósito de cualquier prueba de hipótesis es determinar el nivel de significación de estos parámetros.

Hipótesis estadística sobre un parámetro individual

H0: parámetro = 0 H0 : β = 0

O bien, sobre los parámetros del modelo En el modelo de la regresión múltiple, se asume que los distintos coeficientes (pendientes) son cero:

H0: b1 = b2 = … = bp = 0

en consecuencia, Si se demuestra, como resultado de la prueba, que H0: bi = 0, entonces no hay relación lineal entre la variable Xi e Y. En caso contrario, se tiene

H1: bi ≠ 0, se infiere que hay una relación lineal entre ambas v ariables.

Hipótesis nula: H0 En teoría estadística se asume, inicialmente, la no significación de los parámetros, siendo este supuesto la hipótesis que se somete a prueba y es conocida por hipótesis nula (H0). Si se demuestra que este supuesto no es aceptable, se recurre a la hipótesis alternativa (H1) como la explicación más plausible de los datos.

Prueba de la hipótesis estadística o prueba de significación La prueba de significación estadística contrasta la hipótesis de nulidad con los datos del estudio. A partir del resultado de la prueba de significación, se procede a la toma de decisiones estadísticas. El resultado de la prueba consiste, de forma sucinta, en la aceptación o no de la hipótesis de nulidad que asume la norelación entre la variable independiente (predictora) y la variable dependiente (criterio). ..//..

Cabe matizar, no obstante, que entre la variable independiente y dependiente pueden darse relaciones de asociación o de causalidad, de modo que la posible implicación de una variable sobre otra depende del diseño utilizado (correlacional o experimental). La relación de asociación es la magnitud de cambio que se da entre dos variables, mientras que la relación de causalidad es el tamaño del impacto de una variable sobre otra.

Inferencia de la hipótesis de nulidad La inferencia de la hipótesis nulidad nos lleva a aceptar que la variable independiente no está relacionada con la dependiente (inferir su efecto). En caso contrario, se toma la decisión en favor de un modelo alternativo asumiendo, como explicación más plausible (no exenta de riesgo), el modelo de una relación efectiva entre ambas variables. ..//..

Al tomar esta decisión, se corre el riesgo de que sea falsa. Este riesgo se define, en teoría estadística, en términos de probabilidad y es conocido por nivel de significación. El nivel de significación describe el grado de credibilidad que merece la hipótesis considerada.

Errores en el rechazo o aceptación de H0 Situación actual de la H0 Decisión

Verdadera

Falsa

Rechazo H0

Error Tipo I

No error

Aceptación H0

No error

Error Tipo II

Error Tipo I y error Tipo II A) Error Tipo I o decisión positiva falsa se comete al rechazar la hipótesis de nulidad cuando es verdadera; es decir, cuando se toma una decisión positiva, en favor de la existencia de un efecto cuando en realidad no existe (falsa alarma). La probabilidad de cometer este error es el nivel de significación o valor α de la prueba estadística. ..//..

B) Error Tipo II o decisión negativa falsa se comete cuando la prueba lleva a la aceptación de una hipótesis de nulidad falsa. Se trata de no aceptar el hecho de un efecto de la variable independiente cuando en realidad ocurre. El error de Tipo II se define por la probabilidad β y está asociado inversamente con la probabilidad α y directamente con la potencia de la prueba.

Decisión estadística y error Resultado de la prueba estadística

Probabilidad de azar α = 0.05

Decisión

Significativo

p < α

NA(H0)

No significativo

p > α

A(H0)

H0

Inferencia de H0 Probabilidad de azar

1

Región de decisión

Si p > 0.05

A(H0)

Si p < 0.05

α = 0.05 NA(H0) 0

Sobre la discusión de los resultados

Concepto Las actividades propias de la discusión de los resultados son las siguientes: a) Inferir a partir de la prueba estadística las consecuencias de carácter teórico. b) Interpretar estas consecuencias a la luz de las hipótesis formuladas c) Establecer el alcance de los resultados mediante la generalización de los mismos

Inferencia teórica de la hipótesis Supongamos que la prueba de la hipótesis estadística nos lleva a no aceptar la hipótesis de nulidad. En este caso, se suele inferir, como la más adecuada, la hipótesis alternativa que coincide con la hipótesis de trabajo o investigación. Está claro que esta inferencia está sujeta a un riesgo de error (definido en términos de probabilidad).

Interpretación de los resultados Las actividades propias de la interpretación de los resultados son: a) Examinar y explicar los datos por la hipótesis de investigación. b) Extraer los contenidos científicamente significativos. c) Interpretar los resultados en términos de hipótesis alternativas o rivales.

Generalización de los resultados En la generalización se evalúa el alcance de los resultados, es decir, para qué poblaciones son vigentes los supuestos teóricos probados. La generalización de los resultados suele realizarse, por lo común, con la población de sujetos.

Parte II. Modelos de la regresión múltiple y otros

Regresión múltiple Modelos de la Regresión múltiple

No Lineal

Lineal

Lineal

Polinómica.

V. Dummy

Raíz Cuadrada

Interac.

Loglineal

Recíproca

Exponencial

Modelo lineal de la regresión múltiple El modelo lineal de la regresión es un caso especial Modelo Lineal General. De este modo, el componente determinista (parte fija del modelo) está formado por un conjunto de variables objeto de estudio en la investigación (predictores) y el componente aleatorio por un término de error (falta de ajuste). ..//..

El análisis de la regresión múltiple es utilizado cuando se pretende predecir una variable dependiente continua de un conjunto de variables independientes (predictores). Cuando la variable dependiente es dicotómica, se aplica, en este caso, la regresión logística . Las variables independientes usadas en la regresión pueden ser cuantitativas o cualitativas (dummy). ..//..

Por lo general, el análisis de la regresión múltiple utiliza variables que son propias de los contextos naturales, en oposición a variables que son manipuladas experimentalmente, aunque es posible utilizar la regresión con esta clase de variables. ..//..

Cabe tener en cuenta, por último, que con el análisis de la regresión (en sentido estricto) no pueden inferirse relaciones causales entre las variables. Por lo general, la terminología es la siguiente: X predice a Y, y no puede decirse que X causa a Y.

Modelo de la regresión simple

Y = b0 + b1X1 + e Observación

Parte fija (determinista)

Parte aleatoria (error)

Descripción En el modelo de la regresión simple, Y denota la variable dependiente (criterio), X la variable explicativa, ‘b0’ es el intercepto, ‘b1’ (la pendiente) denota el parámetro estimado de la variable X y ‘e’ es el término de error aleatoriamente distribuido. Constituye, con el modelo de la regresión múltiple, uno de los modelos más utilizados en ciencias sociales.

Representación del modelo en forma condensada Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 ............................... Yn = b0 + b1Xn1 + en y =





(forma matricial compacta)

Modelo de la regresión múltiple Y = b0 + b1X1 + b2X2 + ... + bpXp + e Forma simplificada: Y = b0 + ΣpbpXp + e

Modelo de la regresión múltiple Expresa un modelo de la regresión de p variables como una serie de ecuaciones. Las p ecuaciones agrupadas en un sistema nos dan el modelo lineal general familiar. Los coeficientes b son conocidos como coeficientes de la regresión parciales.

Representación del modelo en forma condensada Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1 Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2 ................................................................ Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en

y =

Xb



Modelos de la regresión de p variables

Yi  b1  b 2 X 2i  b 3 X 3i    b p X pi   i b1 b2bp i

- Intercepto - Coeficientes de pendiente parciales de la regresión - Término residual asociado con Ia ‘i’ observación

Supuestos del modelo de la regresión Normalidad Linealidad Homoscedasticidad Multicolinealidad y singularidad

Normalidad En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

En otras palabras… Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

Distribución normal de la variable edad

Linealidad Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

Definición de modelo lineal Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. Los modelos cuyos parámetros (b0,b1,…,bp) tienen exponentes con valores distintos de la unidad se denominan modelos no-lineales.

Línea de ajuste del peso a la altura libras/pulgadas Height vs Weight 80

Weight (lbs)

75

70

65

60

55 115

125

135

145

Height (ins)

155

165

175

Líneas de Regresión (línea de mejor ajuste) Regression line for r = - 1.00

Regression line for r =1.00 12 Dependent variable

Dependent variable

12 10 8 6 4 2

10 8 6 4 2 0

0 0

2

4

6

8

Independent variable

10

12

0

2

4

6

8

Independent variable

10

12

Cambio en la línea de mejor ajuste Regression line for r = 0.85

Regression line for r = 0.95 12 Dependent variable

Dependent variable

12 10 8 6 4 2

10 8 6 4 2 0

0 0

2

4

6

8

Independent variable

10

12

0

2

4

6

8

Independent variable

10

12

Los supuestos de normalidad, linealidad y homoscedasticidad pueden ser examinados al inspeccionar el gráfico de dispersión con los valores predichos de Y (Ŷ ) en el eje X y los residuales (Y-Ŷ) en el eje Y.

Homoscedasticidad

Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

Multicolinealidad La multicolinealidad significa que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independiente de si se mide con libras o kilos. ..//..

Cuando ocurre esto significa que al menos una de las variables predictoras es totalmente redundante con otras. Los indicadores estadísticos de este fenómeno es conocido por tolerancia.

Relación entre variables independientes De tolerancia: el grado en que un predictor puede ser predicho por otros predictores. La tolerancia es igual a 1 cuando las variables independientes no están relacionadas.

Singular: De igual modo, la relación es singular cuando un predictor es perfectamente predecible de otros predictores (tolerancia igual a cero).

Resumen supuestos del modelo  Normalidad - Y valores son normalmente distribuidos por cada X - La distribución de probabilidad del error debe ser normal

 Homoscedasticidad (variancia constante) E(σi2)

Sigue… Independencia de errores E(eiej)=0 (i ≠ j) Linealidad Las variables independientes son medidas sin error No debe darse una relación lineal exacta entre cualquier subconjunto de variables explicativas (perfecta multicolinialidad)

Otros modelos

Modelos con variables dummy (categóricas) y de interacción

Variables dummy Las variables ‘dummy’ (ficticias) se refieren a las dimensiones en que se tienen en cuenta dos valores o categorías. Por lo general, se utilizan los valores 0 y 1 para representar una categoría u otra de la variable (por ejemplo género).

Diseño experimental En el diseño experimental, las variables independientes suelen ser categóricas y, a veces, dummy. Suelen recibir el nombre de variables de tratamiento. El objetivo es comparar las medidas de los grupos de tratamiento. Se utiliza el modelo estadístico ANOVA.

Modelos con componentes no aditivos o interactivos

Y = b0 + b1X1 + b2X2 + b12X1X2 + e

Y = b0 + Σj bjXj + ΣjΣk bjkXjXk + e

Modelos no lineales Modelos cuyas variables tienen exponentes, como por ejemplo, los modelos polinómicos, exponenciales, etc.

Modelos polinómicos no lineales

Y = b0 + b1X1 + b2X1² + ... + bkX1k + e

Modelo de dos variables, k = 2 Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² + b12X1X2 + e Forma simplificada: Y = b0 + Σj bjXj + Σj bjjXj² + ΣjΣk bjkXjXk + e

¡Cuestión! Hemos presentado un conjunto de modelos estadísticos basados en la regresión simple y múltiple (lineal y no lineal). La cuestión que se nos plantea es la siguiente: ¿Dados unos datos, cómo se procede para ajustar un modelo estadístico?

Proceso de ajuste del modelo estadístico Selección del modelo Estimación de parámetros

Inferencia estadística

Pasos para el ajuste

Selección (1)

Selección del modelo El modelo de la regresión se selecciona teniendo en cuenta: a) la naturaleza de la variable dependiente b) cantidad de variables independientes o explicativas (su estatus teórico) ..//..

c) Si la variable dependiente es cuantitativa de distribución normal, se aplica la regresión lineal. Si la variable dependiente es categórica, entonces la alternativa es la regresión logística. d) Cuando se tiene una sola variable independiente, el modelo de la regresión es simple. Con dos o más variables explicativas el modelo de la regresión es múltiple.

Estimación de parámetros (2)

Parámetros del modelo Sea el modelo: Yi = bo + b1X1 + b2X2+ e Los parámetros a estimar son: b0 = intercepto o constante b1 = efecto asociado a la primera variable X b2 = efecto asociado a la segunda variable X 2e = variancia del error o residual ..//..

b1 se interpreta como un cambio en Y por 1 unidad de cambio de X1, siendo X2 constante. Este enunciado no es muy claro cuando X1 y X2 no son independientes. Malentendido 1: ‘bj’ siempre mide el efecto de Xj sobre E(Y), independiente de otras variables X. Malentendido 2: un valor ‘b’ significativo estadísticamente establece una relación de causa y efecto entre X e Y.

Resumen: interpretación de los parámetros o coeficientes Constante ‘b0’: Intercepto o valor promedio de Y cuando todas las Xj = 0.  Pendiente ‘bj’: Cambios estimados de Y por cada 1 unidad de cambio en Xj. Siendo todas las otras variables constantes.

¡Cuestión! Dada la importancia que tienen, para el ajuste el modelo y la interpretación de los resultados, los parámetros o coeficientes, cabe distinguir entre los coeficientes ‘b’ (no estandarizados) y los coeficientes ‘b’ (beta o estandarizados). ..//..

El coeficiente ‘b’ es el cambio esperado en Y por cada unidad de cambio en Xj, cuando el resto de variables están controladas. El coeficiente ‘b’ es el cambio esperado en Y en unidades de desviación estándar por cada unidad estándar de cambio en Xj, cuando el resto de variables están controladas.

A propósito de la interpretación de los coeficientes Los parámetros ‘b’ tienen la ventaja de que se interpretan en unidades de medida originales. Los coeficientes ‘b’ son directamente comparables en cuanto a su importancia en la variable Y. No pueden ser interpretados en la escala de medida original. ..//..

Ejemplo de ‘b’ El valor beta es una medida de la intensidad con cada predictor influye en la variable criterio. Es medida en unidades de desviación estándar. Así, un valor beta de 2.5 indica que un cambio en una unidad estándar del predictor resulta un cambio de 2.5 unidades estándar en la variable criterio.

Inferencia y significación estadística (3)

Pasos a seguir en la evaluación del modelo Una vez se ha especificado el modelo de la regresión, se necesita conocer en qué medida se ajusta a los datos. En primer lugar, probaremos el ajuste del modelo global de la regresión. Luego, probamos la significación de cada variable independiente.

Evaluación del modelo de la regresión múltiple

Medidas de variación Pruebas de significación

Medidas de variación

Coeficiente de determinación múltiple (R2) Proporción de variación en Y ‘explicada’ por todas las variables X tomadas en su conjunto. Jamás decrece cuando una nueva variable X es introducida en el modelo. La prueba de R2 = 0 expresa que todas las variables X, de forma conjunta, no explican la variación de Y.

Prueba de significación global del modelo

Ejemplo práctico (datos simulados) Supongamos que se pretende estudiar el impacto que sobre un Cuestionario de Satisfacción Vital tienen las siguientes variables: • Edad • Ingresos • Cantidad hijos • Salud

Pruebas de significación En el contexto de la regresión pueden seguirse, como se ha indicado, dos estrategias de prueba: a) Prueba del modelo completo, con todos los coeficientes. Para ello se usa el coeficiente de determinación (R2) mediante el estadístico F. b) Prueba de los coeficientes individuales de la regresión con el estadístico t.

c) Cabe también la posibilidad de probar un subconjunto de variables independientes o modelos parciales.

Estadísticos para la prueba del modelo total (a) Para conocer el grado de ajuste del modelo se utilizan dos estadísticos: R2 (coeficiente de determinación) y R2 ajustado. R2: indica la proporción de variación en la variable criterio (y) explicada por el modelo. En suma, es un medida de la bondad de la predicción de la variable criterio por las variables predictoras. ..//..

R2 ajustado: el coeficiente de determinación tiende, en cierto modo, a sobre-estimar la bondad del modelo cuando se aplica al mundo real. Por ello, se calcula el coeficiente de determinación ajustado que tiene en cuenta el número de variables del modelo y el número de observaciones (participantes) en que se basa el modelo. Inconvenientes de R2: no sirve para comparar modelos.

R2 ajustado Dicho de forma más simple: El coeficiente de determinación R2 es sensitivo a la magnitud de la muestra (n) y a la cantidad de variables independientes o regresores (p) con muestras pequeñas. Si p es grande en relación a n, el modelo tiende a ajustarse muy bien. Una medida mejor de bondad de ajuste es calculada como sigue:

cálculo • • •

n -1 R2 ajustado= 1 - (--------------)(1-R2) n–p–1

Ventajas: refleja el tamaño de muestra y la cantidad de variables independientes; sirve para comparar modelos

Coeficiente de determinación múltiple (R2) Proporción de variación en Y ‘explicada’ por todas las variables X tomadas conjuntamente. El estadístico R2 mide la contribución total de las X’s. Variación explicada SC yy  SCE SCE R    1 Variación total SC yy SC yy 2

Prueba de R2 Se ha señalado que cuando se prueban todos los coeficientes de la regresión, se utiliza el coeficiente de determinación. En este caso, se prueba si hay una relación lineal entre la variable criterio y las variables independientes o predictores del modelo.

Hipótesis a probar:

H0: b1=… bk= 0 H1: al menos un parámetro es no cero, bk ≠ 0 Puesto que no hay un forma de distribución de probabilidad para el estadístico R2, se utiliza en su lugar el estadístico F (ANOVA aplicado a la regresión).

¿Qué tipo de prueba ha de usarse? La distribución utilizada se denomina distribución de Fisher. El estadístico F es utilizado con esta

Curva de la distribución de F

Area = 

F,v ,v 1

2

reject H0

Prueba de significación total Ejemplo hipotético •H0: b1 = b2 = … = bp = 0 •H1: Al menos una bI  0  = .05 •gl= 4 y 14 •Valor crítico:

Prueba estadística:

F 

23.751

Decisión: Rechazo con  = 0.05 Conclusión:  = 0.05

0

3.11

F

Hay evidencia de que al menos una variable independiente afecta a Y

Prueba de los coeficientes de la regresión individuales (b)  Siguiendo los pasos del programa SPSS: • 1.Se calculan los coeficientes no estandarizados • 2. Se calcula el error estándar de estos coeficientes • 3. Se calculan los coeficientes beta • 4. Se calcula la t de los coeficientes no estandarizados • 5. Se obtiene la significación estadística de las t

Significación individual de los coeficientes o parámetros no estandarizados

Pruebas de hipótesis de los parámetros estimados ‘b’  Prueba de una cola H0: bj = 0 H1: bj > 0, o bj < 0

Prueba de dos colas H0: bj = 0 H1: bj ≠ 0

La prueba es de una cola o dos según se tenga una hipótesis unidireccional o bidireccional (no importan que el valor del estadístico sea mayor o menor que cero). ..//..

  Prueba estadística: t  b / s  bj Se utiliza la t de Student: el valor estimado del parámetro partido por su error estándar.  Región de rechazo de H0: to > t (o to < t)

|to| > t/2

Sea, por ejemplo, el siguiente modelo

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + e

Prueba de H0: bi = 0 H0: b1 = 0 (X1 no contribuye) H1: b1 ≠ 0 (X1 contribuye) H0: b2 = 0 (X2 no contribuye) H1: b2 ≠ 0 (X2 contribuye) H0: b3 = 0 (X3 no contribuye) H1: b3 ≠ 0 (X3 contribuye)

Sigue…

H0: b4 = 0 (X4 no contribuye) H1: b4 ≠ 0 (X4 contribuye)

Pruebas estadísticas . b1

t= s b1

rechazar Ho if |t| > t ./2,n-k-1

(1- ) 100% Intervalo de confianza

bi - t/2,n-k-1sbi

to

bi + t/2,n-k-1sbi

Significación coeficientes individuales El único parámetro estadísticamente significativo es el asociado a la Variable Ingresos.

t Test : Ejemplo hipotético Test con un  = 0.05. •H0: b2 = 0

Prueba estadística:

•H1: b2  0

t Test Statistic = 3.491 Decisión: Reject H0 at  = 0.05

•gl = 14 Valores críticos: Rechazo H0

.025 -2.145

Rechazo H0

.025 0 2.145

Conclusión: Hay evidencia de un efecto significativo.

Z

Intervalos de confianza  Algunos autores prefieren los intervalos de confianza a la prueba t.  El Intervalo de confianza se refiere al intervalo que, a un cierto nivel de confianza, contiene al parámetro estimando.  Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro.

El cálculo es como sigue: b ± t(/2, g.l.)sb

Donde t es el valor de t tabulado para /2, con los grados de libertad asociados a la SCR (g.l. de la Suma de Cuadrados Residual del ANOVA) y sb el error estándar de b.

 El IC se representa por (1-)100%. Calculemos el intervalo de confianza del 95% para un valor estimado de b = 1.18 y sb = .28. Entrando en las tablas de t para un alfa de .05/2 =.025 y, por ejemplo, con 18 g.l. (t =2.101). El intervalo de confinaza del 95% es 1.18 ± (2.101)(.28) = .59 y 1.77

Con el intervalo de confianza, la prueba de la hipótesis nula, b = 0, viene a ser un caso especial. Con el ejemplo presente, 0 no está incluido en el rango y la hipótesis de b = 0 es por lo tanto rechazada con un  = 0.05.

Prueba de significación de modelos parciales

Prueba de modelos parciales (c)  Se examina la contribución de un conjunto de variables en relación a Y.  La forma como se analiza la específica contribución de las variables define el procedimiento o método a seguir.  Hay varios procedimientos que permiten evaluar la contribución particular de cada variable o predictor.

Sigue…

Hipótesis nula: La variables del conjunto no mejoran significativamente el modelo, cuando todas las otras son incluidas. Los modelos deben estimarse por separado

Prueba estadística de partes del modelo Test H0: b1 = 0 en un modelo de 2 variables

SSR ( X 1 and X 2 ) - SSR ( X 2 ) F MSE ( X 1 and X 2 ) De la tabla ANOVA de la regresión para

Yi  b0  b1X 1i  b2 X 2i

De la tabla ANOVA de la regresión para

Yi  b0  b2 X 2i

Prueba estadística de partes del modelo Test H0: b1= b 2 = 0 en un modelo de 3 variables

( SSR( X 1 , X 2 , X 3 ) - SSR( X 3 ))/k F MSE ( X 1 , X 2 , X 3 ) De la tabla ANOVA de la regresión para

Yˆi  b0  b1 X1i  b2 X 2i  b3 X 3i

De la tabla ANOVA de la regresión para

Yˆi  b0  b3 X 3i

Procedimientos de selección de variables

Tipos de procedimientos

Procedimiento enter o global

Jerárquico (de acuerdo a un orden)

Método simultáneo (Enter) En el método simultáneo, denominado en el SPSS por ENTER, el investigador define el conjunto de predictores que forman el modelo. A continuación se evalúa la capacidad de este modelo de predecir la variable criterio. Se trata, en definitiva, de probar el modelo global o completo.

Métodos jerárquicos de selección de variables En los métodos jerárquicos las variables entran en el modelo de acuerdo con un orden determinado. El orden depende de las consideraciones teóricas o de resultados previos. Desde la perspectiva estadística, el orden de entrada de las variables en el modelo viene determinado por la fuerza de su correlación con la variable criterio.

En la actualidad hay diferentes versiones de este método: stepwise selection, forward selection, backward selection y remove.

Stepwise selection Cada predictor o variable independiente es entrando de forma secuencial y su valor es evaluado. Si añadir el predictor contribuye al modelo, entonces es retenido y el resto de variables son entonces reevaluadas para probar si siguen contribuyendo al éxito del modelo. Si no contribuyen significativamente son eliminadas.

Sigue… A cada paso del proceso, se observa si la variable menos significativa del modelo puede ser removida debido que a su valor F, FMIN, es menor que el especificado o valor F por defecto.

Sigue… Si ninguna variable puede ser removida, se verifica si la más significativa que no está en el modelo puede ser añadida dado que su valor F, FMAX, es el mayor que el especificado o por defecto. El procedimiento se para cuando no se puede añadir o eliminar ninguna otra variable.

Forward selection Al igual que el procedimiento stepwise, las variables son entradas secuencialmente en el modelo. La primera variable considerada para entrar en el modelo es la que tiene una mayor correlación positiva o negativa con la variable dependiente.

Sigue… La variable es entrada en el modelo, sólo cuando satisface el criterio de entrada (tiene un valor F mayor que el criterio). El procedimiento se para cuando no hay más variables que se ajusten el criterio de entrada.

Backward selection Se empieza con todas las variables del modelo y se elimina la menos útil a un tiempo. Una variable, cuyo valor p asociado a la F parcial es mayor que un valor prescrito, PMIN, es la menos útil y ha de ser eliminada del modelo. El proceso continúa hasta que no puede eliminarse ninguna otra variable de acuerdo con el criterio propuesto.

Sigue… Una vez eliminada la variable del modelo, no puede ser entrada de nuevo en un paso posterior.

Remove Es un procedimiento de selección de variables en que se eliminan todas las variables de un bloque en un solo paso.

A modo de resumen Finalizada la prueba de significación del modelo o de los coeficientes, es posible llevar a cabo un análisis de residuales de forma gráfica (mediante los correspondientes plots) o bien utilizando la prueba de Durbin-Watson.

Verificación de los supuestos del modelo

Multicolinealidad

Estadísticos de colinealidad Tolerancia y VIF (variancia inflation factors)  Tolerancia: Una primera medida para para probar la colinealidad o no dependencia lineal entre los regresores (Tp = 1 – Rp2).  Cuando tiene un valor máximo de 1, la variable no tiene ningún grado de colinealidad con las restantes, Un valor 0 indica que la variable es una combinación lineal perfecta de otros regresores. Es deseable que, en general, sea mayor a .40

Sigue…  VIF (variance inflation factor): a medida que es mayor la multicolinealidad, en un de los regresores, la variancia de su coeficiente comienza a crecer. La multicolinealidad infla la variancia del coeficiente (VIFp= 1/(1-Rxp2).  La VIF tomará un valor mínimo de 1 cuando no hay colinealidad y no tendrá límite superior en el caso de multicolinealidad.

Sigue.. En presencia de multicolinealidad, una solución lógica consiste en eliminar del modelo aquellas variables con más alto VIF (o más baja tolerancia).

Diagnósticos de colinealidad  Dimensiones: factores diferentes que se hallan en el conjunto de variables independientes.  Autovalores: los valores próximos a 0 indican colinealidad.  Índices de condición: raíz cuadrada (autovalormayor/autovalor). Valores por encima de 15 indican posibles problemas de colinealidad  Proporciones de variancia: proporción de la variancia de cada coeficiente de la regresión parcial bj que está explicada por cada factor.

Sigue… Proporciones de variancia: Hay problema de colinealidad si una dimensión (de índice de condición alto) explica gran cantidad de la variable de dos o más variables.

Resto de supuestos

Pruebas del resto de supuestos del modelo Prueba de la linealidad Pruebas de independencia

Prueba de homoscedasticidad Prueba de normalidad

Scatter- plot (gráfico de dispersión)  El scatter plot nos permite obtener respuesta a la siguientes cuestiones: 1. ¿Las variables X e Y están relacionadas? 2. ¿Las variables X e Y están linealmente relacionales? 3. ¿Las variables X e Y están relacionadas nolinealmente? 4. ¿La variación en el cambio de Y depende de X? 5. ¿Hay outliers (valores extremos o atípicos)?

Variables listadas en el SPSS  DEPENDEN : variable dependiente.  ZPRED: valores pronósticos tipificados; valores pronósticos divididos por su desviación estándar (media de 0 y desviación 1).  ZRESID: residuos tipificados.

Sigue…  DRESID: residuos eliminados; es decir, al efectuar los pronósticos se elimina de la ecuación el caso sobre el que se efectúa el pronóstico.  ADJPRED: pronósticos ajustados; es decir, valores pronosticados sin incluir el caso pronosticado.  SRESID: residuos estudentizados; divididos por su desviación estándar y se distribuyen según la t de Student.  SDRESID: residuos estudentizados

Interpretando los plots de valores predichos y residuales  Los plots de los valores predichos, observados y residuales son esenciales en determinar si el modelo ajustado satisface los ‘cuatro presupuestos de la regresión lineal: 1. Linealidad de la relación entre la variable dependiente e independientes. 2. Independencias o no autocorrelación de los errores. 3. Homoscedasticidad o variancia constante de los errores. 4. Normalidad de la distribución del error.

1. Linealidad  Se obtiene del plot de los valores observados y predichos versus la variable independiente. Si la relación no es lineal, la dispersión (scatter) de los puntos mostrará una desviación sistemática de la línea de regresión.  Con el modelo de la regresión múltiple es mejor generar un gráfico simple (plot) de los valores observados versus los valores predichos. Teóricamente, en un gráfico de observados vs. predichos los puntos deberían moverse entre torno a la línea recta diagonal.

Sigue… El gráfico de valores residuales vs. valores predichos es esencialmente el mismo que el anterior, a excepción de que la línea de referencia es horizontal más que de 45 grados.

2) Independencia Uno de los supuestos básicos del MRL (modelos de la regresión lineal) es la independencia entre los residuos. El estadístico de Durbin-Watson aporta información sobre el grado de independencia existente entre ellos

El estadístico de Durbin-Watson El estadístico de Durbin-Watson (DW) proporciona información sobre el grado de independencia entre los residuales. El estadístico DW varía entre 0 y 4, y toma el valor 2 cuando los residuales son independientes. Valores menores que 2 indica autocorrelación positiva. Podemos asumir independencia entre los residuales cuando DW toma valores entre 1.5 y 2.5

Residual Analysis: Autocorrelation 

Durbin-Watson Test for Autocorrelation  Statistic n

 (et  et 1 )2

d  t 2

n

 et2

t 1

 The statistic ranges in value from zero to four.  If successive values of the residuals are close together (positive autocorrelation), the statistic will be small.  If successive values are far apart (negative auto correlation), the statistic will be large.  A value of two indicates no autocorrelation.

Sigue.. El valor del residual se calcula por

ei = Yi - Ŷi

3) Homoscedasticidad En el cuadro de diálogo de Gráficos de la regresión lineal del SPSS, se obtienen una serie de variables listadas para obtener diferentes gráficos de dispersión:

Prueba de homoscedasticidad  Los valores ZRESID se trasladan al eje Y y los valores ZPRED al eje X.  La variación de los residuos debe ser uniforme en todo el rango de valores pronosticados; es decir, el tamaño de los residuos es independiente del tamaño de los pronósticos. Por lo tanto, el gráfico de dispersión no debe mostrar ninguna pauta de asociación entre los pronósticos y los residuos.

4) Prueba de normalidad A) Mediante el histograma de los residuos tipificados. La curva se construye con media 0 y un desviación típica de 1. B) Gráfico de probabilidad normal. En el eje de las abscisas se representa la probabilidad acumulada de cada residuo y en de las ordenadas la probabilidad acumulada teórica o esperada.

Sigue…  Teóricamente este gráfico debería ser una línea recta diagonal. Si los datos se inclinan hacia arriba o hacia abajo, indica una distribución asimétrica (sesgada).  Si el gráfico de probabilidad normal muestra una línea recta, es razonable asumir que los datos observados proceden de una distribución normal. Si los puntos se desvían de la línea recta, hay evidencia en contra de la distribución normal e independiente.

Correlaciones

Correlaciones Correlaciones de orden cero: Se presentan en la matriz de correlaciones simples entre todas las variables, incluyendo la variable de control. Se trata de la correlación ordinaria entre dos variables, no controlando ninguna (cero) otra variable.

Sigue… Correlación parcial: La correlación que hay entre dos variables después de remover la correlación debida a su asociación con otras variables. Es decir, la correlación entre la variable dependiente y una variable independiente cuando los efectos lineales de las otras variables independientes del modelo han sido removidos. Neutralizando su efecto sobre la dependiente e independiente.

Sigue…  Part Correlation (semiparcial). Es la posible relación entre un variable dependiente e independiente, controlando la relación que esta variable independiente pueda tener con otra u otras variables independientes. Se neutraliza los efectos lineales de una variable independiente del resto de variables independientes.  Está relacionada al cambio en R al cuadrado cuando una variable es añadida a la ecuación.  Es conocida, también, por correlación semiparcial.

Sigue…  El procedimiento de Correlaciones Parciales calcula los coeficientes de correlación parcial que describen la relación lineal entre dos variables mientras se controlan los efectos de una o más variables adicionales. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar perfectamente correlacionadas, pero si la relación es no linear, un coeficiente de correlación no es una estadístico apropiado para medir su asociación.

Fin parte teórica

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF