Medición en ciencias sociales y de la salud
Short Description
Psicometría...
Description
en ciencias sociales y de la salud
Medición
PROYECTO EDITORIAL:
Metodología de las Ciencias del Comportamiento y de la Salud
Directores:
Antonio Pardo Merino Miguel Ángel Ruiz Díaz
Medición
Francisco J. Abad • Julio Olea • Vicente Ponsoda • Carmen García
en ciencias sociales y de la salud
EDITORIAL
SINTESIS
Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado
Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A. © Francisco J. Abad, Julio Olea, Vicente Ponsoda y Carmen García
© EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34. 28015 Madrid Teléfono 91 593 20 98 http://www.sintesis.com ISBN:978-84-975672-7-5 ISBN: 978-84-995861-4-4 Depósito Legal: M. 5.521-2011 Impreso en España - Printed in Spain
Índice de contenidos Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Primera Parte 1. Introducción Psicometría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipos de tests y ámbitos de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.
Construcción de tests y análisis de ítems Diseño del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Construcción provisional del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuantificación de las respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Análisis de ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Corrección de los efectos del azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.
15 19
24 26 36 38 65 70
Modelo Clásico y fiabilidad Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Los supuestos fundamentales del Modelo Clásico. . . . . . . . . . . . . . . . . . . . . . . . . Descomposición de la varianza de las puntuaciones empíricas en un test . . . . . . . Concepto de formas paralelas y coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . Fórmula general de Spearman-Brown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aproximaciones a la fiabilidad y tipos de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . Fiabilidad como correlación entre formas paralelas. . . . . . . . . . . . . . . . . . . . . . . . Fiabilidad como estabilidad temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fiabilidad como consistencia interna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El error típico de medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formas de incrementar la fiabilidad de un test. . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente de fiabilidad y características de la muestra. . . . . . . . . . . . . . . . . . . . . Valores mínimos para los indicadores de fiabilidad. . . . . . . . . . . . . . . . . . . . . . . . Software para la Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75 76 77 81 83 87 91 94 95 97 106 111 113 114 115 117
8
Medición en Ciencias Sociales y de la Salud
4.
Introducción a la Teoría de la Respuesta al Ítem Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Limitaciones de la TCT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La Curva Característica del Ítem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelos de TRI para ítems dicotómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Supuestos de la TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La precisión de las puntuaciones en TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La Curva Característica del Test. . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ventajas y desventajas de los modelos de TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.
Concepto y evidencias de validez El concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Evidencias basadas en el contenido del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Evidencias basadas en la estructura interna del test. . . . . . . . . . . . . . . . . . . . . . . . . Evidencias basadas en la relación con otras variables. . . . . . . . . . . . . . . . . . . . . . . La evidencia convergente y discriminante. . . . . . . . . . . . . . . . . . . . . . . . . . . . Evidencia sobre la relación entre el test y algún criterio relevante. . . . . . . . . . Evidencias basadas en los procesos de respuesta a los ítems. . . . . . . . . . . . . . . . . Evidencias basadas en las consecuencias de la aplicación del test. . . . . . . . . . . . . Evolución histórica del concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.
123 124 125 127 135 138 146 148 153 154 155 157
161 163 163 164 170 171 171 177 195 199 201
Análisis Factorial Exploratorio Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visión general del AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La ecuación fundamental del modelo factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El AFE paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Decisiones sobre el método de extracción de factores. . . . . . . . . . . . . . . . . . . Selección del número de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El problema de la indeterminación factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos de rotación ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos de rotación oblicua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puntuaciones factoriales por el método de ponderación simple . . . . . . . . . . . . . . . Otras decisiones importantes en el AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros métodos de extracción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
205 206 209 210 220 220 223 232 235 238 241 242 246 246 249
Índice de contenidos Métodos adicionales para decidir el número de factores. . . . . . . . . . . . . . . . . El significado del término rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Análisis factorial de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El análisis factorial de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos alternativos para calcular las puntuaciones factoriales . . . . . Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.
252 254 256 259 263 267
Interpretación de las puntuaciones Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baremos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baremos cronológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baremos centiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baremos típicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baremos en la Teoría de la Respuesta al Ítem. . . . . . . . . . . .. . . . . . . . . . . . . . Otros métodos para dar significado a las puntuaciones. . . . . . . . . . . . . . . . . . . . . . El mapeo de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripción de cada nivel de desempeño. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puntos de corte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271 272 273 274 277 280 282 283 284 285 286 292
Segunda Parte 8.
Métodos alternativos para estimar el coeficiente de fiabilidad Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grados de equivalencia entre formas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades. . . . . Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems . Coeficiente de fiabilidad como límite inferior. . . . . . . . . . . . . . . . . . . . . . . . . Coeficientes de fiabilidad basados en el análisis factorial. . . . . . . . . . . . . . . . Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales. . . Testlets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.
293 294 297 299 301 304 310 313
Fiabilidad interjueces y medición del cambio Fiabilidad interjueces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente kappa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente de concordancia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente de correlación intraclase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente de correlación intraclase como un caso particular del coeficiente de generalizabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficientes de generalizabilidad para dos fuentes de error. . . . . . . . . . . . . . .
315 316 317 319 320 325
9
10
Medición en Ciencias Sociales y de la Salud Fiabilidad de las diferencias y medición del cambio. . . . . . . . . . . . . . . . . . . . . . . . Fiabilidad de las diferencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Significación clínica e indicadores de cambio fiable. . . . . . . . . . . . . . . . . . . . ¿Diferencias de las puntuaciones directas o diferencias en los rasgos latentes?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
330 331 333 338
10. Análisis Factorial Confirmatorio Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El AFC paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos del modelo de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Identificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Índices de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Re-especificación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelos confirmatorios multigrupo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . Malos usos de los modelos de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
341 342 343 344 351 356 361 374 376 379 379 380
11. TRI: procedimientos estadísticos Comprobación de supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Unidimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Independencia local. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Calibración de los ítems: método de estimación Máximo-Verosímil Marginal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación bayesiana modal a posteriori del nivel de rasgo (MAP). . . . . . . . Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP) y desviación típica posterior (PSD). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación bayesiana de los parámetros de los ítems. . . . . . . . . . . . . . . . . . . . Comprobación de la bondad de ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . Procedimientos de equiparación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . TRI: Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
385 385 387 391 391 393 396 397 400 402 408 408 410
12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El modelo de respuesta graduada (MRG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La puntuación esperada en el ítem y la Curva Característica del Test. . . . . . . . . . Supuestos de unidimensionalidad e independencia local. . . . . . . . . . . . . . . . . . . . Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419 420 423 424 429
Índice de contenidos Comprobación del ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comprobación del ajuste: métodos estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimación de θ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Función de información. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros modelos politómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 431 433 436 436 439 443
13. Funcionamiento diferencial de los ítems y adaptación de tests a otras culturas Sesgo, funcionamiento diferencial e impacto adverso. . . . . . . . . . . . . . . . . . . . . . . Evidencias externas de sesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funcionamiento diferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF uniforme y DIF no uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrategias para el estudio del funcionamiento diferencial. . . . . . . . . . . . . . . . Métodos basados en las puntuaciones directas. . . . . . . . . . . . . . . . . . . . . . Métodos basados en variables latentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Depuración de la prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Consideraciones finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Impacto adverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Adaptación de tests a otras culturas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos de traducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudios de equivalencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
447 448 449 451 452 452 458 464 464 465 468 469 469 470
14. Otras estrategias de validación El análisis de regresión lineal múltiple y la validez referida a un criterio. . . . . . . . Marco de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La correlación múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Los coeficientes de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Las pruebas de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multicolinealidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regresión por pasos (Stepwise). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Técnicas de análisis estadístico de las matrices MRMM. . . . . . . . . . . . . . . . . . . . . El estadístico “I” de Sawilowsky. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aproximación desde el análisis factorial confirmatorio. . . . . . . . . . . . . . . . . . La generalización de la validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Validez diagnóstica de las puntuaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Caso 1: Validez diagnóstica de las puntuaciones en un único test. . . . . . . . . . Caso 2: Validez diagnóstica de las puntuaciones en varios tests. . . . . . . . . . . .
475 475 477 480 486 487 489 493 494 494 495 502 504 505 508
15. Tests informatizados y otros formatos de tests Tests informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests fijos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests adaptativos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
512 512 515
12
Medición en Ciencias Sociales y de la Salud Aplicaciones a través de Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests basados en modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . Nuevos formatos para la prevención del falseamiento de respuestas. . . . . . . . . . . Detección del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prevención del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
523 524 525 526 527 530
Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
533
Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
551
Prólogo Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los autores para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?, ¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico manteniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En realidad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguientes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados temas que consideramos relevantes para una formación más elevada y que es difícil encontrar en otros de los buenos textos sobre Medición escritos en español. La primera parte del libro incluye 7 temas de lo que podríamos definir como Psicometría fundamental, pensados como los contenidos básicos para las asignaturas troncales de grado. ¿Qué es lo que consideramos como fundamental (podríamos calificarlo como “mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 créditos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamentales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el estudiante se encuentre capacitado para entender la información psicométrica básica que aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos además por que el estudiante se enfrente con problemas concretos de medición, maneje el software fundamental para el estudio psicométrico de un test y sea capaz de elaborar informes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntuaciones de los tests, así como de interpretar adecuadamente las asignadas mediante el baremo correspondiente. Con esta primera parte del libro pretendemos establecer las bases para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destrezas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras páginas de docencia.
14
Medición en Ciencias Sociales y de la Salud Los temas de la segunda parte, que podrían considerarse como la iniciación a una Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los que deben saber los estudiantes que quieran especializarse en temas de Metodología (en materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte pueden considerarse como extensiones y aplicaciones particulares de los descritos en la primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimientos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta segunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmatorio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así como otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determinadas aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de los planes de estudio de grado. Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro se describen los procedimientos básicos para realizar las estimaciones con diversos programas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio).
1
Introducción Psicometría Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la “psique”; hoy en día diremos mejor la medición de capacidades, atributos o características psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la formulación matemática para desarrollar teorías y modelos para la medición de variables psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e instrumentos para la mejor medición posible de dichas variables en cualquier contexto de especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológica, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimientos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propiedades psicométricas fundamentales que deberemos analizar. En general, el objeto de la medición son las personas, aunque también pueden serlo los grupos, las instituciones o estímulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de puntuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas características de otras o establecer diseños observacionales para efectuar determinados registros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a comprender la identidad y el sentido de la Psicometría como disciplina: 1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la medición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por
16
Medición en Ciencias Sociales y de la Salud Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmica, S = k log E, para describir la relación matemática entre un continuo estimular, E, y la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificultad que representa la medición de hechos mentales (sensaciones) y proponen varios métodos indirectos para su medición. Realizaban experimentos donde incrementaban progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían la sensación contando el número de veces que una persona percibía cambios en dicha estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emplean el tiempo de reacción y la cantidad de eventos recordados como medida de rendimiento en diversos procesos psicológicos (atención, memoria…). 2. El interés inicial por la medición de las diferencias individuales. A finales del siglo XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio de las diferencias individuales, tratando de estudiar las distribuciones de diversas mediciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía (entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la velocidad del movimiento de los astros. Además de medidas antropométricas, Galton empleó determinados instrumentos para medir la fuerza física o la capacidad de discriminación auditiva y visual; también le interesó medir los errores que cometían las personas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores, J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación táctil, dolor...). 3. El interés inicial por la medición de capacidades cognitivas superiores. En los albores del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que establezca procedimientos para diferenciar a los niños con deficiencia mental (que no son capaces de conseguir los objetivos escolares) de los que no tienen problemas intelectuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cognitivas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferente dificultad y contenido para las distintas edades (entre 3 y 15 años), lo que se considera que representa el primer intento de adaptar la dificultad de los tests al diferente nivel previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron tareas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de comparación de longitudes de líneas; para los mayores propusieron ítems sobre construcción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad mental, como la media del rendimiento en un test de los estudiantes de una edad real determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos (Terman impulsa varias versiones) y comienzan a interpretarse normativamente las puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplicación masiva de tests de inteligencia (y los correspondientes formatos de respuesta de opción múltiple) se inicia con la evaluación de los soldados estadounidenses que parti-
Capítulo 1. Introducción
17
cipaban en la Primera Guerra Mundial. También en este contexto comienzan algunos esbozos de lo que serán los tests psicométricos de personalidad, cuyo arranque será más tardío debido en parte a que inicialmente la medición de la personalidad se realizaba con tests proyectivos (Rorschach propone el suyo en 1921). 4. La Teoría Clásica de los Tests (TCT). En los primeros tests de Inteligencia, las puntuaciones de las personas se daban como verdaderos indicadores de su nivel de capacidad, error que no pasó desapercibido para algunos estadísticos. En las dos primeras décadas del siglo XX, Spearman propone un sencillo modelo matemático para conceptualizar el error de medida (E) asociado a las puntuaciones de los tests (la idea fundamental se refleja en el primer supuesto clásico ( X = V + E ), así como procedimientos para estimar la fiabilidad de las puntuaciones (bajo la definición de tests paralelos) y las relaciones entre fiabilidad y longitud del test. Son los fundamentos de la TCT, que será completada progresivamente en las siguientes décadas por las aportaciones de otros autores, entre los que cabe destacar a Thurstone y Cronbach. Aunque hoy en día se sigue investigando sobre procedimientos y técnicas fundamentadas en la TCT, podría decirse que a mitad del siglo pasado están ya establecidos los pilares fundamentales del modelo clásico y de los métodos para estimar la fiabilidad de las puntuaciones. La vigencia de la TCT en la actualidad dice mucho del acierto de sus planteamientos y de su utilidad para la medición en Psicología. Muchos desarrollos del modelo clásico se aplican a puntuaciones que se obtienen con procedimientos diferentes a los tests. 5. No todo es error de medida: la validez de las puntuaciones. La enorme amplitud de aplicaciones de tests psicológicos hace necesario enfatizar los aspectos de la validez de las puntuaciones. Aunque pueden destacarse diferentes hitos históricos sobre el tema, nos referimos a 3 de ellos: a) Las puntuaciones en los tests de Cattel y en los tests de Binet se correlacionaron con las calificaciones escolares (por cierto, los segundos mostraron mayor relación con el rendimiento académico), que es el inicio del estudio de evidencias de validez predictiva; ya Spearman había esbozado a principios de siglo la idea de que las diferentes medidas de capacidad cognitiva correlacionaban entre sí, lo que representa un primer esbozo de la búsqueda de evidencias sobre la estructura interna de los tests. b) Unas décadas después, hacia los años 30 y 40, los trabajos de Thurstone sobre análisis factorial proporcionarán la herramienta estadística para obtener este tipo de evidencias, aplicándose inicialmente en el marco del estudio de la inteligencia y de las aptitudes intelectuales que pueden diferenciarse. c) Siempre ha sido referencia en Psicometría un trabajo sobre validez de constructo de Cronbach y Meehl, publicado en 1955, en el que se amplían las estrategias de validación de las puntuaciones de los tests. 6. La Teoría de la Respuesta al Ítem (TRI). Si bien la TCT ha mantenido (y mantiene) mucha vigencia para analizar las propiedades de las mediciones que realizamos con tests, en los años 60 del siglo pasado surgen nuevos modelos matemáticos (Rasch, Lord y Birnbaum son los pioneros de la TRI) con la intención de superar algunos de los inconvenientes del modelo clásico. La idea fundamental común a los diversos modelos de TRI, tal como veremos, será enfatizar el estudio psicométrico de los ítems (y no tanto del test) y realizar mediciones invariantes de las propiedades métricas de los ítems (que no dependan de las características particulares de las muestras donde se aplican) y de las estimaciones de los niveles de las personas (que no dependan de las características particulares de los ítems aplicados). La TRI va a permitir ampliar las estrategias de medición con tests y las formas de estudiar las propiedades psicométricas de las esti-
18
Medición en Ciencias Sociales y de la Salud maciones, tanto de los ítems como de las personas. Por ejemplo, progresivamente se emplearán desarrollos de TRI para la medición mediante Tests Adaptativos Informatizados (TAI) o para el estudio del posible sesgo de los ítems y de los tests (si perjudican o no a un grupo concreto de personas). ¿Se ocupa sólo la Psicometría de las mediciones que se realizan con los tests? Claramente no. Aunque la Psicometría es fundamentalmente Teorías de los Tests, no lo es exclusivamente. Debe reconocerse que uno de los instrumentos que ha demostrado más utilidad para la medición psicológica (y por tanto para el psicólogo aplicado) son los tests1, tal como lo atestigua su cada vez más extenso uso en diferentes contextos de evaluación psicológica y educativa, y el enorme bagaje de investigación que actualmente se realiza sobre las teorías de los tests y sus aplicaciones, fundamentalmente en relación a los modelos y técnicas derivados de la TRI. No disponemos de mejores instrumentos cuando se pretende inferir el nivel de las personas en variables latentes no directamente medibles y de las que desconocemos sus valores verdaderos, y seguramente esta peculiaridad (la necesidad de medir variables no directamente observables) es la responsable de que en Psicología exista una disciplina propia dedicada a la medición, lo que no es usual en otras disciplinas científicas. Sin embargo, es la Psicometría la que debe guiar también el análisis de la calidad de otros tipos de mediciones, por ejemplo, las derivadas de entrevistas, métodos observacionales o técnicas psicofisiológicas, incluso cuando no sea el objetivo prioritario realizar inferencias sobre rasgos latentes sino describir comportamientos. Hemos dicho que Psicometría no es únicamente Teorías de los Tests. Desde la tradición psicofísica se enfatizan procedimientos y técnicas de asignación numérica a objetos, eventos o personas empleando como instrumento de medida el propio juicio humano. Este núcleo de interés, denominado tradicionalmente como Escalamiento, fue evolucionando desde los objetivos establecidos por la Psicofísica a la medición de atributos estrictamente psicológicos carentes de correlatos físicos. En las primeras décadas del siglo XX, Thurstone propuso varios modelos y procedimientos estadísticos (sus famosas leyes del juicio comparativo y categórico) para, a partir de ciertos juicios subjetivos de un grupo de personas, ordenar cuantitativamente en una escala unidimensional, por ejemplo, la gravedad de determinados delitos o el nivel actitudinal de las personas sobre un tema determinado. Con el tiempo, autores como Torgerson, Shepard y Kruskal propondrán modelos de escalamiento multidimensional, también basados en estrategias de recogida de datos sobre juicios de las personas, donde un determinado estímulo o persona tiene asignaciones numéricas en diversas dimensiones. En español, los libros de Arce (1993, 1994) y Real (2001) describen estos y otros modelos de escalamiento, así como el modo de aplicarlos con diferentes programas informáticos. Dados los problemas peculiares que tenemos para la medición de atributos psicológicos, la Psicometría se ha planteado también, desde las denominadas como Teorías de la Medición, lo que realmente representa medir y las propiedades de los números que asignamos a las personas o a los estímulos en determinados atributos psicológicos. Se han propuesto diferentes teorías para establecer los requisitos lógicos y matemáticos que deben cumplirse para que las asignaciones numéricas representen realmente a los atributos 1
A veces se emplea, en vez de test, otros términos como cuestionario, escala, inventario o examen, para enfatizar que con el instrumento se pretende medir atributos concretos (por ejemplo, personalidad, actitudes, conductas o conocimientos).
Capítulo 1. Introducción
19
psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de medida de Stevens (definiendo las propiedades y las transformaciones admisibles asociadas a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuertemente criticada desde otras perspectivas (teorías representacional, de medición conjunta, operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda (2008); los planteamientos teóricos y los principales puntos de controversia, a veces importantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están bien descritos en los libros de Michell (1999) y Borsboom (2005).
Tipos de tests y ámbitos de aplicación Consideramos genéricamente un test como un procedimiento estandarizado que sirve para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indicadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debemos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con determinadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de responder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el nivel de comprensión escrita en el idioma. Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse elaborado adecuadamente. En segundo lugar, un test requiere una administración controlada. Se han de seguir las instrucciones, las condiciones de administración y de puntuación establecidas en el proceso de construcción del test. En tercer lugar, el test debe pretender evaluar a una persona en un atributo de interés. A veces se confunden los tests con otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos. Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescataron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesional”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, representa una de las primeras veces que en España se habla sistemáticamente de los tipos y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy pocos datos utilizables y la conversación o entrevista no basta para descubrir las habilidades de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello indica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests de capacidades o habilidades, tanto generales como específicas, y que en la selección profesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de control motor y de capacidades mentales (atención, sensación y percepción, imaginación e inteligencia general). Seguramente influenciado por los procedimientos de medida de
20
Medición en Ciencias Sociales y de la Salud Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos aparatos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la medición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces estaba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes sobre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema bajo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasificación de los tests atendiendo al método general seguido (tests psicométricos vs. tests proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (personales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de personalidad). Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se elaboran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a los recursos que un psicólogo aplicado puede emplear para su medición. A las tradicionales categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando de realizar un resumen sobre los diferentes tipos de tests de que disponemos en la actualidad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos establecer los siguientes: 1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal como se hace en los tests de personalidad o en las escalas de actitudes). 2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de un mismo test. 3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informatizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un grupo de personas específico) y tests adaptativos informatizados (los que presentan diferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo que vayan manifestando en la prueba). 4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests referidos al criterio (la interpretación se refiere al rendimiento individual conseguido por una persona en relación a unos criterios o dominios establecidos de antemano). Cabe interpretar desde ambas perspectivas el rendimiento en el mismo test.
Capítulo 1. Introducción
21
5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de respuesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntuación singulares, empleando los recursos que tienen los ordenadores. 6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psicométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos. 7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba, hablamos, respectivamente, de tests de velocidad o tests de potencia. Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas (2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al estudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender, por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros conseguidos con programas de intervención psicosocial); y descripción e información (informan de lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país… en relación a los demás). Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psicológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los resultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios miles de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada vez son más importantes las consecuencias que para las personas y las organizaciones tienen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto a otros países, tanto los profesionales de la Psicología como otros responsables de organizaciones públicas y privadas confían cada vez más en la utilidad de los tests para conseguir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a la acreditación de competencias individuales e institucionales. En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha ampliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez existen más requerimientos profesionales (y más específicos) sobre los rasgos, competencias o comportamientos que deben medirse. Además, la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha
22
Medición en Ciencias Sociales y de la Salud impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a los modelos teóricos en que se sustentan. En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que sometemos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podríamos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos para estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan garantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas culturas a otras. En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la eficiencia de las aplicaciones.
2
Construcción de tests y análisis de ítems
Un test está formado por una serie de ítems (o elementos, reactivos, preguntas, cuestiones,…) a los que cada individuo debe responder. Después de cuantificar las respuestas de una persona a los ítems del test, se pretende asignar una puntuación (a veces, varias) a esa persona respecto al constructo o atributo que se pretende medir. La puntuación asignada debería indicar su grado o nivel en el atributo, constructo o rasgo a evaluar. Vimos en el capítulo precedente que en las Ciencias Sociales y de la Salud es frecuente recurrir a indicadores para obtener la posición de la persona en un constructo. Se puede, por ejemplo, inferir su posición social tras preguntarle dónde vive, cómo es su casa, cuánto gana… Para la medida de muchos constructos utilizamos también la medición mediante indicadores (Navas, 2001). Los ítems de un test de Responsabilidad, por ejemplo, serán los indicadores que nos permitan llegar al nivel de la persona en la variable latente Responsabilidad, a partir de un conjunto de respuestas. En este tema vamos a estudiar cómo se construyen los tests y los indicadores de calidad psicométrica de los ítems. En capítulos sucesivos estudiaremos los indicadores de calidad del test como un todo. El primer paso para la construcción del test es detallar minuciosamente los objetivos que se pretenden conseguir con su aplicación y las características fundamentales que debe tener. Cuando hayamos especificado ambas cosas, tendremos que decidir el tipo de ítem que resulta más apropiado. Estudiaremos los formatos más comunes y las normas de redacción que se recomienda seguir. En el proceso de construcción de un test hay que elaborar más ítems de los que pensamos aplicar, con la idea de someterlos a un proceso de control de calidad que nos permita quedarnos con los más apropiados y conseguir así el mejor test posible. El proceso de control de calidad tiene dos partes: una cualitativa y otra cuantitativa. La cualitativa pre-
24
Medición en Ciencias Sociales y de la Salud cede a la administración de los ítems y requiere que varios expertos comprueben que se han seguido correctamente todos los pasos en la construcción del test. Estudiaremos también cómo se convierten en valores numéricos las respuestas dadas a los ítems. El siguiente paso del proceso es la aplicación piloto del test provisional (es decir, del test formado a partir de los ítems que se consideran adecuados tras el análisis cualitativo). Tras la administración piloto, se procede al estudio cuantitativo de las características de los ítems mediante un proceso denominado como análisis de ítems. A continuación, hay que decidir qué ítems concretos formarán el test definitivo. Se llama ensamblaje del test al proceso por el que se forma el test a partir de los ítems disponibles que han superado los controles de calidad. Una ventaja de seguir un proceso sistemático es que se va a conseguir un test similar al que hubiesen obtenido otros expertos, e incluso a un segundo test que hiciéramos nosotros, si éste fuera el interés. El proceso de construcción requiere además que se haya pensado en todos los aspectos que afectan a la calidad del test resultante, lo que previsiblemente ayudará a conseguir un mejor resultado final.
Diseño del test Lo primero a especificar es el constructo, atributo o característica psicológica a evaluar y el propósito del test. Hay que dar respuestas a tres preguntas (Navas, 2001): ¿Qué se va a medir con el test?, ¿a quién se va a medir? y ¿qué uso se piensa hacer de las puntuaciones? Podemos querer evaluar el nivel de Autoestima, Motivación, Inteligencia, el nivel de conocimientos en cierta materia, la calidad autopercibida del sueño, etc. Las teorías sobre los constructos suponen siempre un punto de referencia importante. Ciertamente son muchos los constructos que podemos querer evaluar, pero no son menos los propósitos de la evaluación. Por ejemplo, en un test educativo, Bloom, Hastings y Madaus (1971) han propuesto tres posibles propósitos: a) la evaluación inicial para diagnosticar puntos fuertes y débiles y ubicar a los estudiantes en el curso adecuado, b) la evaluación formativa para valorar el progreso en la instrucción y decidir qué y cómo enseñarles, y c) la evaluación sumativa para determinar el nivel de conocimientos adquirido en un curso por cada estudiante. El propósito del test condiciona qué tipos de ítems pueden ser más apropiados. Por ejemplo, un test para la evaluación del dominio del inglés, a aplicar en las pruebas de acceso a la universidad, puede requerir ciertos tipos de ítems (por ejemplo, que evalúen la comprensión de textos científicos), distintos de los que pudiera utilizar un test a aplicar en procesos selectivos y cuyo propósito sea excluir del proceso a los candidatos que no alcancen un nivel mínimo prefijado de comprensión oral del idioma. Hay que atender a varias características de la población a evaluar, como la edad, el nivel educativo, la familiaridad con el medio de administración (por ejemplo, con el ordenador cuando se vaya a construir un test informatizado), la eventual presencia de discapacidades y de diferencias en el dominio del lenguaje. En estos dos últimos casos, habría que considerar la política de acomodaciones a aplicar y su equivalencia (comprobar que la puntuación en el test corresponde al nivel en el constructo, sin ventaja o desventaja atribuible a las acomodaciones). La acomodación más frecuente consiste en modificar el tiempo de administración, de manera que un evaluado con discapacidad motora, por
Capítulo 2. Construcción de tests y análisis de ítems
25
ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administración, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evaluado para facilitarle su comprensión. Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, ordenadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las restricciones, las más importantes son las relacionadas con el tiempo de administración. Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la materia que uno con el que se consigue la acreditación para trabajar como médico, por ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u otras características psicométricas, más largo o más corto y que requiera más o menos tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previsto o las decisiones que se toman en el proceso de evaluación. Vimos en el capítulo precedente que hay tests referidos a normas y referidos al criterio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntuaciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test. Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cruzar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la especificación de los contenidos y destrezas. La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habilidad para seleccionar y aplicar principios y reglas, analizar e interpretar situaciones, extraer conclusiones y diagnosticar necesidades y problemas). La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Comprensión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesoramiento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar en ellos exclusivamente la destreza Comprensión.
26
Medición en Ciencias Sociales y de la Salud Tabla 2.1. Ejemplo de tabla de especificaciones Peso del contenido Fundamentos del asesoramiento Modelos de asesoramiento Propósitos y objetivos del asesoramiento Consideraciones éticas y legales El equipo de asesoramiento Asesoramiento individual … Asesoramiento grupal … Desarrollo de carreras … Total del test
Peso de las destrezas cognitivas Comprensión
Aplicación
6% 1%
4% 1%
2% 0%
2%
1%
1%
2% 1% 30%
1% 1% 10%
1% 0% 20%
10%
5%
5%
20%
13%
7%
100%
42%
58%
Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos establecer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de vida en la población general (la situación familiar, social, laboral…) y, además, los específicos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamiento, temor ante la evolución de la enfermedad…).
Construcción provisional del test El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele recomendar que al menos se elaboren el doble de ítems de los que se piensa que debiera tener el test. En los apartados sucesivos veremos que algunos ítems serán descartados por no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios podremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmigración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el siguiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecuaciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems depende del nivel de dominio del constructo que se quiere evaluar.
Capítulo 2. Construcción de tests y análisis de ítems
27
Tipos y formatos de ítems Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típico. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico difieren en las siguientes 3 características: 1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que determinarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sencilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el evaluado; mientras que en los de potencia se presta especial atención a las características de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo son de potencia, si bien se fija el tiempo de administración de modo que no sobre demasiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evaluados más lentos. Para considerar a una prueba como un test de potencia suele establecerse que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de los ítems (Schmeiser y Welch, 2006). En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevancia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplicación y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a los ítems, no para indicar que el tiempo de administración es limitado. 2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo, cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de velocidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese (puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por lo general, como no suele haber tests puros, lo que se suele hacer es considerar como ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omisiones los no respondidos que preceden a su última respuesta. Tal proceder no está exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evaluados. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último ítem respondido en la primera pasada rápida, van a ser considerados como omisiones cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006).
28
Medición en Ciencias Sociales y de la Salud En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indicar que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respuesta cuando son menos de 10. 3. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible obtener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de rendimiento típico no caben las respuestas al azar si se está respondiendo al test con seriedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos podemos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas, mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a responder afirmativa o negativamente a un ítem independientemente de su contenido. Para evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos; en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de rasgo, mientras que en los segundos se espera negativa. El problema de la deseabilidad social y del falseamiento de las respuestas en los tests, dada su importancia en determinados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de este libro.
Formatos de ítems en tests de rendimiento óptimo1 En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de respuesta construida) o preguntas con opciones preestablecidas (formato de respuesta seleccionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los ítems de verdadero-falso y los de opción múltiple. a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera correcta. Por ejemplo, un ítem de un test de Historia Moderna podría ser: Pi y Margall fue presidente de la 1ª República Española. V( ) F( )
1
En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendimiento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos innovadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar constructos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos.
Capítulo 2. Construcción de tests y análisis de ítems
29
b) Opción múltiple. Un ítem de opción múltiple consta de un enunciado y de tres o más opciones de respuesta, de las que sólo una es correcta. Por ejemplo, un ítem de un test de aptitud verbal puede ser: Coche es a volante, como bicicleta es a... a) Pedal b) Sillín c) Manillar d) Cambio
Hay también varios tipos de ítems de respuesta construida (Navas, 2001). Los hay que requieren sólo completar una frase (Las provincias que integran la Comunidad Autónoma de Extremadura son…..); otros requieren una respuesta más extensa, aunque breve, como responder en un párrafo de pocas líneas; o mucho más extensa, como hacer una redacción o construir una maqueta. Un ítem que requiere una respuesta corta sería Exponga en no más de 10 líneas las dos principales características de la pintura de Goya, y una extensa Detalle la influencia de los escritores latinoamericanos en la novela española del siglo XX. Otro tipo de examen abierto es el portafolio, en el que el evaluado presenta a evaluar un conjunto de trabajos que ha realizado y que considera buenos ejemplos del nivel de aprendizaje que ha alcanzado. En las décadas 80-90 hubo mucho debate en contextos de evaluación educativa sobre si eran mejor los ítems de respuesta construida o seleccionada. Los partidarios de la respuesta construida decían que sólo este formato permite la evaluación de procesos superiores y que la respuesta seleccionada tiene el problema de los aciertos por azar. Los partidarios de la respuesta seleccionada enfatizaban que este formato muestrea mejor los contenidos, pues pueden hacerse más preguntas, y que la corrección es subjetiva y más costosa en los ítems de respuesta construida. Estudios posteriores han puesto de manifiesto que las respuestas a los ítems abiertos se pueden cuantificar de forma fiable, que con ambos tipos de ítems se puede evaluar procesos de aprendizaje de alto nivel y que ambos formatos proporcionan resultados altamente correlacionados cuando se mide el mismo dominio. Algunos autores enfatizan que no resultan formatos redundantes, pues se suelen medir destrezas distintas (Schmeiser y Welch, 2006). Por tanto, ambos tipos de ítems más que ser excluyentes son complementarios; unos son más apropiados que otros según sean los objetivos concretos del test (Martínez, Moreno y Muñiz, 2005). Una exposición más detallada de otros formatos alternativos para ítems de respuesta construida y para ítems de respuesta seleccionada puede consultarse en la página web http://www.uam.es/docencia/ace/ y en Martínez et al. (2005).
Formatos de ítems en tests de rendimiento típico Los formatos de respuesta seleccionada más frecuentes en los tests de rendimiento típico son los de opción binaria y categorías ordenadas: a) Opción binaria: La persona debe elegir entre dos opciones antagónicas: por ejemplo, ante un determinado enunciado, manifestar si está de acuerdo o no, o decir si describe su
30
Medición en Ciencias Sociales y de la Salud modo usual de comportarse. Un ítem de un cuestionario sobre la actitud de los padres hacia los profesores de sus hijos puede ser: En realidad, los profesores hacen poco más que cuidar de nuestros hijos cuando trabajamos. Desacuerdo ( ) Acuerdo ( )
b) Categorías ordenadas. Se establece un continuo ordinal de más de dos categorías, que permite a la persona matizar mejor su respuesta. Puede o no incluir una categoría central para indicar la posición intermedia de la escala de respuesta. Por ejemplo, un ítem sobre la actitud de los adolescentes hacia el consumo de drogas podría ser el que sigue: Las drogas pueden realmente resolver problemas de uno mismo. ( ) Muy en desacuerdo ( ) Bastante en desacuerdo ( ) Neutral ( ) Bastante de acuerdo ( ) Muy de acuerdo
En el ítem precedente Muy en desacuerdo, Bastante en desacuerdo… serían las etiquetas de las cinco categorías. A veces, se establecen sólo las dos etiquetas extremas del continuo, dejando señaladas las restantes categorías, como muestra la siguiente escala de respuesta: (Muy en desacuerdo)__ __ __ __ __ __ __ (Muy de acuerdo)
Hay varios tipos de escalas de respuestas (Morales, Urosa y Blanco, 2003). Las más comunes son la de grado de acuerdo y la de frecuencia. En la primera, llamada también escala tipo Likert, se ha de manifestar el grado de acuerdo con la frase, mientras que en la segunda se ha de indicar la frecuencia del comportamiento descrito en el enunciado. En otras escalas de respuesta se ha de indicar la importancia que se da a lo que indica la frase o cómo de correcta es la descripción que la frase hace de quien responde. Los dos ítems que siguen utilizan la escala de grado de acuerdo y la de frecuencia, respectivamente. Me encanta Madrid. En desacuerdo Indiferente De acuerdo Cuido mi alimentación. Nunca Algunas veces Muchas veces Siempre
Tres asuntos relevantes en relación a los ítems tipo Likert son el número de categorías de la escala de respuesta, la presencia o no de categoría central y la elección de las etiquetas. Se suele recomendar que el número de categorías sea 5 o un valor próximo (Hernández, Muñiz y García-Cueto, 2000; Morales et al., 2003). No se obtienen mejores tests cuando se utilizan escalas de respuestas con muchas más categorías, pues se producen in-
Capítulo 2. Construcción de tests y análisis de ítems
31
consistencias en las respuestas. La probabilidad de que una persona elija la misma categoría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor si ha de responder con una escala de 5 categorías que con una de 20, de ahí que, cuando son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblaciones especiales, como discapacitados o personas mayores, puede resultar más adecuada una escala de pocas categorías. En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número par o impar de categorías. Hay razones a favor y en contra de la categoría central (que puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que alguien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la categoría central argumentan que con demasiada frecuencia dicha categoría termina siendo la elegida por los que responden con poco cuidado o de forma poco sincera. Los partidarios de un número par de categorías suelen serlo también de un número más alto de categorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías centrales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra que los indicadores psicométricos de los ítems no dependen de la existencia o no de categoría central cuando el número de categorías es mayor de tres (Morales et al., 2003). Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 5558) muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdodesacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el continuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos primeras categorías es menor que la que hay entre la segunda y tercera. La Educación está en crisis. Muy en desacuerdo En desacuerdo De acuerdo Muy de acuerdo
Redacción de ítems de opción múltiple Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz (2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que reproducimos a continuación con ligeros cambios:
32
Medición en Ciencias Sociales y de la Salud A. Elección del contenido que se desea evaluar. 1. Cada ítem debe evaluar el contenido de una celdilla de la tabla de especificaciones, lo que garantiza que el test muestreará bien todo el contenido a evaluar. Hay que evitar los ítems triviales. 2. El ítem deberá ser sencillo o complejo, concreto o abstracto, memorístico o de razonamiento en función de las destrezas y contenidos que deba evaluar. Las dos primeras recomendaciones indican que la creación de los ítems ha de ceñirse a lo estudiado en el primer apartado sobre diseño del test y, en particular, a lo establecido en la tabla de especificaciones. B. Expresión del contenido en el ítem. 3. Lo central debe expresarse en el enunciado. Cada opción es un complemento que debe concordar gramaticalmente con el enunciado, pues la opción que no concuerda suele ser incorrecta. 4. La sintaxis o estructura gramatical debe ser correcta. Conviene evitar ítems demasiado escuetos o profusos, ambiguos o confusos. Conviene cuidar especialmente las expresiones negativas para evitar que puedan ser interpretadas incorrectamente. 5. La semántica debe estar ajustada al contenido y a la comprensión lingüística de las personas evaluadas. Si no es así, las respuestas al ítem dependerán del constructo que se pretende medir, como se pretende, pero también de la comprensión lingüística de los evaluados, que no se pretende. C. Construcción de las opciones. 6. La opción correcta debe ser sólo una y debe ir acompañada por distractores plausibles. Si las opciones incorrectas no son plausibles, no sabremos cuántas opciones del ítem están actuando como auténticos distractores. 7. La opción correcta debe estar repartida entre las distintas ubicaciones, evitando la tendencia natural a ubicar la opción correcta en las posiciones centrales (Attali y BarHillel, 2003). 8. Las opciones deben ser preferiblemente tres. Se han realizado trabajos que prueban que no suelen resultar mejores los ítems de 4 ó 5 opciones que los de 3 (p. ej., Abad, Olea y Ponsoda, 2001). Lo serían si la cuarta, quinta… opción fuesen de la misma calidad que las tres primeras, lo que no es frecuente. Por tanto, suele resultar más apropiado, por ejemplo, un test de 80 ítems de 3 opciones que uno de 40 ítems de 6 opciones, a pesar de que el tiempo dedicado al procesamiento de los ítems sea parecido en ambos casos. 9. Las opciones deben presentarse usualmente en vertical. Cuando se presentan en horizontal, una tras otra, es más fácil que alguna no se entienda correctamente. 10. El conjunto de opciones de cada ítem debe aparecer estructurado. Por ejemplo, si las opciones fuesen valores numéricos, se recomienda que aparezcan ordenados. La ordenación facilita la correcta comprensión del ítem.
Capítulo 2. Construcción de tests y análisis de ítems
33
11. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las anteriores”. A veces se redactan dos opciones de forma que necesariamente una de las dos es correcta, de lo que se puede inferir que las restantes son incorrectas. 12. Ninguna opción debe destacar del resto ni en contenido ni en apariencia. Cuando una opción destaca en contenido o apariencia suele dar pistas sobre si es o no correcta. No es infrecuente encontrarse en un ítem varias opciones poco elaboradas y muy breves, que son incorrectas, y una más elaborada, más extensa, que es la correcta. Hemos revisado (García, Ponsoda, Sierra, 2009) más de 50 exámenes de opción múltiple con los que se evalúa en la universidad y hemos comprobado que se suelen incumplir algunas de las recomendaciones expuestas. De hecho, hemos encontrado: − Ítems con ninguna o más de una solución correcta. − Ítems con demasiado texto. Con el loable propósito de que el estudiante vea el interés e importancia de lo que se pregunta, muchas veces se redactan ítems con mucho más texto del necesario, lo que puede dificultar su comprensión. − Ítems que dan pistas de la solución correcta. A veces, la pista resulta de la falta de concordancia gramatical entre el enunciado y alguna opción. Otras veces, una opción es mucho más larga y está más elaborada que las demás. En otras ocasiones se ofrecen dos opciones que agotan las posibles respuestas. A veces se proponen ítems que aparecen resueltos en otros ítems del mismo test. En estas situaciones, el rendimiento en el ítem no depende sólo del nivel de conocimiento, como debiera ser, sino de la capacidad del estudiante para captar estas pistas. − Presencia de opciones del tipo “Ninguna de las anteriores” y “Todas las anteriores”. Muchas veces, por la necesidad de redactar el número de opciones preestablecido, se termina incluyendo una opción de este tipo, seguramente porque requiere menos esfuerzo que elaborar una opción plausible nueva. − Opciones incorrectas (o distractores) poco plausibles. Las opciones incorrectas poco plausibles son poco elegidas y tenemos entonces la duda de cuántas opciones realmente funcionales tiene el ítem. Las opciones incorrectas no deberían descartarse utilizando sólo el sentido común. Las alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente tienen las personas que no conocen la respuesta correcta a la pregunta. Otra posible estrategia para generar buenos distractores sería el uso de alternativas de respuesta que son verdaderas para otras preguntas, pero que son inciertas para el enunciado al que se asocian.
Redacción de ítems de categorías ordenadas Respecto a la manera de formular las cuestiones en los tests de rendimiento típico, se han propuesto algunas recomendaciones que pueden ayudar a su correcta redacción:
34
Medición en Ciencias Sociales y de la Salud 1. Utilizar el tiempo presente. 2. Deben ser relevantes, en el sentido de que su contenido debe relacionarse claramente con el rasgo. Hay que redactar frases ante las que darían respuestas distintas los que tengan alto y bajo nivel en el rasgo que se pretenda evaluar. 3. Se debe cuidar que el contenido sea claro y evitar una excesiva generalidad. Resultan mejor los ítems formados por frases cortas, simples e inteligibles. Hay que evitar incluir dos contenidos en un ítem. 4. Para minimizar la aquiescencia conviene redactar ítems de modo directo e inverso. 5. Conviene evitar el uso de negaciones, pues dificultan la comprensión de la frase, y de universales (todo, siempre, nunca...), pues llevan a casi todos los evaluados a elegir la misma categoría de respuesta. Algunas escalas de Sinceridad utilizan precisamente estos universales para detectar el falseamiento de respuestas. Un enunciado de un posible ítem de una escala de Sinceridad sería Nunca me ha apetecido hacer algo prohibido, precisamente con la idea de que los evaluados que respondan sin falsear se habrán de manifestar en desacuerdo con el enunciado. Se recomienda generar tantos ítems directos como inversos. Lo preferible es que los ítems inversos no lleven negaciones. En un ítem para medir el interés por el estudio, la frase “Me gusta estudiar” daría lugar a un ítem directo, y las frases “No me gusta estudiar” y “Me aburre estudiar” darían lugar a ítems inversos. La última sería preferible a la penúltima pues evita la negación. La presencia de ítems directos e inversos en un test tiene en ocasiones más trascendencia psicométrica de la que aparentemente cabría esperar. Se ha encontrado que la presencia de ítems directos e inversos termina afectando a la estructura interna del test, es decir, a las dimensiones que se miden. Por ejemplo, Tomás y Oliver (1999) comprueban que esto ocurre en el test de Autoestima de Rosenberg. De ahí que haya instrumentos que sólo contienen ítems directos. Un error que suelen cometer los que tienen poca experiencia en la redacción de ítems es la introducción en la frase de más de un contenido. Por ejemplo, en un ítem hay que manifestarse de acuerdo o en desacuerdo ante el siguiente enunciado “Pienso que es bueno premiar a los hijos cuando se portan bien y que da mejor resultado que castigarlos cuando hacen algo mal”. La frase en realidad contiene dos afirmaciones y la respuesta dada a la frase original puede referirse a la primera, a la segunda o a ambas. Otro error frecuente en la redacción de estos ítems es el uso inadecuado de la escala de respuesta. Por ejemplo, el ítem que sigue estaría mejor redactado con una escala de frecuencia que de grado de acuerdo, como se muestra en la redacción alternativa. Juego al tenis al menos una vez por semana. Muy en desacuerdo ( ) En desacuerdo ( ) Indeciso ( ) De acuerdo ( ) Muy de acuerdo ( )
Capítulo 2. Construcción de tests y análisis de ítems
35
Redacción alternativa: Indique cuántas veces a la semana, en promedio, juega al tenis. Ninguna ( ) Una ( ) Dos ( ) Tres o cuatro ( ) Cinco o más ( )
Revisión de los ítems Una vez elaborados los ítems, resulta muy conveniente que algún experto en el contenido de la prueba y en construcción de tests los revise. Si no es posible recurrir a algún experto, no es mala idea, como sugiere Navas (2001), que sea el mismo redactor de ítems quien haga la revisión, dejando pasar algunos días entre la creación del ítem y su revisión. Hay que comprobar que cada ítem evalúa los contenidos y destrezas que le corresponden, de acuerdo con la tabla de especificaciones. Se ha de comprobar que no es ambiguo, que gramaticalmente está bien redactado, que el lenguaje no resulta ofensivo y, en los ítems de opción múltiple, que la opción correcta lo es realmente y que todos los distractores son incorrectos. En realidad, se ha de comprobar que cada ítem cumple las recomendaciones que acabamos de ver. Como vemos, los tests requieren un proceso sistemático de elaboración y una administración controlada. Esto significa, por ejemplo, que una persona deberá obtener la misma puntuación en un test de Responsabilidad independientemente del evaluador que se lo aplique. Con otros métodos de evaluación la puntuación obtenida puede depender más del evaluador. Por ejemplo, distintos psicólogos clínicos pueden llegar a una conclusión diferente respecto de la personalidad de un evaluado tras una entrevista clínica. Un punto fuerte de los tests es que permiten evaluar a las personas, por ejemplo, únicamente por sus habilidades, conocimientos, competencias o capacidades; es decir, por sus méritos o cualidades y con escasa participación de la subjetividad del evaluador. Siendo esto importante, es si cabe más importante que los tests sean justos. Es decir, deben dar al evaluado la puntuación que corresponde a su nivel en el constructo, sea cual sea su edad, género, discapacidad, raza, grupo étnico, nacionalidad, religión, orientación sexual, lengua y otras características personales. Los expertos deben analizar cada ítem para determinar que cumple lo anterior. En un ejercicio de acceso a la universidad se preguntó por el significado de pucelana (natural de Valladolid). Hicieron mejor el ejercicio los seguidores de las crónicas deportivas que los que sabían más Lengua. La revisión mediante expertos hubiese podido detectar que el ítem no era apropiado pues medía, además del conocimiento en Lengua, interés por el fútbol y por tanto resultaba injusto con los estudiantes que no eran aficionados al citado deporte. Existen procedimientos psicométricos para estudiar lo que se denomina como Funcionamiento Diferencial, que ayudan a determinar si los ítems y tests son o no justos. Los describiremos en el capítulo 13.
36
Medición en Ciencias Sociales y de la Salud
Cuantificación de las respuestas Una vez decidido el tipo de ítem y el formato de respuesta que se consideran más apropiados, y de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuantificar las posibles respuestas a los ítems.
Tests de rendimiento óptimo En general, los ítems de respuesta seleccionada en tests de rendimiento óptimo se cuantificarán con 1, el acierto, y con 0, el error. Se dice que un ítem es dicotómico cuando puede tomar sólo dos valores. La puntuación (directa) de un evaluado en el test, Xi, será la suma de las puntuaciones en los J ítems, e indicará su número de aciertos.
Xi =
J
∑X
ij
[2.1]
j =1
Para la cuantificación de los ítems de respuesta construida breve se recomienda hacer una lista de respuestas aceptables y otra de no aceptables y puntuar con 1 ó 0, respectivamente. Se pueden hacer más de dos listas. Si se hicieran 4, una podría contener las respuestas muy buenas; otra, las buenas; una tercera, las regulares; y una cuarta, las respuestas incorrectas. Cada ítem sería cuantificado como 3, 2, 1 ó 0, respectivamente. Los ítems que admiten un número prefijado (mayor de 2) de posibles valores al ser cuantificados se llaman ítems politómicos. En este ejemplo, estaríamos ante ítems politómicos que pueden tomar cuatro valores. En los ítems de respuesta construida extensa, conviene aplicar rúbricas (criterios definidos de corrección) para obtener una cuantificación adecuada. Las hay analíticas y holísticas. En las rúbricas analíticas se detallan los distintos elementos que hay que valorar en la respuesta, indicando cómo debe ser la respuesta que merezca cada una de las posibles cuantificaciones. Por ejemplo, en la evaluación de una redacción2 se puede considerar que los elementos a evaluar son a) las ideas y el contenido, b) la organización, c) la fluidez y d) la corrección gramatical. Ante cada elemento, la rúbrica detallaría el rendimiento al que correspondería cada posible puntuación. Ante el elemento “ideas y contenido”, la peor calificación correspondería a redacciones que carezcan de idea central o que fuercen al lector a inferir la idea a partir de detalles sueltos. La máxima puntuación correspondería a una redacción clara, interesante y que aborde nítidamente el asunto central, que capture la atención de lector y que proporcione anécdotas enriquecedoras. La puntuación del estudiante en la redacción sería la suma de sus puntuaciones en las cuatro partes que forman la rúbrica. En las rúbricas holísticas no se establecen los distintos elementos a evaluar, sino que se evalúa el ítem como un todo. Una buena rúbrica debe proporcionar puntuaciones muy similares al mismo ejercicio cuando es aplicada correctamente por dos evaluadores distintos. Permite que el estudiante sea evaluado en forma objetiva y consis2
Tomado y adaptado de http://web.ccsd.k12.wy.us/RBA/LA/SecSoph.html
Capítulo 2. Construcción de tests y análisis de ítems
37
tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estudiante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston (2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas. Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los diferentes ítems.
Tests de rendimiento típico La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere ciertos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posibles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso. Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuerdo/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto voluntario: Abortar es matar. En desacuerdo ( ) De acuerdo ( ) La madre es la dueña de su cuerpo en asuntos de aborto. En desacuerdo ( ) De acuerdo ( )
En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En desacuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más positiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación indica una actitud más positiva hacia el aborto voluntario. Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1 (Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuerdo), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse utilizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]).
Ejemplo 2.1. Cuantificación de ítems de categorías ordenadas La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indica la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El primer ítem es directo y el segundo, inverso.
38
Medición en Ciencias Sociales y de la Salud Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas Me siento apoyado por mi familia Mi vida carece de sentido
En desacuerdo
Indeciso
De acuerdo
1 3
2 2
3 1
Análisis de ítems Con análisis de ítems3 nos referimos a los procedimientos dirigidos a extraer información sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se podrán determinar los ítems que formarán parte del test definitivo, o construir la versión breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indicadores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el análisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes (Morales, 2009). Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el análisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo general mediante expertos, que se han realizado adecuadamente las actividades comentadas en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo. Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres categorías: los de dificultad, los de discriminación y el de validez. Tras aplicar el test provisional a una muestra de evaluados representativa de la población a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evaluados4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando 3
Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el análisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experiencia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta lógica hemos preferido mantener esa misma ordenación en el libro.
4
Varios ejemplos incumplirán esta recomendación. En este y siguientes capítulos expondremos ejemplos de tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejemplos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio.
Capítulo 2. Construcción de tests y análisis de ítems
39
por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla 2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3 ítems (X1, X2 y X3). La columna más a la derecha muestra la puntuación de cada uno en el test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el ítem. Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X X1
X2
X3
X
1 1 0 1 0
1 0 1 1 1
0 0 1 0 1
2 1 2 2 2
En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4 evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían organizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el test resultan de sumar las puntuaciones en los 5 ítems. Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X X1
X2
X3
X4
X5
X
7 1 4 6
5 1 6 6
4 3 5 5
7 4 4 5
6 2 3 7
29 11 22 29
A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las características psicométricas de los ítems.
Índice de dificultad Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j, pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respondido (Nj).
pj=
Aj Nj
[2.2]
40
Medición en Ciencias Sociales y de la Salud
Ejemplo 2.2. Obtención del índice de dificultad Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder. Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X Evaluado
X1
X2
X3
X
1 2 3 4 5
1 1 0 1 0
1 0 1 -
0 0 1 1
2 1 2 1 1
Los índices de dificultad de los tres ítems serán:
p1 =
A1 3 = = 0,60 N1 5
p2 =
A2 2 = = 0,67 N2 3
p3 =
A3 N3
=
2 = 0,50 4
En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el último apartado veremos los procedimientos que permiten descontar del número de aciertos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendríamos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de opción múltiple de K opciones, p cj , se obtiene aplicando la siguiente expresión (Schmeiser y Welch, 2006):
Fj p cj = p j −
Nj K −1
[2.3]
Capítulo 2. Construcción de tests y análisis de ítems
41
Donde pj es el índice de dificultad sin corregir y Fj es el número de personas que fallaron el ítem de los Nj que lo respondieron. Si los ítems del test del Ejemplo 2.2 tuviesen 4 opciones, los nuevos índices de dificultad corregidos serían:
F1 2 N p1c = p1 − 1 = 0,60 − 5 = 0,60 − 0,13 = 0,47 K −1 4 −1 F2 1 N2 c = 0,67 − 3 = 0,67 − 0,11 = 0,56 p2 = p2 − K −1 4 −1 F3
2 = 0,50 − 4 = 0,50 − 0,17 = 0,33 p3c = p3 − K −1 4 −1 N3
Se observa que al aplicar la fórmula correctora los índices disminuyen cuando hay errores. Crocker y Algina (1986) recomiendan que la dificultad media de los ítems sea mayor de 0,5 cuando haya en el test respuestas al azar. Proponen que la dificultad media sea 0,62, 0,67 y 0,75, si los ítems tienen 4, 3 y 2 opciones, respectivamente. Aplicando a estos valores la fórmula [2.3], con Fj/Nj = 1 – pj, se obtiene que en los tres casos p cj es 0,50.
Propiedades del índice de dificultad 1. El valor mínimo que puede asumir p es 0 (cuando nadie acierta el ítem) y el valor máximo, 1 (todos los que lo intentan lo aciertan). A medida que p se acerca a 0, el ítem ha resultado más difícil; cuanto más se acerca a 1, ha resultado más fácil. Cuando el valor está cerca de 0,5, el ítem tiene una dificultad media, no ha resultado ni fácil ni difícil. En el Ejemplo 2.2 el ítem más fácil es el 2 y el más difícil, el 3. Nótese, por tanto, que valores altos en el índice de dificultad, indican mucha facilidad y no mucha dificultad, como se podría esperar. Algunos (p. ej., McAlpine, 2002) prefieren llamar al indicador índice de facilidad, pero no termina de prosperar la propuesta. 2. El valor de p depende de la muestra. Un ítem aplicado a una muestra muy preparada (de alto nivel en el rasgo) será acertado por más evaluados que si es aplicado en una muestra poco preparada. Por tratarse del mismo ítem, lo deseable sería que el indicador de su dificultad no dependa de la muestra en la que es aplicado, pero el índice p no tiene esta propiedad. El indicador de la dificultad del ítem dentro de la TRI sí proporciona valores que no dependen del nivel de la muestra en la que se aplique. 3. El valor de p se relaciona con la varianza de los ítems: Si p es 0 ó 1, la varianza del ítem es cero, pues sólo se han producido en el ítem fallos y aciertos, respectivamente. A medida que p se acerca a 0,5, su varianza aumenta. De hecho, la varianza de un ítem
42
Medición en Ciencias Sociales y de la Salud dicotómico puede obtenerse a partir de su índice de dificultad, pues S 2j = p j (1 − p j ). La máxima varianza de un ítem dicotómico (0,25) se alcanza cuando p = 0,5. En un test, en el que la puntuación de la persona i es la suma de los J ítems (ecuación [2.1]), su varianza se puede obtener, a partir de las varianzas y covarianzas de los ítems, mediante la expresión
S X2 =
J
∑ j =1
S 2j + 2
J −1
J
∑∑
S jj ' =
j =1 j '= j +1
J
∑ j =1
S 2j + 2
J −1
J
∑ ∑r
jj ' S j S j '
[2.4]
j =1 j '= j +1
Es decir, la varianza del test es la suma de las varianzas de los J ítems y la suma de las J(J – 1) covarianzas que resultan al formar todos los pares posibles con J ítems. En la expresión anterior, se ha sustituido la covarianza (Sjj’) entre cada dos ítems por su valor (rjj’ Sj Sj’), teniendo en cuenta la definición de la correlación de Pearson. Por tanto, si queremos que el test tenga alta varianza conviene que contenga ítems también de alta varianza; es decir, ítems con índices de dificultad próximos a 0,5. Al diseñar un test de rendimiento óptimo, se suele recomendar que se sitúen al inicio algunos ítems fáciles, por su efecto motivador (Navas, 2001; García-Cueto y Fidalgo, 2005); en la parte central, los de dificultad media (valores p entre 0,30 y 0,70); y al final, los más difíciles. El número de ítems de cada categoría de dificultad que deben incluirse en el test depende de sus objetivos. En los tests referidos a norma, de poco sirve un ítem con p = 0 ó 1, ya que no ayudaría a establecer diferencias entre los evaluados, pues es un ítem que lo fallarían o acertarían todos los evaluados. En un test referido al criterio, puede tener interés saber si todos los evaluados tienen ciertos conocimientos elementales o muy básicos. Si es así, esos ítems tendrán necesariamente altos valores p y tendría sentido su inclusión y mantenimiento en el test. Por tanto, en general, los mejores ítems son los que aportan más varianza al test y son los que tienen valores de p medios. De hecho, algunos programas para el análisis psicométrico de los ítems, como TAP (Brooks y Johanson, 2003), recomiendan el estudio detenido y eventual descarte de los ítems con valores p mayores de 0,9 y menores de 0,2. Sin embargo, como hemos señalado, puede tener sentido la inclusión y mantenimiento de algunos ítems fáciles o muy fáciles en ciertos contextos aplicados, por ejemplo en tests referidos al criterio.
El índice de dificultad en otros tipos de ítems Lo visto hasta ahora sobre el índice de dificultad se aplica a ítems dicotómicos de tests de rendimiento óptimo. En este escenario se entiende muy bien que la proporción de personas que aciertan el ítem sea el indicador de su dificultad. El índice p es la media aritmética de las puntuaciones conseguidas en el ítem por los N evaluados que lo han respondido. Para el caso de ítems no dicotómicos de tests de rendimiento óptimo, la media en el ítem de los evaluados que han respondido sería también el indicador de su dificultad. Supongamos que la rúbrica para corregir un ítem de respuesta construida tiene como valores mínimo y máximo posibles, 0 y 12. Valores medios en el ítem próximos a 0 indicarán dificultad ex-
Capítulo 2. Construcción de tests y análisis de ítems
43
trema, y próximos a 12, facilidad extrema. Una alternativa al cálculo de la media consiste en dividir la suma de puntos en el ítem por la suma máxima de puntos posible. Procediendo así se obtiene un indicador de la dificultad comprendido entre 0 (máxima dificultad) y 1 (máxima facilidad). Supongamos, por ejemplo, una tarea que puede ser evaluada como 0, 1, 2 ó 3. Si las puntuaciones en la tarea de 5 estudiantes han sido 3, 1, 3, 0 y 3, la suma de puntos sería 10, la suma máxima posible sería 15 y el índice de dificultad será 10/15 = 0,67. Por tanto, la tarea es de dificultad media-baja. En los tests de rendimiento típico la media de las puntuaciones en el ítem ofrece una información que guarda cierta similaridad con el concepto de dificultad del ítem, aunque no pueda hablarse propiamente de lo difícil que es el ítem. Por ejemplo, en un test de agresividad, un ítem podría ser Participo en peleas, con las opciones Nunca, Alguna vez, De vez en cuando y Con frecuencia, y recibiría una puntuación de 1 a 4. Un segundo ítem podría ser Discuto con la gente, con la misma escala de respuestas. La misma muestra responde a ambos ítems. Supongamos que la media de la muestra en el primero es 1,75 y en el segundo, 2,81. La menor media del ítem 1 indica que hay que tener más agresividad para obtener una puntuación concreta (por ejemplo, 3) en el ítem 1 que en el 2. Cuanto más baja es la media, más nivel de rasgo hace falta para alcanzar una cierta puntuación en el ítem.
Índices de discriminación Un ítem que mida el constructo de interés debe discriminar entre los que tienen altos y bajos valores en el constructo. Las personas con alta y baja Responsabilidad deberán puntuar de forma diferente en un ítem que realmente mida este constructo, aunque podrán obtener puntuaciones parecidas en un ítem que mida otro constructo. Se han propuesto varios indicadores de la discriminación del ítem. Todos ellos requieren una medida apropiada del constructo, que muchas veces, aunque no necesariamente, es la puntuación obtenida en el test completo. Otras veces es un subconjunto de los ítems del test y otras, incluso, una medida del constructo externa al test.
El índice de discriminación Este indicador se obtiene exclusivamente para ítems dicotómicos. Requiere establecer dos subgrupos de evaluados a partir de sus puntuaciones en el test: el de los que tienen altas y el de los que tienen bajas puntuaciones. Los subgrupos pueden estar compuestos por la mitad de la muestra o, más frecuentemente, por un porcentaje menor (27%, 33%, por lo general) si la muestra tiene suficiente tamaño. Sea ps la proporción de personas del subgrupo superior que ha acertado el ítem. Sea pi la correspondiente proporción en el subgrupo inferior. El índice de discriminación de ítem j, Dj, se define como la diferencia entre ambas proporciones.
D j = p s − pi
[2.5]
44
Medición en Ciencias Sociales y de la Salud El indicador D toma valores entre –1 y 1. Cuando D = 1, todos los evaluados del subgrupo superior han acertado el ítem y ninguno del subgrupo inferior lo ha hecho. Cuando D = 0, la proporción de los que han acertado el ítem es la misma en ambos subgrupos. Si D = –1, ninguno del subgrupo superior ha acertado el ítem y todos los del subgrupo inferior lo han hecho. Valores próximos a cero indican que el ítem no discrimina. Cuanto D más se acerca a uno, mayor es la capacidad discriminativa del ítem. Valores inferiores a 0,20 se consideran valores inaceptables e indican que el ítem ha de ser eliminado (Crocker y Algina, 1986). Los valores que puede tomar D dependen del valor del índice de dificultad p (Oosterhof, 1976). En el caso de valores extremos de p, no es posible que D tome valores altos. Por ejemplo, si el valor p de un ítem es 0,98, es evidente que ha debido de ser acertado por prácticamente todos los del grupo superior y también por prácticamente todos los del grupo inferior, no pudiendo D tomar un valor alto. Un razonamiento similar puede aplicarse cuando el valor de p es muy bajo. Cuando p toma un valor central es cuando D puede tomar un valor próximo o alejado de cero.
Índices basados en la correlación entre el ítem y el test Otra estrategia para determinar si un ítem discrimina entre los evaluados que tienen altas y bajas puntuaciones en el constructo consiste en correlacionar las puntuaciones en el ítem con una medida del constructo, que por lo general es el rendimiento en el test. Esta estrategia da lugar a los indicadores de discriminación basados en la correlación ítem-test. El indicador D es muy fácil de aplicar, pero normalmente no utiliza toda la información de la muestra, pues sólo entran en su cálculo los evaluados que pertenecen al subgrupo superior o inferior y se aplica sólo a ítems dicotómicos. Los indicadores de discriminación basados en la correlación ítem-test pueden aplicarse a ítems dicotómicos y no dicotómicos, a tests de rendimiento óptimo y típico, y la muestra completa participa en su cómputo. El índice de discriminación del ítem j basado en la correlación ítem-test, rjX, se define como la correlación de Pearson entre las puntuaciones en el ítem y en el test. Se le suele llamar correlación ítem-test.
Ejemplo 2.3. Obtención de la correlación ítem-test en ítems politómicos Hemos aplicado un test de Satisfacción con los estudios universitarios. En la Tabla 2.6 se muestran las puntuaciones de 4 estudiantes en dos ítems del test y en el test completo X. El ítem 1 es Organizo actividades extracurriculares y el 2 es Asisto a clase. Ambos tienen cinco posibles respuestas, puntuadas de 1 (Muy infrecuentemente) a 5 (Muy frecuentemente). La correlación ítem-test del ítem 1, que se obtiene calculando la correlación de Pearson entre las columnas 1 y 3, es r1X = 0,638. La del ítem 2, que resulta de correlacionar las columnas 2 y 3, es r2X = 0,348.
Capítulo 2. Construcción de tests y análisis de ítems
45
Tabla 2.6. Puntuaciones en 2 ítems X1
X2
X
3 2 5 1
2 3 5 1
40 35 37 32
En el caso de un ítem dicotómico, podemos obtener la correlación ítem-test por tres procedimientos: 1. El primero consiste en obtener la correlación de Pearson entre la columna de puntuaciones en el ítem y la de puntuaciones en el test, como en el Ejemplo 2.3. 2. La correlación de Pearson entre una variable dicotómica y una continua recibe el nombre de correlación biserial puntual (Amón, 1984). Por tanto, un segundo procedimiento consiste en hallar la correlación biserial puntual, rbp, entre el ítem y el test: rbp =
X p − Xq SX
pq
[2.6]
Donde X p y X q son las medias en el test de los que acertaron el ítem y de los que no lo acertaron, SX es la desviación típica en el test y p es la proporción de evaluados que acertó el ítem. Por último, q = 1 – p. 3. Un tercer procedimiento cuando el ítem es dicotómico es la correlación biserial, rb. Se puede aplicar cuando una variable es continua (puntuaciones en el test) y otra es dicotómica (el ítem), pero la variable dicotómica se considera como el resultado de dicotomizar una variable continua. La correlación biserial es una estimación de lo que sería la correlación de Pearson entre ambas variables continuas (Amón, 1984). rb =
X p − X q pq SX y
[2.7]
El único elemento nuevo, y, es la ordenada que corresponde en la distribución normal a la puntuación que deja a su izquierda la probabilidad p. La correlación biserial puntual, en valor absoluto, es menor que la biserial para unos mismos datos. De hecho, rbp < 0,8rb (Lord y Novick, 1968, p. 340). Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener la correc , o correlación del ítem con el resto del test. Consiste en lación ítem-test corregida, r jX correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test después de restarle las puntuaciones del ítem cuyo indicador queremos obtener. La correlación entre un ítem y el resto del test suele ser inferior a su correlación ítem-test, pues en este caso
46
Medición en Ciencias Sociales y de la Salud se correlaciona una variable (el ítem) con otra (el test) en la que la primera variable está contenida. La correlación entre el ítem y el test puede ser artificialmente alta, por lo indicado, especialmente cuando el test tiene pocos ítems. Izard (2005) considera que el efecto es despreciable cuando el test tiene más de 20 ítems.
Ejemplo 2.4. Obtención de las correlaciones ítem-test e ítem-resto del test5 Hemos aplicado un test de cuatro ítems a cinco estudiantes. Sus puntuaciones se muestran en la Tabla 2.7. Tabla 2.7. Puntuaciones en 4 ítems de un test X1
X2
X3
X4
X
0 1 1 0 1
1 1 0 1 1
1 1 1 1 0
0 1 1 1 1
2 4 3 3 3
La correlación de Pearson entre el ítem X1 y el test X es 0,645. Aplicando la fórmula [2.6] se llega al mismo resultado:
rbp =
X p − Xq SX
pq =
(10 3) − (5 2) (3 5)(2 5) = 0,645 0,4
Para X1, la correlación biserial es: rb =
X p − X q pq (10 3) − (5 2 ) (3 5)(2 5) = = 0,819 SX y 0,3863 0,4
Comprobamos que rbp < 0,8rb = (0,8)(0,819) = 0,655. Sumando las puntuaciones en los ítems 2, 3 y 4, podemos obtener las puntuaciones en el resto del test para el ítem 1. Al correlacionar el ítem 1 con el resto del test para ese ítem (las puntuaciones de los cinco evaluados serían, respectivamente, 2, 3, 2, 3 y 2) se obtiene la correlación ítem-test corregida o correlación ítem-resto del test para el ítem 1, que es r1cX = −0,167. Nótese el fuerte descenso en el valor de la correlación (de 0,645 a –0,167), pues el test tiene sólo 4 ítems.
5
Los indicadores propuestos se obtienen mediante los programas de ordenador que se describen en el Apéndice. En el ejemplo 2.4 se detalla el cálculo de los indicadores para facilitar la comprensión de las fórmulas. El valor de la ordenada y puede extraerse de las tablas de la curva normal (p. ej., Amón, 1984) o calcularse directamente.
Capítulo 2. Construcción de tests y análisis de ítems
47
Se han propuesto otros muchos indicadores de discriminación. Oosterhof (1976) comparó 19 de ellos tras aplicarlos a 50 ítems. Comprobó que la ordenación (en discriminación) que hacían los 19 indicadores de los 50 ítems básicamente coincidía. De hecho, obtuvo que la mayoría de las correlaciones entre los órdenes superaron el valor 0,90 (la menor correlación fue 0,616). Veamos en el siguiente ejemplo la relación entre los cuatro indicadores de discriminación que hemos descrito.
Ejemplo 2.5. Comparación entre los índices de discriminación Hemos aplicado los cuatro índices de discriminación (D, correlación biserial, correlación biserial puntual y correlación biserial puntual corregida) a los 14 ítems dicotómicos de un test. La Figura 2.1 muestra los valores obtenidos. Figura 2.1. Indicadores de discriminación de 14 ítems
La gráfica muestra que los tres indicadores de discriminación que se basan en la correlación entre el ítem y el test (las líneas de trazo discontinuo) dan valores ordenados: los valores más altos corresponden a la correlación biserial (B en la gráfica), los medios a la biserial puntual (BP) y los menores a la biserial puntual corregida (BPC). El indicador D (trazo continuo) en estos datos da valores similares a la biserial puntual. Al correlacionar entre sí los valores de los 3 indicadores basados en la correlación, la menor correlación es 0,96 (entre la biserial puntual y la biserial puntual corregida), lo que muestra que la ordenacion de los 14 ítems sería básicamente la misma con cualquiera de ellos. Las correlaciones de estos 3 indicadores con D son 0,88 (con la biserial puntual corregida), 0,91 (biserial) y 0,96 (biserial puntual). Por tanto, en este ejemplo, se confirma la conclusión alcanzada por Oosterhof (1976) en el sentido de que los distintos indicadores aplicados a unos mismos ítems producen una ordenación similar de sus capacidades de discriminación.
48
Medición en Ciencias Sociales y de la Salud
Propiedades de las correlaciones ítem-test e ítem-resto del test 1. La correlación de Pearson (y, por tanto, la correlación biserial puntual) toma valores entre –1 y 1. La correlación biserial puede valer más de 1 o menos de –1. Los indicadores de la discriminación basados en las correlaciones ítem-test nos informan de si el ítem está midiendo lo mismo que la prueba globalmente; es decir, del grado en que el ítem contribuye a medir lo mismo que mide el test. Los ítems con correlaciones nulas miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende evaluar un rasgo o constructo unitario, debiera considerarse la posible eliminación de los ítems con correlaciones próximas a cero. Cuanto más se acerque a 1 el índice, mejor discrimina el ítem entre los que tienen puntuaciones altas y bajas en el test. En el Ejemplo 2.3 vimos que la correlación ítem-test del ítem Organizo actividades extracurriculares es mayor que la del ítem Asisto a clase regularmente, por lo que el primer ítem discrimina mejor entre los que tienen alta y baja satisfacción con los estudios que el segundo. Es decir, la satisfacción con los estudios se relaciona más con la organización de actividades extracurriculares que con la asistencia a clase. 2. Cuando la correlación ítem-test es negativa y de entidad, debemos cuestionar la cuantificación que se ha aplicado al ítem. Se ha podido proponer como opción correcta una que no lo es, o se ha podido tomar el ítem como directo cuando es inverso, o viceversa. 3. Crocker y Algina (1986) proponen que se tome como criterio mínimo de retención del ítem que la correlación sea significativamente distinta de cero. Dado que una correlación de Pearson puede considerarse significativa cuando
rxy N > z1−α / 2 , (Pardo,
Ruiz y San Martín, 2009, p. 350), con una muestra de 100 personas y nivel de confianza del 95%, se llega a la referencia 0,206. Valores de r menores de 0,2 nos llevarían a descartar el ítem. Schmeiser y Welch (2006) coinciden en que para un test normativo son deseables índices de discriminación superiores a 0,2. Kehoe (1995) fija la referencia en 0,15.
Ejemplo 2.6. Ejemplo de posible cuantificación incorrecta En una escala de Romanticismo, que hicieron nuestros estudiantes como práctica para aprender a construir un test de rendimiento típico, las correlaciones ítem-test corregidas de varios ítems se muestran en la Tabla 2.8. Se indica también qué ítems consideraron directos e inversos (D e I). Las correlaciones que se exponen son las halladas tras recodificar los ítems inversos, como se indicó en el apartado sobre cuantificación de las respuestas.
6
De rxy√100 > z0.975 = 1,96, se sigue que rxy > 0,196 ≈ 0.20.
Capítulo 2. Construcción de tests y análisis de ítems
49
Tabla 2.8. Correlaciones ítem-test corregidas de 5 ítems D I D D I
Escala de Romanticismo
rc
El amor es la razón de mi vida Preferiría que él/ella se me declarara por teléfono y sin rodeos Siempre que puedo, suelo sorprenderle con detalles inesperados Si me invita la primera noche a su casa, no vuelvo a mirarle a la cara Nunca me identifico con personajes de películas o cuentos
0,60 0,10 0,58 –0,27 0,47
Tres ítems, dos directos y uno inverso, tienen valores altos de la correlación entre el ítem y el resto del test (mayores de 0,47). Según el enunciado de los ítems, vemos que los muy románticos están de acuerdo en que el amor es la razón de sus vidas y que siempre que pueden sorprenden con regalos. Los muy románticos están en desacuerdo con el último ítem, pues es inverso. Hay que entender entonces que se identifican con personajes de películas y cuentos. El índice ítem-resto del test es cercano a cero (0,1) en el segundo ítem, lo que indica que los muy románticos no estarían especialmente de acuerdo ni en desacuerdo con ese ítem. De hecho, ¿por qué habrían de preferir los muy o poco románticos la declaración por teléfono? Por último, en un ítem, considerado por los estudiantes directo, se obtiene una correlación ítem-resto del test negativa y de cierta entidad (–0,27). Los estudiantes consideraron, al etiquetar el ítem como directo, que las personas muy románticas debían estar de acuerdo con el enunciado y recibir con disgusto una invitación a subir a casa al poco de conocerse. El análisis psicométrico revela que en la muestra en la que se aplicó el test (estudiantes universitarios) no es así, sino al contrario. En este caso convendría plantearse considerar el ítem como inverso y repetir el análisis psicométrico de todos los ítems tras recodificarlo como inverso.
Índice de validez A veces aplicamos tests no tanto porque estemos interesados en evaluar directamente el constructo que el test mide, sino porque sabemos que sus puntuaciones predicen bien una variable que interesa pronosticar. En un proceso de selección de personal, podemos aplicar un test de Responsabilidad no porque estemos directamente interesados en conocer las puntuaciones de los candidatos, sino porque se sabe (Salgado y Moscoso, 2008) que las puntuaciones en Responsabilidad ayudan a predecir el desempeño laboral. En el tema 5 estudiaremos los detalles dentro del apartado sobre evidencias de validez referida al criterio. Se suele llamar criterio a la variable que queremos predecir y nos solemos referir a ella con la letra Y. Se llama índice de validez de un ítem j, rjY, a la correlación7 entre las puntuaciones en el ítem y el criterio externo Y. Por ser rjY un coeficiente de correlación, toma valores entre –1 y 1, y elevado al cuadrado indica la proporción de la varianza de Y que puede explicar7
Lo ordinario es aplicar la correlación de Pearson, pero en ocasiones otras correlaciones pueden resultar más apropiadas para indicar la relación entre el ítem y el criterio. Si no se especifica nada más, se entiende que hablamos de la correlación de Pearson.
50
Medición en Ciencias Sociales y de la Salud se por el ítem8. Cuanto más alejado de cero esté, más fuerte es la relación y mayor la capacidad predictora del ítem en relación al criterio Y. La capacidad predictora del ítem no depende del signo de la correlación. Si el índice de validez de un ítem con un criterio de Puntualidad fuese positivo (de 0,25, por ejemplo), es muy posible que el índice de validez de ese mismo ítem con otro criterio, como Absentismo laboral, sea negativo; dada la relación inversa que cabe esperar entre Puntualidad y Absentismo.
Ejemplo 2.7. Cálculo del índice de validez Supongamos que las puntuaciones de 5 personas en Desempeño laboral son las que aparecen en la columna Y de la Tabla 2.9. Queremos construir un test de Responsabilidad que pronostique las puntuaciones en el criterio Y. La tabla muestra además las puntuaciones de las 5 personas en los tres ítems del test y en el test completo X. Tabla 2.9. Puntuaciones de 5 evaluados en 3 ítems, el test X, y un criterio Y X1
X2
X3
X
Y
2 3 0 5 4
3 1 4 1 3
5 0 5 0 0
10 4 9 6 7
8 2 2 4 5
Calculando la correlación de Pearson entre cada ítem y la columna Y se obtienen los índices de validez, que son 0,167 (ítem 1), 0,195 (ítem 2) y 0,293 (ítem 3). El ítem 3 tiene una relación más fuerte con el criterio que los otros dos.
El índice de validez informa de la relación entre el ítem y el criterio Y. El concepto análogo, pero referido al test, es el coeficiente de validez, que estudiaremos más adelante (tema 5). El coeficiente de validez de un test X en relación a un criterio Y, rXY, se puede obtener mediante la expresión (Lord y Novick, 1968, p. 332): J
∑S r
j jY
rXY =
j =1 J
∑S r
[2.8]
j jX
j =1
8
Lo habitual es que el índice de validez de un ítem sea menor que sus índices de discriminación basados en la correlación ítem-test, pues lo normal es que el ítem correlacione más con el test para el que se ha construido que con un criterio externo. Los índices de validez suelen ser especialmente bajos (próximos a cero) cuando los ítems son dicotómicos.
Capítulo 2. Construcción de tests y análisis de ítems
51
La expresión anterior permite obtener la capacidad predictora del test respecto al criterio Y a partir de las propiedades (la desviación típica, la correlación ítem-test y el índice de validez) de los J ítems que forman el test. Nos puede facilitar la selección de los ítems que más ayuden a construir un test con máxima capacidad predictiva del criterio Y.
Ejemplo 2.8. Relación entre el coeficiente de validez y los índices de validez En el Ejemplo 2.7, si calculamos la correlación de Pearson entre las columnas X e Y, se obtiene el coeficiente de validez del test formado por los tres ítems, que es rXY = 0,580. Tabla 2.10. Datos descriptivos para 3 ítems X1 X2 X3
Sj
rjX
rjY
SjrjX
SjrjY
1,924 1,342 2,739
–0,588 0,827 0,879
0,167 0,195 0,293
–1,131 1,110 2,408
0,321 0,262 0,802
A partir de los datos de la tabla podemos comprobar que la fórmula [2.8] proporciona ese mismo resultado: 3
∑S r
j jY
rXY =
j =1 3
∑S r
=
0,321 + 0,262 + 0,802 = 0,580. − 1,131 + 1,110 + 2,408
j jX
j =1
Siguiendo a Lord y Novick (1968) y a Muñiz (1992), entre otros, hemos definido el índice de validez de un ítem como la correlación de Pearson entre el ítem y el criterio Y. otros autores, por ejemplo Crocker y Algina (1986) y Gulliksen (1987), definen el índice de validez como dicha correlación multiplicada por la desviación típica del ítem. Análogamente, estos autores definen el índice de fiabilidad del ítem como la correlación ítem-test multiplicada por la desviación típica del ítem. La fiabilidad de un test es un concepto psicométrico que se estudiará en el tema siguiente y que nos indica su capacidad para dar puntuaciones similares a personas con el mismo nivel en el rasgo. El índice de fiabilidad de un ítem informa de la aportación del ítem a la fiabilidad del test. Por tanto, siguiendo estas definiciones, el coeficiente de validez del test tiene en el numerador la suma de los índices de validez de los ítems que forman el test y en el denominador la suma de los índices de fiabilidad. Es, por tanto, evidente que si queremos un test que pronostique bien el criterio debemos seleccionar los ítems con altos índices de validez y/o bajos índices de fiabilidad. La situación es paradójica (Muñiz, 1992), pues nos indica que podríamos conseguir mejorar la capacidad predictora de un test por la vía de seleccionar ítems que correlacionen menos con el test total (es decir, disminuyendo una propiedad positiva de un test,
52
Medición en Ciencias Sociales y de la Salud como es su fiabilidad). Lo expuesto muestra que no siempre los ítems con mayores índices de discriminación resultan los más apropiados a los objetivos específicos del test. Visto de otro modo, al eliminar ítems con bajas correlaciones ítem-test, con el propósito de maximizar la fiabilidad del test, seguramente afectaremos negativamente a su coeficiente de validez (Izard, 2005).
Consideraciones adicionales sobre el análisis de ítems Livingston (2006) y Schmeiser y Welch (2006) señalan otros asuntos a tener en cuenta para un correcto análisis de ítems. El análisis de los ítems se complica en los tests de velocidad. En los tests de rendimiento óptimo, si los evaluados no han tenido tiempo para dar una respuesta meditada a todos los ítems, los que estén al final serán los que resulten más afectados. En estos ítems tendremos respuestas meditadas y respuestas casi aleatorias, lo que no ocurrirá en los que se encuentren al principio. El índice de dificultad por tanto resultará afectado por la posición que ocupa el ítem en el test. En el apartado sobre formatos y tipos de ítems se ha expuesto la norma a seguir para convertir los ítems sin respuesta en ítems no alcanzados o en omisiones. El Ejemplo 2.9 muestra su impacto en los índices de dificultad de los ítems.
Ejemplo 2.9. Índices de dificultad e ítems sin respuestas La aplicación de la regla para considerar un ítem sin respuesta como omisión o como valor perdido a los datos del Ejemplo 2.2 daría lugar a la Tabla 2.11. Hay tres ítems dejados sin responder. En el caso del evaluado 4 sus dos ítems dejados sin responder siguen a su única respuesta, luego habrían de clasificarse como ítems no alcanzados o valores perdidos (y no se convertirían en errores). En el caso del evaluado 5, el ítem dejado sin responder tiene detrás un ítem con respuesta y por tanto debe ser clasificado como omisión (y convertido en error). Se indica en la tabla con la cuantificación de 0 entre paréntesis. Tabla 2.11. Puntuaciones en 3 ítems X1
X2
X3
X
1 1 0 1 0
1 0 1 (0)
0 0 1 1
2 1 2 1 1
Los índices de dificultad de los ítems 1 y 3 no cambian, pero sí el del ítem 2, que pasará a ser p2 =A2/N2= 2/4= 0,5, en vez de 0,67.
Capítulo 2. Construcción de tests y análisis de ítems
53
Otro asunto a considerar es el de la posible multidimensionalidad del test. Vamos a ver en temas posteriores procedimientos para detectar si tras las puntuaciones en el test hay sólo una dimensión (lo responsable que una persona es, por ejemplo), dos dimensiones (lo responsable y lo emocionalmente estable, por ejemplo) o más. En el caso de tests multidimensionales tiene más sentido analizar conjuntamente los ítems que se relacionan con cada dimensión, que un análisis conjunto de todos ellos. En el caso de tests educativos, Kehoe (1995) recomienda explícitamente que sólo se haga el análisis conjunto de los ítems que evalúen un material homogéneo (es decir, un material en el que es poco probable que un estudiante lo haga bien en una parte y mal en otra). Si el material a evaluar no fuese homogéneo, habría que hacer un análisis conjunto de los ítems de cada bloque homogéneo de contenidos. La estrategia anterior puede llevar a tener que hacer el análisis de un conjunto muy reducido de ítems, lo que también plantea problemas. Para Livingston (2006), un análisis de 20 ítems puede ser adecuado; pero de 10, quizás no. Cuando hay pocos ítems el impacto de uno en el test puede ser fuerte. Hemos visto procedimientos para corregir ese impacto, como la correlación ítem-test corregida, pero este indicador tiene el inconveniente de que se correlaciona cada ítem con un test diferente (el test menos el ítem del que estamos hallando el indicador), lo que dificulta la comparación de los índices de los distintos ítems. Otro asunto a tener en cuenta es la presencia de ítems de baja calidad en el test. Si un test tiene sólo algún ítem deficiente, la correlación del ítem deficiente con el test nos dirá que efectivamente lo es. Si el test tuviese muchos ítems deficientes, la correlación podría no decir demasiado, ¡podría incluso informar erróneamente de la calidad de los buenos ítems! En los procedimientos para el estudio del funcionamiento diferencial de los ítems es habitual generar una medida del constructo de interés que se va progresivamente depurando; es decir, de la que se van eliminando los ítems que parecen no medir lo que miden los demás. Algo similar cabría hacer en el análisis de ítems, para que la medida del constructo no esté contaminada por los ítems deficientes. Un último asunto tiene que ver con las características de la muestra de evaluados en la que obtenemos los indicadores. Preparamos un examen, lo aplicamos y hacemos el correspondiente análisis de ítems. ¿Estamos seguros de que un ítem que resulte fácil (al corresponderle, por ejemplo, un valor p = 0,80) volverá a ser fácil si lo volviésemos a aplicar? ¿Estamos seguros de que un ítem con una correlación ítem-test negativa volverá a obtener un índice negativo en otra aplicación? La respuesta a estas preguntas requiere, al menos, dos consideraciones. La primera es que cabe sólo esperar valores similares cuando las dos muestras de estudiantes tengan características similares. Si una muestra tuviese un nivel alto de conocimiento y otra un nivel bajo, evidentemente, no cabe esperar que el índice de dificultad de un ítem sea igual en ambas aplicaciones. Aceptando que las dos muestras tengan similares características, hay que tener en cuenta el tamaño de la muestra. El índice de dificultad, el de discriminación, etc. son indicadores que fluctúan muestralmente. Supongamos, por ejemplo, que un ítem de Matemáticas tiene un índice de dificultad de 0,6 al ser aplicado a todos los estudiantes de la Comunidad de Madrid. Si lo aplicásemos a dos muestras de 100 estudiantes extraídos al azar de la citada población, muy probablemente no obtendremos que sea acertado por un mismo número de estudiantes en ambas muestras. Es probable que en ninguna de las dos sea acertado exactamente por 60 estudiantes. Los posibles valores del índice de dificultad vendrían determinados por la distribución muestral de la proporción. Por lo tanto, cuanto menor sea el tamaño de la mues-
54
Medición en Ciencias Sociales y de la Salud tra en la que se aplica el test, menos debemos fiarnos de los particulares valores de los indicadores, y tanto más probable es que, de haber aplicado el test a otra muestra, obtengamos resultados diferentes. En un estudio de simulación9 hemos comprobado que cuando se aplica un test de 20 ítems a muestras de 50 personas simuladas extraídas de la misma población los índices de dificultad de los ítems de una muestra difieren poco de los obtenidos en las demás. Esto no ocurre, sin embargo, con las correlaciones ítem-test corregidas. De hecho, para que las correlaciones ítem-test corregidas sean similares en distintas muestras, deben estar formadas al menos por 400 personas simuladas. Conviene, por tanto, que la muestra en la que aplicamos el test tenga un tamaño razonable si se quiere extrapolar a otras aplicaciones los resultados obtenidos en un análisis de ítems. Morales (2009) recomienda muestras de 400 estudiantes o más. Crocker y Algina (1986) sugieren que no tengan menos de 200 evaluados y recomiendan, si el tamaño muestral lo permite, que se haga el análisis de ítems sobre una mitad de la muestra y se informe de los indicadores de los ítems y del test con los datos de la otra mitad10. Burton (2001a) concluye que tanto el índice D como las correlaciones ítem-test son muy poco estables, a no ser que se obtengan en muestras mucho mayores de las habituales en los contextos educativos. Su utilidad debería limitarse a comprobar las características de los ítems que resultan diagnosticados como muy buenos o muy malos. Estos últimos son los más interesantes porque pueden revelar que hay algún error en la clave de respuestas. Concluye que hay que quitar importancia a la discriminación de los ítems en la evaluación de la calidad de los exámenes.
Análisis de las opciones incorrectas de respuesta En relación con el análisis de los ítems se encuentra también el estudio de los patrones de respuesta que se dan a las diferentes opciones de los ítems de opción múltiple. Un modelo muy simple, que desarrollaremos más extensamente en el apartado final de este tema, de cómo una persona responde a un ítem de opción múltiple, supone que: 1. La persona conoce la opción correcta o no la conoce. Si la conoce, responde y acierta necesariamente. Es decir, no se contempla la posibilidad de que conociendo la respuesta, por despiste u otras razones, pueda seleccionar una opción incorrecta. 2. Si no la conoce, tiene dos opciones: puede no responder o puede responder al azar entre las K opciones disponibles. Es este caso, se supone que elige las opciones con equiprobabilidad y por tanto la probabilidad de acierto es 1/K y la de fallo es (K – 1)/K. Supongamos que 300 personas responden a un ítem de opción múltiple con 4 opciones (A, B, C y D) siguiendo el modelo anterior. Supongamos que ninguno sabe la respuesta correcta (la B, en nuestro caso marcada con un asterisco). Según el modelo, cada evaluado tendrá que responder al azar y la probabilidad de elegir cada opción es 1/4. Por tanto, el 9
Los detalles pueden solicitarse a los autores.
10
Ésta es una estrategia común de control de lo que se viene llamando “capitalización en el azar” o “sobreaprendizaje”. Tal estrategia reduce el efecto de las singularidades de la muestra en los valores de los indicadores.
Capítulo 2. Construcción de tests y análisis de ítems
55
número esperado de personas que deberá elegir cada opción es 300(1/4) = 75, como muestra la siguiente tabla:
Frecuencia esperada
A
B*
C
D
75
75
75
75
Supongamos que 100 de los 300 saben la respuesta. Según el modelo, esos 100 elegirán la opción correcta, B. Los restantes 200, al no saber la respuesta, elegirán al azar una de las cuatro opciones con equiprobabilidad. Las frecuencias esperadas de las 4 opciones se muestran en la siguiente tabla:
Frecuencia esperada
A
B*
C
D
50
100 + 50
50
50
Si supiesen 200 la respuesta correcta, la correspondiente tabla sería:
Frecuencia esperada
A
B*
C
D
25
200 + 25
25
25
Por último, si los 300 saben la respuesta, la tabla resultante sería:
Frecuencia esperada
A
B*
C
D
0
300
0
0
Por tanto, en un ítem en el que se responde según el modelo expuesto, debe ocurrir que: 1) la alternativa correcta sea la más seleccionada, y 2) que las alternativas incorrectas lo sean por un número similar de personas. Estas dos circunstancias se cumplen exactamente en las tablas precedentes. En la aplicación real de un ítem no cabe esperar que la frecuencia de elección de las alternativas incorrectas coincida exactamente. Lo que sí debiera ocurrir es que se dé aproximadamente el patrón descrito.
Ejemplo 2.10. Estudio de las opciones incorrectas de respuesta Observemos los porcentajes de elección en las cinco opciones de tres ítems que se presentan en la Tabla 12.2. El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la mayor parte de la muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por un porcentaje parecido de personas. El ítem 2 no sería muy adecuado, pues la muestra selecciona en mayor grado una alternativa incorrecta (la A) como correcta; al menos, debería pensarse en reformular esa alternativa incorrecta. En el ítem 3, dos alternativas incorrectas apenas son seleccionadas, con lo que se consideran como alternativas no funcionales. Habría que reformular esas dos opciones de respuesta.
56
Medición en Ciencias Sociales y de la Salud Tabla 2.12. Porcentajes de elección de las opciones en 3 ítems Opción correcta X1 X2 X3
B C A
Porcentaje elección de las opciones A 17 35 60
B 40 15 1
C 14 21 21
D 13 17 18
E 16 12 0
Las opciones que no son elegidas tienen especial importancia, pues esos ítems tienen K opciones, pero funcionalmente tienen menos. Esta situación plantea dudas sobre el proceder adecuado cuando hay que aplicar fórmulas que requieren especificar el número de opciones; por ejemplo, a la hora de obtener el valor de p corregido por azar, aplicando la expresión [2.3]. Un comentario sobre la adecuación al modelo expuesto. Hemos propuesto que hay que elegir con cuidado los distractores. Hemos propuesto incluso que una buena estrategia es proponer como distractores los errores que comenten los estudiantes. Por ejemplo, un ítem de Matemáticas podría ser éste: ¿Cuál es el resultado de la operación 6 + (2–3)3? a) –13 b) 5 c) 7
La opción correcta es la b. El distractor a resulta de la operación 6 + (23–33) y el distractor c, de 6 + (1)3. Un test construido con ítems así permitiría conocer el nivel de cada estudiante en Matemáticas, pero no sólo eso. Los distractores elegidos darían pistas de qué no saben, qué tienen los estudiantes mal aprendido. Pero, ¿no es esto contradictorio con el modelo propuesto? Según el modelo, los evaluados que han elegido las opciones incorrectas lo han hecho porque no sabían la respuesta correcta, han decidido no omitir y han respondido al azar entre todas las opciones disponibles con equiprobabilidad. ¿Qué podemos concluir cuando una opción no es elegida, o una lo es más que la opción correcta? Una primera conclusión es que el modelo no se ha cumplido. Si los errores, como plantea el modelo, son exclusivamente resultado de las respuestas al azar, no se puede explicar que una opción no sea elegida por nadie y otra, por muchos. Un modelo alternativo es que los estudiantes, cuando se penalizan los errores, no responden al azar sino que eligen la opción que creen correcta. Algunos eligen la realmente correcta, y otros, que saben menos, eligen la opción incorrecta que consideran correcta. Según este modelo, es posible que en una pregunta difícil sólo unos pocos elijan la opción correcta y la mayoría se decante por las distintas opciones incorrectas, que no necesariamente habrían de ser igual de atractivas. Cada distractor plantea una solución considerada correcta por los que saben poco y la frecuencia de elección de cada una indicaría qué proporción de estudiantes tiene el correspondiente aprendizaje incorrecto. Por tanto, no cabe esperar que la proporción de evaluados que tengan el conocimiento erróneo que les lleva al distractor a tenga que ser similar que la proporción de los que tengan el aprendizaje incorrecto que lleva al c, y tampoco que tenga que ser menor que la proporción de estudian-
Capítulo 2. Construcción de tests y análisis de ítems
57
tes que saben la respuesta correcta. Kehoe (1995) realiza las siguientes recomendaciones en relación a cómo se ha de proceder tras el estudio de las opciones incorrectas: a) Hay que reemplazar o eliminar los distractores que no son elegidos. b) No debiera preocuparnos que los distractores no sean elegidos por el mismo número de estudiantes, pues diferentes tipos de errores pueden ser cometidos por distinto número de estudiantes. c) Que la mayoría de los estudiantes falle un ítem no implica que deba ser cambiado, aunque los ítems en los que ocurre esto debieran analizarse detenidamente. d) Hay que sospechar de un ítem en el que un distractor es más elegido que todas las demás opciones juntas, en especial si la elección del distractor correlaciona positivamente con la puntuación en el test. Los indicadores de discriminación vistos se pueden aplicar también a las opciones incorrectas. El índice de discriminación D aplicado a cada distractor nos diría si hay diferencia o no en la tasa de elección del distractor entre los subgrupos superior e inferior. Algo similar puede hacerse con los índices basados en la correlación ítem-test o ítem-resto del test.
Ejemplo 2.11. Correlación ítem-test en el estudio de las opciones incorrectas Los autores generamos el siguiente ítem de Razonamiento: Descubra el elemento que sigue en la serie 0, 1, 10, 11, 100, 101, ¿? a) 102 b) 200 c) 110 d) 1000
Aplicado el ítem a una muestra de N evaluados, conocemos la opción que cada uno ha elegido y la puntuación en el test. Con estos resultados, podemos generar la Tabla 2.13. La segunda columna contiene la opción elegida por cada evaluado. Tabla 2.13. Opción elegida por cada evaluado y puntuación en el test Evaluado
Opción elegida
a
b
c
d
X
1 2 3 4 5 6 7 . .
a d b a c c b . .
1 0 0 1 0 0 0 . .
0 0 1 0 0 0 1 . .
0 0 0 0 1 1 0 . .
0 1 0 0 0 0 0 . .
30 23 32 25 37 12 19 . .
N
d
0
0
0
1
23
Las columnas a, b, c y d muestran un 1 y 3 ceros (1 en la columna que corresponde a la opción elegida). La proporción de evaluados que eligió cada opción fue: 0,01 (a), 0,04 (b), 0,29 (c) y 0,56 (d). La correlación de las columnas 3, 4, 5 y 6 de la tabla con la puntuación
58
Medición en Ciencias Sociales y de la Salud en el test, X, fue –0,09 (a), –0,12 (b), 0,07 (c) y 0,13 (d). Nótese que las proporciones y las correlaciones serían los índices de dificultad y discriminación, respectivamente, si consideramos cada opción como la opción correcta. El estudio de estos valores da pistas sobre si la opción propuesta como correcta efectivamente lo es. ¿Qué nos dicen los anteriores resultados de la calidad del ítem? Los creadores del ítem propusimos como opción correcta la d (la serie sería: 0, 1, 10, 11, 100, 101, 1000, 1001, etc.). La correlación ítem-test de esa opción es positiva (0,13), aunque baja. Lo sorprendente es que otra opción, en principio falsa, dio una correlación también positiva con la puntuación en el test. Volvimos a leer el ítem y nos dimos cuenta de que la serie, si se entiende expresada en código binario11, debe continuar con la opción c (110). Por tanto, la opción c es también una opción correcta posible. El estudio de la discriminación de las opciones del ítem nos ha indicado que tiene de hecho dos soluciones. Otro resultado de interés es la escasa frecuencia de elección de los otros dos distractores. El ítem se aplicó en una oposición, donde los candidatos se juegan un puesto de trabajo y muchos años de preparación, y se penalizaban los errores. En estos contextos, los que no saben la respuesta prefieren dejar el ítem en blanco a responder al azar. La proporción de omisión en este ítem fue del 10%. Esta proporción pudo también haberse incrementado por los opositores que se dieran cuenta de las dos soluciones posibles. La opción 1 no ha sido elegida casi por nadie. En resumen, es un ítem manifiestamente mejorable o directamente descartable.
Análisis gráfico de ítems de opción múltiple Una estrategia complementaria, más que alternativa, de hacer el análisis de ítems consiste en recurrir a gráficos. Livingston (2006) y Dowing y Haladyna (1997) recomiendan esta estrategia. Supongamos que tenemos un test formado por ítems de 3 opciones. Se puede fácilmente obtener la gráfica que se muestra a continuación (Figura 2.2). Lo primero que hacemos es dividir la muestra en varios subgrupos (por lo general, 5) con un número de evaluados similar. En el ejemplo que sigue el primer subgrupo está formado por las personas que tienen las peores puntuaciones en el test (menores de 12); el segundo subgrupo, por los que tienen las puntuaciones 13 ó 14; el tercero, por los que tienen puntuaciones entre 15 y 17; el cuarto por los que tienen puntuaciones entre 18 y 20; y el quinto por las mejores puntuaciones (superiores a 20). Se ha procurado que en cada subgrupo haya alrededor de un 20% de la muestra. En el eje de ordenadas se muestra la proporción de evaluados del correspondiente subgrupo que ha elegido cada una de las tres alternativas y la omisión. En la gráfica puede comprobarse que en el subgrupo con peor rendimiento en el test, alrededor de un 46% ha dejado el ítem sin responder, alrededor de un 22% ha elegido la opción 2, un 16% ha elegido la opción 1 y el restante 16% la opción 3. Similar información se ofrece para cada uno de los cinco subgrupos.
11
Pues 0 en binario es, en decimal, 0; 1 es 1; 10 es 2; 11 es 3; 100 es 4; y 101 es 5. Por tanto, el término que sigue a 101 podría ser 110 (en decimal, 6), que aparece como opción c.
Capítulo 2. Construcción de tests y análisis de ítems
59
Figura 2.2. Elección de las opciones de un ítem en función de la puntuación en el test
Cada curva muestra cómo funciona la opción en los distintos subgrupos. En el caso de la opción correcta, cabe esperar que sea tanto más elegida cuanto mayor sea la puntuación en el test. Es decir, a la opción correcta deberá corresponder una curva creciente. La opción especificada como correcta en el ítem es la opción 3. En las opciones incorrectas o distractores debe ocurrir lo contrario: la proporción de personas que elige el distractor debe ser menor cuanto mayor es la puntuación en el test. Por lo tanto, cabe esperar curvas decrecientes. En la gráfica vemos que la curva es decreciente, aunque muy ligeramente, para el distractor 1 y creciente para el distractor 2. Parece, por tanto, que el distractor 2 no está funcionando bien y el 1 tampoco discrimina demasiado entre los que tienen puntuaciones altas y bajas en el test. Discrimina mejor la omisión. Otra información útil que nos da la gráfica es la proporción de elección de cada opción. Vemos que la opción 1 es muy poco elegida (sólo pasa, y ligeramente, del 10% en el subgrupo de los que menos puntuación han tenido en el test). Sin embargo, la proporción de omisión es la más alta en todos los subgrupos menos el último (que es sobrepasada por la opción correcta). En el análisis cuantitativo, los indicadores psicométricos de este ítem se presentan en la Tabla 12.4. Se aprecia la alta proporción de omisiones y la baja tasa de elección del distractor 1. Los índices de discriminación de la opción correcta (marcada con un asterisco) son más bien bajos (sólo uno de los dos supera y por poco el valor 0,2). El distractor 2 muestra indicadores de discriminación positivos, aunque muy bajos, cuando los debiera dar negativos, como los da el distractor 1. En conjunto, puede decirse que la calidad del ítem es baja. Tabla 2.14. Indicadores de las 3 opciones y de la omisión Proporción de elección (p) Correlación ítem-test (rjX) Índice de discriminación (D)
1
2
3*
Omisión
0,075 –0,127 –0,091
0,226 0,032 0,067
0,252 0,224 0,180
0,447 –0,154 –0,156
60
Medición en Ciencias Sociales y de la Salud
Ejemplos de análisis de ítems Se muestran tres ejemplos. El primero corresponde a un examen con preguntas de opción múltiple; el segundo, a un test de rendimiento óptimo con preguntas abiertas; y el tercero, a un test de rendimiento típico con ítems de categorías ordenadas.
Ejemplo 2.12. Análisis de un examen de opción múltiple Hemos aplicado un examen de 14 ítems de opción múltiple (3 opciones) sobre los contenidos de este tema a 87 estudiantes que cursaban la asignatura de Introducción a la Psicometría. Los estudiantes respondieron sabiendo que la calificación obtenida no tendría repercusión alguna en su nota final y con la instrucción de no dejar ítems sin responder. El análisis psicométrico comienza con la creación del archivo de datos, que consta de tantas filas como evaluados y tantas columnas como ítems. Para la obtención de los resultados que siguen hemos utilizado los programas TAP (Brooks y Johanson, 2003) y SPSS. Unos primeros datos de interés tienen que ver con la distribución de frecuencias de las puntuaciones en el test de los 87 estudiantes. El número medio de aciertos ha sido 9,149, el 65,4% de los 14 aciertos posibles. En proporción, 0,65 es también la media de los índices de dificultad p de los 14 ítems. Este valor incluye los aciertos que puedan haberse obtenido respondiendo al azar. En este test la consideración es relevante, pues pedimos a los estudiantes que no dejasen respuestas sin contestar. Aplicando la fórmula [2.3], obtenemos la proporción media de acierto corregida, pc = 0,65 – (1 – 0,65)/2 =0,48, que queda muy cerca del valor 0,5 de referencia. Una primera conclusión del examen es que su nivel de dificultad medio es apropiado. Por tanto, los ítems facilitan que el test tenga variabilidad. La varianza de las puntuaciones en el examen resultó ser 4,15. La Tabla 2.15 muestra para cada ítem el índice de dificultad (p) y cuatro indicadores de la discriminación: el índice de discriminación (D), la correlación biserial (rb), la correlación biserial puntual (rbp) y la correlación biserial puntual corregida (rcbp). El primer ítem ha sido acertado por 74 de los 87 estudiantes. El índice de dificultad p es 0,85 (=74/87), el índice de discriminación D es 0,08. La correlación biserial es 0,31, la biserial puntual ítem-test es 0,20 y la correlación biserial puntual corregida, o ítem-resto del test, es 0,03. La tabla anterior proporciona similar información de los restantes 13 ítems. No se han obtenido índices de discriminación negativos, excepto la correlación biserial puntual corregida del ítem 11. En todos los ítems la correlación biserial puntual está por encima de 0,20. En general, los ítems no plantean problemas de discriminación, aunque la correlación ítem-test corregida está muy cerca de cero en varios ítems.
Capítulo 2. Construcción de tests y análisis de ítems
61
Tabla 2.15. Resultados del análisis de 14 ítems de opción múltiple Discriminación
Ítem
Dificultad p
D
rb
rbp
rbpc
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0,85 0,78 0,87 0,63 0,48 0,70 0,28 0,82 0,62 0,60 0,63 0,83 0,61 0,45
0,08 0,38 0,10 0,31 0,46 0,47 0,46 0,19 0,22 0,31 0,22 0,25 0,45 0,56
0,31 0,51 0,34 0,36 0,52 0,55 0,55 0,30 0,36 0,37 0,27 0,45 0,54 0,62
0,20 0,37 0,21 0,28 0,41 0,42 0,41 0,21 0,28 0,29 0,21 0,30 0,43 0,49
0,03 0,17 0,05 0,05 0,18 0,21 0,20 0,02 0,04 0,05 –0,03 0,12 0,21 0,27
Analicemos las tasas de elección de las opciones incorrectas del ítem 4, que era: “La Comunidad Valenciana tiene a) más de 3 millones de habitantes, b) cinco aeropuertos, c) menos de tres millones de habitantes.” ¿Cuál es el principal fallo del ítem anterior? 1) Las opciones no están dispuestas verticalmente. 2) Da pistas sobre la respuesta correcta. 3) Evalúa sólo el recuerdo.
La Tabla 2.16 muestra la proporción de la muestra total que ha elegido cada una de las tres opciones (primera fila), la proporción que ha elegido cada opción del subgrupo superior (segunda fila) y del subgrupo inferior (tercera fila). La cuarta fila contiene la diferencia entre las proporciones que aparecen en las filas segunda y tercera (es decir, el índice de discriminación D de cada opción). Las dos últimas filas muestran las correlaciones ítem-test e ítem-resto del test si se toma cada opción como la opción correcta. En la Tabla 2.16 comprobamos que la diferencia entre la proporción de acierto del grupo superior e inferior (0,31) coincide con el valor del índice de discriminación D para el ítem 4 en la Tabla 2.15. En el grupo completo la opción más elegida es la correcta (opción 2). De las dos opciones incorrectas, la opción 1 es elegida por un 31% de los estudiantes, mientras que la 3 lo es sólo por el 6%. La opción 1 está funcionando como un buen distractor, pues efectivamente en una de las recomendaciones expuestas en el apartado Redacción de ítems de opción múltiple se afirma que hay que disponer las opciones verticalmente, y ciertamente el ítem incumple esta recomendación. Los estudiantes de mayor conocimiento seguramente saben que el ítem incumple esa recomendación, pero se dan cuenta de que incumple otra más importante. Como está redactado el ítem, las opciones a y c son exhaustivas, pues la Comunidad Valenciana ha de tener más o menos de 3 millones de habitantes, por lo que la opción correcta no puede ser la opción 1. Por tanto, el
62
Medición en Ciencias Sociales y de la Salud principal fallo del ítem es que da pistas sobre la opción correcta. El distractor 3 ha sido muy poco elegido. Habría que cambiarlo por otro. La presencia de la palabra sólo ayuda quizás a hacer poco plausible el distractor, pues es difícil que un ítem evalúe sólo algo. Se podría cambiar ese distractor por La idea principal no está en el enunciado, que se refiere a otra recomendación que el ítem incumple pero que es también menos importante que lo indicado por la opción 2. Tabla 2.16. Indicadores de las 3 opciones 1
2
3
Completo 27% Superior (ps ) 27% Inferior (pi ) Diferencia (ps–pi ) rbp
0,31 0,15 0,44 –0,29 –0,25
0,63 0,81 0,50 0,31 0,28
0,06 0,04 0,06 –0,02 –0,09
rbpc
–0,04
0,05
–0,02
Al aplicar el indicador D a los dos distractores, vemos que al 1 corresponde un indicador negativo de –0,29, mostrando que ha sido elegido preferentemente por los estudiantes del subgrupo inferior. El valor de D en el otro distractor, el 3, está muy próximo a cero. En cualquier caso, sólo 5 personas de la muestra total han elegido esa opción. De esas 5, una pertenece al subgrupo superior y dos al inferior. Cuando la frecuencia total de elección del distractor es tan baja no es posible obtener diferencias de entidad entre los subgrupos. Figura 2.3. Elección de las opciones de un ítem en función de la puntuación en el test
La Figura 2.3 muestra la proporción de estudiantes que ha elegido cada alternativa dentro del subgrupo con puntuaciones bajas (33% de peores calificaciones en el test), medias (33% de puntuaciones centrales) y altas (34% de puntuaciones mejores). Se han formado sólo tres subgrupos por tener la muestra sólo 87 estudiantes. Se aprecia el adecuado funcionamiento del distractor 1 y de la opción correcta 2. El distractor 3 apenas ha sido elegido en ninguno de los subgrupos.
Capítulo 2. Construcción de tests y análisis de ítems
63
En todos los items la correlación biserial puntual y la biserial están por encima de la referencia 0,20, lo que sugiere que ningún ítem requiere una revisión profunda. La Figura 2.4 muestra que de los cuatro ítems con menores valores de la biserial puntual, tres (ítems 1, 3 y 8) de ellos resultaron muy fáciles, con valores p superiores a 0,80. Como se ha comentado anteriormente, resulta complicado que ítems muy fáciles o muy difíciles sean a la vez discriminativos. Oosterhof (1976) encontró que cuanto más se aleja de 0,5 el índice de dificultad p del ítem, menores suelen ser los índices de discriminación. Figura 2.4. Relación entre los índices de dificultad y de discriminación
El análisis visto puede extenderse a un examen compuesto por J preguntas abiertas. En ese caso, obtendríamos la media como indicador de la dificultad. Prestaríamos atención a la varianza de cada pregunta. En principio, como ocurre en el caso de ítems dicotómicos, los ítems que tienen más varianza son los que más ayudan a que el test tenga varianza. Por tanto, una pregunta con varianza nula o casi nula, en la que la mayoría de los estudiantes hayan obtenido la misma puntuación, no parece en principio una buena pregunta, aunque también aquí cabe hacer la salvedad de que puede tener sentido mantener algunas preguntas muy fáciles si se introducen para constatar el dominio de conocimientos fundamentales. El indicador de la capacidad discriminativa de cada pregunta sería la correlación de Pearson entre las puntuaciones en cada ítem y la puntuación en el test. Cabe también obtener la correlación de Pearson entre las puntuaciones en la pregunta y en el resto del test, si son pocas las preguntas. Si tenemos una medida en un criterio externo que nos interese predecir, podríamos obtener el índice de validez de los ítems. En los dos ejemplos siguientes se obtienen e interpretan todos estos indicadores con datos reales.
Ejemplo 2.13. Análisis de ítems abiertos En la parte práctica de un examen el estudiante ha de responder a 8 preguntas abiertas, puntuadas cada una entre 0 y 1. La nota en el examen práctico es la suma de las califica-
64
Medición en Ciencias Sociales y de la Salud ciones en sus 8 ítems. La Tabla 2.17 muestra la media, la varianza y la correlación ítemresto del test de cada ítem. El número de estudiantes del examen ha sido 68. Tabla 2.17. Resultados del análisis de 8 ítems Ítem
Media
Varianza
Correlación ítem-resto del test
1 2 3 4 5 6 7 8
0,79 0,37 0,12 0,92 0,77 0,69 0,64 0,36
0,10 0,11 0,09 0,07 0,12 0,09 0,20 0,16
0,06 0,26 –0,02 0,16 0,26 0,40 0,31 0,21
Se aprecia en la tabla que las preguntas han resultado muy diferentes en dificultad. La 4 ha resultado muy fácil (su media, 0,92, está muy cerca de la máxima puntuación posible, 1). La 3 ha resultado muy difícil (su media, 0,12, está cerca de cero). Los ítems 6 y 7 difieren poco en dificultad (sus medias son 0,69 y 0,64), pero más en varianza. El ítem 7, en principio, ayuda más que el ítem 6 a que la nota en el examen tenga variabilidad. La última columna muestra que cinco de los ocho ítems correlacionan más de 0,20 con el resto del test. En el ítem 4 la correlación está ligeramente por debajo de ese valor. En dos ítems (1 y 3) la correlación es muy próxima a cero y esos ítems no parecen relacionarse con el examen práctico en su totalidad.
Ejemplo 2.14. Análisis de ítems de categorías ordenadas Los autores hemos elaborado una escala de 12 ítems para medir Estabilidad Emocional. Cada ítem es un adjetivo y el evaluado debe indicar cómo de bien le describe, seleccionando una de las 5 categorías disponibles (Muy mal, Mal, Ni bien ni mal, Bien, Muy bien). Los principales resultados del análisis de ítems (media, desviación típica y correlación ítem-test corregida) se muestran en la Tabla 2.18. Lo primero que llama la atención son los valores tan elevados de las medias12. Cada ítem se puntuó entre 1 y 5 (ítems directos) o entre 5 y 1 (ítems inversos). Por tanto, en los ítems directos, al obtenerse medias por encima de 4, prácticamente todos los evaluados consideran que ser feliz, ser una persona madura… una persona equilibrada les describe bien o muy bien. Igualmente, en los ítems inversos, por superar las medias el valor 4, consideran que ser irritable, malhumorada… y ser una persona con sentimientos de culpa les describe mal o muy mal. Las desviaciones típicas son pequeñas, como cabe esperar cuando las medias son tan altas. Las correlaciones de cada ítem con el resto del test son todas positivas, significativamente distintas de 12
Los datos se han obtenido en un proceso selectivo y muy probablemente las respuestas han sido parcialmente falseadas (deseabilidad social) para acomodarse al perfil psicológico que demanda el puesto.
Capítulo 2. Construcción de tests y análisis de ítems
65
cero, y mayores de la referencia 0,2. Por tanto, todos los ítems tienen una adecuada discriminación y están contribuyendo a medir lo que se pretende medir con el test. No parece, por tanto, que haya que reconsiderar o anular ninguno de los 12 ítems. Tabla 2.18. Resultados del análisis de 12 ítems de categorías ordenadas Soy una persona… Feliz Estable Madura Optimista Equilibrada Coherente Irritable Malhumorada Miedosa Envidiosa Desanimada Con sentimientos de culpa
Media
Desviación típica
Correlación ítem-test corregida
4,39 4,43 4,28 4,32 4,43 4,26 4,33 4,34 4,13 4,31 4,35 4,25
0,583 0,559 0,537 0,577 0,576 0,578 0,614 0,568 0,564 0,611 0,596 0,794
0,423 0,586 0,521 0,482 0,571 0,486 0,542 0,594 0,438 0,491 0,574 0,381
Corrección de los efectos del azar En los tests formados por ítems de opción múltiple podemos sobrestimar el nivel de rendimiento de algunas personas, dado que algunos de sus aciertos han podido producirse por haber respondido al azar, y no por saber la opción correcta. El problema entonces consiste en establecer un procedimiento para descontar del número total de aciertos (X) los que supuestamente se han producido por haber respondido al azar (Xa). Supongamos que dos estudiantes saben lo mismo y responden al mismo test, que consiste en 100 preguntas con formato verdadero-falso. Los dos saben 60 preguntas. El primero responde a las 60 preguntas que sabe y omite las 40 que no sabe. Su puntuación en el test, su número de aciertos, será 60. El segundo estudiante responde a las 60 preguntas que sabe y decide responder estrictamente al azar a las otras 40. Como cada una tiene dos opciones, supongamos que acierta 20 de las 40. Pues bien, mientras que el primer estudiante tiene 60 aciertos (las preguntas que sabe), el segundo tiene 80 (las 60 que sabe y las 20 que ha acertado por haber respondido al azar). En este apartado vamos a proponer un procedimiento que pretende eliminar del número total de aciertos los que presumiblemente se deben al azar. Ante un ítem, supondremos que la persona se encuentra en uno de dos estados de conocimiento: en el estado conoce la respuesta o en el estado no conoce la respuesta. En el primer estado supondremos que conoce la respuesta y acierta con probabilidad 1. Si se encuentra en el segundo estado, tiene dos posibilidades: no responder o elegir al azar una de las K opciones. Dado que el ítem tiene una sola opción correcta y que suponemos que todas las opciones son equiprobables cuando se responde al azar, la probabilidad de acierto
66
Medición en Ciencias Sociales y de la Salud será 1/K y la de fallo será 1 – (1/K) = (K – 1)/K. La Figura 2.5 muestra las diferentes posibilidades. Figura 2.5. Estados de conocimiento y resultados en el ítem
Llamemos Ra al número de respuestas al azar que la persona da (es decir, al número de ítems que ha contestado sin saber la respuesta). De las Ra respuestas, algunas serán aciertos aleatorios (Xa) y otras serán errores (E). Nuestro objetivo es obtener el valor de Xa para descontarlo del número total de aciertos (X) que ha obtenido. Respondiendo al azar, la probabilidad de fallar un ítem vimos que es (K – 1)/K. Si se responde al azar a Ra ítems, el número esperado de errores (E) será:
E = Ra
K −1 K
[2.9]
Si despejamos Ra de esta expresión, se obtiene:
Ra =
K E K −1
[2.10]
Siguiendo el mismo razonamiento, el número esperado de aciertos aleatorios cuando se dan Ra respuestas al azar será:
X a = Ra
1 K
[2.11]
Si realizamos las sustituciones oportunas, se obtiene:
Xa =
1 1 K E = E K −1 K K −1
[2.12]
La expresión anterior permite obtener Xa, a partir de los errores cometidos (E) y del número de alternativas que tienen los ítems (K). Podemos observar que cada error se pondera por la expresión 1/(K – 1), lo que significa que por cada error hay que descontar tantos aciertos como indica ese cociente: en tests de 2 alternativas de respuesta, hay que descon-
Capítulo 2. Construcción de tests y análisis de ítems
67
tar 1 acierto por cada error; en ítems de 3 alternativas, 0,5 aciertos por cada error; en ítems de 4 alternativas, 0,33 aciertos por cada error; y así sucesivamente. La puntuación corregida de una persona en el test será:
X c = X − Xa = X −
E K −1
[2.13]
Si aplicásemos esta fórmula al ejemplo que planteamos al comienzo, tendríamos que, para el primer estudiante,
Xc = X −
E 0 = 60 − = 60 K −1 2 −1
Para el segundo,
Xc = X −
E 20 = 60 = 80 − K −1 2 −1
La fórmula correctora deja a ambos estudiantes, que sabían lo mismo, con la misma puntuación (60), que son por cierto los ítems que sabían. La fórmula anterior se aplica cuando todos los ítems tienen igual número de opciones. Si el número varía, un error en un ítem j de Kj opciones quitaría 1/(Kj – 1) aciertos (Frary, 1988). Por tanto, Xa sería la suma de los valores 1/(Kj – 1) de los ítems en los que se obtuvo un error.
Ejemplo 2.15. Obtención de las puntuaciones corregidas Un test de conocimientos del nivel de inglés está formado por 140 ítems con 5 opciones de respuesta cada uno. En la Tabla 2.19 se detallan el número de aciertos (X), errores (E) y omisiones (O) que obtuvieron 3 evaluados. La última columna contiene sus puntuaciones corregidas. Si atendemos únicamente al número de aciertos obtenidos, quien más inglés parece saber es el evaluado 1, seguido del 2 y en último lugar el 3. Sin embargo, tras corregir los efectos del azar, comprobamos que la corrección afecta al orden que establecimos a partir de las puntuaciones sin corregir. Similarmente, si nos fijamos en la corrección hecha para el evaluado 3, vemos que no se le ha descontado nada, pues no cometió ningún error. Tabla 2.19. Aciertos, errores, omisiones y puntuaciones corregidas Evaluado
X
E
O
Xc
1 2 3
112 110 109
28 12 0
0 18 31
112 – 28/4 = 105 110 – 12/4 = 107 109 – 0/4 = 109
68
Medición en Ciencias Sociales y de la Salud Haciendo así las cosas se está asumiendo que sólo se puede obtener un error cuando se responde al azar. El modelo no contempla la posibilidad de error por descuido o por haber aprendido algo mal, sino exclusivamente como resultado de una respuesta completamente al azar entre las K opciones. Por tanto, si hay errores es que ha habido respuestas al azar. Según la fórmula [2.13], a partir del número observado de errores puede obtenerse el número de aciertos que han debido producirse por azar y ese valor se resta del total de aciertos. Se pueden plantear otros modelos alternativos al expuesto en la Figura 2.5, de cómo los evaluados responden a los ítems de opción múltiple. De hecho, no es infrecuente que los alumnos salgan de un examen diciendo que no han dado una sola respuesta al azar y sin embargo obtienen errores. Esto ocurre porque consideran correctas opciones que no lo son. En cualquier caso, lo que es evidente es que inferir el número de aciertos debidos al azar a partir de estos errores es incorrecto, pues no se han generado por haber respondido al azar. En el apéndice de este tema se describe otra fórmula para la corrección de los efectos del azar. ¿Hay que aplicar o no las fórmulas correctoras? No hay duda de que se ha de avisar al evaluado de si se va a aplicar o no alguna fórmula y de sus detalles, en su caso. No hay tanto acuerdo en relación a si es adecuado aplicarlas o no. Conviene tener en cuenta las consideraciones que se exponen a continuación. Lo que hace la fórmula correctora es eliminar los aciertos que se obtienen al responder completamente al azar. En ese sentido, quien responde sólo a lo que sabe y quien responde a lo que sabe y a lo que no (y a estas preguntas completamente al azar) deberá esperar, tras la aplicación de la fórmula correctora, la misma puntuación. Por lo tanto, si se aplica la fórmula descrita, debiera no importar dar respuestas al azar, pues se espera obtener el mismo número de aciertos. Supongamos que estamos ante un ítem de cinco opciones. Si alguien responde completamente al azar, la probabilidad de acierto es 0,20 y de fallo 0,80. Al aplicar la fórmula, por cada error el número de aciertos queda reducido en ¼ = 0,25. Si esto lo hace en los 20 ítems de un examen, su número esperado de aciertos y de errores es 20(0,20) = 4 y 20(0,8) = 16, respectivamente. Al aplicar la fórmula correctora [2.13], tendríamos que Xc =4 – 16/4 = 0. Supongamos que alguien sabe que una de las opciones no es correcta. En ese caso, si responde completamente al azar entre las demás, la probabilidad de acierto es 0,25 y la de fallo es 0,75. Si, por ejemplo, en 20 preguntas responde al azar entre cuatro opciones, pues tiene la seguridad de que una de las opciones no es correcta, el número esperado de aciertos por azar en esas 20 preguntas será (20)(0,25) = 5 y el de errores (20)(0,75)= 15. Sin embargo, al aplicarle la fórmula correctora, el número esperado de aciertos que se le quitarán serán (15)(0,25) = 3,75. Es decir, se le quitarían menos aciertos (3,75) de los que esperaría (5). Supongamos que puede descartar dos opciones en cada ítem. En ese caso, si responde completamente al azar entre las demás, la probabilidad de acierto es 1/3 y la de fallo es 2/3. Si, por ejemplo, en 20 preguntas responde al azar entre las tres opciones, pues tiene la seguridad de que dos de las opciones no son correctas, el número esperado de aciertos por azar en esas 20 preguntas será (20)(1/3) = 6,7, y el de errores será (20)(2/3)=13,3. Al aplicarle la fórmula, el número de aciertos que se le quitarían sería (13,3)(0,25) = 3,32, que es inferior al número esperado de aciertos (6,7). Vuelve a resultar interesante responder al azar entre las tres opciones. En conclusión, si no se puede descartar ninguna opción, la fórmula te va quitar, en promedio, lo que ganes por haber respondido al azar. Si se tiene seguridad de que alguna opción es incorrecta, el número de aciertos esperado es mayor que el número de aciertos que la fórmula resta si se responde al azar entre las opciones no descartadas. Este resulta-
Capítulo 2. Construcción de tests y análisis de ítems
69
do es importante, pues muestra que la aplicación de la fórmula correctora NO elimina todos los aciertos que puedan haberse producido por responder al azar. Elimina todos los aciertos cuando se responde al azar entre todas las opciones, pero no cuando se elimina alguna porque se conoce que es falsa. Entre los especialistas no existe acuerdo sobre el tipo de instrucciones que se tienen que dar, por ejemplo, en un examen con preguntas de opción múltiple. Cuando un estudiante no sabe lo suficiente para aprobar, la mejor estrategia que puede seguir es responder al azar a las preguntas que no sabe, por si pudiera, por puro azar, obtener el número de aciertos requerido para aprobar. La recomendación general de “no responder al azar” no es la adecuada para estos estudiantes y cabe plantearse si puede darse como instrucción general cuando no es apropiada en algunas situaciones (Frary, 2008). Este autor concluye que: “…es difícil recomendar una fórmula correctora de los aciertos obtenidos por las respuestas dadas al azar en los exámenes de opción múltiple habituales en la universidad… Lo más justo es recomendar a todos los estudiantes que lo mejor para ellos es contestar a todas las preguntas sea cual sea su nivel de conocimientos”. Otros autores (Burton y Miller, 1996; Burton 2001b, 2004) están a favor de aplicar las fórmulas correctoras, porque son eficaces en la reducción de las respuestas al azar, indicando a los evaluados la reducción que se va a aplicar por cada error. Burton (2001b) propone que se aplique la Fórmula [2.13] a pesar de que no corrija adecuadamente los aciertos atribuibles a las respuestas al azar, precisamente porque reduce o elimina dichas respuestas y porque considera deshonesto instruir a los evaluados para que respondan a lo que no saben. Otra ventaja de intentar evitar las respuestas al azar es que, desde un punto de vista instruccional, las respuestas erróneas son informativas de lo que un estudiante no ha llegado a aprender. Cuando fomentamos las respuestas al azar, se pierde esta valiosa información (Burton, 2004).
70
Medición en Ciencias Sociales y de la Salud
Apéndice Segunda fórmula correctora Traub, Hambleton y Singh (1969) propusieron una segunda fórmula que premia las omisiones en vez de penalizar los errores. En un test de J ítems de opción múltiple de K opciones, con sólo una opción correcta, una persona obtiene X aciertos, O omisiones y E errores. En un ítem, si en vez de omitir se hubiese respondido al azar, la probabilidad de acierto sería 1/K. De haber hecho esto mismo en los O ítems omitidos, el valor esperado de aciertos en los O ítems sería O(1/K)=O/K. Se propone como segunda fórmula la siguiente:
X 2c = X +
O K
[2.16]
La segunda fórmula añade los aciertos que cabe esperar obtener si se responde completamente al azar a los ítems de los que no se sabe la respuesta correcta, en vez de quitar los aciertos que se suponen obtenidos por haber respondido al azar. Es evidente que las puntuaciones corregidas obtenidas por la segunda fórmula por lo general serán más altas que las obtenidas por la primera. La Tabla 2.20 se ha construido a partir de los datos de la Tabla 2.19, que incluye el patrón de resultados de 3 evaluados en un test de 140 ítems de 5 opciones de respuesta.
Tabla 2.20. Aciertos, errores, omisiones y puntuaciones corregidas Evaluado
X
E
O
Xc
X 2c
1 2 3
112 110 109
28 12 0
0 18 31
105 107 109
112 + 0/5 = 112 110 +18/5 = 113,6 109 + 31/5 = 115,2
Se aprecia que las tres personas están ordenadas de la misma manera en ambas fórmulas correctoras. Es más, si representamos gráficamente las puntuaciones de las tres personas según las dos correcciones, vemos (Figura 2.6) que están en la misma recta:
Figura 2.6. Relación lineal entre las dos fórmulas correctoras
Xc2 = X + O/K
116 115 114 113 112
111 104
106
108
Xc = X - E/(K-1)
110
Capítulo 2. Construcción de tests y análisis de ítems
71
La relación observada se cumple siempre, pues existe una relación lineal entre los valores que se obtienen con ambas fórmulas:
X 2c
=X+
O J −X −E X E J K −1 E J =X+ = X − − + = X − + K K K K K K K K
K − 1 K E K J K K − 1 = X + − K K − 1 K K − 1 K K − 1 K E J K K −1 = X − + K − 1 K K − 1 K K −1 c J X + = K K Ambas fórmulas son equivalentes, pues ordenan a las personas exactamente de la misma manera. Las puntuaciones obtenidas son, sin embargo, muy diferentes. La fórmula que premia las omisiones otorga puntuaciones más altas que la que penaliza los errores. Por tanto, a la hora de interpretar las puntuaciones habrá que tener esto en cuenta. No parece que pueda ponerse, por ejemplo, el mismo punto de corte de aprobado si se aplica una u otra. Algunos autores plantean que, desde un punto de vista ético, parece mejor estrategia premiar la omisión cuando no se sabe, que castigar lo que se quiere evitar (Frary, 2008). Hemos visto que esas posiciones relativas de los evaluados son las mismas cuando se aplica una u otra fórmula. La relación de X c y X 2c con la puntuación sin corregir, X, requiere algún comentario adicional. Es fácil ver que existe una relación lineal perfecta entre X c y X cuando no hay omisiones.
Xc = X −
E J−X X J J K =X− =X+ − = X − K −1 K −1 K −1 K −1 K −1 K −1
Como existe una relación lineal entre X c y X 2c , se sigue que también la hay entre X 2c y X. Por lo tanto, la posición relativa de las personas es la misma cuando son puntuadas con las dos fórmulas correctoras y la misma que se obtendría tomando la puntuación sin corregir, en el caso de que no hubiera omisiones. La relación entre la puntuación sin corregir y la corregida en el caso general, cuando hay omisiones, es de un fuerte componente lineal, pero no cabe esperar una relación lineal perfecta. La Figura 2.7 muestra los resultados de 80 estudiantes en un test de 14 ítems. Se obtuvo el siguiente diagrama de dispersión entre las puntuaciones corregidas Xc y las puntuaciones sin corregir X. La correlación entre ambas es de 0,971.
72
Medición en Ciencias Sociales y de la Salud Figura 2.7. Relación entre el total de aciertos, X, y la puntuación corregida, Xc
Programas de ordenador para el análisis de ítems Son muchos los programas disponibles para la realización del análisis clásico de ítems. Algunos son además de libre distribución. A continuación se detallan las principales características de algunos y cómo pueden conseguirse. TAP (Brooks y Johanson, 2003) es un programa de libre distribución. Proporciona para cada ítem los índices de dificultad (p), discriminación (D), correlación biserial (rb), correlación biserial puntual (rbp) y correlación biserial puntual corregida. Permite el estudio del funcionamiento de las opciones incorrectas, pues proporciona para cada opción la frecuencia de elección y el índice de discriminación (D). No proporciona para los distractores las correlaciones ítem-test o ítem-resto del test. El tamaño del grupo superior e inferior lo fija por defecto en el 27% de la muestra, pero el usuario puede modificar el porcentaje. El programa puede obtenerse en la dirección: http://oak.cats.ohiou.edu/~brooksg/software.htm#TAP. El programa CIA (http://shkim.myweb.uga.edu/), de libre distribución, obtiene para cada opción del ítem las correlaciones biserial y biserial puntual, con el test y con el resto del test. Divide la muestra en cinco subgrupos de igual tamaño (20%) y obtiene en cada uno cuántos evaluados han elegido cada una de las opciones. No permite cambiar el número de subgrupos. Ledesma, Molina, Valero y Young (2002) han desarrollado un módulo, de libre distribución, que proporciona los siguientes datos: 1) Los estadísticos descriptivos para los ítems y el test, 2) los efectos de la eliminación de cada ítem en los estadísticos descriptivos del test, y 3) las correlaciones entre ítems, ítem-total e ítem-resto del test. El programa da los resultados no sólo mediante tablas, sino también mediante gráficas. López-Pina (2005) proporciona otro programa de libre distribución para el análisis clásico de ítems, denominado CLM-1, válido para ítems de respuesta seleccionada. Obtiene los índices de difi-
Capítulo 2. Construcción de tests y análisis de ítems
73
cultad y de discriminación estudiados y el índice de fiabilidad de cada ítem. Proporciona además datos psicométricos del test completo. ITEMAN es un programa específico de análisis clásico de ítems de opción múltiple y de categorías ordenadas. Proporciona para cada ítem el índice de dificultad, el índice de discriminación y las correlaciones biserial y biserial puntual sin corregir y corregidas. Más información en Lukas (1998) y en http://assess.com/. En esta misma dirección se puede encontrar otro programa, LERTAP 5. Es una herramienta muy completa para el análisis clásico de ítems y tests. En lo relativo específicamente al análisis de ítems, proporciona los indicadores de dificultad y discriminación, tanto los basados en la diferencia entre grupos, como en la correlación con el test o resto del test. Permite la inclusión de un criterio externo al test. Proporciona información gráfica del rendimiento del ítem para los distintos subgrupos. El paquete SPSS no tiene específicamente un programa para el análisis de ítems, pero el procedimiento Análisis de fiabilidad puede resultar útil. Proporciona para cada ítem su media y varianza, la correlación entre el ítem y el resto del test, y la media, varianza y fiabilidad del test si se elimina cada ítem. Este procedimiento puede aplicarse a ítems de respuesta seleccionada y construida, así como a ítems de categorías ordenadas. Lei y Wu (2007) han desarrollado programas para SPSS y SAS que completan el análisis clásico de ítems dicotómicos y politómicos de ambos paquetes. El grupo de investigación TIDE, de la Universidad de Barcelona, ha desarrollado varios programas relacionados con el análisis de ítems y tests. METRIX Engine obtiene para cada ítem sus estadísticos descriptivos y los índices de dificultad y discriminación en el caso de ítems de opción múltiple. La aplicación SEDI (Renom, Rodríguez, Solanas, Doval, Núñez y Valle, 2001) acepta la salida del módulo de análisis de ítems de METRIX, evalúa la calidad de cada ítem y recomienda qué hacer con cada uno de ellos. Más información en http://www.ub.es/comporta/tide/Index.htm.
3
Modelo Clásico y fiabilidad Introducción
En las Ciencias clásicas (Medicina, Física, Química...) existen aparatos, con márgenes de error especificados, para medir características muy diversas como son la tensión arterial, la temperatura o la concentración de determinados elementos químicos. A pesar de la diversidad de atributos que pueden medirse, cada uno de estos instrumentos debe satisfacer siempre cuatro tipos de exigencias: 1. Que la medición sea fiable o replicable; es decir, que al repetir las medidas de la misma magnitud se produzcan resultados iguales o parecidos. Por ejemplo, esperaremos obtener medidas similares independientemente de si el termómetro es digital o de mercurio, de la persona que toma la temperatura o, si el intervalo entre medidas es suficientemente corto, del momento en que se realizan. 2. Que las inferencias sobre los atributos que se realizan a partir de las medidas observadas sean válidas. Nuestras inferencias serán válidas si son ciertos los principios teóricos en los que se fundamentan. Por ejemplo, a partir del principio físico de la dilatación y teniendo en cuenta el valor del coeficiente de dilatación del mercurio, podemos deducir la temperatura de un objeto a partir de la marca del mercurio en un tubo de cristal. 3. Que se siga el protocolo de aplicación del instrumento y que se atienda al mantenimiento de éste, si es necesario. Por ejemplo, para detectar la presencia de fiebre debemos saber en qué parte del cuerpo poner el termómetro y durante cuánto tiempo. 4. Que se tenga en cuenta su rango de aplicabilidad. Cualquier instrumento tendrá un rango de aplicabilidad según los niveles de atributo entre los que permite discriminar. En nuestro ejemplo, un termómetro para medir la temperatura corporal no será útil para medir las altas temperaturas en un horno. Las anteriores exigencias también deberían mantenerse para cualquier instrumento de medición en Psicología y disciplinas afines. Podemos pensar en las consecuencias que tie-
76
Medición en Ciencias Sociales y de la Salud ne para el psicólogo de selección que un test no proporcione una buena información de los niveles de inteligencia de los aspirantes; o las consecuencias que puede tener para un estudiante que se le aplique una prueba de admisión a la universidad de forma inapropiada o incorrecta; también un psicólogo clínico que utiliza un test de depresión en su labor profesional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el test resultan buenas cuantificaciones de los niveles de depresión de sus pacientes; los ejemplos son innumerables… Sin embargo no resulta fácil medir atributos psicológicos pues no existen modelos teóricos tan desarrollados y consensuados como los de las ciencias clásicas. Aun así, los psicólogos han intentando definir modelos teóricos que permitan inferir constructos teóricamente relevantes (o, al menos, predictivos) como la depresión a partir de los comportamientos o las respuestas de los evaluados a una serie de ítems. Los procedimientos para evaluar la verosimilitud de esas inferencias se abordarán en el capítulo sobre validación de las medidas. El presente capítulo se centra en la primera exigencia (fiabilidad de las medidas) ya que si las medidas no se replican de una situación a otra, difícilmente podremos defender ninguna inferencia o predicción. Si las puntuaciones no se replican diremos que son poco precisas o poco fiables. En este capítulo, revisaremos el modelo matemático propuesto por Spearman (1904a; 1904b; 1907), que permite operativizar el concepto de fiabilidad y valorar las posibles repercusiones de la falta de fiabilidad en nuestras decisiones.
La Teoría Clásica de los Tests La principal idea del modelo de Spearman es que debemos distinguir entre el valor real del atributo que medimos (la puntuación verdadera) y la medida falible que obtenemos en el proceso de medición (la puntuación observada). Las medidas que tomamos incluyen un cierto grado de error. El error de medida expresa el grado en que nuestra medida se desvía del valor real. La idea de partida para poder graduar la precisión de un instrumento es que, cuanto más preciso es, más se replicarán nuestras observaciones en sucesivas mediciones. Aunque el planteamiento parece sencillo, dos obstáculos acompañan desde el principio a la medición de cualquier variable psicológica. El primero es que es difícil obtener medidas repetidas independientes de la misma persona con el mismo instrumento en un intervalo corto de tiempo. En Psicología esa falta de independencia (p. ej., porque haya recuerdo de las respuestas dadas en la primera ocasión) puede tener efectos en la replicabilidad de las medidas que no se asocian a la precisión del instrumento. Por tanto, es importante definir bien lo que se entiende por replicabilidad. El segundo obstáculo es la imposibilidad de obtener mediciones directas. No podemos tener acceso directo al valor real de un atributo psicológico. Por tanto, será importante definir bien qué se entiende por puntuación verdadera y por error. Spearman desarrolló un modelo formal denominado Modelo Clásico o Modelo Lineal Clásico, fundamentado en diversos supuestos a partir de los cuales se definen los conceptos de puntuación verdadera y error y se extraen determinadas consecuencias de aplicabilidad práctica para cuantificar el tamaño de esos errores y corregir su efecto. Cuando aplicamos un test pretendemos que sea preciso, es decir, que la variabilidad de los evalua-
Capítulo 3. Modelo clásico y fiabilidad
77
dos según su puntuación en el test refleje su variabilidad real en el atributo. Pues bien, el Modelo Clásico nos permite deducir, de forma elegante, qué parte de la variabilidad en las puntuaciones en un test se debe a la variabilidad en el atributo medido y qué parte se explica por la presencia de errores en el proceso de medición. A las ideas de Spearman se han sumado posteriormente las aportaciones de otros muchos investigadores. El armazón teórico del Modelo Clásico se conoce como Teoría Clásica de los Tests (TCT) y se trata del principal modelo de referencia para la construcción y evaluación de tests psicológicos. En español, la información sobre el Modelo Clásico puede encontrarse en varios manuales (p. ej., Martínez Arias, 1995; Martínez Arias, Hernández Lloreda y Hernández Lloreda, 2006; Muñiz, 1998; Nunnally y Bernstein, 1995). En inglés, existen numerosos manuales sobre la Teoría de los Tests (p. ej., Allen y Yen, 1979; Crocker y Algina, 1986; Gulliksen, 1950; De Gruijter y van der Kamp, 2003; Furr y Bacharach, 2008).
Los supuestos fundamentales del Modelo Clásico El Modelo Clásico se sustenta en varios supuestos muy simples (Feldt y Brennan, 1989; Haertel, 2006). Considere que para medir el atributo psicológico disponemos de varios tests distintos a los que llamaremos formas. Por ejemplo, si quisiéramos medir la Depresión podríamos tener un banco de ítems enorme con muchas de las preguntas posibles. A partir de esas preguntas, podríamos construir distintos tests con especificaciones idénticas (igual número de ítems, contenido similar, etc.). Cada uno de esos tests sería una forma del test. A las puntuaciones que obtienen los evaluados en las distintas formas las denominaremos como variables X1, X2,…, Xf ; a continuación se describe qué propiedades deben tener esas formas para que podamos estimar la precisión de cualquiera de ellas.
Primer supuesto: el modelo lineal El primer supuesto establece que la puntuación observada de una persona i en una forma f de un test (Xif) se descompone linealmente en dos componentes hipotéticos, la puntuación verdadera de la persona (Vi), que es una constante para cada persona i, y el error de medida que se comete al medir el rasgo con el test f (Eif):
X if = Vi + Eif
[3.1]
La puntuación verdadera refleja por tanto la puntuación en el atributo tal y como lo mide un test con esas especificaciones; esto quiere decir que las puntuaciones verdaderas de una persona en dos tests con distintas especificaciones, por ejemplo distinto número de ítems, no serán iguales. Observe que la puntuación Vi no lleva el subíndice f ; se asume que la puntuación verdadera del evaluado i es la misma en cada una de las formas:
Vi = Vi1 = Vi 2 = = Vif
78
Medición en Ciencias Sociales y de la Salud El error de medida depende de diferentes factores (propios de la persona, del test y de la situación) que hacen que su puntuación empírica, X, no sea exactamente su nivel de atributo, V. Por ejemplo, en una prueba de conocimientos pueden constituir fuentes de error el nivel de ansiedad, la falta de motivación para responder, el ruido en el aula, la adecuación de las instrucciones de aplicación, el nivel de riesgo asumido por el que responde, la suerte que se tiene al responder a las preguntas de las que no se sabe la respuesta, qué preguntas concretas aparecen en la prueba, etc. Por tanto, el error de medida se establece como la diferencia entre la puntuación empírica y la verdadera:
Eif = X if − Vi
[3.2]
Considerando todo lo anterior, el Modelo Clásico puede expresarse en términos de variables como:
X f =V + Ef
[3.3]
Para que se comprenda lo que significa cada uno de los términos, obsérvese la estructura de la siguiente matriz de datos en la Tabla 3.1. V, Ef (E1, E2,…) Xf , (X1, X2,…) son las variables (el subíndice f indica la forma aplicada) y Vi, Eif, Xif, indican los valores concretos de las variables para el i-ésimo evaluado. Tabla 3.1. Estructura de una matriz de datos si aplicáramos distintas formas del test a un grupo de evaluados y fueran conocidas las puntuaciones verdaderas (V) Puntuación verdadera V
Evaluado 1 Evaluado 2 Evaluado 3 Evaluado 4 Evaluado 5 …
V1 V2 V3 V4 V5 …
Error Error Error Puntuación Puntuación Puntuación con con con empírica empírica empírica … el el el en el test 1 en el test 2 en el test 3 test 1 test 2 test 3 E1 X 1 = V + E1 E2 X 2 = V + E2 E3 X 3 = V + E3 … E11 X11 E12 X12 E13 X13 … E21 X21 E22 X22 E23 X23 … E31 X31 E32 X32 E33 X33 … E41 X41 E42 X42 E43 X43 … E51 X51 E52 X52 E53 X53 … … … … … … ... …
Ejemplo 3.1. El Modelo Clásico lineal Supongamos que, para un grupo de personas, conocemos las puntuaciones V, Ef y Xf, en múltiples formas del test (en realidad, sólo podemos conocer las puntuaciones X; las restantes puntuaciones se proponen únicamente por razones didácticas):
Capítulo 3. Modelo clásico y fiabilidad
79
Tabla 3.2. Puntuaciones verdaderas (V), puntuaciones observadas (X) y errores de medida (E) al aplicar varias formas de un test1,2 Formas Evaluado 1 Evaluado 2 Evaluado 3 Evaluado 4 Evaluado 5 …
V 12 11 11 12 4 …
Forma 1 E1 X1 –2 10 0 11 0 11 2 14 0 4 … …
Forma 2 E2 X2 0 12 –2 9 2 13 0 12 0 4 … …
Forma 3 E3 X3 0 12 –2 9 2 13 0 12 0 4 … …
… … … … … … …
Puede observarse que la puntuación empírica del tercer evaluado en el segundo test (X32) es 13, por lo que se sobrestima su puntuación verdadera (V3), que es 11, en 2 puntos (que es el error, E32). Los evaluados 2 y 3 tienen la misma puntuación verdadera (11); sin embargo sus puntuaciones observadas cuando se aplica la forma 2 del test son distintas (9 y 13), lo que expresa que se comete cierto error de medida (subestimación en el primer caso y sobrestimación en el segundo).
Segundo supuesto El problema es que E y V son desconocidas. Sin embargo, podemos obtener información sobre ellas si se plantean determinados supuestos adicionales. En muchos contextos parece razonable asumir que los errores serán unas veces positivos (por sobrestimación de la puntuación verdadera) y otras veces negativos (por subestimación). Por ejemplo, es posible que al responder a un examen la persona reciba más preguntas de los temas que más ha estudiado; en este caso, su puntuación empírica será una sobrestimación de lo que sabe (error positivo). En otros exámenes sucederá lo contrario (error negativo). Por tanto, desde un punto de vista conceptual, la mejor estimación del verdadero conocimiento del evaluado i será el promedio (valor esperado) de las puntuaciones empíricas que obtendría en un número elevado de aplicaciones. Éste es el segundo supuesto:
Vi = ε f ( X if )
[3.4]
1
En los ejemplos que siguen se considera que X, V y E son puntuaciones discretas. Sin embargo, éste no es un requerimiento del Modelo Clásico y, de hecho, las estimaciones de V y E pueden contener números decimales.
2
En los ejemplos que siguen se muestran tablas incompletas de datos. Por ejemplo, en la Tabla 3.2 se muestran los datos de 5 evaluados seleccionados de una población más amplia. El hecho de que el número de evaluados es más amplio se indica mediante puntos suspensivos. Por tanto, cuando se informe del resultado de cualquier cálculo realizado con la población total (sumas, medias y desviaciones típicas, etc.) éste no coincidirá generalmente con el que se obtiene a partir de los datos de los 5 evaluados. Lo mismo puede decirse con respecto al número de formas aplicadas: aunque se muestran los resultados obtenidos en 3 formas se asume que se han aplicado muchas más.
80
Medición en Ciencias Sociales y de la Salud Donde el símbolo εf (·) indica valor esperado de la variable dentro del paréntesis a través de f. Otra forma de presentar el segundo supuesto es:
ε f ( Eif ) = 0
[3.5]
que es equivalente a decir que los errores que cometemos no son sistemáticos (el valor esperado de los errores a través de un conjunto de mediciones independientes de la misma persona es 0). Resulta fácil comprobar la igualdad entre [3.4] y [3.5], puesto que:
ε f ( Eif ) = ε f ( X if − Vi ) = ε f ( X if ) − ε f (Vi ) = ε f ( X if ) − Vi = Vi − Vi = 0 Además, se asume que el valor esperado del error de medida es igual a 0, no sólo para cualquier persona, sino también para un grupo de evaluados a los que se aplica una única forma f: [3.6]
ε i ( Eif ) = µ E f = 0
Veamos en el siguiente ejemplo lo que implica el segundo supuesto.
Ejemplo 3.2. Segundo supuesto Tabla 3.3. Media de X y E para cada evaluado a través de las distintas formas y para cada forma a través de los distintos evaluados
Evaluado 1 Evaluado 2 Evaluado 3 Evaluado 4 Evaluado 5 …
µEf
Forma 1
Forma 2
Forma 3
V
E1 X1
E2 X2
E3 X3
12 11 11 12 4 …
–2 0 0 2 0 …
0 –2 2 0 0 …
0 –2 2 0 0 …
0
10 11 11 14 4 …
0
12 9 13 12 4 …
12 9 13 12 4 …
… … … … …
Media de X (a través de las formas)
Media de E (a través de las formas)
ε f ( X if )
ε f ( Eif )
12 11 11 12 4 …
0 0 0 0 0 …
0
La media de las puntuaciones empíricas para el evaluado 2 coincidiría justamente con su puntuación verdadera (11). Es decir, la puntuación 11 expresa su nivel promedio en puntuaciones empíricas de depresión a través de las distintas aplicaciones (11, 9, 9,…). Ese promedio puede considerarse la mejor estimación de su puntuación verdadera. Por otro lado, el segundo supuesto implicaría que las medias de los errores para un evaluado a través de distintas formas y para una forma a través de distintos evaluados son cero. Por ejemplo, para el segundo evaluado la media de los errores (0 , –2, –2, …) sería 0. Tam-
Capítulo 3. Modelo clásico y fiabilidad
81
bién, según el modelo clásico, la media de los errores en la forma 1 (–2, 0, 0, 2,…) sería igual a 0.
Tercer, cuarto y quinto supuestos Si el error cometido al utilizar una forma no es sistemático parece razonable asumir que los errores en una forma (Ef) no correlacionan con las puntuaciones verdaderas (V), ni con los errores en otra forma (Ef’) ni con las puntuaciones verdaderas en otro test (Vk): Tercer supuesto:
ρ EfV = 0
[3.7]
Cuarto supuesto:
ρEf Ef ' = 0
[3.8]
Quinto supuesto:
ρ E f Vk = 0
[3.9]
Eso supone asumir, por ejemplo, que las personas que tienen errores elevados (bajos) no tienen por qué tener asociadas puntuaciones verdaderas elevadas (bajas) en ese test (u otro) ni errores elevados (bajos) en otras formas del test.
Descomposición de la varianza de las puntuaciones empíricas en un test Hasta ahora hemos observado una serie de supuestos sobre los errores de medida. Como ya hemos insistido, en la aplicación real de un test sólo se conocen las puntuaciones X de las personas, por lo que los supuestos planteados no pueden, en general, someterse a contrastación empírica. ¿Para qué sirven entonces estos cinco supuestos? ¿Qué nos dicen sobre las puntuaciones de las personas que responden a un test? Si asumimos que los supuestos son lógicos y razonables, podemos obtener indicadores que nos proporcionen información sobre el tamaño de los errores cometidos con un test. Para empezar, si aceptamos los supuestos, podremos delimitar algunas de las características de las distribuciones de las variables implicadas en la población:
µ X f = µV
[3.10]
82
Medición en Ciencias Sociales y de la Salud
σ X2 f = σ V2 + σ E2 f
[3.11]
Es decir, la media de las puntuaciones observadas en un test f coincidirá con la media de las puntuaciones verdaderas y, lo más importante, la varianza de las puntuaciones observadas en un test f se puede descomponer en varianza de las puntuaciones verdaderas y varianza de los errores. En efecto, si tenemos una variable Xf que es combinación lineal de otras variables V y Ef, tal que:
X f =V + Ef puede demostrarse que la media y varianza de la variable X se deriva de las medias y varianzas de las variables V y Ef; esto es:
µ X f = µV + µ E f y dado [3.6] se deriva [3.10]. Además:
σ X2 f = σ V2 + σ E2 f + 2 ρVE f σ V σ E f y dado [3.7] se deriva [3.11].
Ejemplo 3.3. Descomposición de la varianza de las puntuaciones empíricas En la Tabla 3.4 se presentan las medias y las varianzas para las distintas variables. Tabla 3.4. Medias y varianzas de las puntuaciones V, E y X en las distintas formas Formas Evaluado 1 Evaluado 2 Evaluado 3 Evaluado 4 Evaluado 5 … Medias ( µ ) 2
Varianzas ( σ )
V
Forma 1 E1 X1
Forma 2 E2 X2
Forma 3 E3 X3
12 11 11 12 4 …
–2 0 0 2 0 …
10 11 11 14 4 …
0 –2 2 0 0 …
12 9 13 12 4 …
–1 –1 –2 0 0 …
11 10 9 12 4 …
12
0
12
0
12
0
12
4
2
6
2
6
2
6
… … … … …
Por ejemplo, µV se obtendría como la media de las puntuaciones verdaderas de todos los evaluados de la población (12, 11, 11, 12, 4,… ) que es 12. Observe que, en nuestro ejemplo, las medias de todas las formas son iguales entre sí e iguales a la media de las
Capítulo 3. Modelo clásico y fiabilidad
83
puntuaciones verdaderas (12). Además, la varianza de las puntuaciones empíricas en cualquiera de las formas (6) es el resultado de sumar a la varianza verdadera (4) la varianza de los errores en esa forma (2). Así pues, la variabilidad de las puntuaciones empíricas en una forma (6) se produce, en parte, por la variabilidad en el verdadero nivel de rasgo (4) y, en parte, por la presencia de errores y su contribución a la variabilidad (2). Si nuestras formas fueran muy precisas, la varianza de los errores en cada una de ellas sería 0 y la varianza de las puntuaciones empíricas en cada forma sería igual a la varianza de las puntuaciones verdaderas (ver Tabla 3.5). En este caso, el 100% de la variabilidad de las puntuaciones empíricas en cualquier forma refleja variabilidad en las puntuaciones verdaderas. Las correlaciones entre las puntuaciones verdaderas y empíricas sería 1. Tabla 3.5. Medias y varianzas de las puntuaciones V, E y X en las distintas formas para un test máximamente preciso Formas Evaluado 1 Evaluado 2 Evaluado 3 Evaluado 4 Evaluado 5 … Medias ( µ ) 2
Varianzas ( σ )
V
Forma 1 E1 X1
Forma 2 E2 X2
Forma 3 E3 X3
6 11 11 12 4 …
0 0 0 0 0 …
6 11 11 12 4 …
0 0 0 0 0 …
6 11 11 12 4 …
0 0 0 0 0 …
6 11 11 12 4 …
12 6
0 0
12 6
0 0
12 6
0 0
12 6
… … … … …
Puesto que en el Modelo Clásico la varianza de las puntuaciones empíricas se descompone linealmente en varianza verdadera y varianza error sería importante obtener información sobre cuánto de la varianza de las X se debe a la varianza de las V o saber cuánto correlaciona X con V. Nos encontramos con el inconveniente de desconocer las auténticas V de las N personas. En la siguiente sección se ofrece el método propuesto por Spearman para eludir este problema.
Concepto de formas paralelas y coeficiente de fiabilidad No podemos conocer directamente la correlación entre las puntuaciones empíricas en un test y las puntuaciones verdaderas. Sin embargo, resulta factible obtener la correlación entre las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseñadas ambas para evaluar el rasgo V de las personas. Veremos en esta sección que esta correlación nos proporciona la información que buscamos sobre la fiabilidad de las puntuaciones; es decir, sobre qué proporción de la varianza de X se debe a la varianza de V.
84
Medición en Ciencias Sociales y de la Salud Hasta ahora hemos estado trabajando con el concepto de formas de un test X. El Modelo Clásico original requiere que dichas formas sean formas paralelas. Según esto, dos formas paralelas X1 y X2 de un test se definen como tales mediante dos condiciones: 1. Un individuo tiene la misma puntuación verdadera en ambas formas:
Vi1 = Vi 2 = Vi
[3.12]
2. La varianza de los errores de medida en ambas formas es la misma:
σ E21 = σ E22
[3.13]
Es decir, los dos tests miden con la misma precisión. Las formas que hemos visto en los ejemplos anteriores eran formas paralelas. En lo sucesivo, para simplificar, nos referiremos a la varianza error de cada forma paralela como σ2E (donde σ2E designa indistintamente a σ2E1 o σ2E2). Dos formas suelen hacerse paralelas por diseño, especificando en cada una igual número de ítems y especificaciones similares de contenidos. Por ejemplo, el test formado por los ítems impares de una prueba suele considerarse una forma paralela del test formado por los ítems pares de esa misma prueba (si en principio no hay razón para pensar que los ítems de las dos mitades difieren en conjunto). Si tres formas (X1, X2 y X3) son paralelas, la distribución de sus puntuaciones observadas será idéntica en cuanto a media (ver [3.10]):
µ X1 = µ X 2 = µ X 3 y varianza (ver [3.11]):
σ X2 1 = σ X2 2 = σ X2 3 También serán iguales las covarianzas de esas formas entre sí:
σ X1 X 2 = σ X1 X 3 = σ X 2 X 3 , y las covarianzas con cualquier otra variable Z,
σ X 1Z = σ X 2 Z = σ X 3 Z Lo mismo se aplica también a las correlaciones de las formas entre sí:
ρ X1 X 2 = ρ X1 X 3 = ρ X 2 X 3
Capítulo 3. Modelo clásico y fiabilidad
85
Debe observarse que el paralelismo de las formas es lo que las hace intercambiables y lo que dota de significado a la definición operacional de la puntuación verdadera como valor esperado de las puntuaciones a través de las formas. En lo sucesivo, para simplificar, nos referiremos a cada forma paralela como X (para designar indistintamente a X1 o X2), por lo que utilizaremos los términos µX y σ2X para referirnos a la media y varianza de cualquiera de las formas paralelas. La correlación entre dos formas paralelas (X1 y X2) es muy importante en el Modelo Clásico y se denomina coeficiente de fiabilidad. Puesto que ambas formas son paralelas, la correlación nos permite inferir algo sobre el grado de precisión de cualquiera de ellas. Es fácil entender por qué es una medida de precisión. Si las puntuaciones obtenidas en dos formas paralelas son precisas parece razonable esperar una correlación elevada en la población. Si ambas correlacionasen de forma mínima, no podríamos fiarnos de que reflejasen fidedignamente los niveles de rasgo verdaderos. Por tanto, el coeficiente de fiabilidad es un indicador de precisión; suele utilizarse el símbolo ρXX y es matemáticamente igual al cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones empíricas de cualquiera de las formas:
ρ XX ≡ ρ X1 X 2 =
σ V2
[3.14]
σ X2
Veamos por qué. La correlación entre formas paralelas puede expresarse como:
ρ X1 X 2 =
σ X1 X 2 σ X1σ X 2
Puesto que las formas son paralelas, podemos referirnos con el término σX indistintamente a σ X1 o a σ X 2 :
ρ X1 X 2 =
σ X1 X 2 σ X1σ X 2
=
σ X1 X 2 σ Xσ X
=
σ X1 X 2 σ X2
Además, X1 = V1 + E1 y X2 = V2 + E2. Matemáticamente, si tenemos dos variables X1 y X2 que son combinación lineal de otras, la covarianza entre ambas se deriva de las covarianzas entre todas las otras:
σ X1 X 2 = σ V1V2 + σ V2 E1 + σ V1E2 + σ E1E2 que se puede simplificar, dado [3.7] , [3.8] y [3.12]:
σ X1 X 2 = σ V2 por lo que se llega a la ecuación [3.14]:
86
Medición en Ciencias Sociales y de la Salud
ρ X1 X 2 =
σ X1 X 2 σ X2
=
σ V2
σ X2
Recordemos que la varianza de las puntuaciones en un test se descomponía en dos componentes, uno relacionado con los errores y otro con las puntuaciones verdaderas (ecuación [3.11]). El valor del coeficiente de fiabilidad puede interpretarse entonces como la proporción de la varianza de las puntuaciones empíricas que puede atribuirse a la variabilidad de las personas en las puntuaciones verdaderas. Lógicamente, el coeficiente de fiabilidad también nos índica qué proporción de varianza de las puntuaciones en el test no se debe a la varianza de los errores:
ρ XX =
σ V2
σ X2
=
σ X2 − σ E2 σ X2
= 1−
σ E2
[3.15]
σ X2
Nótese además que el coeficiente de fiabilidad puede asumir valores entre 0 y 1, ya que se trata de un cociente de varianzas, cuyo valor es siempre positivo. Por otro lado, el coeficiente de fiabilidad también se puede interpretar como la correlación al cuadrado entre las puntuaciones verdaderas y las puntuaciones observadas en el test. En efecto: 2 ρ XV
=
2 σ XV
σ X2 σ V2
(σ =
2 V
+ σ VE
σ X2 σ V2
)
2
=
σ V2
σ X2
= ρ XX
[3.16]
Es decir, que el coeficiente de fiabilidad es el cuadrado de la correlación entre X y V. Al valor ρXV se le denomina índice de fiabilidad:
ρ XV = ρ XX
[3.17]
Tanto el coeficiente como el índice de fiabilidad reflejan la precisión de las medidas siempre que asumamos que en el grupo al que se aplica el test hay cierta variabilidad en la característica que se está midiendo.
Ejemplo 3.4. Interpretación del coeficiente de fiabilidad Supongamos que la correlación entre dos formas paralelas X1 y X2 es 0,67 ( ρX1X2 = 0,67) y que la varianza de ambas formas es 6 (σ 2X = 6); entonces diríamos que el coeficiente de fiabilidad de las puntuaciones obtenidas en cualquiera de ellas es 0,67 ( ρ XX = 0,67). Es decir, la correlación entre X1 y X2 es el coeficiente de fiabilidad de las puntuaciones en la prueba X1 (y en la prueba X2). La varianza de X1 (o de X2), en nuestro ejemplo, es 6. El coeficiente de fiabilidad indicaría justamente qué proporción de esos 6 puntos, es varianza
Capítulo 3. Modelo clásico y fiabilidad
87
verdadera. Puesto que el coeficiente de fiabilidad es 0,67, podemos decir que el 67% de la varianza empírica es varianza verdadera. La varianza verdadera sería, justamente, 4 (el 67% de 6):
σ V2 = σ X2 ρ XX = 6(0,67) = 4 También podría deducirse la varianza de los errores de medida, que sería justamente 2 (el 33 % de 6):
σ E2 = σ X2 (1 − ρ XX ) = 6(0,33) = 2 En nuestro ejemplo, el índice de fiabilidad sería 0,82 (que es la raíz de 0,67).
Fórmula General de Spearman-Brown: Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Imaginemos que disponemos de n formas paralelas para medir un rasgo psicológico determinado. Según lo visto, las n formas tendrán en la población las mismas varianzas empíricas. Además, las correlaciones entre todos los posibles pares de formas paralelas que podemos establecer serán también iguales, e indicarán la fiabilidad de cualquiera de ellas a la hora de determinar los niveles de rasgo. Sea ahora un test final compuesto por las n formas paralelas. Denominemos las puntuaciones originales de cada persona en las n formas paralelas como X1,…, Xn, V1,…, Vn, E1,…, y En. Las puntuaciones en el test final alargado se obtienen sumando las puntuaciones en las n formas:
X a = X 1 + ... + X n
[3.18]
Para cada forma paralela, podemos separar la parte verdadera y la parte error: Xa = V + E1 + … + V + En; así podemos definir Xa = Va + Ea, donde Va = nV y Ea = E1 + … + En , ya que la puntuación verdadera es la misma en cada forma paralela, mientras que el error puede cambiar de una forma a otra. Los parámetros de la población en una forma paralela (cualquiera de ellas) podemos designarlos como σ2X, σ2V, σ2E y ρXX. Si unimos n formas paralelas en un único test, los parámetros de este test alargado podemos expresarlos como σ2Xa, σ2Va, σ2Ea y ρ nXX. Vamos a llegar a determinadas expresiones para obtener los parámetros del test alargado conociendo los parámetros de una forma paralela. La varianza empírica del test formado por n formas paralelas será: 2 = nσ X2 + n(n − 1)σ X2 ρ XX = nσ X2 [1 + (n − 1) ρ XX ] σ Xa
La varianza verdadera del test formado por n formas paralelas será:
[3.19]
88
Medición en Ciencias Sociales y de la Salud 2 σ Va = n 2σ V2
[3.20]
puesto que Va es una transformación lineal de V (Va = nV, donde n es una constante). La varianza error del test formado por n formas paralelas será: 2 σ Ea = nσ E2 + n(n − 1)σ E2 ρ EE = nσ E2
[3.21]
ya que ρEE , la correlación entre los errores de dos formas, es 0 según el 4º supuesto. A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad es el cociente entre la varianza verdadera y la varianza empírica, podemos obtener el coeficiente de fiabilidad de las puntuaciones en un test alargado n veces (ρnXX):
ρ nxx =
2 σ Va n 2σ V2 nρ XX = = 2 2 σ Xa nσ XX [1 + (n − 1)ρ XX ] 1 + (n − 1) ρ XX
[3.22]
La expresión [3.22] se conoce como Fórmula General de Spearman-Brown, y permite obtener el coeficiente de fiabilidad de las puntuaciones en un test compuesto por n formas paralelas (es decir, cuál será el coeficiente de fiabilidad, ρnXX, de un test que se forma con n versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad, ρXX).
Ejemplo 3.5. Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Si formamos un nuevo test uniendo las dos formas paralelas X1 y X2, ambas con varianzas iguales (σ2X = 6, σ2V = 4, σ2E =2) e igual coeficiente de fiabilidad (ρXX = 0,67), se obtiene un nuevo test con varianzas: 2 σ Xa = nσ X2 [1 + (n − 1) ρ XX ] = (2)6[1 + (1)0,67] = 20
2 σ Va = n 2σ V2 = 2 2 (4) = 16 2 σ Ea = nσ E2 = 2(2) = 4
El coeficiente de fiabilidad del nuevo test sería:
ρ nXX =
nρ XX
1 + (n − 1) ρ XX
=
(2)0,67 = 0,8 1 + (1)0,67
El 80% de la varianza del nuevo test (σ2Xa = 20) es varianza verdadera (σ2Va = 16).
Capítulo 3. Modelo clásico y fiabilidad
89
Según la Fórmula General de Spearman-Brown, el coeficiente de fiabilidad aumenta al alargar un test. Esto ocurre porque, al añadir n – 1 formas paralelas, la varianza debida a las puntuaciones verdaderas se incrementa más rápido (σ2Va = n2σ2V) que la varianza debida a los errores (σ2Ea = n σ2E). La Figura 3.1 muestra el efecto de multiplicar la longitud del test por n (n: 1, 2, ... 17) en 3 tests que difieren originalmente en ρXX (0,1, 0,4 y 0,7).
fiabilidad de un test alargado n veces
Figura 3.1. Coeficiente de fiabilidad de las puntuaciones en un test alargado como función del coeficiente de fiabilidad del test original y del número n de formas paralelas 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3
0.1
0.2
0.4
0.1
0.7
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
n
El valor n = 1 representa lo que ocurre con el test original. Los otros valores de n (2, 3,…) se refieren a lo que ocurre con los tests alargados (de longitud duplicada, triplicada,…). Observe que, en cualquiera de los tres tests, la ganancia en fiabilidad a medida que se incrementa la longitud no es lineal. Esto quiere decir, por ejemplo, que al pasar de n = 1 a n = 2 se obtiene mayor ganancia en precisión que al pasar de n = 2 a n = 3. También puede observarse que el incremento posible será menor cuanto mayor sea el coeficiente de fiabilidad del test original, ya que el valor máximo que puede obtenerse es 1.
Ejemplo 3.6. Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un ρXX = 0,7. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:
ρ nXX =
nρ XX (4)0,7 = = 0,903 1 + (n − 1) ρ XX 1 + (3)0,7
Si cuadruplicáramos la longitud del test recién formado, pasaríamos de 100 a 400 ítems. El test alargado tendría un coeficiente de fiabilidad:
90
Medición en Ciencias Sociales y de la Salud
ρ nXX =
nρ XX (4)0,903 = = 0,974 1 + (n − 1) ρ XX 1 + (3)0,903
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de atención es de 0,203, mientras que en el segundo caso, el incremento es únicamente de 0,071 (a pesar de que en el primer caso hemos añadido 75 ítems y en el segundo 300). Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el primero, y a que el segundo test tiene ya un considerable número de ítems (100).
Es importante tener en cuenta que la Fórmula General de Spearman-Brown no debe aplicarse cuando las formas añadidas no son paralelas o cuando al incrementar la longitud se producen efectos de fatiga (o de la práctica) al responder. Esto último ocurre, por ejemplo, cuando la persona no responde a los nuevos ítems con igual motivación, eficacia, atención, etc. Tampoco conviene olvidar que se requiere que la prueba original haya sido aplicada a un número suficiente de sujetos, de forma que el coeficiente de fiabilidad se halle bien estimado (Alsawalmeh y Feldt, 1999). Establecidas estas limitaciones, la fórmula de Spearman-Brown puede utilizarse para: 1. Extrapolar cuál sería el número de ítems necesarios para que las puntuaciones en nuestro instrumento alcancen una determinada fiabilidad. Así, despejando n de la fórmula anterior:
n=
ρ nXX (1 − ρ XX ) ρ XX (1 − ρ nXX )
[3.23]
donde ρnXX indica la fiabilidad que se quiere obtener, ρXX indica la fiabilidad actual y n es el número de formas paralelas que debería tener el test final para que se alcance esa fiabilidad. Lógicamente, si el test original tiene J ítems el test final deberá tener J’ ítems, donde J’ es igual a: J ' = nJ
En la práctica, la ecuación [3.23] puede resultar eficaz para diseñar un test inicial corto y estimar cuál debería ser su longitud para obtener un coeficiente de fiabilidad determinado, y así comprobar si merece la pena diseñar nuevos ítems paralelos o reformar los ya creados. 2. Poder comparar la fiabilidad de las puntuaciones en dos pruebas con distinto número de ítems. Si una prueba tiene J ítems y otra tiene J’ podemos ver cuál sería la fiabilidad de la primera si tuviera J’ ítems (J’ > J), para ello basta utilizar la fórmula de SpearmanBrown sustituyendo n por J’/J.
Capítulo 3. Modelo clásico y fiabilidad
91
En ambas situaciones, n siempre indica el número de veces que el test final contiene al test original y n – 1 indica el número de formas que se añaden a la forma original.
Ejemplo 3.7. Utilidad de la fórmula de Spearman-Brown Supongamos que para las puntuaciones en un test inicial de 25 ítems se obtiene un coeficiente de fiabilidad de 0,65, considerado bajo para los objetivos que se pretenden conseguir con su aplicación. Una manera de incrementar su precisión es alargarlo con ítems paralelos a los iniciales. Al constructor de la prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0,86, y se pregunta con cuántos ítems lo conseguiría. Aplicando la fórmula [3.23], obtenemos:
n=
ρ nxx (1 − ρ xx ) 0,86(1 − 0,65) = 3,308 = ρ xx (1 − ρ nxx ) 0,65(1 − 0,86)
Esto significa que si multiplicamos por 3,308 la longitud inicial del test, es decir, con un test de 83 ítems (3,308(25) = 82,7), conseguiremos la precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial habría que añadir 58 ítems paralelos (2,308 formas) para conseguir la fiabilidad de 0,86. Otro ejemplo. Consideremos que dos pruebas tienen, respectivamente, coeficientes de fiabilidad 0,65 y 0,7. La primera tiene 15 ítems y la segunda 20. ¿Cuál de las dos pruebas sería más precisa si ambas tuvieran el mismo número de ítems? Para responder a esta pregunta, podemos calcular cúal sería el coeficiente de fiabilidad de las puntuaciones en la primera prueba si tuviera 20 ítems:
n=
J ' 20 = = 1,33 J 15
El coeficiente de fiabilidad de la primera prueba sería:
ρ nxx =
nρ xx 1,33(0,65) = = 0,712 1 + (n − 1) ρ xx 1 + 0,33(0,65)
Lo que significa que, con el mismo número de ítems, la primera prueba sería más fiable en la muestra.
Aproximaciones a la fiabilidad y tipos de error Hemos visto que, a partir del Modelo Clásico, se expresa un nuevo concepto, la fiabilidad de las puntuaciones en el test, que representa la proporción de la varianza de las puntua-
92
Medición en Ciencias Sociales y de la Salud ciones en el test que se debe a la varianza de las puntuaciones verdaderas. En términos generales puede considerarse que la fiabilidad nos indica la replicabilidad de la medida a través de distintas condiciones, momentos, formas del test, etc. Ahora bien, la visión que se ha dado hasta ahora (coeficiente de fiabilidad como correlación entre formas paralelas) se encuentra algo simplificada. En realidad, el concepto de fiabilidad (o replicabilidad) de las puntuaciones es más complejo y puede entenderse de distintas maneras: 1. Ya hemos observado que podemos calcular el coeficiente de fiabilidad como una correlación entre formas paralelas. En ese caso estaríamos estudiando si se replican las mismas medidas al aplicar una prueba paralela con ítems distintos. Si ambas formas son paralelas, la correlación entre ambas indica su grado de equivalencia. En este sentido, replicabilidad implica que debemos obtener las mismas medidas cuando medimos lo mismo con pruebas equivalentes. 2. También puede aludirse a la estabilidad temporal de las medidas que proporciona nuestro instrumento. En este sentido, replicabilidad implica que debemos obtener las mismas medidas cuando medimos lo mismo en momentos distintos. 3. Finalmente, puede hacerse referencia al grado en que diferentes partes del test miden un rasgo con consistencia. En este sentido, replicabilidad implica que debemos obtener las mismas puntuaciones cuando medimos lo mismo con distintas partes del test. Según el procedimiento utilizado para calcular el coeficiente de fiabilidad estaremos siendo sensibles en mayor o menor grado a distintas fuentes de error. Ya hemos observado que, en el Modelo Clásico, se establece que:
X f =V + Ef Y también que el error es el resultado de todos aquellos factores (de la persona, de la situación o relativos a la composición del test) que hacen que la puntuación observada de una persona se aleje de su valor esperado. De forma más sencilla, un error implica un cambio en la puntuación de una persona de una medición a otra. Algunos autores suelen distinguir entre tres tipos de fuentes de error en los tests de respuesta seleccionada (Schmidt y Hunter, 1996, 1999; Schmidt, Le y Ilies, 2003): 1. Los errores debidos a factores transitorios suponen modificaciones en las respuestas de una persona que se deben a factores que cambian de una sesión de aplicación a otra pero que, dentro de una sesión, afectan por igual a todos los ítems. Si aplicamos un test dos veces puede haber cambios en variables personales (salud, humor, motivación, eficiencia mental, concentración, minuciosidad, impulsividad, etc.) o en variables situacionales que no han sido controladas en la aplicación (claridad de las instrucciones, presencia de incentivos, tiempo de la aplicación, etc.). Tales variables pueden tener efectos en todas las medidas tomadas dentro de una misma sesión de aplicación. Cambios en esas variables a través de las sesiones producirán cambios en las puntuaciones observadas. Por ejemplo, si alguien responde a una prueba de conocimientos con baja motivación, su rendimiento puede verse afectado. Su puntuación X estará por debajo de su puntuación V. Si volvemos a aplicar el mismo test en otro momento, en el que tenga
Capítulo 3. Modelo clásico y fiabilidad
93
mayor motivación, su puntuación X será mayor. El nivel de motivación afectará a todas sus respuestas recogidas en cada sesión. Los errores debidos a factores transitorios pueden detectarse estudiando cómo varía el rendimiento de la persona en distintos momentos temporales. Estos errores no son detectables si el test se aplica una sola vez (pues en ese caso no podemos saber cómo cambiarían las puntuaciones de las personas si se les aplica el test en otro momento). 2. Los errores debidos a la especificidad suponen cambios en las respuestas de una persona que se deben al contenido concreto de los ítems que se le presentan. Por ejemplo, en una prueba de conocimientos de Filosofía cada estudiante puede tener distinto nivel de dominio de los distintos temas. Alguien puede saber mucho de Platón y poco de Kant. Si le hiciéramos una pregunta sobre Platón su puntuación V se sobrestimaría (ocurriría lo contrario si le hiciéramos una pregunta sobre Kant). Otro ejemplo: en una escala de Estabilidad Emocional se incluyen ítems en sentido directo y otros en sentido inverso; las respuestas de una persona en ítems de uno y otro tipo pueden ser distintas. Los errores debidos a la especificidad pueden detectarse estudiando cómo varía el rendimiento de la persona en distintas partes del test. Estos errores no son detectables si se aplica la misma pregunta en dos ocasiones distintas (pues en ese caso no podemos saber cómo cambiarían las puntuaciones de las personas si les hubiéramos hecho otra pregunta). 3. Los errores debidos a factores aleatorios se refieren al grado de inconsistencia en la respuesta que no puede ser atribuido directamente al contenido de los ítems, ni a otros factores de la persona o la situación que actúan de forma sistemática en el tiempo. Es producto de variaciones en la atención, de distracciones momentáneas, de la propia labilidad intrínseca a nuestro sistema nervioso, etc. Por ejemplo, supongamos que al escuchar un ítem de una prueba de inglés, el evaluado se ha distraído; como no ha escuchado la pregunta, falla el ítem. Consideremos que de haber escuchado el ítem lo hubiera acertado. En ese caso, si se le vuelve a aplicar el ítem lo acertará. La distracción no produce un error debido a la especificidad del ítem ya que el fallo inicial de la persona no tiene que ver con el contenido del ítem. Tampoco es un error debido a factores transitorios ya que la distracción no necesariamente ha afectado a todos los ítems aplicados en la misma sesión. En los siguientes apartados se recoge el grado en que cada coeficiente de fiabilidad es sensible a cada tipo de error. Antes de empezar, es necesario advertir de un cambio de notación. Hasta el momento, el Modelo Clásico y los estadísticos (medias, varianzas, correlaciones,...) se han descrito en términos paramétricos; es decir, para la población. Por ello, se utilizaba la nomenclatura griega ( σ2X , ρxx , etc.). En la práctica vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto (S2X , rxx, etc.). Esto significa que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de dicha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos.
94
Medición en Ciencias Sociales y de la Salud
Fiabilidad como correlación entre formas paralelas A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original pero con diferentes ítems. Como ya hemos explicado, dos versiones o formas se consideran paralelas si su contenido es similar y, aplicadas a una misma muestra de personas, obtienen similares medias, varianzas y covarianzas con otras variables. La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en que pueden considerarse equivalentes. Por ello, en ocasiones se denomina a este coeficiente de fiabilidad coeficiente de equivalencia. Si las formas no fuesen paralelas puede subestimarse dicho coeficiente.
Ejemplo 3.8. Coeficiente de fiabilidad por el método de las formas paralelas Se han aplicado las dos formas de un test a 13 personas3, obteniendo los resultados que se muestran en la Tabla 3.6. Tabla 3.6. Cálculo del coeficiente de fiabilidad por el método de las formas paralelas Evaluados
1
2
3
4
5
6
7
8
9
10
11
12
13
X1 = Forma 1 X2 = Forma 2
10 9
12 13
11 14
14 16
11 10
9 10
13 13
14 15
16 14
15 14
13 12
14 10
16 17
El coeficiente de fiabilidad sería:
rXX = rX1 X 2 = 0,701 Lo que se significa que el 70,1% de la varianza de las puntuaciones observadas en cualquiera de las formas es debida a la variabilidad en el verdadero nivel de rasgo.
Es evidente que la falta de concordancia cuando se calcula el coeficiente de equivalencia se deberá a que las dos formas tienen contenidos específicos distintos o a que los ítems no son adecuados para medir el rasgo. En sentido estricto, el coeficiente de equivalencia no es sensible a los errores debidos a factores transitorios y nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los errores debidos a factores específicos o al error debido a factores aleatorios. Sin embargo, 3
El uso de sólo 13 sujetos para evaluar las propiedades psicométricas de una prueba es, lógicamente, insuficiente. El pequeño tamaño de la muestra se debe a razones puramente didácticas, de forma que el lector pueda realizar los cálculos si lo desea.
Capítulo 3. Modelo clásico y fiabilidad
95
su interpretación suele simplificarse, de tal forma que se entiende como proporción de varianza de las puntuaciones empíricas explicada por las puntuaciones verdaderas. Esta última interpretación es razonable para ciertos rasgos, como por ejemplo el nivel de vocabulario, para los que se espera un efecto pequeño de los factores transitorios (ver por ejemplo, Reeve, Heggestad y George, 2005). No es común diseñar una forma paralela de un test para obtener datos sobre su fiabilidad. Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determinados trabajos que requieren dos aplicaciones sucesivas de un test cuyos contenidos se pueden recordar con facilidad. Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del entrenamiento pruebas equivalentes aunque con contenidos diferentes (formas paralelas), para evitar los efectos del recuerdo.
Fiabilidad como estabilidad temporal Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo test, cabe esperar una correlación de Pearson elevada entre ambas mediciones (reflejando así la concordancia de las medidas tomadas en dos momentos distintos). Dicha correlación entre la evaluación test y la evaluación retest (rXtestXretest) se denomina coeficiente de fiabilidad test-retest o de estabilidad temporal, e indicará tanta mayor estabilidad temporal de las puntuaciones en la prueba cuanto más cercano a uno sea. Este modo de operar se desprende también directamente del Modelo Clásico, según el cual se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es uno aplicado dos veces.
Ejemplo 3.9. Coeficiente de fiabilidad por el método test-retest Para obtener el coeficiente de estabilidad de una escala se aplica una forma del test a una muestra. Transcurridos dos meses, se vuelve a aplicar la misma forma a las mismas personas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones son las que aparecen en la Tabla 3.7. Tabla 3.7. Cálculo del coeficiente de estabilidad Evaluados
1
2
3
4
5
6
7
8
9
10
11
12
13
XTest XRestest
10 11
12 12
11 13
14 15
11 12
9 12
13 10
14 15
16 13
15 18
13 11
14 15
16 17
Para obtener el coeficiente de fiabilidad test-retest bastaría con correlacionar los datos de las dos aplicaciones:
96
Medición en Ciencias Sociales y de la Salud
rX test X tetest = 0,639 En este caso se obtiene una cierta estabilidad de las puntuaciones. Si los niveles de rasgo de las personas no han variado a lo largo de los dos meses transcurridos entre las dos aplicaciones, podemos decir que el test proporciona ciertas garantías (no óptimas) respecto a la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos aplicaciones.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por la falta de precisión del instrumento. Es decir, es necesario asumir que las puntuaciones verdaderas de los evaluados no han cambiado entre el test y el retest. Por tanto, no es adecuado calcular este coeficiente para cuando se pretenden medir atributos psicológicos que por naturaleza son fluctuantes (p. ej., estados de ansiedad). La determinación del intervalo temporal entre aplicaciones es importante y debe ser informada (Standards, AERA, APA y NCME, 1999; p. 32). Para establecer un período concreto, el efecto en las respuestas debido a la doble aplicación (efectos del aprendizaje, la fatiga, la maduración, el recuerdo, la motivación, el deseo de congruencia, etc.) debería ser analizado y controlado. Un efecto debido a la doble aplicación implicaría que: (1) las puntuaciones verdaderas de las personas han cambiado; (2) la precisión de las medidas ha variado entre el test y el retest. Si el intervalo es demasiado corto y no hay efectos de fatiga suele producirse una sobrestimación de la fiabilidad porque se recuerdan las respuestas. Por tanto, es aconsejable dejar más tiempo cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los evaluados podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo de responder de manera congruente. Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que se produzcan cambios reales en el rasgo (p. ej., por factores de tipo madurativo) y, por lo tanto, se subestime la fiabilidad de la prueba. El intervalo usual suele variar entre dos semanas y dos meses. Por otro lado, es importante tener en cuenta que, dado que se aplica la misma forma (i.e., las mismas preguntas) en dos momentos distintos, este coeficiente de fiabilidad no es sensible a los errores debidos a la especificidad. En sentido estricto, el coeficiente de estabilidad nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los errores debidos a factores transitorios o al error debido a factores aleatorios. Para la mayoría de los rasgos (p. ej., neuroticismo, capacidad verbal, etc.) el efecto de los errores debidos a la especificidad es importante. Por tanto, el coeficiente de estabilidad no puede ser considerado una buena estimación de la proporción de varianza de las puntuaciones empíricas que es explicada por las verdaderas.
Capítulo 3. Modelo clásico y fiabilidad
97
Fiabilidad como consistencia interna También se han propuesto otros coeficientes basados en una única aplicación del test y que, por tanto, son menos costosos de obtener. Con estos métodos se estudia la concordancia entre las puntuaciones de los evaluados en distintas partes del test. Así, la fiabilidad se entiende ahora como el grado en que diferentes subconjuntos de ítems covarían, correlacionan o son consistentes entre sí. Todos estos coeficientes no son, por tanto, sensibles al los errores debidos a factores transitorios. Lo más usual es estudiar la consistencia entre las dos mitades del test (método de dos mitades) o entre tantas partes como elementos tenga (consistencia interna global).
Coeficiente de fiabilidad por el método de las dos mitades (método de Spearman-Brown) En primer lugar se divide el test en dos mitades (p. ej., ítems impares e ítems pares). Para cada persona se obtiene la puntuación directa en ambas mitades. Disponemos entonces de dos variables (XI y XP), cuya correlación de Pearson indica su grado de relación lineal. Si ambas mitades son paralelas, su correlación será el coeficiente de fiabilidad de las puntuaciones en la mitad del test. Una práctica habitual consiste en extrapolar el coeficiente de fiabilidad de las puntuaciones en el test completo (X = XI + XP) aplicando la fórmula de Spearman-Brown (haciendo n = 2, ya que el test completo tiene el doble de ítems que cualquiera de sus mitades): SB rXX
=
2 rX I X P 1 + rX I X P
[3.24]
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como la expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre ambas mitades. Sus valores pueden estar entre 0 y 1 e indica el grado en que un test compuesto por dos formas paralelas (las mitades) proporcionaría resultados similares a otro test equivalente. En sentido estricto, nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza error por muestreo de contenidos o error aleatorio. Sin embargo, suele interpretarse como proporción de varianza de las puntuaciones en el test que es debida a las puntuaciones verdaderas.
98
Medición en Ciencias Sociales y de la Salud
Ejemplo 3.10. Coeficiente de fiabilidad por el método de las dos mitades En la Tabla 3.8 se exponen los resultados de una muestra de 10 evaluados que responden a un test de 6 ítems (X1, X2, …, X6) valorados de forma dicotómica. En este caso se obtendría que rX I X P = 0,277, y por tanto: SB rXX
=
2(0,277) = 0,434 1 + 0,277
De nuevo el tope de rXX lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy consistentes entre sí. Únicamente un 43.4% de la varianza de las puntuaciones empíricas se debe a la varianza de las verdaderas. No podríamos afirmar con suficiente certeza que ambas mitades miden con precisión el rasgo de interés. Tabla 3.8. Cálculo del coeficiente de fiabilidad por el método de las dos mitades Evaluados
X1
X2
X3
X4
X5
X6
XI
XP
X
1 2 3 4 5 6 7 8 9 10 Varianza (S2)
1 0 0 0 0 1 1 0 0 0 0,233
0 1 0 1 0 1 1 1 1 0 0,267
1 1 1 1 0 1 1 1 0 0 0,233
0 1 0 1 1 1 1 1 0 1 0,233
1 0 0 0 0 1 1 0 0 0 0,233
0 1 0 0 0 1 1 1 0 0 0,267
3 1 1 1 0 3 3 1 0 0 1,567
0 3 0 2 1 3 3 3 1 1 1,567
3 4 1 3 1 6 6 4 1 1 4
Al calcular el coeficiente de fiabilidad por el método de las dos mitades hay que tener en cuenta varias precauciones: 1. La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a responder a los ítems más fáciles hasta llegar a los situados al final del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la primera mitad formada por los primeros J/2 ítems, la segunda por los J/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma media. Por ello, para obtener este coeficiente, hay que cuidar el modo en que se forman las mitades para garantizar su paralelismo; así, ambas mitades deberían estar equilibradas en cuanto a la dificultad, los contenidos y la posición media de sus ítems en el test. Por ejemplo, si en un test de 20 ítems de Extraversión, 10 miden Sociabilidad
Capítulo 3. Modelo clásico y fiabilidad
99
y otros 10 miden Impulsividad, las dos formas que construyamos deberían estar equilibradas en el número de ítems de ambas facetas. 2. Si las respuestas a los ítems dependen demasiado de su orden serial en el test (p. ej., en un test de velocidad) es preferible utilizar otros procedimientos para evitar que el coeficiente de fiabilidad se sobrestime. También hay que ser cautos cuando existen grupos de ítems que hacen referencia a un estímulo común (testlets); al repartir esos ítems a través de las mitades, se puede sobrestimar el coeficiente de fiabilidad. En esos casos, el hecho de que una persona obtenga la misma puntuación en las dos partes podrá ser considerado un artefacto metodológico (p. ej., en una prueba de velocidad, la puntuación en la parte del test formada por los ítems impares siempre será muy similar a la puntuación en la parte del test formada por los ítems pares). En el caso de pruebas de velocidad se recomienda no utilizar índices de consistencia interna (o proceder a la eliminación del análisis de los ítems que no han sido alcanzados por un porcentaje de personas). En el caso de ítems que hacen referencia a un estímulo común se recomienda que se mantengan en una misma mitad, ya que si se reparten entre las dos mitades se sobrestimará el coeficiente de fiabilidad (ver Haertel, 2006). 3. Un inconveniente de este método es que existen muchas formas de dividir el test en dos mitades y cada una de ellas arrojará un resultado distinto. De hecho, para McDonald (1999) el procedimiento de las dos mitades no es recomendable porque introduce en su estimación la variabilidad debida al método utilizado para dividir el test en dos. Al calcular el coeficiente de fiabilidad mediante la fórmula de Spearman-Brown se asume que las dos mitades son formas paralelas. Esto no ocurrirá cuando las dos mitades difieran en el número de ítems (variarán las varianzas verdaderas y las varianzas de error). Por ejemplo, cuando el número de ítems es impar, es incorrecto aplicar la fórmula de Spearman-Brown directamente, puesto que las dos formas ya no serían paralelas. En ese caso, el coeficiente de fiabilidad obtenido por la fórmula de Spearman-Brown supone una pequeña subestimación del coeficiente de fiabilidad, por lo que puede calcularse un coeficiente de fiabilidad corregido. En el capítulo 8 se muestran otras formas de calcular el coeficiente por el método de las dos mitades cuando las formas no son paralelas.
Coeficiente α de Cronbach Como hemos indicado, existen muchas formas de dividir el test en dos mitades. Para resolver este problema se ha propuesto el coeficiente alfa, un indicador de consistencia interna con el que se estudia la concordancia entre las puntuaciones de las personas entre las partes más elementales del test: los ítems. Considere que tenemos un test con J ítems:
X =
∑ X = ∑V +∑ E j
j
j
j
j
[3.25]
j
Si se cumplen los supuestos del Modelo Clásico podemos definir la proporción de varianza del test que es varianza verdadera:
100 Medición en Ciencias Sociales y de la Salud
∑σ
σ V2
j
=
σ X2
2 Vj
∑σ
+
j≠ j'
V jV j '
[3.26]
σ X2
Los parámetros que aparecen en el numerador se refieren a las puntuaciones verdaderas en los ítems. Sin embargo, asumiendo los supuestos de la TCT, se cumplirá poblacionalmente que el promedio de las covarianzas empíricas entre ítems es igual al promedio de las covarianzas verdaderas:
∑σ j≠ j'
∑σ
X j X j'
=
J ( J − 1)
j≠ j'
V jV j '
[3.27]
J ( J − 1)
y, por tanto:
∑σ j≠ j'
V jV j '
=
∑σ j≠ j'
[3.28]
X j X j'
Por otro lado, la covarianza entre dos variables nunca puede ser mayor que la varianza de cualquiera de ellas; por tanto, debe cumplirse siempre que el promedio de las covarianzas verdaderas entre ítems es menor o igual que el promedio de sus varianzas verdaderas:
∑σ j≠ j'
∑σ
V jV j '
J ( J − 1)
j
≤
2 Vj
[3.29]
J
Y, por tanto, considerando [3.28] y [3.29]:
∑ j
σ V2j
∑σ ≥
j≠ j'
∑σ
V jV j '
J −1
=
j≠ j'
X j X j'
[3.30]
J −1
De las ecuaciones [3.26], [3.28] y [3.30] se deriva la siguiente relación:
σ V2
σ X2
∑ =
j
σ V2j
+
∑σ j≠ j'
σ X2
∑σ j≠ j'
V jV j '
≥
X j X j'
( J − 1)
+
∑σ j≠ j'
σ X2
X j X j'
J = J −1
∑σ j≠ j'
X j X j'
σ X2
[3.31]
101
Capítulo 3. Modelo clásico y fiabilidad Pues bien, el denominado coeficiente α (Cronbach, 1951) es:
J α= J −1
∑σ j≠ j'
X j X j'
[3.32]
σ X2
Y se dice que el coeficiente α es un límite inferior del coeficiente de fiabilidad, ya que siempre toma valores iguales o por debajo de éste [ α ≤ σ V2 σ X2 ]. Para datos muestrales tres formas de expresar el coeficiente α serían4: Ecuación 1 [3.33]
∑S
X j X j'
J j≠ j' α= ( J −1 S X2
donde
∑S j≠ j'
Ecuación 2 [3.34]
)
J α= (1 − J −1
∑S j
Ecuación 3 [3.35]
2 Xj
S X2
)
es la suma de las covarianzas entre ítems,
X j X j'
α=
∑S j
2 Xj
S X j X j' S
es la suma de las va-
rianzas de los ítems, S X j X j ' indica el promedio de las covarianzas entre ítems
S X j Xl = SX X j j' j≠ j'
∑
(J ( J − 1) )
y S es el promedio de los J 2 elementos de la matriz de
varianzas-covarianzas entre ítems: S =
∑S j
2 Xj
+
∑S j≠ j'
X j X j'
J2 .
El coeficiente α es útil para expresar en qué grado las medidas que obtenemos de las personas dependen de los ítems aplicados. La pregunta a la que se responde es: ¿los evaluados habrían obtenido puntuaciones similares si hubiéramos aplicado otro test de la misma longitud construido siguiendo la misma lógica? El coeficiente α siempre toma valores menores o iguales a 1 (el numerador en la ecuación 3.35 tiene que ser menor o igual que el denominador). Generalmente, toma valores entre 0 y 1 pero puede ser negativo (el denominador en la ecuación 3.35 es siempre positivo, pero el numerador puede ser negativo). Valores del coeficiente próximos a 1 indican fiabilidad alta; valores próximos a 0, fiabilidad baja. 4
Para comprobar la igualdad de las 3 ecuaciones, recordemos que la puntuación en el test es una combinación lineal de las puntuaciones en los ítems y, por tanto, la varianza del test puede expresarse como la suma de las varianzas y covarianzas entre ítems: S X2 =
∑S j
2 Xj
+
∑S j≠ j'
X j X j'
102 Medición en Ciencias Sociales y de la Salud
Ejemplo 3.11. Coeficiente alfa Podemos calcular el coeficiente α con los datos del ejemplo de la Tabla 3.8. El coeficiente
α, en este caso, sería: J α= 1− J − 1
∑S S X2
2 Xj
6 = 0,233 + 0,267 + 0,233 + 0,233 + 0,233 + 0,267 = 0,76 5 1 − 4
El coeficiente α obtenido representa un valor aceptable, pues se ha obtenido con sólo 6 ítems, que nos indica que existe un grado de covariación medio-alto entre los ítems.
La cuantía del coeficiente α depende de dos factores principalmente: 1. Consistencia interna o grado de covariación (correlación) promedio entre los ítems. Como es lógico, un grado de covariación mayor entre dos ítems implica que el efecto de aplicar uno u otro para puntuar a las personas es menos importante. Podemos observar en la expresión [3.35] que el coeficiente α tendrá un valor mayor cuanto mayor sea el promedio de las covarianzas. Asumirá valores cercanos a cero si el promedio de las covarianzas es próximo a 0. El máximo valor de α es 1, ya que la covarianza entre dos ítems nunca puede ser mayor que las varianzas de éstos (ya que el numerador nunca puede ser mayor que el denominador). El grado de covariación será mayor si los ítems están midiendo una única dimensión o rasgo (o dimensiones distintas pero correlacionadas) y mayor cuanto mejor reflejen esa dimensión (o dimensiones). Sin embargo, y para evitar malos entendidos, debemos recordar que α, por sí solo, no constituye un indicador de unidimensionalidad ya que: a. Se pueden estar midiendo distintas dimensiones pero correlacionadas. b. La covariación promedio puede llegar a ser alta incluso si un conjunto reducido de ítems no covarían con los demás. c. Como se describe a continuación, cierto grado de multidimensionalidad del test puede compensarse incrementando el número de ítems (Cortina, 1993; Streiner, 2003). Por tanto, para concluir sobre la unidimensionalidad del test es aconsejable aplicar otras técnicas estadísticas, como el Análisis Factorial (ver capítulos 6 y 10). 2. Número de ítems. En la ecuación [3.35] se observa también que el coeficiente α será mayor cuanto mayor sea el número de ítems. En efecto, llamemos al promedio de las varianzas de los ítems S X2 j :
Capítulo 3. Modelo clásico y fiabilidad
S X2 j =
∑S j
103
2 Xj
J
La fórmula 3.35 se puede escribir como:
α=
S X j X j' JS X2 j + J ( J − 1) S X j X j ' J2
J =
S X j X j' S X2 j
1 + ( J − 1)
S X j X j' S X2 j
Si al añadir ítems se mantiene constante el cociente entre el promedio de las covarianzas y el promedio de las varianzas, el valor del coeficiente α será mayor cuanto mayor sea J. Puede observarse el parecido de la estructura de esta fórmula y la de SpearmanBrown.
Ejemplo 3.12. Coeficiente alfa y unidimensionalidad del test En las siguientes tablas (3.9, 3.10 y 3.11) se muestran las matrices de varianzascovarianzas entre los ítems de tres pruebas; los tests A y B tienen 6 ítems, mientras que el C tiene 12 ítems. Los datos son ficticios para ilustrar mediante un ejemplo simple las propiedades del coeficiente α. Para el test A:
∑
SX X j l J 6 2,4 j≠ j' = 0,74 α= ( ) = 2 5 3,9 J −1 SX Para el test B:
∑
SX X j l J 6 2,4 j≠ j' = 0,74 α= ( ) = 2 J −1 5 3,9 SX Para el test C:
∑
SX X j l J 12 12 j≠ j' α= ( ) = = 0,87 2 J −1 11 15 SX
104 Medición en Ciencias Sociales y de la Salud
Tabla 3.9. Matriz de varianzas-covarianzas entre ítems (Test A) X1 X2 X3 X4 X5 X6
X1
X2
X3
X4
X5
X6
0,25 0,20 0,20 0 0 0
0,20 0,25 0,20 0 0 0
0,20 0,20 0,25 0 0 0
0 0 0 0,25 0,20 0,20
0 0 0 0,20 0,25 0,20
0 0 0 0,20 0,20 0,25
Tabla 3.10. Matriz de varianzas-covarianzas entre ítems (Test B) X1 X2 X3 X4 X5 X6
X1
X2
X3
X4
X5
X6
0,25 0,08 0,08 0,08 0,08 0,08
0,08 0,25 0,20 0,08 0,08 0,08
0,08 0,08 0,25 0,08 0,08 0,08
0,08 0,08 0,08 0,25 0,08 0,08
0,08 0,08 0,08 0,08 0,25 0,08
0,08 0,08 0,08 0,08 0,08 0,25
Tabla 3.11. Matriz de varianzas-covarianzas entre ítems (Test C) X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
0,25 0,20 0,20 0,20 0,20 0,20 0 0 0 0 0 0
0,20 0,25 0,20 0,20 0,20 0,20 0 0 0 0 0 0
0,20 0,20 0,25 0,20 0,20 0,20 0 0 0 0 0 0
0,20 0,20 0,20 0,25 0,20 0,20 0 0 0 0 0 0
0,20 0,20 0,20 0,20 0,25 0,20 0 0 0 0 0 0
0,20 0,20 0,20 0,20 0,20 0,25 0 0 0 0 0 0
0 0 0 0 0 0 0,25 0,20 0,20 0,20 0,20 0,20
0 0 0 0 0 0 0,20 0,25 0,20 0,20 0,20 0,20
0 0 0 0 0 0 0,20 0,20 0,25 0,20 0,20 0,20
0 0 0 0 0 0 0,20 0,20 0,20 0,25 0,20 0,20
0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,25 0,20
0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,20 0,25
Podemos observar que los tests A y B tienen el mismo coeficiente α. Sin embargo, la interpretación de los resultados sería bastante distinta. Aunque los dos tests tienen el mismo número de ítems, la misma varianza y el mismo promedio para las covarianzas entre ítems, el patrón de resultados es muy distinto atendiendo a las covarianzas concretas entre ítems. En el test A los ítems miden dos dimensiones; los ítems del 1 al 3 miden una dimensión y los ítems del 4 al 6 miden otra dimensión. En el test B los 6 ítems miden una única dimensión, aunque las covarianzas entre los ítems que covarían positivamente son menores que las encontradas para el test A. Para el Test C se obtiene un coeficiente α superior (0,87). Observe que a pesar del alto valor del coeficiente obtenido, los ítems también miden dos dimensiones (los ítems del 1 al 6 miden una dimensión y los ítems del 7 al 12 miden otra dimensión). De hecho, las covarianzas entre los ítems que covarían positi-
Capítulo 3. Modelo clásico y fiabilidad
105
vamente son similares a las encontradas para los ítems que covarían en el Test A; sin embargo, al ser el test más largo el coeficiente obtenido es mayor.
Lo anterior ilustra que la interpretación del coeficiente α debe complementarse con los resultados obtenidos a partir del análisis de ítems y del Análisis Factorial. Un coeficiente α bajo puede indicar que los diferentes ítems miden rasgos o constructos diferentes o que el test es demasiado corto. El coeficiente α puede interpretarse como una estimación “a la baja” del coeficiente de fiabilidad como consistencia interna. Para interpretar el coeficiente α como un coeficiente de fiabilidad del test se requiere asumir que todos los ítems son paralelos o, al menos, esencialmente tau-equivalentes (ver capítulo 8 para la definición de tauequivalencia). En la práctica, es muy difícil que esto se produzca. Cuando los ítems no son equivalentes, el coeficiente alfa poblacional debe interpretarse como una subestimación del coeficiente de fiabilidad como consitencia interna (Lord y Novick, 1968): α ≤ σ 2V / σ 2X. Esto quiere decir que si obtenemos un coeficiente α de 0,7, el coeficiente de fiabilidad podría estar, teóricamente, entre 0,7 y 1. Por tanto, en sentido estricto, el coeficiente α no puede interpretarse como un coeficiente de fiabilidad. Una ventaja del coeficiente α es que no requiere dividir el test en distintas mitades. Cada test puede tener muchos coeficientes de fiabilidad por el método de las dos mitades pero siempre tendrá, para una muestra concreta, un único coeficiente α. Sin embargo, al calcular el coeficiente α hay que tener en cuenta una serie de precauciones, ya que adolece de algunos problemas comunes a los otros indicadores de consistencia interna: 1. Las respuestas a los ítems pueden correlacionar excesivamente, independientemente de su contenido, si el test es de velocidad o hay efectos de fatiga. 2. También hay que ser cauto cuando existen grupos de ítems que comparten su especificidad (p. ej., si conjuntos de ítems de un test de comprensión lectora se refieren a pasajes comunes). En ambos casos es preferible obtener otros indicadores de fiabilidad. Una solución sencilla para el último caso puede ser construir testlets (p. ej., cada testlet sería la suma de las puntuaciones de los ítems que se refieren a un pasaje común) y calcular el coeficiente alfa tomando los testlets como ítems. 3. Debe evitarse aumentar el coeficiente α artificialmente, incluyendo ítems redundantes en el test (p. ej., ítems muy parecidos en el enunciado). 4. Finalmente, el coeficiente alfa no es sensible al efecto de los errores debidos a factores transitorios (Becker, 2000; Green, 2003; Schmidt y Hunter, 1996, 1999). En la presencia de este tipo de errores, el coeficiente α es una sobrestimación del coeficiente de fiabilidad. El coeficiente α es probablemente el indicador de fiabilidad más utilizado (Hogan, Benjamin y Brezinski, 2000). Sin embargo, la discusión sobre su interpretación sigue generando polémica. En el número de marzo de 2009, una de las revistas psicométricas más prestigiosas, Psychometrika, dedicó un número especial sobre la interpretación, usos, abu-
106 Medición en Ciencias Sociales y de la Salud sos y alternativas al coeficiente α como aproximación a la fiabilidad. La interpretación del coeficiente α puede ser especialmente problemática si el test no es unidimensional. En relación al uso del test, debe distinguirse entre el valor del coeficiente alfa como un indicador de la consistencia interna o como un indicador de que el test puede ser utilizado en la práctica. Un coeficiente alfa de 0,60 puede indicar una alta consistencia interna si la prueba tiene sólo 6 ítems. Sin embargo, esa alta consistencia interna no legitima su uso, porque la precisión de nuestras medidas será claramente insuficiente. Existen otros muchos indicadores relacionados con el coeficiente alfa, pero la mayoría de ellos raramente son aplicados en la práctica. Por ejemplo, los coeficientes denominados KR-21 y KR-20 (Kuder y Richardson, 1937) son casos particulares del coeficiente α para ítems dicótomicos. Mientras que KR-20 es matemáticamente equivalente al coeficiente alfa, el coeficiente KR-21 no lo es, ya que en su cómputo se asume que los ítems tienen la misma dificultad y se cumplirá siempre que KR-21 ≤ α.
El error típico de medida Definición Asumiendo el postulado fundamental del Modelo Clásico, que expresa la relación X = V + E, hemos observado que se cumple la siguiente relación para datos poblacionales σ 2X = σ 2V + σ 2E. También hemos demostrado que ρXX = 1 – σ 2E / σ 2X, de donde se deduce que la desviación típica de los errores puede obtenerse a partir de la expresión:
σ E = σ X 1 − ρ XX
[3.36]
σE es la desviación típica de los errores al aplicar un test en la población. En el Modelo Clásico suele asumirse que σE expresa también la desviación típica de los errores de medida que obtendríamos, para una persona, al aplicarle distintas formas del test (σEi). Es decir, que σEi = σE. A la desviación típica de los errores de medida (σE) se denomina error
típico de medida. Representa una medida de precisión: cuanto más cercano a 0 sea el error típico de medida de un test, eso significará que dicho test proporciona a cada persona una puntuación X cercana a su nivel de rasgo V. El error típico de medida es muy importante, ya que indica la variabilidad de las puntuaciones X si tomáramos para la misma persona distintas medidas. En efecto, para un individuo i, la variabilidad de las puntuaciones a través de distintas formas paralelas se explica por la varianza de los errores (ya que, siendo su puntuación verdadera constante a través de las formas, σ 2Vi = 0):
σ X2 i = σ V2i + σ E2i = σ E2i Si el error típico de medida σEi es 0, eso quiere decir que el evaluado i obtendrá siempre la misma puntuación X en las distintas mediciones (como el test en ese caso es máximamente preciso, la puntuación X del evaluado coincidirá siempre con su puntuación V). Cuanto menos preciso sea el test, mayor será σEi. Si el coeficiente de fiabilidad de las puntuacio-
Capítulo 3. Modelo clásico y fiabilidad
107
nes fuera 0 (ρXX = 0), entonces el error típico de medida sería el máximo posible, σE = σX; esto quiere decir que cuando trabajamos con una prueba poco precisa la variabilidad de las puntuaciones observadas para una persona en distintas mediciones va a ser tan grande como la variabilidad de las puntuaciones observadas en la población. Luego el test resultará poco útil para informarnos sobre los niveles de atributo de las personas.
Ejemplo 3.13. Coeficiente de fiabilidad y error típico de medida En la figura 3.2 se presentan 2 gráficos de dispersión entre V y X para dos tests. La media y desviación típica de X son 50 y 9,65, respectivamente. El primero representa lo que ocurre para un test con un coeficiente de fiabilidad de 0,9 y un error típico de 3,05 (relación lineal positiva y elevada). El segundo, lo que ocurre para un test con un coeficiente de fiabilidad de 0 y un error típico de 9,65 (no existe relación lineal entre X y V). Figura 3.2. Relación entre V y X para dos tests 90
90
80
80
70
70
60
60
50 X
50
X
40
40
30
30
20
20
10
10
0
0 0
10 20 30 40 50 60 70 80 90 100 V
0
10 20 30 40 50 60 70 80 90 100 V
En la figura 3.3 se representa la puntuación media y la variabilidad en X como función de V para esos mismos tests para las puntuaciones verdaderas entre 41 y 61. Figura 3.3. Puntuación esperada y variabilidad en X como función de V para dos tests.
X X
70
70
60
60
50
50
40
X
30
40 X
30
20
20
10
10 0
0 42 44 46 48 50 52 54 56 58 60 V
42 44 46 48 50 52 54 56 58 60 V
108 Medición en Ciencias Sociales y de la Salud Para el test con alta fiabilidad (izquierda) el valor esperado en X es función de V. Por ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada en el test de 45 y sus puntuaciones suelen oscilar en la mayoría de los casos entre 42 y 48. Para el test con fiabilidad nula (derecha), el valor esperado en X no depende de V. Por ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada de 50 (la media del test) y sus puntuaciones suelen oscilar aproximadamente entre 40 y 60. En ese caso, la puntuación en el test no nos informa del nivel de rasgo. Puede observarse que la amplitud de los intervalos en cada test (42-48 y 40-60) se relaciona inversamente con su fiabilidad y es proporcional al error típico de medida.
De lo anterior debe deducirse que el tamaño del error típico de medida debe interpretarse en relación a la variabilidad de las puntuaciones empíricas. Si σE es 1 y σX es 15, nuestro test será más preciso que si σE es 0,8 y σX es 1. En una muestra concreta el error típico de medida se estima como:
S E = S X 1 − rXX
[3.37]
Ejemplo 3.14. Cálculo del error típico de medida En un test la desviación típica es 2,832 y el coeficiente de fiabilidad es 0,771; el error típico de medida se obtendría como:
S E = S X 1 − rXX ' = 2,832 1 − 0,771 = 1,355 Esto quiere decir que si aplicáramos a una persona tests paralelos, la desviación típica de las puntuaciones empíricas sería 1,355.
Aplicaciones del error típico de medida El error típico de medida nos sirve para saber: (1) el rango de puntuaciones en el cual se encuentra la puntuación verdadera de una persona; (2) si la diferencia de puntuaciones observadas entre dos personas expresa una diferencia en parte verdadera; (3) si el cambio en las puntuaciones observadas de una persona después de una intervención refleja un cambio en parte verdadero. Desde el Modelo Clásico se suele asumir que la distribución de las puntuaciones observadas de una persona en las distintas formas paralelas es normal, con media su puntuación verdadera y desviación típica el error típico de medida:
Capítulo 3. Modelo clásico y fiabilidad
X i ~ N (Vi , σ E )
109 [3.38]
Puesto que se asume la distribución normal puede decirse que los valores de la variable estarán entre el valor Vi – z1 – α/2σE y el valor Vi + z1 – α/2σE con una probabilidad 1 – α5, donde z1 – α es el valor z que deja por debajo una probabilidad 1 – α en la distribución normal. Por ejemplo, con α = 0,05, si σE = 1,355 y Vi = 5 podremos decir que los valores de X estarán, en el 95% de las mediciones, entre 2,344 (= 5 – (1,96)1,355) y 7,656 (= 5 + (1,96)1,355). En la realidad operamos al revés, pues no conocemos Vi sino Xi y queremos establecer un intervalo de confianza sobre Vi. Además, se trabaja con la estimación muestral del error típico de medida. Para ello, se procede de la siguiente manera para establecer los límites inferior y superior del intervalo de confianza:
V Li = X i − z1−α / 2 S E
[3.39]
V Ls = X i + z1−α / 2 S E
Por ejemplo, con α = 0,05, si SE = 1,355 y Xi = 5, diremos que los valores de Vi estarán entre 2,344 (VLi = 5 – (1,96)1,355) y 7,656 (VLs = 5 + (1,96)1,355) con un nivel de confianza del 95% (al establecer de ese modo el intervalo sobre la puntuación verdadera, nos equivocaremos en nuestra afirmación en el 5% de los casos). Además, mediante el error de medida podemos saber si una diferencia en puntuaciones empíricas refleja una diferencia no nula de puntuaciones verdaderas. Por ejemplo, un test impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque sus niveles de rasgo sean iguales. Utilizando los procedimientos de la estadística inferencial, podemos contrastar con cierta probabilidad si dos puntuaciones empíricas diferentes suponen o no niveles de rasgo distintos, o si un incremento en la puntuación empírica de una persona refleja un incremento en su nivel de rasgo. Para realizar el contraste, partimos de una situación en la que observamos una diferencia entre dos puntuaciones empíricas obtenidas en el mismo test (o en tests paralelos), X1 y X2, y queremos saber si la diferencia entre esas puntuaciones empíricas refleja una diferencia en los niveles de rasgo verdaderos, V1 y V2. Partimos de que la diferencia entre X1 y X2 se distribuye normalmente:
X 1 − X 2 ~ N (V1 − V2 , S E 2 )
[3.40]
Y esto nos permite obtener:
Z=
5
( X 1 − X 2 ) − (V1 − V2 ) SE 2
~ N (0,1)
A pesar de denominarse de la misma forma, no debe confundirse el nivel de significación α de un contraste de hipótesis (la probabilidad asociada a la zona de rechazo de H0) con el coeficiente α de Cronbach.
110 Medición en Ciencias Sociales y de la Salud Lo más usual es contrastar si la diferencia entre X1 y X2 es estadísticamente distinta de 0. Bajo la hipótesis nula, se considera que V1 – V2 = 0 (las puntuaciones verdaderas son iguales) y obtenemos el estadístico de contraste:
Z=
( X1 − X 2 ) SE 2
[3.41]
El Cuadro 3.1 resume los pasos de este contraste. El contraste puede ser bilateral (p. ej., la hipótesis nula es que no hay diferencias en puntuaciones verdaderas) o unilateral (p. ej., la hipótesis nula es que la persona no ha mejorado su puntuación verdadera después del tratamiento). Si el valor Z se encuentra en la zona crítica, admitiremos, con la probabilidad establecida α de equivocarnos, que las puntuaciones V1 y V2 son distintas (o que ha habido una mejora). De lo contrario, admitiremos que, dada la precisión del test, no podemos concluir que la diferencia en puntuaciones empíricas exprese una diferencia (o mejora) en el verdadero nivel de rasgo. Como se muestra en el cuadro, también podemos establecer un intervalo de confianza para la diferencia en puntuaciones verdaderas. Cuadro 3.1. Resumen del contraste sobre puntuaciones verdaderas
1. Hipótesis: a. Contraste bilateral: H0: V1 = V2 ; H1:V1 ≠ V2 b. Contraste unilateral derecho: H0: V1 ≤ V2 ; H1: V1 > V2 c. Contraste unilateral izquierdo: H0: V1 ≥ V2 ; H1: V1 < V2 2. Supuestos: Se asume una distribución normal para X 1 − X 2 ~ N (V1 − V2 , S E 2 ) 3. Estadístico del contraste:
Z=
X1 − X 2 SE 2
4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1. 5. Zona crítica a. Contraste bilateral: Z ≤ zα/2 y Z ≥ z1–α/2 b. Contraste unilateral derecho: Z ≥ z1–α/2 c. Contraste unilateral izquierdo: Z ≤ zα/2 6. Regla de decisión: se rechaza H0 si el estadístico de contraste cae en la zona crítica; en caso contrario, se mantiene. 7. Intervalo de confianza: ICV1 −V2 = X 1 − X 2 ± z1−α / 2 S E 2
Capítulo 3. Modelo clásico y fiabilidad
111
Ejemplo 3.15. Contraste de puntuaciones verdaderas En la escala de Neuroticismo de un test dos personas obtienen unas puntuaciones directas de 13 y 15 puntos, respectivamente. La desviación típica del test es 2,832 y rXX = 0,77 . El investigador se pregunta si, con un nivel de confianza del 95%, puede concluir que ambas personas difieren en el rasgo o nivel verdadero. En este caso, los pasos a seguir serían: 1. Hipótesis: H0: V1 = V2; H1:V1 ≠ V2 (contraste bilateral). 2. Supuestos: Se asume una distribución normal para X 1 − X 2 ~ N (V1 − V2 , S E 2 ) . 3. Estadístico del contraste: Z=
X 2 − X1 SE 2
=
15 − 13 1,355 2
=
15 − 13 = 1,044 1,916
4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1. 5. Zona crítica: Z ≤ –1,96 y Z ≥ 1,96 6. Regla de decisión: como –1,96 < 1,044 < 1,96, se mantiene H0. 7. Intervalo de confianza: ICV1 −V2 = X 1 − X 2 ± z1−α / 2 S E 2 =
= 2 ± 1,96(1,916) = (−1,756; 5,756) Con un nivel de confianza del 95%, la zona de aceptación queda establecida entre los límites z0,025 = –1,96 y z0,975 = 1,96, con lo cual, dada la precisión del test, no podemos concluir, con α = 0,05, que las dos personas difieran en el verdadero nivel de rasgo. Esto es lógico, ya que la diferencia encontrada entre las puntuaciones empíricas (2 puntos) no es mucho mayor que el error típico de medida (1,355 puntos). El intervalo de confianza nos dice que, con un nivel de confianza del 95%, la diferencia verdadera se encuentra aproximadamente entre –1,756 puntos y 5,756 puntos, que es un intervalo relativamente amplio. En esta escala, las diferencias entre dos puntuaciones empezarían a ser estadísticamente significativas (con α = 0,05) a partir de 3,756 ( ≅ 1,96(1,916)) puntos.
Formas de incrementar la fiabilidad de un test Existen varias formas de incrementar la fiabilidad de un test: 1. Aumentar el número de ítems: Una de las maneras de incrementar la fiabilidad de un test es aumentar el número de ítems. Para estudiar el efecto de la longitud del test, puede aplicarse la fórmula de Spearman-Brown:
112 Medición en Ciencias Sociales y de la Salud
R xx =
nrxx 1 + (n − 1)rxx
Mediante la cual puede estudiarse cómo aumentaría la fiabilidad al incrementar el número de ítems si no hay efectos de fatiga (que producen correlaciones entre los errores de medida de los ítems), si las formas añadidas son paralelas y si los errores debidos a factores transitorios son pequeños (Feldt y Brennan, 1989; Schmidt y otros, 2003). Además, debe tenerse una precaución adicional: al añadir ítems nuevos no debe buscarse el aumento artificial del coeficiente α incluyendo ítems redundantes. 2. Eliminar ítems problemáticos. Además de incrementar el número de ítems, pueden eliminarse los ítems problemáticos (cuya correlación con la puntuación en el resto del test es baja). Entre los ítems de igual variabilidad, los de mayor correlación biserial puntual con el test, rbp , son los que más contribuyen a incrementar α ya que tendrán mayor promedio de covarianzas con el resto de los ítems. Para ítems con igual varianza, α es proporcional a los valores rbp de los ítems ya que:
J α = 1 − J −1
J
∑ j =1
S X2 j
S X j rbp , j j =1 J
∑
2
[3.42]
Y, si las varianzas son iguales:
J α= 1 − J J −1
rbp , j j =1 J
∑
2
[3.43]
Si en la fase de análisis de ítems tenemos como objetivo elaborar un test con elevada consistencia interna, tenemos que quedarnos con los ítems que manifiestan una mayor correlación ítem-test. Sin embargo, esta regla, de uso frecuente, debe aplicarse con precaución ya que: a. Si un ítem correlaciona de forma aceptable con el resto del test no debería eliminarse incluso si con ello cambia poco o aumenta la fiabilidad, ya que existen otras propiedades psicométricas del test que podrían verse afectadas (p. ej., el nivel de representación de los contenidos). b. Si la muestra es pequeña, es probable que el aumento en el coeficiente α al quitar un ítem con baja rbp no se replique en una nueva muestra.
Capítulo 3. Modelo clásico y fiabilidad
113
c. Si el objetivo del estudio psicométrico no es el desarrollo de un nuevo test puede ser cuestionable la eliminación de ítems, pues ello dificultará la comparación de los coeficientes de fiabilidad que se obtendrían con la nueva versión de la prueba. 3. Mejorar las condiciones de aplicación. Finalmente, tras la aplicación de un test podemos detectar ciertos aspectos que se han podido descuidar (instrucciones de aplicación poco claras, tiempos de aplicación inadecuados, etc.). Al homogeneizar al máximo las condiciones de aplicación (especialmente en lo relativo a las instrucciones y a los tiempos de aplicación de la prueba) haremos que éstas no incrementen la variabilidad error en las puntuaciones.
Coeficiente de fiabilidad y características de la muestra Actualmente se considera un error hablar de fiabilidad del test (Fan y Yin, 2003; Thompson y Vacha-Haase, 2000). Parece que es más correcto hablar de fiabilidad de las puntuaciones obtenidas en el test. Más que un debate terminológico, lo que se pretende destacar es que el coeficiente de fiabilidad obtenido para un test dependerá de la muestra de personas en la cual lo hayamos calculado (especialmente, de la variabilidad en la característica medida), de las fuentes de error a las que es sensible el coeficiente obtenido y de la situación de aplicación (p. ej., de las instrucciones proporcionadas). La variabilidad de las puntuaciones en la muestra es uno de los factores que más puede afectar al valor del coeficiente de fiabilidad. Más concretamente, obtendremos un coeficiente de fiabilidad mayor cuanto más heterogénea (mayor varianza en el rasgo) sea la muestra. Por ejemplo, es usual que un test de Inteligencia obtenga un rXX mayor en una muestra de la población general que una muestra de universitarios o en otra de personas con deficiencias cognitivas. Esto se debe a que, en último término, el coeficiente de fiabilidad es una correlación de Pearson y, por tanto, se ve afectado por los mismos factores estadísticos que ésta. Existen fórmulas para corregir los efectos de la variabilidad, denominas como fórmulas para la corrección del coeficiente de fiabilidad por restricción de rango. Su aplicación no está exenta de supuestos (p. ej., que la varianza error se mantiene constante a través de los grupos) y, por tanto, de críticas. En concreto, asumiendo que la varianza de los errores es la misma en dos grupos (A y B), el coeficiente de fiabilidad en el grupo B puede obtenerse como: ρ XX ( B )
= 1−
σ X2 ( A) (1 − ρ XX ( A) ) σ X2 ( B )
[3.44]
donde ρxx(A) y ρxx(B) indican el coeficiente de fiabilidad en los grupos A y B respectivamente; σ 2X(A) y σ 2X(B) indican las varianzas de las puntuaciones empíricas en los grupos A y B, respectivamente. Esta fórmula no debería aplicarse si existen razones para pensar que los grupos difieren en cuanto a la varianza de los errores (lo que puede ocurrir si la precisión del test varía mucho dependiendo del nivel de rasgo).
114 Medición en Ciencias Sociales y de la Salud
Ejemplo 3.16. Corrección por restricción de rango Tras un proceso de selección se ha aplicado una prueba de Extraversión al grupo de personas seleccionadas. Se obtiene un coeficiente de fiabilidad de 0,6 y una varianza de las puntuaciones en el test de 7. El investigador se pregunta cuál habría sido el coeficiente de fiabilidad si hubiera aplicado el test en el grupo completo de aspirantes que se presentaron al proceso de selección. En el manual de la prueba se describe que su varianza es 10 en la población. Asumiendo que en el grupo de aspirantes ésa sea la varianza, la estimación del coeficiente de fiabilidad para dicho grupo será: ρ XX
= 1−
7(1 − 0,6 ) = 0,72 10
Algunos autores consideran que en un grupo de aspirantes suele haber menor variabilidad en el rasgo que en la población. Esto puede ocurrir por un efecto de autoselección (p. ej., si las personas poco extravertidas optan por no presentarse a trabajos en los que se demanda esa característica de personalidad). Estudios publicados previos pueden servir para valorar el grado en que se produce este efecto para distintas características de personalidad y en distintos tipos de trabajos (ver por ejemplo, Ones y Viswesvaran, 2003).
Valores mínimos para los indicadores de fiabilidad La falta de fiabilidad de las puntuaciones en un test supone que una parte importante de la variabilidad de las puntuaciones es aleatoria. Ante este problema, la pregunta podría ser: ¿A partir de qué valor del coeficiente de fiabilidad aceptamos que las puntuaciones son suficientemente fiables? La respuesta a esta pregunta es ambigua porque está mal formulada. Es un error pensar que existen límites casi mágicos, como el 0,7, a partir de los cuales nos podemos olvidar de la falta de precisión de las puntuaciones del test (Schmidt y Hunter, 1999). Este error surge a partir de los intentos de establecer guías que nos permitan concretar valores mínimos de precisión para las pruebas. Por ejemplo, Nunnally (1967) recomendaba inicialmente valores por encima de 0,5 o 0,6 en las fases tempranas de la investigación; en versiones posteriores de su manual incrementaron el valor a 0,7 (Nunnally y Bernstein, 1994); para instrumentos que se vayan a utilizar en investigación básica recomiendan un valor mínimo de 0,8 y si se va a hacer un uso clínico 0,9 es, para ellos, el valor mínimo aceptable6. En realidad, el valor del coeficiente de fiabilidad que podamos aceptar debe venir fijado más por el uso específico que se vaya a hacer del test (p. ej., considerando la precisión requerida para ese uso o las consecuencias de la falta de 6
Aunque para Streiner este último criterio es demasiado exigente y puede resultar contraproducente ya que, en su opinión, un valor tan alto sólo se puede obtener a costa de incrementar la redundancia de los ítems en el test (Streiner, 2003).
Capítulo 3. Modelo clásico y fiabilidad
115
precisión) que por una regla mágica, por muy consensuada que pueda estar. Sirvan como ejemplo estos tres ámbitos de uso de las puntuaciones en un test: 1. En contextos de investigación básica, para estudiar las relaciones entre constructos. Por ejemplo, Schmidt y Hunter (1999) muestran que la correlación entre dos variables medidas con pruebas cuyo coeficiente de fiabilidad sea 0,70 se verá subestimada, en promedio, en un 30% (p. ej., una correlación de 0,3 pasará a ser una correlación de 0,21). Esto puede hacer que relaciones reales dejen de ser estadísticamente significativas. Lo mismo ocurre si estamos comparando las puntuaciones medias de los evaluados en dos grupos (p. ej., experimental y control). Si el test no resulta suficientemente fiable, las diferencias no serán estadísticamente significativas. En este tipo de situaciones, una forma adecuada de plantearnos la pregunta es: ¿son las puntuaciones en el test lo suficientemente fiables para detectar la relación o efecto que se pretende detectar dados los tamaños muestrales de los grupos? 2. En contextos de selección, para elegir a los candidatos aptos para el puesto. En estos contextos es frecuente que haya un límite en el número de plazas ofertadas. En ese caso, los requerimientos en relación a la fiabilidad del test aplicado pueden depender de su uso (es diferente aplicarlo como filtro que para tomar decisiones finales), de la ratio de selección (p. ej., si se debe seleccionar al 20% con puntuaciones superiores o si se debe seleccionar al 10%), de la proporción de aspirantes aptos para el puesto y de otras consecuencias que pueda tener la aplicación. 3. En contextos de evaluación diagnóstica o de certificación, para clasificar a los evaluados en relación con varias categorías o puntos de corte. En ese caso, la precisión requerida dependerá de los niveles de puntuaciones que deseamos discriminar y de las consecuencias que pueda tener una clasificación errónea. Cuanto más próximos sean los niveles de rasgo en los que se quiere discriminar y más graves las consecuencias de una decisión errónea, mayor será la fiabilidad requerida.
Software para la Teoría Clásica de los Tests Los programas estadísticos de carácter general (SPSS, SAS, STATISTICA) proporcionan diversos indicadores psicométricos de fiabilidad según el Modelo Clásico. Los programas comerciales como LERTAP 5 (Nelson, 2001) e ITEMAN (ASC, 1988) permiten el análisis clásico de ítems y ofrecen distinta información sobre la fiabilidad de las puntuaciones en el test. Los programas TAP (Brooks y Johanson, 2003) y CIA (Kim, 1999) son muy similares al programa ITEMAN en cuanto a su funcionalidad y son de libre distribución. El programa CLM (López-Pina, 2005), también de libre distribución, proporciona un gran número de indicadores de fiabilidad. TIAPLUS, desarrollado en uno de los centros de investigación psicométrica más prestigiosos (CITO, 2006) permite también el análisis clásico de ítems y la obtención de distintos estadísticos para el estudio de la fiabilidad. En España, Renom y colaboradores (2007) han desarrollado una plataforma web (www.etest.es) de análisis psicométrico que integra distintas herramientas desarrolladas previamente por el equipo (METRIX, X-PAT, etc.).
116 Medición en Ciencias Sociales y de la Salud
Indicadores de fiabilidad con SPSS Los indicadores de fiabilidad pueden obtenerse en SPSS dentro del menú Analizar > Escala > Análisis de fiabilidad. Para obtener el coeficiente de fiabilidad por el método de las dos mitades debe elegirse (en la pestaña correspondiente) el modelo dos mitades. El orden en el que se introducen las variables (i. e., los ítems) en la lista Elementos determina qué ítems forman cada mitad. Si el número de ítems es par, las primeras J/2 variables formarán la primera mitad y las siguientes J/2 variables formarán la segunda mitad del test. Si el número de ítems es impar, las primeras (J+1)/2 variables formarán parte de la primera mitad y las siguientes (J – 1)/ 2 variables formarán la segunda mitad del test. En la salida de resultados se ofrece el coeficiente SBrXX, denominado como Coeficiente de Spearman-Brown (Longitud igual). Si el número de ítems es impar, entonces obtendremos el coeficiente corregido [Coeficiente de Spearman-Brown (Longitud desigual)]. El coeficiente α puede obtenerse en SPSS eligiendo el modelo Alfa dentro del menú Analizar > Escala > Análisis de fiabilidad. En la salida de resultados se ofrece el coeficiente α etiquetado como “Alfa de Cronbach” y el coeficiente α z etiquetado como “Alfa de Cronbach basado en los elementos tipificados”. Este último resulta de aplicar la fórmula tras transformar las puntuaciones a escala típica, lo que puede ser conveniente si los ítems tienen diferente formato de respuesta.
Ejemplo 3.17. Coeficiente de fiabilidad por el método de las dos mitades con SPSS En una prueba de 11 ítems de Neuroticismo aplicada a 1569 evaluados, se obtuvieron en SPSS los resultados que aparecen en las siguientes tablas. Tabla 3.12. Estadísticos de fiabilidad con el modelo Dos mitades en SPSS Coeficiente de Spearman-Brown
Correlación entre formas
0,589
Longitud igual
0,741
Longitud desigual Dos mitades de Guttman
0,743 0,739
Tabla 3.13. Estadísticos descriptivos con el modelo Dos mitades en SPSS Parte 1 Parte 2 Ambas partes
Media
Varianza
Desviación típica
Nº de elementos
3,78 2,56 6,34
2,793 2,264 8,019
1,671 1,505 2,832
6a 5b 11
a. Los elementos son: u1, u2, u3, u4, u5, u6. b. Los elementos son: u7, u8, u9, u10, u11.
Capítulo 3. Modelo clásico y fiabilidad
117
Tabla 3.14. Estadísticos de fiabilidad con el modelo Alfa en SPSS Alfa de Cronbach
Alfa de Cronbach basada en los elementos tipificados
Nº de elementos
0,771
0,773
11
En este caso, SBrXX es igual a 0,741 y el valor corregido, 0,743. Como puede observarse, los valores son bastante parecidos. Concluiríamos que el 74% de la varianza del test se debe a la varianza verdadera en el nivel de rasgo. En este caso el coeficiente α es 0,771, lo que indica que el grado de consistencia interna (o covariación media entre los ítems) es medio-alto. Además, el coeficiente α es mayor que el coeficiente de fiabilidad por el método de las dos mitades. Esto quiere decir que probablemente existen otras formas de dividir el test en dos mitades que dan lugar a mayores coeficientes de fiabilidad.
Apéndice Otras consideraciones sobre el concepto de puntuación verdadera A lo largo del capítulo hemos ofrecido una definición operacional de puntuación verdadera, según la cual se considera como el promedio (valor esperado) de las puntuaciones observadas que obtendría una persona en un número elevado de aplicaciones: Vi = εf (Xif). Es importante ser consciente de que a partir de esta definición se establece que la puntuación verdadera depende no sólo de la persona sino del instrumento utilizado y de las condiciones de aplicación. Por tanto, la puntuación verdadera de una persona dependerá de su nivel de rasgo, de las propiedades del instrumento de medición (dificultad de los ítems, longitud del test, etc.) y de las condiciones de aplicación (p. ej., en qué grado las instrucciones le alientan a responder al azar cuando desconoce la respuesta). Si el test fuera una prueba de conocimientos de 30 ítems, que se aplica informando a los evaluados que se les van a penalizar los errores, la puntuación verdadera de una persona es la puntuación promedio que obtendría en distintas pruebas de conocimientos de 30 ítems con las mismas especificaciones de contenido, dificultad e instrucciones de aplicación (p. ej., en relación a la penalización de los errores). El tema es más complejo de lo que parece a primera vista. Si una característica de la aplicación (p. ej., tiempo de aplicación de la prueba) se mantiene constante a través del proceso de medición, su efecto en las puntuaciones observadas pasará automáticamente a formar parte de la puntuación verdadera (en ese caso, una puntuación verdadera específica que reflejaría el valor del atributo en el contexto concreto de aplicación). Por otro lado, si la misma característica de la aplicación no está controlada por el aplicador y fluctúa de una ocasión a otra, la puntuación verdadera (que podríamos denominar genérica) reflejaría un efecto promedio de la variable de aplicación y la variabilidad en las puntuaciones observadas provocada por la variabilidad en las condiciones de aplicación pasaría a formar parte del error. Todo lo anterior implica que la puntuación verdadera no tiene por qué representar el nivel verdadero en el atributo que pretendemos medir; V es, simplemente, un promedio de lo que la persona obtendría en tests “como el nuestro”. El coeficiente de fiabilidad sólo nos informa de cómo variaría la puntuación X de la persona en distintas aplicaciones. Desde luego, un coeficiente de fiabilidad bajo indica que estamos midiendo un atributo de forma imprecisa, pero un coeficiente de fiabilidad al-
118 Medición en Ciencias Sociales y de la Salud to no implica necesariamente que estemos midiendo el atributo que queremos medir. Esto último es una cuestión de validez de las puntuaciones, a la que se dedicará el capítulo 5.
Intervalos de confianza para los estimadores de fiabilidad Cada vez es más frecuente que para cualquier índice estadístico se exija informar del intervalo confidencial, que nos indica entre qué valores puede encontrarse el estadístico en la población. Por ejemplo, un valor rXX = 0,7 es poco informativo si se ha obtenido en una muestra de 20 personas. Fan y Thompson (2001) resumen los procedimientos más usuales para construir intervalos de confianza. Coeficiente α En este apartado utilizaremos el símbolo αˆ para referirnos al valor del coeficiente obtenido en la muestra y el símbolo α para referirnos al valor del coeficiente obtenido en la población. Para el coeficiente α, el intervalo de confianza puede obtenerse de la forma:
ICinf (α ) = 1 − (1 − αˆ ) Fα / 2, gl1, gl 2
ICsup (α ) = 1 − (1 − αˆ ) F1−α / 2, gl1, gl 2
donde ICinf (α ) y ICsup (α ) son los límites inferior y superior del intervalo respectivamente; αˆ es la estimación muestral de α; F representa los valores de la distribución F para los valores de probabilidad acumulada α/2 y 1 – α/2, con grados de libertad gl1 = (N – 1) y gl2 = (N – 1)(J – 1). Coeficientes de fiabilidad como correlación entre formas paralelas y fiabilidad test-retest Para coeficientes de fiabilidad que pueden interpretarse directamente como correlaciones (coeficiente de fiabilidad test-retest, coeficiente de fiabilidad como correlación entre formas paralelas) se pueden aplicar los procedimientos estadísticos usuales cuando se trabaja con correlaciones; los límites del intervalo confidencial se pueden obtener mediante los siguientes pasos: 1. Se transforma el coeficiente de fiabilidad, mediante una transformación Z de Fisher:
1 + rXX z rXX = 0,5 ln 1 − rXX
2. Se calcula la desviación típica de la distribución muestral de z rxx :
σ zr
XX
=
1 N −3
3. Se obtienen los intervalos de confianza para z rxx :
ICinf ( z rXX ) = z rXX − z1−α / 2σ zr
XX
ICsup ( z rXX ) = z rXX + z1−α / 2σ zr
XX
Capítulo 3. Modelo clásico y fiabilidad
119
4. Se transforman los límites del intervalo a la escala de correlaciones, mediante una transformación inversa Z de Fisher:
ICinf (rXX ) =
exp(2 ICinf ( z rXX )) − 1 exp(2 ICinf ( z rXX )) + 1
ICsup (rXX ) =
exp(2 ICsup ( z rXX )) − 1 exp(2 ICsup ( z rXX )) + 1
Coeficiente de fiabilidad por el método de las dos mitades Para el coficiente de fiabilidad por el método de las dos mitades se puede obtener el intervalo de confianza de una forma similar. Recuerde que el punto de partida es la correlación entre las dos mitades, rX I X P . Podemos calcular los intervalos de confianza para la correlación rX I X P , siguiendo el
procedimiento anterior:
ICinf (rX I X P ) =
exp(2 ICinf ( z rX
I XP
exp(2 ICinf ( z rX
I XP
)) − 1
ICsup (rX I X P ) =
)) + 1
exp(2 ICsup ( z rX
I XP
exp(2 ICsup ( z rX
I XP
y aplicar la fórmula de Spearman-Brown para obtener los límites del intervalo:
IC
inf
(rXX ) =
2 ICinf (rX I X P ) 1 + IC
inf
( rX I X P )
IC
sup
(rXX ) =
2 ICsup (rX I X P ) 1 + ICsup (rX I X P )
Ejemplo 3.18. Intervalos de confianza para los coeficientes de fiabilidad Coeficiente alfa En una muestra de 1.569 personas y un test de 11 ítems, se obtuvo un αˆ = 0,771; en ese caso, los límites del intervalo de confianza (con un nivel de confianza del 95%) para el coeficiente α son:
ICinf (α ) = 1 − ((1 − αˆ ) Fα / 2, gl1, gl 2 ) = 1 − ((1 − 0,771)1,075) = 0,754 ICsup (α ) = 1 − ((1 − αˆ ) F1−α / 2, gl1, gl 2 ) = 1 − ((1 − 0,771)0,928) = 0,787 Lo que indica que podemos afirmar, con una confianza del 95%, que el coeficiente α en la población se encuentra entre 0,754 y 0,787. En este caso, el intervalo es estrecho porque el tamaño de la muestra es grande (N = 1569). También puede obtenerse el intervalo de confianza con SPSS. En el menú Escalas > Análisis de fiabilidad, se selecciona el modelo Alfa; en Estadísticos, se selecciona Coeficiente de correlación intraclase (Modelo: Dos factores, efectos mixtos; Tipo: consistencia) y se obtiene una tabla similar a la 3.15.
)) − 1 )) + 1
120 Medición en Ciencias Sociales y de la Salud Tabla 3.15. Coeficiente de correlación intraclase Intervalo de confianza 95% Correlación intraclase
Límite inferior
Límite superior
0,771
0,754
0,787
Medidas promedio
Coeficiente de fiabilidad como correlación entre formas paralelas En la misma muestra, la correlación entre el test de 11 ítems y otra forma paralela es también rxx = 0,771. Los intervalos de confianza, con un nivel de confianza del 95%, se obtendrían siguiendo los pasos previamente mostrados: 1. Transformación de rxx a Z de Fisher:
1 + rXX z rXX = 0,5 ln 1 − rXX
1 + 0,771 = 0,5 ln = 1,023 1 − 0,771
2. Se obtienen los intervalos de confianza para z rxx :
ICinf ( z rXX ) = z rXX − z1−α / 2σ zr
XX
ICsup ( z rXX ) = z rXX + z1−α / 2σ zr
XX
= 1,023 − 1,96 = 1,023 + 1,96
1 1566 1 1566
= 0,973 = 1,072
4. Se aplica la transformación inversa Z de Fisher:
ICinf (rXX ) =
ICsup (rXX ) =
exp(2 ICinf ( z rXX )) − 1 exp(2 ICinf ( z rXX )) + 1
exp(2 ICsup ( z rXX )) − 1 exp(2 ICsup ( z rXX )) + 1
=
exp(2(0,973)) − 1 = 0,750 exp(2(0,973)) + 1
=
exp(2(1,072)) − 1 = 0,790 exp(2(1,072)) + 1
Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficiente de fiabilidad en la población estará entre 0,75 y 0,79. Coeficiente de fiabilidad por el método de las dos mitades Obtenemos, para los mismos datos, que la correlación entre formas es 0,589 y el coeficiente de fiabilidad por el método de las dos mitades es 0,741. Los intervalos de confianza pueden obtenerse realizando los siguientes cálculos:
Capítulo 3. Modelo clásico y fiabilidad 1. Transformación de
z rX
I XP
rX
I XP
121
a Z de Fisher:
1 + rrX X I P = 0,5 ln 1− r r XI XP
= 0,5 ln 1 + 0,589 = 0,676 1 − 0,589
2. Se obtienen los intervalos de confianza para la Z de Fisher:
ICinf ( z rX
I XP
ICsup ( z rX
I XP
) = z rX
I XP
) = z rX
I XP
− z1−α / 2σ zr
XI XP
+ z1−α / 2σ zr
= 0,676 − 1,96
XI XP
= 0,676 + 1,96
1 1566 1
1566
= 0,627
= 0,726
3. Se aplica la transformación inversa Z de Fisher:
ICinf ( rX I X P ) = ICsup ( rX I X P ) =
exp(2 ICinf ( z rX
I XP
exp(2 ICinf ( z rX
I XP
exp(2 ICsup ( z rX
I XP
exp(2 ICsup ( z rX
I XP
)) − 1 )) + 1 )) − 1 )) + 1
=
exp(2(0,627)) − 1 = 0,556 exp(2(0,627)) + 1
=
exp(2(0,726)) − 1 = 0,620 exp(2(0,726)) + 1
4. Se obtienen los intervalos:
ICinf (rXX ) = ICsup (rXX ) =
2 ICinf (rX I X P ) 1 + ICinf (rX I X P ) 2 ICsup (rX I X P ) 1 + ICsup (rX I X P )
=
2(0,556) = 0,715 1 + 0,556
=
2(0,620) = 0,765 1 + 0,620
Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficiente de fiabilidad en la población estará entre 0,715 y 0,765.
4
Introducción a la Teoría de la Respuesta al Ítem Introducción
La Teoría Clásica de los Tests (TCT) continúa siendo el modelo predominante para la construcción de tests psicológicos tanto por la sencillez de sus procedimientos y supuestos como por su demostrada utilidad práctica. Sin embargo, se conocen bien las limitaciones teóricas del modelo clásico y se ha desarrollado un nuevo enfoque psicométrico, la Teoría de la Respuesta al Ítem (TRI), que permite superarlas. La TRI supone una aproximación más fina en el estudio de las propiedades psicométricas de un test, ya que modela de forma más realista las respuestas de las personas, toma los ítems como unidad de análisis y permite describir algunas propiedades psicométricas del instrumento mediante indicadores invariantes, que no dependen de la muestra en la que se aplique (siempre que se cumplan una serie de supuestos). Los principios de la TRI se remontan a los trabajos de Thurstone (1925; 1927), Lawley (1943), Guttman (1944) y Lazarsfeld (1950; 1959). El interés era obtener instrumentos de medida cuyas propiedades no dependieran de la muestra en la que se aplicaran. Fue Lord (1952) quien hizo la aportación definitiva, presentando el primer modelo de TRI en un monográfico de la revista Psychometrika. Sin embargo, es después de los años sesenta cuando se empiezan a desarrollar nuevos modelos y procedimientos que facilitan su aplicabilidad (Rasch, 1960; Lord y Novick, 1968). En los ochenta, será Lord el que acuñe la denominación de Teoría de la Respuesta al Ítem (Lord, 1980) y se publican diversos libros que constituyen las obras de referencia sobre la TRI (Hambleton y Swaminathan, 1985; Hambleton, Swaminathan y Rogers, 1991; Hulin, Drasgow y Parsons, 1983; Lord, 1980). Después de los ochenta, y sobre todo en las dos últimas décadas, no han dejado de proponerse nuevos modelos y aplicaciones de la TRI. Descripciones de los viejos y nuevos modelos pueden encontrarse en numerosas fuentes, en inglés (De Ayala, 2009;
124 Medición en Ciencias Sociales y de la Salud Embretson y Hershberger, 1999; Embretson y Reise, 2000; Ostini y Nering, 2006; Thissen y Wainer, 2001; Van der Linden y Hambleton, 1997) y en español (López-Pina, 1995; Martínez Arias et al., 2006; Muñiz, 1996, 1997; Revuelta, Abad y Ponsoda, 2006). Hasta hace poco, en España existían pocos instrumentos psicológicos desarrollados exclusivamente en el marco de la TRI. Una razón es que los nuevos procedimientos de la TRI son más costosos, complejos y exigentes en las comprobaciones de los supuestos. Sin embargo, en otros países, su uso es muy frecuente en pruebas de selección o acreditación aplicadas a grandes muestras (p. ej., SAT, GRE, TOEFL, ASVAB, etc.) y en contextos de evaluación educativa. La TRI se ha convertido también en una herramienta indispensable cuando se quiere comparar las diferencias entre diversos países o culturas (p. ej., en los tests que forman el TIMSS o las pruebas educativas del proyecto OECD/PISA). En España, son cada vez más los tests basados específicamente en la TRI o en los que se complementa el estudio psicométrico realizado desde la TCT. También son cada vez más frecuentes los trabajos de investigación aplicada sustentados en estos modelos y el desarrollo de ciertos tipos de tests que requieren de la TRI, como son los Tests Adaptativos Informatizados, de los cuales existen ya diversas versiones operativas para evaluar diferentes atributos. El presente capítulo representa una introducción al tema, incluyendo únicamente aspectos generales y los modelos de TRI para ítems de rendimiento óptimo, donde cada respuesta es cuantificada como acierto o error. En los capítulos 11 y 12 se profundiza en los procedimientos estadísticos de estimación y ajuste, así como en otro tipo de modelos. En los capítulos 13 y 15 se describen algunas de las principales aplicaciones.
Limitaciones de la TCT Existen diversas razones por las que la TRI supone un modelo teóricamente más adecuado que la TCT. Entre las limitaciones de la TCT, superables desde la TRI, cabe destacar: 1. Ausencia de invarianza de los parámetros. En la TCT la puntuación verdadera Vi es un parámetro de la persona cuyo valor depende del conjunto particular de ítems administrados. Es claro que distintos tests, con distinta longitud o distinta dificultad, darán lugar a distinta puntuación verdadera para la misma persona. No parece razonable un modelo en el que la puntuación verdadera de la persona depende de la versión del test que apliquemos (p. ej., fácil o difícil). Por otro lado, las propiedades psicométricas de los ítems (su media, su varianza, su índice de discriminación, etc.) también dependen de la distribución del rasgo en la muestra donde se obtienen. La TCT no proporciona un modo sencillo de saber cuál sería la dificultad de un ítem en otra muestra distinta a la que se ha aplicado el test. Frente a la TCT, una de las propiedades de la TRI es que los parámetros estimados son invariantes si se cumplen los supuestos del modelo; de esta manera, en la TRI, el valor del parámetro que indica el verdadero nivel de rasgo de un evaluado no depende de los ítems aplicados (p. ej., si son fáciles o difíciles). Asimismo, el valor de los parámetros de los ítems no depende de la muestra donde se obtienen (p. ej., si es de alto o bajo nivel de habilidad). 2. Se asume que la precisión del test es la misma, independientemente del nivel de rasgo medido. Sin embargo, un test puede ser más o menos preciso para un nivel de rasgo en
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
125
función, por ejemplo, de la dificultad de los ítems aplicados; si los ítems son difíciles, el test discriminará mejor en los niveles altos. La TRI permite obtener la precisión con la que cada persona es medida, según su nivel de rasgo y en función de los ítems concretos que se le hayan aplicado. 3. No se dispone de indicadores de bondad de ajuste que nos informen del grado en que el modelo se ajusta a los datos. Los supuestos de paralelismo son los únicos contrastables empíricamente (ver capítulo 10), pero raramente se realizan estas comprobaciones pues, por un lado, requieren la elaboración de distintas formas del test y, por otro, se sabe que el supuesto de paralelismo estricto raramente se cumple, dado que es muy difícil elaborar tests que sean realmente paralelos. En la TRI se dispone de indicadores de bondad de ajuste que permiten estudiar el grado en que los datos se ajustan al modelo y a los supuestos establecidos. La TRI permite superar varias de las limitaciones de la TCT mediante una metodología más compleja, que requiere establecer modelos matemáticos, la estimación de sus parámetros y enjuiciar el ajuste entre datos y modelos.
La Curva Característica del Ítem Para comenzar a resolver las limitaciones de la TCT, lo primero que se necesita es un modelo que nos indique cómo varía la dificultad de un ítem en función del nivel de rasgo. Para ello, desde la TRI se ha desarrollado el concepto de Curva Característica del Ítem (CCI). Una CCI nos indica la probabilidad que tienen de acertar un ítem las personas que lo responden. Esta probabilidad depende, naturalmente, del nivel de la persona en la variable medida, pero también de las características del ítem en concreto. Podemos ver esto mediante un ejemplo. Supongamos que tenemos un test largo que mide Capacidad de Razonamiento Inductivo y que ha sido aplicado a una muestra numerosa de personas (100.000, por ejemplo). Supongamos que la menor y mayor puntuación obtenidas en el test son 50 y 150 y que la puntuación en el test sea un buen indicador del nivel de rasgo verdadero. Para trabajar en una escala de interpretación más clara, utilizaremos la puntuación en el test en puntuaciones típicas (–3 indica una puntuación baja, 0 una puntuación media y 3 una puntuación alta). Vamos a representar el rendimiento en un ítem concreto de la siguiente forma: Nos fijamos en todas las personas que han obtenido la puntuación en torno a –3 (supongamos que son 132) y vemos cuántas han acertado el ítem (supongamos que han sido sólo 5) y calculamos la proporción (5/132 = 0,04). Hacemos lo mismo con los que obtuvieron en el test una puntuación en torno a –2,9 puntos (y obtenemos la proporción, supongamos que 0,15),... con las que obtuvieron en el test puntuación en torno a 0,0 (la proporción fue 0,48),... con las que obtuvieron puntuación en torno a 3 (la proporción fue 0,98). La Figura 4.1 muestra la proporción de aciertos en el grupo de personas que obtuvo en el test puntuaciones en torno a –3, –2,9, –2,8, etc. Puede verse que cuanto mayor es la puntuación en el test, mayor es la proporción de aciertos en el ítem. A una puntuación de 0 le corresponde una proporción de 0,48, lo que indica que para personas con ese nivel de rendimiento en el test resultará un ítem de dificultad intermedia; mientras que a una puntuación de 3,0 le corresponde una proporción de
126 Medición en Ciencias Sociales y de la Salud 0,98 (el ítem resultará fácil para ese nivel). La función de la Figura 4.1 suele denominarse CCI empírica.
Probabilidad de acierto en el ítem (P)
Figura 4.1. CCI empírica. Probabilidad de acierto a un ítem en función de la puntuación tipificada (Z) 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -3
-2
-1
0
1
2
3
Capacidad de Razonamiento Inductivo (z)
Desde la TRI se resume la información que contiene cada CCI empírica en una fórmula o modelo en el que (con uno, dos o tres parámetros del ítem) se recoge la información contenida en la función. Por tanto, en la aplicación de de la TRI, un paso inexcusable es optar por un modelo que sea una buena descripción del rendimiento en los ítems. En la Figura 4.2 se representan dos de los muchos modelos que podrían aplicarse. En la figura de la izquierda se ha aplicado un modelo lineal que, en el ejemplo, sigue la siguiente ecuación:
P = 0,177 Z + 0,492 Un inconveniente de este modelo es que para niveles de rasgo extremos pueden obtenerse valores de P imposibles (negativos o mayores que uno). En la figura de la derecha se ha aplicado un modelo logístico que, en el ejemplo, sigue la siguiente ecuación:
P=
1 1+ e
−1,1Z + 0, 05
donde e es la base de los logaritmos neperianos (2,718). En este modelo, el valor de P necesariamente estará comprendido entre 0 y 1. Ésta es una de las razones por la que en TRI suelen aplicarse los modelos logísticos. Una de las características de los modelos logísticos es que la razón entre p y 1 – p se incrementa exponencialmente en relación a z. La forma exacta de la función exponencial dependerá de las características del ítem.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
127
1,0 0,9
P = 0,177z + 0,492
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -3 -0,2
-2
-1
0
1
2
3
Probabilidad de acierto en el ítem (P)
Probabilidad de acierto en el ítem (P)
Figura 4.2. CCI según un modelo teórico. Modelo lineal (arriba) y Modelo logístico (abajo) 1,0 0,9
P = 1 / (1 + exp (-1,1 z + 0,05))
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -3 -0,2
Capacidad de Razonamiento Inductivo (z)
-2
-1
0
1
2
3
Capacidad de Razonamiento Inductivo (z)
Modelos de TRI para ítems dicotómicos Un problema importante es que la puntuación típica observada en el test, Z, puede no ser una buena medida del nivel de rasgo. Por ejemplo, si el test tiene un bajo coeficiente de fiabilidad; en ese caso, si se utilizara Z en el eje de abscisas, la CCI no representaría bien la relación entre el nivel de rasgo y la probabilidad de acertar el ítem. Por ello, en TRI se aplica el modelo utilizando el verdadero nivel de rasgo, al que se le denomina θ, que es una variable no observable (como lo era V en la TCT). Más adelante veremos cómo se pueden estimar las CCI siendo θ no observable. Pero antes debemos estudiar los distintos modelos logísticos que pueden dar cuenta de datos como los mostrados en la Figura 4.1.
128 Medición en Ciencias Sociales y de la Salud
Modelo logístico de un parámetro (ML1P) Éste es el modelo más simple de todos. Se asume que los ítems varían sólo en un parámetro de dificultad, al que se le denomina parámetro b. La expresión matemática es: Pj (θ ) =
1 1+ e
[4.1]
− Da (θ −b j )
donde Pj(θ ) es la expresión que utilizaremos a partir de ahora para referirnos a la probabilidad de que una persona acierte el ítem j en función de su nivel de rasgo θ. Así pues, los términos de la fórmula son: Pj(θ )
θ
bj
a
e D
Probabilidad de acertar el ítem j si el nivel de rasgo es θ. Nivel de rasgo o nivel de habilidad de la persona; cuanto mayor sea θ, manteniendo constantes los demás elementos de la fórmula, mayor será Pj(θ). Generalmente, se asume que θ está en una escala de puntuaciones típicas; por tanto, sus valores variarán generalmente entre –3 y 3. Es el parámetro de dificultad del ítem j; a mayor valor bj, manteniendo constantes los demás elementos de la fórmula, menor será Pj(θ). En el ML1P el valor de bj indica el nivel de θ en el que la probabilidad de acertar el ítem es 0,5. Si el nivel de rasgo θ está en una escala de puntuaciones típicas, los valores de b variarán generalmente entre –3 y 3. Parámetro de discriminación, que en este modelo se asume que es igual para todos los ítems (por ello, no aparece el subíndice j). Por tanto, en el ML1P el parámetro a es una constante e indica la mayor o menor inclinación o pendiente de la CCI cuando θ = bj. Esto significa que en el ML1P todos los ítems tienen la misma pendiente. Generalmente, si el nivel de rasgo θ está en una escala de puntuaciones típicas, puede tomar valores entre 0,3 y 2,5 (sólo uno de ellos para todos los ítems de un test) según los ítems sean más o menos discriminativos. Base de los logaritmos neperianos (2,718). Constante (D = 1,702 ó 1)1. En lo que sigue, asumiremos que D = 1,702. Es importante que el investigador explicite siempre cual es el valor de D. Si se elige el valor D = 1,702, se dice que se está utilizando el modelo con métrica normal. Si se elige el valor D = 1, se dice que se está utilizando el modelo con métrica logística.
1
El valor de D es arbitrario y no afecta al ajuste de la función. Lo habitual es elegir D = 1; sin embargo, algunos autores utilizan D = 1,702; cuando D = 1,702, la función logística, fL(z), es muy similar a otra función muy conocida, FN (z), la función de probabilidad acumulada de la distribución normal, Z ~ N(0 , 1), evaluada en z:
f L ( z) =
1 ≅ 1 + e −1, 702 z
1 2π
Z =z
∫ exp(−0,5Z )dZ = F
Z = −∞
2
N
( z)
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
129
Otra forma frecuente de presentar el ML1P es:
Pj (θ ) =
1 1+ e
[4.2]
− ( θ −b j )
que elimina las constantes a y D del modelo. Ambas ecuaciones ([4.1] y [4.2]) son equivalentes (ver apéndice). El modelo expresado en la ecuación [4.2] suele denominarse Modelo de Rasch.
Ejemplo 4.1. Cálculo de la probabilidad de acierto en el ML1P Una persona con nivel de habilidad θ = 1 responde a un ítem j con parámetro de discriminación 1 y parámetro de dificultad 1 (θ = 1, a = 1, bj = 1), su probabilidad de acertar será: P j (θ = 1) =
1 1+ e
−1, 702 (1)(1−1 )
=
1 1+ e0
= 0,5
El índice de dificultad (bj) es, justamente, aquel valor de θ para el cual Pj(θ ) = 0,5. Por tanto, cuanto mayor sea b más difícil es el ítem.
En la Figura 4.3, se representan las CCI de dos ítems que difieren en dificultad. Figura 4.3. CCI según el ML1P (D = 1,702; a = 1) para 2 ítems con b1 = –0,95 y b2 = 0,6. Probabilidad de acierto en el ítem
1,0 0,9 0,8 0,7
P1(q) P1 (θ) P2(q) P2 (θ)
0,6 0,5 0,4 0,3 0,2 0,1
b1
b2
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
En la primera, la que está más a la izquierda, el valor de θ al que corresponde P1(θ ) = 0,5 es aproximadamente –0,95. Por lo tanto, la dificultad del primer ítem es b1= –0,95. En el segundo ítem, el valor de θ al que corresponde P2(θ ) = 0,5 es aproximadamente 0,6. Por
130 Medición en Ciencias Sociales y de la Salud lo tanto, la dificultad del segundo ítem es b2 = 0,6. La Figura muestra que la probabilidad de acertar el ítem es sistemáticamente menor en el ítem 2 que en el ítem 1 para cualquier θ. El ítem 2 es más difícil que el uno, y sus índices de dificultad así lo muestran (b2 > b1). Una interpretación de la probabilidad Pj(θ ) es la siguiente: si P1(θ = −0,95) = 0,5 eso quiere decir que para una población con nivel de rasgo θ = –0,95, el 50% acierta este ítem; o, también, que una persona de rasgo θ = –0,95 acertará el 50% de los ítems con propiedades psicométricas iguales a las de este ítem. En la Figura 4.3 puede observarse que las CCI de los dos ítems tienen la misma pendiente. Ésta es una propiedad importante del ML1P: las CCI de distintos ítems nunca se cruzan, por lo que el ordenamiento que hacemos de los ítems por su dificultad será siempre el mismo independientemente del grupo de personas con el que trabajemos; si un ítem es más fácil que otro, lo es para cualquier nivel de habilidad. De la misma manera, el ordenamiento que haremos de los evaluados por su nivel de habilidad será siempre el mismo, independientemente del conjunto de ítems que le apliquemos; si una persona tiene más probabilidad de acertar un ítem que otra, también tendrá mayor probabilidad de acertar cualquier otro ítem, lo que hace mucho más clara la interpretación del significado de θ. Si se cumplen estas dos propiedades se habla de Objetividad Específica de las medidas. Veremos que en otros modelos de TRI no se cumplen.
Ejemplo 4.2. Modelo de Rasch En la Tabla 4.1 se muestran los parámetros b de 3 ítems de una escala de cálculo numérico y los parámetros θ de 3 personas, obtenidos después de aplicar el modelo de Rasch. Una ventaja de la TRI frente a la TCT es que los parámetros θ de las personas y los parámetros b de los ítems están expresados en la misma escala; es decir, podemos comparar directamente el nivel θ de una persona con el parámetro b de un ítem. En el ejemplo, el evaluado 3 tiene un nivel de rasgo de 0. Su probabilidad de acertar los tres ítems puede deducirse de la relación entre su θ y el parámetro b de esos tres ítems; en concreto, su probabilidad de acertar el ítem 4 es alta (mayor que 0,5) ya que ese ítem tiene parámetro b menor que su θ; su probabilidad de acertar el ítem 3 es media (igual a 0,5) ya que ese ítem tiene parámetro b menor que su θ; su probabilidad de acertar el ítem 5 es baja (menor que 0,5) ya que ese ítem tiene mayor parámetro b menor que su θ. Tales comparaciones no son posibles desde la TCT, donde los índices de dificultad (pj) y la puntuación en el test (Xj) están expresados en distinta escala. Desde los modelos de Rasch, se facilita la interpretación de las puntuaciones de las personas. Si las operaciones cognitivas para resolver los ítems han sido bien delimitadas, podemos darle significado a cada nivel de rasgo en función de cuáles son las probabilidades de resolver exitosamente cada operación (implícita en cada ítem). Por ejemplo, el ítem 5 requiere que el estudiante sea capaz de resolver raíces cuadradas de una cierta complejidad. Un nivel de θ de 1,5 significa que existe una probabilidad de 0,5 de resolver ese tipo de raíces. Siguiendo ese razonamiento podemos llegar a una idea más exacta de qué competencias implica cada nivel de habilidad.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
131
Tabla 4.1. Parámetros de tres evaluados y tres ítems según el modelo de Rasch aplicado para modelar las respuestas a una prueba de cálculo numérico
θ del evaluado
Evaluado
–0,75
Sujeto 1
0
Sujeto 3
0,5
Sujeto 2
Valor –2 –1,75 –1,5 –1,25 –1 –0,75 –0,5 –0,25 0 0,25 0,5 0,75 1 1,5 2
Ítem
b del ítem
Contenido del ítem
Ítem 4
–1,75
213,5 + 2,085 – 13,65 =
Ítem 3
0
2 (12 – 8) – 4 (2 – 4) =
Ítem 5
1,5
157.2516 =
Modelo logístico de dos parámetros (ML2P) Este modelo permite que el parámetro a, que indica la capacidad discriminativa del ítem, varíe de ítem a ítem:
Pj (θ ) =
1 1+ e
− Da j (θ −b j )
[4.3]
donde el parámetro aj sigue siendo el parámetro de discriminación, pero en este modelo puede variar de ítem a ítem (por ello se añade el subíndice j). El parámetro aj indica la mayor o menor inclinación o pendiente de la CCI cuando θ = bj. La pendiente en ese punto es exactamente 0,25Daj. En la Figura 4.4 se muestran las CCI de dos ítems de igual dificultad (b1= b2 = 0,75), pero que difieren en el parámetro de discriminación. El parámetro a se relaciona con la pendiente; es proporcional al ángulo que forma la CCI en relación al eje de abscisas. La principal diferencia entre los dos ítems es que el 2 (línea de puntos), cuando θ = 0,75, tiene una pendiente mucho mayor (a2 = 2,4) que la del ítem 1 (a1 = 0,4). Como la pendiente es tan alta, las personas con θ > 0,75 tienen casi todas ellas una muy alta probabilidad de acertar el ítem 2 (y casi todas ellas lo acertarán), y las personas con θ < 0,75 tienen casi todas ellas una probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por lo tanto, el ítem 2 discrimina entre los que tienen θ > 0,75 y los que tienen θ < 0,75. Por
132 Medición en Ciencias Sociales y de la Salud su parte, el ítem 1 tiene muy poca pendiente cuando θ = 0,75. En consecuencia, aunque la mayoría de las personas con θ > 0,75 lo acertarán, muchas lo fallarán (pues la probabilidad de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las personas con θ < 0,75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es claramente superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida que aumenta θ, por lo que no es buen discriminador entre las personas con θ > 0,75 y las que tienen θ < 0,75. Figura 4.4. CCI según el ML2P para 2 ítems (a1 = 0,4; b1 = 0,75; a2 = 2,4; b2 = 0,75). Probabilidad de acierto en el ítem
1,0 0,9 0,8 0,7
P1(q) P1 (θ) P2(q) P2 (θ)
0,6 0,5 0,4
a2
a1
0,3 0,2 0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
Los valores de a oscilarán generalmente entre 0,3 y 2,5, y se suelen considerar ítems discriminativos los que tienen valores a mayores de uno. El parámetro bj se interpreta, en este modelo, de la misma manera que en el ML1P.
Modelo logístico de tres parámetros (ML3P) Este modelo añade a los dos parámetros a y b un tercero, c, que representa la probabilidad de acertar el ítem al azar. Más exactamente, c es el valor de Pj(θ) para valores extremadamente bajos de θ. La expresión del modelo de 3 parámetros es la siguiente: Pj (θ ) = c j + (1 − c j )
1 1 +e
− Da j (θ -b j )
[4.4]
Los parámetros en la ecuación [4.4] se interpretan en este caso de la siguiente manera: 1. El parámetro cj de pseudoazar representa la probabilidad de acierto para personas con un nivel de rasgo extremadamente bajo. Si no hay omisiones, suele tomar un valor próximo al inverso del número de opciones de respuesta (algo menor si se descartan opciones incorrectas con facilidad). Su valor también depende de la presencia de omisiones: cuanto mayor sea el número de personas que no responden al ítem, menor será el parámetro c. Como es una probabilidad, sus valores pueden oscilar entre 0 y 1, pero generalmente varían entre 0 y 0,5.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
133
2. El parámetro bj de dificultad indica la posición de la CCI en relación al eje de abscisas (cuanto mayor es la dificultad del ítem, más hacia la derecha se posiciona la CCI). Se encuentra en la misma métrica que θ, por lo que sus valores suelen oscilar en el mismo rango. Indica el nivel de habilidad θ donde la probabilidad de acertar es el valor medio entre cj y 1; es decir, 0,5(1 + cj). Éste es el punto de máxima discriminación del ítem (es decir, el punto donde la pendiente de la CCI es máxima). 3. El parámetro aj de discriminación es proporcional a la pendiente que tiene la CCI en el valor θ = bj.2 Los valores de a suelen oscilar entre 0,3 y 2,5 (según la métrica del nivel de rasgo que hemos fijado). Debemos observar que los parámetros de dificultad y discriminación no son iguales a los del modelo ML2P3. En la Figura 4.5 podemos ver la CCI de dos ítems con los mismos valores de a (1) y b (0), pero distintos valores de parámetro c (c1= 0 y c2= 0,2).
2
En concreto, la pendiente en el punto θ = bj depende de aj y de cj y es 0,25Daj(1 – cj). Definamos que la probabilidad de acertar como función del nivel de rasgo si no hubiera aciertos por azar sigue el ML2P: 3
P*j (θ )=
1 1+e − Da j (θ −b j )
En condiciones donde hay respuestas al azar el ML2P es inadecuado. Pues bien, el modelo de 3 parámetros incluye al anterior modelo un nuevo parámetro cj que indica la probabilidad de aciertos por azar: Pj (θ ) = Pj* (θ ) + (1 − Pj* (θ ))c j
La lógica del modelo de la ecuación es la siguiente. La probabilidad de acertar es la probabilidad de saber la respuesta [P*j (θ)], más la probabilidad de no saberla [1 – P*j (θ)] multiplicada por la probabilidad de acertarla cuando no se sabe la respuesta [cj]; el parámetro cj sirve para modelar el hecho de que aunque uno no sepa la respuesta, puede acertarla eligiendo al azar entre las opciones o escogiendo aquella que resulte más atractiva. A partir de la expresión anterior se puede obtener la ecuación [4.4]:
Pj (θ ) = Pj* (θ ) + (1 − Pj* (θ ))c j = c j + (1 − c j ) Pj* (θ ) = c j + (1 − c j )
1 1+e − Da j (θ -b j )
Observe que aunque el desarrollo del ML3P se inspira en el ML2P, las ecuaciones de ambos modelos son distintas, [4.3] y [4.4], por lo que los parámetros aj y bj serán también distintos.
134 Medición en Ciencias Sociales y de la Salud Figura 4.5. CCI según el ML3P para 2 ítems (a1 = 1; b1 = 0; c1 = 0; a2 = 1; b2 = 0; c2 = 0,2)
c2
Desde nuestro punto de vista, el modelo más completo es el ML3P. En el modelo de Rasch y en el ML2P no se contemplan las respuestas al azar. Esto hace que ambos puedan ajustarse peor cuando se trabaja con ítems de opción múltiple, especialmente para ítems de dificultad elevada. Además, en el modelo de Rasch, tampoco se contempla la posibilidad de que los ítems tengan distinto parámetro de discriminación. Esto supone asumir que no hay ítems peores y mejores para medir el nivel de rasgo (o, en todo caso, que aquellos ítems cuyo parámetro a se diferencie mucho del de los otros ítems deberían ser eliminados de la prueba). El modelo de Rasch raramente se ajusta a los datos si no es mediante una criba de ítems que, finalmente, puede acabar por socavar la validez del test. Por otro lado, la aplicación del ML3P requiere procedimientos más complejos de estimación de los parámetros y muestras más numerosas. Los que defienden el modelo de Rasch se basan en algunas de sus recomendables propiedades estadísticas (p. ej., la objetividad específica o, como veremos más adelante, que proporciona estimadores suficientes de los parámetros4). Además, justifican que si un modelo más parsimonioso (con menos parámetros) se ajusta a los datos, es preferible a modelos más complejos. A partir de una CCI conoceremos también la probabilidad de fallar el ítem, a la que nos referiremos como Qj(θ ). Más genéricamente, podremos referirnos a la probabilidad de una respuesta xj al ítem j, lo que suele expresarse como: x
Pj ( X j = x j | θ ) = Pj (θ ) j Q j (θ )
1− x j
[4.5]
que es una forma compacta de referirse a la probabilidad de la respuesta xj; observe que la fórmula anterior se simplifica en cada caso al resultado correcto:
Pj ( X j = 1 | θ ) = Pj (θ )1 Q j (θ ) 0 = Pj (θ ) Pj ( X j = 0 | θ ) = Pj (θ ) 0 Q j (θ )1 = Q j (θ ) 4
Se dice de un estimador que es suficiente si agota toda la información disponible en la muestra para estimar el parámetro.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
135
Supuestos de la TRI Un paso previo a la aplicación de los modelos de TRI es la comprobación de que se cumplen sus dos supuestos fundamentales: unidimensionalidad e independencia local. En este apartado se describen los dos supuestos y por qué son importantes. En los capítulos 6, 10 y 11 se profundizará en los procedimientos para comprobar ambos supuestos.
Unidimensionalidad En los modelos anteriores la probabilidad de acertar un ítem depende únicamente de sus parámetros y de θ. Por ejemplo, en un ítem que mida el nivel de vocabulario inglés, la probabilidad de acertarlo depende de los valores a, b y c del ítem y del nivel de vocabulario en inglés de la persona (θ) , pero no de otros rasgos, como podría ser su inteligencia. En otras palabras, se asume que el rendimiento en los ítems que forman el test depende del nivel de la persona en un solo rasgo o dimensión. A este supuesto se le denomina supuesto de unidimensionalidad. La mayoría de las definiciones actuales de unidimensionalidad hacen referencia al análisis factorial y al concepto de independencia local débil:
σ X j X j ' |θ = 0
[4.6]
que implica que las covarianzas entre ítems para muestras con el mismo nivel de rasgo son cero. En otras palabras, cumpliéndose el supuesto, si seleccionáramos a un grupo de evaluados con el mismo nivel de rasgo la correlación entre dos ítems cualesquiera sería cero. Según los modelos, dos ítems correlacionan sólo porque acertarlos depende de θ; por tanto, si condicionamos los datos en dos ítems a los valores θ debe desaparecer la correlación. En los Capítulos 6 y 10 se estudiarán los procedimientos de análisis factorial que permiten estudiar si se cumple el supuesto de unidimensionalidad.
Independencia local Existe independencia local entre los ítems de un test si la respuesta de una persona a uno de ellos no depende de sus respuestas a los otros. La independencia local se deriva de la unidimensionalidad porque significa que la respuesta a un ítem sólo depende de sus parámetros y de θ, y no está influida por el orden de presentación de los ítems, las respuestas que ya se hayan dado, etc. Para modelos como los descritos, la unidimensionalidad implica independencia local; sin embargo, conviene mantener separados ambos supuestos, ya que en los modelos multidimensionales de TRI no son equivalentes. Matemáticamente, la independencia local se define en términos probabilísticos: la probabilidad de que un evaluado i tenga un patrón de respuestas en un test de J ítems es igual al producto de las probabilidades de cada respuesta en cada uno de ellos por separado:
136 Medición en Ciencias Sociales y de la Salud J
P ( X 1 = xi1 , X 2 = xi 2 ,..., X J = xiJ | θ ) = ∏ P ( X j = xij | θ ) j =1
o, de forma más compacta:
P( X i | θ ) =
J
∏ P( X
j
= x ij | θ )
[4.7]
j =1
donde P(Xi|θ ) designa la probabilidad del patrón de respuestas para el evaluado i; Xi se define como un vector con las respuestas del evaluado i, Xi = {xi1, xi2, xi3,…, xiJ}5. Este planteamiento se conoce también como supuesto de independencia local fuerte. Gracias a este supuesto se cumple que, conociendo los parámetros del evaluado y de los ítems, podemos hallar la probabilidad de su patrón de respuestas en el test completo. El supuesto de independencia local fuerte, como vemos, está referido a todos los ítems del test y por tanto es difícil de contrastar empíricamente. Por ello se suele contrastar el supuesto de independencia local débil, ya mencionado, relativo sólo a pares de ítems. Tal supuesto implica que, para cualquier par de ítems, se cumple que las probabilidades de respuesta son independientes para evaluados con el mismo nivel de rasgo θ :
P( X 1 = xi1 , X 2 = xi 2 | θ ) = P1 ( X 1 = xi1 | θ ) P2 ( X 2 = xi 2 | θ )
[4.8]
que también puede expresarse, en el caso de ítems dicotómicos, como (ver ecuación [4.5]):
P( X 1 = xi1 , X 2 = xi 2 | θ ) = P1 (θ ) xi1 Q1 (θ )1− xi1 P2 (θ ) xi 2 Q2 (θ )1− xi 2 En el caso de ítems dicotómicos, es fácil observar que si se cumple lo anterior se cumple que la covarianza entre los ítems es 0 para evaluados con el mismo nivel de rasgo. En efecto, la covarianza entre los ítems 1 y 2 se calcula como:
σ X1 X 2 |θ = P( X 1 = 1, X 2 = 1 | θ ) − P( X 1 = 1 | θ ) P( X 2 = 1 | θ ) Si hay independencia local los dos términos a la derecha de la ecuación son iguales. Por el contrario, si hay dependencia local:
σ X j X j ' |θ ≠ 0 La dependencia local puede ser positiva o negativa. Si es positiva ( σ X j X j ' |θ > 0 ), el número de personas con la misma respuesta en los dos ítems es mayor que el esperado según el modelo unidimensional. Generalmente, ítems con dependencia local positiva miden una 5
Las variables en negrita se utilizan para designar una matriz o un vector.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
137
misma dimensión específica distinta de θ . Por ejemplo, puede ocurrir que dos ítems tengan un enunciado similar y sean redundantes o que para su resolución requieran una destreza que no requieren otros ítems del test; si se aplica un modelo de TRI a estos datos, los ítems parecerán más discriminativos de lo que realmente son y se sobrestimará la precisión de la prueba. Si la dependencia local es negativa ( σ X j X j ' |θ < 0 ), esto quiere decir que cuando una persona tiende a rendir mejor de lo esperado en un ítem, tiende a rendir peor en otro ítem (y viceversa). Generalmente, ítems con dependencia local negativa miden dimensiones distintas.
Ejemplo 4.3. Concepto de Independencia Local Un test consta de dos ítems y la probabilidad de que un evaluado J acierte el primero es P1(θ ) = 0,4 y la de que acierte el segundo P2(θ ) = 0,8. El principio de independencia local establece que la probabilidad de que acierte los dos viene dada por:
P1 (θ ) P2 (θ ) = (0 ,4)(0 ,8) = 0 ,32 La probabilidad de acertar el primero y fallar el segundo sería:
P1 (θ )Q2 (θ ) = (0 ,4)(0 ,2) = 0 ,08 La de que falle el primero y acierte el segundo será:
Q1 (θ ) P2 (θ ) = (0 ,6)(0 ,8) = 0 ,48 La de que falle ambos ítems será:
Q1 (θ )Q2 (θ ) = (0 ,6)(0 ,2) = 0 ,12 Supongamos que 100 personas con idéntico nivel de rasgo que la persona J, θ = 0, contestan al test. Se esperarían aproximadamente los resultados de la Tabla 4.2. Tabla 4.2. Número de personas con cada patrón de respuestas (1, acierto; 0, error) si se cumple la independencia local Ítem 1
Ítem 2
Nº personas esperado si se cumpliera la independencia local
1 1 0 0
1 0 1 0
(0,4)(0,8)(100) = 32 (0,4)(0,2)(100) = 8 (0,6)(0,8)(100) = 48 (0,6)(0,2)(100) = 12
138 Medición en Ciencias Sociales y de la Salud Si correlacionamos las 100 respuestas al primer ítem con las 100 respuestas al segundo, el resultado sería cero, lo que indicaría que se cumple el supuesto de independencia local; es decir, que σXjXj’|θ = 0:
σ X1 X 2 |θ =0 = P( X 1 = 1, X 2 = 1 | θ = 0) − P( X 1 = 1 | θ = 0 )P( X 2 = 1 | θ = 0) = =
32 40 80 − =0 100 100 100
Estimación de parámetros En la práctica, una vez que se han comprobado los supuestos de unidimensionalidad e independencia local, el siguiente paso es aplicar un modelo de TRI, lo que requiere un método estadístico para estimar los parámetros de los evaluados y de los ítems. Seleccionado un modelo de TRI, hay que aplicar el test a una muestra amplia y, a partir de la matriz de respuestas obtenidas, estimar los parámetros de cada ítem y la θ de cada evaluado. La estimación de parámetros es el paso que nos permite llegar desde las respuestas conocidas de las personas a los ítems hasta los valores desconocidos de los parámetros de los ítems y de los niveles de rasgo.
El concepto de estimación máximo verosímil (ML) Para obtener las estimaciones se aplica fundamentalmente el método de máxima verosimilitud (ML)6, mediante el cual se encuentran los valores de los parámetros que hagan más probable la matriz de respuestas obtenida. La estimación de los parámetros en TRI supone un proceso complejo. La mejor referencia para una descripción detallada de todos los pro6
Veamos a continuación un ejemplo sencillo de estimación ML. Si lanzamos una moneda diez veces y obtenemos siete caras, el estimador ML del parámetro p (probabilidad de cara de la moneda) es 7/10 = 0,7. El resultado "siete caras en diez lanzamientos" es poco compatible con que la probabilidad de cara sea 0,1, o 0,2. De hecho, la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p = 0,1 o si p = 0,2. Dicha probabilidad pasa a ser 0,117 si p = 0,5, y alcanza el máximo valor (0,267) cuando p = 0,7. El estimador ML proporciona el valor de p bajo el que es máxima la probabilidad del suceso que se ha observado. La probabilidad de x caras en n lanzamientos sigue la distribución binomial: n B( x; n, p ) = p x q1− x x
donde el primer término después de la igualdad, el número combinatorio, indica el número de formas en las que pueden surgir x caras en n lanzamientos. En el ejemplo, hay 120 maneras distintas de obtener 7 caras en 10 lanzamientos. Si la probabilidad de cara es 0,7 entonces la probabilidad de que se obtengan 7 caras en 10 lanzamientos es 0,267:
B( x = 7; n = 10, p = 0,7) =
10! 0,7 7 0,33 = 120(0,00222) = 0,267 7!(10 − 3)!
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
139
cedimientos de estimación la encontramos en los libros de Baker (p.ej., Baker y Kim, 2004). Información similar en español puede encontrarse en López- Pina (1995) o también en Revuelta, Abad y Ponsoda (2006).
Fases en el proceso de estimación de los parámetros En TRI, se pueden distinguir dos objetivos de estimación: 1. La primera vez que se aplica un test hay que estimar conjuntamente los parámetros de los ítems y los parámetros θ. Ese proceso se conoce como calibración de los ítems. La fase de calibración es la de mayor complicación puesto que hay que hacer asunciones sobre la distribución del nivel de rasgo y se requieren muestras numerosas. Si tenemos, por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una muestra de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el ML3P, tendremos que estimar los 30 parámetros de los ítems (es decir, a, b y c de cada ítem) y 300 parámetros de las personas (los 300 valores θ, uno por persona). 2. Una vez que son estimados los parámetros de los ítems, pueden considerarse conocidos y usados en posteriores aplicaciones para estimar el nivel de rasgo de las personas. Hablaremos entonces de estimación del nivel de rasgo. A continuación, se ilustra cada una de las fases. Empezaremos por el caso más simple, la estimación del nivel de rasgo.
Estimación del nivel de rasgo por el método ML En TRI, el procedimiento de estimación sigue una lógica similar al comentado para la moneda. Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems para los que ya conocemos sus parámetros (b1 = –0,7; b2 = 1), y que lo aplicamos a una persona. Supongamos también que acierta el primero y falla el segundo. A partir de estas respuestas la estimación ML de su θ se puede explicar de forma gráfica. Como el evaluado acierta el primer ítem, podemos calcular, mediante su CCI (recuérdese que los parámetros del ítem son conocidos), la probabilidad de que esto ocurra para cada nivel de θ. Esto se muestra en la Figura 4.6. Como el evaluado ha fallado el segundo ítem, a partir de su CCI podemos calcular la probabilidad de que esto ocurra para cada uno de los valores de θ. En concreto, como la probabilidad de fallar, Q2(θ ), se puede obtener a partir de la probabilidad de acertar, podremos representar la probabilidad de error en el segundo ítem como se muestra en la Figura 4.7. Nótese que no se representa la CCI del ítem 2, pues para cada valor de θ se ha representado la probabilidad de error y no la de acierto. Puede observarse que es más probable que fallen el ítem los evaluados con niveles bajos de habilidad que los evaluados con niveles altos (cosa bastante lógica).
140 Medición en Ciencias Sociales y de la Salud Figura 4.6. Probabilidad de acertar el ítem 1 con parámetro b1 = –0,7 Probabilidad de acierto en el ítem 1
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
Figura 4.7. Probabilidad de fallar el ítem 2 con parámetro b2 = 1 Probabilidad de fallo en el ítem 2
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
El valor estimado de θ para esta persona sería aquel que haga más probable el resultado obtenido (acertar el primer ítem y fallar el segundo). Según el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto, la probabilidad de que ocurran ambos conjuntamente es igual al producto de las probabilidades de acertar el primero, P1(θ ), por la de fallar el segundo, Q2(θ ) (ver ecuación [4.8]). La probabilidad del patrón de respuestas se denomina en este contexto función de verosimilitud (para el evaluado i) y se designa como Li(θ ), que indica la probabilidad de las respuestas de un evaluado dado un valor del parámetro θ, siendo conocidos los parámetros a, b y c de los ítems. En nuestro caso:
Li (θ ) = P1 (θ )Q2 (θ ) Si representamos gráficamente la función L(θ ) para cada valor de θ, obtendríamos la Figura 4.8. En este caso vemos que el valor θ que hace más probable el resultado obtenido
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
141
(acierto en el primer ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0,15 será la θ estimada para esta persona. Figura 4.8. Probabilidad de acertar el ítem 1 y fallar el ítem 2 L( θ ): Función de Verosimilitud
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
En general, se responderá a un número de ítems mayor de dos y se producirán particulares secuencias de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y errores para un evaluado i se puede expresar como:
Li (θ ) ≡ P ( X i | θ ) =
J
∏ P (θ ) j
xij
Q j (θ )
1− xij
[4.9]
j =1
El nivel de rasgo estimado por el método de máxima verosimilitud (ML) es el valor θ que maximiza la expresión anterior.
Ejemplo 4.4. Estimación del nivel de rasgo por el método ML Un test consta de 4 ítems, cuyos parámetros, según el modelo de Rasch, son –1, 0, 1 y 2. Una persona completa el test y acierta los tres primeros ítems y falla el cuarto. Puede obtenerse el valor de la función de verosimilitud, Li(θ ), para los siguientes valores θ : –3, –2, –1, 0, 1, 2 y 3, y así comprobar cuál de ellos maximiza Li(θ ). Aplicando la fórmula del ML1P se obtiene la probabilidad de acierto para cada ítem y cada uno de los valores de θ (ver Tabla 4.3). La función de verosimilitud, Li(θ ), al haber acertado los 3 primeros ítems y fallado el último, será la siguiente:
Li (θ ) = P1 (θ ) P2 (θ ) P3 (θ )Q4 (θ ) Al aplicar la fórmula se obtiene Li(θ ) para cada valor de θ. Por ejemplo, para θ = 2:
142 Medición en Ciencias Sociales y de la Salud Li(θ = 2) = (0,99)(0,97)(0,85)(0,50) = 0,41 En la última fila de la Tabla 4.3 se muestra el valor de Li(θ ) para cada valor de θ. Tabla 4.3. Probabilidad de la respuesta dada al ítem como función del nivel de θ Ítems
b
Respuesta
θ
1 2 3 4
–1 0 1 2
1 1 1 0
P1(θ) P2(θ) P3(θ) Q4(θ) Li(θ)
–3 0,03 0,01 0,00 1,00 0,00
–2 0,15 0,03 0,01 1,00 0,00
–1 0,50 0,15 0,03 0,99 0,00
0 0,85 0,50 0,15 0,97 0,06
1 0,97 0,85 0,50 0,85 0,35
2 0,99 0,97 0,85 0,50 0,41
3 1,00 0,99 0,97 0,15 0,15
Por lo tanto, de los siete valores θ, el que maximiza Li(θ ) es θ = 2. El procedimiento descrito no es muy preciso, porque sólo se ha hecho la comprobación para 7 valores de rasgo. Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsqueda restringida a unos cuantos valores. En la Figura 4.9 se muestran los valores Li(θ) para todos los valores θ comprendidos entre –4 y 4. Figura 4.9. Probabilidad de acertar los tres primeros ítems y fallar el cuarto L( θ ): Función de Verosimilitud
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
En este ejemplo, el valor θ que maximiza Li(θ ) es 1,6 (ver Figura 4.9). Por tanto, la puntuación estimada para esta persona sería 1,6.
En la TRI, se obtiene el máximo de Li(θ ) por métodos numéricos, mediante programas de ordenador que contienen algoritmos que encuentran el valor θ para el que la función Li(θ ) alcanza el valor máximo. Para ello, se utiliza otra función que tiene el mismo máximo, Ln Li(θ ), más tratable matemáticamente:
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
Ln( Li (θ )) =
J
∑ [x
ij Ln ( P j (θ )) + (1 −
x ij ) Ln(Q j (θ ))
]
143 [4.10]
j =1
Para obtener el máximo de una función puede calcularse la derivada de esa función (recuerde que si la derivada de una función en un punto es cero, la función tiene un máximo, un mínimo o un punto de inflexión). Se busca el parámetro θ para el que se satisface la ecuación:
δ Ln( Li (θ )) = 0 δθ
[4.11]
La derivada de Ln(Li(θ )), en el caso del ML3P, es: J P j* (θ ) δ Ln( Li (θ )) = D a j ( x ij − P j (θ )) δθ P j (θ ) j =1
∑
[4.12]
donde P*j(θ ) se define como:
Pj* (θ ) =
1 1+ e
− Da j (θ −b j )
[4.13]
y donde aj y bj son los parámetros de discriminación y dificultad estimados en el ML3P. El máximo en Ln Li(θ ) se obtiene para el valor de θ en el que la derivada es cero. Esto ocurre cuando la suma ponderada de las diferencias [xij – Pj(θ )] se aproxima a 0 (ver ecuación [4.12]). La ponderación refleja que se da más importancia a los ítems más discriminativos y a aquellos en los que la diferencia entre P*j(θ ) y Pj(θ ) es más pequeña, lo que ocurre cuando ambas probabilidades son altas (el término P*j(θ )/Pj(θ ) oscilará entre 0, para niveles muy bajos, y 1 para niveles muy altos de rasgo). Para el ML2P se tendría que: J δ Ln( Li (θ )) = D a j ( xij − Pj (θ )) δθ j =1
∑
[4.14]
Indicando que se ponderan más las respuestas a los ítems más discriminativos. Mientras que para el ML1P, tendríamos: J δ Ln( Li (θ )) = Da ( xij − Pj (θ )) δθ j =1
∑
Observe que en el modelo de Rasch, la ecuación [4.15] se simplifica a:
[4.15]
144 Medición en Ciencias Sociales y de la Salud δ Ln( Li (θ )) = δθ
J
∑ (x
ij
− Pj (θ ))
[4.16]
j =1
Por tanto, en este último caso todos los ítems tendrían la misma importancia para la estimación; el valor θ estimado será aquel que haga que el número esperado de aciertos coincida con el número observado. Es decir, aquella θ para la que se cumple la igualdad: J
J
∑x = ∑P ij
j =1
j
(θ )
[4.17]
j =1
Y, en definitiva, puesto que la suma de las puntuaciones en los ítems es la puntuación en el test, será aquella θ para la que se cumple la igualdad:
Xi =
J
∑P
j
(θ )
[4.18]
j =1
Calibración de los ítems Partiendo de que tanto los parámetros de los ítems como los parámetros de los evaluados son desconocidos, existen distintos procedimientos para estimar los parámetros de los ítems. De nuevo, se trata de estimar los parámetros a, b y c de los ítems que maximizan la probabilidad de las respuestas observadas. Para ello, es necesario el uso de programas informáticos específicos. En el capítulo 11 se describen los procedimientos y algunos de los programas disponibles para la estimación de parámetros en TRI.
Ejemplo 4.5. Calibración de los ítems de un test de cálculo numérico Una prueba de 7 ítems de cálculo numérico (Tabla 4.4) ha sido respondida por 2.000 estudiantes. Al aplicar la TRI obtenemos las estimaciones de los parámetros de los ítems que se muestran en la Tabla 4.5. Puede verse que el parámetro a guarda una relación directa con la correlación ítem-test de la TCT (r = 0,75), mientras que el parámetro b guarda una relación inversa con el índice de dificultad clásico o proporción de aciertos (r = –0,97). El ítem más fácil es el primero (menor parámetro b) y el más difícil el quinto (mayor parámetro b). Los ítems más discriminativos son el 6 y el 7 (que se refieren a series numéricas). El ítem 7 tiene el mayor parámetro c; podría ser que en este ítem la opción correcta d) sea atractiva para quien no sabe la respuesta (dado que –42 es el número más próximo a –40). Por otro lado, dados los parámetros de los ítems, concluiríamos que aplicar el ML1P sería inadecuado pues sólo los ítems 3, 4 y 5 tienen un parámetro c bajo y un parámetro a similar. En la Figura 4.10 se muestran las CCI de los 7 ítems.
145
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem Tabla 4.4. Siete ítems de una prueba de cálculo numérico Opciones
Ítem 1. ¿Cuál es el resultado de la siguiente operación? 2 + 8 – 15 + 9 – 7 – 3 2. ¿Cuál es el resultado de la siguiente operación? (125/5) – (2)(2,5) + 2,455 3. ¿Cuál es el resultado de la siguiente operación? 2 (12 – 8) – 4 (2 – 4)) 4. ¿Cuál es el resultado de la siguiente operación? 213,5 + 2,085 – 13,65
a)
b)
c)
d)
–16
6
–6
–26
2,475
–2,425
2,425
2,485
16
0
24
–8
204,235 203,065 202,035 201,935
5. La raíz cuadrada de 157,2516 es: 6. Siga la serie 12,3, 14, 15,7, 17,4,… hasta encontrar el término que (por defecto o por exceso) se aproxime más a 22. ¿Cuál es el término? 7. Siga la serie –78, –69, –60,… hasta encontrar el término que (por defecto o por exceso) se aproxime más a –40. ¿Cuál es el término?
12,455
12,554
12,45
12,54
21,5
22,5
20,8
22,4
–52
–51
–33
–42
Tabla 4.5. Parámetros según la TCT y la TRI con el modelo logístico de 3 parámetros (métrica normal) 1 2 3 4 5 6 7
P
rcbp
a
b
c
0,91 0,78 0,52 0,76 0,29 0,34 0,62
0,20 0,35 0,24 0,24 0,21 0,34 0,30
0,68 0,97 0,51 0,59 0,52 1,14 1,42
–1,92 –0,97 0,20 –0,88 1,53 0,71 0,26
0,33 0,10 0,11 0,24 0,07 0,06 0,36
Figura 4.10. CCI según el modelo logístico de tres parámetros 0,9 0,8 0,7 0,6 0,5
CCI1 CCI2 CCI3 CCI4 CCI5 CCI6 CCI7
0,4 0,3 0,2 0,1 0,0
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
Probabilidad de acierto en el ítem
1,0
θ
146 Medición en Ciencias Sociales y de la Salud En definitiva, la TRI nos permite reproducir mediante un modelo cuál va a ser la proporción de aciertos en cada nivel de rasgo, algo que no proporcionaba la TCT. Además, el nivel de rasgo θ puede estimarse en función del patrón de respuestas a los ítems. En la Figura 4.11 se muestran las funciones de verosimilitud asociadas a 4 patrones de respuesta.
L(θ): Función de verosimilitud
Figura 4.11. Máximo de la función de verosimilud, Li(θ ) para cuatro patrones de respuesta
1111110 1110000 1111000
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
1000000
θ
Los valores θ estimados por máxima verosimilitud para cada uno de esos patrones de respuesta serían, respectivamente –2,740 (“fallar los seis últimos ítems”), –0,633 (“fallar los cuatro últimos ítems”), –0,205 (“fallar los tres últimos ítems”) y 0,740 (“fallar el último ítem”).
Bondad de ajuste: Comparación de las CCI teóricas y las CCI observadas La mayor parte de los programas informáticos de TRI incluyen estadísticos y residuos que permiten cuantificar la discrepancia entre los datos observados y los esperados si el modelo fuera correcto. Un modelo de TRI sólo puede aplicarse a unos datos, si estos datos se ajustan al modelo. La estrategia más utilizada para estudiar el ajuste es, para cada ítem, obtener el grado de discrepancia entre las probabilidades teóricas y empíricas de escoger cada opción de respuesta, condicionadas al nivel de rasgo. Tradicionalmente, se ha propuesto agrupar a las personas en Q intervalos según su nivel de rasgo estimado (p. ej., 10 intervalos). La agrupación se hace de forma que en cada intervalo haya un número mínimo de personas (p. ej., 5). En este caso, la proporción observada de aciertos en cada intervalo (Oq) se obtendría simplemente como la proporción observada de aciertos en el grupo q; la probabilidad teórica (Eq) es la probabilidad de acierto que predice el modelo, según la curva característica del ítem, para la media o la mediana del nivel de rasgo estimado en ese intervalo. Posteriormente, para cada ítem se obtiene un estadístico G2:
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 2 GTrad =2
Q
∑ N O
q Ln
q =1
Oq Eq
+ (1 − O q ) Ln
1 − Oq 1 − E q
147 [4.19]
Si se cumple la Hipótesis nula (i. e., el modelo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con Q grados de libertad. Este estadístico está implementado en programas como BILOG o PARSCALE, pero su uso es desaconsejable si el test es corto (p. ej., menos de 20 ítems) ya que los valores pueden sobrestimarse si la agrupación de los evaluados por su nivel de rasgo no es precisa (ver, por ejemplo, Stone y Zhang, 2003). En ese caso pueden aparecer discrepancias entre Oq y Eq que no se deben al desajuste al modelo. Para resolver ese problema, Orlando y Thissen (2000) propusieron un estadístico para contrastar si la probabilidad de acertar observada como función de la puntuación observada X (OX) difiere estadísticamente de la probabilidad de acertar según el modelo (EX): 2 χ Orlando =I
J −1
(
∑ O X =1
X
- E X )2 EX
+
((1 − O X ) - (1 − E X )) 2 1− EX
[4.20]
De esta manera no se requiere agrupar a los evaluados por una variable no observable, θ. El valor EX se calcula mediante el algoritmo iterativo de Lord-Wingersky (1984) y su obtención requiere el uso de un programa informático. Si se cumple la hipótesis nula (el modelo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con J–1–t grados de libertad, donde t es el número de parámetros estimados para el ítem. En la actualidad, no es fácil decidir qué índices de bondad de ajuste son los mejores. Un problema de los contrastes estadísticos es que con muestras grandes las discrepancias pueden ser estadísticamente significativas, pero ser irrelevantes desde el punto de vista práctico. Lo contrario también puede ocurrir. Grandes discrepancias pueden no resultar estadísticamente significativas si la muestra es demasiado pequeña. Nuestra recomendación es completar la información de estos estadísticos con una inspección visual del ajuste de la CCI, tal como se hace en el siguiente ejemplo.
Ejemplo 4.6. Ajuste para los ítems del test de cálculo numérico Para cada ítem de cálculo numérico se obtuvo el estadístico χ 2 de Orlando y Thissen. Este indicador se puede obtener con el programa GOODFIT de libre distribución (Orlando y Thissen, 2000). Los resultados se muestran en la Tabla 4.6 y la información gráfica para el ítem 1 en la Figura 4.12. Puede comprobarse que el ítem 1 muestra el peor funcionamiento. Sin embargo, la inspección visual permite comprobar que la diferencia entre la curva predicha por el modelo y la curva observada, aunque estadísticamente significativa, es irrelevante desde el punto de vista práctico.
148 Medición en Ciencias Sociales y de la Salud Tabla 4.6. Índices de ajuste basados en la comparación de las probabilidades de acertar (observada y esperada) como función del test Ítems
χ 2Orlando
1 2 3 4 5 6 7
11,5 11,3 3,96 3,55 2,84 1,89 3,64
gl 3 3 3 3 3 3 3
P 0,009 0,010 0,266 0,314 0,417 0,596 0,303
Figura 4.12. Probabilidades observada y esperada de acertar el ítem 1 como función de la puntuación X Probabilidad de acierto en el ítem
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3
O
0,2
E
0,1 0,0 0
1
2
3
4
5
6
7
X
La precisión de las puntuaciones en TRI Función de información y error típico de estimación de θ En la TCT un concepto fundamental es el error típico de medida (ver ecuación [3.37]), que nos permite conocer en qué grado la puntuación empírica en un test, X, es una buena aproximación a la puntuación verdadera, V. En concreto, a partir de SE, se puede establecer el intervalo de confianza en torno al cual se encuentra la puntuación verdadera de una persona. En TRI, un concepto análogo al error típico de medida es el error típico de estimación de θ. Si aplicáramos un test con un suficiente número de ítems a personas con igual θ, la estimación ML de θ ( θˆ ) se distribuiría normalmente con media igual al parámetro verdadero (θ ) y desviación típica Se(θ ), que es el error típico de estimación de θ :
149
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem Se(θ ) ≡ σ (θˆ | θ ) =
1 I (θ )
[4.21]
donde I(θ ) se denomina función de información del test. Como se muestra en la ecuación, cuanto mayor sea la información, menor será el error típico de estimación. La función de información en TRI es un concepto análogo al de coeficiente de fiabilidad en TCT. Ambas son medidas de precisión a partir de las cuales se deriva un error típico (de medida en TCT y de estimación de θ en TRI). Las diferencias principales son que: 1. Mientras que el coeficiente de fiabilidad es un valor escalar, la función de información es una función; es decir, en TRI el valor de precisión varía para cada valor de θ. 2. Mientras que el coeficiente de fiabilidad puede tomar valores entre 0 y 1, la función de información puede tomar cualquier valor igual o superior a 0. La función de información del test, I(θ ), se obtiene como la suma de las funciones de informaciones de los ítems:
I (θ ) =
J
∑I
j (θ )
[4.22]
j =1
La función de información de cada ítem para los modelos de uno, dos y tres parámetros se muestra en la Tabla 4.7, donde P*j(θ ) se define en la ecuación [4.13] y Q*j(θ ) = 1– P*j(θ ). Tabla 4.7. Ecuaciones para calcular la función de información de un ítem en los modelos logísticos Modelo
Ecuación para calcular la función de información
ML1P
I j (θ ) = D 2 a 2 Pj (θ )Q j (θ )
[4.23]
ML2P
I j (θ ) = D 2 a 2j Pj (θ )Q j (θ )
[4.24]
ML3P
I j (θ ) = D 2 a 2j Pj* (θ )Q *j (θ )(1 − c j )( Pj* (θ ) Pj (θ ))
[4.25]
Por tanto, el valor de la función de información del test dependerá de varios factores: 1. Número de ítems aplicado (como ocurría en la TCT): En general, al aumentar la longitud del test aumenta la información (ver ecuación [4.22]). 2. De los parámetros a y c de los ítems aplicados: a mayores parámetros de discriminación y menores parámetros de adivinación, mayor será I(θ ) (ver ecuaciones [4.23] a [4.25]). 3. De la proximidad entre θ y bj: cuanto menor sea la distancia entre los parámetros de dificultad de los ítems aplicados y el nivel de rasgo de la persona, mayor será I(θ ). Los productos Pj(θ )Qj(θ ), para el ML1P y el ML2P, y el producto P*j(θ )Q*j(θ ), para el
150 Medición en Ciencias Sociales y de la Salud ML3P, alcanzan su máximo valor cuando θ = bj. Estos productos aparecen en las ecuaciones [4.23] a [4.25]. 4. Del grado en que Pj(θ ) se aleja de cj: cuanto más próxima se encuentre la probabilidad a la esperada por efecto de la adivinación, menor será I(θ) (ver ecuación [4.25]; el cociente P*j(θ )/Pj(θ ) alcanza su valor máximo para niveles altos de θ, cuando P*j(θ )/Pj(θ ) ≅ 1).
Ejemplo 4.7. Función de información del test de cálculo numérico En la Tabla 4.8 se muestra la información proporcionada, para distintos niveles θ, por los ítems de cálculo numérico y por el test completo. Tabla 4.8. Función de información de los ítems y del test Ítem
a
b
c
–3
–2
–1
0
1
2
3
1 2 3 4 5 6 7
0,68 0,97 0,51 0,59 0,52 1,14 1,42
–1,92 –0,97 0,20 –0,88 1,53 0,71 0,26
0,33 0,10 0,11 0,24 0,07 0,06 0,36
0,072 0,021 0,013 0,024 0,003 0,000 0,000
0,164 0,207 0,043 0,082 0,011 0,001 0,000
0,154 0,555 0,099 0,150 0,038 0,045 0,019
0,076 0,336 0,147 0,144 0,093 0,460 0,506
0,028 0,088 0,141 0,084 0,155 0,791 0,433
0,009 0,018 0,094 0,038 0,167 0,246 0,054
0,003 0,003 0,049 0,015 0,120 0,041 0,005
0,133
0,509
1,059
1,763
1,721
0,626
0,237
Test
Por ejemplo, la función de información del ítem 2 para θ = 0. Se calcula como:
P2* (θ ) =
1 1 +e
− Da2 (θ -b2 )
P2 (θ ) = c 2 + (1 − c 2 )
=
1 1+ e 1
1+e
−1, 702 ( 0,97 )( 0 − ( −0,97 ))
− Da2 (θ -b2 )
= 0,10 +
= 0,832 0,90
1+ e
−1, 702 ( 0,97 )( 0 − ( −0,97 ))
= 0,849
P * (θ ) = I 2 (θ ) = D 2 a 22 P2* (θ )Q 2* (θ )(1 − c 2 ) 2 P2 (θ ) 0,832 = 1,702 2 0,97 2 0,832(1 − 0,832)(1 − 0,10) = 0,336 0,849 Puede observarse que el test proporciona la mayor información para los niveles de rasgo entre 0 y 1. Normalmente, la función de información se representa de forma gráfica. En la Figura 4.13 se observa que los que más contribuyen a la precisión son los ítems 2, 6 y 7 (los más discriminativos). Los ítems 1, 3, 4 y 5 proporcionan muy poca información (i. e., sus funciones de información son bastante planas). Para aumentar la precisión en niveles de θ bajos (p. ej., menores que cero) deberíamos añadir ítems similares en dificultad al ítem 2.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
151
Figura 4.13. Función de información de los ítems y del test Función de información de los ítems y del test
2,5 2,0 1,5 1,0
FII1 FII2 FII3 FII4 FII5 FII6 FII7 FI del test
0,5
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
El error típico de estimación se representa en la Figura 4.14. Observe que el error típico y la información están inversamente relacionados. Cuando la información es mayor, el error típico es menor, y viceversa. Puede concluirse que, en general, la precisión del test no es adecuada, especialmente a la hora de discriminar entre niveles de rasgo bajos o entre niveles de rasgo altos7. Figura 4.14. Error típico de estimación de θ 2,5
Se( θ )
2,0 1,5 1,0 0,5
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
El hecho de que la función de información sea la suma de las funciones de información de los ítems nos permite elegir los ítems más adecuados en cada momento en función de las 7
Debe observarse que la función de información depende del modelo aplicado. Por ejemplo, en niveles de θ bajos, la aplicación del ML1P dará valores mayores que el ML3P en la función de información, I(θ ). Sin embargo, los distintos modelos (ML1P, ML2P, ML3P) no deben compararse en este sentido. Si el modelo de un parámetro no se ajustara a los datos, las fórmulas que habríamos proporcionado para obtener el error típico de estimación dejarían de ser válidas.
152 Medición en Ciencias Sociales y de la Salud demandas de la aplicación. Por ejemplo, si en un proceso de selección de personal sólo vamos a elegir a unos pocos evaluados muy competentes, a partir de un banco de ítems calibrado podríamos elegir aquellos que proporcionan más información para niveles altos de θ. Esto nos permitiría aplicar un número reducido de ítems sin perder precisión al estimar θ. En general, un ítem j es máximamente preciso para niveles de rasgo θ = bj (en el caso del ML1P y del ML2P) o, de forma más general, cuando θ = θmax, siendo θmax (Hambleton, Swaminathan y Rogers, 1991; p. 92):
θ max = b j +
ln(0,5 + 0,5 1 + 8c j ) Da j
[4.26]
que es el valor de rasgo para el cual el ítem proporcionará la información máxima; esta información máxima puede calcularse de la siguiente forma (Hambleton y Swaminathan, 1985): 3 2 2 1 − 20c j − 8c j + (1 + 8c j ) 2 2 I (θ max ) = 0,25D a j 2(1 − c j ) 2
[4.27]
expresión que, en el ML2P, se reduce a I(θmax) = 0,25D2aj2.
Intervalos de confianza para la estimación de θ A partir del error típico de estimación se puede obtener el intervalo confidencial en el que, con probabilidad predeterminada, se ha de encontrar el nivel de rasgo de la persona. En concreto, si al nivel θ estimado de una persona le sumamos y restamos (1,96)Se(θ ), obtenemos los extremos del intervalo en el que, con nivel de confianza del 95%, se encontrará su verdadero nivel de rasgo. Por ejemplo, si la θ estimada es 0,8 y su error típico de estimación es 0,22, entonces, el nivel de rasgo de dicha persona se encuentra entre 0,37 (pues 0,8 – (1,96)0,22 = 0,37) y 1,23 (pues 0,8 + (1,96)0,22 = 1,23), con confianza del 95%.
Función de información y fiabilidad A partir de la función de información del test se puede obtener un coeficiente de fiabilidad marginal para las estimaciones del nivel de rasgo: rθTRI ˆθˆ =
σ θ2 σ θ2ˆ
σ θ2
= 2
σθ +
Q
∑ Se(θ q
[4.28] q)
2
g (θ q )
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
153
La expresión g(θ ) indica la distribución del rasgo. La ecuación [4.28] es el cociente entre la varianza del verdadero nivel de rasgo, σ2θ, y la varianza del rasgo estimado, σ θ2ˆ . Indica qué proporción de la varianza de las estimaciones es varianza verdadera. Mediante el uso de esta fórmula puede anticiparse el coeficiente de fiabilidad que se obtendría en una muestra en la que el rasgo tenga distribución g(θ) y varianza σ2θ. Otra forma de expresar el coeficiente de fiabilidad marginal es como:
σ θ2ˆ − rθTRI ˆθˆ
=
Q
∑ Se(θ
q)
2
g (θ q )
q
[4.29]
σ θ2ˆ
Si θˆ está estandarizada la ecuación se simplifica a:
rθTRI ˆθˆ = 1 −
Q
∑ Se(θ
q)
2
g (θ q )
q
En ocasiones, también se calcula cuál sería el coeficiente de fiabilidad si todos los evaluados de una muestra fueran medidos con la precisión que se obtiene en un nivel de θ dado (θ = θq). En ese caso, se aplica la siguiente fórmula: rθTRI ˆθˆ (θ q ) =
σ θ2ˆ − Se(θ q ) 2 σ θ2ˆ
[4.30]
Si θˆ está estandarizada la ecuación se simplifica a: 2 rθTRI ˆθˆ (θ q ) = 1 − Se(θ q )
La Curva Característica del Test (CCT) La representación de la relación entre θ y el rendimiento esperado en el test se denomina Curva Característica del Test. Para un valor θ concreto, el valor esperado en el test se obtiene como la suma de las correspondientes probabilidades de acierto de los ítems para dicho nivel de rasgo, que pueden obtenerse a partir de sus curvas características:
X (θ ) ≡ ε ( X | θ ) =
J
∑ P (θ ) j
j =1
[4.31]
154 Medición en Ciencias Sociales y de la Salud La CCT permite la transformación de la escala de θ a la escala de puntuaciones directas. Además la CCT desempeña un papel importante en algunos de los procedimientos de equiparación de parámetros (tal como se verá en el capítulo 11).
Ejemplo 4.8. Curva Característica del Test La CCT del test de 7 ítems de cálculo numérico se representa en la Figura 4.15. Puede observarse que la relación entre θ (el nivel de rasgo) y X (la puntuación esperada en el test) no es lineal. A alguien con un nivel de θ de 4 corresponde un número esperado de aciertos próximo al número de ítems (en nuestro caso, 7).
7,0 6,5 6,0 5,5 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
Curva Característica del Test
Figura 4.15. CCT del test de cálculo numérico
θ
Aplicaciones El desarrollo de la TRI ha supuesto un cierto avance, tanto en algunos contextos aplicados de evaluación psicológica y educativa, como en contextos de investigación muy diversos. Tal como vamos viendo, aplicar la TRI a las puntuaciones que se obtienen en los ítems de un test tiene ciertas ventajas, siendo una de las principales la estimación del error que se comente concretamente con cada persona. Los desarrollos de la TRI permiten aplicaciones más eficientes, ya que facilitan el ensamblado de un test (la selección de los ítems que lo formarán) para optimizar la precisión de las estimaciones de rasgo. También permite obtener indicadores psicométricos para los ítems, complementarios (y relacionados) a los de la TCT. El estudio de los parámetros de los ítems que se estiman en diferentes grupos va a facilitar el análisis de posibles problemas no deseados, como sería que la prueba perjudicara a uno de dichos grupos sin motivo justificado. Este marco teórico no resulta, sin embargo, la panacea universal para analizar las mediciones que se realizan con cualquier tipo de test en cualquier tipo de contexto de evalua-
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
155
ción. Resultando muchas veces complementaria a la TCT, la TRI resulta especialmente útil en los estudios de evaluación a gran escala, donde es preciso medir muestras numerosas de personas y en diferentes ocasiones. Por una parte, en este tipo de estudios (p. ej., sobre evaluación educativa) se satisfacen los requisitos muestrales necesarios para su aplicación; por otra parte, en aplicaciones transculturales de tests se demandan ciertos estudios particulares (p. ej., equiparación de puntuaciones o estudio del funcionamiento diferencial de los ítems) para los que la TRI proporciona métodos y procedimientos más adecuados que la TCT. Algunas de las principales aplicaciones de la TRI se describen con cierto detalle en otros capítulos de este libro: Equiparación de Parámetros (capítulo 11), Funcionamiento Diferencial (capítulo 13) y Tests Adaptativos Informatizados (capítulo 15).
Ventajas y desventajas de los modelos de TRI Las aplicaciones de la TRI no serían posibles sin ciertas propiedades teóricas de estos modelos, que sintetizamos en las siguientes: 1. Invarianza de los parámetros de los evaluados. En TRI se concibe de forma más operativa el nivel de rasgo del evaluado. Desaparece el concepto de puntuación verdadera, que en la TCT se ligaba íntimamente al test utilizado (por ejemplo, la puntuación verdadera cambiaba si el test tenía más ítems o ítems con distinta dificultad). La TRI se centra en las propiedades psicométricas de los ítems y, a partir de ellas, deriva las propiedades psicométricas del test. En TRI se establece que el nivel de rasgo es un parámetro θ del evaluado que puede ser estimado una vez que se conocen los parámetros de los ítems del test que se está aplicando. No debe confundirse la invarianza de parámetros con la invarianza de las estimaciones de los parámetros; es decir, el parámetro de la persona que indica su nivel de rasgo será el mismo se utilice un test corto o un test largo, pero la estimación de ese parámetro dependerá del test utilizado (se realizará con más precisión en el test largo). 2. Invarianza de los parámetros de los ítems. Si se cumplen los supuestos del modelo, los parámetros estimados de los ítems no dependen, salvo transformación lineal (ver Apéndice), de la muestra donde se obtienen. Esto permite que podamos estudiar las propiedades psicométricas del mismo ítem en distintos grupos, incluso si difieren en media o variabilidad en el nivel de rasgo. 3. No se asume la homocedasticidad del error. En TRI la precisión del test está condicionada al nivel de rasgo y a los ítems aplicados. De esta manera, se esquiva una de las principales críticas que se ha realizado al concepto de fiabilidad en TCT. 4. Se dispone de indicadores de bondad de ajuste, que hacen el modelo falsable y permiten así la comparación de distintos modelos alternativos para las respuestas. Sin embargo, no todo son ventajas en el actual desarrollo que tienen los principales modelos de la TRI: 1. Se requiere un gran número de evaluados para obtener las estimaciones de los parámetros, especialmente en los modelos más complejos (p. ej., los que incluyen parámetros
156 Medición en Ciencias Sociales y de la Salud
2.
3.
4.
5.
de adivinación o algunos modelos para ítems politómicos) (Thissen y Wainer, 1982). Como el problema de los requisitos muestrales no es independiente del método de estimación empleado, se tratará con más detalle en el capítulo 11. Los supuestos son muy restrictivos. Los modelos de Rasch son los más afectados por esta crítica, ya que asumen ausencia de adivinación en las respuestas (algo poco razonable cuando trabajamos con ítems de opción múltiple) e igual parámetro de discriminación de los ítems (algo que, por lo general, no se cumple). Los supuestos de unidimensionalidad o independencia local pueden ser poco realistas en algunos casos. Afortunadamente, se están desarrollando modelos psicométricos de TRI que no requieren el cumplimiento de estos supuestos (p. ej., modelos multidimensionales o modelos para testlets). Los procedimientos para comprobar el ajuste no son totalmente satisfactorios, fundamentalmente porque se desconoce la distribución de los índices de ajuste. Por ejemplo, algunos indicadores dependen de la longitud del test o de la calidad de las estimaciones del nivel de rasgo. La concepción sobre las fuentes de error que afectan a las puntuaciones de las personas en los tests es limitada, sobre todo si la comparamos con la propuesta que se hace desde la Teoría de la Generalizabilidad (TG). La mayor parte de los modelos de TRI ignoran aquellas fuentes de error de medida que no están relacionadas con el contenido específico de los ítems. La TG permite el estudio del efecto de diferentes fuentes de error, tal como veremos en el capítulo 9. En TRI no se reconocen distintas fuentes de error (Brennan, 2004), aunque algunos tímidos intentos empiezan a esbozarse (Bock, Brennan y Muraki, 2002). Como también ocurre en TCT, la TRI se centra en el problema de la precisión, con lo que ha desviado de algún modo la atención de los psicómetras hacia problemas técnicos (p. ej., la estimación de parámetros o la evaluación del ajuste), ignorando en parte el tema de la validez (Muñiz, 1996). La TRI (al menos los modelos descritos hasta el momento) es fundamentalmente una teoría descriptiva (no psicológica) sobre el modelo de respuesta a los ítems.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
157
Apéndice La escala métrica de θ Para comparar dos objetos en un atributo necesitamos que las medidas se hayan tomado en la misma escala. El concepto de escala métrica hace referencia a las unidades de medida y al origen (i. e., el punto cero) de una escala. Por ejemplo, la temperatura puede expresarse en una escala de grados Celsius o en una escala de grados Fahrenheit; ambas son legitimas y equivalentes mediante la correspondiente transformación lineal [Temp(oF) = 1,8Temp(oC) + 32]. Para las puntuaciones en un test se suele asumir un nivel de medida de intervalo, como para la temperatura. Esto quiere decir que no hay un cero absoluto en la escala que indique un nivel cero de atributo y, por lo tanto, no sólo son arbitrarias las unidades de medida (i. e.: hablar en oF o en oC) sino también el origen de la escala. En este nivel de medida, como no existe un cero absoluto, la afirmación de que un objeto tiene el doble de temperatura que otro no tiene sentido; como tampoco lo tiene, por ejemplo, afirmar que una persona es el doble de inteligente que otra. En otras palabras, el nivel de medida determina qué transformaciones de la escala son posibles y qué afirmaciones acerca del atributo tienen sentido y cuáles no. ¿Qué valores puede tomar θ? ¿Cuál es el origen o punto cero de la escala? ¿Y las unidades de medida? Al ser θ una variable con nivel de medida de intervalo, el origen es arbitrario. En la práctica, suele trabajarse con la escala θ en puntuaciones típicas ( µθ = 0; σ 2θ = 1). Esto quiere decir que la escala de θ es tal que, en la muestra, la media es cero y la varianza 1; los valores θ variarán generalmente entre –3,0 y 3,0. Una vez definida la escala para θ, automáticamente los parámetros a y b se sitúan en una métrica consistente con ella: por ejemplo, los valores del parámetro b variarán, generalmente, entre –3,0 y 3,0; el valor de a entre 0,3 y 2,5. A lo largo del capítulo se ha asumido esta escala métrica para θ. Sin embargo, el nivel θ del evaluado puede definirse en cualquier escala métrica consistente con su nivel de medida, en este caso de intervalo. Esto quiere decir que si efectuamos una transformación lineal de θ (g > 0):
θ * = gθ + h
[4.32]
las probabilidades de acierto no cambian si, a la vez, transformamos también los parámetros a y b de los ítems para que se hallen en una métrica consistente con la de θ∗:
a g
[4.33]
b*j = gb j + h
[4.34]
a* =
En efecto:
Pj (θ * ) =
1 1+ e
− Da* (θ* −b*j )
1
=
a
1+ e
− D ( gθ + h −( gb j + h )) g
=
1 1+ e
− Da (θ −b j )
= Pj (θ )
158 Medición en Ciencias Sociales y de la Salud Por tanto, el modelo con parámetros θ*, a* y b*j es equivalente al modelo con parámetros θ, a y bj. Es decir, lo mismo que en la temperatura, podemos expresar los parámetros en distinta escala. El rango de valores que pueden tomar los parámetros a, b y θ dependerá de la escala métrica que utilicemos. Para resolver esta indeterminación debemos explicitar si θ está en una escala de puntuaciones típicas o en otra escala. Observe que ahora podemos explicar por qué las ecuaciones del ML1P [4.1] y del modelo de Rasch [4.2] son equivalentes. En efecto, si definimos:
b*j = Dab j
θ * = Daθ Entonces el modelo de Rasch se transforma en el ML1P:
1 1+ e
−(θ * −b*j )
=
1 1+ e
−( Daθ − Dab j )
=
1 1+ e
− Da (θ −b j )
Si el parámetro θ del ML1P se expresa en puntuaciones típicas (σθ = 1), entonces la desviación típica del parámetro θ* en el modelo de Rasch será:
σ θ * = Da Otro ejemplo de esta necesidad de explicitar la escala métrica se relaciona con el parámetro de discriminación de los ítems: el parámetro a de un modelo será distinto si utilizamos D = 1,702 o D = 1. La elección de uno u otro define la escala métrica de la discriminación: parámetro a en métrica normal o en métrica logística.
La escala logit Si p es una probabilidad, la función logit de p es ln[p/(1 p)]
p logit ( p ) ≡ ln 1 − p En el modelo de Rasch suele utilizarse la escala logit (log-odds-unit) para informar de los parámetros. Al utilizar la ecuación [4.2], el logit de la probabilidad de acertar un ítem es:
Pj (θ ) ln Q j (θ )
1 −(θ −b j ) = ln 1 + e 1 1 − −(θ −b j ) 1+ e
(θ −b j ) ) = θ − bj = ln(e
Es decir, depende sólo del nivel de rasgo y de la dificultad del ítem. Utilizando esta escala es más fácil interpretar las diferencias de rendimiento entre dos personas en el mismo ítem o de la misma
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem
159
persona en dos ítems. Por ejemplo, una diferencia en la escala logit de las probabilidad de acertar un ítem que tienen dos personas, será:
Pj (θ 2 ) Pj (θ1 ) ln − ln = (θ 2 − b j ) − (θ1 − b j ) = θ 2 − θ1 Q j (θ 2 ) Q j (θ1 ) Lo que muestra que dicha diferencia no depende del ítem, sino únicamente de los dos niveles de rasgo. Una diferencia en la escala logit, para una persona, entre las probabilidades de acertar dos ítems distintos, será:
P (θ ) P1 (θ ) ln 2 − ln = (θ − b2 ) − (θ − b1 ) = b1 − b2 Q 2 (θ ) Q1 (θ ) En el modelo de Rasch, las diferencias en la escala logit se corresponden directamente con las diferencias en θ (o en b). Al informar del nivel de rasgo en la escala logit se informa de θ y al informar de la dificultad en la escala logit se informa de b. El punto cero de la escala logit es arbitrario. Normalmente se establece como punto cero la media de los parámetros b de los ítems o la media del nivel de rasgo. En el primer caso, los valores θ iguales a 0 indican que se tiene una probabilidad de acertar ítems de dificultad media de 0,5. En el segundo caso, los valores b iguales a 0 se corresponden con ítems que los evaluados de nivel medio aciertan con probabilidad 0,5.
5
Concepto y evidencias de validez El concepto de validez
Como ya hemos visto en los capítulos precedentes, los estudios de fiabilidad nos informan de si estamos midiendo con mucho o con poco error de medida, pero no informan de qué atributo estamos midiendo. Los estudios de validez van a aportar significado a las puntuaciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer de ellas es o no adecuado. Los indicadores de fiabilidad son diferentes en las distintas teorías y el concepto de fiabilidad sólo ha ido matizándose a lo largo de los años, ligado al desarrollo de las distintas teorías de los tests. El concepto de validez, sin embargo, ha cambiado enormemente, tal como veremos en el último apartado del presente capítulo. La validez ha sido definida de muchas maneras a lo largo de la historia de la Psicometría y su definición sigue cambiando. Lo único que se ha mantenido a través del tiempo es su consideración como la propiedad más importante y fundamental al desarrollar y evaluar un test (p. ej.: Anastasi y Urbina, 1997; Cronbach, 1988). La conceptualización actualmente dominante sobre la validez es la que recogen los Standards for Educational and Psychological Testing en su edición de 1999. En este documento, elaborado por tres importantes asociaciones profesionales americanas (AERA, APA y NCME), se define la validez como el grado en que la teoría y los datos disponibles apoyan la interpretación de las puntuaciones de un test para un uso concreto. Hay varios aspectos que se pueden destacar de esta definición: 1. Al igual que ocurre en el caso de la fiabilidad, ya no hablamos de validez de un test sino de validez de las puntuaciones de un test. No tiene sentido hablar de “propiedades del test”, ya que éstas dependen del contexto de evaluación y de la muestra.
162 Medición en Ciencias Sociales y de la Salud 2. El profesional responsable de la aplicación de un test debe consultar el manual del mismo para averiguar si la utilización e interpretación pretendida por él coincide con la proporcionada por la documentación de la prueba. En caso negativo, para poder realizar la interpretación pretendida deberá desarrollar una investigación, un estudio de validación, que le permita recoger información que apoye (o no) su utilización. Por lo tanto, la validación no sólo incumbe a los tests de nueva creación, sino que representa un proceso de acumulación de evidencias que apoyan las interpretaciones propuestas para las puntuaciones de un test, para así poder comprender mejor qué significan. Siguiendo la propuesta de Kane (2006a), que es consistente con la visión de los Standards, el proceso de validación implicaría el uso de dos argumentos: el argumento interpretativo y el argumento de validez. El proceso de validación debe comenzar con el desarrollo del argumento interpretativo, que supone proponer con detalle interpretaciones y usos de las puntuaciones. Por ejemplo, debemos especificar todas las asunciones en las que se basa el test, los componentes del constructo, las diferencias con otros constructos y sus relaciones con otras variables. Si las interpretaciones y usos no están claramente identificados entonces no pueden ser evaluados. El segundo, el argumento de validez, consiste en evaluar el argumento interpretativo. La interpretación propuesta para las puntuaciones determina las clases de evidencia necesarias para la validación. Es posible que una o varias de las interpretaciones sean válidas mientras que otras se consideren inválidas. Por ejemplo, es posible que un test de personalidad sea adecuado para un proceso de selección de personal, pero no lo sea para un proceso de diagnóstico de patologías. El argumento de validez implica la evaluación de las interpretaciones propuestas a través de una serie de análisis lógicos y estudios empíricos, siendo siempre necesaria la integración de las diferentes clases de evidencia. Las evidencias de validez son, por lo tanto, las pruebas recogidas para apoyar la interpretación propuesta. La principal ventaja de esta aproximación sería que intenta proporcionar una guía para dirigir los esfuerzos de investigación. Las clases de evidencia que serían más relevantes son aquellas que apoyan inferencias y asunciones del argumento interpretativo que son más problemáticas. Además, la etapa de evaluación también implica una búsqueda de asunciones ocultas y de posibles interpretaciones alternativas de las puntuaciones. Si concebimos la validación como el proceso investigador en el que se van acumulando evidencias sobre la interpretación de las puntuaciones de un test, resulta patente que para obtener estas evidencias podremos usar una enorme variedad de métodos o estrategias. De ahí que ya no usemos el término “tipos de validez” sino el de “tipos de evidencia”, intentando resaltar el carácter unitario del concepto de validez. Estas diferentes fuentes de evidencia no representan distintos tipos de validez. Ahora se plantea el estudio de evidencias basadas en el contenido, la estructura interna, la relación con otras variables, el proceso de respuesta y las consecuencias de la aplicación del test. Para analizar los datos de las distintas fuentes de evidencia se usa una amplia variedad de técnicas, que por su importancia y especificidad se tratarán en distintos capítulos. Concretamente, para obtener evidencias relativas a la estructura interna de las puntuaciones es preponderante el uso del Análisis Factorial Exploratorio (AFE) y del Análisis Factorial Confirmatorio (AFC). Estas dos técnicas se exponen, respectivamente, en los capítulos 6 y 10. Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI); la definición y la tecnología para la detección del FDI se proporciona en el capítulo 13. Por otra
Capítulo 5. Concepto y evidencias de validez
163
parte, en el capítulo 14, se incluyen otros procedimientos que se aplican para obtener información sobre la relación del test con otras variables (p. ej.: la regresión lineal múltiple) y sobre la generalización de la validez. Hay numerosos manuales en los que se tratan el concepto y las evidencias de validez, tanto en español (p. ej.: Martínez Arias, Hernández-Lloreda y Hernández-Lloreda, 2006; Muñiz, 2002; Navas, 2001), como en inglés (p. ej.: Carmines y Zeller, 1979; Crocker y Algina, 1986; Wainer y Braun, 1988).
Evidencias basadas en el contenido del test Definición Es fácil comprender la necesidad de examinar el contenido de un test como un primer paso para juzgar si un instrumento puede usarse para un propósito en particular. Por ejemplo, estudiantes, padres y profesores esperan que las preguntas de un examen de Lengua de Educación Primaria sean consistentes con los objetivos curriculares para esa asignatura y nivel. Esto es especialmente evidente en los tests educativos. No sorprende, por tanto, que la necesidad de examinar el contenido de los tests apareciese ya en 1954 en un documento de la APA sobre recomendaciones técnicas para el diseño y uso de los tests. Es necesario aclarar que por contenido del test no nos referimos únicamente a los ítems que lo componen. Actualmente se incluyen, además, las instrucciones para su administración y las rúbricas o criterios para su corrección y puntuación. Sireci (2003) indica que hay al menos dos aspectos esenciales que se deben tener en cuenta para realizar la validación del contenido: la definición del dominio, y la representación del dominio. La definición del dominio se refiere a la definición operativa del contenido. En la mayoría de los tests educativos esta definición tiene la forma de una tabla de especificaciones de doble entrada, en la que las filas indican las áreas de contenido relevantes para el dominio en cuestión y las columnas indican las operaciones o procesos cognitivos implicados en la resolución de las tareas planteadas. Se especifican además los porcentajes de ítems asignados a cada combinación de área y proceso cognitivo. Las empresas de tests más importantes de EE. UU. (p. ej.: American College Testing, California Bureau Test, Educational Testing Service…) suelen emplear estas tablas. Así por ejemplo, en la página web del National Assessment of Educational Program (NAEP)1 podemos encontrar varios ejemplos. El NAEP es el programa de evaluación del rendimiento académico llevado a cabo por el Departamento de Educación de EE. UU., que permite comparar el rendimiento de los estudiantes en la escuela en varias materias y en todos los estados. Si tomamos, por ejemplo, la tabla de especificaciones para la evaluación del progreso educativo en Geografía vemos que incluye tres áreas de contenidos: espacio y lugar, ambiente y sociedad, y conexiones y dinámicas espaciales. Las dimensiones cognitivas evaluadas son conocimiento, comprensión y aplicación. Se muestran, además, los porcentajes de distribución de ítems por áreas de contenido y algunos ejemplos de ítems para cada combinación de área y habilidad cognitiva. Así por ejemplo, el ítem “¿Qué factores estimulan las migraciones humanas?” está diseñado para medir “conocimiento” en 1
http://nces.ed.gov/nationsreportcard/geography/elements.asp
164 Medición en Ciencias Sociales y de la Salud el área “conexiones y dinámicas espaciales”. Mientras que el ítem “Explique las razones que los mexicanos y cubanos tienen hoy en día para emigrar a los Estados Unidos” está diseñado para medir “comprensión” en la misma área de conocimiento. Para definir el dominio de manera adecuada podemos usar varias fuentes. En los tests educativos es habitual usar los libros de texto y los objetivos curriculares; en el ámbito de selección de personal es frecuente usar los resultados de los análisis de puestos de trabajo; los datos obtenidos en tales análisis se usan para defender la evaluación de áreas específicas y para establecer su importancia en el test (p. ej., la proporción de ítems de cada una). En los tests de aptitudes se utilizan las teorías sobre las habilidades mentales y su funcionamiento. Hasta ahora nos hemos ocupado de la definición del dominio. El segundo elemento resaltado por Sireci es la representación del dominio, que a su vez abarca dos aspectos: la representatividad y la relevancia. La representatividad o cobertura del dominio indica la adecuación con que el contenido del test representa todas las facetas del dominio definido. Hay que examinar si todo el contenido del dominio está siendo medido y si hay facetas concretas que han sido infrarrepresentadas. Por su parte, al estudiar la relevancia examinamos el grado en que cada ítem del test mide el dominio definido, pudiéndose detectar problemas relativos a la presencia de contenidos irrelevantes.
Procedimientos La mayoría de los estudios de validación de contenido requieren del trabajo de jueces o expertos que evalúan los ítems del test y emiten juicios sobre el grado de emparejamiento entre los ítems y los objetivos definidos en la tabla de especificaciones. Habitualmente se trabaja con un reducido número de jueces que emiten una cantidad importante de evaluaciones. Es crucial realizar una cuidadosa selección de los expertos. En un estudio “tradicional” de validez de contenido, una vez identificado el grupo de expertos en el dominio evaluado, éstos deben informar del grado en que el dominio está bien definido y del grado en que el test lo representa bien. Se pueden utilizar varios procedimientos para que los jueces evalúen el emparejamiento entre los ítems y los objetivos del test. Rovinelli y Hambleton (1977) propusieron una tarea en la que cada juez juzga si el contenido de cada ítem refleja cada uno de los objetivos especificados. El juez debe asignar “+1” si considera que el ítem mide el objetivo, “−1” si cree que no lo mide y “0” si tiene dudas sobre si lo mide o no. Por ejemplo, en un test de 10 objetivos y 4 ítems por objetivo cada juez debería realizar 400 juicios. El índice de congruencia ítem-objetivo se obtiene mediante la expresión: I jk =
(
N X jk − X j 2N − 2
)
[5.1]
Siendo N el número de objetivos, X jk la media de los jueces para el ítem j en el objetivo k y X j la media de los jueces para el ítem j en todos los objetivos. Este índice toma valores entre −1 y 1. Nótese que un valor del índice de 1 en un ítem indicaría que todos los jueces lo han valorado +1 en el objetivo k (la media del ítem en el
165
Capítulo 5. Concepto y evidencias de validez
objetivo sería igual a 1) y −1 en todos los demás objetivos. Un valor del índice de −1 indicaría que todos los jueces lo han valorado −1 en el objetivo k y +1 en todos los demás objetivos. Podemos fijar un punto de corte para decidir qué ítems presentan valores adecuados y cuáles no. Por ejemplo, si tenemos 20 jueces y 10 áreas de contenido. Podríamos exigir que al menos 15 jueces valorasen el ítem como adecuado para el objetivo propuesto e inadecuado para los otros. En este ejemplo, el índice debería valer 0,75.
Ejemplo 5.1. El índice de congruencia de Rovinelli y Hambleton En la Tabla 5.1 se muestran las hipotéticas evaluaciones de una muestra de 10 jueces recogidas con este procedimiento para un test de 6 ítems que pretende medir 2 objetivos. En negrita se muestran los ítems que han sido diseñados para medir cada objetivo. Así, los tres primeros ítems fueron diseñados para evaluar el objetivo 1 y los tres últimos para el objetivo 2. Cada juez debe realizar 12 valoraciones (6 ítems × 2 objetivos). Por ejemplo, el juez 1 evalúa con “+1” al ítem 3 en el objetivo 1 (cree que lo mide) y con “0” a ese mismo ítem en el objetivo 2 (tiene dudas sobre si lo mide o no). Tabla 5.1. Evaluaciones hipotéticas de 10 jueces para un test de 6 ítems que mide 2 objetivos Jueces i =10
Objetivos
Ítems
1
2
3
4
5
6
7
8
9
10
∑X i =1
1
2
1
+1
+1
+1
+1
+1
+1
0
+1
+1
+1
9
2
+1
+1
0
+1
+1
+1
0
+1
+1
+1
8
3
+1
0
+1
+1
+1
+1
+1
+1
+1
−1
7
4
−1
0
−1
−1
−1
−1
−1
0
0
−1
−7
5 6
−1 −1
0 0
−1 −1
−1 −1
−1 −1
−1 −1
−1 −1
−1 0
−1 −1
−1 −1
−9 −8
1
−1
0
−1
−1
−1
−1
−1
0
−1
−1
−8
2
−1
0
−1
−1
−1
−1
−1
−1
0
−1
−8
3
0
+1
−1
−1
−1
−1
−1
−1
−1
0
−6
4
+1
+1
+1
+1
+1
+1
0
+1
+1
+1
9
5 6
+1 +1
+1 +1
0 +1
+1 +1
0 +1
+1 0
0 +1
−1 −1
+1 +1
+1 0
6 6
El índice de congruencia del ítem 3 y el objetivo 1 (que es el que pretende medir) es: I jk =
(
)
2 7 7 + (−6) N X jk − X j = − = 0,65 2N − 2 4 − 2 10 20
i
166 Medición en Ciencias Sociales y de la Salud Supongamos que para considerar un ítem adecuado decidimos que al menos 7 de los 10 jueces valoren el ítem como apropiado para el objetivo propuesto e inapropiado para el otro objetivo. En este caso, el índice debería ser al menos de 0,7. El índice de congruencia del ítem 3 no alcanza este valor, por lo que no se consideraría adecuado para evaluar el objetivo en cuestión.
Un segundo procedimiento, más sencillo que el anterior, implica el uso de una tarea de emparejamiento. Se presentan a los jueces dos listas, una con los ítems y otra con los objetivos. La tarea del juez consiste en indicar qué objetivo piensa que mide cada ítem (si es que mide alguno). Estas clasificaciones serían usadas para obtener “índices de congruencia ítem-objetivo”, así como “índices de congruencia globales” para cada área de contenido. Por ejemplo, si en un examen de Geografía un ítem diseñado para medir “conocimiento” en el área “conexiones y dinámicas espaciales” fuese clasificado en esa categoría por un 80% de los jueces, su índice de congruencia sería de 0,8. Se suele considerar que índices de 0,7 o mayores corresponden a ítems congruentes con su objetivo. Los índices de congruencia son fáciles de comprender y de calcular y proporcionan información sobre la representación del dominio. Además, a partir de los datos anteriores hay que ver el porcentaje de ítems que hay en cada una de las celdas de la tabla de especificación y ver si éste es acorde con lo propuesto en la definición del dominio. Los datos recogidos de esta manera pueden resumirse usando estadísticos descriptivos como: el % de ítems que se emparejan a los objetivos, la correlación entre el peso dado al objetivo y el número de ítems que miden el objetivo o el porcentaje de objetivos no evaluados por ninguno de los ítems. En ocasiones, para evaluar la precisión con que los jueces llevan a cabo su tarea, se incluyen ítems que no miden ninguno de los objetivos (ítems de relleno). Se evalúa la efectividad de los jueces mediante el recuento del número de tales ítems que no han sido identificados por cada juez. Aquellos jueces que no logren un mínimo nivel de ejecución se eliminan del análisis.
Ejemplo 5.2. Tarea de emparejamiento para evaluar la validez de contenido La Tabla 5.2 muestra un resumen y análisis de las evaluaciones hipotéticas de 5 jueces en un test de 12 ítems que mide 4 objetivos. Los ítems 13, 14 y 15 no medían ninguno de los objetivos. En los ítems que componen el test, una puntuación de 1 significa que el juez asignó el ítem al objetivo para el que había sido desarrollado. Una puntuación de 0 significa que el juez no asignó el ítem al objetivo para el que fue desarrollado. En los “ítems de relleno” una puntuación de 0 significa que el juez no asignó el ítem a ninguno de los objetivos. Una puntuación de 1 significa que el juez asignó el ítem a alguno de los objetivos. Por ejemplo, el juez nº 2 consideró que el ítem 2 no medía el objetivo 1, pero que el ítem 7 sí medía ese objetivo. Si nos fijamos en los datos del ítem 10 veremos que sólo uno de los cinco jueces consideraron que midiese el objetivo (2) para el que había sido desarrollado, de ahí que su índice de congruencia tenga un valor de 0,2.
Capítulo 5. Concepto y evidencias de validez
167
Respecto a la efectividad con que los jueces realizan su tarea, vemos que el juez menos eficaz ha sido el nº 2, ya que no detecta ninguno de los ítems “de relleno” introducidos. Este juez es también quien ha realizado un menor porcentaje de clasificaciones “congruentes” (58%). Es decir, de los 12 ítems que componen el test sólo emparejó 7 con el objetivo para el que habían sido diseñados. Por lo tanto, éste sería un juez cuyos datos deberían, probablemente, ser eliminados. Tabla 5.2. Hipotética tarea de emparejamiento llevada a cabo por cinco jueces Jueces Objetivos
Ítem
1
2
3
4
5
Índice de congruencia
1
2 7
1 1
0 1
1 0
1 1
1 1
0,8 0,8
2
1
1
1
1
1
1
1
3
1
1
1
1
1
1
8
1
1
1
1
0
0,8
10
0
0
0
1
0
0,2
11
1
0
0
0
1
0,4
3
4
1
1
1
0
0
0,6
6
1
0
1
0
0
0,4
5
0
0
1
1
1
0,6
9
1
1
1
0
1
0,8
12
1
1
0
1
1
0,8
83
58
67
67
67
13
0
1
0
0
1
14
1
1
0
1
0
15
1
1
0
0
0
2
3
0
1
1
4
% de clasificaciones “congruentes” Ítems “de relleno”
Nº ítems “de relleno” no identificados
El juicio solicitado a los expertos no tiene por qué ser dicotómico (clasificar un ítem, o no, en un objetivo). Hambleton (1980, 1984) propuso el uso de escalas tipo Likert de 5 puntos donde la tarea del juez es evaluar la relevancia de cada ítem para medir el objetivo pensado. No hay un número estándar de puntos para utilizar. Se suele aconsejar no usar menos de 5 puntos ni más de 9. El valor más bajo de la escala indica “nada relevante” y el más alto “completamente relevante”. Se obtienen la media y/o la mediana de las valoraciones, que se usan como índices de la relevancia del ítem. La media de los índices de relevancia para todos los ítems de un área de contenido se usa como índice de representación de esa área. Es el investigador quien debe decidir cuándo se considera que el resultado obtenido
168 Medición en Ciencias Sociales y de la Salud para un ítem es lo suficientemente bueno como para considerarlo relevante; por ejemplo, en una escala de 5 puntos una media superior a 3,5 o una mediana superior a 3. Además, para cada juez se puede calcular la discrepancia entre su valoración y la mediana para cada ítem. Para ello se deben sumar las diferencias, en valor absoluto, entre la valoración dada por el juez y la mediana para cada ítem. Cuando la discrepancia cometida es importante se puede dudar de la competencia del juez, y por tanto eliminarlo de los análisis.
Ejemplo 5.3. Evaluaciones de una muestra de jueces usando una escala tipo Likert La Tabla 5.3 incluye las evaluaciones de 10 jueces, usando una escala de 7 puntos, en un test de 14 ítems que pretende medir 2 objetivos. Los 7 primeros ítems medían el primer objetivo y los 7 últimos el segundo. Por ejemplo, el juez nº 2 consideró que el tercer ítem, diseñado para medir el primer objetivo, lo hacía en un grado de 4 sobre 7. Tabla 5.3. Resumen de las evaluaciones de 10 jueces en un test de 14 ítems y una escala de 7 puntos Jueces Objetivos
Ítems
1
2
3
4
5
6
7
8
9
10 media Mdn Rango
1
1
7
5
4
5
3
4
4
7
7
5
5,1
5
4
2
7
6
7
7
3
7
6
7
7
7
6,4
7
4
3
4
4
1
3
3
2
3
2
5
6
3,3
3
5
4
1
6
7
1
6
7
3
2
4
7
4,4
5
6
5
6
6
6
5
4
6
6
6
7
7
5,9
6
3
6
4
6
7
5
4
7
5
6
7
7
5,8
6
3
7
7
5
5
6
3
6
4
6
5
6
5,3
5,5
4
8
3
4
1
1
4
4
3
5
6
6
3,7
4
5
9
6
6
2
6
1
4
3
6
7
5
4,6
5,5
6
10
3
6
3
4
1
4
4
5
7
6
4,3
4
6
11
7
6
4
6
1
2
6
7
6
5
5,0
6
6
12
7
3
5
7
1
6
4
7
5
6
5,1
5,5
6
13
7
5
2
6
1
4
2
7
7
7
4,8
5,5
6
14
7
6
3
7
4
5
4
7
7
6
5,6
6
4
18
9
23 13 37 14 17 14 17 15
2
Discrepancia de cada juez respecto a la Mdn
Si observamos las medias y medianas de los ítems podremos concluir que, según esta muestra de jueces, los ítems que mejor reflejan los objetivos planteados son: para el objetivo 1, el ítem 2 (con una media de 6,4 y una mediana de 7), y para el objetivo 2, el ítem 14 (con una media de 5,6 y una mediana de 6). Si observamos el rango de las evaluaciones obtenidas por un ítem, tendremos un indicador del nivel de desacuerdo de los jueces.
Capítulo 5. Concepto y evidencias de validez
169
Por ejemplo, los ítems 5 y 6 presentan el menor rango (3), lo que nos informa de un mayor nivel de acuerdo entre los jueces al evaluarlos. Respecto al análisis de las discrepancias de los expertos, el juez nº 5 destaca claramente2. Sus evaluaciones son las que mayores diferencias obtienen respecto a las medianas. Por lo que, en este caso, sus valoraciones serían candidatas a ser eliminadas del análisis definitivo.
Obviamente, para que los datos recogidos mediante cualquiera de los procedimientos que hemos detallado anteriormente sean informativos hay que garantizar que existe una adecuada fiabilidad interjueces, es decir, que las valoraciones que realizan son consistentes. En el capítulo 9 se muestran algunos de los múltiples índices que se han propuesto para su estudio. Una limitación de los índices de congruencia y de relevancia que acabamos de describir es que, al informar a los jueces de lo que el test se supone que mide, estamos restringiendo sus evaluaciones a las dimensiones propuestas y, por lo tanto, influenciando sus percepciones sobre lo que mide el ítem. El conocimiento por parte de los jueces de los objetivos del test puede sensibilizarles con las expectativas de los constructores del test y crear un sesgo potencial de demandas de la tarea que contamine sus juicios. Esto probablemente sobrestima los índices de relevancia y congruencia obtenidos. Para superar estos problemas se han propuesto métodos que intentan descubrir las percepciones de los jueces sin informarles de las áreas específicas de contenido del test. Concretamente, Sireci y Geisinger (1992, 1995) utilizaron métodos de escalamiento multidimensional y análisis de conglomerados con los juicios sobre la similaridad del contenido medido por pares de ítems. En este caso, la tarea de los jueces es evaluar, usando una escala tipo Likert, la similaridad entre todos los posibles pares de ítems del test con respecto al conocimiento o habilidades cognitivas medidas. El objetivo era determinar si la estructura propuesta en la tabla de especificaciones era congruente con las evaluaciones de similaridad dadas por los expertos. Tal y como el propio Sireci indica, el método basado en las similaridades complementa, pero no excluye, los métodos tradicionales. Los trabajos de validación de contenido deben incluir los procedimientos tradicionales basados en los índices de congruencia y relevancia. Como ya dijimos al principio de este apartado, la mayoría de los trabajos de validación de contenido están basados en las evaluaciones de jueces, pero también se ha propuesto el examen del contenido de los tests a partir de las contestaciones dadas por los sujetos que responden al mismo. Se han aplicado técnicas de escalamiento multidimensional, y análisis cluster (p. ej., Deville, 1996; Napior, 1972; Oltman, Stricker y Barrows, 1990), modelos de ecuaciones estructurales (p. ej., Ding y Hersberger, 2002), análisis factorial (p. ej., Dorans y Lauwrence, 1987) y la Teoría de la Generalizabilidad (p. ej., Green, 1983). Sireci (1998) es crítico con algunas de estas aplicaciones porque considera que confunden las propiedades de los datos con las interpretaciones del contenido. Sin embargo, considera prometedores los estudios basados en la Teoría de la Generalizabilidad.
2
37 = 3 − 5 + 3 − 7 + ... + 4 − 6
170 Medición en Ciencias Sociales y de la Salud
Evidencias basadas en la estructura interna del test ¿Mide nuestro test un constructo coherente o se trata simplemente de un conjunto de ítems no relacionados? Las evidencias sobre la estructura interna nos permitirán responder a esta pregunta. Para analizar la estructura interna del test se realizan estudios sobre la dimensionalidad y sobre el funcionamiento diferencial de los ítems. Respecto a los estudios sobre dimensionalidad, permiten determinar la estructura del test, que puede haber sido construido para medir una o varias dimensiones, y ver si coincide con la estructura postulada al construir la prueba. Este tipo de análisis es frecuentemente realizado en los trabajos de validación. Se basa en el examen de las relaciones entre los ítems del test con el fin de determinar, empíricamente, qué conceptos se pueden emplear para interpretar sus puntuaciones. Se utilizan complejas técnicas estadísticas, fundamentalmente el análisis factorial, que examinan si las relaciones entre los ítems se corresponden con las hipotetizadas para el constructo que estamos midiendo. Por ejemplo, una teoría que plantea la unidimensionalidad de un constructo requiere que los ítems saturen en un único factor. Mediante las técnicas factoriales, a partir de las correlaciones entre los ítems se obtiene una matriz factorial que expresa la relación entre los ítems y los factores comunes o dimensiones subyacentes. Los factores se definen como combinaciones lineales de los ítems originales. El estudio de la dimensionalidad puede hacerse mediante diversos modelos de análisis factorial exploratorio (AFE) o análisis factorial confirmatorio (AFC). El AFE es básicamente una técnica de reducción de la dimensionalidad que permite pasar de un conjunto de variables observadas (ítems) a un número mucho menor de variables latentes o factores. El AFE busca identificar un conjunto de factores hipotéticos que pueden explicar las correlaciones observadas entre los ítems del test. No plantea hipótesis previas sobre las dimensiones y las saturaciones de los ítems en los factores. Los factores derivados del análisis son abstracciones matemáticas. Su significado sustantivo se desarrolla examinando el contenido de los ítems que saturan en cada factor. Por ejemplo, si todos los ítems que saturan en un factor implican habilidades de cálculo y los ítems que no requieren estas habilidades tienen saturaciones muy bajas en él, el factor puede ser identificado como “Habilidad de cálculo”. La interpretación surge al combinar el modelo matemático formal con juicios subjetivos que unen el modelo a fenómenos observables. En el capítulo 6 se describen con detalle el AFE. El AFC, al igual que el exploratorio, tiene como objetivo identificar factores latentes que expliquen la covariación entre las variables observables. Ambos, AFE y AFC, están basados en el mismo modelo estadístico. La diferencia es que con el AFC se pone a prueba si una solución factorial concreta es o no adecuada para unos datos. Se especifica, por ejemplo, el número de factores, si están o no relacionados, qué ítems son indicadores de cada factor, etc. El AFC requiere una base empírica o conceptual fuerte que guíe la especificación del modelo. De ahí que se use en las últimas fases de los estudios de validación. El capítulo 10 recoge los aspectos técnicos más importantes para su aplicación. Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI). El FDI aparece cuando personas con el mismo nivel en la característica medida por el test, pero que pertenecen a grupos distintos, tienen distinta probabilidad de acertar o estar de acuerdo con el ítem. Los grupos se definen atendiendo a variables sociodemográficas como el
Capítulo 5. Concepto y evidencias de validez
171
sexo, la raza, la cultura, el idioma, etc. Una diferencia grupal no implica la existencia de FDI. Para hablar de FDI la diferencia entre los distintos grupos tiene que ser debida a diferencias en variables que no son las que el test pretende medir. El estudio del FDI también aporta evidencias sobre las consecuencias sociales del uso del test. Existen numerosas técnicas para detectar FDI, algunas de las cuales se describen en el capítulo 13.
Evidencias basadas en la relación con otras variables El objetivo aquí es establecer si las relaciones observadas entre las puntuaciones en el test y otras variables externas relevantes son consistentes con la interpretación propuesta para las puntuaciones. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala de susceptibilidad al castigo (que mide el grado de evitación de situaciones aversivas) debe proporcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con estabilidad emocional. Si las relaciones observadas son consonantes con lo predicho por el modelo teórico en el que se inserta el constructo medido por el test, entonces hemos obtenido evidencia favorable a la interpretación propuesta. Si las relaciones observadas no son las esperadas hay que cuestionar la adecuación de la prueba, la adecuación de las medidas de las otras variables o incluso el modelo teórico. Las variables externas relevantes a las que hacemos alusión pueden ser: a) otras medidas del mismo constructo obtenidas con diferentes tests; b) medidas de constructos diferentes pero que se insertan en el modelo teórico donde se encuadra el constructo de interés o c) algún tipo de variable (criterio) que pretendamos predecir a partir de las puntuaciones en el test. Examinaremos por separado las evidencias para establecer la relación del test con otros constructos (evidencia convergente y discriminante) y del test con algún criterio (validez referida a un criterio).
La evidencia convergente y discriminante Buscamos examinar las relaciones previsibles entre las puntuaciones en el test y otros constructos, ya sean similares (evidencia convergente) o diferentes (evidencia discriminante) a los que se pretenden medir con el test. Por ejemplo, podemos pensar que las puntuaciones en un test de opción múltiple de razonamiento lógico se relacionarán estrechamente con otra medida de razonamiento lógico basada en la resolución de problemas (evidencia convergente). Sin embargo, si medimos además otro constructo diferente, por ejemplo la comprensión lectora, esperamos que la relación entre ambas mediciones sea menor (evidencia discriminante). Predominan los trabajos que buscan obtener evidencia convergente, probablemente porque estudiar la relación entre distintos métodos que miden el mismo constructo puede ayudar a interpretar el significado de las puntuaciones. Para obtener información sobre las relaciones entre las puntuaciones del test con otras variables que forman parte del modelo teórico se plantean habitualmente dos tipos de trabajos: 1. Estudios de comparación del rendimiento de diversos grupos en el test. Por ejemplo, en un test neuropsicológico podemos comparar grupos de personas con y sin lesión cere-
172 Medición en Ciencias Sociales y de la Salud bral, o en un test de conocimientos un grupo de expertos con uno de novatos. En otras ocasiones se comparan grupos que han recibido intervenciones diferentes que deberían afectar a sus puntuaciones. Por ejemplo, puede estudiarse si las puntuaciones en una medida de estrés son sensibles al tratamiento o si hay diferencias en las puntuaciones en un test de logro académico entre el grupo de estudiantes que han recibido instrucción y el que no la ha recibido. En otras ocasiones se comparan grupos para obtener evidencia discriminante. Por ejemplo, en un cuestionario que mida depresión (puntuaciones más altas indicarían más depresión) podríamos comparar las puntuaciones obtenidas en el test por dos grupos de pacientes: un grupo con patología depresiva y otro grupo formado por pacientes con otros tipos de patologías. Si encontramos puntuaciones significativamente más altas en el grupo de sujetos diagnosticados con depresión habríamos obtenido evidencias sobre un uso concreto del cuestionario.
Ejemplo 5.4. Un estudio sobre la validez convergente del listado de Psicopatía de Hare revisado (PCL-R) Chico y Tous (2003) estudiaron la validez convergente del listado de Psicopatía de Hare revisado (PCL-R). En las últimas décadas el PCL-R se considera como el instrumento estandarizado más habitual para medir Psicopatía. Se aplicó la versión española de Moltó, Poy y Torrubia (2000) a una nuestra de 305 internos presos en un centro penitenciario. La escala consta de 20 ítems cuya puntuación viene determinada por el psicólogo, quien, usando la información obtenida en una entrevista semiestructurada, puntúa cada ítem como 0 (si la conducta en cuestión estaba ausente), 1 (si había dudas) o 2 (si se estaba seguro de su presencia). Para evaluar la validez convergente se observaba si existían diferencias estadísticamente significativas en variables relacionadas con la vida penitenciaria del recluso atendiendo a sus puntuaciones (altas o bajas) en el PCL-R. Se formaron dos grupos: el grupo 1, compuesto por presos que tenían puntuaciones por debajo de la media en la escala, y el grupo 2, formado por reclusos con puntuaciones por encima de la media. La Tabla 5.4 muestra que hubo diferencias en dos variables dependientes, en función de las puntuaciones altas y bajas en el PCL-R. Los presos que habían puntuado alto en PCL-R puntuaron más alto en la variable dependiente “número de ingresos en prisión” y eran más jóvenes cuando ingresaron por primera vez. Tabla 5.4. Diferencias grupales en función de las puntuaciones en el PCL-R Variables er
Edad 1 ingreso Nº de ingresos *p < 0,0001.
Puntuaciones bajas en PCL-R (N = 157)
Puntuaciones altas en PCL-R (N = 157)
Media
Desv. Tip.
Media
Desv. Tip.
21,14
3,70
18,50
3,09
2,66
5,45
gl.
T
3,45
323
6,40*
4,54
323
−5,52*
También se habían evaluado la gravedad de los delitos y la conducta en prisión. Los presos se clasificaron en función del delito más grave que habían cometido en 3 categorías: 0, si habían cometido delitos no violentos; 1, si sus delitos suponían un cierto grado de vio-
Capítulo 5. Concepto y evidencias de validez
173
lencia (p. ej.: robos con fuerza); y 2, delitos más violentos (p. ej.: robos con armas, violaciones, homicidios…). Respecto a su conducta, los reclusos se clasificaron de la siguiente forma: 0 (no tenían sanciones disciplinarias), 1 (tenían sanciones leves y como máximo una sola grave) y 2 (presos que habían cometido más de una sanción grave o muy grave). Ambas variables se relacionaron con la puntuación en el PCL-R: χ2 (2, N = 305) = 89,56, p < 0,001 y χ2 (2, N = 305) = 61,38, p < 0,001, respectivamente, para la tipología delictiva y la conducta en prisión.
2. En un segundo tipo de trabajos se obtienen las correlaciones entre las puntuaciones obtenidas en dos o más tests, para establecer si miden o no el mismo constructo. Si la previsión es que miden el mismo constructo, se estaría buscando una evidencia de validez convergente. Si la hipótesis de partida es que los tests miden constructos diferentes, se estaría buscando evidencia discriminante. Por ejemplo, Manners y Durkin (2001) llevaron a cabo una revisión sobre las investigaciones realizadas para recoger evidencias sobre la validez del Washington University Sentence Completion Test (WUSCT), una escala concebida para medir el desarrollo del ego, construida desde la teoría de Loevinger sobre el desarrollo de la personalidad. Como ejemplos de trabajos que ofrecen evidencia discriminante para el WUSCT, se citan varias investigaciones en las que se correlacionaron sus puntuaciones con medidas de fluidez verbal. Aunque ambos constructos, según predice la teoría, deben estar relacionados, ya que son necesarias más palabras para expresar mayor complejidad conceptual, el número de palabras usadas y la complejidad de las estructuras empleadas son claramente distinguibles, por lo que se esperaba obtener correlaciones medias. Éste fue el resultado obtenido en distintas muestras, donde los coeficientes de correlación fueron aproximadamente de 0,30.
Ejemplo 5.5. Un estudio sobre la validez convergente de dos medidas objetivas de Minuciosidad Hernández, Lozano, Shih y Santacreu (2009) realizaron una investigación para obtener un indicador de la validez convergente de dos medidas objetivas de Minuciosidad que eran funcionalmente equivalentes; es decir, evaluaban el mismo estilo interactivo, que básicamente consiste en la ejecución de una tarea de manera ordenada, organizada, siguiendo un patrón sistemático. Este estilo podría considerarse equiparable, en términos teóricos, a la dimensión de Minuciosidad del Modelo de Cinco Factores de la Personalidad. Las pruebas aplicadas fueron el Test de Minuciosidad Árboles (TM-A) y el Test de Minuciosidad Fichas (TM-F). Hay apreciables diferencias formales entre ellos. La tarea en el test TM-A consistía en identificar y pulsar con el ratón, de entre una variedad de imágenes distintas, aquellas que fuesen iguales a una presentada como modelo. En el test TM-F se presentaba un panel que contenía varios tipos de fichas, que otorgaban puntos al ser pulsadas. El objetivo de la tarea era obtener la mayor cantidad de puntos pulsando sobre el menor número de fichas.
174 Medición en Ciencias Sociales y de la Salud Ambas pruebas de evaluación se aplicaron durante un proceso de selección. La distancia temporal entre una y otra fue de 1 hora y 40 minutos, período en el cual los candidatos realizaron otras tareas de evaluación. Éstos ejecutaron las pruebas de modo individual en un ordenador. El coeficiente de correlación de Pearson entre las puntuaciones de las dos pruebas fue de 0,638, p < 0,001. Los autores concluyen que ambas pruebas miden un mismo estilo interactivo. En otras palabras, las estrategias de actuación que ponen en marcha los individuos enfrentados a dos tareas distintas son las mismas. Estos resultados no permiten, no obstante, asegurar que estas pruebas estén midiendo la misma dimensión de minuciosidad que las tradicionales pruebas de evaluación basadas en el autoinforme de los individuos, ya que en un trabajo previo realizado por Sánchez-Balmisa, Hernández, Madrid, Peña y Santacreu (2003) no se encontró una correlación significativa entre el TM-F y la escala de responsabilidad del cuestionario de personalidad BFQ.
En 1959 Campbell y Fiske propusieron un diseño para analizar la validez convergente y discriminante, basado en el estudio de la denominada matriz multirrasgo-multimétodo3 (MRMM). Este trabajo es uno de los más citados en la historia de la Psicología. Para estos autores un test es el resultado de unir un constructo con un procedimiento de medida. Cuando las puntuaciones de dos instrumentos covarían puede deberse a que comparten un constructo común o a que comparten un método de evaluación. Para separar ambos aspectos, y así estudiar las contribuciones relativas de la varianza del constructo y del método, propusieron un diseño en el que una muestra de sujetos es evaluada en un conjunto de constructos, medidos cada uno con un conjunto de métodos diferentes. La matriz MRMM incluye todas las correlaciones entre condiciones de medida. El objetivo de estudiar una matriz MRMM es evaluar los efectos de la varianza atribuida al constructo de interés y la varianza del método (varianza atribuible al método de medida específico), ya que el efecto del método altera las correlaciones entre los constructos introduciendo sesgos sistemáticos. Idealmente, una medida no debería contener efecto del método. En contraste, los estudios MRMM han mostrado que las puntuaciones en los tests psicológicos y educativos contienen una cantidad sustancial de efecto del método (Dumenci, 2003). Adicionalmente, una MRMM también proporciona información sobre el patrón de asociaciones entre constructos y las posibles interacciones entre métodos y constructos.
Organización de las matrices MRMM La selección de rasgos y métodos debe hacerse de modo que: a) cada uno de los métodos sea adecuado para medir todos los constructos de interés, b) los diferentes métodos sean lo más independientes posible entre sí y c) los constructos incluidos varíen en el grado de asociación entre ellos, con constructos altamente relacionados y otros en los que la asociación sea muy baja. El objetivo de estas recomendaciones es establecer las condiciones 3
Para conmemorar el 50 aniversario de este trabajo la revista Methodology publicó en el año 2009 un número monográfico, Vol. 5 (3), en el que, para analizar los datos de esta matriz, presenta aproximaciones desde los modelos multinivel y el análisis factorial. El análisis de esta matriz aplicando el AFC puede consultarse en el capítulo 14.
Capítulo 5. Concepto y evidencias de validez
175
para que las correlaciones entre las puntuaciones de diferentes rasgos, medidos con distintos métodos, se aproximen a cero. La matriz MRMM se organiza por método, de modo que cada constructo medido está incrustado en cada bloque de método. Un ejemplo hipotético de organización lo podemos encontrar en la Tabla 5.5, que muestra una matriz de correlaciones para 3 constructos medidos por 2 métodos diferentes. Para interpretar esta matriz hay que identificar 4 regiones o grupos de correlaciones: 1. El primer grupo está formado por las correlaciones obtenidas entre los mismos constructos usando los mismos métodos (datos entre paréntesis). Son las correlaciones monorrasgo-monométodo y conforman las diagonales de la fiabilidad. 2. El segundo grupo lo forman las correlaciones entre las medidas del mismo constructo cuando se utilizan distintos métodos (datos en cursiva negrita). Son las correlaciones monorrasgo-heterométodo. Muestran evidencia sobre la convergencia y constituyen las diagonales de la validez. 3. El tercer grupo lo componen las correlaciones entre distintos constructos medidos con el mismo método (datos subrayados) o correlaciones heterorrasgo-monométodo. Nótese que estas correlaciones forman triángulos situados de forma adyacente a cada diagonal de la fiabilidad. 4. El cuarto grupo está formado por las correlaciones entre distintos constructos y distintos métodos, correlaciones en las que no se comparte ni el constructo ni el método, es decir, heterorrasgo-heterométodo. Nótese que forman triángulos adyacentes a la diagonal de la validez y que ambos triángulos no son iguales.
Ejemplo 5.6. Matrix MRMM para tres constructos medidos por dos métodos En la Tabla 5.5 se presenta un ejemplo hipotético, adaptado de Fabrigar y Estrada (2007). Los métodos 1 y 2 son dos formas distintas de medir las actitudes. Los constructos A, B y C son, respectivamente, sentimientos, creencias e intenciones de actuar. Tabla 5.5. Representación de una hipotética matriz multirrasgo-multimétodo Método 1 Cons. A Constructo A Método 1
Método 2
Cons. B
Método 2 Cons. C
Cons. A
Cons. B
Cons. C
(0,98)
Constructo B
0,62
(0,95)
Constructo C
0,19
0,17
(0,93)
Constructo A
0,75
0,60
0,18
(0,95)
Constructo B
0,59
0,86
0,17
0,60
(0,94)
Constructo C
0,19
0,18
0,74
0,21
0,20
(0,95)
176 Medición en Ciencias Sociales y de la Salud Interpretación de las matrices MRMM El análisis tradicional de estas matrices, tal y como fue propuesto inicialmente por Campbell y Fiske, implica una inspección visual de la matriz examinando cuatro propiedades: 1. En primer lugar, hay que evaluar la diagonal monorrasgo-monométodo (o de la fiabilidad). Estos coeficientes deberían ser, de modo consistente, los más altos de la matriz, porque es poco probable que una medida correlacione más con cualquier otra cosa que consigo misma (por ejemplo, en dos aplicaciones). En nuestro ejemplo, las correlaciones varían entre 0,93 y 0,98 indicando valores elevados de la fiabilidad. 2. En segundo lugar, las correlaciones monorrasgo-heterométodo son tomadas como indicadoras de evidencia convergente, porque nos informan del grado en que diferentes métodos son congruentes al medir el mismo constructo. Estas correlaciones deberían ser significativamente distintas de cero y lo suficientemente altas para que tenga sentido continuar un análisis de la validez. Idealmente, todos los métodos deberían proporcionar el mismo ordenamiento de los individuos para un particular constructo. En nuestro ejemplo, estas correlaciones son altas (varían entre 0,74 y 0,86) lo que sugiere que los diferentes métodos producen resultados similares para los tres constructos. El hecho de que estas correlaciones sean elevadas es una condición necesaria, pero no suficiente, para asegurar la convergencia. Es posible que estas correlaciones estén sobrestimadas por un factor irrelevante (por ejemplo, la varianza del método), y por eso es necesario examinar las correlaciones que nos proporcionan evidencia sobre la divergencia, tal como se indica a continuación. 3. En tercer lugar, las correlaciones monorrasgo-heterométodo hay que compararlas con los triángulos heterorrasgo-monométodo. Los valores en la diagonal monorrasgoheterométodo deberían ser más altos que los valores de los triángulos heterorrasgomonométodo, porque distintos métodos evaluando un mismo rasgo deberían correlacionar más que el mismo método evaluando rasgos distintos. Si no ocurriese esto, el método de medida explicaría una parte importante de varianza de las puntuaciones. En nuestro ejemplo, las correlaciones monorrasgo-heterométodo (0,75, 0,86 y 0,74) son, para cada comparación, mayores que las correlaciones obtenidas en los triángulos heterorrasgo-monométodo: 0,62, 0,19 y 0,17 (para el Método 1) y 0,60, 0,21 y 0,20 (para el Método 2). Se debe cumplir también que las correlaciones monorrasgo-heterométodo sean más altas que las obtenidas en los triángulos heterorrasgo-heterométodo para la misma fila o columna. Esencialmente, si diferentes métodos están midiendo el mismo constructo, sus correlaciones deberían ser mayores que las de constructos distintos que están medidos usando métodos distintos. Por ejemplo, en nuestra matriz 0,75 es mayor que las correlaciones de su fila (0,60 y 0,18); y también es mayor que las correlaciones de su columna (0,59 y 0,19). La misma propiedad se cumple para 0,86 (mayor que 0,59, 0,17, 0,60 y 0,18) y también para 0,74 (mayor que 0,19, 0,18, 0,18 y 0,17). 4. En cuarto lugar, y para terminar, el investigador debe comparar los triángulos heterorrasgo-monométodo y heterorrasgo-heterométodo, ya que si dos rasgos están correlacionados, esta relación debería mantenerse con independencia del método utilizado para medirlos y el mismo patrón debería estar visible en todos los bloques monométodo y heterométodo. Si examinamos los datos de nuestro ejemplo, este criterio se satisface siempre. Además, para aquellos constructos que estén correlacionados, las correlacio-
Capítulo 5. Concepto y evidencias de validez
177
nes heterorrasgo-heterométodo deberían ser más altas que para los constructos que no lo estén. La inspección visual de la Tabla 5.5 nos indica que la regla anterior se cumple para cada comparación. Veámoslo: si medimos los constructos con el mismo método, encontramos que la relación entre los constructos A y B es más alta (0,62 y 0,60) que la existente entre los constructos A y C (0,19, 0,21) y también que la obtenida entre los constructos B y C (0,18, 0,20). Al comparar las relaciones entre los constructos cuando son medidos con distintos métodos, la relación entre los constructos A y B (0,59 y 0,60) sigue siendo mayor que la obtenida entre los constructos A y C (0,19, 0,18) y que la obtenida entre los constructos B y C (0,17, 0,18). También se obtiene evidencia sobre el efecto del método al examinar la magnitud diferencial de las correlaciones entre dos constructos diferentes medidos por el mismo método y las correlaciones entre los mismos dos constructos medidos por distintos métodos. Por ejemplo, los constructos A y B correlacionan 0,62 ó 0,60, según se midan con el Método 1 o con el Método 2. Si se miden con métodos distintos, las correlaciones difieren muy poco (0,59 y 0,60). En resumen, una matriz MRMM debería proporcionar evidencia a favor de la convergencia al medir los mismos constructos, de la divergencia al medir constructos distintos y de la ausencia de efectos del método. El estudio de este tipo de matrices tiene también algunas limitaciones. Por una parte, algunas asunciones claves subyacentes no están claramente definidas. Por ejemplo, en el estudio de la matriz MRMM se asume la existencia de dos tipos de variables (método y rasgo), pero no se especifica su interacción; tampoco se considera el efecto del error de medida en la cuantía de las correlaciones. Por otra parte, hay algunos problemas prácticos asociados con su uso. Por ejemplo, no siempre es posible disponer de un diseño completo “método x rasgos”; además, las matrices muy grandes pueden ser muy complicadas de evaluar. También se ha criticado la ambigüedad de la interpretación, dado que a veces se producen resultados contradictorios dentro de una misma matriz. Así, en la práctica es habitual que algunos aspectos de la matriz sean consistentes con las reglas de interpretación, mientras que otros puedan no serlo. En tales casos las evaluaciones de las diferentes correlaciones pueden ser muy subjetivas. Con el objetivo de afrontar la dificultad de interpretación de las matrices MRMM, y así cuantificar el grado en que tales criterios han sido satisfechos, se han desarrollado diversos procedimientos estadísticos para complementar la evaluación visual. En el capítulo 14 se expone con algún detalle el estadístico recientemente propuesto por Sawilowsky (2002) y el empleo del AFC para complementar y aclarar la interpretación de estas matrices.
Evidencia sobre la relación entre el test y algún criterio relevante Cuando se pretende utilizar el test para pronosticar determinados criterios de rendimiento como, por ejemplo, el rendimiento escolar, el total de ventas que se van a conseguir, el aprovechamiento conseguido en un cursillo o la mejora en un proceso terapéutico, se requiere que el test se relacione muy estrechamente con dichos criterios. Suele hablarse entonces de la necesidad de obtener evidencias de validez referida al criterio, lo cual requiere: 1. Identificar un criterio y la manera adecuada de medirlo. 2. Elegir una muestra apropiada. 3. Obtener en la muestra medidas en el test y en el criterio.
178 Medición en Ciencias Sociales y de la Salud 4. Determinar el grado de relación ente ambos. Para obtener la relación entre el test (X ) y el criterio (Y ), si son variables continuas, se calcula la correlación entre ambas variables, que se denomina coeficiente de validez (rXY) e indica el grado en que las puntuaciones en el test sirven para pronosticar con precisión las puntuaciones en el criterio. Supongamos, por ejemplo, que la correlación entre un test de conocimientos y las calificaciones obtenidas en 2º de Bachillerato fuese 0,85 en una muestra representativa. Como la correlación es elevada, cometeríamos errores de pronóstico no excesivamente elevados (haciendo uso de la oportuna ecuación de regresión) al predecir la calificación de un alumno sabiendo su rendimiento en el test de conocimientos. El coeficiente de validez no es una propiedad del test, sino que habrá un coeficiente específico en cada muestra donde se obtenga y para los diferentes criterios que puedan establecerse. Cuando las puntuaciones en los tests van a emplearse para tomar decisiones importantes para los evaluados (p. ej., sobre su admisión o no en un puesto de trabajo, sobre el acceso a una plaza escolar determinada o sobre su acreditación profesional) es preciso que los profesionales dispongan de tests con elevada validez referida al criterio. Pero esto resulta a veces difícil o muy laborioso. En muchas ocasiones no resulta sencillo establecer criterios pertinentes (relacionados con el test), fiables y fácilmente mensurables, lo cual afectará a la precisión con la que podrán estimarse. Por ejemplo, los tests que se emplean en el examen teórico para obtener el permiso de conducir deberían predecir en parte la habilidad futura de conducción, un criterio que probablemente no resulta sencillo de medir de forma fiable; además, seguramente resultaría muy costoso obtener evidencias de validez referida a este criterio para todos los diferentes tests teóricos que se aplican. La validez referida a un criterio puede ser predictiva o concurrente. La distinción entre ambas se refiere al intervalo de tiempo transcurrido entre las mediciones en el test y en el criterio. Las evidencias de validez predictiva reflejan la relación entre las puntuaciones en un test y un criterio, cuando el criterio se mide más tarde. Por ejemplo, si en un proceso de selección de personal se aplica un test de aptitudes cognitivas, podrá correlacionarse con medidas de desempeño laboral sólo después de que los admitidos tengan la oportunidad de trabajar durante un tiempo. En el caso de la validez concurrente, las medidas en el test y en el criterio se obtienen aproximadamente en el mismo momento.
Interpretación del coeficiente de validez Si las puntuaciones en el test (X ) y en el criterio que se desea pronosticar (Y ) son variables continuas, el modelo de regresión lineal simple permite cuantificar la capacidad predictiva del test. La hipótesis básica del modelo es la linealidad de la relación entre ambos. La función que relaciona las puntuaciones en el test con las del criterio deberá tener un incremento (o decremento) constante para los diferentes valores de X. Un diagrama de dispersión, como el que se representa en la Figura 5.1, nos permite obtener una aproximación sencilla al estudio del grado de relación lineal. Es importante complementar el cálculo del coeficiente de validez con el correspondiente diagrama de dispersión, ya que un mismo coeficiente puede ser obtenido con distintas pautas de relación y el diagrama es una forma sencilla de visualizar estas pautas. En la Figura 5.1 se recogen los datos, obtenidos por simulación, de una muestra de 1.000 estudiantes en un hipotético test de admisión al centro (X ) y el promedio de sus calificaciones obtenidas en el primer curso del grado en Psicología (Y ).
Capítulo 5. Concepto y evidencias de validez
179
Figura 5.1. Diagrama de dispersión de Y (calificación) sobre X (puntuaciones en un test de admisión). Se ha simulado una muestra de 1.000 estudiantes
Los alumnos con puntuaciones más altas (bajas) en el examen de admisión tienden a obtener una calificación promedio más elevada (baja) durante el primer curso del grado. En nuestro ejemplo la correlación entre ambas variables (coeficiente de validez) fue de 0,532, que indica una relación lineal positiva entre el test y el criterio4. La recta de regresión que se ha trazado es la línea que mejor se ajusta a la nube de puntos y nos permite predecir la calificación que obtendría un estudiante que haya tenido una puntuación concreta en el test. La distancia vertical entre un punto y la línea de regresión es el error de pronóstico o residuo para ese punto. La recta de regresión se ha calculado usando el método de estimación más habitual, mínimos cuadrados ordinarios, que minimiza la suma de los errores al cuadrado. En nuestro caso, la capacidad predictiva del test no es muy elevada, ya que la mayor parte de los puntos distan bastante de la recta. El coeficiente de validez es una correlación de Pearson y, por tanto, su interpretación más inmediata se fundamenta en el coeficiente de determinación, que es el cuadrado de la correlación y que indica la proporción de varianza que comparten las puntuaciones del test y del criterio. Así, el coeficiente de validez de 0,532 de nuestro ejemplo indica que con el test se explica un 28,3% de la variabilidad o diferencias individuales en el criterio, mientras que el 71,7% restante se debe a variables diferentes al test (errores de medida en ambos y otras variables no contempladas que influyen en las calificaciones). Recordando algunos conceptos fundamentales de la regresión lineal simple, el coeficiente de determinación se puede expresar como:
4
Como veremos un poco más adelante, puede obtenerse también la significación estadística de la correlación (contrastar si es diferente de 0 en la población). En este sentido, conviene recordar la incidencia del tamaño de la muestra, de modo que puede alcanzarse la significación para coeficientes bajos cuando están obtenidos en muestras de gran tamaño. Una correlación significativa puede no ser una correlación elevada. Generalmente los coeficientes de validez no exceden de 0,6 en situaciones reales.
180 Medición en Ciencias Sociales y de la Salud 2 = rXY
SY2' SY2
= 1−
SY2−Y ' SY2
[5.2]
Donde:
S Y2 es la varianza del criterio, SY2' es la varianza de los pronósticos y S Y2−Y ' es la varianza de los errores de pronóstico. Si conocemos el coeficiente de validez y la varianza de las puntuaciones del criterio, podremos obtener la varianza de los errores de pronóstico despejando de la ecuación [5.2]: 2 SY2−Y ' = SY2 1 − rXY
[5.3]
La desviación típica de los errores de pronóstico (SY-Y´) recibe el nombre de error típico de estimación y tiene un importante papel en las aplicaciones.
Estimaciones en el criterio La función lineal que permite predecir las puntuaciones en el criterio a partir de las puntuaciones en el test será:
Yi' = β 0 + β1 X i
[5.4]
Donde β0 es la constante, ordenada en el origen o intercepto y representa el valor esperado de Y cuando X toma el valor 0, y β1 es la pendiente de la recta o coeficiente de regresión (muestra el cambio que experimenta el valor de Y cuando X cambia una unidad). Gráficamente, β0 representa el punto en el que la recta de regresión corta el eje de ordenadas y β1 representa la inclinación de la recta. Como la relación entre X e Y no es exacta, para cada sujeto i cometemos algún error de pronóstico ( Yi − Yi' ). Cuanto más próximo esté un punto a la recta de regresión, menor será el error cometido. Para determinar los valores de β0 y de β1 puede utilizarse el criterio denominado de mínimos cuadrados ordinarios, que minimiza la suma de los errores al cuadrado para el conjunto de los sujetos: N
∑ (Y − Y ) i
i =1
i
' 2
[5.5]
Capítulo 5. Concepto y evidencias de validez
181
'
La recta que hace mínima la expresión [5.5] se consigue sustituyendo Yi por su valor
Yi' = β 0 + β1 X i . El proceso de minimización conduce a dos ecuaciones de las que se pueden despejar los valores de los dos parámetros. Puesto que se trabaja con datos muestrales: b1 = rXY
SY SX
[5.6] [5.7]
b0 = Y − b1 X
En nuestro ejemplo, las desviaciones típicas del criterio y del test son, respectivamente, 0,973 y 4,886; las correspondientes medias son 5,927 y 29,818. Si quisiéramos predecir la calificación promedio en el primer curso a partir de las puntuaciones en el examen de admisión, la ecuación de regresión se obtendría de la siguiente forma: b1 = rXY
SY 0,973 = 0,532 = 0,106 4,886 SX
b0 = Y − b1 X = 5,927 − 0,106(29,818) = 2,768
Yi' = b0 + b1 X i = 2,768 + 0,106 X i Por lo tanto, en la ecuación anterior, b1 nos indica que un incremento de un punto en la nota del examen de admisión produce un aumento de 0,106 puntos en la calificación promedio en el primer curso. El valor obtenido para el estimador de la pendiente variará al calcularlo en distintas muestras, aunque procedan de la misma población. Estos valores constituyen la distribución muestral del coeficiente de regresión; el tamaño de la variación vendrá indicado por el error típico de estimación de dicho parámetro, en inglés Standard Error (SE):
SEb1 =
SY SX
2 1 − rXY N −2
[5.8]
Donde N es el tamaño de la muestra. El intervalo de confianza para el coeficiente de regresión se obtiene mediante la expresión:
b1 ± t1−α / 2 SEb1
[5.9]
182 Medición en Ciencias Sociales y de la Salud Donde t es el valor de la distribución t de Student con N – 2 grados de libertad y probabilidad 1–α/2. Si este intervalo incluyese el valor de cero, entonces no podríamos rechazar la hipótesis nula de que, en la población, el coeficiente de regresión sea cero5. En nuestro ejemplo, el error típico de estimación del coeficiente de regresión es: SEb1 =
0,973 1 − 0,283 = 0,005 4,886 1.000 − 2
Y el intervalo, con un nivel de confianza del 95%, será: 0,106 ± ( 998 t 0,975 )0,005 = 0,106 ± 1,960(0,005) = 0,106 ± 0,0098
Por lo que en la población el valor del coeficiente de regresión estará comprendido entre 0,096 y 0,116 con un nivel de confianza del 95%. Dicho de otro modo, el coeficiente de validez ha resultado estadísticamente significativo, lo cual no garantiza que las estimaciones en el criterio se realicen con precisión. La ecuación de regresión de Y sobre X puede expresarse también (para puntuaciones directas) como:
Yi' = (Y − rXY
SY SX
X ) + rXY
SY SX
Xi
[5.10]
Si queremos utilizar puntuaciones diferenciales, es decir, manteniendo la desviación típica original, pero con media cero en X e Y, la ecuación de regresión es:
yi' = rXY
SY xi SX
[5.11]
Si deseamos usar puntuaciones típicas, donde las medias serán cero y las desviaciones típicas de X e Y serán uno, entonces la ecuación es: Z Y' i = rXY Z X i
[5.12]
Como puede observarse, la pendiente en la ecuación de regresión para puntuaciones típicas, también denominada coeficiente de regresión estandarizado o peso beta, es el coeficiente de
5
Si queremos aplicar la ecuación que hemos obtenido en nuestra muestra a otra muestra que proceda de la misma población, es decir para hacer un uso inferencial de nuestra ecuación, necesitaremos suponer que en la población se cumplen ciertas características o supuestos. Afortunadamente los estadísticos empleados en la regresión lineal simple son robustos, es decir, desviaciones moderadas de los supuestos no producen errores graves en la inferencia. Básicamente los supuestos hacen referencia a la distribución normal y a la homocedasticidad de los errores de predicción; la falta de homocedasticidad implicaría que los errores que cometiésemos para los distintos valores de X no serían de la misma magnitud; por ejemplo, a valores grandes de X le corresponderían valores grandes de error.
Capítulo 5. Concepto y evidencias de validez
183
correlación de Pearson. Es donde mejor podemos ver que las estimaciones en Y serán tanto más precisas cuanto mayor sea rXY. Nótese que el valor de la ordenada en el origen de las ecuaciones en puntuaciones diferenciales y típicas es cero, por lo tanto, ambas rectas cruzarán el origen de coordenadas. La pendiente de la recta de regresión en puntuaciones directas y diferenciales es la misma, por lo que ambas rectas serán paralelas; pero la pendiente en puntuaciones típicas es por lo general distinta, y por tanto esta recta no será paralela a las anteriores. La ecuación de regresión para puntuaciones típicas correspondiente a los datos del ejemplo, se muestra a continuación; nos indica que por cada desviación típica de aumento en ZX se produce un aumento de 0,532 desviaciones típicas en las puntuaciones típicas de calificación. Z Y' i = (0,532 ) Z X i
Hasta ahora se han realizado estimaciones puntuales en Y. Estadísticamente, resulta más apropiada una estimación por intervalos, realizada con cierta probabilidad, para lo cual aplicaremos la siguiente expresión:
Yi' ± Z1−α / 2 SY −Y '
[5.13]
Donde Z1 – α/2 es el valor de la distribución N(0, 1), que deja por debajo la probabilidad 1 – α/2, y SY – Y' es el error típico de estimación definido en la expresión [5.3].
Ejemplo 5.7. Intervalo de confianza para una puntuación pronosticada A una muestra de 5 estudiantes de Bachillerato se le aplica un test de habilidades comunicativas (X). A sus respectivos profesores se les pide que hagan una valoración (de 0 a 20 puntos) de la capacidad de relación interpersonal de sus alumnos. Estas valoraciones hacen la función de criterio (Y). Los resultados en el test y en el criterio se muestran en las columnas X e Y de la Tabla 5.6. Tabla 5.6. Puntuaciones en un test de habilidades comunicativas y un criterio (capacidad de relación interpersonal) en una muestra de 5 estudiantes Alumno
X
Y
Y´
Y − Y´
1 2 3 4 5
7 13 10 9 11
6 10 9 8 12
6,6 11,4 9 8,2 9,8
–0,6 –1,4 0 –0,2 2,2
Media
10
9
SX
2,236
2,236
184 Medición en Ciencias Sociales y de la Salud El coeficiente de validez del test es rXY = 0,8, lo que significa que el test de habilidades comunicativas explica un 64% de las diferencias en las valoraciones de los profesores sobre la capacidad de relación interpersonal de los estudiantes. Para realizar una estimación puntual de la puntuación en el criterio de un estudiante, aplicamos la ecuación de regresión [5.10]. Los estimadores de los pesos de la ecuación de regresión serían: b1 = rXY
SY 2,236 = 0,8 = 0,8 SX 2,236
b0 = Y − b1 X = 9 − 0,8(10) = 1 Y la ecuación de regresión6:
Yi' = b0 + b1 X i = 1 + 0,8 X i La Tabla 5.6 recoge en las dos últimas columnas los pronósticos y los errores de pronóstico cometidos para cada estudiante. Por ejemplo, al nº 5 le pronosticamos una puntuación en el criterio Y5' = 9,8 y cometemos un error de pronóstico de Y5 − Y5' = 12 − 9,8 = 2,2 puntos. Para realizar la estimación por intervalos para este mismo estudiante, con nivel de confianza del 95%, fijamos el valor Z1 – α/2 = 1,96 y calculamos el error típico de estimación: 2 S Y −Y ' = S Y 1 − rXY = 1,342
y el intervalo será:
Yi' ± Z1−α / 2 SY −Y ' = 9,8 ± (1,96)(1,342) = 9,8 ± 2,629 Diremos entonces que, con una confianza del 95 %, la puntuación de este estudiante en el criterio se encontrará comprendida entre 7,171 y 12,429. Como vemos, la amplitud del intervalo es amplia (algo no deseable) a pesar de que el coeficiente de validez era elevado.
Lo que ocurre en el ejemplo es ilustrativo de lo difícil que resulta realizar pronósticos precisos a partir de las puntuaciones en un único test. Cuando se desea predecir de la forma más precisa posible las puntuaciones en un criterio, es común utilizar las puntuaciones en varias varia-
6
Nótese que, en este ejemplo, el coeficiente de correlación de Pearson y b1 toman el mismo valor, ya que el test y el criterio tienen la misma varianza.
Capítulo 5. Concepto y evidencias de validez
185
bles predictoras X (p. ej., en diferentes tests)7. En este caso, los pronósticos se realizarán con la técnica estadística de Análisis de Regresión Múltiple, que proporciona los pesos (coeficientes de regresión parcial) de cada predictor según la importancia que tengan para la predicción. Así, la ecuación de regresión múltiple será:
Yi' = b0 + b1 X 1i + + bk X ki + + bK X Ki
[5.14]
Donde K es el número de variables predictoras. Un tratamiento más amplio del modelo de regresión lineal aplicado a las Ciencias Sociales puede encontrarse, entre otros, en Cohen, Cohen, West y Aiken (2003) y, en español, en los libros de Etxeberría (1999) y Pardo, Ruiz y San Martín (2009). En el capítulo 14 se comentan con más detalle los distintos aspectos relacionados con la regresión lineal múltiple. Si el criterio que hay que pronosticar fuese una variable discreta se pueden utilizar otras técnicas multivariadas, como el análisis discriminante y la regresión logística, tal como veremos también en ese capítulo. En algunos contextos aplicados es especialmente importante comprobar que la ecuación de regresión es la misma en diferentes submuestras (p. ej., de mujeres y hombres). Se trata de estudiar la validez predictiva diferencial (o evidencias externas de sesgo), tal como veremos en el capítulo 13.
Factores que afectan al coeficiente de validez La cuantía de la correlación entre el test y el criterio (y por tanto la precisión de los pronósticos) viene condicionada por varios factores, entre los cuales están: 1. La fiabilidad del test. 2. La fiabilidad del criterio. 3. La auténtica relación entre test y criterio. 4. Características de la muestra, como es su tamaño, representatividad y su variabilidad en el test y en el criterio. Además, es importante que los errores de medida en el test y en el criterio sean independientes. Es decir que el coeficiente de validez obtenido refleje la relación verdadera entre las dos variables, y no sea debida en parte a otras variables extrañas e irrelevantes, como puede ser un criterio contaminado. Esto puede suceder, por ejemplo, cuando la misma persona que administra el test (y conoce las puntuaciones obtenidas) valora subjetivamente a las personas en el criterio; su conocimiento de los resultados en el test puede sesgar sus valoraciones Y.
7
Por ejemplo, en los estudios sobre predicción del desempeño laboral se ha encontrado que la mejor combinación de predictores es la formada por un test de capacidad cognitiva general, una entrevista conductual estructurada y un test de personalidad que mida el factor de Responsabilidad (Salgado y Moscoso, 2008).
186 Medición en Ciencias Sociales y de la Salud Fiabilidad del test y del criterio El coeficiente de validez depende del nivel de precisión con que se miden las puntuaciones en el test y en el criterio. Una baja fiabilidad, ya sea en X ó en Y, hará que el coeficiente de validez obtenido subestime la relación entre las puntuaciones verdaderas en el test y en el criterio. Si el coeficiente de fiabilidad de un test es bajo, existe una parte importante de error en las puntuaciones X que, al ser aleatorio, no contribuirá a la correlación entre X e Y; en ese caso, el coeficiente de validez obtenido será sensiblemente menor que la correlación entre las puntuaciones verdaderas en ambos. Lo mismo se puede decir para niveles altos de error de medida en el criterio. Atenuación es el término que se usa para describir la reducción en la magnitud de la correlación entre dos medidas que está causada por su falta de fiabilidad. Spearman8 fue el primero en reconocer el valor de corregir por atenuación, al señalar que estamos interesados en determinar la verdadera relación entre los constructos que estudiamos, y no tanto la relación entre dos medidas empíricas con más o menos error. Su solución fue estimar la correlación que habría entre las puntuaciones en el test y en el criterio si ambos fueran perfectamente fiables. Bajo ciertos supuestos, puede comprobarse que el límite máximo al que puede llegar rXY es
rXX rYY . Es decir, que:
rxy ≤ rXX rYY
[5.15]
Donde rXX es el coeficiente de fiabilidad del test y rYY es el coeficiente de fiabilidad del criterio. La desigualdad anterior indica que el coeficiente de validez viene determinado en parte por el coeficiente de fiabilidad del test y del criterio. Veamos cómo se obtiene la relación expresada en la ecuación [5.15]. Una de las expresiones de la correlación de Pearson es:
rXY =
∑ ( X − X )(Y − Y )
[5.16]
NS X S Y
Si consideramos que los supuestos de la TCT se cumplen tanto en el test como en el criterio, pueden realizarse las sustituciones oportunas (recuerde que la media de los errores en el test y en el criterio es cero) para llegar a una expresión equivalente a [5.16]:
rXY =
8
∑ (V
X
+ E X − V X )(VY + EY − VY ) NS X SY
=
∑ (v
X
+ e X )(vY + eY ) NS X SY
Fan (2003) propone el AFC como una segunda manera de corregir por atenuación. En el AFC el error de medida de cada variable latente es explícitamente modelado. En ambos procedimientos se encuentran resultados altamente comparables para los mismos datos. Sin embargo, el AFC puede ser menos aplicable dadas las restricciones del modelo sobre los datos de los ítems (p. ej.: extrema asimetría y curtosis, distribuciones diferentes de los ítems, etc.).
Capítulo 5. Concepto y evidencias de validez
187
Si en la segunda expresión se calculan los productos término a término en el numerador, divididos entre N, se obtienen covarianzas entre las diversas variables. Aplicando los supuestos cuarto y quinto del modelo clásico, que asumen una relación nula entre puntuaciones verdaderas y errores (y entre errores en diferentes tests), se anulan las covarianzas entre V y E, de tal forma que el coeficiente de validez vendría expresado como:
rXY =
Cov (V X , VY )
[5.17]
S X SY
Otra manera de expresar la ecuación anterior es:
rXY =
rVX VY SVX SVY S X SY
= rVX VY rXX rYY
[5.18]
Dado que la correlación entre puntuaciones verdaderas en el test y puntuaciones verdaderas en el criterio es igual o inferior a 1, queda demostrada la desigualdad [5.15]. Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rXX = 0,85, mientras que una prueba de cultura general, considerada como criterio, manifiesta un rYY = 0,73. Según estos valores de los coeficientes de fiabilidad, el coeficiente de validez de este test respecto a este criterio no puede superar el valor de 0,79, que es la raíz cuadrada del producto entre los dos coeficientes de fiabilidad.
Ejemplo 5.8. Aplicación de la corrección por atenuación Supongamos que un investigador desea conocer la validez de las puntuaciones en un test de “Afectividad negativa”, entendida como la tendencia general a experimentar emociones negativas, para predecir las puntuaciones en una escala de “Satisfacción laboral”. En una muestra de empleados, la correlación entre el test y el criterio fue 0,40. Dado que ambas puntuaciones están afectadas por errores de medida, aplica la corrección por atenuación utilizando los coeficientes de fiabilidad del test (0,84) y del criterio (0,76). Para ello, se despeja la correlación entre puntuaciones verdaderas en la expresión [5.18].
rVX VY =
rXY rXX rYY
=
0,40 0,84 ⋅ 0,76
= 0,50
El nuevo coeficiente de validez, estimado como la correlación entre puntuaciones verdaderas (y por tanto después de corregir la atenuación), toma el valor de 0,50.
De lo expuesto hasta ahora se deduce además que, dado que el valor máximo de un coeficiente de fiabilidad es uno, el coeficiente de validez de un test es menor o igual que la raíz cua-
188 Medición en Ciencias Sociales y de la Salud drada del coeficiente de fiabilidad del test; también es menor o igual que la raíz cuadrada de la fiabilidad del criterio:
rXY ≤ rXX rYY ≤ rXX
[5.19]
rXY ≤ rXX rYY ≤ rYY
[5.20]
La ecuación general a partir de la cual se pueden estimar los cambios producidos en el coeficiente de validez cuando cambian los coeficientes de fiabilidad del test y del criterio (p. ej., porque se alargan con formas paralelas) es la siguiente:
rX 2Y2 =
rX1Y 1
[5.21]
rX1 X1 rY1Y1 rX 2 X 2 rY2Y2
Donde:
rX 2Y2 es el coeficiente de validez cuando se modifica la fiabilidad del test y la del criterio.
rX1Y1 es el coeficiente de validez del test y criterio iniciales. rX1 X1 es el coeficiente de fiabilidad del test inicial.
rX 2 X 2 es el coeficiente de fiabilidad del test modificado rY1Y1 es el coeficiente de fiabilidad del criterio inicial
rY2Y2 es el coeficiente de fiabilidad del criterio modificado La ecuación [5.21] se puede demostrar del modo siguiente. Según [5.18] los coeficientes de validez del test inicial y del test modificado serían, respectivamente:
rX1Y1 = rVX VY rX1 X1 rY1Y1 rX 2Y2 = rVX VY rX 2 X 2 rY2Y2 Si despejamos rVX VY en la primera expresión y sustituimos su valor en la segunda, tendremos que:
r X 1Y1 rX 2Y2 = rX X rY Y 1 1 1 1
rX 2 X 2 rY2Y2 =
rX1Y1 rX1 X1 rY1Y1 rX 2 X 2 rY2Y2
Capítulo 5. Concepto y evidencias de validez
189
Si sólo modificásemos la fiabilidad del test, rY1Y1 = rY2Y2 , con lo que el valor del coeficiente de validez del test modificado respecto al criterio inicial sería:
rX 2Y1 =
rX1Y1 rX 1 X 1
[5.22]
rX 2 X 2 De modo análogo, si sólo modificamos la fiabilidad del criterio, el valor del coeficiente de validez del test inicial respecto al criterio modificado sería:
rX1Y2 =
rX1Y1 rY1Y1
[5.23]
rY2Y2 Lo que se olvida a veces en los procesos de obtención de evidencias sobre la validez referida a un criterio es que el coeficiente de validez depende no sólo de la precisión de la medida que ofrece el test, sino también de la precisión con que medimos el criterio. Otro asunto importante es el tipo de coeficiente de fiabilidad que debe ser usado para realizar la corrección por atenuación: test-retest, formas paralelas o consistencia interna. Los valores de unos y otros pueden diferir para una misma aplicación del test (y también para estimar la fiabilidad de las puntuaciones en el criterio). Por otra parte, sabemos que los diferentes métodos capturan diferentes componentes del error. Si se pierde un componente del error que es importante para la situación o contexto estudiado, entonces la corrección por atenuación puede no representar la correlación entre puntuaciones verdaderas. Lo más aconsejable es elegir uno u otro coeficiente en función de los objetivos pretendidos en el estudio de validez referida al criterio. Por ejemplo, si el interés es conocer la capacidad de un test para predecir, un año más tarde, el logro académico de los estudiantes, entonces deberíamos emplear un coeficiente de fiablidad test-retest. Si, por el contrario, estamos interesados en incrementar el número de ítems de un test con el objetivo de mejorar su capacidad pronóstica, entonces las estimaciones basadas en la consistencia interna (p. ej., SBrXX) serán más apropiadas en la aplicación de la fórmula [5.22]. Schmidt y Hunter (1996) examinaron 26 casos concretos de investigación, mostrando cuál sería la corrección más apropiada en cada uno de ellos y cuáles las consecuencias de no hacerla o de realizar correcciones inapropiadas. Por otra parte, y atendiendo ahora a las relaciones entre la longitud de un test y su fiabilidad, es lógico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y, en su caso, del criterio) influya también en rXY, aunque de modo indirecto. Para estimar el efecto que un cambio en la longitud del test o del criterio tiene sobre el coeficiente de validez, es suficiente con estimar el coeficiente de fiabilidad del test o del criterio alargados (aplicando la fórmula de Spearman-Brown) e incorporar estos valores a la ecuación [5.21]. No obstante, la TCT proporciona expresiones que calculan directamente los cambios en validez derivados de un cambio en la longitud. Así, por ejemplo, la fórmula que permite esti-
190 Medición en Ciencias Sociales y de la Salud mar el coeficiente de validez de un test alargado n veces (compuesto por n formas paralelas) es:
R XY =
rXY
[5.24]
1 − rXX + rXX n
Donde: RXY es el coeficiente de validez del test alargado respecto al mismo criterio. rXY es el coeficiente de validez del test original. rXX es el coeficiente de fiabilidad del test original. n es el número de veces que se alarga el test original. La expresión [5.24] se demuestra como sigue. Sean rXY, rXX y rYY, respectivamente, los coeficientes de validez, de fiabilidad del test y de fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con lo cual aumentarán su coeficiente de fiabilidad (RXX) y su coeficiente de validez (RXY), mientras que en el criterio (que no se modifica) el coeficiente de fiabilidad es el mismo. Según las relaciones vistas con anterioridad, podemos establecer las siguientes igualdades, para el coeficiente de validez del test inicial y del alargado:
rXY = rV X VY rXX rYY R XY = rV X VY
R XX rYY
Dividiendo término a término y despejando el coeficiente de validez del test alargado, obtenemos: R XY =
rXY rXX R XX
rXY
= nrXX
rXX
(1 + (n − 1)rXX )
=
rXY 1 − rXX + rXX n
Ejemplo 5.9. Estimación del coeficiente de validez de un test alargado Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 ítems manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,51 y un coeficiente de validez de 0,42. Si se duplicase la longitud de la escala, es decir si se le añadiera una forma paralela de 30 ítems, el coeficiente de validez (respecto al mismo criterio) pasaría a valer:
Capítulo 5. Concepto y evidencias de validez
0,42
R XY =
1 − 0,51 + 0,51 2
191
= 0,48
Si de la fórmula [5.24] despejamos n, podemos estimar el número de veces que deberemos multiplicar la longitud del test para alcanzar un coeficiente de validez RXY deseado:
n=
1 − rXX
2 rXY
2 R XY
[5.25]
− rXX
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable incrementando la longitud del test. En el caso hipotético de un test infinitamente largo o, lo que es lo mismo, de un test con máxima precisión, en la siguiente fórmula ([5.26]), RXX valdría 1, y RXY se podría interpretar como el máximo coeficiente de validez obtenible como resultado de mejorar la fiabilidad del test todo lo posible.
R XY =
rXY rXX
=
rXY
R XX
rXX
=
rXY rXX
[5.26]
1
Ejemplo 5.10. Estimación del número de formas paralelas que hay que añadir para alcanzar cierto valor del coeficiente de validez Un determinado test de 10 ítems manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,4 y un coeficiente de validez de 0,35. Nos cuestionamos cuántos ítems paralelos necesitaría el test para conseguir un coeficiente de validez de 0,5. Aplicando [5.25]: n=
1 − 0,4 0,35 2 0,5 2
= 6,7
− 0,4
Podemos comprobar a partir de estos cálculos que el coeficiente de validez de 0,5 lo conseguiremos con un test de 67 ítems (6,7 formas paralelas de 10 ítems).
192 Medición en Ciencias Sociales y de la Salud Para conseguir un coeficiente de validez de 0,9, al aplicar la fórmula obtendríamos: n=
1 − 0,4 0,35 2 0,9 2
= −2,4
− 0,4
Por tanto, el coeficiente de validez de 0,9 es imposible de conseguir, por mucho que incrementemos la longitud del test inicial con formas paralelas, de ahí que hayamos obtenido un valor de n negativo. El máximo coeficiente de validez obtenible mejorando la fiabilidad del test (alargando su longitud) es 0,55:
R XY =
rXY rXX
=
0,35 0,4
= 0,55
El tamaño, la representatividad y la variabilidad de la muestra en el test y en el criterio Para la estimación del coeficiente de validez es importante que la muestra donde se obtiene sea representativa de la población y de tamaño suficiente. Especialmente importante es la variabilidad que manifiesta en X e Y. De forma parecida a las relaciones que existen entre la varianza del grupo en el test y el coeficiente de fiabilidad (capítulo 3), el coeficiente de validez de un test respecto a un criterio es tanto más elevado cuanto mayor es la varianza de la muestra en ambos. Por ejemplo, un test de aptitud para la venta tendrá un coeficiente de validez mayor en una muestra de la población general (donde habrá heterogeneidad respecto a la aptitud por ser vendedor) que en una muestra de vendedores experimentados (seguramente obtendrían todos puntuaciones elevadas, y por tanto sería un grupo más homogéneo).
Ejemplo 5.11. Reducción del coeficiente de validez a consecuencia de la reducción en la variabilidad de la muestra Tomamos como ejemplo los datos obtenidos por simulación de la muestra de 1.000 estudiantes, en la que se intentaba predecir el promedio de las calificaciones obtenidas en el primer curso del grado de Psicología (Y ) a partir de las puntuaciones en un hipotético test de admisión al centro (X ). En la Tabla 5.7 podemos observar las consecuencias que una reducción en la variabilidad de la muestra tendría para el coeficiente de validez. Si para calcular el coeficiente de validez dispusiésemos solamente de las puntuaciones en el criterio de los estudiantes que superaron el examen de admisión, que en nuestro ejemplo serían quienes obtuviesen 30 o más puntos en el test, el valor del coeficiente de validez sólo llegaría a 0,43. Nótese que al aplicar un punto de corte en el test, aprobar el examen, no sólo
Capítulo 5. Concepto y evidencias de validez
193
se reduce la variabilidad en el test, ya que también se reduce la variabilidad en el criterio; si la correlación entre test y criterio es elevada también se excluirán sujetos que tendrían puntuaciones bajas en Y. Tabla 5.7. Coeficientes de validez calculados para el total de la muestra y para el subgrupo de estudiantes que aprobarían el examen de admisión Tamaño de la muestra Total (N = 1.000) Estudiantes que aprobaron el examen (N= 520) *p < 0,05
SX
SY
rXY
4,886
0,973
0,532*
3,059
0,894
0,433*
La variable sobre la que se realiza la selección, en nuestro ejemplo el test, se denomina directa o explícitamente selectiva, y la variable cuya variabilidad se ve reducida indirectamente, en nuestro ejemplo el criterio, se denomina incidental o indirectamente selectiva. En la medida que el poder predictivo de un test respecto a un criterio depende de rXY, habrá que considerar la variabilidad del grupo donde se ha obtenido. En ocasiones, por ejemplo en contextos de selección, es inevitable calcular el coeficiente de validez en una muestra de variabilidad reducida, ya que sólo de los admitidos podrá conocerse su rendimiento en el criterio Y. Nos encontramos entonces con un problema de restricción del rango de variación, puesto que nuestro interés era conocer el coeficiente de validez para el grupo completo de aspirantes que se presenta al proceso de selección. Si calculamos el coeficiente de validez de la única forma posible, esto es, correlacionando las puntuaciones de las personas seleccionadas en el test y en el criterio, el coeficiente de validez que se obtenga no nos indicará la capacidad de las puntuaciones en el test para predecir el rendimiento de los aspirantes al puesto. Las fórmulas de Pearson-Lawley permiten corregir por restricción de rango en función de la información disponible (p. ej.: que no se conozcan las puntuaciones en el test para el grupo no seleccionado, que esto ocurra en el criterio o que se haya hecho la selección por una tercera variable). Cada escenario concreto requiere la aplicación de la fórmula adecuada. Una exposición completa puede encontrarse en Sackett y Yang (2000). Para aplicarlas hay que asumir que la recta de regresión es la misma en el grupo completo y en el reducido; también la homocedasticidad de los errores de pronóstico en ambos grupos. Es decir:
b1 = B1 ⇒ rXY
S sY = R XY Y SX sX
2 2 sY −Y ' = S Y −Y ' ⇒ sY 1 − rXY = S Y 1 − R XY
Donde las letras minúsculas se refieren al grupo en el que se conocen todos los datos (normalmente el grupo de rango reducido) y las letras mayúsculas al grupo donde falta alguna información (normalmente el grupo completo). Partiendo de los supuestos anterio-
194 Medición en Ciencias Sociales y de la Salud res, y conociendo la varianza de una de las variables en los dos grupos, se puede estimar el coeficiente de validez desconocido. Por ejemplo, para la situación más común, con dos variables, test (X) y criterio (Y), y realizándose una selección explícita sobre el test, el coeficiente de validez puede estimarse mediante la expresión [5.27]. Efectivamente, al despejar el valor SY en la igualdad de los coeficientes de regresión:
SY =
rXY sY S X R XY s X
Y si este valor se sustituye en la igualdad de los errores típicos de estimación: 2 sY 1 − rXY =
rXY sY S X R XY s X
2 1 − R XY
Elevando al cuadrado y simplificando, la igualdad queda como: 2 1 − R XY 2 R XY
=
(
2 s X2 1 − rXY
)
2 S X2 rXY
Finalmente, despejando RXY:
R XY =
S X rXY
[5.27]
2 2 ) s X2 S X2 rXY + (1 − rXY
Ejemplo 5.12. Cálculo del coeficiente de validez tras aplicar la corrección por restricción de rango, siendo el test la variable explícitamente selectiva Un test X se ha utilizado como prueba de selección para un determinado puesto de trabajo. La varianza de las puntuaciones obtenidas en el test en el grupo completo de aspirantes fue 12 y en el grupo de admitidos fue 6. En este último grupo su correlación con el criterio fue 0,72 y la varianza de las puntuaciones en el criterio 7. ¿Cuál estimamos que sería el coeficiente de validez del test en el grupo completo de solicitantes? Sustituyendo en la expresión [5.27]: R XY =
12 ⋅ 0,68 12 ⋅ 0,68 2 + (1 − 0,68 2 )6
= 0,79
Que es superior al que se obtuvo en el grupo de admitidos (0,72).
Capítulo 5. Concepto y evidencias de validez
195
En estas aplicaciones hay que ser cauto, ya que el supuesto de homocedasticidad de los errores de pronóstico suele ser falso, es decir, la varianza de dichos errores suele diferir para grupos con diferente nivel de rasgo. El coeficiente de validez corregido estará sobrestimado, si en el grupo seleccionado la varianza de los errores de pronóstico fuese menor. En la página web de Paul Barret (http://www.pbarret.net) se puede obtener un programa específico para calcular con comodidad, en las distintas situaciones posibles, las correcciones de los coeficientes de validez por restricción de rango. Este programa también ofrece la posibilidad de calcular el coeficiente de validez corregido por atenuación9.
Evidencias basadas en los procesos de respuesta a los ítems Un modo de obtener información sobre las inferencias que podemos realizar con las puntuaciones de un test es analizar los procesos de respuesta que los sujetos deben realizar para obtener dichas puntuaciones. Para ello, se requiere de un modelo explicativo (una teoría psicológica sustantiva) de dichos procesos de respuesta, que debería guiar el proceso de construcción del test, y que debería servir para predecir el diferente rendimiento en los ítems. Borsboom, Mellenbergh y van Heerden (2004) defienden que el análisis de las evidencias sobre la validez de las puntuaciones obtenidas en un test es un tema que atañe más al proceso de construcción del instrumento que a los estudios de covariación realizados a posteriori, tan tradicionalmente enfatizados para obtener evidencias sobre la estructura interna o sobre las relaciones con otras variables. Para ellos, al construir un test, debe tenerse una idea clara de cómo diferentes niveles en el atributo que se pretende medir deberían llevar a distintas puntuaciones empíricas; esto sólo puede hacerse partiendo de una teoría psicológica muy sólida sobre los procesos de respuesta a los ítems. Embretson y Gorin (2001) muestran un buen ejemplo de cómo se puede utilizar el análisis de los procesos de respuesta para obtener evidencias sobre la validez de las puntuaciones de un test diseñado para medir capacidad espacial. El análisis de los procesos permitió distinguir dos tipos de ítems: aquellos que para su resolución requerían rotación mental y los que podían resolverse sin necesidad de ésta, simplemente por un procesamiento perceptual general. Los segundos serían menos válidos para evaluar la capacidad espacial de las personas. Algunos autores (por ejemplo, Bejar, 2002) emplean la denominación de tests basados en modelos para referirse al diseño de instrumentos de evaluación guiados por una teoría psicológica sobre el procesamiento de respuestas. Embretson (2002) propone la expresión representación del constructo para referirse al conjunto de procesos, estrategias y estructuras de conocimiento que están implicados en la resolución de los ítems; esta autora señala que la investigación previa de los psicólogos cognitivos es muy relevante para conocer qué variaciones en los estímulos deben establecerse para conseguir que los ítems tengan diferente nivel de demanda cognitiva, y por tanto diferente dificultad. Para esta autora, el diseño de tests desde un enfoque cognitivo debería seguir el siguiente procedimiento, ejemplificado con el trabajo realizado para elaborar un test de razonamiento abstracto: 9
Johnson y Ree (1994) desarrollaron el programa RANGEJ que permite calcular la restricción de rango para el caso de múltiples variables predictoras.
196 Medición en Ciencias Sociales y de la Salud 1. Especificar los objetivos de la medición. Por ejemplo, la medición del razonamiento abstracto como componente esencial de la inteligencia fluida. Se trata de identificar el tipo de tareas y las características que deben manipularse para alterar la exigencia cognitiva que se plantean. Concretando, en el test de razonamiento abstracto deben establecerse ítems relativamente independientes de los conocimientos previos de las personas. Atendiendo a las experiencias con tests previos (por ejemplo, el Test de Raven) y a la investigación realizada sobre el procesamiento de este tipo de tareas, se eligió un formato de “completar matrices” como el ofrecido en la Figura 5.2. Figura 5.2. Ejemplo de formato basado en completar matrices
(
++
---
-
+
((
--
+++
2. Establecer un modelo de procesamiento, donde se indiquen tres cosas: en primer lugar, los procesos, estrategias y estructuras de conocimiento implicados; en segundo lugar, deben operacionalizarse (cuantificarse) las características de los ítems que influyen en su procesamiento; en tercer lugar, deben establecerse previsiones sobre la influencia de la manipulación de las características sobre las propiedades psicométricas de los ítems, por ejemplo sobre su dificultad. En el caso concreto del test de razonamiento abstracto, se siguió el Modelo de Procesamiento de Matrices de Carpenter, Just y Shell (1990), que básicamente establece un procesamiento serial como el siguiente: codificar las dos primeras figuras de la primera fila, determinar los elementos correspondientes, comparar los atributos de los elementos, inferir una regla inicial de relaciones, codificar la tercera figura, comparar sus elementos con los de las figuras iniciales, inferir si la regla inicial es correcta o debe proponerse otra, repetir el proceso con el resto de las filas y con las columnas. Respecto a las características de los ítems que influyen en su procesamiento, se establecieron diferentes niveles de dificultad previsible atendiendo a los contenidos de las figuras y a las reglas que gobiernan las relaciones entre ellas; por ejemplo, es más fácil resolver un ítem donde los símbolos internos son siempre los mismos (o simplemente no aparecen) que otro ítem que incluye símbolos diversos y de carácter más abstracto; será más complicado un ítem donde las figuras son muy parecidas (en el caso de que unas sean distorsiones ligeras de otras) que otro ítem con figuras
Capítulo 5. Concepto y evidencias de validez
197
claramente diferenciadas; también influyen las reglas que gobiernan las relaciones (por ejemplo, no sería fácil descubrir que el tercer elemento de una fila o columna se obtiene restando los anteriores); además, será más complicado resolver un ítem donde se establecen varias reglas de relaciones entre las figuras que en otro gobernado por una regla simple que exige menor carga memorística. Se realizaron varios estudios empíricos con el Test de Raven para comprobar cuáles de estas características incidían en la dificultad de los ítems. Lo importante en este punto del proceso es que se dispone ya de un modelo de procesamiento que concreta las variables que deben manipularse para generar ítems con diferente demanda cognitiva. 3. Generar ítems, de tal forma que las variaciones en su estructura representen variaciones en los procesos de respuesta. A partir de los resultados de los estudios realizados con el Test de Raven, comienza propiamente el diseño del nuevo test. Se establecieron las características físicas de las figuras que debían manipularse y el número de reglas aplicadas en las relaciones entre figuras. Con un programa informático se generaron todos los ítems posibles (150 en total) que combinaban las características establecidas y el número de reglas. 4. Evaluar empíricamente las previsiones del modelo sobre el rendimiento de los sujetos en los ítems, así como establecer los oportunos estudios de validez. Varios estudios empíricos mostraron la influencia que tenían las variables consideradas en la fase de elaboración de los ítems sobre su dificultad empírica. Por ejemplo, la cantidad de reglas incluidas, el grado de abstracción de las figuras y otras características perceptivas de los ítems explicaron un 79% de la varianza de los parámetros de dificultad de los ítems, estimados mediante el Modelo de Rasch, y un 77% de las latencias de respuesta o tiempo tardado en resolver los ítems. En cuanto a otras evidencias de validez, se comprobó que todos los ítems saturaban en un único factor y que también los ítems del Test de Raven saturaban en dicho factor. Otro ejemplo de evidencias sobre los procesos de respuesta lo describe Hornke (2002) en un test de rotación de figuras, donde se manipula la cantidad de elementos que se van a a procesar, si las figuras son bi o tridimensionales, el ángulo de la rotación y el número y tipo de rotaciones (de derecha a izquierda, de arriba abajo…). En el mismo capítulo, este autor describe un test de memoria visual en el que los ítems son planos de una ciudad donde aparecen determinados iconos para representar ciertos servicios públicos, manipulándose en cada caso la cantidad de iconos, su tamaño o su dispersión en el mapa. Vemos entonces que en este tipo de enfoque no sólo se miden las respuestas del sujeto a los ítems, sino que se consideran los pasos intermedios ejecutados para obtener dichas respuestas. Por otra parte, el conocimiento sobre los componentes requeridos para la respuesta correcta de los ítems no sólo es importante para la obtención de evidencias de validez; este modo de proceder permite una información diagnóstica mucho más completa, pues es posible conocer los componentes en los que los examinados tienen dominio y aquellos en los que presentan dificultades. Se han desarrollado modelos de TRI específicos para analizar la incidencia de los diversos procesos establecidos desde el marco teórico. Así, el Modelo Logístico Lineal de Rasgo Latente (LLTM, Fischer, 1973) fue el primer modelo componencial desarrollado y el que ha sido empleado con mayor frecuencia. En los modelos componenciales se entiende que para ejecutar cierta tarea es necesario desarrollar una serie de componentes o procesos (ya sea secuencial o concurrentemente). El modelo LLTM permite estimar, además
198 Medición en Ciencias Sociales y de la Salud de los niveles de rasgo de las personas y la dificultad de los ítems, la contribución de los diferentes componentes a dicha dificultad.
Ejemplo 5.13. Aplicación del modelo LLTM de Fisher a un test de aritmética Romero, Ponsoda y Ximénez (2008) analizaron un test de aritmética mediante el modelo LLTM. Este test ha sido diseñado para niños que acaban de aprender el concepto de suma y resta con números enteros. Contiene 32 ítems de opción múltiple con 4 alternativas de respuesta, y se pide la adición o sustracción entre dígitos enteros. Un ejemplo de ítem es: (−6) + (3) = a) 9 b)3 c)−3 d)−9. Los autores proponen 6 operaciones o componentes: O1: Adición entre números naturales (a+b ); O2: Sustracción entre números naturales (a−b ) cuando a>b ; O3: Identificación del componente mayor en valor absoluto y planteamiento de resta del menor al mayor; O4: Cambiar las posiciones de a y b; O5: Determinar el signo (positivo o negativo) del resultado; O6: Convertir la sustracción en adición y cambiar el signo al segundo dígito. A modo de ejemplo, el ítem ( − 6 ) +( 5 ) debería requerir aplicar primero O3: 6 − 5 , luego O2: 1 y finalmente O5: −1. Al estimar los parámetros del modelo, se obtuvo que 4 de los 6 pesos (componentes) resultaron significativos, por lo tanto estas operaciones contribuyen a la dificultad de los ítems. Por ejemplo, se encontró que la operación que contribuía en mayor medida a la dificultad de los ítems era O6; esto era de esperar, pues se refiere a un proceso doble que implica no sólo cambiar el operador resta por suma sino también cambiar el signo del segundo dígito; por ejemplo, ( − a) − ( − b ) = − a+b .
Modelos como el LLTM representan, además, la base psicométrica de la generación automática de ítems (GAI). Si conocemos las variables que intervienen en el procesamiento de los ítems, puede construirse todo el universo posible de ítems gobernado por dichas variables. La GAI consiste en la construcción de bancos de ítems mediante algoritmos; se establece un conjunto de reglas explícitas, susceptibles de programarse en un ordenador, que determinan cómo deben construirse los ítems y predecir la dificultad de cada uno a partir de los componentes involucrados; sería posible, por lo tanto, la aplicación de ítems sin previa calibración (ver, p. ej., Revuelta y Ponsoda, 1998b). En las últimas décadas se intenta estrechar la distancia entre los modelos cognitivos y los modelos psicométricos. Información más específica sobre los diferentes tests, los modelos en que se sustentan y los estudios realizados para obtener evidencias de validez pueden consultarse en Irvine y Kyllonen (2002).
Capítulo 5. Concepto y evidencias de validez
199
Evidencias basadas en las consecuencias de la aplicación del test Resulta cada vez más usual la aplicación de tests psicológicos y educativos en determinados marcos institucionales y organizacionales. Por ejemplo, se aplican tests de conocimientos o competencias escolares para evaluar el nivel alcanzado por los estudiantes en un determinado ciclo de enseñanza. Se emplean tests de diverso tipo en procesos de selección de personal con objeto de predecir el rendimiento laboral de los aspirantes. En contextos de evaluación de programas, los tests sirven como instrumentos de medida de los cambios producidos por la intervención social efectuada. En todos estos escenarios, la mera aplicación de tests puede tener consecuencias sociales diferentes al propósito fundamental que se pretende con la aplicación, lo que ha llevado a incorporar en la última edición de los Standards (AERA, APA, NCME, 1999) la necesidad de aportar evidencias sobre la denominada validez consecuencial, es decir, el análisis de las consecuencias intencionadas y no intencionadas que se derivan de la aplicación de tests en determinados contextos de evaluación. La revista Educational Measurement: Issues & Practice publicó dos números monográficos sobre el tema en 1997 y 1998. Gran parte de la sensibilidad actual a las consecuencias del uso de los tests tiene que ver con la legislación estadounidense No Child Left Behind, que ha llevado a la aplicación masiva de tests para la evaluación de conocimientos y destrezas de los escolares dentro de una política para favorecer la “rendición de cuentas” de los centros educativos y mejorar la enseñanza y el aprendizaje de los estudiantes. La utilización de tests con importantes consecuencias para los evaluados (high stakes testing) que se emplean, por ejemplo, para acreditaciones profesionales en Estados Unidos, también ha incidido en el interés por este problema. Las consecuencias que puede tener la aplicación de tests de conocimientos o destrezas en contextos de evaluación institucional, tal como se realiza por ejemplo en diversas comunidades autónomas españolas en niveles de Educación Primaria y Secundaria, son muy diversas. Pueden llevar a que determinados centros educativos adiestren específicamente a los estudiantes en los contenidos que se van a evaluar, produciéndose un “estrechamiento curricular” con objeto de que sus estudiantes rindan mejor en los tests y el colegio salga “mejor parado” en comparación con los centros del entorno (una consecuencia negativa denominada en inglés test pollution) o pueden servir para que los claustros de profesores analicen el modo de mejorar el proceso instruccional en las asignaturas donde sus estudiantes no manifiestan un buen rendimiento (una consecuencia positiva). Como los resultados de la evaluación son públicos, pueden influir en la elección del centro por parte de las familias para la educación de sus hijos. Algunos centros con elevada tasa de niños inmigrantes pueden aparentemente rendir peor que otros si no se asegura que los tests no manifiestan funcionamiento diferencial contra este tipo de minorías. El nivel previo de los estudiantes, determinado en parte por variables familiares y sociales, tampoco será independiente del rendimiento obtenido, con lo que los resultados no pueden atribuirse exclusivamente a la acción educativa. En algunos países, como Estados Unidos, parte de la subvención pública de los colegios depende del rendimiento conseguido por los estudiantes en tests de conocimientos escolares, estableciéndose sanciones a los centros cuyos estudiantes no alcancen determinadas competencias académicas. Además, incluso se proponen modificaciones en la política educativa, en el diseño curricular o en la retribución de los profesores, a partir de los resultados de las evaluaciones. Algunos estudios realizados
200 Medición en Ciencias Sociales y de la Salud en Estados Unidos revelan que muchos profesionales de la educación han perdido motivación laboral, que se sienten realmente presionados para alcanzar los estándares y que no perciben mejoras relevantes en el proceso de enseñanza-aprendizaje. Además, la falta de motivación de los estudiantes al responder a los tests (hartos de que todos los años se les pida algo sobre lo que no perciben consecuencias académicas) representa un importante problema que afecta a la validez de las puntuaciones obtenidas bajo este tipo de condiciones. En dos recientes trabajos (Padilla, Gómez, Hidalgo y Muñiz, 2006, 2007) se profundiza sobre este tema, revisando las diferentes posturas que mantienen los psicómetras, analizando las dificultades que conlleva el estudio de las consecuencias del uso de los tests y delimitando el tipo de consecuencias de las que debe informarse en el proceso de validación de las puntuaciones. Ha habido una fuerte polémica con autores a favor (p. ej., Cronbach, 1988; Messick, 1980) y en contra (p. ej., Boorsboom et al., 2004; Popham, 1997) de la consideración de estas evidencias. Para los primeros es fundamental saber si el test puede tener consecuencias sociales en contextos donde ciertos grupos resulten sistemáticamente desfavorecidos; para ellos, hay que recoger información no sólo sobre la interpretación de las puntuaciones, sino también sobre el uso justificado de las mismas. Los segundos consideran que no se está hablando de evidencias empíricas sobre las inferencias que pueden realizarse con las puntuaciones y, por tanto, creen que no deberían incluirse este tipo de evidencias en el proceso de validación. En los Standards se plantea la necesidad de analizar explícitamente las consecuencias del uso de los tests, diferenciando entre aquellas que tienen que ver con su validez y las que, aun siendo importantes, caen fuera de este ámbito. Si la evidencia empírica permite mantener las interpretaciones, la decisión final sobre el uso del test puede tener en cuenta otras consideraciones sociales o políticas que ya no formarían parte del proceso de validación. Dada la dificultad que entraña la comprobación de todo tipo de consecuencias sociales que pueden seguirse de determinadas aplicaciones, algunos autores recomiendan centrarse en las que pueden derivarse de una limitada representación del constructo o de la presencia de factores irrelevantes al constructo. En un reciente artículo, Nichols y Williams (2009) describen ambos tipos de consecuencias con dos casos concretos. En relación a la infra-representación del constructo, describen la preocupación que tienen algunas universidades norteamericanas porque, a raíz de aplicar un test para la admisión muy cargado en conocimientos científicos básicos, los candidatos se preparan muy específicamente en cursos sobre Ciencia y no en otro tipo de conocimientos y destrezas relevantes para ese tipo de estudios. En cuanto a la presencia de factores irrelevantes al constructo, se refieren a los sesgos de corrección de ensayos debidos a los diferentes grados de dureza establecidos por los correctores cuando se escriben a mano o cuando se escriben con el ordenador; parece que en estos últimos los correctores son más estrictos. ¿Qué procedimientos o técnicas podemos aplicar para aportar evidencias sobre las consecuencias de las aplicaciones de los tests? Resulta claro que es muy difícil anticipar todo tipo de consecuencias y aportar datos empíricos sobre las mismas. Sin embargo, algunas orientaciones, tomadas principalmente de la experiencia en la aplicación de tests de conocimientos y competencias académicas en contextos escolares, podrían ser: 1. En la construcción de un test podemos justificar y analizar la representación del constructo. Por ejemplo, los tests no pueden incluir contenidos muy limitados que impidan generalizar el rendimiento a los objetivos de aprendizaje planteados para el nivel edu-
Capítulo 5. Concepto y evidencias de validez
2.
3.
4.
5.
201
cativo y que permitan un mejor rendimiento a través de un entrenamiento específico en los tests. Puede ser útil comprobar si la estructura interna del test, aplicado en un contexto determinado, se mantiene en una nueva aplicación del mismo en otras condiciones. Por ejemplo, existe evidencia de que la estructura interna del Modelo de Cinco Factores de la Personalidad de ciertos tests no se mantiene cuando se aplican en procesos de selección de personal, donde los aspirantes han sido orientados a proporcionar una buena imagen en sus respuestas. Por otra parte, disponemos de procedimientos y técnicas para estudiar el sesgo y el impacto adverso, temas que se abordarán en este libro en el capítulo 13 y que representan algunas de las consecuencias indeseables relacionadas con la presencia de factores irrelevantes al constructo. Determinadas consecuencias pueden evaluarse mediante la aplicación de cuestionarios o entrevistas a las personas que pueden verse afectadas por la aplicación de los tests. Por ejemplo, en algunos países se pregunta a los profesores, directores, estudiantes y familiares sobre sus opiniones respecto a la utilidad y consecuencias de los procesos de evaluación educativa. Un excelente trabajo sobre las opiniones de los profesores respecto al impacto de la evaluación educativa que se realiza en Estados Unidos puede consultarse en la siguiente dirección: http://www.education.uiowa.edu/cea/ documents/ Consequential_Validity_NCME_2006.pdf Pueden realizarse también investigaciones empíricas para estudiar determinados efectos. Por ejemplo, diseños longitudinales donde se analicen los cambios producidos por los programas de evaluación educativa en el rendimiento de los estudiantes, en las prácticas educativas o en otro tipo de variables dependientes. También pueden estudiarse longitudinalmente los efectos del entrenamiento específico sobre tests similares a los que se aplican.
Nichols y Williams (2009) delimitan las responsabilidades de los profesionales que hacen los tests de los responsables de las aplicaciones. En general, los primeros deberían anticipar consecuencias inmediatas o persistentes, pero no son los responsables de aplicaciones inadecuadas o de los efectos a largo plazo.
Evolución histórica del concepto de validez Acabamos de desarrollar la concepción actual de validez y de mostrar distintos procedimientos utilizados para obtener evidencias sobre la validez de las puntuaciones pero, como señalábamos al principio del capítulo, el concepto de validez ha cambiado mucho a través del tiempo ¿Cómo hemos llegado al concepto actual de validez? ¿Qué cambios se han producido en su definición? ¿Por qué han tenido lugar? Intentaremos responder a estas cuestiones en los siguientes párrafos. Kane (2006a) proporciona una detallada exposición de esta evolución. Una primera época en la conceptualización de la validez se extiende desde 1920 hasta 1950 y podría resumirse como un modelo de validez referida a un criterio. Este período está dominado por una mentalidad práctica y operacionalista. Los tests servían para medir aquella variable observable con la que presentaban una alta relación. Lo importante era
202 Medición en Ciencias Sociales y de la Salud que el test tuviese la capacidad de predecir un criterio externo (Gulliksen, 1950). Este modelo es simple y eficaz si podemos disponer de un criterio plausible. Esto ocurre, por ejemplo, en muchos contextos aplicados donde el objetivo es predecir el rendimiento en un curso o un trabajo. Las medidas de la ejecución real en esas tareas se pueden usar como criterio. De hecho, ésta es todavía la aproximación a la validez preferida en este tipo de aplicaciones. Durante esta primera etapa también se buscaron argumentos sobre la validez de los tests mediante la revisión de sus contenidos por jueces expertos, con objeto de decidir si los elementos del test eran relevantes y representativos. El análisis del contenido era, y como hemos visto sigue siendo, frecuentemente aplicado en las medidas de rendimiento académico. Su subjetividad es su principal limitación, ya que la evaluación recae sobre la opinión de unos jueces. Además, algunos autores como Messick (1989) consideran que desempeña un limitado papel en la validación, ya que no proporciona evidencia directa sobre las inferencias que se pueden hacer a partir de las puntuaciones en el test. Por lo tanto, a principios de 1950 el estudio de la validez estaba basado en la capacidad para predecir un criterio y en el análisis del contenido del test. Pero ¿qué hacer en situaciones donde no es posible disponer de un buen criterio? ¿Cuál sería el criterio para medir la Inteligencia o la Creatividad? En los años cincuenta se produjo un cambio importante. La APA publicó en 1954 sus primeras normas sobre los tests (“Technical Recommendations for Psychological Tests and Diagnostic Techniques”), en las que se reconoce que la validación basada en un criterio no siempre es posible; en estas normas se plantea la necesidad de obtener evidencias para justificar las interpretaciones que hacían los psicólogos clínicos. Surge así, en el período comprendido entre 1955 y 1989, un nuevo modelo de validez basado en el concepto de constructo. Los constructos se definían como atributos no observables que se reflejaban en las respuestas a un test. Una contribución esencial en esta etapa es el artículo de Cronbach y Meehl (1955), probablemente el trabajo que más ha influido en nuestra concepción actual de la validez. Los autores afirmaban que aunque en un test se hubiese llevado a cabo una validación de contenido o referida a un criterio, era deseable, para la mayoría de los casos, la determinación del constructo medido. La validación de constructo suponía apoyarse en una red nomológica, es decir, en un sistema que representase las relaciones existentes entre los constructos objeto de estudio a partir de sus manifestaciones observables, y que permitiese formular hipótesis empíricamente contrastables. Desde esta nueva conceptualización se considera que la validación es un proceso mucho más complejo cuya efectividad depende de la disponibilidad de un modelo teórico previo, de una teoría bien definida. Por su parte, Campbell y Fiske (1959), ofrecieron un procedimiento empírico para la validación del constructo basado en el análisis de las matrices MRMM. La nueva conceptualización se recogió muy lentamente en las sucesivas ediciones de los Standards (versiones de 1966 y 1974). En ellos se consideraba que la validación del constructo era una de las posibles aproximaciones al estudio de la validez, cuando no existía un criterio aceptable. Además, se distinguían tres tipos de validez: validez referida a un criterio (englobaba la validez concurrente y predictiva), validez de contenido y validez de constructo. Se instauró así la denominada concepción trinitaria de la validez, todavía hoy presente en la mente de algunos profesionales. A finales de los años setenta había dos tendencias opuestas en el desarrollo de la teoría de la validez. Por un lado, el interés en aclarar la clase de evidencias necesarias para va-
Capítulo 5. Concepto y evidencias de validez
203
lidar particulares interpretaciones y usos de las puntuaciones en los tests. Por otro lado, la necesidad percibida de desarrollar un concepto unitario de validación. Los Standards de 1985 intentaron resolver esta tensión reconociendo la validez como un concepto unificado y reconociendo también que diferentes tipos de evidencia eran necesarias para diferentes tipos de interpretaciones. Se mantuvo la distinción entre validez de criterio, de contenido y de constructo. Eso sí, ya no se consideraban distintos tipos de validez, sino distintos tipos de evidencias que eran necesarias para diferentes tipos de interpretaciones. Sin embargo, los teóricos de la validez (p. ej., Cronbach o Messick) defendían una aproximación más unificada y expresaban su inquietud por la tendencia a emplear diferentes métodos de validación para diferentes usos de las puntuaciones: el modelo del criterio para validar decisiones de selección, el del contenido para validar tests de logro y el del constructo para proporcionar explicaciones teóricas. En la segunda mitad de los años ochenta se adoptó una concepción amplia de la validez de constructo, tratando de establecer un marco de trabajo unificado, que englobaba también las evidencias sobre el contenido y sobre el criterio. Desde esta perspectiva se insistía en la necesidad de disponer de teorías que propusiesen interpretaciones de las puntuaciones, así como justificarlas después de desarrollar auténticos programas de investigación (y no un único estudio empírico). Sin embargo, la nueva concepción no establecía guías; se convirtió en un “cajón de sastre” donde cabía casi cualquier tipo de evidencia. Ello puede explicarse, por un lado, por la carencia de teorías “fuertes” en Psicología. En ausencia de estas teorías, la validez de constructo tiende a ser muy abierta. Si todos los datos son relevantes para la validez ¿por dónde empezar? ¿cuánta evidencia es necesario acumular? Por otro lado, esta confusión vino alentada porque, en definitiva, los tres tipos de evidencia coincidían con la estructura trinitaria de los tipos de validez. En la edición más reciente de las normas sobre los tests (la de 1999), que recoge el concepto de validez actualmente dominante, se establecen algunas aclaraciones importantes: 1. Se enfatiza el carácter unitario de la validez y se rechazan las tres categorías tradicionales de validez. La validación es una evaluación unificada de la interpretación, no simplemente un conjunto de técnicas. 2. Se destaca la centralidad de la validez de constructo en el proceso de validación. Pero se adopta una óptica más general, para entender el constructo no ya exclusivamente como un atributo teórico sino como cualquier característica medida por un test. Se pretende una definición clara y detallada de las interpretaciones propuestas y también la consideración de las interpretaciones alternativas. 3. Se añaden dos nuevos tipos de evidencias: las basadas en el proceso de respuesta a los ítems de un test y en las consecuencias sociales del proceso de aplicación del test. Aunque ésta es la concepción dominante en la actualidad, recientemente, Borsboom y sus colaboradores (Borsboom, Mellenberg y van Heerden, 2004; Borsboom, 2006) la han sometido a fuertes críticas. Consideran que la teoría actual sobre la validez ha fallado, ya que nos ha dejado con la impresión de que cualquier asunto relacionado con los tests es relevante para el problema de la validez; esto impide plantear estudios de validación realmente eficaces. Según estos autores, la validez no es un concepto complejo, ni dependiente de redes de trabajo nomológicas, ni de consecuencias sociales. Para ellos, un test sería
204 Medición en Ciencias Sociales y de la Salud válido para medir un atributo si y sólo si: (1) el atributo existe y (2) variaciones en el atributo producen causalmente variaciones en los resultados de la medición. Esto significaría, por ejemplo, que las correlaciones entre las puntuaciones en el test y otras medidas no suponen más que una evidencia circunstancial de validez. Según esto, el problema de la validez no puede ser resuelto desde técnicas o modelos psicométricos que se aplican después de obtener las respuestas. Muy al contrario, el proceso de validación tiene que estar dirigido desde una teoría sustantiva y reflejarse desde el mismo diseño del test, y no después. Este marco teórico debería explicar lo que ocurre entre los niveles de atributo y las respuestas a los ítems, algo que resulta difícil porque las redes nomológicas de las teorías psicológicas normalmente resultan ambiguas. Esta concepción parece rompedora (al menos está suscitando mucho el debate), pero todavía es muy reciente para valorar su posible incidencia en los Standards o en la práctica real de los estudios de validación. De hecho, algunos autores, como Kane (2006b) o Sijtsma (2006), afirman sentirse cómodos en el marco teórico actual y consideran que guiarse desde una teoría sustantiva es excelente, pero que es lo que se viene haciendo desde hace mucho tiempo. Para estos autores, dado que las teorías sustantivas formales no existen, el proceso de construcción debe estar guiado por concepciones generales del atributo de interés. Un modelo teórico puede ser causal, y en este sentido puede predecir diferentes puntuaciones para diferentes niveles de atributo, sin que necesariamente sea formal.
6
Análisis Factorial Exploratorio Introducción
El Análisis Factorial (AF) es una técnica estadística multivariante que sirve para estudiar las dimensiones que subyacen a las relaciones entre varias variables. El origen de la técnica se remonta a principios del siglo XX, cuando el psicólogo británico Charles Spearman estudió el patrón de correlaciones entre distintas medidas de rendimiento. Hipotetizó que si las tareas correlacionaban era porque requerían el uso de una misma capacidad para ser resueltas; además, el hecho de que las correlaciones variaran en tamaño se explicaba reconociendo que las tareas no demandaban esa capacidad en el mismo grado. Justamente, mediante el AF se podía cuantificar cuál era el grado de correlación de cada tarea con ese factor común al que denominó “Inteligencia General”. A las ideas de Spearman se sumaron posteriormente las aportaciones de otros muchos investigadores. En 1947, Thurstone publica su libro Multiple Factor Analysis, que extendía el trabajo de Spearman y aportaba una de las herramientas hasta ahora fundamentales en la validación de tests. Aunque los primeros desarrollos del AF se produjeron en el estudio de la inteligencia, la técnica puede ser aplicada al estudio de la dimensionalidad en cualquier dominio de contenido. Suelen distinguirse dos tipos de Análisis Factorial: Análisis Factorial Exploratorio (AFE) y Análisis Factorial Confirmatorio (AFC). La mayor parte de las ecuaciones y conceptos básicos (factor, saturación, comunalidad, residuo, etc.) son comunes a ambas técnicas y se introducen en este capítulo, que se centra en el AFE. En el Capítulo 11 se explican las diferencias entre ambas técnicas y se desarrolla la explicación del AFC. Puede encontrarse información detallada sobre el AFE en numerosas fuentes. Algunos clásicos son los libros de Gorsuch (1983), Hartman (1960), Lawley y Maxwell (1971) o Mulaik (1972). Manuales breves y didácticos son los de Kim y Mueller (1978; 1983) o los más recientes de Kline (2000) y Thompson (2004). Un excelente libro, aunque técnico, es el de Tucker y MacCallum (1993) accesible on line. Una visión actualizada, y también técnica, puede encontrarse en el libro Contemporary Psychometrics editado por MaydeuOlivares y McArdle (2005). En español pueden consultarse el clásico de Yela (1997), los
206 Medición en Ciencias Sociales y de la Salud libros de Ferrando (1994) y García Jiménez, Gil Flores y Rodríguez Gómez (2000) y los correspondientes capítulos en Martínez-Arias (1995; Martínez-Arias et al., 2006) y Muñiz (1996). También en español, el artículo de Ferrando y Anguiano (2010) ilustra adecuadamente las decisiones que deben tomarse al aplicar esta técnica.
Visión general del AFE Normalmente se toma como punto de partida del análisis la matriz R de correlaciones entre las J variables (p. ej., ítems) que interesa analizar y se obtiene como resultado una matriz F de tamaño J × M, denominada matriz factorial rotada, que contiene las relaciones cuantitativas entre las J variables y los M factores extraídos o dimensiones subyacentes; estos coeficientes factoriales, denominados en ocasiones pesos o saturaciones, oscilan generalmente entre –1 y 1.
Ejemplo 6.1. Ejemplo de análisis factorial exploratorio (datos ficticios) Al aplicar un test de 7 ítems a una muestra se obtiene la matriz de correlaciones entre ítems que aparece en la Tabla 6.1 (izquierda). Puesto que todos los ítems correlacionan entre sí en el mismo grado, se inferiría que las personas tienden a ser consistentes en sus respuestas a esos ítems. Diríamos entonces que los ítems miden el mismo factor. Tabla 6.1. Matriz R de correlaciones entre ítems y matriz F de pesos factoriales (última columna) Ít. 1 Ít. 2 Ít. 3 Ít. 4 Ít. 5 Ít. 6 Ít. 7
Ít. 1
Ít. 2
1 0,7 0,7 0,7 0,7 0,7 0,7
1 0,7 0,7 0,7 0,7 0,7
Ít. 3
1 0,7 0,7 0,7 0,7
Ít. 4
1 0,7 0,7 0,7
Ít. 5
1 0,7 0,7
Ít. 6
1 0,7
Factor 1
Ít. 7
1
Ítem 1 Ítem 2 Ítem 3 Ítem 4 Ítem 5 Ítem 6 Ítem 7
0,84 0,84 0,84 0,84 0,84 0,84 0,84
Al realizar el AFE obtendríamos un factor en el que saturan todos los ítems (Tabla 6.1, derecha). En este caso, M, el número de factores, es 1. Los valores de la matriz de pesos factoriales se aproximan a 1 (0,84); esto quiere decir que las respuestas a los ítems se relacionan estrechamente con ese factor.
Posteriormente, el investigador se enfrenta con la tarea de dar significado a cada dimensión; para ello, debe fijarse en las variables que saturan de forma elevada en cada dimensión e inferir el nexo de unión entre esas variables.
Capítulo 6. Análisis Factorial Exploratorio
207
La idea básica, por tanto, del AFE es reproducir las correlaciones entre las variables estudiadas acudiendo a un conjunto menor de dimensiones más generales. Generalmente, se espera que los M factores expliquen una importante proporción de varianza de las variables, de forma que puedan ser utilizados para representar a esas variables.
Ejemplo 6.2. Ejemplo de análisis factorial exploratorio (datos reales) Un psicólogo ha elaborado una prueba de 7 ítems para evaluar Cordialidad en población adolescente (564 chicos y chicas de entre 11 y 14 años). Los ítems, que se responden en una escala de cinco categorías ordenadas (desde 1: “muy en desacuerdo” hasta 5: “muy de acuerdo”), son los siguientes: 1. Me comporto de manera honesta y correcta con los demás. 2. Trato a mis compañeros afectuosamente. 3. Trato a las personas con educación. 4. Confío en los demás. 5. Pienso que otras personas son buenas y honradas. 6. Dejo que los demás usen mis cosas. 7. Si un compañero tiene dificultades le ayudo. La matriz de correlaciones entre los 7 ítems se muestra en la Tabla 6.2 (izquierda). Tabla 6.2. Matriz R de correlaciones (izquierda) y matriz F de pesos factoriales1 Ít. 1 Ít, 1 Ít. 2 Ít. 3 Ít. 4 Ít. 5 Ít. 6 Ít. 7
1 0,328 0,332 0,188 0,152 0,174 0,223
Ít. 2 1 0,415 0,231 0,170 0,277 0,348
Ít. 3
1 0,065 0,089 0,126 0,175
Ít. 4
1 0,512 0,316 0,258
Ít. 5
1 0,217 0,236
Ít. 6
1 0,257
Ít. 7
1
Ít. 1 Ít. 2 Ít. 3 Ít. 4 Ít. 5 Ít. 6 Ít. 7
Factor 1
Factor 2
0,060 0,036 –0,139 0,842 0,623 0,306 0,217
0,471 0,706 0,635 –0,055 –0,013 0,226 0,351
La correlación entre factores rF1F2 = 0,400
1
En este caso no está tan claro que podamos inferir que hay una única variable latente o factor. Al realizar el AFE obtendríamos que hay dos factores fundamentales que explican las relaciones entre los 7 ítems (Tabla 6.2, derecha). En el Factor 2 obtienen saturaciones altas los ítems 1, 2 y 3, mientras que el ítem 7 tiene un peso medio-bajo (en torno a 0,3). El hecho de que las saturaciones sean positivas significa que las personas con puntuación alta en el Factor 2 tienden a puntuar alto en esos ítems; es decir, dicen tratar bien a los demás. Por tanto, el Factor 2 puede denominarse “Trato adecuado a los demás”. En el Factor 1 obtienen saturaciones elevadas los ítems 4 y 5, mientras que el ítem 6 tiene un peso medio-bajo (en torno a 0,3) y el resto de saturaciones son cercanas a cero. Este Factor 1 podría etiquetarse como “Confianza en los demás”. En el ejemplo, la correlación en-
208 Medición en Ciencias Sociales y de la Salud tre factores es 0,4, lo que indica que las personas que tienden a dar un “Trato adecuado a los demás” también tienden a “Confiar en los demás”.
En definitiva, el AFE es útil para diversos propósitos: 1. Obtener evidencia sobre la validez de las puntuaciones de los tests, en al menos dos sentidos: − Si analizamos las correlaciones entre los ítems del test, el AFE (de ítems) nos proporciona evidencia sobre la estructura interna del test; es decir, sobre cuál es el número de dimensiones o factores que se miden, cuál es el significado de cada una y qué proporción de la variabilidad en las respuestas observadas explica. El AFE de ítems aporta una evidencia fundamental, pues permite justificar el modo de puntuar en el test (p. ej., si los ítems miden rasgos distintos no tiene sentido obtener una única puntuación). − Por otro lado, podemos analizar factorialmente las correlaciones entre las puntuaciones en nuestro test y las puntuaciones en otros tests. En ese caso, el AFE (de tests) aporta evidencia sobre las relaciones de un test con otras variables. El AFE de tests puede ayudar a descubrir qué aspectos no están representados en nuestro constructo (p. ej., si nuestra prueba no correlaciona con otras pruebas con las que debería correlacionar) o qué proporción de varianza “irrelevante” incluye nuestro test (p. ej., si nuestra prueba correlaciona con pruebas con las que no debiera hacerlo). 2. Ayudar a desarrollar teorías. Históricamente, el análisis factorial ha sido una técnica útil para el desarrollo de teorías empíricamente guiadas. Tanto es así que algunas teorías se conocen como teorías factoriales de la inteligencia o de la personalidad. Mediante un análisis racional exhaustivo se definen las tareas que conforman un dominio, se diseñan los instrumentos de medida y se aplican a una muestra, para posteriormente observar las relaciones entre las distintas puntuaciones, los factores comunes resultantes, etc. 3. Finalmente, el análisis factorial nos permite reducir las puntuaciones en los ítems o variables a un conjunto más reducido de puntuaciones estimadas o puntuaciones factoriales. De esta forma, se pueden describir los resultados a partir de un conjunto reducido de variables, las dimensiones, que sintetizan la información. Por ejemplo, al decir que alguien puntúa alto en el factor “Confianza en los demás” estamos resumiendo sus respuestas a los distintos ítems que pesan en ese factor. En las siguientes secciones se describe más detalladamente cómo se obtiene e interpreta la estructura factorial que subyace a las correlaciones entre variables. En este capítulo, nos centraremos en el AFE de ítems. Por tanto, las variables X1, X2, etc., se refieren a las puntuaciones en los ítems.
209
Capítulo 6. Análisis Factorial Exploratorio
La ecuación fundamental del modelo factorial En el modelo de análisis factorial se establece que la respuesta observada de una persona en cada variable j (Xj) depende linealmente de sus puntuaciones en variables no observables o factores. Estas variables latentes pueden ser: 1) factores comunes (F1, …, Fm,…, FM), que predicen las respuestas en más de una variable observada; 2) factores únicos (E1, …, Ej,…, EJ), que son específicos de cada variable. Los factores comunes son los que explican las correlaciones entre las variables (p. ej., si dos ítems dependen del mismo factor estarán correlacionados) y son los que se muestran en la matriz de pesos factoriales. Cada factor único refleja la parte específica de la variable, que no tiene que ver con los factores comunes; incluye además el efecto debido al error de medida (las variaciones debidas a la falta de fiabilidad de las medidas) o al error de muestreo (debido a que el investigador trabaja con la muestra y no con la población). La forma general del modelo factorial es:
Xj =
M
∑λ
jm Fm
+ Ej
[6.1]
m =1
donde M indica el número de factores comunes y λjm es el peso o saturación de la variable j en el factor m. Indica la relación entre la variable y el factor y oscila generalmente entre –1 (relación inversa) y 1 (relación directa), indicando el 0 la ausencia de relación. Las variables Xj y Fm están expresadas en puntuaciones típicas. Las variables Ej no están estandarizadas, pero se asume que tienen media 0 y varianza σ 2Ej. Se asume que los factores comunes correlacionan cero con los factores únicos ( rFm E j = 0, para cualquier m y j).
Ejemplo 6.3. Ecuaciones del modelo factorial Las ecuaciones para los ítems 1 y 5 del ejemplo de la Tabla 6.2 se dan en la Tabla 6.3. Tabla 6.3. Ecuaciones para dos ítems según el AFE Ecuaciones: Enunciado del ítem
Variable observada
Efecto debido a los factores comunes (valor en X predicho a partir del modelo)
Efecto debido a un factor específico o al error de medida
“Me comporto de manera honesta y correcta con los demás” “Pienso que otras personas son buenas y honradas”
X1 =
0,060 F1 + 0,471F2
+ E1
X5 =
0,623F1 − 0,013F2
+ E5
Según las ecuaciones, cuanto mayor sea la puntuación en el Factor 2 (“Trato adecuado a los demás”), mayor será la tendencia a estar de acuerdo con el contenido del ítem 1 (“Me comporto de manera honesta y correcta con los demás”). Sin embargo, las puntuaciones
210 Medición en Ciencias Sociales y de la Salud en el Factor 1 (“Confianza en los demás”) no se relacionan con la respuesta a ese ítem (λ12 = 0,060), lo que indica que comportarse de forma honesta no es un indicador de la confianza en los demás. Para el ítem 5 (“Pienso que otras personas son buenas y honradas”) aparece el patrón inverso.
Conceptos básicos del modelo Comunalidades y unicidades A partir del modelo de la ecuación [6.1], y teniendo en cuenta las propiedades de las combinaciones lineales de variables, la varianza de las variables observadas puede expresarse como:
σ X2 j =
M
∑
m =1
λ2jmσ F2m +
M
M
∑ ∑λ m =1 m′=1 m′≠ m
jm λ jm′σ Fm Fm′
+ σ E2 j
[6.2]
donde σ Fm Fm′ es la covarianza entre los factores Fm y Fm′ . Al trabajar con las variables
en puntuaciones típicas (σ 2Xj = 1, para todo j; σ 2Fm = 1, para todo m) la ecuación se simplifica a la expresión que aparece en la Tabla 6.4, donde ρ Fm Fm′ es la correlación entre los factores Fm y Fm′ . Tabla 6.4. Descomposición de la varianza de una variable observada Varianza de la variable observada
Parte de la varianza debida a los factores comunes M
σ X2 j
=1=
∑
m =1
λ2jm +
M
M
∑ ∑λ m =1 m′=1 m′≠ m
jm λ jm ' ρ Fm Fm '
Unicidad o varianza específica/error
+ σ E2 j
Así, la varianza de la variable se descompone en dos fuentes de varianza independientes, una parte que depende de los factores comunes y otra parte que depende del factor específico o del error de medida. Podemos obtener la proporción de la varianza que se debe al efecto de cada parte: 1. La varianza debida a los factores comunes o comunalidad: se representa por el símbolo hj2 e indica la proporción de varianza de la variable j explicada por los factores comu-
Capítulo 6. Análisis Factorial Exploratorio
211
nes. Una comunalidad baja (p. ej., 0,09) indicaría que la variable no se relaciona con el resto de las variables en el análisis. La comunalidad se obtiene como: M
∑
λ2jm +
m =1
h 2j =
M
M
∑ ∑λ m =1 m '=1 m '≠ m
jm λ jm′ ρ Fm Fm′
=
σ X2 j
M
∑
m =1
λ2jm +
M
M
∑ ∑λ m =1 m '=1 m′≠ m
jm λ jm′ ρ Fm Fm′
[6.3]
En la ecuación [6.3] se manifiesta que la proporción de varianza que explican los factores depende del peso factorial de la variable en cada factor y de las correlaciones entre los factores en los que pesa. Si los factores son independientes ( ρ Fm Fm′ = 0, para todo
m y m′ ), la ecuación para la comunalidad se simplifica a:
h 2j =
M
∑λ
2 jm
[6.4]
m =1
2. La varianza específica, o de error, se denomina unicidad: se simboliza mediante Ψj e indica la proporción de varianza de la variable j que no depende de los factores comunes. La unicidad se obtiene como:
ψj =
σ E2 j σ X2 j
= 1 − h 2j
[6.5]
Por tanto, si las puntuaciones en las variables (p. ej., ítems) están tipificadas, podemos escribir:
σ X2 j = 1 = h 2j + ψ
[6.6]
j
Ejemplo 6.4. Comunalidades y unicidades Para los datos de la Tabla 6.2, las comunalidades son h12 = 0,248, h22 = 0,519, h32 = 0,351, h42 = 0,675, h52 = 0,382, h62 = 0,200, h72 = 0,232. La comunalidad del ítem 1 puede obtenerse como:
h12 =
M
∑
m =1
(
λ 2jm +
M
M
∑ ∑λ m =1 m′ =1 m′ ≠ m
)
jm λ jm′ ρ Fm Fm ′
=
= 0,060 2 + 0,4712 + (2(0,060)(0,471)0,400 ) = 0,248
212 Medición en Ciencias Sociales y de la Salud Las unicidades son Ψ1 = 0,752, Ψ 2 = 0,481, Ψ 3 = 0,649, Ψ 4 = 0,325, Ψ 5 = 0,618, Ψ 6 = 0,800 y Ψ 7 = 0,768. La unicidad del ítem 1 puede obtenerse como:
ψ 1 = 1 − h12 = 1 − 0,248 = 0,752 Por tanto, el 24,8% de la varianza del ítem 1 es explicado por los factores comunes (h12 = 0,248), mientras que el 75,2% se debe a factores específicos o de error.
Proporción de varianza explicada por los factores comunes Igual que puede obtenerse la proporción de varianza de una variable explicada por los factores comunes (comunalidad) puede obtenerse la proporción de la varianza de todas las variables (i. e., varianza total) que es explicada por los factores comunes; en efecto, la varianza total (VT) se define como la suma de las varianzas de todas las variables: VT ≡
J
∑ j =1
σ X2 j =
J
∑
(h 2j + Ψ j ) =
j =1
J
∑
h 2j +
j =1
J
∑Ψ
j
[6.7]
j =1
Además, si las puntuaciones en los ítems están tipificadas, VT = J. La parte de la varianza total que es debida a los factores comunes es:
VC =
J
∑h
2 j
[6.8]
j =1
La proporción de varianza total explicada entre todos los factores comunes sería:
PVC ≡
VC = VT
J
∑
J
∑
h 2j
j =1
j =1
σ X2 j =
J
∑h
2 j
J
[6.9]
j =1
Cuanto más se acerque el valor de la ecuación [6.9] a 1, mayor poder explicativo tendrán los factores comunes. Si los factores son independientes ( ρ Fm Fm′ = 0, para todo m y m′ ),
la fórmula de la comunalidad se simplifica (ver ecuación [6.4]) y la proporción de varianza explicada por todos los factores se puede descomponer para obtener la proporción de varianza explicada por cada factor por separado (ver Tabla 6.5). Por tanto, cuando los factores son independientes, la proporción de varianza total explicada por el factor m, puede calcularse como:
PVC Fm ≡
J
∑λ j =1
2 jm
J
[6.10]
Capítulo 6. Análisis Factorial Exploratorio
213
Tabla 6.5. Proporción de varianza explicada por cada factor común independiente Prop. varianza total explicada por los factores comunes PVC J
∑
J
Prop. varianza total explicada por el factor m
Prop. varianza total explicada por el factor M
PVCF1
PVCFm
PVCFM
J
∑
h 2j
j =1
Prop. varianza total explicada por el primer factor
λ2j1
j =1
=
J
J
+
…
∑ +
J
λ2jm
j =1
J
+
…
∑λ +
2 jM
j =1
J
El valor de PVCFm sirve para determinar la importancia del factor. Los diferentes factores (dimensiones) extraídos no tienen la misma importancia. Cada uno explica una determinada cantidad de la varianza total de las variables, que se expresa porcentualmente, y que indica la importancia de esa dimensión para dar cuenta de la covariación entre las variables. Si un factor explica un porcentaje elevado de la varianza total, eso es síntoma de que las saturaciones de las variables en dicho factor son altas (y/o que pesan muchas variables en ese factor), lo que significa que es una dimensión importante a la hora de describir las relaciones entre las variables originales.
Ejemplo 6.5. Porcentaje de la varianza total explicada por los factores comunes Para los datos de la Tabla 6.2, puesto que los factores están correlacionados, no se puede calcular qué porcentaje de varianza explica cada uno. Sin embargo, puede calcularse la proporción de varianza total que es explicada por todos los factores comunes en su conjunto: J
∑h PVC =
j =1
J
2 j
=
0,248 + 0,519 + ... + 0,200 + 0,232 = 0,372 7
Por tanto, el porcentaje de varianza explicada por el modelo de dos factores es del 37% aproximadamente. Esto quiere decir que el 63% de la varianza total no es varianza común.
Matriz de correlaciones reproducidas y residuales Cualquier modelo es una aproximación a los datos observados. En el AFE se pretende predecir la matriz de correlaciones observada, R, a partir del modelo. Así, debemos distinguir entre las correlaciones observadas (r12, r13, r14,…) y las correlaciones que predice
214 Medición en Ciencias Sociales y de la Salud el modelo factorial (r*12, r*13, r*14,…). Puesto que las variables Xj y Fm están expresadas en puntuaciones típicas, si el modelo factorial fuera cierto, la correlación esperada entre dos variables X1 y X2 sería1: N
rX*1X 2
=
r12*
=
∑X
M M λ1m Fim + Ei1 λ2 m Fim + Ei 2 i =1 m =1 m=1 = N N
i1 X i 2
i =1
N
∑∑
∑
y asumiendo que los errores no correlacionan entre sí ni con los factores, obtenemos que la correlación esperada según el modelo sería igual a:
r12* =
M
∑
m =1
λ1m λ 2 m +
M
M
∑ ∑λ m =1 m′=1 m′≠ m
1m λ 2 m′ ρ Fm Fm′
[6.11]
A estas correlaciones, las que deberían producirse si el modelo fuera cierto, se las llama correlaciones reproducidas. El valor r* entre dos variables será elevado si pesan alto en los mismos factores o en factores distintos pero altamente correlacionados. Cuando los factores no están correlacionados, la correlación reproducida entre variables depende exclusivamente de si pesan alto en los mismos factores (i. e., de si miden lo mismo), ya que, en ese caso, la ecuación [6.11] se simplifica a:
r12* =
M
∑λ m =1
1m λ 2 m
[6.12]
La diferencia entre la correlación observada en la muestra entre dos variables y la correlación reproducida entre esas dos mismas variables se llama residuo:
res jj ' = r jj ' − r jj* '
[6.13]
Ejemplo 6.6. Correlaciones reproducidas y residuales Para los datos de la Tabla 6.2, la correlación reproducida entre los ítems 1 y 2 sería:
1
Recuerde que la correlación entre dos variables ZX y ZY en puntuaciones típicas es: rZ
X ZY
=
N
∑Z i =1
X i ZYi
N
215
Capítulo 6. Análisis Factorial Exploratorio
r12* = (0,06)(0,036) + (0,471)(0,706) + ((0,06)(0,706)(0,400) + (0,471)(0,036)(0,400) ) = = 0,358 Puede observarse que la correlación entre estos dos ítems se debe esencialmente a que pesan en el Factor 2. Si calculáramos las correlaciones reproducidas para cualquiera de los ítems, se obtendría la matriz mostrada en la Tabla 6.6. Tabla 6.6. Correlaciones reproducidas entre los ítems del test de Cordialidad X1 X1
X2
X3
X4
X5
X6
X7
0,358
0,279 0,413
0,182 0,228
0,148 0,188
0,188 0,260
0,228 0,322
0,065
0,064
0,166
0,228
0,507
0,315
0,277
0,242
0,217
X2
0,358
X3
0,279
0,413
X4
0,182
0,228
0,065
X5
0,148
0,188
0,064
0,507
X6
0,188 0,228
0,260 0,322
0,166 0,228
0,315 0,277
X7
0,242 0,217
0,208 0,208
Tabla 6.7. Correlaciones observadas entre los ítems del test de Cordialidad X1
X2
X3
X4
X5
X6
X7
X2
1,000 0,328
0,328 1,000
0,332 0,415
0,188 0,231
0,152 0,170
0,174 0,277
0,223 0,348
X3
0,332
0,415
1,000
0,065
0,089
0,126
0,175
X4
0,188
0,231
0,065
1,000
0,512
0,316
0,258
X5
0,152
0,170
0,089
0,512
1,000
0,217
0,236
X6
0,174 0,223
0,277 0,348
0,126 0,175
0,316 0,258
0,217 0,236
1,000 0,257
0,257 1,000
X1
X7
Tabla 6.8. Correlaciones residuales entre los 7 ítems X1 X1
X2
X3
X4
X5
X6
X7
–0,030
0,053 0,002
0,006 0,003
0,004 –0,019
–0,014 0,017
–0,005 0,026
0,000
0,025
–0,040
–0,053
0,001
–0,019
–0,026
0,019
X2
–0,030
X3
0,053
X4
0,006
0,003
0,000
X5
0,004
–0,019
0,025
0,004
X6
–0,014 –0,005
0,017 0,026
–0,040 –0,053
0,001 –0,019
X7
0,002
0,004 –0,026 0,019
0,048 0,048
216 Medición en Ciencias Sociales y de la Salud Las correlaciones reproducidas se parecen a las correlaciones observadas en nuestra muestra (Tabla 6.7), pero no son iguales. Los residuos se muestran en la Tabla 6.8. Por ejemplo, el residuo para la correlación entre los ítems 1 y 2 es –0,030. Ésta es la diferencia entre la correlación observada (0,328) y la correlación reproducida (0,358). En la Tabla 6.8 puede observarse que, con el modelo de dos factores, las diferencias entre las correlaciones reproducidas y las correlaciones observadas son muy pequeñas. Por tanto, nuestro modelo de 2 factores muestra un buen ajuste a estos datos.
Pesos de configuración y pesos de estructura Otra distinción importante es la que se hace entre pesos de configuración (en inglés, “pattern coefficients”) y pesos estructurales (en inglés, “structure coefficients”). Los de configuración son los pesos λ mostrados en la ecuación [6.1]:
Xj =
M
∑λ
jm Fm
+ Ej
m =1
Anteriormente hemos señalado que los pesos λjm indican la relación entre Xj y Fm. Esta afirmación debe matizarse. Los pesos de configuración, λjm, indican el efecto directo de Fm en Xj; por ejemplo, λ21 determina cómo cambiaría X2 al cambiar F1.
Ejemplo 6.7. Pesos de configuración Al analizar las respuestas a 6 ítems de un test de Inteligencia General, se obtiene la matriz de configuración (ver Tabla 6.9). Atendiendo al contenido y a los pesos de configuración, se concluye que el Factor 1 indica Aptitud Verbal y el Factor 2 Aptitud Espacial. Tabla 6.9. Matriz de configuración (la correlación entre factores es 0,6) Matriz de configuración Ítem (Contenido) X1 (Aptitud Verbal) X2 (Aptitud Verbal) X3 (Aptitud Verbal) X4 (Aptitud Espacial) X5 (Aptitud Espacial) X6 (Aptitud Espacial)
Factor 1
Factor 2
0,5 0,5 0,5 0 0 0
0 0 0 0,5 0,5 0,5
Interpretemos los pesos de configuración del ítem 1. La Aptitud Verbal tiene un efecto directo en ese ítem (λ11 = 0,5). La ecuación del modelo de AFE para ese ítem sería:
Capítulo 6. Análisis Factorial Exploratorio
217
X 1 = 0,5 F1 + E1 Es decir, que si cambia F1 puede esperarse un cambio en X1. Sin embargo, el ítem 1 pesa 0 en el Factor 2 (por eso F2 no aparece en la ecuación anterior); concluiríamos que el Factor 2 (Aptitud Espacial) no tiene ningún efecto directo causal en el rendimiento en ese ítem. El ítem no mide la Aptitud Espacial.
Los pesos estructurales, a los que denominaremos ρ X
j Fm
, también indican la relación en-
tre una variable j y un Factor m. Sin embargo, en este caso no representan el efecto directo del factor en la variable, sino la correlación entre ambos; la correlación entre la variable X2 y el factor F1 se obtiene como: N
ρ X 2 F1 =
∑X i =1
N
Observe que ρ X
I
i 2 Fi1
2 F1
=
M
∑ (∑ λ
2 m Fim
i =1 m =1
N
+ Ei 2 ) Fi1 = λ 21 +
M
∑λ
m=2
2 m ρ F1Fm
[6.14]
depende del peso directo de la variable en el factor (λ21) pero también
de la correlación del factor con los otros factores en los que pese la variable (
M
∑λ
m=2
2 m ρ F1Fm
).
Ejemplo 6.8. Pesos de estructura Al analizar los mismos 6 ítems del Ejemplo 6.7 se obtiene la matriz de estructura que se presenta en la Tabla 6.10. Tabla 6.10. Matriz de estructura Matriz de estructura Ítem (Contenido) X1 (Aptitud Verbal) X2 (Aptitud Verbal) X3 (Aptitud Verbal) X4 (Aptitud Espacial) X5 (Aptitud Espacial) X6 (Aptitud Espacial)
Factor 1
Factor 2
0,5 0,5 0,5 0,3 0,3 0,3
0,3 0,3 0,3 0,5 0,5 0,5
Los resultados pueden parecer paradójicos. Los tres ítems de Aptitud Verbal correlacionan con un Factor que no miden, la Aptitud Espacial. ¿Cómo puede ocurrir esto? Apliquemos la ecuación [6.14] para calcular la correlación entre el ítem 1 y el Factor 2:
218 Medición en Ciencias Sociales y de la Salud ρ X1F2 = λ12 + λ11 ρ F2 F1 = 0 + 0,5(0,6) = 0,3 Es decir, el ítem 1 correlaciona con la Aptitud Espacial porque aunque no mide la Aptitud Espacial (λ12 = 0) mide la Aptitud Verbal (λ11 = 0,5), que está muy correlacionada con la Aptitud Espacial ( ρ F2 F1 = 0,6). Por lo tanto, el rendimiento en el ítem 1 se relaciona indi-
rectamente con la Aptitud Espacial.
Al informar de los pesos debe explicitarse si se trata de pesos de configuración o de estructura (Thompson, 2004). A veces, ambos coeficientes son denominados ambiguamente pesos. Como hemos visto, las dos matrices proporcionan información distinta. Cuando los factores están correlacionados ambas matrices (configuración y estructura) serán distintas y ambas deberían ser tenidas en cuenta en la interpretación. Si los factores están muy correlacionados los coeficientes en la matriz de configuración pueden ser más inestables (de muestra a muestra) que los coeficientes de la matriz de estructura, tal como ocurre con los pesos en una ecuación de regresión múltiple. Si los factores son independientes ( ρ Fm Fm ' = 0, para todo m y m ′ ) los pesos de configuración coinciden con los pesos de estructura y puede utilizarse el término “pesos de configuración/estructura” (Henson y Roberts, 2006). En ese caso [6.14] se simplifica a:
ρ F1X 2 = λ 21 +
M
∑λ
m=2
2 m ρ F1Fm
= λ 21
[6.15]
Ejemplo 6.9. Matriz de configuración y Matriz de estructura Tabla 6.11. Matriz de configuración (izquierda) y de estructura (derecha) para el test de cordialidad Matriz de configuración Factor 1
Factor 2
X2
0,060 0,036
0,471 0,706
X3
–0,139
X4
0,842
X5
0,623 0,306 0,217
X1
X6 X7
Matriz de estructura Factor 1
Factor 2
X1
0,248
X2
0,318
0,495 0,720
0,635
X3
0,115
0,579
–0,055
X4
0,820
0,282
–0,013
X5
0,618
0,236
0,226 0,351
X6
0,396 0,358
0,348 0,438
X7
Capítulo 6. Análisis Factorial Exploratorio
219
Para los datos de la Tabla 6.2, la matriz de configuración y la matriz de estructura se muestran en la Tabla 6.11. Se resaltan en negrita los valores mayores que 0,3. La matriz de configuración es más fácil de interpretar y es la que se interpretó en la parte inicial de este capítulo. La matriz de estructura es más clara en el sentido de reflejar que, como ambos factores están correlacionados, todas las variables se relacionan con los dos factores.
Significado de los factores Las variables se agrupan en factores, y el significado de éstos se infiere analizando qué tienen en común las variables que se agrupan en un mismo factor. En la tarea de interpretar el significado de un factor se requieren dos pasos: 1. Determinar los pesos más altos en valor absoluto: Un criterio suele ser fijarse en los pesos en valor absoluto mayores que un valor criterio dado (p. ej., 0,3, 0,35 ó 0,4). En ocasiones, para facilitar la interpretación, se ordenan los pesos y se destacan (p. ej., con el tipo de letra) los pesos relevantes (ver Tabla 6.11). Una costumbre desaconsejable es eliminar de la tabla los pesos próximos a cero, pues esa información puede ser relevante si otro investigador quiere comprobar el parecido entre la solución factorial obtenida en sus datos y la nuestra. Generalmente, se utilizan los coeficientes de configuración, aunque algunos autores (Thompson, 2004) sugieren que es importante también el análisis de los coeficientes de la matriz de estructura2. 2. Nombrar los factores: Un paso importante es poner una etiqueta a los factores. El nombre del factor debería reflejar lo que las variables que pesan en él tienen en común. Además, las variables que más pesan deberían tener más importancia en la elección de la etiqueta. No todas las estructuras factoriales son igual de fáciles de interpretar para un investigador. El significado no es fácil de descubrir, por ejemplo, si las variables agrupadas en un mismo factor son muy heterogéneas y no tienen un contenido común. Tampoco es fácil si las variables tienen saturaciones relativamente altas en más de un factor, lo que significa que miden más de una característica y hace más difícil descubrir su sentido. Por ejemplo, considere el caso de dos factores en los que pesan todas las variables. Aunque varíe el tamaño de sus pesos, sería difícil decidir qué es lo que caracteriza a cada factor. Finalmente, el número de variables que pesan en un factor determina también la calidad del proceso de interpretación, ya que cuantas menos variables pesen en un factor más riesgo existe de elegir una etiqueta inadecuada. Por ejemplo, en nuestro test de cordialidad, si para definir el significado del Factor 2 sólo tuviéramos los ítems 1 (“Me comporto de manera honesta y correcta con los demás”) y 3 (“Trato a las personas con educación”), lo podríamos haber denominado “Trato educado a los demás”. La inclusión en el test de los ítems 2 2
En ocasiones, los pesos de las variables en los factores son altos, en valor absoluto, pero negativos. Puesto que puede ser difícil pensar en términos negativos y la dirección del factor es arbitraria, una posibilidad es invertir los signos de todos los pesos (y las correlaciones de ese factor con el resto de factores). De esa manera, se facilita la interpretación. Al invertir los pesos estaríamos modificando la dirección del factor (p. ej., si en la solución inicial el factor es Inestabilidad emocional, al invertir los pesos se convertiría en Estabilidad emocional).
220 Medición en Ciencias Sociales y de la Salud (“Trato a mis compañeros afectuosamente”) y 7 (“Si un compañero tiene dificultades le ayudo”) permite establecer la etiqueta más exacta de “Trato adecuado a los demás”. Aunque Adecuado y Educado pueden parecer adjetivos similares, el primero puede representar mejor el trato afable y afectuoso, más allá de la mera educación.
El AFE: Paso a paso En el proceso de aplicación del AFE, en primer lugar el investigador debe decidir cuál es el número m de factores que se van a extraer y un método de estimación de los pesos (al que se denomina método de extracción). Veremos que existen diversos procedimientos, no todos igual de adecuados. Decidido el método de extracción, se empieza analizando la solución de un factor. Si el ajuste del modelo a los datos es bueno (p. ej., los residuos son pequeños) se podrá concluir que la solución es unidimensional. Si no, se probará con la solución de dos factores… y así sucesivamente hasta que se extraigan los factores necesarios para que el modelo se ajuste. En los apartados siguientes se ofrecen algunos criterios para decidir el número de factores. Decidido el número de factores, se obtiene una solución factorial provisional a la que se denomina matriz factorial inicial. Esa solución factorial tiene el inconveniente de que es sólo una de las posibles soluciones y que además no es fácil de interpretar. Finalmente, el investigador busca aquella solución factorial que sea más simple o fácil de interpretar. Al método para realizar esa búsqueda se le llama método de rotación. El investigador deberá elegir según sus propósitos si realiza una rotación ortogonal (que asume factores independientes) o una rotación oblicua (que asume factores correlacionados). La solución rotada sirve para interpretar el sentido de los factores. Todas estas decisiones son importantes. Cuando se publica un estudio de AFE debe informarse de las distintas decisiones que se han tomado (número de factores, técnica de extracción, método de rotación, método para estimar las puntuaciones factoriales). Esto hace que un estudio sea replicable y permite que otros investigadores valoren la adecuación de nuestras decisiones. Una práctica recomendada es que el investigador informe de la matriz de correlaciones y de las varianzas de las variables. De esta forma, otro investigador podrá reanalizar los resultados.
Decisiones sobre el método de extracción de factores Por método de extracción nos referimos a los procedimientos a partir de los cuales se estiman los parámetros del modelo (p. ej., pesos y correlaciones entre factores). Los cálculos son bastante complicados y se realizan mediante programas informáticos. Su explicación va más allá de los objetivos del presente texto, pero la lógica es fácil de explicar. En términos generales, los programas de análisis factorial buscan aquellos valores de λ y ρ Fm Fm ' que hacen que las correlaciones esperadas según el modelo (r*12, r*13, r*14,…) se
parezcan lo máximo posible a las correlaciones observadas (r12, r13, r14,…). En otras palabras, se trata de encontrar los pesos que hacen próximas a 0 las correlaciones residuales (resjj’).
Capítulo 6. Análisis Factorial Exploratorio
221
Ejemplo 6.10. Parámetros y expresiones del modelo de un factor Observe la sencillez del problema, cuando estimamos los parámetros en el modelo de un factor, mediante la inspección de las expresiones de la Tabla 6.12. Por ejemplo, la expresión [0,328 – λ 21λ11] indica la diferencia entre la correlación observada r12 (= 0,328) y la correlación reproducida por el modelo de un factor r*12 = λ 21λ11. El programa busca qué valores hay que dar a λ21 y a λ11 para que esa diferencia (y las indicadas en las otras expresiones de los residuos) se aproxime a 0. Tabla 6.12. Parámetros a estimar y expresiones para la estimación del modelo de un factor Parámetros:
λ11 , λ 21 , λ31 , λ 41 , λ51 , λ61 , λ71 , ψ 1 , ψ 2 , ψ 3 ,ψ 4 , ψ 5 , ψ 6 , ψ 7 Expresiones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0 2 1 − λ11 −ψ 1 0,328 − λ 21λ11 1 − λ 221 − ψ 2 0,332 − λ 31λ11 0,415 − λ 31λ 21 0,188 − λ 41λ11 0,231 − λ 41λ 21 0,152 − λ 51λ11 0,170 − λ 51λ 21 0,174 − λ 61λ11 0,277 − λ 61λ 21 0,223 − λ 71λ11 0,348 − λ 71λ 21
2 1 − λ 31 −ψ 3 0,065 − λ 41λ 31
1 − λ 241 − ψ 4
2 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ51 −ψ 5 2 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51 1 − λ 61 −ψ 6 2 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71 −ψ 7
Existen multitud de métodos para estimar los parámetros y varianzas. Ejes principales (EP), máxima verosimilitud (ML) y mínimos cuadrados no ponderados (ULS) se encuentran entre los más frecuentes. Los distintos métodos difieren principalmente en los supuestos distribucionales y en la estrategia seguida para estimar los parámetros. En el Apéndice 6.2 puede encontrarse un resumen de estas técnicas. Por el momento diremos que EP, ML y ULS son todos procedimientos adecuados para realizar un AFE; las diferencias que se suelen encontrar entre dichos procedimientos son pequeñas (especialmente entre EP y ULS). En todos los casos, se pretende encontrar qué parámetros minimizan los residuos y se trata de procedimientos iterativos, por lo que se debe comprobar la convergencia3.
3
Se denominan iterativos porque no se estiman los parámetros en un solo paso sino por aproximaciones sucesivas. En cada paso se obtienen parámetros estimados que se parecen cada vez más a los parámetros estimados definitivos. Se dice que se ha alcanzado la convergencia cuando los parámetros estimados no difieren sustancialmente en pasos sucesivos. Si no se alcanza la convergencia, esto quiere decir que los parámetros estimados que ofrece el programa informático no son definitivos y, por tanto, no son correctos. Por ello se debe comprobar cuándo, en el proceso iterativo de estimación, se ha alcanzado la convergencia. Si eso no ha ocurrido pueden incrementarse el número de iteraciones por defecto (p. ej. de 25 a 100). Si la solución no converge en 100 o 125 iteraciones, generalmente no convergerá en un número mayor. La falta de convergencia suele deberse a que la complejidad del modelo es excesiva para el tamaño muestral y el número de variables del que se dispone.
222 Medición en Ciencias Sociales y de la Salud El más adecuado desde un punto de vista estadístico es ML, ya que tiene en cuenta que la matriz de correlaciones se obtuvo en una muestra y se pretende aproximar las estimaciones de los parámetros (p. ej., las estimaciones de λ ο ψ ) a sus valores poblacionales. El procedimiento ML incluye el supuesto de distribución multivariada normal para las variables. Si se cumplen los supuestos distribucionales y el modelo es correcto, ML proporciona claras ventajas frente a otros: 1. ML proporciona contrastes estadísticos que nos permiten concluir si los residuos son estadísticamente distintos de 0 y obtener intervalos de confianza para los parámetros. 2. Las estimaciones por ML tienen propiedades estadísticas deseables: son asintóticamente insesgadas, consistentes (i. e., convergen al valor del parámetro poblacional al incrementarse la muestra) y eficientes (i. e., son estimadores con varianza mínima). Sin embargo, estas ventajas sólo son reales si se cumplen los supuestos del modelo (Curran,West y Finch, 1996). Por ejemplo, si las variables no se distribuyen normalmente (Asimetría > 2; Kurtosis > 7; West, Finch y Curran, 1995; Russell, 2002) se deberían obtener indicadores de ajuste corregidos (Satorra y Bentler, 1994) lo que suele funcionar bien en muestras de tamaño moderado (p. ej., 250 o más casos) (Bentler y Yuan, 1999; Fouladi, 2000). Otros autores desaconsejan su uso bajo ciertas condiciones. Si las distribuciones de las variables son extremas, el modelo no es correcto (p. ej., porque se estén extrayendo menos factores de los necesarios) o la solución no está bien determinada (porque los pesos de las variables en los factores sean bajos, porque muchas variables pesan en varios factores, etc.) ML puede dar lugar a la obtención de estadísticos inadecuados y de soluciones impropias4 (Ferrando y Anguiano, 2010). En ese caso, EP y ULS son métodos más robustos y, por tanto, resultan preferibles, especialmente en muestras pequeñas. Además de los métodos EP, ULS y ML existen otras opciones para la estimación, entre las que cabe destacar (por su frecuencia de su uso) el método de componentes principales (CP). CP está muy difundido por ser el método de extracción por defecto en algunos programas informáticos. Sin embargo, hay que aclarar que CP no es un método de Análisis Factorial y muchos expertos desaconsejan su uso (ver, por ejemplo, Ferrando y Anguiano, 2010). En el Apéndice 6.1 se explican las razones por las que puede ser inapropiado utilizar CP como técnica de AF. Sea cual sea el procedimiento elegido, se obtendrá en primer lugar una matriz factorial no rotada de pesos (que, a veces, se denomina solución inicial). La solución no rotada se caracteriza porque los factores: 1. Correlacionan 0, es decir, son independientes; 2. Aparecen siempre ordenados según la proporción de la varianza total que explican (PVCF1 > PVCF2 > …> PVCFM). 4
Se habla de soluciones impropias o casos Heywood cuando se obtienen valores imposibles para algunos parámetros (p. ej., comunalidades mayores que 1). La presencia de alguna comunalidad mayor o igual a 1 es inaceptable ya que esto implica que las respuestas en una variable se predicen perfectamente a partir de las puntuaciones en los factores, lo cual es poco plausible. A estos casos “límite” se les suele denominar casos Heywood, porque fue Heywood (1931) quien se fijó en ellos por primera vez. La presencia de un caso Heywood puede ser un indicador de que el modelo es inadecuado para los datos o la muestra es demasiado pequeña. Suele producirse si en uno de los factores pesan sólo una o dos variables, incluso si la muestra es grande (McDonald, 1985). Por tanto, un caso Heywood puede indicar que se están extrayendo demasiados factores.
Capítulo 6. Análisis Factorial Exploratorio
223
Ejemplo 6.11. Matriz factorial no rotada por el método ML Para los datos del test de Cordialidad, la matriz factorial no rotada aparece en la Tabla 6.13. Observe que el primer factor explica un porcentaje mayor de varianza que el segundo (pesan más ítems). En concreto, el primer factor explica el 26,135% de la varianza total (el sumatorio de los pesos al cuadrado de la primera columna, dividido por 7 y multiplicado por 100); el segundo factor explica el 11,114% de la varianza total. La matriz factorial es muy similar a la que se obtendría por otros procedimientos (ver Apéndice 6.2). Tabla 6.13. Matriz factorial no rotada por el método ML (test de Cordialidad) Matriz factorial (ML) 1
2
X2
0,397 0,544
0,301 0,472
X3
0,332
0,491
X4
0,736
–0,365
X5
0,565
–0,251
X6
0,446 0,455
0,037 0,158
X1
X7
Selección del número de factores Un segundo objetivo del AFE es determinar cuántas dimensiones está midiendo un test, es decir, cuántos factores deben incluirse en la solución factorial. Aunque el número máximo nunca puede ser mayor que el número de variables analizado (en ese caso, se explicaría toda la varianza de las variables analizadas), no todos los factores comunes que pueden extraerse explicarían la misma proporción de varianza; es más, pueden no ser interpretables y deberse al error que introduce la variación muestral de las correlaciones. Por tanto, el investigador debe decidir cuál es el mínimo número de factores necesario para explicar bien las correlaciones entre las variables. El número de factores no se decide de forma caprichosa, habiéndose propuesto varios métodos para determinar cuál es el número óptimo que debe retenerse; no todos son igual de adecuados. En nuestro ejemplo, se han aplicado el modelo de un factor y el modelo de dos factores a los mismos datos. Las correlaciones reproducidas según el modelo de un factor se parecían bastante a las correlaciones observadas en la muestra. Al extraer dos factores, se parecían más aún. Por tanto, parece que las correlaciones se ajustan un poco mejor al modelo de dos factores ¿Justifica esto extraer dos factores?, ¿o deberíamos analizar lo que ocurre cuando extraemos tres factores? A continuación se describen algunas de
224 Medición en Ciencias Sociales y de la Salud las estrategias más utilizadas para decidir el número de factores que es necesario retener; finalmente se recoge alguna recomendación sobre cuáles (y cuáles no) deberían utilizarse.
El análisis de los residuos Análisis descriptivo Una aproximación es examinar las correlaciones residuales. Si los residuos son pequeños (p. ej., menores, en valor absoluto, de 0,05) esto indica que el modelo reproduce bien las correlaciones. El criterio de 0,05 es un valor arbitrario (arbitrariamente pequeño) y pueden utilizarse otros criterios, especialmente si el investigador trabaja con muestras pequeñas (p. ej., que el residuo no sea estadísticamente significativo). Algunos programas proporcionan el indicador RMSR (la Raíz del Residuo Cuadrático Medio; en inglés, Root of Mean Squared Residual), que es la raíz del promedio de los residuos al cuadrado: J
J
j
j' j≠ j'
∑∑ res RMSR =
2 jj '
J ( J − 1)
[6.16]
Un valor de 0,08 o menos indicarían buen ajuste a los datos (Hu y Bentler, 1998). Análisis estadístico Usualmente los residuos son distintos de cero en la muestra. Sin embargo, esto no supone un problema por sí mismo. En realidad, lo correcto es plantearse si podemos mantener que los residuos son cero en la población. Sabemos que por mera variación muestral es improbable que los residuos sean cero en la muestra incluso si lo son en la población. Si se ha utilizado el método ML puede obtenerse un contraste estadístico χ 2 del ajuste del modelo. Mediante este estadístico χ 2 contrastamos si con M factores extraídos podemos mantener la Hipótesis nula de que todos los residuos son cero en la población: H0:
Todos los residuos son nulos
H1:
Algún residuo es distinto de cero
Para aplicar esta prueba se asumen algunos supuestos, como que las J variables siguen una distribución multivariada normal. Un problema asociado al estadístico χ 2 es que hace que nuestra decisión sobre el número de factores que se va a retener dependa mucho del tamaño de la muestra. Si es suficientemente grande, residuos muy pequeños pueden resultar significativos y se tenderá a extraer un número de factores mayor que el necesario desde el punto de vista práctico. Por el contrario, si la muestra es pequeña, residuos de valor
225
Capítulo 6. Análisis Factorial Exploratorio
elevado pueden no resultar estadísticamente significativos y se extraerá un número de factores menor que el necesario. Además de realizar el contraste estadístico global, puede estudiarse si cada una de las correlaciones residuales es estadísticamente distinta de cero. Muchos programas (p. ej., FACTOR) informan de los residuos estandarizados (Joreskog y Sorbom, 1989, p. 28): Z
res ′ jj
donde S
=
res jj′
res jj '
S
[6.17] res ′ jj
es el error típico asociado al residuo resjj’. Si el modelo se ajusta a los datos
los residuos estandarizados tienen una distribución aproximadamente normal, N(0, 1). Así, un residuo estandarizado en valor absoluto mayor que 1,96 ó 2,58 indica que el residuo correspondiente es estadísticamente distinto de cero y, por tanto, un posible desajuste del modelo (Schermelleh-Engel, Moosbrugger y Müller, 2003).
Ejemplo 6.12. Decisión sobre el número de factores (análisis de los residuos) Primero, estimamos varios modelos con distinto número de factores. El modelo más simple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para interpretar los resultados y obtener conclusiones. Para los datos de nuestro ejemplo, los residuos con el modelo de un factor se muestran en la Tabla 6.14. Se obtuvieron residuos mayores en valor absoluto que 0,05 en el 52% de los casos. Tabla 6.14. Residuos (Método ML) con el modelo de 1 factor X1 X1
X2
X3
X4
X5
X6
X7
0,044
0,138 0,161
–0,054 –0,087
–0,061 –0,110
–0,042 –0,007
–0,018 0,033
–0,152
–0,103
–0,068
–0,041
0,272
0,074
–0,012
0,003
–0,002
X2
0,044
X3
0,138
0,161
X4
–0,054
–0,087
–0,152
X5
–0,061
–0,110
–0,103
0,272
X6
–0,042 –0,018
–0,007 0,033
–0,068 –0,041
0,074 –0,012
X7
0,003 –0,002
0,016 0,016
El análisis de la significación estadística de los residuos con el programa FACTOR (método ULS) mostraba que había varios residuos estandarizados mayores que 3 (entre los ítems 4 y 5 y del ítem 3 con los ítems 1, 2 y 4). Estos residuos son los mayores en la Tabla 6.14. Cuando se aplicó el modelo de dos factores, los residuos eran mucho más pequeños (como se mostró en la Tabla 6.8); todos los residuos estandarizados fueron menores que 1,96 (i. e., no estadísticamente significativos, p > 0,05). La Tabla 6.15 muestra los valores del estadístico χ2 para los modelos de uno y dos factores, los grados de libertad (gl) y el nivel crítico (p); también se muestra RMSR.
226 Medición en Ciencias Sociales y de la Salud Tabla 6.15. Valores de χ 2 para los modelos de uno y dos factores Modelo de un factor Modelo de dos factores
χ2
gl
p
RMSR
139,678 13,470
14 8
0,000 0,097
0.097 0,025
Utilizando un nivel de significación α = 0,01, puede concluirse que el modelo de un factor no se ajusta a los datos. En cambio, con ese nivel de significación (e incluso con α = 0,05) podemos mantener que el modelo de dos factores sí se ajusta. Atendiendo al indicador RMSR se extraería la misma conclusión; para el modelo de un factor, RMSR es mayor que 0,08, mientras que para el modelo de dos factores RMSR es 0,025.
Métodos basados en la proporción de varianza explicada por el factor Autovalores de la matriz de correlaciones Aunque CP no es una técnica adecuada de AFE, los resultados obtenidos con CP han mostrado ser útiles para decidir el número de factores. Por ello, en algunos programas se aplica primero CP, se decide el número de factores a partir de la información obtenida en CP y se repite el análisis con un método de AFE más adecuado (p. ej., ULS, ML o EP). Cuando se utiliza CP, como con otras técnicas, la solución inicial (no rotada) se caracteriza porque los factores correlacionan 0 (son independientes) y aparecen ordenados según la proporción de la varianza total que explican (PVCF1 > PVCF2 > …> PVCFM). Para decidir el número de factores a extraer se considera la proporción de varianza total que explica cada factor: si un factor explica poca varianza se concluye que es prescindible. Varios de los criterios que se describen en el siguiente apartado siguen esta lógica aunque difieren en cómo se define “poca varianza”. Los criterios que se muestran en los siguientes apartados se basan en el estudio de los autovalores5, que son una transformación de las PVC. Cada factor m tiene un autovalor asociado, γm , que se calcula mediante la ecuación:
γ m = ( J ) PVC Fm
[6.18]
Es decir, el autovalor de un factor es simplemente la proporción de varianza explicada por ese factor (PVCFm) multiplicada por una constante J, el número de variables. Los autovalores cumplen las siguientes propiedades (Thompson, 2004): 1. El número de autovalores es igual al número de variables analizadas. 2. La suma de los autovalores es igual al número de variables.
5
Ver Apéndice 6.1 para una definición más rigurosa del concepto de autovalor.
Capítulo 6. Análisis Factorial Exploratorio
227
3. Un autovalor dividido por el número de variables indica la proporción de la varianza total que un factor dado reproduce (es decir, PVCFm). 4. La suma de los autovalores de los factores extraídos dividida por el número de variables indica la proporción de la varianza total que los factores extraídos reproducen en conjunto (es decir, PVC). 5. Los autovalores están ordenados por tamaño (λ1 ≥ λ2 ≥…≥ λm ≥…≥ λM). A continuación se describen varios de los criterios para decidir el número de factores que se basan en las cuantías de los autovalores. Regla K1 de Kaiser Uno de los procedimientos más usados para la retención de factores es la regla K1 de Kaiser, según la cual se retienen aquellos factores con autovalores mayores que 1. Observe que si un factor explica toda la varianza de una única variable, el autovalor asociado a ese factor sería 1; por ejemplo, si tenemos 10 variables y un factor m explica toda la varianza de la primera variable y nada de varianza del resto de las variables, el autovalor asociado a ese factor m sería: J
∑λ γ m = (J )
2 jm
j =1
J
= (10)
12 + 0 2 + ... + 0 2 =1 10
Lo que se establece con esta regla es que, para que un factor resulte útil, debe explicar al menos tanta varianza como la de una variable. Guttman (1954) proporciona otra justificación formal para la regla K1: si la matriz de correlaciones fuera la poblacional, el número de autovalores mayores que 1 sería el número mínimo necesario para reproducir correctamente la matriz de correlaciones. La regla K1 es una de las más usadas, probablemente porque se trata de la opción por defecto de muchos programas estadísticos. Sin embargo, es una de las reglas que peor funcionan, pues tiende a sobrestimar el número de factores (Zwick y Velicer, 1986). La regla K1 es incorrecta por, al menos, dos razones: 1. Es demasiado rígida cuando se trabaja con la matriz de correlaciones muestral. No parece muy adecuado aceptar un factor con un autovalor de 1.01 y rechazar un factor con un autovalor de 0.99, cuando esa diferencia puede venir explicada por la variación muestral. 2. Por otro lado, la lógica de que explique una varianza mayor que 1 puede ser errónea si los pesos de las variables en el factor son bajos. Por ejemplo, para un test de 10 ítems, si sólo tres ítems pesan 0,4 en el factor, el autovalor asociado a ese factor será 0,48: J
∑λ γ m = (J )
j =1
J
2 jm
= (10)
0,4 2 + 0,4 2 + 0,4 2 + 0 2 + 0 2 + 0 2 + 0 2 + 0 2 + 0 2 = 0,48 10
228 Medición en Ciencias Sociales y de la Salud La regla K1 tiende a proporcionar un número positivamente sesgado de factores, tanto más cuanto menor es el tamaño muestral y mayor el número de variables (ya que son más probables correlaciones extremas, por mera variación muestral, en esas condiciones).
Ejemplo 6.13. Decisión sobre el número de factores. Regla K1 Para los datos de nuestro ejemplo, siguiendo la regla K1 de Kaiser deberían extraerse dos factores (ver autovalores en la Tabla 6.16). Tabla 6.16. Autovalores de la matriz de correlaciones entre los 7 ítems Factor
Autovalor
1 2
2,469 1,272
3
0,831
4
0,742
5
0,686
6 7
0,539 0,461
Gráfico de sedimentación El método basado en el gráfico de sedimentación (Cattell, 1966; Cattell y Vogelmann, 1977) consiste en representar la cuantía de los autovalores de mayor a menor. Figura 6.1. Matriz factorial (izquierda) y gráfico de sedimentación (derecha) para una matriz de correlaciones de 5 variables independientes (datos poblacionales)
X1 X2 X3 X4 X5
γm
Matriz factorial F1 F2 F3 F4 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 Autovalores F1 F2 F3 F4 1 1 1 1
F5 0 0 0 0 1 F5 1
Capítulo 6. Análisis Factorial Exploratorio
229
Si todas las variables fueran independientes y no hubiera factores comunes, el gráfico de sedimentación obtenido con la matriz de correlaciones poblacional sería una línea horizontal sobre 1 (ver Figura 6.1). Sin embargo, en una muestra se espera que, aunque no haya factores comunes, se produzcan correlaciones distintas de cero por mera variación muestral. En ese caso, los primeros autovalores serán mayores que 1 por efecto de esa variación muestral. Por ejemplo, en las figuras 6.2 y 6.3 se muestran los resultados para 5 variables (que son independientes en la población), obtenidos en muestras de 50 y 1.000 personas, respectivamente. Puede observarse que los primeros autovalores son mayores que 1, especialmente en la muestra de 50 personas. Observe además que si no hay relación entre las variables, se podría trazar una línea recta (empezando desde el último autovalor) que pasara muy cerca de todos los puntos. En las Figuras 6.2 y 6.3 se representan esas rectas con una línea muy estrecha. Como no hay factores comunes la línea discontinua casi se superpone al gráfico de sedimentación. Figura 6.2. Matriz factorial (izquierda) y gráfico de sedimentación para una matriz de correlaciones de 5 variables independientes, datos muestrales (N = 50) 3
γm
F1 1,4
Matriz factorial F2 F3 F4 0,3 0,0 –0,6 0,6 0,7 0,3 –0,7 0,5 –0,1 0,3 –0,4 0,2 –0,4 0,0 0,4 Autovalores F2 F3 F4 1,1 0,9 0,8
F5 –0,2 0,0 0,4 0,5 –0,5
2
autovalor
X1 X2 X3 X4 X5
F1 0,7 0,1 0,3 0,6 0,7
1
F5 0,7
0 1
2
3
4
5
Factor
Figura 6.3. Matriz factorial (izquierda) y gráfico de sedimentación para una matriz de correlaciones de 5 variables independientes, datos muestrales (N = 1.000) 3
γm
F5 –0,5 0,5 0,5 0,2 –0,4 F5 0,8
2
autovalor
X1 X2 X3 X4 X5
Matriz factorial F2 F3 F4 0,7 0,3 –0,4 0,5 –0,7 –0,1 0,0 0,6 0,0 0,5 0,3 0,7 0,0 –0,3 0,5 Autovalores F1 F2 F3 F4 1,1 1,1 1,0 0,9
F1 0,2 0,2 0,6 –0,4 0,7
1
0 1
2
3
Factor
4
5
230 Medición en Ciencias Sociales y de la Salud Con datos empíricos, existiendo relaciones no nulas entre las variables, el gráfico de sedimentación tendrá generalmente una forma distinta. Veamos un ejemplo. Al obtener el gráfico de sedimentación para los datos de la Tabla 6.2 (ítems de Cordialidad), se obtienen los resultados mostrados en la Figura 6.4. Si no hubiera factores comunes, una única línea podría pasar cerca de todos los puntos. Observe que esto no es así en la Figura 6.4, lo que significa que sí hay factores comunes. Figura 6.4. Gráfico de sedimentación para el test de Cordialidad 3
Cambio de pendiente
autovalor
2
1
0 1
2
3
4
Factor
5
6
7
Para decidir cuántos factores retener, Cattell propuso trazar la pendiente hacia la izquierda (empezando por el último autovalor) y observar en qué punto cambia la pendiente. En nuestro caso, el primer cambio de pendiente se produce en el paso del autovalor 3 al autovalor 2; por tanto, extraeríamos dos factores, ya que a partir del tercero tienden a estabilizarse las cuantías de los autovalores. A pesar de que existe cierto grado de subjetividad en la decisión (en algunos casos, puede ser ambiguo establecer dónde se da el cambio de pendiente) ésta es una de las técnicas más precisas para decidir el número de factores que se van a extraer, aunque también tiende a producirse cierta sobrefactorización (especialmente si las comunalidades son bajas). La ambigüedad de las decisiones es mayor cuanto menor es el tamaño de la muestra o la ratio de variables por factor (Cliff y Hamburger, 1967). Conviene utilizarlo en combinación con otros procedimientos, pero nunca de forma aislada. El análisis paralelo La técnica del análisis paralelo (Horn, 1965) se basa en el gráfico de sedimentación. La idea es sencilla: se generan H matrices de datos aleatorios de orden igual al de la muestra empírica, N x J (i. e., N filas de sujetos y J columnas de ítems). Normalmente, se simulan 50 (H = 50) o 100 muestras (H = 100). En cada muestra, las J variables se generan como independientes, con una distribución normal o con distribuciones univariadas similares a las de las variables originales. Por tanto, en cada una de las matrices de respuestas generadas sabemos a ciencia cierta que no hay factores comunes. El procedimiento consiste en
Capítulo 6. Análisis Factorial Exploratorio
231
obtener el promedio de cada autovalor m (m: 1…J) a través de las H muestras y compararlo con el autovalor m de la muestra empírica. La decisión final es extraer M factores, donde γM es el autovalor más bajo en el que se cumple que: H
γM >
∑γ
M (h)
h =1
[6.19]
H
donde γM(h) es el autovalor asociado al factor M en la muestra aleatoria h. A la izquierda de la ecuación [6.19] aparece el autovalor del factor M en la muestra empírica y a la derecha la media de los autovalores del factor M en las muestras aleatorias. Por tanto, la racionalidad del análisis paralelo es análoga a la de la regla K1, pero en vez de comparar cada autovalor con el valor 1 se compara con el valor esperado en una muestra similar cuando no hay factores comunes.
Ejemplo 6.14. Decisión sobre el número de factores. Análisis paralelo A partir de los datos de la Tabla 6.2, se realizó el Análisis Paralelo (ver Figura 6.5). A partir de los resultados concluimos que habría que extraer 2 factores, ya que el autovalor del tercer factor está por debajo de la media de los autovalores que se obtienen en muestras donde no hay ningún factor común. Figura 6.5. Análisis Paralelo 3
Muestra empírica Media en muestras aleatorias
autovalor
2
1
0 1
2
3
4
5
6
7
Factor
El gráfico de sedimentación y el análisis paralelo pueden aplicarse con autovalores obtenidos por Ejes Principales (EP) o por Componentes Principales (CP). Velicer et al. (2000)
232 Medición en Ciencias Sociales y de la Salud recomiendan el uso de CP6. También puede compararse el autovalor m de la muestra empírica con el percentil 95 de la distribución del autovalor m en las muestras aleatorias. El análisis paralelo es el método más preciso para decidir el número de factores. Hasta hace poco tiempo su aplicación era compleja puesto que no estaba disponible en los paquetes estadísticos más utilizados. Sin embargo, actualmente existen macros de SPSS y SAS que permiten hacer uso de este efectivo procedimiento (O’Connor, 2000); también pueden obtenerse los resultados en el programa FACTOR (Lorenzo y Ferrando, 2006).
Recomendaciones Eaton,Velicer y Fava (1999) concluyen que el mejor método es el análisis paralelo, siendo el peor método la regla K1. Sin embargo, en presencia de un fuerte factor común, tiende a subestimar el número de factores ignorando los factores comunes menores (Turner, 1998; Hayton y cols., 2004). Por ello, también es recomendable usar este método en combinación con otros. Los criterios de ajuste estadístico no siempre constituyen las mejores elecciones, pues las conclusiones dependerán mucho del tamaño de la muestra (p. ej., pequeñas discrepancias pueden ser estadísticamente significativas). Por ello, la manera más segura de proceder es complementar el análisis paralelo con el análisis de los residuos: p. ej., si es grande el tamaño de los residuos, esto indica que nuestro modelo no es suficientemente adecuado e implica que es necesario incrementar el número de factores. Es preferible equivocarse por exceso que por defecto (Fabrigar, Wegener, MacCallum y Strahan, 1999). Cuando se extraen menos factores de los necesarios algunas variables que cargarían en los factores no considerados en el modelo pueden hacerlo en los factores incluidos, obteniéndose en ellos saturaciones distorsionadas y, por tanto, dificultando su interpretación. Cuando se extraen más factores de los necesarios suele ocurrir que algunos están representados por una sola variable, pero la estructura correcta tiende a permanecer; cuando se extraen más factores que los necesarios, puede ocurrir también que dos factores representen simplemente la división de lo que debería haber sido un único factor. Todo esto hace que la estructura resulte difícilmente replicable.
El problema de la indeterminación factorial Como se ha mencionado en el apartado de extracción de factores, los procedimientos más frecuentes se caracterizan por establecer factores independientes, ordenados según la proporción de la varianza total que explican. Estos dos criterios permiten que el modelo esté identificado (es decir, que los parámetros sean estimables). Sin embargo, cuando se extrae más de un factor, podrían obtenerse otras soluciones factoriales siguiendo otros criterios. En realidad, dado un número específico de factores, existen infinitas matrices factoriales que pueden dar cuenta de las correlaciones entre variables. Planteemos la situación para el modelo de dos factores independientes; la correlación entre las variables j y j’ según el modelo es:
6
Por tanto, aunque CP no es recomendable como método para estimar el modelo factorial, sí lo es como método de obtención de los autovalores para decidir el número de factores.
Capítulo 6. Análisis Factorial Exploratorio
233
r jj* ' = λ j1λ j '1 + λ j 2 λ j '2 Redefinimos los pesos mediante la transformación:
λ'j1 = Aλ j1 + Bλ j 2
λ'j '1 = Aλ j '1 + Bλ j '2 λ'j 2 = Bλ j1 − Aλ j 2 λ'j '2 = Bλ j '1 − Aλ j '2 Si seleccionamos valores para A y B, tales que A2 + B2 = 1, las correlaciones reproducidas serían exactamente iguales con los dos conjuntos de pesos:
r jj* ' = λ'j1λ'j '1 + λ'j 2 λ'j '2 = ( Aλ j1 + Bλ j 2 )( Aλ j '1 + Bλ j '2 ) + ( Bλ j1 − Aλ j 2 )( Bλ j '1 − Aλ j '2 ) = = A 2 λ j1λ j '1 + B 2 λ j 2 λ j '2 + B 2 λ j1λ j '1 + A 2 λ j 2 λ j '2 = λ j1λ j '1 + λ j 2 λ j '2 Lo que ocurre es un problema de indeterminación factorial7. ¿Con qué estructura factorial quedarse? Thurstone (1947) propuso una solución. Parece razonable considerar que una variable psicológica no es función de todos los factores simultáneamente; es decir, en la estructura factorial “correcta” cada variable pesará cero en algún factor. Además, cabe esperar que las variables dependan de distintos factores. La propuesta de Thurstone es buscar, entre todas las soluciones factoriales posibles, aquella que más se asemeje a la estructura simple, que se caracteriza porque (Thurstone, 1947, p. 335): 1. Cada variable tiene una saturación próxima o igual a 0 en al menos un factor. Por ejemplo, un ítem no puede medir todos los factores a la vez. 2. En cada factor, al menos M variables tienen saturaciones próximas o iguales a 0. Es decir, que no debería haber factores generales en los que pesan todos los ítems. 3. Para cada par de factores hay variables cuyas saturaciones son próximas o iguales a 0 en uno, pero no en el otro (y viceversa). Es decir, los factores son distinguibles y no se solapan. 7
El caso general se puede expresar fácilmente en términos matriciales. Considere una transformación de los pesos y los factores:
Λ* = ΛT F * = T −1 F donde Λ∗ es la matriz de pesos transformados, F* la matriz de puntuaciones transformadas de las personas en los factores, Λ es la matriz de pesos originales, F la matriz de puntuaciones originales en los factores y T es una matriz de transformación que tenga inversa. El nuevo modelo será equivalente al modelo original:
X = Λ*F* + E = ΛTT −1F + E = ΛF + E
234 Medición en Ciencias Sociales y de la Salud 4. Si se extraen 4 factores o más, para cualquier par de factores hay una gran proporción de variables con saturaciones próximas o iguales a 0 en ambos. Esto significa que para cada factor son relevantes sólo unas pocas variables y que las variables tienden a agruparse en factores distintos. Esto simplifica la interpretación de los factores. 5. Para cualquier par de factores, habrá un número reducido de variables con saturaciones distintas de cero en ambos. Es decir, que cada variable tiende a pesar en un único factor. Esto simplifica la interpretación de las variables. El primero de los criterios refleja principalmente una condición necesaria de la estructura simple, mientras que el resto de condiciones fueron propuestas por Thurstone para facilitar la estabilidad de la configuración de pesos factoriales en distintas muestras. Con los tres últimos criterios se busca que los conjuntos de ítems definiendo cada factor no se solapen demasiado. En la Tabla 6.17 puede observarse un ejemplo donde se cumplen los criterios de la estructura simple (izquierda) y otro en el que no (derecha); Por ejemplo, en la estructura de la derecha se incumplen todas las condiciones: la primera variable pesa en todos los factores (condición uno), los factores 1 y 4 tienen menos de cuatro variables con pesos próximos a cero (condición dos), existe un gran solapamiento entre los factores 1 y 4 ya que 5 de las 8 variables tienen el mismo patrón de pesos (condición tres), no existen variables con pesos de cero en el Factor 1 y otro factor (condición cuatro) y en los factores 1 y 4 hay un número alto de variables con pesos altos en ambas (condición cinco). Tabla 6.17. Ejemplo de estructura simple (izquierda) y no simple (derecha) Estructura simple
X1 X2 X3 X4 X5 X6 X7 X8
Estructura no simple
Factor 1
Factor 2
Factor 3
Factor 4
0 0 0 0,4 0 0,4 0 0
0 0,4 0 0 0 0 0 0,4
0 0 0,4 0 0 0 0,4 0
0,4 0 0 0 0,4 0 0 0
X1 X2 X3 X4 X5 X6 X7 X8
Factor 1
Factor 2
Factor 3
Factor 4
0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4
0,4 0,4 0 0 0 0 0 0
0,4 0 0,4 0 0 0 0 0,4
0,4 0 0 0,4 0,4 0,4 0,4 0
Para buscar la solución más parecida posible a la estructura simple, se aplica un proceso denominado como rotación8 a la matriz factorial que incluye los pesos estimados inicialmente. La rotación permite encontrar aquellas soluciones factoriales que, siguiendo el principio de parsimonia, facilitan la interpretación de las variables (se minimiza el número de factores necesarios para explicar cada variable) o de los factores (se minimiza el número de variables con saturaciones altas en el factor). Después de la rotación, cambian los 8
Ver Apéndice 6.4 para entender por qué se utiliza el término rotación.
Capítulo 6. Análisis Factorial Exploratorio
235
pesos, pero no cambian las correlaciones reproducidas, las comunalidades o la proporción de varianza explicada entre todos los factores. Existen distintos procedimientos para obtener la estructura más simple (ver, por ejemplo, Browne, 2001). Una de las decisiones más importantes en la elección del método de rotación es optar entre un método de rotación ortogonal, en el que se asume que los factores no correlacionan, o un método de rotación oblicua, que permite que los factores correlacionen. En los apartados siguientes se describen las ventajas e inconvenientes de cada tipo de método. Una discusión de las diversas estrategias de rotación puede encontrarse en los trabajos de Gorsuch (1983) y Thompson (2004).
Procedimientos de rotación ortogonal Los procedimientos de rotación ortogonal se caracterizan por encontrar la estructura más simple bajo la restricción de que los factores sean ortogonales (es decir, que sean independientes, con correlación cero). Uno de los tipos de rotación ortogonal más utilizada es el método Varimax normalizado, desarrollado por Kaiser (1958). Es el método por defecto en la mayoría de los paquetes estadísticos (p. ej., SPSS). Respetando la restricción de ortogonalidad, se transforman las saturaciones iniciales (λ) para que las nuevas saturaciones en los factores (λ’) difieran lo máximo posible entre sí (i. e., que tomen valores extremos o valores próximos a cero y se eviten los valores intermedios). Matemáticamente, se busca maximizar la varianza de los pesos (elevados al cuadrado y divididos por la comunalidad de la variable) dentro de cada factor m: cVari max =
(λ ′jm ) 2 Var j h 2j m =1 M
∑
[6.20]
donde CVarimax indica el criterio a maximizar. Se buscan aquellos pesos λ’jm que hacen máximo el valor de CVarimax. Los términos que se suman son, para cada factor m, la varianza de los pesos elevados al cuadrado y normalizados. En la Tabla 6.18 se muestra una matriz factorial (los factores rotados en las dos primeras columnas) obtenida a partir de la rotación Varimax en un caso hipotético. Con la rotación se ha maximizado la variabilidad de los pesos dentro de cada factor. Por ejemplo, observe que en el factor 1 hay ítems con peso alto (los ítems 1, 2 y 3) y otros (los ítems 4, 5 y 6) con peso prácticamente nulo. Puede observarse que no se maximiza directamente la varianza de los pesos λ’jm, sino que se establecen dos transformaciones: 1. Se elevan al cuadrado para que su signo no sea relevante, ya que se busca que haya pesos altos en valor absoluto. De esta forma, tan alto es 0,598 como –0,598. 2. Se dividen por la comunalidad de la variable para que todas las variables tengan la misma importancia en la rotación, independientemente del valor de su comunalidad. De esta forma tan alto es un peso de 0,598 para un ítem con una comunalidad de 0,36 como un peso de 0,299 para un ítem con una comunalidad de 0,09 (en ambos casos se
236 Medición en Ciencias Sociales y de la Salud consideraría un peso alto porque el 99,3% de la varianza común de ese ítem sería explicada por el factor). Tabla 6.18. Objetivo de la rotación Varimax Pesos en el Factor 1
Pesos en el Factor 2
Comunalidad
( λ ′j1 )
( λ ′j 2 )
( h 2j )
0,598 –0,598
0,050
0,007
0,050
0,36 0,36
0,993
X2
0,993
0,007
X3
0,598
–0,050
0,36
0,993
0,007
X4
0,050
0,36
0,007
0,993
X5
0,025 0,050
0,598 0,299 0,598
0,09 0,36
0,007
0,993
0,007
0,993
(λ ′j1 ) 2 Var j 2 hj
(λ ′j 2 ) 2 Var j 2 h j
= 0,243
= 0,243
Ítem X1
X6 Varianza de los datos en la columna Objetivo de la rotación VARIMAX
El objetivo es que en cada factor m haya pesos altos en valor absoluto (p. ej., –0,598) y pesos próximos a cero (p. ej., 0,050)
(λ ′j1 ) 2 h2 j
(λ ′j 2 ) 2 h2 j
El objetivo es que la varianza de los datos en estas columnas sea máxima
Podemos constatar también que la varianza se maximiza cuando, para cada factor, unas variables pesan alto (en valor absoluto y en relación a su comunalidad) y otras pesan bajo o cero. Por tanto, se minimiza el número de variables que tienen saturaciones altas en el factor y se facilita la interpretación de los factores. En el ejemplo, el valor para CVarimax con esa matriz factorial rotada sería: cVari max
(λ ′j1 ) 2 (λ ′j 2 ) 2 = 0,243 + 0,243 = 0,486 = Var j + Var j h 2j h 2j
Ejemplo 6.15. Rotación Varimax Para el Test de Cordialidad, se obtuvo la matriz factorial inicial (no rotada) de saturaciones que aparece a la izquierda en la Tabla 6.19. Según esta estructura, el primer factor sería un factor general en el que pesan todos los ítems. En el segundo factor, los pesos mayores son para los ítems 1, 2 y 3 (positivos) y para el ítem 4 (negativo). En principio, esta estructura es difícil de interpretar. Después del proceso de rotación Varimax, se obtiene una estructura más fácil de interpretar (Tabla 6.19, derecha).
Capítulo 6. Análisis Factorial Exploratorio
237
Observe que los pesos de las variables han cambiado. Por ejemplo, las nuevas saturaciones del ítem 5 serían 0,609 y 0,105, más distantes de las que se estimaron en la solución inicial. Por otro lado, la matriz factorial rotada es a la vez matriz de configuración y matriz de estructura (porque al ser los factores independientes, el peso de cada ítem en un factor coincide con su correlación con éste). Tabla 6.19. Matriz factorial no rotada y matriz factorial rotada (VARIMAX) Matriz factorial no rotada
Matriz de configuración/estructura o Matriz de factores rotados
1
2
1
2
X2
0,397 0,544
0,301 0,472
0,162 0,190
0,471 0,695
X3
0,332
0,491
0,002
0,593
X4
0,736
–0,365
0,815
0,106
X5
0,565
–0,251
0,609
0,105
X6
0,446 0,455
0,037 0,158
0,350 0,290
0,279 0,384
X1
X7
Podemos comprobar que al rotar no cambian las comunalidades (ni las unicidades) y tampoco las correlaciones reproducidas según el modelo (ver Tabla 6.20). Tabla 6.20. Comunalidad del ítem 1 y correlación reproducida entre los ítems 1 y 2 Matriz factorial (no rotada) 2
h1 r*12
2
2
0,397 + 0,301 = 0,248 0,397(0,544)+0,301(0,472) = 0,358
Matriz de factores rotados 0,1622 + 0,4712 = 0,248 0,162(0,190)+0,471(0,695) = 0,358
Sin embargo, sí ha cambiado el porcentaje de varianza explicada por cada factor (pero no el total de varianza explicada por los dos factores en su conjunto): Tabla 6.21. Porcentaje de varianza explicado por los factores Factor 1 Factor 2 % Total
Matriz factorial (no rotada)
Matriz de factores rotados
26,135 11,114 37,249
18,630 18,619 37,249
Éste es un resultado general tras la rotación ortogonal: la varianza explicada por cada factor cambia después de la rotación, pero no la varianza explicada por el conjunto de factores. Cuando se realice un AFE, se deben interpretar los datos de la solución rotada. En nuestro caso, ambos factores explican aproximadamente el mismo porcentaje de la varianza total (un 18% cada uno).
238 Medición en Ciencias Sociales y de la Salud
Procedimientos de rotación oblicua La diferencia entre los métodos de rotación ortogonal y oblicua es que en estos últimos los factores pueden estar correlacionados. De nuevo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las correlaciones reproducidas según el modelo. Sin embargo, la solución obtenida tras la rotación oblicua tiene tres características específicas que deben tenerse en cuenta: 1. Los pesos λ ya no son las correlaciones de los ítems con los factores. Esas correlaciones aparecen ahora en una nueva matriz, que es la matriz de estructura. 2. No es posible determinar la varianza explicada por cada factor, puesto que los factores pueden estar correlacionados. 3. Debe tenerse en cuenta la correlación entre factores en su interpretación. En un test puede interesar que los factores obtenidos estén correlacionados (p. ej., correlaciones mayores que 0,3) precisamente para justificar la inclusión de todos los ítems en un mismo test. El método de rotación oblicua más utilizado es el Direct oblimin (Jennrich y Sampson, 1966). En este método se incluye un parámetro delta, δ, que determina la correlación entre los factores rotados y que puede tomar valores iguales o inferiores a 0,8. Cuanto mayor sea el valor de δ, mayor puede ser la correlación obtenida entre los factores. No se recomienda el establecimiento de valores por encima de 0, pues puede forzar que los factores estén “anormalmente” correlacionados. Valores de δ próximos a 0 permiten que los factores estén correlacionados; los valores negativos fuerzan que la correlación entre factores sea más baja. Valores de δ cercanos a – 4 darán lugar a soluciones prácticamente ortogonales. Al caso particular de Direct Oblimin con parámetro δ = 0 se le denomina también método Direct Quartimin. Generalmente, la opción por defecto en la mayoría de los programas es fijar el valor de δ a 0, siguiendo la recomendación de Jennrich (1979; citado en Ferrando y Anguiano, 2010). Si la estructura simple es unifactorial (cada ítem pesa en un factor), este valor permite identificar dicha estructura simple. Por tanto, esta opción puede ser apropiada. Matemáticamente (si se utiliza la rotación Oblimin con parámetro δ = 0) se busca minimizar la suma de productos cruzados de los pesos (elevados al cuadrado y divididos por las comunalidades de las variables) entre factores:
c Ob lim in,δ =0
J (λ ′ ) 2 jm = h 2j m =1 m′ =1 j =1 m′ ≠ m M
M
∑∑ ∑
(λ ′jm′ ) 2 h 2 j
[6.21]
Al minimizar la suma de productos cruzados, se fuerza que los ítems tiendan a pesar en factores distintos. Por ejemplo, se obtendría el valor mínimo de COblimin, (que es 0) si para cada par de factores podemos encontrar que todas las variables pesan cero en al menos uno de ellos. Es lo que ocurre en el caso hipotético que se describe en la Tabla 6.22.
Capítulo 6. Análisis Factorial Exploratorio
239
Tabla 6.22. Objetivo de la rotación Oblimin (δ = 0) Ítem
λ ′j1
λ ′j 2
h 2j
λ ′j21 h2 j
X1
0,600
0,000
0,36
1
0
0
X2
–0,600
0,000
0,36
1
0
0
X3
0,600
0,000
0,36
1
0
0
X4
0,000
0,600
0,36
0
1
0
X5
0,000
0,300
0,09
0
1
0
0,600
0,36
0
1
0
X6
0,000
λ ′j22 h2 j
λ ′j21 λ ′j22 h 2j h 2j j =1 J
∑
Suma de productos cruzados Objetivo de la Rotación OBLIMIN
λ ′j21 λ ′j22 h 2j h 2j
=0
El objetivo es que para cualquier par de factores se cumpla que todas las variables pesen cero en al menos uno de ellos
El objetivo es que la suma de productos cruzados sea mínima
Ejemplo 6.16. Rotación Oblimin Al aplicar el método Direct Oblimin a los datos del test de Cordialidad, se obtiene la matriz factorial rotada (matriz de configuración) que aparece en la Tabla 6.23. La solución rotada es más sencilla de interpretar porque los ítems tienen saturaciones altas en un factor y bajas en el otro. La correlación entre factores es 0,4, que indica que las personas que tienden a ser cordiales y afectuosos en el trato también suelen confiar en los demás. Tabla 6.23. Matriz factorial (no rotada) y Matriz factorial rotada o de configuración Matriz factorial
Matriz de configuración
1
2
1
2
X2
0,397 0,544
0,301 0,472
0,060 0,036
0,471 0,706
X3
0,332
0,491
–0,139
0,635
X4
0,736
–0,365
0,842
–0,055
X5
0,565
–0,251
0,623
–0,013
X6
0,446 0,455
0,037 0,158
0,306 0,217
0,226 0,351
X1
X7
240 Medición en Ciencias Sociales y de la Salud
Al utilizar un método de rotación oblicua los pesos de la matriz de configuración ya no coinciden con las correlaciones entre los ítems y los factores. Estas correlaciones se muestran en la matriz de estructura (ver Tabla 6.24). Observe que la mayoría de los ítems correlacionan con el factor que no miden. Por ejemplo, el ítem 4 no mide el factor 2, λ42 = –0,055, pero la puntuación en ese ítem sí correlaciona con el factor 2, ρ42 = 0,282. Esto ocurre porque ese ítem mide el factor 1, que correlaciona con el factor 2, ρ F1F2 = 0,4 . Tabla 6.24. Matriz de estructura Matriz de estructura 1
2
X1
0,248
X2
0,318
0,495 0,720
X3
0,115
0,579
X4
0,820
0,282
X5
0,618
0,236
X6
0,396 0,358
0,348 0,438
X7
Recomendaciones Si aceptamos el criterio de parsimonia establecido en la estructura simple, los métodos de rotación oblicua resultan más adecuados que los métodos de rotación ortogonal. La restricción de que los factores correlacionen cero es claramente arbitraria y poco realista en múltiples modelos teóricos (p. ej., en el estudio de las aptitudes). Por ello, nuestra recomendación es que se comience utilizando un método de rotación oblicua (p. ej., Oblimin). Si se obtienen correlaciones bajas entre factores, puede aplicarse adicionalmente un método de rotación ortogonal e interpretar esta solución. En este caso, cabe recordar que los métodos de rotación ortogonal (p. ej., Varimax) tienen ciertas ventajas: 1. Permiten obtener qué proporción de varianza explica cada factor. 2. La comunalidad se puede obtener sumando los pesos al cuadrado, porque la contribución de cada variable es independiente. 3. La matriz de configuración coincide con la matriz de estructura (i. e., la correlación de cada factor con cada variable coincide con el peso λ). 4. Los factores no se solapan y, por tanto, la presencia de otros factores no afecta a los pesos de predicción de un factor concreto (por ejemplo, eliminar un factor de la solución no cambiará los pesos en el resto de los factores).
Capítulo 6. Análisis Factorial Exploratorio
241
Puntuaciones factoriales por el método de ponderación simple (o de la suma) Obtenida una solución factorial definitiva, es posible calcular la puntuación de los evaluados en cada uno de los factores. Puesto que las puntuaciones Fm no son observables, sólo podemos obtener aproximaciones o estimaciones, a las que denominaremos Fˆ . Las punm
tuaciones factoriales en cada factor se estiman como una suma ponderada de las puntuaciones en los ítems, Xj, expresadas en puntuaciones típicas:
Fˆm =
J
∑w
jm X j
[6.22]
j =1
La obtención de los pesos w no está exenta de dificultades y existen distintos procedimientos, cada uno con sus propias ventajas e inconvenientes (ver Apéndice 6.7). Los dos problemas principales son: 1. Que al calcular la puntuación factorial Fˆm se suman las puntuaciones de las variables y es inevitable que su parte específica (o relacionada con otros factores distintos de Fˆ ) m
se añada a la puntuación factorial. 2. Que, de nuevo, existe un problema de indeterminación factorial9. La información para estimar las puntuaciones factoriales está integrada en la matriz de estructura, que contiene las correlaciones entre las variables observadas Xj y los factores Fm. Guttman (1955) demostró que existen infinitos conjuntos de pesos W y puntuaciones F que darán lugar a la misma matriz de estructura. El método más sencillo (y el más utilizado) para obtener las puntuaciones factoriales es el de la suma o ponderación simple. Consiste en dar un peso de 1 a las variables que pesan directamente en el factor, de –1 a las variables que pesan negativamente y un peso de 0 si la variable no pesa en el factor. Se deben tomar algunas decisiones: 1. El criterio para decidir si una variable pesa o no en el factor; este criterio puede variar (p. ej., pesos en valor absoluto superiores a 0,3 ó 0,4). Algunos autores establecen que si una variable pesa en dos o más factores se considere sólo en el factor donde más pesa. Este modo de proceder no está justificado, por lo que no parece muy recomendable. 2. La matriz de pesos elegida para tomar las decisiones. Puede utilizarse la matriz de estructura o la matriz de configuración. Los resultados de Grice (2001a) sugieren que es preferible la matriz de configuración para seleccionar los ítems que deben pesar en uno u otro sentido. Téngase en cuenta que, si los factores están correlacionados y se utiliza la matriz de estructura, las puntuaciones factoriales estimadas estarán excesivamente correlacionadas. 9
No debe confundirse esta indeterminación factorial con la de la rotación.
242 Medición en Ciencias Sociales y de la Salud 3. Si se suman las Xj expresadas en puntuaciones directas o en puntuaciones típicas. Si no difieren excesivamente las desviaciones típicas de las variables (p. ej., se trata de ítems con una misma escala de respuesta) puede optarse por la primera opción, más sencilla.
Ejemplo 6.17. Puntuaciones factoriales por el método de la ponderación simple En la Tabla 6.25 se muestra cómo asignar los pesos mediante este método, a partir de la información contenida en la matriz de configuración (test de Cordialidad). Tabla 6.25. Cálculo de los pesos para hallar las puntuaciones factoriales (método de la suma) Matriz de configuración
Pesos para calcular las puntuaciones factoriales por el método de la suma
1
2
1
2
X2
0,060 0,036
0,471 0,706
0 0
1 1
X3
–0,139
0,635
0
1
X4
0,842
–0,055
1
0
X5
0,623
–0,013
1
0
X6
0,306 0,217
0,226 0,351
1 0
0 1
X1
X7
Por ejemplo, en el Factor 1 saturan con pesos superiores a 0,3 los ítems 4, 5 y 6. Así, la puntuación en el Factor 1 para un evaluado se obtendría:
Fˆ1 = X 4 + X 5 + X 6 La puntuación en el Factor 2 se obtendría como:
Fˆ2 = X 1 + X 2 + X 3 + X 7
Otras decisiones importantes en el AFE Al realizar un estudio de AFE debemos tomar algunas decisiones importantes, previas a la aplicación de la técnica. El diseño del estudio determinará el grado de generalización de los resultados que podamos encontrar. En este sentido, dos decisiones importantes se refieren al tamaño de la muestra y a la selección de las variables.
Capítulo 6. Análisis Factorial Exploratorio
243
Tamaño y características de la muestra Un aspecto obvio a considerar es que el tamaño de la muestra de personas debe ser suficiente para que los resultados sean estables. Como en cualquier análisis estadístico, el tamaño muestral determina la estabilidad de los resultados obtenidos. Si la muestra es pequeña (menos de 100 personas) los resultados obtenidos en la matriz factorial rotada serán altamente inestables. Esto ocurre porque las correlaciones en una muestra de menos de 100 personas pueden oscilar bastante (por efecto del azar en la selección de la muestra). Una muestra de tamaño 100 implica un error típico para la correlación de 0,10, mientras que una muestra de tamaño 400 implica un error típico de 0,05. Además, el efecto de la variabilidad muestral puede aumentar conforme se incrementa el número variables o ítems. Por ello, algunos criterios de recomendación se basaron inicialmente en la ratio de personas por variable. Las recomendaciones variaban desde 3 personas por variable hasta 20. Se ha comprobado que la utilidad de estas reglas basadas en el tamaño muestral o en la ratio personas/variables es relativa, y que deben tenerse en cuenta otros aspectos. Resulta evidente que, fijado un número de factores, es mejor tener más variables que menos. Diversos autores (Guadagnoli y Velicer, 1988; MacCallum, Widaman, Preacher y Hong, 2001; MacCallum, Widaman, Zhang y Hong, 1999) han mostrado que resultan importantes aspectos como el tamaño de las comunalidades de las variables y el número de variables por factor (J/M): cuanto mayor sea el número de variables por factor y mayor su coeficiente de fiabilidad, más unívocamente se delimita el significado de los factores. MacCallum, Widaman, Zhang y Hong (1999) encuentran que si las comunalidades están en torno a 0,5 y el número de variables por factor es adecuado (p. ej., 6), muestras de 100 ó 200 personas pueden ser suficientes. Si las comunalidades son bajas o el número de variables por factor es pequeño (p. ej., 3 ó 4 variables por factor), la muestra debería ser mayor de 300 (o de 400, para Gorsuch, 2003) e incluso de 500 si se dan las peores condiciones (MacCallum, Widaman, Zhang y Hong, 1999). En realidad, en un estudio es difícil anticipar cuál será la comunalidad de las variables o, en todo caso, se puede anticipar que las comunalidades sean bajas (p. ej., en el AFE de ítems), por lo tanto hay que intentar mantener alto el número de variables por factor. Mundfrom, Shaw y Ke (2005) recomiendan una ratio de 7 variables por factor. En ese caso, incluso con muestras pequeñas y comunalidades entre 0,2 y 0,4, se encontraban resultados aceptables con muestras de 180 personas. Por el contrario, con 3 variables por factor y bajas comunalidades, el mínimo tamaño muestral requerido fue superior a 900 personas para soluciones de dos o más factores. A nivel orientativo, en la Tabla 6.26 se muestran los tamaños muestrales necesarios para una estructura con factores independientes, estimados en un estudio de simulación. Observe que, manteniendo constante la ratio de variables por factor (J/M), un incremento en el número de factores requiere un incremento en el tamaño de la muestra. También se requiere mayor tamaño a medida que se reduce el número de variables que pesan en cada factor. Estos datos deben considerarse sólo orientativos, pues los resultados dependen de las condiciones simuladas y del criterio utilizado para medir la recuperación de la estructura. Por ejemplo, en algunas casillas los tamaños muestrales requeridos son menores que 100. Sin embargo, como ya hemos mencionado, muestras de menos de 100 sujetos no son recomendables en ningún caso.
244 Medición en Ciencias Sociales y de la Salud Tabla 6.26. Mínima muestra necesaria para una recuperación excelente de la estructura factorial (de forma que en el 95% de las réplicas, el promedio de los coeficientes de congruencia entre los factores de la estructura factorial verdadera y la estimada fueran mayores que 0,98) (Adaptado de Mundfrom, Shaw y Ke, 2005)
variables / factor 3 4 5 6 7 8 9 10 11 12
Altas comunalidades (0,6-0,8)
Variabilidad en las comunalidades (0,2-0,8)
Bajas comunalidades (0,2-0,4)
Nº de factores
Nº de factores
Nº de factores
1
2
3
4
1
2
3
4
1
2
3
4
(*) (*) (*) (*) (*) (*) (*) (*) (*) (*)
320 150 (*) (*) (*) (*) (*) (*) (*) (*)
600 260 130 (*) (*) (*) (*) (*) (*) (*)
800 350 260 160 110 (*) (*) (*) (*) (*)
110 (*) (*) (*) (*) (*) (*) (*) (*) (*)
710 220 130 (*) (*) (*) (*) (*) (*) (*)
1300 350 200 140 105 (*) (*) (*) (*) (*)
1400 700 300 180 160 (*) (*) (*) (*) (*)
150 (*) (*) (*) (*) (*) (*) (*) (*) (*)
900 270 150 120 (*) (*) (*) (*) (*) (*)
1700 450 220 160 100 100 (*) (*) (*) (*)
2600 800 370 190 180 100 110 (*) (*) (*)
Nota (*): el tamaño muestral requerido es menor que 100.
Los estudios de validación cruzada (realizados en muestras distintas) pueden aportar también información acerca de la estabilidad de la estructura factorial (Thompson, 2004). La representatividad de la muestra es otro aspecto fundamental. La muestra debe ser representativa de la población a la que se pretenden generalizar los resultados. En este sentido, es muy importante que haya variabilidad en las dimensiones medidas. Por ejemplo, consideremos que se analiza mediante AFE la estructura interna de una prueba de aptitud espacial en una muestra de estudiantes de Ingeniería; en esta muestra puede haber un importante efecto de atenuación de las correlaciones entre ítems por restricción de rango, lo que llevaría a decisiones erróneas sobre la estructura interna del test, en caso de que se pretendiera aplicarlo a otro tipo de muestras.
Selección de las variables Otro aspecto importante en el diseño de un estudio factorial es la selección de las variables (tareas o ítems) a analizar. La estructura factorial puede modificarse en función del número y la diversidad de las variables introducidas. Por ejemplo, en un AFE sobre medidas de Memoria de Trabajo (MT) distintos investigadores pueden incluir tests diferentes. Un primer investigador puede incluir sólo tareas de contenido viso-espacial; otro selecciona una tarea viso-espacial, otra de contenido verbal y otra de contenido numérico; un tercero, varias tareas para cada contenido. Al realizar el AFE, cada uno obtendrá resultados distintos. Es posible que el primero obtenga un factor de MT viso-espacial, el segundo un factor de MT general y, el tercero, un factor general y varios específicos. En este ejemplo se ilustran algunas consideraciones importantes sobre las variables a incluir en un Análisis Factorial Exploratorio:
Capítulo 6. Análisis Factorial Exploratorio
245
1. La selección de tareas determina el nivel de generalidad de las variables latentes. El primer y el segundo investigador obtienen un único factor de MT, pero la naturaleza del factor obtenido en cada estudio es distinta. 2. Un factor sólo puede aparecer si se incluyen variables en el AFE que midan ese factor. En el ejemplo anterior, es evidente que el primer investigador no puede obtener el factor general y el segundo investigador no puede obtener el factor específico. 3. Una variable puede ser indicadora de distintas variables latentes, en función del conjunto de variables adicionales consideradas en el análisis. Por ejemplo, la proporción de varianza común que compartiría con las otras pruebas el test de MT viso-espacial es distinta en cada uno de los estudios. Todo lo anterior sirve para resaltar la importancia que tiene plantear estudios sobre evidencias de validez de contenido (como se enfatizó en el tema 5), previos a la aplicación de un test. Esos estudios previos pueden servir para descubrir aspectos relevantes que deben considerarse para garantizar la representación del dominio, y que de otra forma pueden ser ignorados.
Recomendaciones en cuanto a la selección de la muestra y de las variables Combinando los aspectos de tamaño muestral y de selección de variables, y siguiendo en parte las recomendaciones de Ferrando y Anguiano (2010), deberíamos considerar: 1. No utilizar nunca muestras de menos de 200 personas. 2. Utilizar al menos 4 variables por factor (con pesos sustanciales en el mismo) o, si se trata de un AFE de ítems, al menos 7 variables por factor. 3. Contrastar modelos teóricos de pocos factores. 4. A ser posible, utilizar variables marcadoras, por ejemplo ítems que pesan en un único factor conocido y que han sido identificados en estudios previos. 5. Evitar la inclusión de ítems redundantes, ya que éstos suelen dar problemas de ajuste del modelo (p. ej., presencia de residuos altos). 6. Para la selección de los ítems, atender a la evidencia sobre la validez basada en el contenido.
246 Medición en Ciencias Sociales y de la Salud
Apéndice 6.1. Componentes Principales Concepto de autovalor y autovector en el contexto del AF Los conceptos de autovector y autovalor provienen del campo del álgebra lineal. Su comprensión técnica está más allá de los objetivos de este capítulo, pero es fácil ilustrar a qué se denomina autovector y autovalor en el contexto del AFE. Considere un conjunto de J variables Xj; las relaciones entre las variables Xj se expresan en la matriz de varianzas-covarianzas S. En el álgebra lineal se conoce cómo descomponer un conjunto de puntuaciones Xj observadas en otro nuevo conjunto de J variables predictivas P1, …, Pm,…, PJ independientes (p. ej., rP1P2 = 0) y ordenadas por su importancia predictiva, tales que se cumpla que cualquier puntuación observada Xj sea función de esas nuevas variables P: J
∑ω
Xj =
[6.23]
jm Pm
m =1
donde ωjm es el peso de la variable Xj en la variable predictiva Pm; puesto que las variables predictoras Pm son independientes, los elementos de la matriz de varianzas y covarianzas S se deducen perfectamente de los pesos ω y de las varianzas de las J variables Pm: S X2 j =
SX
M
∑ω m =1
j X j'
=
2 2 jm S Pm
M
∑ω m =1
2 jmω j ' m S Pm
[6.24] [6.25]
Para que el modelo [6.25] esté identificado, los pesos deben satisfacer algunas restricciones10: J
∑ω
2 jm
= 1 , para cualquier m
[6.26]
2 jm
= 1 , para cualquier j
[6.27]
j =1 J
∑ω m =1
J
J
∑∑ ω j =1 j '=1 J
J
∑ ∑ω m =1 m '=1
jmω j 'm
= 0 , para cualquier m ( j ≠ j’)
[6.28]
jmω jm '
= 0 , para cualquier j (m ≠m’)
[6.29]
Además, dadas las restricciones anteriores, la importancia predictiva de las variables P está relacionada con su varianza. Así pues, las nuevas variables P están ordenadas por el tamaño de su varianza (S2P1 > S2P2 >…> S2PJ); P1 es la variable más predictiva y tiene la máxima varianza posible que pue-
10
Matricialmente, Ω’Ω = I, siendo Ω la matriz de pesos de dimensiones J x J e I la matriz identidad.
Capítulo 6. Análisis Factorial Exploratorio
247
de tener una variable construida de esa manera; P2 es la variable que tiene la máxima varianza después de P1, etc. Pues bien, si se crean las variables P de esa manera, la varianza de cada variable predictiva Pm (S 2Pm) coincide con lo que en álgebra lineal se denomina autovalor m de la matriz S, y nos referiremos a éste como γ m. El vector de pesos de las variables predictivas Pm coincide con lo que en álgebra lineal se llama autovector m de la matriz S y nos referiremos a éste como ωm{ωm: ω1m, ω2m, …, ωjm,…, ωJm}.
Método de Componentes Principales Observe que el modelo [6.23] es muy similar al modelo de la ecuación fundamental del AFE [6.1]. En la ecuación [6.23] las variables P no están estandarizadas (algo que hemos venido asumiendo para las variables F). Si estandarizamos las variables P y llamamos F a la variable P estandarizada, se obtendría el siguiente modelo, casi idéntico al de la ecuación [6.1]: Xj =
J
∑λ
jm Fm
[6.29]
m =1
donde:
λ jm = ω jm S Pm = ω jm γ m
[6.30]
Para algunos autores, el modelo de la ecuación [6.23] puede utilizarse para estimar el modelo factorial. Se obtienen los autovalores (γ) y autovectores (ωm) de la matriz R de correlaciones11. Conocidos éstos, se obtienen los pesos definitivos (λ) mediante la ecuación [6.30]. Aplicando el modelo de la ecuación [6.23] el investigador obtiene J factores que predicen el 100% de la varianza. Como sabemos, el objetivo del AFE es predecir un conjunto de J variables a partir de un conjunto menor de M factores (donde M < J). Para ello el investigador selecciona las primeras M variables Pm, las más predictivas, a las que denomina componentes; de forma que el modelo quedaría como: Xj =
M
∑λ
jm Fm
[6.31]
m =1
A este procedimiento de estimación de los pesos se le denomina Componentes Principales (CP). La técnica de CP es una de las más utilizadas como procedimiento de AFE por su sencillez y porque constituye la técnica por defecto de programas como el SPSS. Sin embargo, su uso supone un grave error, ya que existe una diferencia importante entre las ecuaciones [6.1] y [6.31]. En la ecuación [6.31] no se distingue entre factores comunes y únicos (observe que ha desaparecido el término Ej de la ecuación); esto significa asumir que las variables no tienen parte específica ni error de medida (algo que nunca es cierto) y puede llevar a resultados erróneos en la estimación de los parámetros. Por ejemplo, suponga que aplica el modelo de un factor (M = 1). En este caso, aplicar CP es equivalente a buscar los parámetros λ que hacen que las expresiones mostradas en la Tabla 6.27 se aproximen a cero. Observe las diferencias en los valores diagonales de la Tabla 6.12 y de la Tabla 6.27. En el método CP se asume que los parámetros ψj son 0 para todas las variables y por tanto, implícitamente, se modifican las ecuaciones correctas del modelo (las de la Tabla 6.12).
11
Si las variables Xj estandarizadas, S es la matriz de correlaciones R.
248 Medición en Ciencias Sociales y de la Salud Tabla 6.27. Parámetros a estimar y expresiones para la estimación del modelo de un factor (CP) Parámetros:
λ11 , λ 21 , λ31 , λ 41 , λ51 , λ61 , λ71 Expresiones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0 2 1 − λ11
0,328 − λ 21λ11 1 − λ 221 0,332 − λ 31λ11 0,415 − λ 31λ 21 0,188 − λ 41λ11
0,231 − λ 41λ 21
2 1 − λ 31
0,065 − λ 41λ 31
1 − λ 241
2 0,152 − λ 51λ11 0,170 − λ 51λ 21 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ 51 0,174 − λ 61λ11 0,277 − λ 61λ 21 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51
2 1 − λ 61
2 0,223 − λ 71λ11 0,348 − λ 71λ 21 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71
En términos de interpretación (decidir qué ítems pesan en cada factor) las diferencias con otros métodos suelen ser pequeñas, dado que sólo se modifican las ecuaciones de la diagonal. Sin embargo, en el método CP las saturaciones, las comunalidades y las correlaciones residuos serán artificialmente mayores, pudiendo dar una idea equivocada del modelo (p. ej., sobrestimando el poder explicativo de los factores). Por otro lado, las diferencias entre CP y otros métodos se reducen cuanto mayor es el número de variables y/o mayores las comunalidades (Henson y Roberts, 2006): cuanto mayor el número de variables, menor es la proporción de las ecuaciones en la diagonal (p. ej., para 4 variables, los valores en la diagonal suponen un 40% de los elementos no redundantes, mientras que con 10 variables suponen un 18%); cuanto mayores son las comunalidades más correcto es el supuesto de que ψj = 0. Aun dicho esto, es preferible el uso de otros métodos de estimación.
Ejemplo 6.18. Matriz factorial inicial por CP Para los datos de la Tabla 6.2, los autovalores se muestran en la Tabla 6.28.
Tabla 6.28. Autovalores de la matriz R Autovalores Componentes
Total
% de la varianza
% de la varianza acumulado
1 2
2,469 1,272
35,265 18,174
35,265 53,439
3
0,831
11,874
65,313
4
0,742
10,603
75,916
5
0,686
9,797
85,713
6 7
0,539 0,461
7,705 6,582
93,418 100,000
En la solución inicial los factores aparecen ordenados por su importancia predictiva, lo que es característico de la mayor parte de los métodos. Cada autovalor indica la varianza que tendría cada uno de los J componentes principales, P, antes de ser estandarizados (γ1 = 2,469; γ2 = 1,272,…; γJ = 0,461). La suma de las varianzas de los componentes sin estandarizar es igual a la suma de las va-
249
Capítulo 6. Análisis Factorial Exploratorio
rianzas de las variables Xj, que en este caso es 7. En la segunda columna aparece el porcentaje de varianza total explicado por el componente [γm100/J]. El primer Componente explica el 35,265% de la varianza total. Entre los dos primeros componentes se explica el 53,439% de la varianza. Ésta es una sobrestimación de la proporción de varianza total explicada (ver Ejemplo 6.5). En la Tabla 6.29 se muestra la matriz factorial inicial con los pesos λ de las variables en los componentes extraídos, que se denomina Matriz de Componentes. Si el investigador extrajera dos componentes obtendría la parte izquierda de la tabla; puede verse que esos pesos son excesivamente altos, comparándolos con los de la matriz factorial no rotada obtenida por ML (ver Tabla 6.19).
Tabla 6.29. Matriz de Componentes no rotada (pesos λ) Matriz de Componentes
Componentes Ignorados
1
2
3
4
5
6
7
X2
0,568 0,687
0,370 0,365
0,324 –0,132
0,137 –0,060
0,643 –0,262
–0,023 –0,519
–0,052 –0,192
X3
0,506
0,607
0,233
0,092
–0,389
0,356
0,183
X4
0,631
–0,545
0,196
0,066
–0,034
–0,207
0,466
X5
0,570
–0,549
0,388
–0,089
–0,154
0,179
–0,399
X6
0,567 0,611
–0,187 –0,008
–0,553 –0,398
0,548 –0,631
0,039 0,160
0,171 0,197
–0,075 0,074
X1
X7
Apéndice 6.2. Otros métodos de extracción Método de Ejes Principales El método de Ejes Principales (EP) es muy similar al método de CP pero proporciona resultados más adecuados. Primero se obtiene la matriz de correlaciones reducida (R*), que es igual que la matriz de correlaciones observadas salvo en un punto: se sustituyen los valores de la diagonal por una estimación de las comunalidades de cada variable. De esta forma se descuenta de las varianzas de las variables la parte que se debe a los factores específicos y que no se predice por los pesos λ. Puesto que no se conocen las comunalidades de las variables, se establece un procedimiento iterativo para su estimación: 1. Como estimación inicial de la comunalidad puede utilizarse la correlación múltiple al cuadrado12. Una vez obtenida la matriz R*, se obtienen los autovalores (γm) y autovectores (ωm) de esa matriz; después, se obtienen los pesos λ de los M factores que haya decidido extraer el investigador (aplicando la ecuación [6.30]). 12
La correlación múltiple al cuadrado indica la proporción de varianza de una variable Xj que se puede predecir a partir de las otras variables Xj y, por tanto, es una estimación de la proporción de varianza de una variable que es común a las demás variables.
250 Medición en Ciencias Sociales y de la Salud 2. A partir del modelo inicial obtenido en el paso anterior, se obtienen nuevas comunalidades, se obtiene una nueva matriz R* y se vuelven a obtener los pesos λ con esa nueva matriz. Se repite el proceso hasta que no haya cambios en los pesos λ en iteraciones sucesivas. Las comunalidades y parámetros λ obtenidos en la última iteración son considerados como definitivos. Aplicar EP es muy similar a buscar los parámetros λ que hacen que las ecuaciones mostradas en la Tabla 6.30 se aproximen a cero. Esta tabla es similar a la mostrada en la Tabla 6.19, lo que quiere decir que EP es un método adecuado de AF.
Tabla 6.30. Parámetros a estimar y expresiones para la estimación del modelo de un factor (EP) Ecuaciones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0 2 − ψˆ1 1 − λ11 0,328 − λ 21λ11 1 − λ 221 − ψˆ 2 0,332 − λ 31λ11 0,415 − λ 31λ 21 0,188 − λ 41λ11 0,231 − λ 41λ 21 0,152 − λ 51λ11 0,170 − λ 51λ 21 0,174 − λ 61λ11 0,277 − λ 61λ 21 0,223 − λ 71λ11 0,348 − λ 71λ 21
2 − ψˆ 3 1 − λ 31 0,065 − λ 41λ 31 1 − λ 241 − ψˆ 4 2 − ψˆ 5 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ 51 2 − ψˆ 6 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51 1 − λ 61 2 − ψˆ 7 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71
Método de Mínimos Cuadrados no Ponderados (ULS) En el método ULS, se buscan aquellos parámetros que minimizan directamente las discrepancias entre los elementos de la matriz de correlaciones observadas y los elementos de la matriz de correlaciones reproducida. Por ejemplo, para el modelo de un factor (ver tabla 6.30):
F (λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ,...ψ J ) = =
J
∑ j
(1 −λ2j1 − ψ j ) 2 +
J
J
∑∑ (r j =1 j '=1 j '≠ j
jj '
− λ j1λ j '1 ) 2
[6.32]
La diferencia principal entre ULS y EP es que en ULS se estiman los parámetros ψ sin iteraciones. Primero se estiman las unicidades. Conocidas las unicidades, se obtienen las comunalidades y, por tanto, la matriz R* definitiva. El resto del proceso es similar al método EP pero sin iteraciones, pues las comunalidades estimadas en el primer paso de ULS son definitivas. Se obtienen los autovalores y autovectores de la matriz de correlaciones reducida, R*, y se obtienen los pesos λ de los M factores que haya decidido extraer el investigador. ULS se considera un método más correcto que EP, aunque ambos suelen proporcionar resultados casi idénticos.
Método de Máxima Verosimilitud (ML) Cómo su propio nombre indica, mediante el procedimiento ML se obtienen aquellos parámetros que maximizan la verosimilitud de las respuestas en la muestra:
L( X; λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ...ψ J )
[6.33]
Capítulo 6. Análisis Factorial Exploratorio
251
donde X es la matriz I x J con las respuestas de las personas. Bajo el supuesto de que las variables siguen una distribución multivariada normal, la función anterior equivale a:
L ≡ L(R | λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ...ψ J )
[6.34]
Donde R es la matriz de correlaciones que contiene toda la información necesaria para la estimación y L sigue una distribución conocida (la distribución de Wishart). La diferencia principal entre ML y ULS es que en ML se tiene en cuenta que la muestra de personas proviene de una población. En ML se busca qué valor deben tener los parámetros del modelo poblacional para maximizar la verosimilitud de los datos en la muestra. Para ello se hacen supuestos sobre la distribución de las variables en la población. En ULS se buscan directamente los parámetros que minimizan los residuos en la muestra. Los procedimientos de estimación son muy similares a los utilizados para ULS. Primero se estiman las unicidades, ya que los pesos en cada factor (λm) y las unicidades (ψj) se pueden estimar independientemente. Conocidas las unicidades, existe un procedimiento para encontrar los pesos λm que maximizan la ecuación [6.34]. Primero, se re-escalan las variables Xj para que sus unicidades sean 1. Para re-escalar la variable j, se divide por la raíz de su unicidad:
X *j =
Xj
ψ
[6.35] j
Posteriormente, se obtiene la matriz de varianzas-covarianzas S entre las variables X*j. Finalmente, se resta 1 de cada valor de la diagonal de la matriz S para construir una nueva matriz S, S*. Esto es análogo a lo que se hacía en los procedimientos ULS o EP; se descuenta de las varianzas de las variables X*j la parte que se debe a los factores específicos y que no se predice por los pesos λ (recuerde que 1 es el valor de unicidad de las variables X*j). El resto del proceso es similar al descrito para ULS. Se obtienen los autovalores y autovectores de la matriz S* y se obtienen los pesos λ de los M factores que haya decidido extraer el investigador. En el caso de ML, los pesos para las variables Xj se obtienen como:
λ jm = ψ j ω jm γ m
[6.36]
donde γm y ωm son, respectivamente, el autovalor y el autovector m de la matriz S*. Por tanto, y tal como recuerdan Ferrando y Anguiano (en prensa), utilizar el método ML es equivalente a minimizar las correlaciones parciales entre variables (las correlaciones entre variables después de restar el efecto de los factores comunes). Cada correlación parcial no es más que el residuo “estandarizado” (dividido por la raíz del producto de las varianzas específicas de las variables):
rX j X j ' , F 1F 2... =
res jj '
ψ jψ j '
Por esa razón, ULS y ML proporcionarán generalmente resultados muy parecidos.
[6.37]
252 Medición en Ciencias Sociales y de la Salud
Ejemplo 6.19. Matriz factorial no rotada obtenida por distintos métodos (EP, ULS y ML) Para los datos de la Tabla 6.2, las matrices factoriales (no rotadas) obtenidas mediante los distintos métodos aparecen en la Tabla 6.31. Los valores son muy similares cuando se utilizan ULS y EP. El patrón de pesos es muy similar al que se obtenía utilizando CP (ver Tabla 6.29). Sin embargo, al utilizar ULS, EP o ML se obtienen valores λ sensiblemente inferiores para los pesos factoriales (lo que ilustra que en el método CP se sobrestiman los pesos λ).
Tabla 6.31. Matriz factorial no rotada obtenida por los métodos EP, ULS y ML Matriz factorial (EP)
Matriz factorial (ULS)
Matriz factorial (ML)
1
2
1
2
1
2
X2
0,451 0,625
0,229 0,351
0,451 0,624
0,229 0,351
0,397 0,544
0,301 0,472
X3
0,420
0,424
0,420
0,425
0,332
0,491
X4
0,644
–0,496
0,645
–0,497
0,736
–0,365
X5
0,504
–0,351
0,503
–0,350
0,565
–0,251
X6
0,444 0,484
–0,058 0,044
0,444 0,484
–0,058 0,045
0,446 0,455
0,037 0,158
X1
X7
Apéndice 6.3. Métodos adicionales para decidir el número de factores El método MAP (Minimum Average Partial Correlation) En el método MAP (Velicer, 1976) se calcula la matriz de correlaciones parciales (las correlaciones entre variables después de restar el efecto de los factores comunes):
rX j X j ' , F 1F 2... = res jj '
ψ jψ j '
Para un número concreto de factores (m: 1, 2, 3…) se calcula el promedio de las correlaciones parciales (al cuadrado). El número de factores a retener es el valor m en el que el promedio alcanza un mínimo. La lógica es que cada nuevo factor que explica las covarianzas entre ítems reduce los residuos. Cuando un factor no explique demasiada varianza común, el numerador (los residuos) no se reducirá, pero sí el denominador (las varianzas específicas de las variables), con lo que el indicador comenzará a aumentar. Existen macros de SPSS y SAS que permiten hacer uso de este efectivo procedimiento (O’Connor, 2000).
Capítulo 6. Análisis Factorial Exploratorio
253
Medidas de ajuste heurísticas derivadas de los modelos de Análisis Factorial Confirmatorio Se han desarrollado numerosas medidas de ajuste en el marco de los modelos de Análisis Factorial Confirmatorio. Dos de ellas son los indicadores CFI y NNFI (o TLI). La explicación de estos indicadores se desarrolla en el capítulo 10. Baste por el momento saber que estos indicadores toman valores entre 0 y 1 y que valores por encima de 0,9 son necesarios para concluir que el modelo se ajusta a los datos. TLI y CFI son medidas de ajuste comparativo; esto quiere decir que se compara el modelo factorial con otro modelo mucho más simple, el modelo de independencia (modelo en el que se asume que las variables Xj no están correlacionadas en la población y que, por tanto, no hay factores comunes). Si el valor del TLI y el CFI es superior a 0,9 al extraer m factores, puede concluirse que el modelo propuesto es mucho mejor que el modelo de independencia.
Ejemplo 6.20. Decisión sobre el número de factores: otras reglas En el ejemplo de la Tabla 6.2, según la regla MAP se extraería un único componente (ver Tabla 6.32).
Tabla 6.32. Número de factores atendiendo a la regla MAP Promedio de las correlaciones parciales al cuadrado 0 Componentes
0,0697
1 Componentes
0,0503
2 Componentes
0,0720
3 Componentes
0,1302
4 Componentes
0,2458
5 Componentes
0,4272
6 Componentes
1
En la Tabla 6.33 se muestran los valores TLI y CFI para los modelos de uno y dos factores. En este caso, el modelo de dos factores proporciona un buen ajuste a los datos (TLI, CFI > 0,90), mientras que el modelo de un factor no se ajusta (TLI, CFI < 0,9).
Tabla 6.33. Valores TLI y CFI para los modelos de uno y dos factores Modelo de un factor Modelo de dos factores
TLI
CFI
0,73 0,96
0,60 0,99
254 Medición en Ciencias Sociales y de la Salud
Apéndice 6.4. El significado del término rotación El término rotación tiene su origen en la interpretación geométrica del AFE. Las variables pueden representarse como vectores en un espacio con tantas dimensiones como factores y sus pesos factoriales como coordenadas en los ejes que representan los factores. Por ejemplo, para una solución de dos factores el vector de la variable X3 se prolongaría desde el punto (0, 0) hasta el punto (λ31, λ32). En la Figura 6.6 se representan los pesos factoriales de 7 variables en 2 factores.
Figura 6.6. Representación geométrica de la matriz factorial 1 0,8
Matriz factorial no rotada 1
2
X1
0,397
0,301
X2
0,544
0,472
X3
0,332
0,491
X4
0,736
–0,365
X5
0,565
–0,251
X6
0,446
0,037
X7
0,455
0,158
0,6 0,4 F2
0,2 0 − 0,2 − 0.4 − 0.6 − 0.8
X3 X1 X7 X6
X2
X5
X4
−
−1 −1 − 0,8−0,6 −0,4 0,2 0 0,2 0,4 0,6 0,8 1 F1
En la figura se representan los ítems como puntos. Observe que las coordenadas para cada ítem son sus pesos λ en los factores. Por ejemplo, el ítem 3 se sitúa en las coordenadas (0,332, 0,491). El vector para ese ítem se señala con una flecha. Las ecuaciones que hemos estudiado tienen su “traducción” geométrica. Por ejemplo, la comunalidad es la raíz de la longitud del vector. Para el ítem 3, la longitud del vector que va desde el origen hasta ese punto puede calcularse, siguiendo el Teorema de Pitágoras, como 0,3322 + 0,4912 que es 0,593. Observe que ese valor es justamente la raíz de la comunalidad de ese ítem ( h32 = 0,332 2 + 0,4912 = 0,351 ). Otro ejemplo de esta traducción geométrica se refiere a las correlaciones. La correlación reproducida entre dos variables (sean éstas, por ejemplo, ítems o factores) es el coseno entre los correspondientes vectores, multiplicado por las longitudes de los vectores. Es decir, la correlación entre dos variables se relaciona con el ángulo entre los vectores que las representan. En la Figura 6.7 aparecen las representaciones de las relaciones entre un ítem y un factor (izquierda) y entre dos factores (derecha). La correlación entre X3 y F2 sería el coseno del ángulo que forman los vectores [Cos 34º = 0,828] multiplicado por 1 (la longitud del vector asociado al Factor) y por 0,593 (la longitud del vector asociado a X3); es decir, que, en este caso, la correlación sería 0,491. En la figura de la derecha puede comprobarse que la correlación entre los dos factores sería 0 (Cos 90º = 0).
255
Capítulo 6. Análisis Factorial Exploratorio
Figura 6.7. Representación de la relación entre F2 y X3 (izquierda) o de la relación entre F1 y F2 (derecha) 1 0,8
1 0,8
0,6 0,4 F2
0,6 0,4
X3
34º
0,2 0 − 0,2 − 0,4
F2
− 0,6 − 0,8 −1
0,2 0 −0,2 −0,4 −0,6 −0,8 −1
− 1 −0,8−0,6−0,4−0,2 0 0,2 0,4 0,6 0,8 1 F1
−1 − 0,8−0,6−0,4−0,2 0 0,2 0,4 0,6 0,8 1 F1
En otras palabras, la posición relativa de los vectores y su longitud representan el modelo factorial. Desde esta interpretación geométrica, la transformación de los pesos puede entenderse como una rotación de los ejes de representación en el espacio geométrico. Al rotar los ejes, cambian las coordenadas pero no cambian las comunalidades (la longitud de los vectores asociados a las variables) ni las correlaciones reproducidas (los cosenos entre los vectores asociados a las variables). Esto puede observarse en la Figura 6.8, en la que se representa el resultado de una rotación ortogonal. La rotación ortogonal se caracteriza porque los ejes se rotan de tal forma que siguen manteniendo un ángulo de 90º entre sí.
Figura 6.8. Representación geométrica de la matriz factorial rotada (VARIMAX)
Matriz factorial rotada 1
2
X1
0,162
0,471
X2
0,190
0,695
X3
0,002
0,593
X4
0,815
0,106
X5
0,609
0,105
X6
0,350
0,279
X7
0,290
0,384
F2 X3
X2 X1 X7 X6 X5
X4 F1
256 Medición en Ciencias Sociales y de la Salud En la Figura 6.9 se representa el resultado de una rotación oblicua. En este caso, cada eje se rota por separado, lo que implica que pueden mantener entre sí un ángulo distinto de 90º, y que por tanto pueden correlacionar.
Figura 6.9. Representación geométrica de la matriz factorial rotada o de configuración (OBLIMIN)
Matriz factorial rotada 1 X1
2
0,060
0,471
X2
0,036
0,706
X3
–0,139
0,635
X4
0,842
–0,055
X5
0,623
–0,013
X6
0,306
0,226
X7
0,217
0,351
F2 X3
X2 X1 X7 X6 X5
X4 F1
Apéndice 6.5. Análisis factorial de segundo orden Si obtenemos más de dos factores correlacionados, pueden obtenerse factores de segundo orden (es decir, factores que explican las correlaciones entre los factores de primer orden). En un AFE de segundo orden se toma como matriz de entrada la matriz de correlaciones entre factores obtenida tras realizar el AFE de los ítems. Se obtienen entonces pesos λjm de primer orden (pesos de las variables Xj sobre los M factores primarios, Fm) y pesos λmm’ de segundo orden (pesos de los factores primarios Fm sobre los M’ factores generales o de segundo orden, Fm’). En términos de ecuaciones:
Xj =
M
∑λ
jm Fm
+ Ej
[6.38]
m =1
Fm =
M'
∑λ
m '=1
mm ' Fm '
+ Em
[6.39]
donde λjm es el peso de la variable Xj en el factor de primer orden Fm ; λmm’ es el peso del factor de primer orden Fm en el factor de segundo orden Fm’. Em es la parte específica del factor de primer orden (es decir, la parte que no tiene que ver con los factores de segundo orden). En ocasiones interesa conocer: (1) La influencia directa del factor de segundo orden, Fm’, sobre las variables; (2) La influencia de los factores de primer orden, Fm, sobre las variables que es independiente del factor de segundo orden. A la parte del factor de primer orden, Fm, que es independiente del factor de segundo orden la denominaremos, Fm(SL). El modelo quedaría como:
257
Capítulo 6. Análisis Factorial Exploratorio
Xj =
M'
∑
m '=1
λ jm '( SL ) Fm′ +
M
∑λ m =1
jm ( SL ) Fm ( SL )
+ Ej
[6.40]
donde los factores Fm’ y Fm(SL) son independientes y están expresados en puntuaciones típicas. Para obtener los nuevos pesos puede hacerse una transformación de los pesos originales: M
∑λ
λ jm '( SL ) =
m =1
jm λ mm '
[6.41]
λ jm ( SL ) = λ jm 1 − hm2
[6.42]
donde hm2 es la comunalidad del factor Fm. En efecto, a partir de las ecuaciones [6.38] y [6.39]:
Xj =
M
∑ m =1
=
∑(
)
M' λ mm′ Fm′ + E m + E j = m'=1
λ jm
M M' λ jm λ mm′ Fm′ + λ jm E m + E j = m =1 m '=1 m =1 M
∑∑
∑
M M' M λ jm λ mm′ Fm′ + λ jm E m + E j = m=1 m'=1 m=1
∑∑
∑
Y, considerando las ecuaciones [6.41] y [6.42], se obtiene la ecuación [6.40]:
M M' Xj = λ jm′( SL ) Fm ' + λ jm ( SL ) Fm ( SL ) + E j m =1 m '=1
∑
∑
donde Fm(SL) es la parte específica del factor de primer orden expresada en puntuaciones típicas:
Fm( SL ) =
Em 1 − hm2
[6.43]
La ecuación [6.41] indica los pesos directos de las variables en el factor general Fm’ y la ecuación [6.42] indica los pesos en unos nuevos factores específicos, Fm(SL), que son ortogonales al factor general y que representan el efecto del factor específico que no tiene que ver con el factor general. A esta transformación de los pesos se la denomina transformación Schmid-Leiman (Schmid y Leiman, 1957) y se pueden obtener con el programa Factor (Lorenzo y Ferrando, 2006).
258 Medición en Ciencias Sociales y de la Salud
Ejemplo 6.21. AFE de segundo orden En la Tabla 6.34 se muestran los resultados de un AFE (1º y 2º orden) aplicado a las puntuaciones de 1.369 personas en los subtests del WAIS-III. Los factores de primer orden obtenidos estaban fuertemente correlacionados (rF1F2 = 0,766; rF1F3 = 0,796; rF2F3 = 0,707), por lo que se extrajo un factor de segundo orden (F1’). Los pesos obtenidos en el AF de primer orden se muestran en la parte superior izquierda (p. ej., Comprensión es la variable que más pesa en F2 con una saturación de 0,88). Los pesos obtenidos en el AF de segundo orden se muestran en la parte inferior izquierda de la tabla (p. ej., F1 es la variable que más pesa en el factor general, F1’, con una saturación de 0,93). Los resultados de la transformación Schmid-Leiman se muestran en la parte derecha de la tabla. Los factores F1(SL), F2(SL), F3(SL) y F1’(SL) son independientes. Puede observarse que el factor general, F1’(SL) tiene pesos muy altos en todas las variables, mientras que el peso directo en los factores específicos (F1(SL), F2(SL) y F3(SL)) es bastante bajo, especialmente para el primero de ellos. Los pesos son fáciles de obtener. Por ejemplo, el peso λ11’(SL) de Vocabulario en el factor general, F1’, es 0,08(0,93) + 0,80(0,83) + 0,03(0,86) = 0,75. El peso λ12(SL) de Vocabulario en su factor específico es 0,80(0,56) = 0,45, donde 0,56 es la raíz de (1 – 0,69).
Tabla 6.34. AFE de primer y de segundo orden (método ML, rotación Direct-Oblimin) Análisis factorial de primer orden1
Vocabulario Semejanzas Comprensión Información Fig. Incompletas Cubos Matrices Historietas Rompecabezas Dígitos Letras/números Claves num. Búsqueda de Símbolos Aritmética
Pesos Schmid-Leiman
F1
F2
F3
0,08 0,15 –0,11 0,13 0,66 0,89 0,79 0,69 0,86 0,00 0,07 0,68
0,80 0,73 0,88 0,69 0,21 0,00 0,10 0,13 –0,01 0,08 0,03 –0,06
0,03 0,01 0,05 0,04 –0,04 –0,03 0,02 0,04 –0,06 0,76 0,85 0,22
0,75
–0,08
0,17
0,25
0,28
0,32
Vocabulario Semejanzas Comprensión Información Fig. Incompletas Cubos Matrices Historietas Rompecabezas Dígitos Letras/números Claves num. Búsqueda de Símbolos Aritmética
Análisis factorial de segundo orden F1 F2 F3 1
F1’
hm2
0,93 0,83 0,86
0,86 0,69 0,74
Se resaltan en negrita las correlaciones mayores que 0,3
F1(SL)
F2(SL)
F3(SL)
F1’
0,03 0,05 –0,04 0,05 0,24 0,33 0,29 0,26 0,32 0,00 0,03 0,25
0,45 0,41 0,50 0,39 0,12 0,00 0,06 0,08 –0,01 0,05 0,02 –0,03
0,01 0,01 0,03 0,02 –0,02 –0,02 0,01 0,02 –0,03 0,39 0,44 0,11
0,75 0,74 0,67 0,72 0,75 0,80 0,84 0,79 0,74 0,72 0,82 0,78
0,28
–0,05
0,09
0,77
0,09
0,16
0,16
0,73
Capítulo 6. Análisis Factorial Exploratorio
259
Apéndice 6.6. El análisis factorial de ítems Cuando se analizan variables categóricas (p. ej., ítems dicotómicos o de categorías ordenadas), las correlaciones de Pearson pueden ser inadecuadas para establecer su grado de relación, ya que variables con distribuciones similares tienden a correlacionar más alto que variables con distribuciones distintas. Por ejemplo, en el caso dicotómico, la correlación de Pearson máxima entre dos ítems de igual dificultad es 1, mientras que la correlación máxima entre dos ítems con índices de dificultad 0,9 y 0,1 es 0,11. Esto hace que, al realizar el análisis factorial, surjan los denominados como factores de dificultad (factores donde se agrupan ítems de dificultad similar). Otro problema es que el análisis factorial asume relaciones lineales entre las variables observables y los factores latentes, lo cual no es asumible para las variables categóricas (donde existen puntuaciones máximas y mínimas), especialmente si los ítems son muy discriminativos. Posibles soluciones son: 1. Llevar a cabo el análisis factorial sobre las correlaciones tetracóricas (policóricas) entre las variables dicotómicas (politómicas). Las correlaciones tetracóricas son un tipo especial de correlación que se basa en la siguiente idea. En la Figura 6.10 se muestra un gráfico de dispersión que representa la relación entre dos variables continuas, Z1 y Z2. La correlación entre ambas es r = 0,640. Suponga que se crean dos nuevas variables, X1 y X2, dicotomizando cada una de las dos variables según las líneas de referencia que aparecen en la figura (si Z1 > 1, X1 = 1, de lo contrario X1 = 0; si Z2 > 0, X2 = 1, de lo contrario X2 = 0). En la tabla de la derecha, aparece una tabla de contingencia que indica la frecuencia de casos con cada patrón de respuestas en los dos ítems. Pues bien, la correlación tetracórica entre las variables X1 y X2 es una aproximación a la correlación de Pearson entre las variables Z1 y Z2. Para calcular la correlación tetracórica entre dos variables X dicotómicas se asume que a cada una de esas variables subyace una variable Z continua dicotomizada (también se asume que esas variables subyacentes tienen una distribución bivariada normal). Con los datos de la tabla de contingencia entre X1 y X2 y los supuestos anteriores, puede deducirse la correlación original entre Z1 y Z2. En nuestro ejemplo, la correlación de Pearson entre X1 y X2 es 0,293, mientras que la correlación tetracórica es 0,552, mucho más próxima a la correlación real entre las variables Z1 y Z2.
Figura 6.10. Correlación tetracórica Gráfico de dispersión entre las variables Z1 y Z2 4
Tabla de contingencia entre las variables X1 y X2
3
X1
2 1
Z2
0 −1 − 2 − 3 − 4 −4
−3
−2
−1
0
Z1
1
2
3
4
0 1
0 463 26 489
X2
1 373 138 511
836 164
260 Medición en Ciencias Sociales y de la Salud Un razonamiento similar se puede seguir para calcular la correlación policórica. Existen distintos programas que permiten realizar el AFE sobre las matrices de correlaciones tetracóricas (o policóricas): PRELIS-LISREL (Jöreskog y Sörbom, 2004), MPLUS (Muthen y Muthen, 2006) o FACTOR (Lorenzo y Ferrando, 2006) son algunas de las alternativas. La única particularidad es que, por el tipo especial de correlaciones, es preferible el uso de métodos robustos de estimación (p. ej., RWLS en MPLUS). Al aplicar estos programas, obtendremos los parámetros λ, ψ y τ del siguiente modelo para las variables latentes:
Zj =
M
∑λ
jm Fm
+ Ej
[6.41]
m =1
El parámetro ψ es la varianza específica o error (varianza de Ej) y τj es una estimación del umbral por el que se dicotomiza la variable Zj tal que:
X j = 1, si Z j > τ j
[6.42]
X j = 0, si Z j ≤ τ j
2. Existen procedimientos más sofisticados para resolver los problemas descritos, como es la aplicación del Análisis Factorial de Información Completa (Full Information Factor Analysis) implementado en TESTFACT (Bock y cols., 2003). En este caso, se estima el modelo:
1
P j (θ 1 ,..., θ m ,..., θ M ) ≅ 1 + exp(1,702
τj
− 1,702
ψ
M
∑
m =1
λ jm ψ
[6.43]
θm )
donde la probabilidad de acertar el ítem es función del nivel del evaluado en M rasgos (θ1, θ 2,…, θ m, …, θ M); este modelo es matemáticamente equivalente al que se obtiene al analizar las correlaciones tetracóricas. λ, ψ y τ tienen el mismo significado que cuando se utilizan la ecuaciones [6.41] y [6.42]. La diferencia principal entre este procedimiento y el anterior es que para estimar los pesos, como en cualquier modelo de TRI, se utiliza no sólo la información de la matriz de correlaciones sino de toda la matriz de respuestas. El modelo de la ecuación [6.43] también se puede expresar como un modelo multidimensional de TRI:
1
P j (θ 1 ,..., θ m ,..., θ M ) ≅ 1 + exp(1,702(−
M
∑a
[6.44] mθ m
+ d m ))
m =1
3. Puede aplicarse también el Análisis factorial No Lineal implementado en el programa NOHARM (Fraser y McDonald, 1988). El modelo no lineal es una extensión del modelo lineal que permite modelar la relación no lineal entre θ y la probabilidad de acierto directamente, introduciendo una sucesión de términos. Por ejemplo, en el caso unidimensional:
Pj (θ ) = A + B1θ + B2 (θ 2 − 1) + ...
[6.45]
Capítulo 6. Análisis Factorial Exploratorio
261
donde A, B1, B2,… se escogen para que la función [6.45] se corresponda con el modelo de ojiva normal y son función de λ y τ (ver Maydeu-Olivares, 2005: p. 79). Por tanto, a partir de este modelo pueden derivarse también los parámetros λ y τ, que serán equivalentes a los estimados con otras estrategias. 4. También pueden crearse parcelas de ítems. Se crean nuevas variables (subtests) agregando ítems y se realiza el AFE sobre los subtests. Estas nuevas variables, generalmente, cumplen mejor los supuestos distribucionales (linealidad y distribución multivariada normal) requeridos en los procedimientos de estimación. El problema de estos procedimientos es que se requiere que los ítems que formen una faceta midan una única dimensión (lo que requiere a su vez un análisis factorial de ese subconjunto de ítems).
Ejemplo 6.22. AFE para ítems dicotómicos y politómicos En la Tabla 6.35 se muestran los resultados al analizar las correlaciones policóricas de los ítems de la escala de cordialidad. Los resultados son muy similares a los encontrados cuando se analizan las correlaciones de Pearson. Éste es un resultado que suele encontrarse cuando los ítems tienen medias similares o, como en este caso, cuando tienen 4 o más categorías de respuesta.
Tabla 6.35. AFE con el programa FACTOR (ULS) sobre las correlaciones policóricas Matriz de factores rotados (ULS-Promax)1
Z1 Z2 Z3 Z4 Z5 Z6 Z7 1
1
2
0,528 0,775 0,722 –0,091 –0,031 0,230 0,356
0,036 0,009 –0,192 0,902 0,667 0,328 0,250
rF1F2 = 0,467
Con ítems de respuesta dicotómica, los resultados pueden ser bastante distintos. Para ilustrar los distintos procedimientos con ítems de respuesta dicotómica, se simularon las respuestas de 1.000 evaluados a 7 ítems con una estructura factorial unidimensional (λ = 0,71, para todos los ítems) pero con valores de dificultad variados (τ1 = –1, τ2 = –1, τ3 = –0,5, τ4 = 0, τ5 = 0,5, τ6 = 1, τ7 = 1). En la Figura 6.11 y en la Tabla 6.36 se muestran los resultados para el gráfico de sedimentación y de las soluciones de uno y dos factores, según el tipo de correlaciones (Pearson y tetracóricas). A partir de la información que aparece en el gráfico de sedimentación, parecería aconsejable extraer dos factores con las correlaciones de Pearson (cuando de hecho se simuló un único factor) y uno con las correlaciones tetracóricas, donde es más claro que la solución es esencialmente unidimensional. Según los resultados del análisis paralelo, cuando se emplean las correlaciones de Pearson se debería extraer un factor (aunque las líneas casi se cruzan en el segundo autovalor, lo que plantearía la posibilidad de retener un segundo factor).
262 Medición en Ciencias Sociales y de la Salud Figura 6.11. Gráfico de sedimentación (izquierda) y análisis paralelo con correlaciones de Pearson (derecha) 5
3
Pearson
muestra empírica
Tetracóricas
muestras aleatorias 2
3
autovalor
autovalor
4
2
1
1 0
0
1
2
3
4
5
Factor
6
7
1
2
3
4
Factor
5
6
7
En la Tabla 6.36 se muestran, a la izquierda, los parámetros reales (simulados) para el modelo unidimensional y, en las siguientes columnas, los resultados que se estiman (con correlaciones de Pearson y con correlaciones tetracóricas) para los modelos de uno y de dos factores. Los pesos de la solución de un factor con correlaciones tetracóricas se asemejan más a los pesos reales que los correspondientes a la solución unidimensional obtenida a partir de las correlaciones de Pearson. En este ejemplo, se puede observar también que con las correlaciones de Pearson surgen factores de dificultad (p. ej., los pesos en el primer factor son proporcionales a pj, cuando de hecho los 7 pesos reales son iguales). Además, la solución bidimensional con correlaciones tetracóricas es claramente inadecuada (p. ej., uno de los ítems alcanza una saturación de 1 en el segundo factor, lo que es irrealista).
Tabla 6.36. AFE con el programa FACTOR (ULS) sobre las correlaciones de Pearson y tetracóricas; se muestran los pesos factoriales para cada solución y método, así como el índice de dificultad de los ítems (p j) Estimado (Pearson)
Real
Unidimensional Z1 Z2 Z3 Z4 Z5 Z6 Z7 1
λj
pj
0,71 0,71 0,71 0,71 0,71 0,71 0,71
0,85 0,85 0,71 0,51 0,32 0,15 0,16
X1 X2 X3 X4 X5 X6 X7
rF1F2 = 0,57; 2rF1F2 = 0,65
Estimado (Tetracóricas)
Bidimensional1
F
F1
F2
0,49 0,45 0,54 0,58 0,55 0,43 0,46
0,57 0,57 0,51 0,35 0,18 0,01 –0,07
–0,02 –0,05 0,10 0,29 0,45 0,50 0,64
Unidimensional Z1 Z2 Z3 Z4 Z5 Z6 Z7
Bidimensional2
F
F1
0,85 0,65 0,68 0,69 0,71 0,67 0,79
0,33 0,85 0,69 0,63 0,61 0,53 –0,00
F2 0,64
–0,16 0,03 0,10 0,14 0,18 1,00
Capítulo 6. Análisis Factorial Exploratorio
263
Apéndice 6.7. Procedimientos alternativos para calcular las puntuaciones factoriales Además del método heurístico de la suma o ponderación simple, existen varios procedimientos estadísticos alternativos para obtener los pesos w y así obtener las puntuaciones factoriales de las personas en las dimensiones:
Fˆm =
J
∑w
jm X j
j =1
Los procedimientos consisten en definitiva en estimar según diferentes criterios la matriz de pesos de ponderación de las variables (p. ej., los ítems estandarizados) en las dimensiones, W, que se denomina como matriz de coeficientes de las puntuaciones factoriales. Existen distintos procedimientos para el cálculo de las puntuaciones factoriales que pueden ser evaluados según el grado en que responden a los siguientes criterios (Grice, 2001b; DiStefano, Zhu y Mindrila, 2009): 1. Maximización del coeficiente de validez. En este contexto se denomina coeficiente de validez a la estimación de la correlación entre Fm y su estimador Fˆ m (i. e., ρ F
ˆ m Fm
)13. El coeficiente de va-
lidez máximo es ρm, siendo ρ 2m la correlación múltiple al cuadrado entre cada factor y las variables observadas. ρ 2m indica la proporción de varianza del factor que es predecible a partir de las variables. 2. Univocidad para los factores ortogonales. La univocidad se relaciona con la validez discriminante de las estimaciones. Es importante cuando los factores son independientes. Por ejemplo, las puntuaciones estimadas Fˆ1 deberían correlacionar con F1, pero no con otro factor (p. ej., F2). Se cumple el criterio de univocidad si las correlaciones entre las puntuaciones estimadas en el factor y las correlaciones en el resto de factores son 0 (i. e., ρ F Fˆ = 0 , para cualquier m’ dism m′
tinto de m). 3. Preservación de la correlación: Otra característica a partir de la cual valorar los métodos de estimación de las puntuaciones factoriales es el grado en que las correlaciones entre las puntuaciones factoriales estimadas se corresponden con las correlaciones entre factores obtenidas en el análisis factorial. Por ejemplo, si los factores F son independientes, las puntaciones estimadas deberían ser independientes (i. e., ρ Fˆ Fˆ = 0 , para cualquier m’ distinto de m). m m′
A continuación se describen los principales procedimientos de estimación de las puntuaciones factoriales.
13
Matricialmente, puede calcularse la matriz de correlaciones entre los factores estimados y los factores verdaderos, RFF’ como: RFF’ = S’WL−1 donde S es la matriz de estructura (de orden J x M), W es la matriz de pesos (de orden J x M) y L es una matriz diagonal con las desviaciones típicas de las puntuaciones factoriales estimadas en la diagonal. La diagonal RFF’ proporciona los coeficientes de validez y los valores fuera de la diagonal los valores para evaluar la univocidad. Estas correlaciones se pueden calcular mediante macros de SAS (http://psychology.okstate.edu/faculty/jgrice/).
264 Medición en Ciencias Sociales y de la Salud Método de Regresión En el método de Regresión se toman los ítems como variables predictoras, los factores como variables dependientes y se buscan aquellos pesos w que minimizan los errores de predicción a través de los individuos14:
Crit REG = min
I
∑ (F
im
− Fˆim ) 2
[6.46]
i =1
Las puntuaciones factoriales en cada factor m tienen media 0 y varianza igual al cuadrado de la correlación múltiple entre los ítems y el factor (es decir, ρ 2m). Las puntuaciones pueden estar correlacionadas incluso cuando los factores son ortogonales. Mediante el método de Regresión se maximiza la validez ( ρ F Fˆ ). Por tanto, si se pretende predecir las puntuaciones en los factores estos esm m
timadores son los mejores.
Método de Bartlett Uno de los problemas al calcular las puntuaciones factoriales es que, como es una suma ponderada de los ítems, la parte específica de estos ítems contribuye a la puntuación factorial. En el método de Bartlett se obtienen las puntuaciones que minimizan la contribución de la parte específica de las variables. El modelo factorial, si los factores únicos están estandarizados, es:
Xj =
M
∑λ
jm Fim
+ ψ j E *j
[6.47]
m =1
donde E*j es la parte específica de la variable estandarizada, que se puede expresar como:
Xj − E *j
=
M
∑λ m =1
ψj
jm Fm
[6.48]
En el procedimiento de Bartlett (1937) se propone obtener los valores de w que minimizan la influencia de los factores específicos a través de las variables15:
14
Matricialmente, W = R–1S, donde W es la matriz de pesos (de orden J × M), R es la matriz de correlaciones entre los ítems (de orden J x J) y S es la matriz de estructura (de orden J × M). 15
Matricialmente, W = Ψ–1 P (P’ Ψ–1 P) –1, donde W es la matriz de pesos (de orden J x M), Ψ–1 es la inversa de una matriz diagonal con las unicidades en la diagonal (de orden J × J) y P es la matriz de configuración (de orden J × M).
Capítulo 6. Análisis Factorial Exploratorio
Crit Bartlett = min
J
∑E j =1
*2 j
= min
J
∑
( xij −
j =1
M
∑λ m
ψ
ˆ
jm Fm )
265
2
[6.49]
j
Donde Fˆm indica las puntuaciones estimadas que dependen de los pesos w. Este método es equivalente a encontrar las puntuaciones factoriales F que hacen más verosímiles las puntuaciones observadas, asumiendo la normalidad de las variables X y F (McDonald, 1985):
max P ( xij | Fˆim ) Las puntuaciones resultantes tienen media 0 y varianza igual al cuadrado de la correlación múltiple entre los ítems y el factor. Cuando los factores son independientes, utilizando este procedimiento se maximiza la univocidad, es decir, que las puntuaciones estimadas en un factor no correlacionen con las puntuaciones estimadas en otro factor. Además, las estimaciones son insesgadas (Hershberger, 2005).
Método de Anderson-Rubin Aunque los factores sean independientes según el modelo factorial, las estimaciones de las puntuaciones en un factor estarán correlacionadas con las estimaciones de otros factores. Este método es una modificación del método de Bartlett, que asegura la ortogonalidad de las puntuaciones factoriales estimadas. Las puntuaciones resultantes tienen media 0, desviación típica de 1 y no correlacionan entre sí16. Resulta especialmente recomendable cuando se utiliza un procedimiento de rotación ortogonal.
Ejemplo 6.23. Puntuaciones factoriales Se calcularon las puntuaciones factoriales para los distintos métodos de rotación y de estimación de las puntuaciones factoriales, en la solución bidimensional del test de Cordialidad. Las correlaciones
entre las puntuaciones factoriales Fˆm y los factores Fm se muestran en la Tabla 6.37. El método de regresión maximiza los coeficientes de validez (las dos primeras columnas). Por ejemplo, en el caso del segundo factor el coeficiente de validez (ρ) es 0,836. Este valor coincide exactamente con la desviación típica de las puntuaciones factoriales estimadas por este método, y por tanto ρ 2 = 0,8362 = 0,699, lo que indica que aproximadamente el 69,9% de la varianza del factor puede ser predicha a partir de las Xj. Con el método de Bartlett se mantienen altos coeficientes de validez pero se reduce además la correlación de la estimación de cada factor con el otro factor verdadero (las dos siguientes columnas). Esto puede ser importante si queremos que las estimaciones de los distintos factores sean independientes. Por otro lado, cuando el método de rotación es ortogonal, el método de Anderson-Rubin 16
Matricialmente, W = Ψ–1 P (P’ Ψ–1 R Ψ–1 P) –1/2, donde W es la matriz de pesos (de orden J x M), Ψ–1 es la inversa de una matriz diagonal con las unicidades en la diagonal (de orden J x J), P es la matriz de configuración (de orden J x M) y R es la matriz de correlaciones entre los ítems (de orden J x J).
266 Medición en Ciencias Sociales y de la Salud es el método en el que la correlación entre los factores estimados se parece más a la correlación entre los factores verdaderos (comparación de la quinta y sexta columnas). Finalmente, el método de la Suma es el que peores resultados ofrece en cuanto a coeficiente de validez y univocidad.
Tabla 6.37. Correlaciones entre factores verdaderos ( F1 , F2 ) y estimados ( Fˆ1 , Fˆ2 ) según los distintos métodos de rotación y de estimación de las puntuaciones factoriales Rotación
Estimación de las puntuaciones factoriales
rF Fˆ
rF
rF Fˆ
rF
rF1F2
rFˆ Fˆ
Oblimin Oblimin
Regresión Bartlett
0,871 0,867
0,836 0,828
0,436 0,331
0,419 0,347
0,400 0,400
0,501 0,289
Oblimin
Anderson-Rubin Ponderación simple o Suma Regresión
0,850
0,798
0,193
0,248
0,400
0,000
0,813
0,807
0,376
0,384
0,400
0,356
0,854
0,811
0,106
0,101
0,000
0,124
Varimax
Bartlett
0,847
0,805
0,000
0,000
0,000
–0,124
Varimax
Anderson-Rubin Ponderación simple o Suma
0,853
0,810
0,052
0,052
0,000
0,000
0,786
0,775
0,233
0,217
0,000
0,356
Oblimin Varimax
Varimax
1 1
ˆ 2 F2
ˆ 2 F1
1 2
1 2
En la Tabla 6.38 se muestran las respuestas de las cinco primeras personas y sus puntuaciones factoriales correspondientes a la rotación oblicua (método de regresión).
Tabla 6.38. Respuestas y puntuaciones factoriales de 5 evaluados Evaluados
X1
X2
X3
X4
X5
X6
X7
F1
F2
1 2 3 4 5
4 4 4 5 3
5 4 5 4 3
5 5 4 5 5
3 3 2 3 1
2 4 5 3 3
1 4 3 3 5
5 4 4 4 1
–0,71 –0,08 –0,46 –0,38 –1,95
0,69 0,31 0,43 0,41 –0,99
Al haber concluido que el test mide dos factores sería incorrecto utilizar una única puntuación en el test para describir el nivel de cada persona. Puesto que la escala es bidimensional, las personas pueden tener altas puntuaciones en una parte de la escala y bajas en otra (por ejemplo, los evaluados 1, 3 y 4 puntúan sensiblemente por encima de la media en el Factor 2 y sensiblemente por debajo de la media en el Factor 1).
Recomendaciones sobre los métodos para calcular las puntuaciones factoriales Sea cual sea el método utilizado, lo primero que debe comprobarse es el grado de indeterminación factorial. Esto puede hacerse fácilmente calculando las puntuaciones factoriales por el método de Regresión. El coeficiente de validez máximo, ρ F Fˆ , coincide con la desviación típica de las punm m
Capítulo 6. Análisis Factorial Exploratorio
267
tuaciones Fˆm obtenidas por el método de regresión. Si los valores obtenidos son bajos (p. ej., menores de 0,7), las estimaciones tendrán mucho error. La elección entre el resto de los procedimientos dependerá de las condiciones. En resumen, nuestras recomendaciones son: 1. En términos generales puede ser preferible utilizar el método de Regresión, que maximiza el coeficiente de validez. 2. Con el método de Bartlett pueden obtenerse altos coeficientes de validez, pero no máximos. Sin embargo, si los factores son independientes, este método puede ser preferible ya que se maximiza la validez discriminante. 3. Si los factores son independientes y el investigador requiere que los factores estimados correlacionen cero (p. ej., porque van a ser los predictores en un análisis de regresión múltiple), el método de Anderson-Rubin puede ser la elección correcta. 4. El método de la ponderación simple es el que peor cumple los criterios definidos. Las diferencias entre los métodos serán mayores cuanto mayor sea la indeterminación factorial de las puntuaciones factoriales. Para contrastar la indeterminación factorial, pueden obtenerse los coeficientes de validez y univocidad de los factores en los distintos métodos (ver Grice, 2001b). En nuestra opinión el método de la ponderación simple puede ser adecuado si: (1) los factores están bien definidos, con muchas variables pesando en ese factor; (2) la estructura es unifactorial (i. e., cada ítem pesa sólo en un factor) y (3) no hay mucha diferencia en los pesos λ de los ítems.
Apéndice 6.8. Software AFE con el programa FACTOR En las sucesivas ventanas se solicitará la siguiente información: Read data:
Size of data matrices: se define el número de evaluados y el número de variables en el fichero. File names (Participans’ scores:): se define el nombre del fichero de datos. En nuestro caso, el fichero de datos incluye las respuestas de los evaluados a los ítems en formato libre (es decir, las respuestas a distintos ítems separadas por espacios).
Configure Analysis: Variables in the analysis: Se especifican las variables que entran en el análisis. Matrix analyzed: Escoger Pearson para variables continuas y Polychoric (tetrachoric) para variables categóricas (especialmente si la muestra es grande y la distribución de las variables se aleja de la distribución normal). Procedure for determining the number of factors/components: Permite especificar tres criterios para decider el número de factores: MAP, Análisis Paralelo y Análisis Paralelo usando bootstrap. Si selecciona la última opción (en general la más adecuada) se simulan variables con la misma distribución de las variables originales. Nota importante: en la versión 7.0, los resultados de la opción de Análisis Paralelo sólo son adecuados si se seleccionan correlaciones de Pearson. Factor & Components: Permite especificar el número de factores de primer y segundo orden, así como el método de extracción. Lo más adecuado es utilizar ML para variables continuas y ULS para variables categóricas.
268 Medición en Ciencias Sociales y de la Salud Rotation method to factor simplicity: Permite elegir el método de rotación. Los más frecuentes son Normalized Varimax para la rotación ortogonal y Normalized Direct Oblimin para la rotación oblicua.
AFE con el programa SPSS El AFE pueden realizarse en SPSS eligiendo en el menú Reducción de datos > Análisis factorial. En las sucesivas ventanas se solicitará la siguiente información: Extracción:
Rotación:
Método: Permite especificar el método de extracción. Lo más adecuado es utilizar Máxima verosimilitud (ML); si no se alcanza la convergencia o aparecen casos Heywood, pueden utilizarse otros procedimientos como Mínimos Cuadrados no ponderados (ULS) o Factorización de ejes principales (EP). Mostrar: Conviene marcar el Gráfico de sedimentación, pues este gráfico nos proporciona información útil para decidir el número de factores. Extraer Número de factores: Se selecciona el número de factores a extraer. Nº máximo de iteraciones para convergencia: Se puede aumentar el número de iteraciones (por defecto, 25) si no se alcanza la convergencia.
Método: Permite especificar el método de rotación. Lo más frecuente es utilizar Varimax (que es el método Varimax normalizado) para rotación ortogonal o Direct Oblimin (que es el método Direct Oblimin normalizado) para la rotación oblicua. Nº máximo de iteraciones para convergencia: Se puede aumentar el número de iteraciones (por defecto, 25) si no se alcanza la convergencia. Puntuaciones factoriales: Método: Permite especificar el método de cálculo de las puntuaciones factoriales (Regresión, Bartlett y Anderson-Rubin). Las puntuaciones factoriales se guardan directamente en el fichero de datos. Mostrar matriz de puntuaciones factoriales: Si se marca esa opción se mostrará la matriz W de pesos para el cálculo de las puntuaciones factoriales. Descriptivos: Estadísticos: Para obtener los estadísticos descriptivos univariados. Matriz de correlaciones: Marque Coeficientes para obtener la matriz de correlaciones observada y Reproducida para obtener la matriz de correlaciones reproducida y los residuos.
AFE con MPLUS Cuadro 6.1. Aplicación del programa MPLUS para el AFE (variables continuas) TITLE: AFC para variables continuas (modelo figura 3.2) DATA: FILE IS bfq.dat; VARIABLE: NAMES ARE x1-x7; USEVARIABLES ARE x1-x7; ANALYSIS: TYPE= EFA 1 4; OUTPUT: SAMPSTAT, RESIDUAL;
Capítulo 6. Análisis Factorial Exploratorio
269
Cuadro 6.2. Aplicación del programa MPLUS para el AFE (variables categóricas) TITLE: AFC para variables categóricas (modelo figura 3.2) DATA: FILE IS bfq.dat; VARIABLE: NAMES ARE x1-x7; USEVARIABLES ARE x1-x7; CATEGORICAL ARE x1-x7; ANALYSIS: TYPE= EFA 1 4; OUTPUT: SAMPSTAT, RESIDUAL;
La estructura de la sintaxis es la siguiente: TITLE: permite especificar un título para el análisis. DATA: FILE IS: se define el nombre del fichero de datos. En nuestro caso, el fichero de datos (“bfq.dat”) se halla en el mismo directorio donde se encuentra la sintaxis, por lo que no hace falta explicitar la unidad ni el directorio. Por defecto, el fichero de datos incluye las respuestas de los evaluados a los ítems, definido en formato libre (es decir, las respuestas a distintos ítems separadas por espacios). VARIABLE: NAMES ARE: Se definen los nombres de las variables en el fichero de datos. USEVARIABLES ARE: Se especifican las variables que entran en el análisis. CATEGORICAL ARE (opcional): Se indica qué variables son categóricas. ANALYSIS: TYPE = EFA 1 4 Permite especificar que estime el modelo de AFE con 1, 2, 3 y 4 factores. OUTPUT: Permite especificar la información en la salida: SAMPSTAT: Proporciona los estadísticos descriptivos para la muestra (p. ej., matriz de correlaciones de Pearson o matriz de correlaciones policóricas-tetracóricas) RESIDUAL: Proporciona las covarianzas residuales.
7
Interpretación de las puntuaciones Introducción
La puntuación directa de una persona en un test depende del número y propiedades psicométricas de los ítems (p. ej., su dificultad), de cómo se han puntuado, de cómo combinemos las puntuaciones en los ítems para llegar a la puntuación final, de que se haya establecido o no un tiempo límite de administración, etc. No es, por tanto, directamente interpretable. Los Standards afirman que “Cuando se informa de los resultados de un test… los responsables han de proporcionar las interpretaciones apropiadas. Se debe informar en un lenguaje sencillo de lo que el test mide, lo que significan las puntuaciones, su precisión, las interpretaciones incorrectas más frecuentes y cómo deben ser usadas” (Estándar 5.10, p. 65). Goodman y Hambleton (2004) y Hambleton (2007) revisaron los procedimientos que aplican algunos programas de evaluación educativa de Estados Unidos y Canadá para informar a los evaluados de sus puntuaciones. Comprobaron alguna deficiencia importante. La principal es que en pocos se informa de la precisión de las medidas. Los trabajos citados dan recomendaciones sobre los apartados concretos que debe tener el informe en el que se comunica al estudiante su puntuación y llaman la atención sobre la necesidad de investigación en el campo, para mejorar los procedimientos de comunicación de las características y puntuaciones de los tests. Para que tenga sentido, una puntuación la hemos de referir a los contenidos incluidos en el test o al rendimiento de las restantes personas que componen el grupo normativo, utilizando lo que llamamos normas o baremos. Entendemos por grupo normativo la muestra de personas a la que se ha aplicado el test para la obtención de los baremos, proceso llamado frecuentemente baremación. Los baremos asignan a cada posible puntuación directa un valor numérico que informa de su posición en relación con las puntuaciones que obtienen las personas que integran el grupo normativo. El valor y sentido de los baremos dependerá obviamente de la calidad, tamaño y
272 Medición en Ciencias Sociales y de la Salud adecuación del grupo normativo en el que se obtienen. Hay distintos tipos de normas. Puede haber normas nacionales o regionales, atendiendo a la procedencia de los evaluados. Es frecuente obtener las normas que corresponden a los distintos subgrupos que responden al test. En los principales tests se encuentran normas distintas para hombres y mujeres, para las distintas ocupaciones, edades… Se habla también de normas del usuario, que son las obtenidas con una muestra concreta que ha respondido al test durante un cierto periodo de tiempo. Se denominan normas de conveniencia las que se obtienen tras aplicar el test a la muestra disponible durante su elaboración (Kolen, 2006). Al utilizar baremos se producen interpretaciones referidas a las normas o normativas. Otra manera de facilitar la interpretación consiste en relacionar una puntuación con el rendimiento en los ítems específicos (p. ej., cuáles en concreto se han acertado y fallado, o en qué ítems se siente bien descrita una persona) para inferir qué sabe, qué sabe hacer o la posición del evaluado en la característica psicológica que el test mide. Se habla en este caso de las interpretaciones referidas al criterio. Las interpretaciones referidas al criterio pueden también informar de la proporción probable de ítems que el evaluado acertaría de un dominio más amplio, la probabilidad de que padezca cierta psicopatología, o la probabilidad de hacer bien ciertas tareas distintas de las del test. Muchas veces se desarrolla un test con la idea de ofrecer interpretaciones normativas y, con el tiempo, se va conociendo el significado concreto de las puntuaciones en relación a las capacidades que se dominan en cada puntuación o rango de puntuaciones. Similarmente, las pruebas que requieren interpretaciones referidas al criterio, terminan ofreciendo información sobre la posición de cada persona en relación a las demás. Por lo tanto, con frecuencia, los tests suelen permitir y ofrecer ambos tipos de interpretaciones, aunque sea una (la normativa o la referida al criterio) la que resulte más útil al objetivo del test. En la interpretación de las puntuaciones se recurre con frecuencia a los puntos de corte. A veces se obtiene sólo uno, que permite establecer la pertenencia a dos grupos (aprobados/suspensos, acreditados/no acreditados, expertos/novatos…). Otras veces se obtienen 2 o más, lo que permite definir 3 o más niveles de rendimiento. Pueden usarse los puntos de corte en ambos tipos de interpretaciones. En el caso de las referidas al criterio, a cada nivel se le asignan interpretaciones cualitativamente diferentes, que indican lo que saben hacer los que alcanzan esa calificación. En las interpretaciones referidas a la norma, como es usual en selección de personal, se suele fijar un porcentaje de rechazo. Se suele a veces aplicar como punto de corte la puntuación en inteligencia que deja por debajo al 33% de los presentados (Cook, 2004). En el hipotético (e improbable) caso de que sólo se presenten al proceso selectivo personas con una extraordinaria capacidad intelectual, también en este caso serían rechazados el 33% de ellos por insuficiencia intelectual. En este capítulo se estudian las estrategias más comunes de interpretación de las puntuaciones cuando estamos interesados en una interpretación normativa y en una referida al criterio. En el último apartado veremos varios procedimientos para establecer los puntos de corte.
Baremos Es importante que se elija y se describan bien las características del grupo normativo. Debe ser una muestra representativa y de tamaño suficiente de la población de referencia. Lo apro-
Capítulo 7. Interpretación de las puntuaciones
273
piada que es una norma puede cambiar con el paso del tiempo y por ello conviene re-baremar. Lo normal es que haya varios grupos normativos de un test. Entre los múltiples tipos de baremos, destacamos los siguientes: los cronológicos, los centiles y las puntuaciones típicas. Lo más usual en las pruebas comercializadas es encontrar baremos centiles y puntuaciones típicas. Comentaremos también algunas peculiaridades de la interpretación de las puntuaciones estimadas desde la TRI.
Baremos cronológicos Para rasgos psicológicos que evolucionan con la edad, como los indicadores de desarrollo, tiene sentido comparar la puntuación de un evaluado con las que obtienen los de su misma edad y los de edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: la Edad Mental (EM) y el Cociente Intelectual (CI). Supongamos que aplicamos un test de Inteligencia a diferentes grupos de edad (niños entre 5 y 14 años) y que obtenemos las puntuaciones medias de cada grupo de edad en la prueba que se muestran en la Tabla 7.1. Tabla 7.1. Medias en un test de Inteligencia de cada grupo, según su edad Edad: Media:
5 6
6 8
7 9
8 11
9 14
10 15
11 18
12 22
13 24
14 27
A partir de la tabla anterior, se considera que la edad mental del niño es la edad que corresponde a su puntuación. Por ejemplo, si un niño obtiene en el test una puntuación directa de 14 puntos, le asignamos una EM de 9 años, independientemente de su edad cronológica real, ya que 14 puntos es la media que obtienen los niños de 9 años, según los datos de la Tabla 7.1. El Cociente Intelectual es el resultado de dividir la edad mental entre la edad cronológica (EC) de la persona. Para prescindir de los decimales, el resultado se multiplica por 100 y se redondea al entero más próximo. Es decir, se obtiene mediante la fórmula:
CI =
EM 100 EC
[7.1]
En el ejemplo anterior, si un niño de 10 años obtiene una puntuación directa de 18 puntos, diremos que su EM es de 11 años y que su CI es (11/10)100 = 110. Si la EM de un evaluado coincide exactamente con su EC, su CI será 100, e indicará que su puntuación coincide exactamente con la media de su grupo de edad. Si el CI supera el valor de 100 significará que tiene una inteligencia superior al promedio de su edad, mientras que si su CI es inferior a 100, significará que su inteligencia es inferior a la media de su grupo de edad. Usualmente, cocientes intelectuales inferiores a 70 indican deficiencias importantes, mientras que cocientes intelectuales superiores a 140 indican excepcionalidad intelectual. Los baremos cronológicos sólo pueden aplicarse cuando la media en el test aumenta con la edad. Si se disponen los datos como se ha hecho en la Tabla 7.1, cada media ha de tener a su derecha medias superiores. Si las medias comienzan a estabilizarse o a decrecer nos encontraríamos, por ejemplo, que a una puntuación concreta se le podrían asignar 2 o más edades
274 Medición en Ciencias Sociales y de la Salud mentales. Lo acabado de exponer es una restricción fuerte y hoy día se aplican poco los baremos cronológicos.
Baremos centiles Los baremos centiles asignan a cada puntuación del test su rango centil1 (o rango percentil), que indica el porcentaje de personas del grupo normativo que obtienen puntuaciones inferiores a dicha puntuación. Si la puntuación de un evaluado en el test, Xi, es el centil k, Ck, sabemos que el k% de las puntuaciones del grupo normativo son inferiores a Xi. Los posibles valores de los rangos centiles son los enteros comprendidos entre 1 y 99. Si una persona obtiene en un cuestionario de Autoritarismo la puntuación de 120 puntos, poco podemos decir sobre su nivel de Autoritarismo, pero si sabemos que a esa puntuación corresponde el rango centil 95 (o, lo que es lo mismo, que C95= 120), tenemos más información sobre su nivel. Si el grupo normativo fuese una muestra representativa de la población general, podríamos concluir que el 95% de las personas tienen un nivel de Autoritarismo menor que el suyo, o que sólo un 5% de personas son tan autoritarias o más que él. El programa SPSS permite obtener los baremos centiles a partir del procedimiento Analizar > Estadísticos descriptivos > Frecuencias. La Tabla 7.2 muestra algunas columnas de la salida SPSS del procedimiento anterior aplicado a una muestra de 201 participantes en un proceso selectivo, que han sido evaluados en Neuroticismo. Tabla 7.2. Obtención de los centiles X
Frecuencia
Porcentaje
Porcentaje acumulado
Rango centil
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
2 3 8 7 11 18 11 16 20 26 15 22 20 8 9 3 2
1,0 1,5 4,0 3,5 5,5 9,0 5,5 8,0 10,0 12,9 7,5 10,9 10,0 4,0 4,5 1,5 1,0
1,0 2,5 6,5 10,0 15,4 24,4 29,9 37,8 47,8 60,7 68,2 79,1 89,1 93,0 97,5 99,0 100,0
1 2 4 8 13 20 27 34 43 54 64 74 84 91 95 98 99
En la primera columna tenemos las puntuaciones observadas en el test. En la segunda, cuantos evaluados han obtenido cada puntuación. La tercera columna contiene el porcentaje de evaluados que obtuvo cada puntuación. Dos obtuvieron la puntuación 12. El porcentaje que 1
Frisbie (2005) indica que puede generarse una cierta confusión al hablar de los centiles, pues se confunde centil y rango centil. El centil es la puntuación del test a la que corresponde el rango centil, que es un porcentaje.
Capítulo 7. Interpretación de las puntuaciones
275
se muestra en la tabla es 1, pues (2/201)(100) = 0,99, que se redondea a 1. La cuarta muestra los porcentajes acumulados. Por ejemplo, el 2,5% obtuvo la puntuación 13 o menos. Hay dos maneras de obtener el rango centil de una puntuación, dependiendo de que consideremos la variable medida por el test discreta o continua. En el caso discreto, se entiende que las dos personas que han obtenido la puntuación 12 han obtenido exactamente esa puntuación, y algo similar puede decirse de las 3 que obtuvieron 13 puntos, de las 8 que obtuvieron 14, etc. Aplicando la definición dada, se deduce que el rango centil de cada puntuación es el valor de la columna Porcentaje acumulado que corresponde a la puntuación anterior. Por ejemplo, para obtener el rango centil de la puntuación 16, tendremos que obtener el porcentaje acumulado de la puntuación 15, que es 10. Por tanto, el C10 es 16 e indica que el 10% de la muestra obtuvo puntuaciones menores de 16 (es decir, obtuvo 15 o menos puntos). Al aplicar esta definición no puede obtenerse el rango centil que corresponde a la menor puntuación obtenida (12, en la Tabla 7.2). La manera alternativa de calcular los rangos centiles considera que la variable es continua y que las personas que obtienen cada puntuación están homogéneamente repartidas en su intervalo, de forma que, de los 2 evaluados que tienen la puntuación 12, uno habría obtenido una puntación comprendida entre 11,5 y 12, y el otro entre 12 y 12,5. Si hacemos un tratamiento continuo, el rango centil que corresponde a 12 será (1/201)(100) = 0,5, que se redondea al menor rango centil posible (1), pues sólo uno de los 2 evaluados estaría por debajo de 12, que es el punto medio de ese intervalo. Las personas que han obtenido 13 o menos puntos serán las 2 que han obtenido 12 y 1,5 de las 3 que han obtenido 13; por tanto, el rango centil de 13 será (3,5/201)(100) =1,74, que se redondea a 2. Análogamente, el rango centil que corresponderá a la puntuación 27 será (197,5/201)(100) = 98,2, que se redondea a 98. Los rangos centiles que corresponderían a las puntuaciones del test de Neuroticismo en este segundo caso se muestran en la columna Rango centil de la Tabla 7.2. A partir de la tabla suministrada por el procedimiento de SPSS, se puede llegar a cada Rango centil restando al Porcentaje acumulado la mitad del correspondiente Porcentaje y redondeando el resultado obtenido. Por ejemplo, el rango centil de 13 será 2,5 – (1,5/2) = 1,75, que se redondea a 2. En la práctica, los rangos centiles pueden obtenerse por los dos procedimientos. El primero es más sencillo, aunque apenas se aplica pues la mayoría de las variables psicológicas (actitudes, intereses, nivel de conocimiento…) son continuas, aunque el test genere sólo valores enteros. En el caso de variables discretas (p. ej., número de amigos, visitas al médico en el último año…), debiera aplicarse el primer procedimiento. El segundo procedimiento, además, corresponde a la definición precisa de centil que se ofrece en los libros de Análisis de Datos (p. ej., Pardo et al., 2009). En los manuales de los tests se ofrecen los baremos centiles de manera algo diferente. En vez de obtener y ofrecer el rango centil que corresponde a cada puntuación, como hicimos en la Tabla 7.2, se ofrece una tabla que tiene, como primera columna, algunos rangos centiles (por lo general, 1, 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 95, 96, 97, 98 y 99), y, a su derecha, el centil al que corresponde el citado rango centil. Si el test mide varias dimensiones, se añaden tantas columnas como dimensiones y se consiguen expresar de forma muy compacta los baremos de todas ellas en una sola tabla. Así se hace por ejemplo en el test BFQ, que mide cinco dimensiones de la personalidad: Energía (E), Afabilidad (A), Tesón (T), Estabilidad Emocional (EE) y Apertura Mental (AM). La Tabla 7.3 muestra un fragmento de uno de los baremos que vienen en el manual del test (Caprara, Barbaranelli y Borgogni, 1998, p. 60). La Tabla 7.3 indica que en la escala de Energía 81 es el C70, las puntuaciones 54, 55 y 56 son el C2, y así sucesivamente.
276 Medición en Ciencias Sociales y de la Salud Tabla 7.3. Fragmento de baremo centil del test BFQ Rango centil
E
A
T
EE
AM
99 98 .. 75 70 .. 50 .. 30 25 .. 2 1
100-120 98-99 .. 82-83 81 .. 76 .. 71 70 .. 54-56 24-53
101-120 99-100 .. 87 86 .. 81 .. 77 75-76 .. 61-63 24-60
101-120 99-100 .. 86-87 85 .. 79-80 .. 75 73-74 .. 55-57 24-54
97-120 95-96 .. 77-78 75-76 .. 70 .. 63 60-62 .. 41-44 24-40
106-120 105 .. 90-91 88-89 .. 83 .. 77-78 75-76 .. 60-61 24-59
Los centiles son los baremos más usados. Son muy fáciles de entender y se aplican en muchos contextos. Permiten la comparación del rendimiento de varias personas en la misma prueba y de una persona en distintas pruebas. La relación entre las puntuaciones y sus rangos centiles no es lineal. De hecho, por lo general, los rangos centiles que corresponden a las puntuaciones que están en una cola de la distribución difieren menos entre sí que los de las puntuaciones más centrales. Por ejemplo, en la Tabla 7.2 y Figura 7.1, vemos que los rangos centiles que corresponden a las puntuaciones 25 y 26 son 91 y 95, respectivamente. Los que corresponden a las puntuaciones centrales 20 y 21 son 43 y 54, respectivamente. La diferencia entre los rangos centiles es menor en el primer caso (95 – 91 = 4) que en el segundo (54 – 43 = 11), pues suele haber frecuencias más altas en las puntuaciones centrales, a pesar de que las puntuaciones directas difieren en sólo un punto en ambos casos. La Figura 7.1 muestra el rango centil que corresponde a cada X de la Tabla 7.2 y evidencia la no linealidad comentada. Figura 7.1. Relación entre las puntuaciones y los rangos centiles (datos de la Tabla 7.2) 100 90 80
Rangos centiles
70 60 50 40 30 20 10 0 12
13
14
15
16
17
18
19
20
21
22
Puntuaciones en el test
23
24
25
26
27
28
Capítulo 7. Interpretación de las puntuaciones
277
Baremos típicos En los libros de Análisis de Datos se estudia el significado y cómo se obtienen las puntuaciones típicas, ZX (p. ej., en el capítulo 5 de Pardo et al., 2009). En este apartado vamos a encontrar una clara aplicación de estas puntuaciones, y de otras que se derivan de éstas, para baremar las puntuaciones que se obtienen en los tests. Se suele distinguir entre baremos típicos, típicos normalizados y típicos derivados.
Puntuaciones típicas Como sabemos, una puntuación típica ZX se obtiene aplicando la siguiente transformación:
ZX =
X−X SX
[7.2]
La puntuación típica ZX obtenida puede ser positiva o negativa e indica el número de desviaciones típicas que se aleja de la media la correspondiente puntuación directa X. Conociendo la puntuación típica de una persona en un test, podemos interpretar su puntuación X atendiendo a la cuantía y signo de su puntuación ZX. Por ejemplo, una puntuación típica de –2,33 indica que la correspondiente puntuación en el test X se encuentra 2,33 desviaciones típicas por debajo de la media. Por lo general, muy pocos evaluados están tan alejados de la media. Si la distribución fuese normal, el porcentaje de puntuaciones inferiores a la media en más de 2,33 desviaciones típicas es sólo del 1%. Por lo tanto, el evaluado tiene una puntuación muy baja.
Puntuaciones típicas normalizadas Cuando se puede asumir (o se comprueba) que las puntuaciones de un grupo normativo en un test siguen una distribución normal, un rango centil concreto dividido por 100 indica el área de la curva normal que queda por debajo del centil correspondiente. Si la puntuación X es el centil Ck, la puntuación típica normalizada que corresponde a X, Zn, es el valor de la distribución normal Z, N(0, 1), tal que P(Z < Zn) = k/100. Supongamos, por ejemplo, que a la puntuación X1 corresponde el rango centil 16. En la curva normal, la puntuación Z que deja por debajo de sí la probabilidad 0,16 es –0,99, luego la puntuación típica normalizada que corresponde a X1 es –0,99. Supongamos que a la puntuación X2 corresponde el rango centil 96. Su Zn será 1,75, pues en la curva normal la P(Z < 1,75) = 0,96, como se indica en la Figura 7.2.
278 Medición en Ciencias Sociales y de la Salud Figura 7.2. Obtención de las puntuaciones típicas normalizadas de X1 y X2
La ventaja de la normalización es que permite aplicar las propiedades de la curva normal. Por ejemplo, una Zn = 1 indica que esa persona supera al 84% del grupo normativo. El problema es que no siempre se justifica bien la normalización, y a veces hay razones para esperar la asimetría (y, por tanto, la no normalidad) de la distribución de las puntuaciones (Petersen, Kolen y Hoover, 1989), por lo que no sería correcto obtener las puntuaciones típicas normalizadas. En estos casos, sí podrían calcularse las puntuaciones típicas ZX, ya que no requieren ningún supuesto sobre la distribución de los datos. Las puntuaciones típicas serán tanto más similares a las puntuaciones típicas normalizadas cuanto más se asemeje a la distribución normal la distribución de las puntuaciones en el test del grupo normativo.
Puntuaciones típicas derivadas Las puntuaciones típicas y las típicas normalizadas tienen dos inconvenientes que dificultan su uso: asumen valores no enteros y negativos. Con el objeto de superar estas dificultades, se han propuesto otros baremos, que por resultar de una transformación lineal de las puntuaciones típicas, no alteran las propiedades de la escala original y son más fáciles de usar. Estas puntuaciones se denominan escalas típicas derivadas o derivadas normalizadas, según resulten de transformar unas u otras. Las principales escalas derivadas son las escalas T y D, y se obtienen mediante las transformaciones que se muestran en la Tabla 7.4. Tabla 7.4. Puntuaciones típicas derivadas
2
Escala (rango2)
Derivada
Derivada normalizada
T (10, 90) D (0, 100)
T = 50 + 10Z D = 50 + 20Z
Tn = 50 + 10Zn Dn = 50 + 20Zn
En la escala T, cuando el resultado de la transformación es un valor menor de 10 (Z o Zn menores de –4) se convierte en 10, y si es mayor de 90, en 90. En la escala D, valores negativos (Z o Zn menores de -2,5) se convierten en 0 y mayores de 100, en 100.
Capítulo 7. Interpretación de las puntuaciones
279
Cuando las puntuaciones en una variable X son transformadas en otra variable Y mediante Y = aX + b, con a > 0, se cumple (Pardo et al., 2009, p. 139) que Y = aX + b y SY = aS X . Como la media y desviación típica de las puntuaciones típicas son 0 y 1, respectivamente, la media de las puntuaciones T y D es 50 y las respectivas desviaciones típicas son 10 y 20. La Tabla 7.4 muestra la transformación que permite pasar de la escala típica (de media 0 y varianza 1) a las escalas T y D. En general, si tenemos la puntuación X en un test, con media μX y desviación típica σX, y queremos transformarla linealmente en otra puntuación de una escala S, con media μS y desviación típica σS, la transformación a aplicar (Kolen, 2006) es la siguiente: S(X ) =
σS σ X + µ S − S µ X σX σX
[7.3]
En efecto, por ser S(X) una trasformación lineal de X,
S ( X ) = aX + b
[7.4]
µ S = aµ X + b
[7.5]
σ S = aσ X
[7.6]
Restando a cada miembro de [7.4] el correspondiente de [7.5],
S ( X ) − µ S = (aX + b) − (aµ X + b) = a ( X − µ X )
[7.7]
Dividiendo cada miembro de [7.7] por el correspondiente de [7.6],
S( X ) − µS
σS
=
a(X − µX ) X − µX = aσ X σX
[7.8]
Despejando S(X) en [7.8], se llega a la expresión [7.3]. Si queremos obtener la puntuación en la escala T que corresponde a la puntuación típica Z, la expresión [7.3] dará exactamente la propuesta en la Tabla 7.4: T (Z ) =
10 σ σT 10 Z + µT − T µ Z = Z + 50 − 0 = 10 Z + 50 1 σZ σZ 1
280 Medición en Ciencias Sociales y de la Salud
Ejemplo 7.1. Puntuaciones típicas derivadas Consideremos un caso de baremación de una misma puntuación en diferentes escalas. A una persona que obtiene una puntuación directa de 31 puntos en una prueba de conocimientos, con media de 38 puntos y desviación típica 4, le corresponderán las puntuaciones que siguen, según el baremo elegido: 1. Puntuación típica: –1,75, pues (31 – 38)/4 = –1,75. 2. Escala T: 32, pues 50 + (10)(–1,75) = 32,5, que al redondear quedaría en 32. 3. Escala D: 15, pues 50 + (20)(–1,75) = 15. Todas estas puntuaciones, en escalas o baremos diferentes, indican lo mismo: que la persona se encuentra 1,75 desviaciones típicas por debajo de la media del grupo normativo.
El cálculo y la interpretación de las escalas típicas derivadas normalizadas siguen la misma lógica que los de las escalas típicas derivadas sin normalizar, con la salvedad de que las puntuaciones típicas transformadas se han obtenido bajo el supuesto de normalidad. Se han propuesto otras escalas típicas derivadas normalizadas no expuestas en la Tabla 7.4, como las escalas estaninos, decatipos y CI normalizado. Los valores que pueden tomar son, respectivamente, los enteros comprendidos entre 1 y 9, entre 1 y 10 y entre 40 y 160, pues resultan de aplicar las transformaciones E = 5 + 2Zn, DE = 5,5 + 2Zn e I = 100 + 15Zn. Al aplicar la expresión [7.3] cambiamos la media y desviación típica de las nuevas puntuaciones para que resulten de uso más cómodo, sin alterar la información de la escala original. Al generar una escala transformada, conviene tener en cuenta que el número de distintos valores de la escala sea suficiente para que no se pierda parte de la discriminación que tenemos en las puntuaciones directas, pero no tantos valores como para dar la impresión de que las personas difieren, cuando por el error de medida de la prueba podrían no diferir sus puntuaciones verdaderas. Por lo general, 60 valores diferentes se consideran suficientes (Kolen, 2006). De hecho, son los que permiten algunas escalas del SAT, que es un test muy aplicado en países de habla inglesa para el acceso a la universidad. La escala va de 200 a 800. Los posibles valores3 de la escala son 200, 210, 220… 790 y 800. Su media y desviación típica son 500 y 100, respectivamente. Ha habido otras propuestas de escala para el SAT, como la de utilizar una de media de 950, una desviación típica de 11 y un rango de 920 a 980, para las secciones verbal y numérica (Dorans, 2002).
Comentarios finales Hemos revisado los baremos que ofrecen los manuales de 15 tests de uso frecuente de los disponibles en la biblioteca de nuestra universidad, de contenido muy diverso: intereses, 3
Todos los valores de la escala acaban en cero.
Capítulo 7. Interpretación de las puntuaciones
281
aptitudes, personalidad... En todos menos uno se ofrecen baremos centiles. En 3 sólo se ofrecen estos baremos. Lo más frecuente (11 tests) es proporcionar el baremo centil y uno o varios baremos típicos. Por ejemplo, el test de personalidad BFQ (Caprara et al., 1998) proporciona baremos centiles y la escala T. En todos los tests revisados, en el apartado dedicado a la fiabilidad, se informa de la precisión de las puntuaciones, lo que permite obtener el intervalo de confianza en el que se debe encontrar la puntuación verdadera de cada evaluado, aplicando lo expuesto en el capítulo 3. Sin embargo, al exponer los baremos apenas se hace énfasis en que una adecuada interpretación de las puntuaciones requiere tener en cuenta su precisión o fiabilidad. Una de las recomendaciones de Hambleton (2007) sobre cómo informar de las puntuaciones en los tests es que en los informes individuales se aporte simultáneamente información numérica, el valor en la escala o escalas apropiadas, y gráfica. Conviene exponer el error típico de la puntuación en la escala que se esté utilizando y mostrar la puntuación y el intervalo de confianza en la representación gráfica. La Figura 7.3 (adaptada de la Figura 8 de Goodman y Hambleton, 2004) muestra la información numérica y gráfica que podría suministrarse al evaluado: su puntación en la prueba (X), el estanino y rango centil, el intervalo de confianza en el que se encuentra su rango centil y la representación gráfica de su puntuación. Conviene explicar también el significado del intervalo de confianza (si el evaluado realizase el test en muchas ocasiones, los rangos centiles que obtendría estarían en un alto porcentaje en el intervalo indicado). Figura 7.3. Información numérica y gráfica de la puntuación obtenida en el test
En el capítulo 13 se tratará el tema del impacto adverso. En un test de aptitud puede ocurrir que, habiéndose presentado a un puesto de trabajo un 10% de mujeres, por ejemplo, sólo el 5% de los candidatos finalmente admitidos sean mujeres. Si esto es así se puede haber producido lo que se llama infra-representación de un grupo sobre otro o impacto adverso. Una manera de evitar la infra-representación consiste en utilizar baremos distintos para cada grupo, dando el puesto, por ejemplo, al 10% mejor del grupo de los hombres y del grupo de mujeres. Tal práctica no es recomendable, pues terminan siendo seleccionados evaluados con peor rendimiento que otros que son rechazados, y algunas legislaciones prohíben expresamente el uso de baremos diferentes para asignar puestos en los procesos de selección de personal (Kaplan y Sacuzzo, 2001). La adecuada interpretación de las puntuaciones requiere considerar la inclusión o no de acomodaciones. Los tests requieren un procedimiento de administración estandarizado, por el que las instrucciones a los examinados, las condiciones de aplicación y de puntuación son las mismas para todos. Sin embargo, en ocasiones, hacer bien las cosas requiere introducir
282 Medición en Ciencias Sociales y de la Salud modificaciones en el procedimiento estandarizado. Por ejemplo, si intentamos evaluar los conocimientos de Biología de personas que tienen un conocimiento deficiente del lenguaje en el que se hace el examen, podría ocurrir que las puntuaciones reflejen los conocimientos en el idioma además de los conocimientos de Biología. En ese caso, convendría introducir acomodaciones, como por ejemplo permitir el uso de un diccionario, aumentar el tiempo de administración…, para que el test suministre la misma calificación a los que son igual de competentes en Biología, independientemente de su mayor o menor dominio del lenguaje. Establecer las acomodaciones apropiadas no es una tarea fácil. Kopriva, Emick, Hipólito-Delgado y Cameron (2007) estudian los efectos en una evaluación de Matemáticas de distintas acomodaciones aplicadas a niños norteamericanos con poco conocimiento del inglés. Su principal resultado es que sólo cuando las acomodaciones están específicamente preparadas para el nivel real de inglés de los alumnos se consigue que la acomodación sea eficaz. La aplicación de paquetes genéricos de acomodaciones resulta tan ineficaz como la ausencia de acomodaciones. En el capítulo 2, al hablar del Diseño del test, vimos que antes de empezar a elaborarlo hay que especificar la población objetivo. Si se va a aplicar en poblaciones especiales (escaso dominio del idioma, discapacitados…), las acomodaciones pueden ser necesarias y habría que decidir cuáles son apropiadas y aplicarlas.
Baremos en la Teoría de la Respuesta al Ítem Si se cumplen los supuestos de la TRI y disponemos de un banco de ítems calibrados, la puntuación del evaluado, su θ estimada, tras aplicarle un conjunto de ítems del banco, no depende de los ítems concretos administrados y el valor obtenido puede compararse con el de otro evaluado que hubiese podido recibir incluso un conjunto de ítems diferente del banco. Dado que la escala habitual en la que se obtienen las estimaciones de los niveles de rasgo tiene media 0 y varianza 1, a veces se transforma la puntuación obtenida a otra escala de más fácil uso (Kolen, 2006), mediante una transformación lineal, como se ha visto en los apartados precedentes. Otras veces se prefiere referir los niveles estimados de rasgo a las características del test concreto administrado. Se aplica para ello la curva característica del test (CCT), descrita en el capítulo 4, y se obtiene el valor que corresponde en esa curva a la θ obtenida por el evaluado. Según la ecuación [4.31], la CCT nos da la puntuación esperada en el test para cada nivel de rasgo. Por supuesto, también cuando se aplica la TRI se ha de informar y tener en cuenta la precisión de la medida.
Ejemplo 7.2. Interpretación de las puntuaciones en la TRI Retomemos el ejemplo de los 7 ítems de un test de Cálculo numérico que se incluyeron en la Tabla 4.4. Tras su calibración con el ML3P se obtuvieron los parámetros que aparecen en la Tabla 4.5. Vimos que, si administramos el test y un evaluado resuelve correctamente los 4 primeros ítems y falla los 3 últimos, la θ estimada por máxima verosimilitud es – 0,205 (véase la Figura 4.11). La interpretación de esta puntuación puede hacerse de varias formas:
Capítulo 7. Interpretación de las puntuaciones
283
1. La media y desviación típica de las θ obtenidas suele ser 0 y 1, respectivamente. Por tanto, el evaluado está 0,205 desviaciones típicas por debajo de la media. Puede comprobarse que, cuando θ = –0,205, la función de información del test de 7 ítems es 1,527 y el error típico de estimación es 0,809. Por tanto, el verdadero nivel de rasgo del evaluado estará comprendido entre –1,791 y 1,381, con un nivel de confianza del 95%, según lo visto en el capítulo 4 sobre el modo de obtener los intervalos de confianza para la estimación de θ. El intervalo tiene una considerable amplitud, pues se han administrado sólo 7 ítems y la precisión no es elevada. 2. La puntuación puede transformarse linealmente mediante [7.3] a una escala que tenga la media y desviación típica que convenga. Por ejemplo, en una escala de media 100 y desviación típica 20, su nueva puntuación sería 96 (=(20)(–0,205)+100). Comprobamos que la puntuación transformada sigue estando 0,205 desviaciones típicas por debajo de la media. 3. La puntuación esperada en el test de quien tenga un nivel de rasgo –0,205 será, aplicando la expresión [4.31],
X (−0,205) =
1− c j = 3,890. c + j − 1,702 a j (−0,205 − b j ) j =1 1+ e 7
∑
Por tanto, el número de aciertos esperado en el test para el evaluado es 3,89, muy cercano al número observado de aciertos, 4. La transformación anterior convierte un nivel de rasgo estimado en una puntuación en la escala de las puntuaciones directas.
Cuando se aplica la TRI es posible ubicar a las personas y a los ítems en una escala común: tanto las θ estimadas como las dificultades de los ítems (b) se expresan en una misma métrica. Esta propiedad permite relacionar cada nivel de rasgo con los ítems que probablemente serían resueltos correctamente por quien tuviese dicho nivel (los que tengan dificultades inferiores). Reparando en el contenido de estos ítems, puede inferirse qué sabe hacer el evaluado y facilitar de este modo la interpretación de su puntuación. En el siguiente apartado volveremos sobre esta interesante propiedad de la TRI.
Otros métodos para dar significado a las puntuaciones Otra manera de facilitar la interpretación de las puntuaciones consiste en describir qué se espera que sepa o sepa hacer quien ha obtenido cada puntuación. Las dos estrategias más comunes son el mapeo de ítems y la descripción de los niveles de desempeño. Son estrategias apropiadas cuando estamos interesados en una interpretación referida al criterio más que normativa. Con los procedimientos normativos sabemos la posición del evaluado en relación al grupo. Al evaluado de la Figura 7.3 ha correspondido el rango centil 30 y un límite superior de 36. Su rendimiento en relación al grupo es medio o medio bajo. La in-
284 Medición en Ciencias Sociales y de la Salud terpretación normativa no nos dice qué sabe o no sabe hacer el evaluado, cuáles son sus fortalezas y debilidades, da poca o ninguna información diagnóstica que pueda guiar su aprendizaje futuro. Veremos a continuación ambas estrategias y cómo se determinan los puntos de corte que permiten establecer los niveles de desempeño.
El mapeo de ítems Aunque no se dijo expresamente, se habló del mapeo de ítems en el capítulo 4, al estudiar el ML1P. Una de las ventajas de la TRI es que las dificultades de los ítems (parámetros b en los modelos logísticos) están en la misma escala que los niveles de rasgo, θ. Es posible, entonces, construir una gráfica o mapa en el que aparecen, junto a los distintos valores de θ, las puntuaciones obtenidas por los evaluados y los ítems administrados, según sus valores del parámetro b. Ésa fue la información mostrada en la Tabla 4.1. La gráfica muestra los ítems que con alta probabilidad resolvería un evaluado con nivel de rasgo θ (los que tienen parámetros b menores que θ), los que resolvería con probabilidad media (b similares a θ) y los que probablemente no sabría resolver (b mayores que θ). Dado que se sabe las operaciones, contenidos… que evalúa cada ítem, se puede asociar a cada puntuación los contenidos o procedimientos que hay que dominar para obtenerla. El mapeo de ítems puede también aplicarse con la TCT. Una vez que se ha elegido una escala en la que asignar las puntuaciones, hay que buscar los ítems que son característicos de algunas de ellas. El procedimiento consiste en asociar a cada puntuación el ítem que sea acertado, con una probabilidad de acierto p, por los que tienen esa puntuación. El valor de p se suele fijar entre 0,5 y 0,8. A veces se tienen en cuenta otros criterios, como que los ítems tengan, además del valor p establecido, alta capacidad de discriminación entre los que puntúan por encima y por debajo de la puntuación. También, a veces, se tiene en cuenta si, a juicio de los expertos, el ítem representa bien el contenido del test. En el caso de ítems de respuesta abierta, se muestra la respuesta más probable que daría la persona que obtuviese esa puntuación. Se trata entonces de mostrar el ítem que ilustre mejor el rendimiento que se espera de quien obtenga cada puntuación.
Ejemplo 7.3. Mapeo de ítems En la web http://nces.ed.gov/nationsreportcard/itemmaps/ se muestra un ejemplo de mapeo de ítems para facilitar la interpretación de una escala de Matemáticas de NAEP del grado 4. La escala va de 0 a 500. El procedimiento requiere que se muestre un ítem representativo de algunas de las puntuaciones del test que indique qué es capaz de hacer quien obtiene la correspondiente puntuación. Por ejemplo, los niños que tienen la puntuación 287 suelen obtener la respuesta correcta al siguiente ítem de respuesta abierta.
Capítulo 7. Interpretación de las puntuaciones
285
En una bolsa hay 6 cubos del mismo tamaño. Dos cubos son amarillos, tres son rojos y uno es azul. Pedro elige un cubo de la bolsa, sin mirar. ¿Qué color es el más probable? ¿Cuál es la probabilidad de que sea elegido ese color?
Algo similar se hace con otras puntuaciones. Junto a cada una se ofrece una breve descripción del ítem, se indica el bloque de contenidos al que pertenece, el tipo de ítem (si es de opción múltiple o de respuesta abierta o construida). Se indica además el resultado que se espera: acierto con una alta probabilidad en los de opción múltiple; o una de las posibles calificaciones en los de respuesta abierta. Además, algunos ítems son públicos y se muestran, mientras que otros no.
Descripción de cada nivel de desempeño Se trata de establecer mediante expertos los niveles de desempeño asociados a determinadas puntuaciones en el test, con objeto de informar del nivel de competencia a los interesados (p. ej., a los evaluados o a los responsables de la aplicación). Supongamos que hemos establecido cuatro niveles de rendimiento: Insuficiente, Suficiente, Destacado y Avanzado. Una vez que se ha hecho el mapeo de ítems, se pide a expertos que analicen los ítems que quedan cerca de los correspondientes tres puntos de corte. Si los grupos se han establecido atendiendo a los rangos centiles, se les pediría la misma tarea en relación, por ejemplo, a los rangos centiles 75, 50 y 25. También puede hacerse esto mismo en relación a los valores prominentes de la escala (en una escala de 200 a 800, a los valores 300, 500 y 700, por ejemplo). La tarea de los expertos es estudiar bien esos ítems para encontrar y describir en pocas frases qué sabe y qué sabe hacer quien obtenga esa puntuación. Para interpretar una puntuación se acepta que el evaluado sabrá hacer lo indicado en las descripciones que corresponden a los niveles de desempeño inferiores al que le ha correspondido.
Ejemplo 7.4. Descripción de cada nivel de desempeño Un ejemplo de cómo se describen los niveles de desempeño puede verse en la dirección (http://nces.ed.gov/nationsreportcard/ltt/math-descriptions.asp). Se establecen varios niveles que vienen definidos por las puntuaciones 150, 200, 250, 300 y 350. En el nivel más alto (puntuaciones superiores a 350), solución de problemas de varios pasos y álgebra, se indica: “Los estudiantes de este nivel pueden… resolver problemas con fracciones y porcentajes, reconocen las propiedades de las figuras geométricas básicas y pueden trabajar con exponentes y raíces cuadradas. Pueden resolver problemas que requieren dos pasos usando variables, identificar expresiones algebraicas equivalentes y resolver ecuaciones
286 Medición en Ciencias Sociales y de la Salud lineales y desigualdades. Comienzan a entender las funciones y los sistemas de coordenadas”. Se ofrecen descripciones similares de los restantes niveles. Cada descripción indica lo que supuestamente sabe hacer quien alcanza ese nivel. Los estudiantes en cada nivel han de tener una probabilidad de éxito de al menos 0,75 en las tareas que se indican en la descripción, mientras que los estudiantes de los niveles inferiores han de tener una probabilidad mucho menor (la diferencia entre las probabilidades ha de exceder de 0,30).
Una estrategia similar puede aplicarse en los tests donde, tras el análisis del mapeo de ítems en los puntos de corte y aledaños, no resulta fácil construir la descripción que se pretende. En ese caso, se puede complementar la descripción suministrando información de las características de los clasificados en cada nivel. El test de inglés eCAT (Olea, Abad, Ponsoda y Ximénez, 2004) genera automáticamente un informe para facilitar la interpretación de los resultados de cada evaluado. Muestra su rango centil, la precisión de la medida, su nivel de inglés (Iniciación, Medio-bajo, Medio-alto y Avanzado) y una descripción de la muestra representativa del nivel asignado, a partir de las respuestas obtenidas en un estudio de validación, en el que se preguntaba por la formación recibida en inglés y otros datos autobiográficos. Por ejemplo, si la puntuación de un evaluado está en el nivel Avanzado, se le indica que los que pertenecen ese grupo son personas que han nacido o vivido durante mucho tiempo en países anglosajones, con familiares directos anglohablantes, muchos años de formación en el idioma, etc.
Puntos de corte A veces, el objetivo de una determinada aplicación es encontrar la puntuación o puntuaciones del test que separan a los competentes de los no competentes o los distintos niveles de desempeño que queramos establecer. Han surgido muchos procedimientos para determinar los puntos de corte. Los que vamos a ver son de aplicación en los tests referidos al criterio, pero los hay para tests normativos. En éstos, el objetivo es dividir el grupo en subgrupos que tengan un tamaño prefijado, mientras que en los primeros los puntos de corte vienen determinados por los conocimientos, destrezas y capacidades requeridos por las calificaciones. Los puntos de corte establecidos al modo normativo no son útiles para la acreditación de los evaluados, pues se valora la posición de la persona en relación a la de los demás, y no el nivel de competencia del evaluado en términos absolutos. El establecimiento de puntos de corte es un asunto controvertido, especialmente por el enorme peso que tienen en todos los procedimientos los juicios de los expertos. Por lo tanto, importa mucho en el resultado final la composición del panel de expertos, el entrenamiento que los jueces reciben, el método utilizado, los datos que se ofrecen a los jueces… Se ha llegado a decir que los procedimientos son en cierta medida arbitrarios (Glass, 1978). Hambleton y Pitoniak (2006) proponen los siguientes pasos para el establecimiento de los puntos de corte: 1. Selección del método a aplicar, que dependerá de varios factores: (a) del tipo de ítems, (b) de los recursos temporales y de otro tipo que el método requiere, (c) de la experien-
Capítulo 7. Interpretación de las puntuaciones
2.
3.
4.
5. 6.
7.
8. 9.
287
cia anterior con el método y (d) de los datos sobre la calidad de los distintos métodos. Se suele recomendar que se aplique más de un método, de forma que se puedan comparar los diferentes puntos de corte obtenidos; pero, por lo costoso que resulta, sólo se hace en estudios piloto o de investigación. Elección de los jueces o panelistas y del diseño. El método a aplicar condiciona el tipo de juez, pues algunos métodos requieren que los jueces sean más expertos en los contenidos del test que otros. Hay que atender a la composición del panel, en cuanto a procedencia geográfica, etnia, edad, género y otros factores… El grado en que la propuesta de los puntos de corte es defendible frente a eventuales recursos judiciales depende en buena medida de cómo se ha formado el panel. Preparar las descripciones de las categorías de rendimiento. Hay que llegar a descripciones de las destrezas, conocimientos y habilidades que caracterizan a los examinados de cada categoría. Varios métodos requieren obtener las descripciones de los evaluados frontera, que son los evaluados que tienen justamente el nivel requerido por el punto de corte que se busca. Hay que llegar a una definición precisa del nivel de conocimiento, destrezas, procedimientos… que ha de dominar el evaluado frontera. Entrenar a los panelistas a usar el método. Se recomienda realizar las siguientes tareas: (a) dar las orientaciones generales del proceso a seguir y explicar qué se pretende con el test, (b) explicar los pasos a seguir en el proceso de obtención de los puntos de corte, (c) mostrar las claves de corrección o rúbricas con las que se han evaluado los exámenes y asegurarse de que se han entendido bien, (d) explicar cómo se han de dar las evaluaciones, (e) hacer ejercicios de evaluación similares a los que han de hacer, (f) explicar los datos normativos que se vayan a usar en el proceso, (g) familiarizarse con el test, (h) hacer que los panelistas se familiaricen con las descripciones de los niveles de desempeño y del estudiante frontera, si fuera el caso, e (i) responder al test en las condiciones en las que lo han hecho los evaluados. Recoger las evaluaciones que hacen los jueces. Esta información suele ser procesada y se devuelve como feedback para iniciar la discusión. Dar feedback y comenzar la discusión. Se suele generar una primera propuesta de puntos de corte. Se ve a continuación el impacto que tiene en la clasificación de los evaluados y se inicia la discusión para detectar fallos de interpretación en los jueces. Se suele repetir el proceso dos o tres veces, permitiendo a los panelistas cambiar sus evaluaciones. Se recogen las evaluaciones y se calculan los puntos de corte definitivos. Los puntos de corte suelen resultar de promediar (media o mediana, por lo general) los obtenidos por los panelistas. Si se utiliza la media y las evaluaciones son independientes (como suele ocurrir en la primera ronda), se puede utilizar el error típico de la media como un indicador de la estabilidad del punto de corte en ese panel. Los panelistas evalúan todo el proceso. Recogida de las evidencias de validez y preparación de la documentación técnica.
Con ítems de opción múltiple, los métodos más recomendables son el de Angoff y el del marcapáginas (“bookmark”). En ítems de respuesta construida o en tareas de evaluación del rendimiento, uno de los recomendados es el método holístico (“body of work”).
288 Medición en Ciencias Sociales y de la Salud El método de Angoff Puede aplicarse a ítems de opción múltiple. Cada panelista proporciona para cada ítem la probabilidad que considera que tendría el evaluado frontera de acertar el ítem. Las probabilidades que un panelista da se suman a través de los ítems del test y esa suma sería su propuesta de punto de corte. La media de las sumas dadas por los panelistas sería el punto de corte buscado.
Ejemplo 7.5. Aplicación del método de Angoff Cuatro jueces han dado para diez ítems las siguientes probabilidades de acierto para el estudiante frontera. Los resultados se muestran en la Tabla 7.5. La última fila contiene el punto de corte que propondría cada panelista. El punto de corte propuesto sería la media de los cuatro valores, 4,32. Cabría obtener una medida del acuerdo entre los panelistas (mediante la correlación intraclase, por ejemplo) y el error típico de la media como medida de la precisión. Tabla 7.5. Probabilidades de acierto asignadas a 10 ítems por 4 jueces Ítem
Panelista 1
Panelista 2
Panelista 3
Panelista 4
1 2 3 4 5 6 7 8 9 10
0,7 0,8 0,7 0,3 0,5 0,5 0,3 0,2 0,1 0
0,9 0,9 0,8 0,3 0,6 0,5 0,4 0,3 0,2 0,1
0,3 0,5 0,4 0,3 0,5 0,5 0,5 0,3 0,2 0,1
0,6 0,7 0,7 0,4 0,4 0,5 0,5 0,4 0,3 0,1
4,1
5
3,6
4,6
Un problema con este método es que se sabe que las estimaciones que se suelen hacer del rendimiento de los evaluados frontera suelen tener sesgo negativo (es decir, son menores de las que se debieran dar) en los puntos de corte inferiores, y sesgo positivo para los puntos de corte superiores. En la práctica se usa especialmente el método de Angoff modificado, que resulta de añadir otros elementos, como mostrar los datos de los examinados a los panelistas, hacer rondas de evaluaciones… La principal crítica es que la tarea que se pide es demasiado difícil para que los panelistas la hagan de forma precisa, especialmente cuanto se aplica la versión en la que han de dar como respuesta a cada ítem la probabilidad de acierto del estudiante frontera. Angoff también propuso otro método en el que la
Capítulo 7. Interpretación de las puntuaciones
289
tarea consiste en decir ante cada ítem si el examinado frontera lo acertaría o no. Este método es conocido como el método SÍ-NO. Se ha extendido el método de Angoff a ítems politómicos. El panelista ha de dar una estimación de la puntuación esperada por el estudiante frontera en cada ítem.
El método de Nedelsky Es adecuado para ítems de opción múltiple. En cada ítem el panelista ha de indicar cuántas opciones podría el estudiante frontera saber que son incorrectas. Se obtiene a continuación el recíproco de las opciones que quedan, que sería la probabilidad de acierto si respondiese al azar entre ellas. La propuesta de cada panelista sería la suma de estos recíprocos a lo largo del test. El punto de corte sería el promedio de esas sumas de todos los panelistas.
Ejemplo 7.6. Aplicación del método de Nedelsky Dos jueces han dado para 6 ítems las probabilidades de acierto que figuran en la Tabla 7.6. Los ítems son de opción múltiple y tienen 4 opciones. La tabla muestra entre paréntesis las opciones que, en opinión de cada juez, el estudiante frontera daría por falsas. La probabilidad de acierto es el recíproco del número de opciones del ítem no eliminadas. Tabla 7.6. Probabilidades de acierto asignadas a 6 ítems por dos jueces Ítem
Panelista 1 (opciones eliminadas)
Panelista 2 (opciones eliminadas)
1 2 3 4 5 6
0,50 (2) 0,33 (1) 0,33 (1) 0,50 (2) 0,25 (0) 0,33 (1)
0,33 (1) 0,50 (2) 0,33 (1) 0,33 (1) 0,25 (0) 0,33 (1)
2,24
2,07
La última fila contiene el punto de corte que propondría cada panelista. El punto de corte propuesto por el panel sería la media de los valores, 2,16.
El método del marcapáginas Se prepara una lista de ítems ordenados por su parámetro b, que es el indicador de la dificultad de los ítems en algunos modelos de la TRI, según lo visto en el capítulo 4. La tarea del panelista es poner el marcapáginas entre dos ítems, de forma que los que están delante
290 Medición en Ciencias Sociales y de la Salud serían resueltos correctamente por el evaluado frontera con una cierta probabilidad mayor o igual a p, y con una probabilidad menor los que están detrás. La propuesta de punto de corte que hace un panelista es la b del ítem que precede al marcapáginas. Los valores aportados por los distintos panelistas se promediarían. La tarea del panelista es ver, ítem a ítem, en cuál la probabilidad de acierto del estudiante frontera sería el valor de p prefijado (por ejemplo, 0,50). Como los ítems están ordenados de menor a mayor b, en el primer ítem la probabilidad será superior a 0,5; así ocurrirá hasta que llegue a un ítem al que corresponda una probabilidad de acierto de 0,5 al nivel de rasgo del estudiante frontera. Se suele recomendar que se busque el ítem en el que la probabilidad, p, sea 0,67. En un test concreto, el nivel de rasgo obtenido en la TRI (es decir, ese valor de b) se puede convertir, si se desea, en un número de aciertos, como se ha indicado anteriormente, en el apartado Baremos en la TRI, utilizando la curva característica del test. El método se usa en varios estados de Estados Unidos y los panelistas se sienten cómodos con el procedimiento, pues están seguros con el punto de corte que dan (Hambleton y Pitoniak, 2006).
Otros métodos Se han propuesto métodos alternativos para establecer puntos de corte. En el método del grupo frontera, se recurre a expertos, profesores… para seleccionar a un conjunto de evaluados frontera. Se toma la mediana de sus puntuaciones en el test como punto de corte. En el método de los grupos que se comparan, se recurre a profesores para que identifiquen a estudiantes que estén claramente por encima del punto de corte y a otro grupo que esté claramente por debajo. Las distribuciones se comparan y se suele tomar como punto de corte aquella puntuación en la que ambas se cortan. En el método holístico (body of work) los panelistas ven todo el trabajo (respuestas a ítems de opción múltiple, prácticas, ejercicios…) de los evaluados. Los trabajos han sido previamente puntuados y se elige uno por cada una de las puntuaciones distintas asignadas. Los trabajos se presentan a los panelistas ordenados según su puntuación, de menor a mayor. La tarea del panelista es clasificar cada trabajo en una de las categorías de rendimiento. El Ejemplo 7.7 detalla cómo se llega a los puntos de corte a partir de cómo los panelistas han clasificado los trabajos.
Ejemplo 7.7. Aplicación del método holístico En el ejemplo siguiente (tomado de Cizek y Bunch, 2007) 12 panelistas han evaluado 24 trabajos, cuyas puntuaciones son 17, 18… 40. Las 24 posibles puntuaciones se muestran en el eje X de la Figura 7.4. Cada uno de los 12 panelistas ha de clasificar cada trabajo en una de estas cuatro categorías: Insuficiente, Suficiente, Destacado y Avanzado. La gráfica muestra que 10 panelistas coincidieron en la calificación (Insuficiente) del trabajo con puntuación 17. Los otros dos panelistas lo clasificaron como Suficiente. El trabajo calificado con 18 puntos fue clasificado como Insuficiente por 9 jueces y por 3 como Suficiente, y así sucesivamente.
Capítulo 7. Interpretación de las puntuaciones
291
Figura 7.4. Ejemplo de aplicación del método holístico 12
Insuficiente
Suficiente
Destacado
Avanzado
Panelistas
10 8 6 4 2 0 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Puntuaciones directas
Una propuesta inicial de puntos de corte resulta de tomar las puntuaciones donde se cortan las distribuciones, que en el ejemplo serían 20, 29 y 39. En este método la cantidad de solapamiento entre las distribuciones puede dar pistas de la calidad del trabajo realizado por los panelistas.
292 Medición en Ciencias Sociales y de la Salud
Apéndice Programas de ordenador para confeccionar baremos El programa de libre distribución Percentile_Norms_Int_Est.exe (Crawford, Garthwaite y Slick, 2009) obtiene los baremos centiles, tratando la variable como continua. Aplicado el programa a los datos de la Tabla 7.2, obtiene los valores que se muestran en la última columna. Es de muy fácil uso. Hay que especificar el menor y el mayor valor de X y el número de evaluados del grupo normativo. El programa lee un archivo de texto que contiene los valores de X y las frecuencias. Además del rango centil de cada X muestra el intervalo de confianza en el que se encuentra dicho rango centil obtenido por tres procedimientos (más información en la referencia citada). Un segundo programa, también de libre distribución, es Stanscore 3 (véase www.pbarrett.net). Admite de entrada los datos de una o más variables y proporciona de cada una la distribución de frecuencias, así como varios de los baremos expuestos (centiles, típicos, escala T, estaninos y decatipos).
8
Métodos alternativos para estimar el coeficiente de fiabilidad Introducción En el capítulo 3 se mostraron los procedimientos más usuales para estudiar la fiabilidad de las puntuaciones en una prueba. En el presente capítulo se describen otros métodos alternativos para estimar el coeficiente de fiabilidad. En primer lugar, se introduce el vocabulario comúnmente utilizado para describir el grado de equivalencia entre formas. En el capítulo 3 se definió el concepto de fiabilidad como correlación entre formas estrictamente paralelas. En este capítulo veremos que el paralelismo estricto es un grado de equivalencia, pero pueden definirse otros grados de equivalencia; cada grado se corresponde con un método para calcular rXX. En segundo lugar, se describen distintos métodos para estimar la consistencia interna en función del grado de equivalencia entre las partes. Por ejemplo, cuando no se cumple el paralelismo estricto entre las mitades de un test, pueden utilizarse otros métodos para calcular el coeficiente de fiabilidad por el método de las dos mitades. Se ilustra también que el coeficiente α es uno de los muchos indicadores globales de consistencia interna. El tercer bloque se centra en los modelos más simples para obtener un coeficiente de fiabilidad basado en el análisis factorial: el coeficiente omega. Son cada vez más los autores que promueven el uso de modelos de análisis factorial para el estudio de la fiabilidad. Los modelos factoriales posibilitan una aproximación flexible y completa al estudio de la fiabilidad. Desde la aproximación factorial, para datos unidimensionales, el coeficiente de fiabilidad se redefine como la proporción de varianza del test que explica el factor común.
294 Medición en Ciencias Sociales y de la Salud Finalmente, veremos que para tests multidimensionales el concepto de fiabilidad es más complejo. En este caso, el uso de los métodos tradicionales puede dar lugar a estimaciones inadecuadas. En esta situación, pueden calcularse diversos indicadores de fiabilidad que se recogen en el último bloque de este capítulo. La elección entre un método u otro puede depender de la perspectiva teórica del investigador. Por ejemplo, si las respuestas a los ítems de un test dependen de un factor común general (en el que saturan factorialmente todos los ítems) y de varios factores comunes específicos (en el que satura un subconjunto de los ítems), se debe decidir si uno está interesado en la proporción de varianza del test que es explicada por el factor general o en la que es explicada por todos los factores comunes. Las conclusiones serán muy distintas en cada caso.
Grados de equivalencia entre formas Para obtener el resultado observado en [3.14]:
ρ XX ≡ ρ X1X 2 =
σ V2 σ X2
es estrictamente necesario que las formas sean paralelas. Sin embargo, también puede obtenerse el coeficiente de fiabilidad (la proporción de varianza del test que es varianza verdadera) en otras situaciones en las que las formas no son estrictamente paralelas. En realidad, podemos hablar de distintos grados de paralelismo (ver Cuadro 8.1): 1. Medidas estrictamente paralelas: cuando en dos tests, X1 y X2, las puntuaciones verdaderas y las varianzas de error son iguales. Éste ha sido el grado de equivalencia que se vio en el capítulo 3. El coeficiente de fiabilidad se obtiene simplemente calculando la correlación entre ambas formas y es el mismo para las dos. 2. Medidas tau-equivalentes: medidas que tienen igual puntuación verdadera pero difieren en varianza error. Poblacionalmente, las covarianzas entre las distintas medidas serán iguales ya que cada covarianza seguirá siendo un estimador de la varianza verdadera. Sin embargo, las varianzas de las puntuaciones empíricas diferirán a través de las formas y, por tanto, el coeficiente de fiabilidad de cada prueba será distinto para cada forma (p. ej., para obtener el coeficiente de fiabilidad de la forma 1 habrá que dividir la covarianza entre las formas 1 y 2 por la varianza de la forma 1). 3. Medidas esencialmente tau-equivalentes: medidas en las que las puntuaciones verdaderas son iguales tras una transformación aditiva de cualquiera de ellas (es decir, transformación por adición de una constante). Esta situación es igual que la anterior ya que, de nuevo, las covarianzas entre las distintas medidas serán iguales y cada covarianza seguirá siendo un estimador de la varianza verdadera. Por tanto, el coeficiente de fiabilidad de cada forma puede obtenerse de la misma manera que en el caso anterior. 4. Medidas congenéricas: medidas en las que las puntuaciones verdaderas son iguales tras una transformación lineal de cualquiera de ellas. En este caso, la varianza de las puntuaciones verdaderas no se puede obtener directamente de la covarianza observada entre formas. Por definición, el coeficiente de fiabilidad para cada forma f sería:
295
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
ρX f X f =
σ V2 f σ X2 f
a 2f σ V2
=
σ X2 f
Para deducir los valores de af en cada forma necesitamos al menos tres formas. Por ejemplo, para deducir el coeficiente de fiabilidad de la forma 1:
ρ X1 X1 =
(σ X1X 2 σ X1X 3 ) σ X 2 X 3 ((a1 a2σ V2 )(a1 a3σ V2 )) (a2 a3σ V2 ) a12σ V2 = = σ X2 1
σ X2 1
σ X2 f
Además, la covarianza observada diferirá según qué formas se correlacionen. La estimación del coeficiente de fiabilidad de cada una de las formas será distinta y no puede calcularse a partir de la información de sólo dos formas paralelas. Para 3 formas congenéricas (X1, X2 y X3) el coeficiente de fiabilidad de las puntuaciones puede calcularse con las fórmulas que se muestran en el Cuadro 8.1. Para más de 3 pruebas, se precisan modelos más complejos de Análisis Factorial. Cuadro 8.1. Tipos de equivalencia entre formas Grado de paralelismo Estrictamente paralelas
Tau-equivalentes
Esencialmente tau-equivalentes
Congenéricas
X 2 = V + E2
X 1 = V + E1 X 2 = V + E2
X 1 = (V + b1 ) + E1 X 2 = (V + b2 ) + E2
X 1 = (a1V + b1 ) + E1 X 2 = (a2V + b2 ) + E2 X 3 = (a3V + b3 ) + E3
Varianza error
σ E21 = σ E2 2
σ E21 ≠ σ E2 2
σ E21 ≠ σ E2 2
σ E21 ≠ σ E2 2 ≠ σ E23
Varianza verdadera
σ V2 = σ X1 X 2
σ V2 = σ X1 X 2
σ V2 = σ X1 X 2
σ V2 ≠ σ X1 X 2
Medias y varianzas observadas
µ X1 = µ X 2
µ X1 = µ X 2
µ X1 ≠ µ X 2
µ X1 ≠ µ X 2 ≠ µ X 3
σ X2 1
σ X2 1
σ X2 1
σ X2 1 ≠ σ X2 2 ≠ σ X2 3
Fórmula para las puntuaciones observadas
Coeficientes de fiabilidad
X 1 = V + E1
= σ X2 2
ρ X1 X1 =
ρX2X2 =
σ X1 X 2
σ X1σ X 2
σ X1 X 2
σ X1σ X 2
≠
ρ X1 X1 =
ρX2X2 =
σ X2 2
σ X1 X 2 σ X2 1
σ X1 X 2 σ X2 2
≠
ρ X1 X1 =
ρX2X2 =
σ X2 2
σ X1 X 2
ρ X1 X1 =
σ X1 X 2
ρX2X2 =
σ X2 1
σ X2 2
ρ X3X3 =
(σ X1X 2σ X1X 3 ) σ X 2 X 3 σ X2 1
(σ X1X 2σ X 2 X 3 ) σ X1X 3 σ X2 2
(σ X 2 X 2σ X1X 3 ) σ X1X 2 σ X2 3
296 Medición en Ciencias Sociales y de la Salud El grado de paralelismo se puede estudiar mediante el uso del Análisis Factorial Confirmatorio (AFC; Gómez Benito, 1996; Joreskog y Lawley, 1968). De esta forma se puede evaluar no sólo si se incumplen los supuestos de paralelismo sino también el grado en que se hace. Para ello se establece un modelo de un factor común en el que saturan cada una de las formas. Para que el modelo factorial esté identificado son necesarias al menos tres formas. Con tres formas puede comprobarse si el supuesto de paralelismo estricto se satisface (p. ej., se contrasta que los pesos de las formas en el factor son iguales y que las varianzas error de las formas son iguales). Con más de tres pruebas se puede comprobar el supuesto de que son medidas congenéricas (De Gruijter y van der Kamp, 2003; Joreskog, 1971). Para decidir sobre el paralelismo de las medidas se compara el ajuste de los modelos sucesivos (ver Cuadro 8.2). Por ejemplo, si el Modelo 2 (Tau-equivalencia) supone un mejor ajuste estadístico a los datos que el modelo 1 (Paralelismo estricto), concluiremos que las formas no son estrictamente paralelas. El uso de los modelos de AFC se desarrolla en el Capítulo 10. Aunque la aplicación del AFC permite contrastar los supuestos de paralelismo, lo más frecuente es asumir que las formas son estrictamente paralelas. Esto es bastante razonable si se han cuidado las especificaciones de las formas (p. ej., si se han asignado aleatoriamente los ítems a las partes) y tanto más razonable cuanto mayor es el número de ítems de cada forma. Cuadro 8.2. Comprobación del grado de paralelismo entre formas Grado de paralelismo Modelo 1 Estrictamente paralelas
Modelo 2 Tauequivalentes
Modelo 3 Esencialmente tau-equivalentes
Pesos Factoriales
Iguales
Iguales
Iguales
Pueden diferir
Varianzas de Error
Iguales
Pueden diferir
Pueden diferir
Pueden diferir
Iguales
Iguales
Pueden diferir
Pueden diferir
Modelo 4 Congenéricas
λj
σ
2
E
Intersección (Medias)
µj
Existe un último tipo de paralelismo entre formas: los tests aleatoriamente paralelos. En el marco de la Teoría de la Generalizabilidad (ver capítulo 9), se asume que existe un dominio de ítems del que se pueden extraer aleatoriamente tests de J ítems. Los tests así constituidos se denominan tests aleatoriamente paralelos. La puntuación verdadera se sigue definiendo como la puntuación empírica esperada (en este caso, a través de los posibles tests aleatoriamente paralelos). En este marco, los tests aleatoriamente paralelos se
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
297
caracterizan porque el valor esperado de las covarianzas de cada test con el resto es igual para cualquier test así construido:
ε k (σ X1 X k ) = ε k (σ X 2 X k ) = ... k ≠1
k ≠2
Lo que no implica que los tests sean estrictamente paralelos ya que, por ejemplo, las covarianzas de dos tests concretos pueden ser distintas a nivel poblacional:
σ X1X k ≠ σ X 2 X k ≠ .... En ese caso, puede calcularse lo que se denomina coeficiente de generalizabilidad (ver capítulo 9), que se interpreta como la correlación esperada entre dos tests aleatoriamene paralelos:
ρ xx = ε k ( ρ X k X k ' )
Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades Existen otras fórmulas para obtener el coeficiente de fiabilidad a partir de las dos mitades que sólo requieren la tau-equivalencia esencial entre ellas (Flanagan, 1937; Guttman, 1945; Rulon, 1939); en ese caso, aunque las varianzas de error difieran en las dos partes, se cumple poblacionalmente que (ver Cuadro 8.1):
σ X I X P = σ V2M donde σ V2M es la varianza verdadera de cualquiera de las dos mitades del test. Recordemos
la relación entre la varianza verdadera de un test alargado n veces y la varianza verdadera del test original: 2 σ Va = n 2σ V2
Puesto que el test completo está formado por dos mitades con igual varianza verdadera, se deduce que:
σ V2 = 2 2 σ V2M por tanto, muestralmente, se puede obtener el coeficiente de fiabilidad por la fórmula de Guttman-Rulon-Flanagan como:
298 Medición en Ciencias Sociales y de la Salud G rXX
=
SV2
S X2
=
4S X I X P S X2
[8.1]
Esta fórmula es muy interesante ya que el coeficiente α puede entenderse como el promedio de todos los coeficientes de fiabilidad obtenibles por el método de las dos mitades según la fórmula de Guttman:
α = εk
(
k G rXX '
)
donde Gk rXX ' es el coeficiente de fiabilidad por el método de las dos mitades de Guttman obtenido utilizando una división particular (k) en dos mitades. También existen fórmulas para cuando las dos mitades son congenéricas. Un caso particular se produce cuando las dos mitades no tienen el mismo número de ítems. Incluso si los ítems son esencialmente tau-equivalentes, las dos mitades serán pruebas congénericas. Si los ítems son esencialmente tau-equivalentes, podemos definir que:
σ X I X P = J I J Pσ V2 j donde JI es la longitud de la primera mitad, JP es la longitud de la segunda mitad, σ V2j es la varianza de las puntuaciones verdaderas en un ítem del test. Además, sabemos que:
σ V2 = J 2σ V2 j . donde J es la longitud total del test. La fórmula para calcular el coeficiente de fiabilidad para dos mitades congenéricas sería (Raju, 1970): R rXX
=
SV2
S X2
=
J 2S XI XP S X2 J I J P
[8.2]
La relación entre los valores poblacionales de estos índices es la siguiente (Haertel, 2006): R ρ XX
≥ SB ρ XX ≥ G ρ XX
[8.3]
Feldt (Feldt, 2002; Feldt y Charter, 2003) hace una revisión de algunos de estos procedimientos y comenta cuál puede ser más adecuado según el grado de paralelismo de las formas. Sorprendentemente, las ecuaciones [8.1] y [8.2] apenas se mencionan en los libros o, si aparecen, no se recomiendan a pesar de su mayor idoneidad (Charter, 1996). Charter (2001) considera que el método tradicional, SBρXX, debería ser “enterrado”. Su postura parece algo exagerada, ya que la diferencia con las otras estimaciones, RρXX y GρXX, suele ser pequeña (Feldt y Brennan, 1989). Sin embargo, sí es cierto que puede haber resultados bastante distintos cuando se utilizan los procedimientos estadísticos inferenciales que
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
299
acompañan a cada índice, es decir, cuando se quiere contrastar la significación estadística de una diferencia entre dos coeficientes de fiabilidad (Charter, 2001).
Ejemplo 8.1. Coeficientes de fiabilidad por el método de las dos mitades En el programa informático SPSS GρXX se etiqueta como “Dos mitades de Guttman”. En el ejemplo 3.17, obtuvimos los valores SBρxx’ = 0,741 (SB-LDρxx’ = 0,743) para un test de Neuroticismo de 11 ítems. Podemos obtener ahora GρXX = 0,739. Si calculamos RρXX se obtiene:
J 2S XI XP
R rXX ' =
S X2 J I J P
=
(12) 2 1,481 = 0,745 8,019(6)(5)
Obsérvese que, en este caso, todos los valores obtenidos son bastante parecidos.
Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems Consideremos el modelo clásico general para la puntuación X: X =
J
∑
Xj =
j =1
J
∑
Vj +
j =1
J
∑E
[8.4]
j
j =1
donde Xj, Vj y Ej son las puntuaciones observada, verdadera y error en el ítem j. A partir de este modelo, se pueden obtener las relaciones entre los descriptivos de las variables observadas y los de las variables latentes. En concreto, sabiendo que X es una combinación lineal de las puntuaciones verdaderas en los ítems, la varianza de X es la suma de todas las varianzas y covarianzas que se pueden calcular entre las variables de las que es combinación lineal (Vj y Ej):
σ X2 =
∑σ j
2 Vj
+
∑σ
V jV j '
+
∑σ j
2 Ej
+
∑σ
V jE j
+
∑σ
E j E j'
Asumiendo los supuestos del modelo clásico (los errores correlacionan cero con cualquier otra variable), la fórmula anterior se simplifica a:
300 Medición en Ciencias Sociales y de la Salud
∑σ
σ X2 =
j
2 Vj
+
∑σ
V jV j '
+
∑σ j
2 Ej
[8.5]
Por otro lado, la varianza de las puntuaciones observadas en cualquier ítem:
σ X2 j = σ V2 j + σ E2 j Y, por tanto:
∑σ j
2 Xj
=
∑σ j
2 Vj
+
∑σ j
2 Ej
[8.6]
Finalmente, la covarianza entre dos ítems cualesquiera es:
σ X j X j ' = σ V jV j ' + σ V j E j ' + σ V j 'E j + σ E j E j ' Y, asumiendo los supuestos del modelo clásico (los errores no correlacionan con ninguna otra variable):
σ X j X j ' = σ V jV j ' Por tanto:
∑σ
X j X j'
=
∑σ
V jV j '
[8.7]
También sabemos que el coeficiente de fiabilidad puede definirse como:
ρ XX =
σ V2
σ X2
La puntuación verdadera en el test es: V =
∑V
j
j
Y, por tanto, para medidas congénericas, donde las puntuaciones verdaderas pueden diferir de ítem a ítem (Vj ≠ Vj’):
σ V2 =
∑σ j
2 Vj
+
∑σ
V jV j '
301
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad Por tanto, para estimar el coficiente de fiabilidad, debe estimarse la siguiente cantidad:
ρ XX =
∑σ
σ V2
V jV j '
=
σ X2
+
∑σ j
2 Vj
[8.8]
σ X2
El problema es que el numerador de la ecuación [8.8] no es directamente observable. Los distintos indicadores que se ofrecen a continuación suponen distintos intentos de estimar el numerador teniendo en cuenta las relaciones señaladas en las ecuaciones [8.5], [8.6] y [8.7].
Coeficiente de fiabilidad como límite inferior En el capítulo 3 mencionamos que el coeficiente α es un límite inferior de la fiabilidad como consistencia interna. Esto quiere decir que sabemos que α ≤ ρxx’. Diversos autores sugieren que existen otras estimaciones mejores del límite inferior. Buscamos que el límite inferior sea lo más alto posible, ya que entonces será estrecho el intervalo en el cual se puede encontrar el coeficiente de fiabilidad. Guttman (1945) propuso una serie de límites inferiores, denominados lambda (λ1, λ2, λ3, λ4, λ5 y λ6); de hecho, uno de los que propuso es el propio α , aunque él lo denominó λ3. La primera estimación grosera del límite inferior es (considerando las ecuaciones [8.5] y [8.7]):
λ1 =
σ X2
−
∑
σ X2 j
σ X2
=
∑σ j
2 Vj
+
∑σ
V jV j '
+
∑σ j
2 Ej
−
∑σ j
2 Vj
+
∑σ j
2 Ej
σ X2
que se simplifica a:
λ1 =
∑σ σ
V jV j '
[8.9]
2 X
que se denomina límite inferior porque, necesariamente, λ1 < ρXX (esto puede verse comparando las fórmulas [8.8] y [8.9]). λ1 es una aproximación pobre a ρXX porque se ignora uno de los términos en el numerador de la ecuación [8.8], σ V2 j .
∑
Podemos obtener un límite inferior, λk, más adecuado sumando una constante al numerador:
302 Medición en Ciencias Sociales y de la Salud λk =
σ X2 −
∑σ
2 Xj
+A
σ X2
=
∑σ
V jV j '
+A
σ X2
tal que:
0< A≤
∑σ j
2 Vj
Dos de las propuestas de Guttman para obtener un límite inferior más próximo al coeficiente de fiabilidad se denominan λ 2 y λ 3:
λ2 =
σ X2 −
∑σ
2 Xj
+ J σ X2 i X j
[8.10]
σ X2
λ3 = α =
σ X2 −
∑σ
2 Xj
σ
donde σ X2 i X j y σ X
jX j'
+ Jσ X
jX j'
2 X
[8.11]
son los promedios de las covarianzas entre ítems al cuadrado y
de las covarianzas, respectivamente. λ 3 es equivalente matemáticamente al coeficiente α. La lógica de estos indicadores parte de que necesariamente se cumple que el promedio de las covarianzas entre J variables tiene que ser menor o igual que el promedio de sus varianzas:
σ V jV j ' ≤ σ V2 j Por lo tanto, considerando 8.7, se cumple que:
Jσ X
iX j
≤
∑σ j
2 Vj
Se dice que λ 2 es un indicador mejor que el coeficiente λ 3 (α), pues es un límite inferior más alto, ya que necesariamente se cumple que:
Jσ X
iX j
≤ J σ X2 i X j
Si los ítems fueran tau-equivalentes, las covarianzas entre ítems serían iguales y entonces λ 2 = α = ρXX’.
303
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
Ejemplo 8.2. Coeficientes de fiabilidad como límite inferior El coeficiente λ 2 puede obtenerse en SPSS eligiendo el modelo “Guttman” dentro del menú Analizar > Escala > Análisis de fiabilidad. Obtendremos en la salida varios “límites inferiores” propuestos por Guttman etiquetados como Lambda 1 a Lambda 6. Para el ejemplo de la Tabla 3.12, donde obteníamos que el coeficiente α era 0,771, los resultados obtenidos se muestran en la Tabla 8.1. Tabla 8.1. Coeficientes Lambda
λ1
λ2
λ3
λ4
λ5
λ6
0,701
0,775
0,771
0,739
0,754
0,772
En nuestro caso, λ 2 = 0,775. En este caso, es mejor saber que el coeficiente de fiabilidad puede estar entre 0,775 y 1, que decir que puede estar entre 0,771 y 1. En general, las diferencias entre λ 2 y α suelen ser bastante pequeñas. En Revelle y Zinbarg (2008) pueden consultarse las fórmulas y la lógica para obtener el resto de los límites inferiores.
Ninguno de los coeficientes anteriores supone ventajas importantes frente a los más usuales, especialmente si el test es unidimensional, la calidad psicométrica de los ítems es parecida y el test es largo. Por ejemplo, el sesgo de aproximación a ρXX’ a partir de α es:
ρ XX − α =
J 2 (σ V j − σ V jV j ' ) J −1
σ X2
[8.12]
donde puede verse que, al aumentar el número de ítems, el numerador decrece (ya que J/(J – 1) se aproxima progresivamente a 1) y el denominador aumenta (ya que aumentará la varianza empírica del test). Otra forma de verlo es observar que en el numerador en [8.8] tiene dos componentes: uno relacionado con las covarianzas verdaderas entre ítems (que podemos estimar correctamente) y otro relacionado con las varianzas verdaderas de los ítems (que estimamos con cierto grado de error). Pues bien, al incrementar el número de ítems el numerador tendrá que ver mucho más con las covarianzas [J(J – 1)] que con las varianzas (J). Por ejemplo, con 5 ítems tendremos un 20% de varianzas en los elementos del numerador (5 de 25); con 12 ítems tendremos un 8% de varianzas; con 20 ítems un 5%,… Sin embargo, ninguno de los indicadores anteriores (α, λ 2,…) será una estimación adecuada en situaciones más complejas donde se incumpla alguno de los supuestos del modelo clásico (p. ej., en tests multidimensionales o cuando hay correlación entre errores). Una solución a este problema es abordar el problema de la fiabilidad desde el análisis factorial.
304 Medición en Ciencias Sociales y de la Salud
Coeficientes de fiabilidad basados en el análisis factorial Ya en los años setenta se propusieron indicadores de fiabilidad basados en el análisis factorial, como el coeficiente omega (Heise y Bohrnstedt, 1970), y no en la TCT. Sin embargo, han sido algo olvidadas las similitudes entre ambos modelos y las ventajas de los modelos factoriales, que darían al investigador una visión más general del proceso de medición que la que implica la TCT, pues permiten la distinción entre error, especificidad y varianza común. En los siguientes apartados se proporciona una definición del coeficiente Omega y se describe la lógica subyacente a este indicador, tanto para tests con estructura interna unidimensional como para tests con estructura interna multidimensional.
Tests unidimensionales Una visión moderna de la Teoría de Tests la proporciona el libro de McDonald (1999). “Test Theory: A Unified Treatment”, donde el autor ilustra algunas de las ventajas de utilizar la “artillería” factorial en el estudio de la fiabilidad. Esa visión integradora es además fiel a los orígenes del análisis factorial, que comparte raíces con el desarrollo del modelo clásico. Así, el modelo de factor común de Spearman puede expresarse como una extensión del modelo clásico. La puntuación en cada ítem j del test, Xj sigue el modelo factorial (McDonald, 1999):
X j = µ j + λjF + Ej
[8.13]
donde Xj representa la puntuación en el ítem j; F representa el factor común que generalmente, para fijar la métrica, se asume expresado en escala típica (es decir, se asume que µF = 0 y σ2F = 1); μj expresa la media del rendimiento en el ítem j; Ej representa la parte específica de la variable Xj y que, por tanto, es independiente de F; λj, el peso factorial (sin estandarizar), refleja la covarianza entre la variable Xj y F. Desde el modelo factorial puede estimarse el coeficiente de fiabilidad de un test X formado por J ítems tal que:
X =
J
∑
Xj =
j =1
J
∑
µj +
j =1
J
∑ j =1
λ j F +
J
∑E
j
=V + E
[8.14]
j =1
donde V indica la puntuación verdadera en el test, que se obtiene como:
V =
J
∑ j =1
J
λ ∑
µj +
j =1
j
F
y E indica el error en el test:
[8.15]
305
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
E=
J
∑E
[8.16]
j
j =1
La varianza de las puntuaciones en el test sería:
σ
2 X
= σ V2
+ σ E2
=
2
λ j σ F2 + j =1 J
∑
J
∑ j =1
σ E2 j
=
2
λj + j =1 J
∑
J
∑σ j =1
2 Ej
[8.17]
donde el primer sumando indica la varianza de las puntuaciones verdaderas en el test y el segundo la varianza de los errores en el test. El coeficiente omega (McDonald, 1999) se calcula como:
ω
ρ XX =
σ V2 σ X2
=
λj j =1 J
∑
2
[8.18]
σ X2
que indicaría el porcentaje de varianza de la puntuación del test X, combinación lineal de las puntuaciones en los J ítems, que es explicada por el factor común.
Ejemplo 8.3. Coeficiente Omega para datos unidimensionales En la escala de Neuroticismo obtenemos los resultados mostrados en la Tabla 8.2. Tabla 8.2. Pesos factoriales y desviaciones típicas de una escala unidimensional
ítems
Pesos factoriales obtenidos con SPSS (estandarizados)
λ*j X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
0,467 0,443 0,364 0,466 0,520 0,577 0,614 0,487 0,481 0,425 0,501
Desviación típica del ítem
Pesos factoriales sin estandarizar
σXj
λ j = λ*jσ X j
0,408 0,484 0,493 0,417 0,463 0,500 0,444 0,456 0,471 0,497 0,494
0,190 0,214 0,180 0,194 0,241 0,288 0,273 0,222 0,226 0,211 0,248
306 Medición en Ciencias Sociales y de la Salud Supongamos que la varianza de las puntuaciones empíricas en este test es 8,019. Para calcular el coeficiente omega habría que obtener primero el peso sin estandarizar de cada ítem en el factor; para ello, hay que multiplicar el peso de cada ítem por la desviación típica de cada ítem (columna a la derecha): λj = λ*j σX. Finalmente, el coeficiente ω ρ XX’ sería:
ω ρ XX =
σ V2 σ X2
=
λj j =1 J
∑
σ X2
2
=
(0,190 + 0,214 + ... + 0,248)2 8,019
=
6,186 = 0,771 8,019
El coeficiente ω ρ XX’ puede entenderse como la correlación al cuadrado entre F y X o, también, como la correlación entre dos formas paralelas X e X’, en las que es igual el promedio de pesos factoriales y es igual el promedio de la varianza específica. Esta fórmula permite derivar el sesgo que se produce cuando se utiliza α para estimar ω ρ XX’ (McDonald, 1999):
ω
ρ XX − α =
J 2 σ (λ ) J −1
[8.19]
σ X2
Por tanto, la subestimación del coeficiente de fiabilidad a partir de α es proporcional a la varianza de los pesos factoriales de los ítems, σ2(λ), y depende también del número de ítems, J, y de la varianza del test, σ2X. El sesgo es bastante pequeño si el test es unidimensional, lo que puede indicar una de las razones de que el coeficiente ωρXX’ rara vez haya sido aplicado.
Ejemplo 8.4. Sesgo en la estimación del coeficiente de fiabilidad En el Ejemplo 8.3., puede calcularse el sesgo al utilizar α como estimación del coeficiente de fiabilidad. En este caso, ambas estimaciones coinciden (α = 0,771; ω ρ XX’ = 0,771). La diferencia con el coeficiente α es nula ya que hay poca variabilidad en los pesos factoriales. El sesgo teórico se obtendría como:
ω
ρ XX − α =
J 2 σ (λ ) J −1
σ X2
11 0,001 10 = 0,0001 = 8,019
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
307
En definitiva, el modelo factorial supone algunas ventajas frente al modelo clásico: 1. El modelo clásico es más restrictivo ya que se asume que los pesos factoriales de las formas son iguales (i. e., requiere la tau-equivalencia esencial entre las formas). Si se utiliza el coeficiente α se puede estar subestimando (ligeramente) la fiabilidad. Esta ventaja no es demasiado importante, ya que esta subestimación será escasa si el test es largo o si hay poca variabilidad en los pesos factoriales. 2. La aplicación del modelo factorial permite contrastar el ajuste del modelo a los datos, mientras que en el modelo tradicional muchos de los supuestos no son fácilmente contrastables. 3. Si se utilizan técnicas de análisis factorial confirmatorio (ver capítulo 10) pueden incluirse modificaciones del modelo que reflejen violaciones de alguno de los supuestos del modelo clásico (por ejemplo, presencia de errores correlacionados).
Tests multidimensionales Si un test mide más de una característica o dimensión lo más habitual es agrupar los ítems por dimensiones en distintas escalas y efectuar el análisis de la fiabilidad de cada escala por separado. Sin embargo, en ocasiones, cuando un investigador quiere medir un constructo definido en un sentido amplio (por ejemplo para medir la depresión, que puede tener un componente cognitivo, otro afectivo y otro comportamental) puede ser necesario el uso de tests multidimensionales. En ese caso, el investigador considera que los distintos componentes están relacionados y, por lo tanto, cobra sentido obtener una única puntuación en la escala multidimensional. Si los factores correlacionan de forma elevada, puede justificarse la inclusión de los ítems de contenido heterogéneo en el mismo test, dando lugar a una única puntuación general y a varias específicas. En estos casos, puede aplicarse el modelo factorial y calcular el coeficiente Omega; por ejemplo, puede ajustarse un modelo factorial jerárquico con un factor de segundo orden y varios de primer orden (Zinbarg, Yovel, Revelle y McDonald, 2006). Para un test en el que se miden M + 1 factores (un factor general y M factores de primer orden, ortogonales al factor general) tendríamos la siguiente ecuación para cada ítem (ver apéndice 6.5 en el capítulo 6):
X j = µ j + λ j1'( SL ) F1' +
M
∑λ
jm ( SL ) Fm ( SL )
+ Ej
[8.20]
m =1
donde F1’ indica la puntuación en el factor general de segundo orden. Para todos los factores se asume µF = 0 y σ2F = 1. En el caso multidimensional, pueden obtenerse dos versiones del coeficiente omega: 1. La primera considera varianza “verdadera” la relacionada con todos los factores comunes ((M1)ωρXX):
308 Medición en Ciencias Sociales y de la Salud
( M 1)ω ρ XX =
2
M λ j1'( SL ) + j =1 m =1 J
∑
λ jm ( SL ) j =1 J
∑∑
2
[8.21]
σ X2
que puede entenderse como la correlación entre dos formas paralelas X e X’, en las que es igual el promedio de pesos factoriales en cada factor y es igual el promedio de la varianza específica. Nos sirve para decidir en qué grado las medidas obtenidas por formas paralelas serían coincidentes. 2. La segunda considera varianza “verdadera” la relacionada sólo con el factor común de segundo orden (a veces denominado “coeficiente omega jerárquico”)
( M 2 )ω
ρ XX =
λ j1'( SL ) j =1 J
∑
2
[8.22]
σ X2
que indicaría el porcentaje de varianza de la puntuación del test X, combinación lineal de las puntuaciones en los J ítems, que es explicada por el factor común de segundo orden, que se refiere al constructo general en el que estamos interesados. La relación de ambos índices con α es la siguiente: ( M 2 )ω
ρ XX < α < ( M 1)ω ρ XX
Ejemplo 8.5. Coeficiente omega para datos multidimensionales La matriz de varianzas-covarianzas entre 9 de ítems de un test se muestra en la Tabla 8.3. La varianza de las puntuaciones empíricas fue 16,112. Tabla 8.3. Matriz de covarianzas entre 9 ítems de una escala multidimensional X1
X2
X3
X4
X5
X6
X7
X8
X9
X1 X2
0,916 0,239
0,239 0,946
0,347 0,412
0,043 0,061
0,057 0,061
0,098 0,088
0,085 0,099
0,082 0,085
0,067 0,022
X3
0,347
0,412
1,048
0,021
0,171
0,052
0,113
0,095
0,110
X4
0,043
0,061
0,021
0,956
0,096
0,152
0,026
0,011
0,008
X5
0,057
0,061
0,171
0,096
0,955
0,195
0,015
0,048
0,034
X6
0,098
0,088
0,052
0,152
0,195
1,010
0,023
0,063
0,079
X7
0,085
0,099
0,113
0,026
0,015
0,023
0,938
0,162
0,161
X8 X9
0,082 0,067
0,085 0,022
0,095 0,110
0,011 0,008
0,048 0,034
0,063 0,079
0,162 0,161
0,947 0,201
0,201 1,027
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
309
Para aplicar el análisis factorial jerárquico se utilizó el programa FACTOR (Lorenzo y Ferrando, 2006). Cuadro 8.3. Ventana de Configuración del programa FACTOR
Seleccione esta opción para extraer un factor de segundo orden
Los pesos obtenidos para la solución Schmid-Leiman aparecen en la Tabla 8.4. Observe que aparecen en negrita los pesos superiores a 0,2 (y no a 0,3, que suele ser lo usual). La razón es que, en la solución Schmid-Leiman, los pesos en la parte específica de los factores de primer orden suelen ser pequeños. De esta manera se visualiza mejor el patrón de pesos (p. ej., tres ítems se corresponden con cada factor de primer orden). Tabla 8.4. Pesos factoriales (estandarizados) en una escala multidimensional (solución Schmid-Leiman). En negrita, los valores mayores que 0,2 Ítems
F1(SL)
F2(SL)
F3(SL)
F1’
σXj
X1 X2 X3 X4 X5 X6 X7 X8 X9
0,340 0,414 0,665 0,006 0,116 -0,041 0,041 -0,008 -0,017
0,057 0,040 -0,044 0,221 0,249 0,644 -0,037 0,008 0,017
0,041 -0,003 -0,007 -0,014 -0,019 0,011 0,311 0,391 0,376
0,294 0,313 0,457 0,086 0,175 0,242 0,209 0,243 0,231
0,957 0,972 1,023 0,977 0,976 1,004 0,968 0,973 1,013
310 Medición en Ciencias Sociales y de la Salud Podemos obtener los dos coeficientes omega (recuerde que debe multiplicar los pesos estandarizados por las desviaciones típicas para obtener los pesos no estandarizados):
( M 1)ω
ρ XX = =
( M 2 )ω
2
M λ j1'( SL ) + j =1 m =1 J
∑
λ jm ( SL ) j =1 J
∑∑
2
σ X2
(0,294(0,957) + ...)2 + ... + (0,041(0,957) + ...)2
ρ XX ' =
16,112
λ j1'( SL ) j =1 J
∑
σ
2 X
=
9,646 = 0,599 16,112
2
=
(0,294(0,957) + ...)2 16,112
=
4,943 = 0,307 16,112
(M1)ω ρ XX’= 0,599 indica en qué grado las medidas obtenidas por formas paralelas tendrían cierta coincidencia. (M2)ω ρ XX’ = 0,307 indica qué proporción de varianza de las puntuaciones empíricas se debe al factor general. El coeficiente α calculado con SPSS es 0,514 y no coincide con ninguno de los dos valores. Por ejemplo, α = 0,514, supone una clara sobrestimación del valor correcto, (M2)ω ρ XX’ = 0,307, si entendemos que gran parte de la covariación se debe a factores específicos de contenido (F2, F3 y F4) y no al constructo general (F1). Es por estas razones que Osburn (2000) desaconseja la utilización del coeficiente α en escalas multidimensionales. Al ser la escala multidimensional, el coeficiente de fiabilidad SBrXX’ por el método de las dos mitades depende mucho de cómo se formaran las dos mitades. Es 0,529 cuando se utilizan ítems pares e impares; cuando se forman ítems atendiendo al orden (primeros 5 ítems en una mitad y el resto en la otra) el coeficiente de fiabilidad por el método de las dos mitades es 0,375. El primero es mayor que el segundo porque cada uno de los 3 factores está representado de forma más balanceada en las dos partes. Todo lo anterior indica la necesidad de atender a la estructura factorial cuando se realiza un análisis de fiabilidad y muestra la utilidad de los métodos factoriales, mucho más claros en los resultados cuando se trabaja con escalas multidimensionales.
Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales En ocasiones, el investigador está interesado en la fiabilidad de una puntuación compuesta obtenida como resultado de combinar distintas puntuaciones en varios subtests:
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
X =
C
∑w X c
311 [8.23]
c
c =1
donde C es el número de subtests, wc los pesos que damos a los subtests y Xc son las puntuaciones en los subtests. Por ejemplo, en una prueba de acceso a estudios de Derecho en Estados Unidos, el LSAT (Law Schoool Admission Test), la puntuación final es el resultado de ponderar el rendimiento en 3 subtests (Comprensión lectora, Razonamiento analítico y Razonamiento lógico). El coeficiente de fiabilidad de la puntuación compuesta se puede calcular fácilmente como1: C
ρ XX ' = 1 − donde ρ X
' cXc
σ E2 σ X2
=1−
∑ c =1
C
wc2σ E2c =1−
σ X2
∑w σ 2 c
c =1
2 Xc
(1 − ρ X
' cXc
)
σ X2
[8.24]
es el coeficiente de fiabilidad de cada prueba.
Sobre esta fórmula, pueden encontrarse algunas variaciones. Una práctica frecuente es estandarizar las variables Xc antes de sumarlas (de esta forma, w0 = 0 y los pesos wc reflejarían directamente la importancia relativa de cada componente). En ese caso, la fórmula se reduce a: C
ρ XX ' = 1 −
∑w c =1
2 c (1 −
ρX
' cXc
) [8.25]
σ X2
Finalmente, otra posibilidad es definir que todas las puntuaciones tienen la misma importancia para determinar la puntuación final (wc =1, para todo c). En ese caso, la fórmula se reduce a: C
ρ XX ' = 1 −
∑σ c =1
2 Xc
(1 − ρ X
' cXc
) [8.26]
σ X2
que, si se toma el coeficiente α como estimador de la fiabilidad de cada parte, es conocido como coeficiente alfa estratificado:
1
En el primer paso, se asume que
σ E2 =
C
∑ c =1
wc2σ E2 c pues E =
que los errores en las distintas partes son independientes ( ρ
Ec Ec'
C
∑w E c
c =1
= 0 ).
c y se mantiene el supuesto de
312 Medición en Ciencias Sociales y de la Salud C
αs = 1−
∑σ c =1
2 Xc
(1 − α c ) [8.27]
σ X2
donde αc es el coeficiente α para los ítems que conforman el test c. El coeficiente αs estratificado también puede ser utilizado si el test es multidimensional. En ese caso, se toma cada parte homogénea en contenido como un test distinto (Xc) y se calcula el coeficiente alfa estratificado (que será mayor que el coeficiente α cuando las covarianzas entre los ítems dentro de cada subtest sean mayores que las covarianzas entre ítems de distintos subtests).
Ejemplo 8.6. Coeficiente alfa estratificado En el Ejemplo 8.5 puede calcularse el coeficiente α para cada una de las tres partes del test. Al realizar los análisis obtenemos los resultados mostrados en las Tablas 8.5 y 8.6. Tabla 8.5. Coeficientes α y varianzas empíricas para cada una de las 3 partes Parte
Ítems
αc
σ X2 c
1 2 3
1, 2 y 3 4, 5 y 6 7, 8 y 9
0,610 0,349 0,397
4,907 3,806 3,961
Tabla 8.6. Matriz de varianzas-covarianzas entre las 3 partes Parte 1 Parte 2 Parte 3
Parte 1
Parte 2
Parte 3
4,907 0,652 0,759
0,652 3,806 0,309
0,759 0,309 3,961
El valor del coeficiente αs estratificado para la escala completa sería: C
αs = 1−
∑σ c =1
2 Xc
(1 − α c )
σ
2 X
= 1−
4,907(1 − 0,610) + ... + 3,961(1 − 0,397) = 0,579 16.112
que es mayor que el coeficiente α (0,514); sería mejor aproximación que α a la correlación que se obtendría entre esta escala y otra escala similar con la misma composición de componentes. Observe que el valor de αs se aproxima bastante al de uno de los coeficientes omega, (M1)ω ρ XX’ = 0,599.
Capítulo 8. Métodos alternativos para estimar el coeficiente de fiabilidad
313
Testlets Ya hemos mencionado que, en ocasiones, algunos grupos de ítems correlacionan mucho entre sí por características específicas irrelevantes al constructo (p. ej., ítems de comprensión lectora que hacen referencia a un mismo texto). En ese caso, pueden tomarse los ítems que comparten un referente común y formar un subtest o testlet. Posteriormente, se calcula el coeficiente α tratando los testlets como ítems:
α testlet =
C C − 1
∑S
X c X c'
S X2
[8.28]
donde C es el número de testlets, S2X es la varianza de la puntuación en el test (resultado de sumar las puntuaciones en los testlets) y SXcXc’ es la covarianza entre las puntuaciones en los testlets Xc y Xc’. Si las covarianzas entre los ítems dentro de cada testlet son mayores que las covarianzas entre ítems de distintos testlets, el coeficiente α, calculado de esta manera, será menor que el coeficiente α tradicional. Si el número de ítems de cada testlet es muy distinto, la ecuación 8.28 puede dar resultados sesgados, ya que los testlets no serán paralelos ni tau-equivalentes. En este caso, puede considerarse una extensión del coeficiente alfa para baterías compuestas por tests de distinta longitud (Raju, 1977; 1979): R ρ XX
∑S
1
= (1 −
∑
Jc J
2
)
X c X c'
S X2
[8.29]
donde Jc/J es la longitud relativa de las pruebas (siendo Jc la longitud de la parte C y J la longitud total del test).
Ejemplo 8.7. Coeficiente alfa calculado con testlets Un investigador considera que, en el ejemplo de la Tabla 8.5, las covarianzas entre los ítems pertenecientes al mismo factor específico (F1(SL), F2(SL) o F3(SL)) son, en parte, espurias, ya que los ítems del mismo factor tienen un enunciado excesivamente similar. Si es así, se podría sobrestimar el coeficiente α. Por ello, a partir de los 9 ítems construye 3 testlets (testlet 1: ítems 1, 2, y 3; testlet 2: ítems 4, 5 y 6; testlet 3: ítems 7, 8 y 9) y calcula el coeficiente α tomando los ítems como testlets:
314 Medición en Ciencias Sociales y de la Salud α testlet =
C C − 1
∑S
X c X c'
S X2
3 2(0,652 + 0,759 + 0,309) 3 3,440 = = = 0,320 16,112 2 16,112 2
En este caso, se obtendría un coeficiente alfa (tratando los testlets como ítems) de 0,320, que es menor que el coeficiente α (0,514). αtestlet es una mejor aproximación a la proporción de varianza del test que es varianza verdadera y no varianza específica o de error. Se ha descontado la contribución de las covarianzas debida a que los ítems tienen un enunciado similar. En este caso, la covariación media entre ítems dentro de cada testlet era 0,218, mientras que la covariación media entre ítems pertenecientes a testlets distintos era 0,064. Obsérvese que el valor de αs se aproxima al de uno de los coeficientes omega, (M2)ω ρXX’ = 0,307, que se basa en la misma lógica. También puede calcularse el coeficiente alfa con la fórmula de Raju, RρXX,; en este caso, obtendríamos el mismo resultado que al utilizar αtestlet, pues los testlets tienen la misma longitud:
R
ρ XX =
∑S
1
(1 −
∑
λ 2j )
X j Xl
S X2
=
1
3,440 = 0,320 3 3 3 16,114 1− − − 9 9 9 2
2
2
9
Fiabilidad interjueces y medición del cambio Fiabilidad interjueces
Existen muchos contextos de evaluación psicológica donde varios jueces realizan determinados registros sobre la ocurrencia de ciertos hechos, su intensidad, o sobre la valoración de determinados atributos de las personas o de sus producciones. Es usual, por ejemplo, en diseños observacionales, registrar la tasa de ocurrencia de ciertas conductas en determinadas unidades de tiempo preestablecidas o su duración en dichos intervalos temporales. En diversos contextos educativos deben asignarse puntuaciones a las preguntas abiertas de un examen. Los responsables de un departamento concreto de una empresa pueden evaluar cuantitativamente el nivel de eficacia laboral de las personas que trabajan en dicho departamento. En todos estos casos, la calidad de la medición (tasas de ocurrencia de conductas, calificaciones académicas,…) depende en parte de la fiabilidad o consistencia con que se realizan los registros o las valoraciones realizadas por los jueces u observadores. Los observadores pueden estar mejor o peor entrenados para la detección de las conductas; las condiciones de evaluación también influyen (piénsese, por ejemplo, en las condiciones de registro de los etólogos en contextos naturales), los profesores o supervisores pueden ser más o menos estrictos y consistentes a la hora de asignar puntuaciones a los exámenes o a las personas: por ejemplo, ¿cómo se corrigen los exámenes de selectividad?, ¿los supervisores emiten juicios independientes de la impresión general que tienen con cada empleado? Se han propuesto multitud de índices o indicadores para el estudio de la fiabilidad interjueces (Shoukri, 2004), es decir, para estudiar el grado en que las asignaciones numéricas de los jueces o evaluadores están influenciadas por diversas fuentes de error. En este capítulo describiremos algunos de los indicadores más utilizados. Uno de los aspectos a considerar para la selección de un indicador de fiabilidad interjueces es el nivel métrico de las puntuaciones o registros. Lo importante es diferenciar si
316 Medición en Ciencias Sociales y de la Salud los jueces realizan valoraciones sobre variables nominales (p. ej., decir si ha ocurrido o no una conducta) ordinales (p. ej., si puede considerarse que los pacientes han mejorado, empeorado o no han cambiado) o sobre variables medidas al menos a un nivel de intervalo (p. ej., las calificaciones asignadas a un examen de tipo ensayo podría ser un ejemplo de este nivel de medida). Entre los indicadores de fiabilidad interjueces que pueden resultar más útiles (para diferentes objetivos y niveles métricos de las variables) hemos seleccionado el coeficiente kappa, el coeficiente de concordancia, la correlación intraclase y los derivados de la Teoría de la Generalizabilidad.
Coeficiente kappa El coeficiente kappa (Cohen, 1960) permite estudiar el nivel de concordancia de dos jueces en variables nominales u ordinales. Consiste en obtener un indicador de fiabilidad interjueces (teóricamente entre –1 y 1, usualmente entre 0 y 1) restando al grado de acuerdo empírico obtenido (proporción de concordancias observadas, P0) las concordancias que esperamos pueden darse por azar (Pe), y dividiendo por el valor [1 – Pe], que indica la cuantía máxima de acuerdo no debido al azar.
κ=
P0 − Pe
[9.1]
1 − Pe
Si la proporción de concordancias observada coincide con las que se esperan por azar, el coeficiente kappa será igual a 0. Será igual a 1 si el acuerdo es perfecto, es decir, si las concordancias empíricas son todas las posibles (P0 = 1). Valores intermedios suelen interpretarse como inaceptables (si son menores de 0,4), moderados (entre 0,4 y 0,6), buenos (entre 0,6 y 0,8) o muy buenos (por encima de 0,8).
Ejemplo 9.1. Cálculo del coeficiente kappa: acuerdo entre dos jueces en una variable dicotómica Imaginemos el caso más sencillo, donde dos observadores valoran la presencia o no de una determinada conducta en 50 intervalos temporales establecidos en un diseño observacional, y que los resultados se presentan en la Tabla 9.1. Tabla 9.1. Tabla de contingencia para la ocurrencia de un suceso según dos observadores Obs. 1 Obs.
sí
2
no
sí
no
n11 = 40
n10 = 5
n1+ = 45
n01 = 3
n00 = 2
n0+ = 5
n+1 = 43
n+0 = 7
n = 50
Capítulo 9. Fiabilidad interjueces y medición del cambio
317
Una manera inicial de obtener un indicador de acuerdo interjueces sería obtener la proporción de clasificaciones correctas, es decir, la proporción de veces o intervalos de tiempo en que ambos observadores han estado de acuerdo en la aparición o no de la conducta:
P0 =
n11 + n00 n
=
42 = 0,84 50
Sin embargo, una cierta proporción de las concordancias puede ser debida al azar (si ambos observadores emitieran al azar sus juicios también habría concordancias en la aparición o no de las conductas) y puede estimarse mediante la suma de los productos de los valores marginales: n n n Pe = 1+ +1 + 0+ n n n
n + 0 n
(43) (45) (7) (5) = + = 0.79 2500 2500
El coeficiente kappa de Cohen consiste en obtener la proporción de concordancias después de corregir la estimación de la proporción de concordancias por azar:
κ=
P0 − Pe 1 − Pe
=
0,84 − 0,79 = 0,24 1 − 0,79
lo cual puede interpretarse como un nivel de acuerdo inaceptable.
El coeficiente kappa puede obtenerse también con más de dos categorías de clasificación, tanto en variables nominales como ordinales. Puede obtenerse en SPSS dentro del menú Analizar > Estadísticos descriptivos > Tablas de contigencia > Estadísticos. Algunos estudios han probado que el coeficiente kappa puede no ser un buen indicador del acuerdo interjueces en determinadas circunstancias. Por ejemplo, cuando el nivel de prevalencia de una determinada categoría de la variable es sensiblemente superior a la prevalencia del resto de categorías (imaginemos que la conducta aparece únicamente en el 2% de los intervalos temporales). Para este tipo de situaciones existen otros índices alternativos más adecuados sobre los que puede consultarse en Agresti (2002) o en Ato, Benavente y López (2006).
Coeficiente de concordancia En el caso de variables continuas, el grado de relación lineal entre dos variables (por ejemplo, las notas que asignan dos profesores diferentes en varios exámenes de tipo ensayo) suele obtenerse mediante la correlación de Pearson (rXY). Sin embargo, este estadístico nos informará del grado en que ambos profesores ordenan de la misma forma a los alumnos en el examen, pero no del grado de concordancia absoluta de sus calificaciones; puede
318 Medición en Ciencias Sociales y de la Salud ser muy elevada la relación lineal entre las calificaciones de ambos profesores, aun a pesar de asignar valores numéricos muy distintos (por ejemplo, en media y variabilidad). Lin (1989) propuso un indicador de fiabilidad interjueces que corrige este tipo de sesgos, denominado coeficiente de concordancia (Cc), y que informa del nivel absoluto de acuerdo entre dos jueces cuando asignan valores en variables continuas:
Cc =
2 rXY S X SY S X2
[9.2]
+ SY2 + ( X − Y ) 2
Puede observarse que Cc será igual a rXY sólo si son iguales las medias y desviaciones típicas de los dos observadores. La interpretación de un valor concreto del coeficiente de concordancia suele hacerse según las categorías ordinales que vimos para el coeficiente kappa.
Ejemplo 9.2. Cálculo del coeficiente de concordancia: acuerdo entre las calificaciones de dos profesores En la Tabla 9.2 se muestra un ejemplo hipotético con las calificaciones que asignan de forma independiente dos profesores a las respuestas de 6 alumnos a un examen de tipo ensayo (se adjuntan también las medias y desviaciones típicas de las notas de cada profesor): Tabla 9.2. Calificaciones de 6 estudiantes según dos profesores Alumnos
Profesor 1
Profesor 2
1 2 3 4 5 6
2,5 3,5 4,5 5,5 6,5 8,5
4,7 4,8 4,9 5 5,1 5,2
x
5,167 2,160
4,950 0,187
Sx
La correlación de Pearson entre las calificaciones de los dos profesores es prácticamente perfecta (rXY = 0,99). Cuando realizamos un contraste sobre las diferencias de medias para muestras relacionadas, el resultado es no significativo (t5 = 0,269, p = 0,799), con lo cual podemos mantener la hipótesis nula de que, como promedio, ambos profesores son igualmente exigentes a la hora de asignar calificaciones a los ensayos. Sin embargo, resulta evidente que las calificaciones de uno y otro profesor difieren de forma relevante: la desviación típica de las calificaciones que asigna cada profesor es diferente, siendo el segundo el que asigna calificaciones en un estrecho rango de valores. En nuestro caso, el coeficiente de concordancia será:
Capítulo 9. Fiabilidad interjueces y medición del cambio
Cc =
S X2
2rXY S X S Y
+ S Y2 + ( X − Y ) 2
=
2(0,99)(2,160)(0,187) 2,160 2 + 0,187 2 + (5,167 − 4,950) 2
319
= 0,168
lo que refleja con claridad el desacuerdo entre los dos profesores a la hora de asignar sus calificaciones a los ensayos.
Coeficiente de correlación intraclase Una alternativa más flexible que la anterior para estimar el grado de acuerdo sobre variables cuantitativas es obtener el coeficiente de correlación intraclase (CCI), que se basa en un modelo de ANOVA de medidas repetidas donde se admiten datos en una variable independiente intrasujeto (p. ej., diferentes ítems o diferentes jueces). La idea es descomponer la variabilidad de los datos en varios componentes. Siguiendo el ejemplo de las calificaciones de los dos profesores, la variabilidad total se descompone en1:
σ s2 : variabilidad intersujeto (atribuible a las diferencias de rendimiento entre los sujetos, s, que en este caso son los estudiantes).
σ 2j : variabilidad intrasujeto (debida a las diferencias entre los jueces, j, en nuestro caso los profesores).
σ e2 : variabilidad residual (variabilidad aleatoria asociada a los errores de medición, e). En términos de componentes de varianza, el CCI se obtiene de la siguiente forma:
CCI =
σ s2
σ s2 + σ 2j + σ e2
[9.3]
El modo de estimar los componentes de varianza lo describiremos en el apartado siguiente, referido a los coeficientes de generalizabilidad, dado que el CCI es un caso particular de ellos. Digamos por el momento que los valores del CCI oscilan entre 0 y 1 y que la interpretación de una cuantía concreta suele ser parecida a la descrita para el coeficiente kappa. Una ventaja de este planteamiento es que en realidad pueden obtenerse diferentes indicadores de fiabilidad interjueces, atendiendo al tipo de modelo lineal que se establece. Existen por tanto distintas formas de obtener un coeficiente de correlación intraclase, dependiendo del tipo de generalización de resultados que quiera realizarse. Por ejemplo, en un modelo de efectos fijos se asume que sólo queremos estudiar la fiabilidad de los dos profesores en la corrección de los exámenes de los 6 alumnos (el indicador Cc es una buena alternativa para este caso). Sin embargo, puede asumirse un modelo completamente 1
En esta parte del libro se cambia la notación empleada hasta ahora para referirnos a los sujetos y a los ítems, con objeto de ser coherentes con la que se establece en la mayoría de los libros técnicos y en los trabajos donde se aplican CCI y desarrollos de la Teoría de la Generalizabilidad.
320 Medición en Ciencias Sociales y de la Salud aleatorio (donde los profesores son sólo una muestra aleatoria de los que podrían corregir y los estudiantes una muestra aleatoria de todos los estudiantes que realizan exámenes) o mixto (donde los estudiantes o los profesores se seleccionan aleatoriamente). Las estimaciones de los componentes de varianza son distintas en los diferentes modelos (más información en McGraw y Wong, 1996, y en Shoukri, 2004). Otra ventaja de tipo operativo es que el CCI puede obtenerse en SPSS dentro del menú Analizar > Escala > Análisis de fiabilidad > Estadísticos. Una vez seleccionado el modelo lineal que se quiere poner a prueba y la opción “acuerdo absoluto”, el programa proporciona dos coeficientes intraclase distintos, denominados “medidas individuales” (p. ej., la fiabilidad estimada para un profesor) o “medidas promedio” (p. ej., la fiabilidad que tendrían las calificaciones medias de los dos profesores). Para obtener este último, basta con aplicar al coeficiente para medidas individuales la fórmula general de SpearmanBrown (ver capítulo 3, fórmula [3.22]) haciendo n igual al número de jueces.
Ejemplo 9.3. Coeficiente de correlación intraclase En nuestro ejemplo de las evaluaciones de los dos profesores, siguiendo un modelo de efectos aleatorios, el CCI entre las calificaciones es 0,195 (fiabilidad estimada para un profesor) y el CCI para las medidas promedio 0,327, que se obtiene aplicando la fórmula de Spearman-Brown al valor anterior (con n = 2). Se concluiría que el nivel de acuerdo absoluto es bajo. Siguiendo nuestro ejemplo, también sería posible obtener el coeficiente α de Cronbach (capítulo 3, fórmula [3.32]), considerando que J es el número de jueces. En este caso se informaría del grado en que los diversos jueces ordenan de la misma forma a los sujetos (el grado en que son consistentes), pero no se obtendría el nivel de acuerdo absoluto en las calificaciones que asignan. De hecho, una de las fórmulas del CCI, que en SPSS se aplica con la opción de “consistencia” dentro del submenú referido a la correlación intraclase, proporciona un valor idéntico al coeficiente α. Dicho de otro modo, en caso de decidir aplicar el CCI, sólo la opción de “acuerdo absoluto” nos informa de algo diferente al indicador de consistencia interna entre jueces.
Coeficiente de correlación intraclase como un caso particular del coeficiente de generalizabilidad Supongamos que estamos evaluando los conocimientos de Historia en la Prueba de Acceso a la Universidad (PAU). En la Tabla 9.3 se muestran los resultados de 6 estudiantes en las 3 preguntas abiertas (ítems) sobre la asignatura de Historia, elegidas al azar entre un banco de preguntas disponible y corregidas por un profesor en una escala de 0 a 10.
Capítulo 9. Fiabilidad interjueces y medición del cambio
321
Tabla 9.3. Rendimiento de 6 estudiantes en 3 preguntas de Historia Estudiante
X1
X2
X3
1 2 3 4 5 6
1 5 2 1 6 4
7 9 8 5 8 5
8 10 9 4 9 7
¿Cómo podemos estudiar el nivel de fiabilidad de las calificaciones obtenidas en el examen? Lo ideal sería tener un indicador del grado en que el rendimiento en el examen (p. ej., la media de cada estudiante en las 3 preguntas) se asemejaría al rendimiento en el banco completo de preguntas (p. ej., la media de cada estudiante en dicho banco). Según lo visto hasta el momento, tenemos varias opciones que indican aspectos distintos de la fiabilidad: 1. En primer lugar podemos obtener el coeficiente α, que es igual a 0,832. Esto nos indica un elevado grado de covariación media entre los 3 ítems. Dicho de otro modo, las calificaciones en las 3 preguntas ordenan de una forma parecida a los 6 estudiantes. 2. En segundo lugar, podemos obtener el CCI con la opción de consistencia. Cuando lo hacemos en SPSS, mediante el procedimiento descrito en el apartado anterior, comprobamos que el valor para las medidas promedio (i. e., si calificamos a cada estudiante con la media que ha obtenido en las 3 preguntas) obtenemos exactamente el mismo resultado, de 0,832. 3. En tercer lugar, podemos obtener el CCI con la opción de “acuerdo absoluto”, alcanzando un valor de 0,500. Éste es un indicador del grado en que la media de un estudiante en las 3 preguntas es similar a su media en el total de preguntas que forman el banco. ¿Por qué se produce esta diferencia entre los valores de consistencia y de acuerdo absoluto del coeficiente de correlación intraclase? En parte, esto se debe a que las preguntas tienen diferente dificultad; de hecho las correspondientes medias de las 3 preguntas son, respectivamente, 3,167, 7,000 y 7,833, lo que significa que la primera pregunta resulta más difícil que las otras dos. Si con el examen pretendemos generalizar el conocimiento en Historia que hubiese tenido cada estudiante en el banco completo de preguntas, no podemos hacerlo con muchas garantías con el valor de CCI hallado con la opción de “acuerdo absoluto”. Dicho de otro modo, puesto que hay mucha variabilidad en la dificultad de las preguntas, no podemos garantizar que la media de un estudiante en sólo 3 preguntas coincida con la media que obtendría en el banco completo de preguntas sobre la asignatura. Obviamente, en un examen de la PAU interesa el acuerdo absoluto y no la consistencia, ya que posteriormente existen puntos de corte para acceder a diversos estudios universitarios. Algo más de confianza tenemos en que el orden de los estudiantes sería parecido en el examen que en el banco completo, ya que CCI con la opción de consistencia (o el coeficiente α) alcanza un valor elevado. La Teoría de la Generalizabilidad (TG) plantea modelar esta situación matemáticamente y emplear los desarrollos del análisis de varianza (ANOVA) para estudiar la fiabi-
322 Medición en Ciencias Sociales y de la Salud lidad de las puntuaciones. Para la situación de medición que hemos planteado en el ejemplo de la PAU, el modelo lineal se establece como: X si = µ + α s + β i + αβ si ,e
[9.4]
Lo que significa que la puntuación observada de un sujeto s en un ítem i, Xsi, se descompone en la suma de la media poblacional (µ es la media de los ítems que componen el banco) y de 3 fuentes de variación (FV): El efecto principal de los sujetos (αs) se refiere a sus diferencias individuales en rendimiento. En los procesos de medición interesa que este efecto principal sea lo mayor posible. El efecto principal de los ítems (βi) se relaciona con su diferente dificultad. La interacción (αβsi,e) se refiere a una fuente de variación residual o error, característica de cualquier proceso de medición, que incluye la interacción entre los sujetos y los ítems. Un coeficiente de generalizabilidad2 se define como:
ρ=
σ s2 σ s2 + σ ∆2
[9.5]
Donde, para nuestro ejemplo, σ s2 es el componente de la varianza debida a los sujetos (diferencias de rendimiento entre los estudiantes) y σ ∆2 es el componente de varianza error, formado por las sumas de los componentes debidos a los ítems y la interacción.
σˆ ∆2 = σˆ I2 + σˆ sI2 ,e
[9.6]
La estimación de esta varianza error requiere de dos fases, que describiremos en concreto realizando los cálculos con los datos de nuestro ejemplo. Fase 1. En esta primera fase, denominada en la TG como estudio de generalizabilidad, G, se descompone la variabilidad de los datos debida a cada fuente de variación, estimando los correspondientes componentes de varianza. En nuestro ejemplo, estos componentes de varianza constituyen una estimación de la variabilidad atribuida a los sujetos, a los ítems y la residual. La técnica del ANOVA va a servirnos para realizar estas estimaciones. En nuestro ejemplo, debemos aplicar un ANOVA de medidas repetidas3 porque todos los sujetos tienen medidas en todos los ítems. En SPSS, se toman las si2
Obsérvese que la definición del coeficiente de generalizabilidad representa una extensión del modelo de fiabilidad de la TCT, donde un coeficiente de fiabilidad se define como el cociente entre la varianza verdadera y la empírica (verdadera+error) y oscila entre los valores 0 y 1. 3
El modo concreto de calcular las sumas de cuadrados y las medias cuadráticas para este modelo de ANOVA aparece descrito en Pardo y San Martín (1998), apartado 5.4.
Capítulo 9. Fiabilidad interjueces y medición del cambio
323
guientes opciones: Analizar > Modelo lineal general > Medidas repetidas > Estadísticos. Se definen el número de niveles de la variable intrasujeto (3 en nuestro caso). Entre los resultados, se seleccionan las correspondientes sumas de cuadrados (SC), grados de libertad (gl) y medias cuadráticas (MC), que en nuestro ejemplo son las que se detallan en la Tabla 9.4 (ns y ni son el número de evaluados y el número de ítems, respectivamente). Tabla 9.4. Resultados del ANOVA de medidas repetidas aplicado a los datos de la tabla 9.1 FV
SC
gl
MC = SC/gl
Sujetos Ítems Residual
SCs = 44,667 SCi = 74,333 SCsi,e = 15,000
ns – 1 = 5 ni – 1 = 2 (ns – 1)(ni – 1) = 10
8,933 37,167 1,500
Para el modelo concreto que formaliza la situación de medida de nuestro ejemplo, el valor esperado de cada una de las medias cuadráticas y las correspondientes estimaciones de los componentes de varianza serían las que se recogen en la Tabla 9.5 (Kirk, 1995). Tabla 9.5. Valor esperado de las MC y estimación de los componentes de varianza de las 3 fuentes de variación FV Sujetos
Ítems
Residual
E(MC)
E ( MC s )
= σ si2
E ( MCi )
= σ si2
Componentes de varianza
+
niσ s2
+
n sσ i2
E ( MC si ,e ) = σ si2 ,e
σˆ s2 =
σˆ i2 =
MC s − MC si ,e ni MCi − MC si ,e ns
= 2,478
= 7,133
2 σˆ sij ,e = MC si ,e = 1,500
Obsérvese que el proceso de cálculo comienza asumiendo que el componente de varianza asociado a los residuos es su media cuadrática; después de esto, y mediante las sustituciones pertinentes, pueden estimarse de abajo arriba el resto de componentes de varianza. ¿Qué información obtenemos de un estudio G como el realizado? Según estos primeros resultados, si nos fijamos en las fuentes de variación definidas como error (las correspondientes a los ítems y a los residuos), se observa que tiene más relevancia la fuente de variación debida a los ítems que la debida a los sujetos. Si quisiera mejorarse la fiabilidad de las calificaciones, quizá convendría hacer exámenes más largos. Fase 2. En esta segunda fase, denominada en la TG como estudio de decisión D, es donde se estima el coeficiente de generalizabilidad y se estudia cómo podríamos mejorar la fiabilidad de las puntuaciones (por ejemplo, mediante la incorporación de nuevos ítems). Las estimaciones de los componentes de varianza obtenidos en la fase 1 son
324 Medición en Ciencias Sociales y de la Salud unitarias, es decir, en nuestro ejemplo hacen referencia a los efectos atribuibles a una única pregunta de Historia. Es algo similar a lo que en los resultados del CCI se denomina como “medidas individuales”. La realidad es que en nuestro ejemplo se han empleado 3 ítems, y podemos analizar la fiabilidad de las medias de los estudiantes en dichos ítems. Esto supone que deberán corregirse las estimaciones de los componentes de varianza para adaptarlas a las condiciones concretas empíricas que se han establecido. Las estimaciones corregidas de los componentes de varianza se obtienen, tal como se indica en la siguiente tabla, dividiendo los componentes de varianza estimados entre el número de condiciones o niveles que tiene en concreto cada una de las facetas4. Tabla 9.6. Estimación de los componentes de varianza corregidos FV
Componentes de varianza corregidos
Sujetos
σˆ s2 = 2,478
Ítems
σˆ I2 =
Residual
σˆ sI2 =
σˆ i2 ni
σˆ si2 ,e n s ni
=
7,133 = 2,378 3
=
1,500 = 0,083 18
En nuestro ejemplo, la estimación de la varianza error se obtendría entonces sumando las correspondientes estimaciones corregidas de los componentes de varianza de los ítems y de los residuos:
σˆ ∆2 = σˆ I2 + σˆ sI2 ,e = 2,378 + 0,083 = 2,461 Con lo que el coeficiente de generalizabilidad sería en concreto:
ρˆ ∆ =
σˆ s2 σˆ s2
+ σˆ ∆2
=
2,478 ≈ 0,5 2,478 + 2,461
Que era el valor del CCI obtenido para la opción de “acuerdo absoluto”. Reiteramos por tanto que cuando se consideran los ítems como única fuente de error, el coeficiente de correlación intraclase para acuerdo absoluto es idéntico al coeficiente de generalizabilidad (medidas promedio) para decisiones absolutas5. 4
Obsérvese que no se corrige el componente de varianza debido a los sujetos mientras que, por ejemplo, el debido a los ítems se divide entre el número concreto de ítems empleado. Obsérvese además (Tabla 9.4) que cuando se corrige un componente de varianza se cambia la nomenclatura, denominando con mayúscula a la faceta o fuente de error concreta. Con ello se quiere indicar, en nuestro caso, que ahora se consideran las calificaciones en todos los ítems aplicados. 5
Aunque en el ejemplo hemos empleado los ítems de un test como única faceta, lo explicado sirve para otros contextos de medición donde, por ejemplo, en vez de los ítems de un test disponemos de las valoraciones de un grupo de jueces o de observadores.
Capítulo 9. Fiabilidad interjueces y medición del cambio
325
Coeficientes de generalizabilidad para dos fuentes de error Supongamos ahora que para el examen de Historia de la PAU disponemos de un banco de preguntas, del que seleccionamos 3, y de un conjunto de profesores de la asignatura para realizar la corrección, de los que elegimos a 2 de ellos. Supongamos que éstas fueron sus calificaciones a los exámenes de 6 estudiantes. Tabla 9.7. Rendimiento en 3 preguntas de Historia, todas corregidas por 2 profesores Profesor 1
Profesor 2
Estudiante
X1
X2
X3
X1
X2
X3
1 2 3 4 5 6
1 5 2 1 6 4
7 9 8 5 8 5
8 10 9 4 9 7
2 7 4 2 6 6
8 9 9 7 9 7
8 10 10 6 9 7
En este caso, el coeficiente de generalizabilidad nos va a informar del grado en que los resultados empíricos obtenidos por los estudiantes (sujetos) pueden generalizarse a las eventuales poblaciones de preguntas (ítems) o profesores (que los denominaremos más genéricamente como jueces). Por tanto, existen ahora dos diferentes facetas o fuentes de error. Para situaciones de medida como la descrita en este segundo ejemplo, el modelo lineal se define como:
X sij = µ + α s + β i + γ j + αβ si + αγ sj + βγ ij + αβγ sij ,e
[9.7]
Lo que significa que la puntuación observada de un sujeto (s) en un ítem (i) corregido por un juez (j) se descompone en la suma de la media poblacional y de 7 fuentes de variación (FV): El efecto principal de los sujetos (αs) se refiere a sus diferencias individuales en rendimiento de los sujetos. Vemos, por ejemplo, que el segundo estudiante tiene un rendimiento elevado en las 6 correcciones (su media es 8,333), mientras que el cuarto tiende a tener puntuaciones más bajas (su media es 4,167). El efecto principal de los ítems (βi) se relaciona con su diferente dificultad. Por ejemplo, el segundo ítem tiende a resultar más fácil (su media es 7,583) que el primero (con media 3,833), independientemente del juez que lo corrige. El efecto principal de los jueces (γj) se refiere a su diferente exigencia o severidad a la hora de corregir. El primer juez parece asignar globalmente puntuaciones ligeramente más bajas que el segundo. La interacción (αβsi) hace referencia a que ciertos sujetos pueden rendir mejor en ciertos ítems que en otros.
326 Medición en Ciencias Sociales y de la Salud La interacción (αγsj) indica que alguno de los jueces puede puntuar más alto a ciertos sujetos que a otros. Esto ocurriría, por ejemplo, si un juez asigna puntuaciones más altas a los estudiantes que conoce personalmente. La interacción (βγij) recoge la variabilidad debida a que algún juez puede puntuar más alto en ciertos ítems que en otros. Por ejemplo, un juez puede ser menos estricto en los ítems sobre Historia Moderna que en los ítems de Historia Contemporánea. La interacción (αβγsij,e) se refiere a una fuente de variación residual o error, que incluye la interacción triple y que indica la variación no explicada por los efectos anteriores. Para este modelo, las correspondientes sumas de cuadrados (SC), grados de libertad (gl) y medias cuadráticas (MC) serían las que se adjuntan en la siguiente tabla6. Tabla 9.8. Resultados del ANOVA de 2 factores de medidas repetidas aplicado a los datos de la tabla 9.5 FV
SC
gl
MC= SC/gl
Sujetos Ítems s×i s×j i×j s × i × j, e
SCs = 70,667 SCi = 129,500 SCsi = 25,833 SCsj = 2,222 SCij = 10,056 SCsij,e = 2,611
ns – 1 = 5 ni – 1 = 2 (ns – 1)(ni – 1) = 10 (ns – 1)(nj – 1) = 5 (ni – 1)(nj – 1) = 2 (ns – 1)(ni – 1)(nj – 1) = 10
14,133 64,750 2,583 0,444 5,028 0,261
En nuestro caso, σ ∆2 , la varianza error, estará formada por la suma de los componentes de varianza asociados a los ítems, a los jueces, así como a sus correspondientes interacciones. 2 σˆ ∆2 = σˆ I2 + σˆ J2 + σˆ sI2 + σˆ sJ2 + σˆ IJ2 + σˆ sIJ ,e
[9.8]
Pasamos a describir cómo se estima esta varianza error con los datos de nuestro ejemplo. Fase 1. Para el modelo concreto que formaliza la situación de medida de nuestro ejemplo, el valor esperado de cada una de las medias cuadráticas y las correspondientes estimaciones de los componentes de varianza serían las que se presentan en la Tabla 9.9 (Kirk, 1995):
6
El modo concreto de calcular las sumas de cuadrados y las medias cuadráticas para este modelo de ANOVA aparece descrito en Pardo y San Martín (1998), apartado 7.6. El lector puede comprobar estos resultados en SPSS, tomando las siguientes opciones: Analizar > Modelo lineal general > Medidas repetidas > Estadísticos. Se define el número de niveles de las 2 variables intrasujeto o factores (3 para los ítems y 2 para los jueces, en nuestro caso). Los correspondientes resultados aparecen en la salida dentro de los apartados de “pruebas de los efectos ínter-sujetos” y “pruebas de efectos intrasujetos”. Después de estimar las MC, los siguientes cálculos hasta llegar al coeficiente de generalizabilidad deben realizarse con otras herramientas, p. ej., mediante una calculadora o una hoja de cálculo. Dada la exigente labor de cálculo que requiere la obtención de coeficientes de generalizabilidad, el usuario puede optar también por aplicar directamente los programas GENOVA o MGENOVA, de libre distribución en la dirección http://www.uiowa.edu.
Capítulo 9. Fiabilidad interjueces y medición del cambio
327
Tabla 9.9. Valor esperado de las MC y estimación de los componentes de varianza de las 7 fuentes de variación. FV
Sujetos
Ítems
Jueces
E(MC)
Componentes de varianza
2 2 E ( MC s ) = σ sij ,e + n j σ si
+ niσ sj2 + n j niσ s2 2 2 E ( MCi ) = σ sij ,e + n j σ si
+ n sσ ij2 + n j n sσ i2
2 2 E ( MC j ) = σ sij ,e + n s σ ij
+
niσ sj2
+ ni n s σ
2 j
s×i
2 2 E ( MC si ) = σ sij ,e + n j σ si
s×j
2 2 E ( MC sj ) = σ sij ,e + ni σ sj
i×j
2 2 E ( MCij ) = σ sij ,e + n s σ ij
s× i × j, e
2 E ( MC sij ,e ) = σ sij ,e
σˆ s2 =
MC s − MC sj − MC si + MC sij ,e n j ni
=
= 1,895
σˆ i2 =
MCi − MCij − MC si + MC sij ,e n j ns
=
= 4,783
σˆ 2j =
MC j − MC sj − MCij + MC sij ,e ni n s
= –0,2837
σˆ si2 =
MCsi − MCsij , e = 1,161 nj
σˆ sj2 =
MCsj − MCsij , e = 0,031 ni
σˆ ij2 =
MCij − MC sij ,e ns
=
= 0,795
2 σˆ sij ,e = MC sij ,e = 0,261
Como vimos en el ejemplo con una única faceta, el proceso de cálculo de los estimadores comienza asumiendo que el componente de varianza asociado a la interacción triple es su media cuadrática; después de esto, y mediante las sustituciones pertinentes, pueden estimarse de abajo arriba el resto de componentes de varianza.
7
Una estimación negativa de un componente de varianza puede producirse en condiciones de tamaño muestral reducido. En estos casos, para los posteriores cálculos suele asumirse que su valor es cero.
328 Medición en Ciencias Sociales y de la Salud Según estos primeros resultados, se observa que la variación debida a los ítems es mayor que la debida a las diferencias de rendimiento entre los sujetos. Se observa además que tiene más relevancia la variación debida a los ítems que la debida a los jueces o a las correspondientes interacciones. Si quisiera mejorarse la fiabilidad de las calificaciones, quizá convendría hacer exámenes más largos sin incrementar el número de profesores que los corrigen. Fase 2. La realidad es que en nuestro ejemplo se han empleado 3 ítems y 2 jueces, con lo que deberán corregirse las estimaciones para adaptarlas a las condiciones concretas empíricas que se han establecido. Las estimaciones corregidas de los componentes de varianza se obtienen, tal como se indica en la Tabla 9.10, dividiendo los componentes de varianza estimados entre el número de condiciones o niveles que tiene en concreto cada una de las facetas. Tabla 9.10. Estimación de los componentes de varianza corregidos
FV
Componentes de varianza corregidos
Sujetos
σˆ s2 = 1,895
Ítems Jueces
σˆ I2 =
σˆ i2 ni
σˆ J2 =
s×I
σˆ sI2 =
s×J
σˆ sJ2 =
I×J
σˆ IJ2 =
s × I × J, e
2 σˆ sIJ =
=
4,783 = 1,594 3
σˆ 2j nj
σˆ si2 ni
σˆ sj2 nj
σˆ ij2 ni n j 2 σˆ sij
ni n j
=
0 = 0,00 2
=
1,161 = 0,387 3
=
0,031 = 0,016 2
=
0,795 = 0,133 6
=
0,261 = 0,043 6
En nuestro ejemplo, la estimación del componente de varianza error se obtendría entonces sumando las correspondientes estimaciones corregidas de los componentes de varianza:
Capítulo 9. Fiabilidad interjueces y medición del cambio
329
2 σˆ ∆2 = σˆ I2 + σˆ J2 + σˆ sI2 + σˆ sJ2 + σˆ IJ2 + σˆ sIJ ,e =
= 1,594 + 0,00 + 0,387 + 0,016 + 0,043 = 2,173 Con lo que el coeficiente de generalizabilidad sería en concreto:
ρˆ ∆ =
σˆ s2
σˆ s2
+ σˆ ∆2
=
1,895 = 0,466 1,895 + 2,173
Lo que nos indica que no podemos asegurar que las calificaciones medias de los estudiantes (en las 3 preguntas corregidas por los 2 profesores) serían iguales a las que obtendrían si hubiesen respondido a todas las preguntas del banco y si éstas hubieran sido corregidas por todos los profesores disponibles. Esta forma de hacer las cosas permite estimar cuál sería el coeficiente de generalizabilidad en otras condiciones concretas, por ejemplo en qué grado se incrementaría si empleamos un número mayor de jueces o ítems. En nuestro caso, si en vez de 3 preguntas seleccionáramos 20 del banco disponible, los correspondientes componentes de varianza corregidos se presentan en la Tabla 9.11. Tabla 9.11. Estimación de los componentes de varianza corregidos si incrementamos la longitud del test hasta 20 ítems
FV
Componentes de varianza corregidos
Sujetos
σˆ s2 = 1,895
Ítems Jueces
σˆ i2
σˆ I2 =
ni
σˆ J2 =
s×I
σˆ sI2 =
s×J
σˆ sJ2 =
I×J
σˆ IJ2 =
s × I × J, e
2 = σˆ sIJ
4,783 = 0,239 20
=
σˆ 2j nj
σˆ si2 ni
σˆ sj2 nj
σˆ ij2 ni n j 2 σˆ sij
ni n j
=
0 = 0,00 2
=
1,161 = 0,058 20
=
0,031 = 0,016 2
=
0,795 = 0,019 40
=
0,261 = 0,006 40
330 Medición en Ciencias Sociales y de la Salud
Lo cual daría lugar a un coeficiente de generalizabilidad para decisiones absolutas de 0,85. Este valor puede obtenerse también en nuestro caso (dado que el componente de varianza corregido para los jueces es cero) si aplicamos la fórmula de Spearman-Brown al coeficiente de generalizabilidad estimado con 3 ítems (0,466), haciendo n = 20/3. La TG permite obtener otros coeficientes de generalizabilidad (para decisiones relativas) eliminando de σˆ ∆2 los efectos principales y el efecto de la interacción no referida a los sujetos; en este caso interesa más estudiar el orden de las puntuaciones de los sujetos que sus puntuaciones concretas. En este caso, el coeficiente de generalizabilidad será:
ρδ =
σ s2
[9.9]
σ s2 + σ δ2
donde: 2 σˆ δ2 = σˆ sI2 + σˆ sJ2 + σˆ sIJ ,e = 0,446
Y, por tanto, en nuestro ejemplo:
ρˆ δ =
σˆ s2
σˆ s2 + σˆ ∆2
=
1,895 = 0,810 1,895 + 0,446
Esto significa que el orden de las calificaciones en nuestra condición de medida empírica (con 3 preguntas y dos profesores) se asemejará al orden de las calificaciones que estableceríamos con todas las preguntas y todos los profesores. En exámenes de la PAU el orden no es suficiente, pero en otros contextos puede ser suficiente con obtener buenos coeficientes de generalizabilidad para decisiones relativas. Por ejemplo, si el examen formara parte de las primeras decisiones a tomar en un proceso de selección de personal, mantener el orden de las calificaciones (i. e., un elevado coeficiente de generalizabilidad para decisiones relativas) sería suficiente para decidir qué candidatos pasan a la siguiente fase del proceso. Finalmente, debemos indicar que en nuestro ejemplo hemos definido un diseño cruzado aleatorio con dos facetas o fuentes de error, pero que la TG se aplica también a otros tipos de diseños (p. ej., diseños anidados, donde cada profesor corrige preguntas distintas). Información más específica sobre estos diseños y otras estimaciones de coeficientes de generalizabilidad pueden consultarse en Blanco (1989), Brennan (2001) o Martínez Arias (1995).
Fiabilidad de las diferencias y medición del cambio Son muy variados los contextos aplicados de la Psicología donde se obtiene para cada persona su diferencia entre dos puntuaciones. En procesos terapéuticos, es usual establecer la
Capítulo 9. Fiabilidad interjueces y medición del cambio
331
diferencia entre las puntuaciones después (post) y antes (pre) del tratamiento en determinadas variables de tipo clínico, muchas de ellas medidas mediante tests o cuestionarios. En contextos de evaluación educativa se obtienen también las diferencias entre determinadas medidas sensibles a la intervención instruccional. También, por ejemplo, en los procedimientos establecidos para evaluar la eficacia de determinados programas de intervención social. La medición de las diferencias y su posterior análisis estadístico es objeto todavía en la actualidad de debate, polémica e investigación. Es necesario saber que, bajo ciertas condiciones, este tipo de medidas son menos fiables que las dos medidas por separado de las que se obtienen; de hecho, el continuo debate sobre la mejor forma de analizar las diferencias ha llevado en los últimos años a proponer procedimientos para inferir las diferencias a nivel de rasgo o variable latente, y no tanto a nivel de puntuaciones directas obtenidas. Además, fundamentalmente en contextos clínicos, se ha hecho un importante esfuerzo en distinguir entre el concepto de significación estadística (lo que indica que la diferencia es improbable que pueda obtenerse por azar) y lo que debería ser una diferencia significativa desde un punto de vista clínico.
Fiabilidad de las diferencias Supongamos que a un grupo determinado de personas se aplica un mismo test antes y después de una intervención psicológica o psicopedagógica. La medida de cambio más sencilla es obtener para cada individuo la diferencia entre sus dos puntuaciones directas (es decir, d = X1 – X2). Pues bien, ya Lord (1956) indicó que la fiabilidad de las puntuaciones de cambio (d), lejos de ser la media de la fiabilidad de las dos medidas, es menor que cada una de ellas por separado. La idea es que esto ocurre porque para obtener esas puntuaciones de cambio se combinan los errores de medida de las dos variables X y porque en la fiabilidad interviene también el grado de correlación entre estas dos variables. Esta afirmación ha llevado a que muchos investigadores duden del uso de las puntuaciones d, aunque luego veremos que no necesariamente la fiabilidad de las diferencias debe ser un valor pequeño. Pero veamos el razonamiento que llevó a Lord a tal aseveración. Supongamos un caso concreto donde se realizan dos mediciones. Las varianzas verdadera y error de las diferencias serán:
σ V2d = σ V21 + σ V22 − 2σ V1V2
[9.10]
σ E2d = σ E21 + σ E22 − 2σ E1E2
[9.11]
Si, como se asume en la TCT, los errores de medida de X1 y X2 son linealmente independientes, entonces:
σ E2d = σ E21 + σ E22
[9.12]
con lo cual, para obtener la varianza error de las diferencias d no se restará el término que incluye la covarianza entre errores, mientras que sí se resta un término positivo de covarianza entre puntuaciones verdaderas para obtener la varianza verdadera de las diferencias.
332 Medición en Ciencias Sociales y de la Salud Ésta es la justificación teórica, si se siguen los supuestos de la TCT, de que la diferencia entre dos puntuaciones pueda tener menor fiabilidad. Cumpliéndose los supuestos de la TCT en X1 y en X2, y realizando las sustituciones pertinentes, la fiabilidad de las medidas de cambio se puede obtener a partir de la siguiente fórmula:
ρd =
ρ X1X1σ X2 1 + ρ X 2 X 2 σ X2 2 − 2 ρ X1X 2 σ X1σ X 2
[9.13]
σ X2 1 + σ X2 2 − 2 ρ X1X 2 σ X1σ X 2
Básicamente, lo que esta fórmula nos indica es que la fiabilidad de las diferencias depende de la variabilidad de X1 y X2, de la correlación entre ambas y de sus respectivos coeficientes de fiabilidad. Si se asume además que las varianzas de ambas variables son iguales ( σ X2 1 = σ X2 2 ), entonces:
ρd =
[( ρ X1X1 + ρ X 2 X 2 ) / 2] − ρ X1X 2
[9.14]
1 − ρ X1 X 2
Puede comprobarse en la anterior fórmula que, incluso cuando ambas puntuaciones fueran muy fiables, la fiabilidad de las diferencias se reduce considerablemente si existe una relación lineal elevada entre ellas. Supongamos, por ejemplo, que X1 y X2 tienen, en un caso concreto, la misma fiabilidad e igual variabilidad; en la Tabla 9.12 se recogen los valores ρ d para 3 diferentes coeficientes de fiabilidad de las variables X ( ρ xx ) y 5 distintos coeficientes de correlación entre ambas ( ρ X1X 2 ):
Tabla 9.12. Fiabilidad de las diferencias para diferentes valores de ρ xx y ρ12
ρ X1 X 2
ρ xx = 0.7
ρ xx = 0.8
0,5 0,6 0,7 0,8 0,9
0,40 0,25 0,00 ---
0,60 0,50 0,33 0,00 --
ρ xx = 0.9 0,80 0,75 0,67 0,50 0
Significa esto que la fiabilidad de las diferencias es tanto menor cuanto mayor es la correlación entre las dos variables X y cuanto menor es el coeficiente de fiabilidad de ambas. Bajo ciertas condiciones, deberíamos por tanto tener ciertas precauciones a la hora de interpretar determinadas diferencias simples entre dos puntuaciones. En estudios sobre avances en la capacidad lectora, por ejemplo, se han encontrado coeficientes de fiabilidad de las diferencias en torno a 0,30, porque suelen ser elevadas las correlaciones entre las dos aplicaciones del mismo test de comprensión lectora. Sin embargo, para no fomentar malentendidos sobre la fiabilidad de las diferencias, queremos enfatizar algunos matices importantes:
Capítulo 9. Fiabilidad interjueces y medición del cambio
333
1. En primer lugar, en algunos trabajos (Zimmerman, Brotohusodo & Williams, 2002) se reconoce que el tópico de la fiabilidad de las diferencias no está completamente resuelto en TCT, ya que alguno de sus supuestos (por ejemplo, el referido a la relación nula entre errores de medida) no puede mantenerse. 2. En segundo lugar, los supuestos asumidos para el ejemplo mostrado (igualdad de varianzas y de coeficientes de fiabilidad en las medidas pre y postest) difícilmente se cumplen en situaciones aplicadas, por lo que algunos autores (Dimitrov & Rumrill, 2003) previenen a los investigadores sobre la falacia de que la fiabilidad de las diferencias necesariamente tiene que ser baja. Ellos consideran que, de no darse esas restricciones, la diferencia de puntuaciones es una buena medida de la evaluación del cambio. El cálculo de la fiabilidad de las diferencias tiene sentido precisamente cuando el efecto del tratamiento no ha sido el mismo para toda la muestra (de lo contrario, no existiría variabilidad en d). Por tanto, cabe pensar que las medidas postest tendrán más variabilidad que las medidas pretest y que la correlación entre ambas no será elevada, con lo cual no se cumplirían los supuestos que llevan a los resultados de la Tabla 9.10. 3. Rogosa y Willett (1983)8 ya mostraron algo lógico: una correlación positiva elevada entre las medidas pre y postest equivale a asumir una relación negativa pequeña entre X1 y d. Y al revés, una correlación positiva pequeña entre las medidas pre y postest equivale a asumir una relación negativa elevada entre X1 y d (esto se produce cuando los niveles bajos en el pretest son los que más cambian con el tratamiento). En este segundo caso, el coeficiente de fiabilidad de las diferencias alcanza un valor muy próximo al coeficiente de fiabilidad de cualquiera de las dos medidas.
Significación clínica e indicadores de cambio fiable En contextos de intervención psicológica, principalmente de tipo clínico o educativo, interesa evaluar los efectos de un tratamiento o entrenamiento para una persona o grupo en una o varias variables psicológicas, más allá del juicio subjetivo que realiza el profesional desde su experiencia. Este profesional debe tomar una serie de decisiones importantes para establecer un diseño apropiado que permita evaluar los efectos de la intervención. Maruish (2003) se refiere a las siguientes decisiones a tomar en intervenciones de tipo clínico: (1) qué medir (síntomas, indicadores de salud mental, calidad de vida, calidad de relaciones familiares o autoinformes), (2) cuándo medir (al menos al comienzo y al final de la intervención, aunque pueden realizarse mediciones en el proceso y tiempo después de la finalización del tratamiento) y, (3) cómo analizar los resultados. El interés psicométrico se centra fundamentalmente en esta última decisión, para lo que debe diferenciarse el concepto de significación estadística, resultado de aplicar las técnicas inferenciales apropiadas (ver, p. ej., Pardo y San Martín, 1998) cuando interesa evaluar las diferencias entre un grupo intervenido y otro grupo control, del concepto de significación clínica, más relevante en medidas de cambio individual y también sustentado en desarrollos estadísticos. Resulta evidente que los criterios de significación estadística (p. ej., las decisiones que se toman sobre los niveles de significación α para evaluar los efectos de una intervención) 8
Estas relaciones obtenidas en el estudio de Rogosa y Willett (1983) son ciertas en términos de puntuaciones verdaderas.
334 Medición en Ciencias Sociales y de la Salud no deben interpretarse directamente como indicadores de utilidad, importancia o significación clínica o social de los resultados de un tratamiento. Por otra parte, una diferencia estadísticamente no significativa no indica necesariamente la inexistencia del efecto, sino que los resultados no permiten descartar que esa diferencia empírica sea debida al azar. Algo más puede obtenerse con indicadores de tamaño del efecto; por ejemplo, un resultado puede ser estadísticamente significativo y, sin embargo, ser escasa la magnitud del cambio entre el grupo control y experimental en la medición postratamiento. La significación estadística tampoco informa de las variaciones debidas al tratamiento que se producen en el grupo experimental. Sin embargo, estas variaciones pueden resultar de interés en contextos de intervención clínica, donde se pretende adquirir información sobre las causas que inciden en la diferente mejoría de las personas. El concepto de significación clínica se refiere al estudio de la relevancia que tienen en la vida de las personas los cambios ocurridos después de recibir un tratamiento o intervención; la relevancia puede ser valorada por el profesional, por la propia persona o por otras personas de su entorno. El trabajo de Jacobson y Truax (1991) fue pionero en este tema. Propusieron que la significación clínica puede inferirse estudiando si los niveles de mejora después de la intervención que recibe un grupo de personas (pertenecientes a una población disfuncional antes del tratamiento) son más similares a los de una población funcional. Dicho de otro modo, se intenta valorar el grado de vuelta a la normalidad. Estos autores proponen dos pasos para llegar a decidir el impacto que ha tenido una determinada intervención. Paso 1. Supongamos que se conocen los parámetros μ y σ de las poblaciones disfuncional y no disfuncional en una medida de bienestar psicológico (X). Estos autores consideran que puede decidirse de 3 formas distintas si un cambio ha resultado clínicamente significativo, comprobando que la puntuación Xpost de una persona después del tratamiento se encuentra: (a) Más cerca de la media de la población funcional que de la media de la población disfuncional. (b) Alejada (en la dirección hacia la funcionalidad) al menos 2 desviaciones típicas de la media de la población disfuncional. (c) Dentro del intervalo de 2 desviaciones típicas en torno a la media de la población funcional. Disponiendo de las distribuciones solapadas en X de ambas poblaciones, los 3 criterios anteriores dan lugar a 3 puntos de corte distintos para clasificar como funcional o como disfuncional a una persona que ha recibido tratamiento. El modo concreto de establecer estos puntos de corte lo describiremos en el ejemplo 9.4. Paso 2. Para considerar que un tratamiento ha sido realmente efectivo debe cumplirse además una segunda condición, referida a la cuantía del cambio. Para medir niveles específicos de significación clínica (cuánto cambio se ha producido después de una intervención), estos mismos autores propusieron el denominado como indicador de cambio fiable (ICF):
Capítulo 9. Fiabilidad interjueces y medición del cambio ICF =
X post − X pre
335 [9.15]
Sd
La anterior expresión incluye en el numerador la diferencia entre las puntuaciones después (post) y antes (pre) del tratamiento, y en el denominador el error típico de la diferencia entre ambas puntuaciones. Siguiendo los desarrollos de la TCT, este denominador puede obtenerse a partir del error típico de medida:
S d = S E 2 = S pre 1 − rXX
2
[9.16]
El cambio se considera fiable, es decir, que la persona ha mejorado realmente y que su puntuación después de la intervención no es debida a los errores de medida, cuando el valor ICF es mayor que 1,96. Para los autores, esto significa que es menor de 0,05 la probabilidad de que las diferencias entre ambas puntuaciones se produzcan por azar9. Obviamente, lo que ocurre es que cuanto menor fiabilidad tengan las puntuaciones X mayor deberá ser la diferencia entre ambas puntuaciones para considerar que el cambio ha sido fiable. Con los indicadores de significación clínica y cambio fiable ha llegado a clasificarse a los clientes como recuperados (si cumplen ambos criterios), mejorados (si sólo cumplen el criterio de ICF), no cambiados (si no cumplen ninguno de los dos) o deteriorados (si el valor de ICF es negativo). Aunque este procedimiento ha sido ampliamente empleado en estudios sobre los efectos de diverso tipo de intervenciones, no ha estado exento de críticas. Algunos autores (Speer, 1992) han constatado que el indicador de Jacobson y Truax puede venir afectado por un fenómeno de regresión a la media. Como ya hemos visto en el estudio de la fiabilidad de las diferencias, ciertos valores d pueden resultar significativos porque existe una correlación negativa entre la diferencia de puntuaciones (d ) y las puntuaciones pretest (Xpre). Esto significa que las puntuaciones d elevadas tienden a estar asociadas a puntuaciones Xpre pequeñas, mientras que las puntuaciones de cambio pequeñas corresponden a puntuaciones pretest elevadas. Lo que pasa es que algunas puntuaciones Xpre son bajas porque incluyen un error de medida negativo (se infraestiman las correspondientes puntuaciones verdaderas). Cuando esto ocurre en una puntuación Xpre puede obtenerse para la persona una diferencia d significativa que es ficticia. Este problema, tanto más grave cuanto menor es el coeficiente de fiabilidad de las medidas pretest, puede llevar a los investigadores o a los profesionales a conclusiones erróneas a partir de los resultados de significación clínica, ya que pueden atribuir a la intervención parte de los resultados que son debidos al fenómeno de regresión a la media. Speer (1992) propuso un nuevo indicador de cambio fiable que ha mostrado algunas ventajas, y según el cual se considera que el cambio ha sido fiable cuando la puntuación Xpost cae fuera del intervalo:
9
Sería mejor decir que no podemos mantener que las diferencias entre ambas puntuaciones sean debidas al azar con un nivel de confianza del 95%.
336 Medición en Ciencias Sociales y de la Salud [rxx ( X pre − X pre ) + X pre ] ± 2 S pre 1 − rxx
[9.17]
Siendo X pre y S pre , respectivamente, la media y desviación típica de las puntuaciones de la muestra en el pretratamiento. Lo que se hace con este indicador es centrar la puntuación Xpre (estimar puntualmente la puntuación verdadera antes de la intervención) y obtener un intervalo de confianza de ± 2 desviaciones típicas en torno al que se estima que se encontrará la puntuación verdadera de la persona antes de la intervención. Si la puntuación Xpost cae fuera del intervalo establecido (en la dirección prevista) se considera que la intervención ha sido eficaz.
Ejemplo 9.4. (Basado en los datos de Jacobson y Truax, 1991) Imaginemos que seleccionamos un grupo control (sin tratamiento) y un grupo experimental (con tratamiento), a los que aplicamos (antes y después de la intervención) un cuestionario de bienestar psicológico (X). Supongamos que la información estadística y psicométrica disponible es la que aparece en la Tabla 9.13. Tabla 9.13. Información estadística necesaria para calcular los puntos de corte Estadístico/Parámetro
Definición
X 1 = 40
Media de ambos grupos en el pretest.
X 2 = 50
Media del grupo experimental en el postest.
μ = 60
Media de la población funcional.
S1 = 7,5
Desviación típica del grupo control, de la población funcional y del grupo experimental en el pretest.
S2 = 10
Desviación típica del grupo experimental en el postest.
rxx = 0,80
Coeficiente de fiabilidad del cuestionario de bienestar (X).
Según los 3 posibles criterios expuestos en el paso 1, los 3 modos de establecer los puntos de corte para clasificar a una persona como disfuncional o funcional (por debajo o por encima de dicho punto de corte) son: C1 = (60 + 40)/2 = 5010. Asumiendo una distribución normal de las poblaciones funcional y disfuncional, este punto es el valor X donde se cruzan las dos distribuciones. 10
En el ejemplo de Jacobson y Truax se asume implícitamente que la media empírica en el pretest es un buen estimador de la media poblacional disfuncional. También se asume explícitamente que la variabilidad de los dos grupos en el pretest es igual a la variabilidad de la población funcional, lo que puede resultar inapropiado en contextos clínicos reales. Cuando no sean iguales las varianzas de ambas poblaciones, el punto de corte C1 debería obtenerse como una media ponderada de las medias poblacionales.
Capítulo 9. Fiabilidad interjueces y medición del cambio
337
C2 = X 1 + 2 S1 = 40 + 15 = 55. Que sería la puntuación que se separa 2 desviaciones típicas por encima de la media del grupo disfuncional. C3 = μ – 2 S1 = 60 – 15 = 45. Que es la puntuación que se encuentra 2 desviaciones típicas por debajo de la media de la población funcional. De los 3 modos de establecer los puntos de corte, C1 y C3 tienen el inconveniente de requerir la media de la población funcional, que es un parámetro no disponible en muchas de las situaciones donde se estudia la significación clínica del cambio. Fijándonos entonces en el punto de corte C2, si una persona que ha seguido el tratamiento obtiene en el postest una puntuación superior a 55, consideramos que cumpliría el primer criterio. Supongamos ahora que una persona sometida a intervención obtuvo una puntuación de 32,5 en el pretest y de 47,5 en el postest. Según la fórmula de cambio fiable de Jacobson y Truax, el ICF de esta persona sería:
ICF =
X post − X pre Sd
=
47,5 − 32,5 7,5 1 − 0,80 2
= 3,16
Con lo cual sería considerada como mejorada (cumple el criterio ICF) pero no recuperada (ya que no supera el punto de corte establecido porque 47,5 < 55). Si aplicamos las recomendaciones de Speer (1992) para la obtención del ICF, establecemos un intervalo de confianza para su puntuación pretest: [rxx ( X pre − X pre ) + X pre ] ± 2 S pre 1 − rxx = = [0,8 (32,5 − 40) + 40] ± 2 (7,5) = 34 ± 15
lo que da lugar a un intervalo de puntuaciones entre 19 y 49. Por tanto, en este caso la decisión no sería la misma que con el ICF de Jacobson y Truax, ya que la puntuación postest (47,5) está dentro del rango de valores en que estimamos que se encontrará la puntuación verdadera de la persona antes de la intervención.
Algunas consideraciones finales deben establecerse sobre los modos de evaluar la significación clínica del cambio. En cualquiera de los procedimientos empleados para la obtención de indicadores de significación clínica deben plantearse las medidas más apropiadas (más válidas) de X. Puede ocurrir que un ICF sea significativo en las puntuaciones de una escala de síntomas clínicos pero no serlo en las correspondientes a una escala de calidad de vida o las obtenidas en una escala de valoración de la mejoría respondida por sus familiares. En general, en la práctica se opta por establecer varias medidas complementarias de cambio, de tal forma que se incluyan los cambios perceptibles en la vida diaria. El nivel de deseabilidad de las respuestas debería tenerse en cuenta cuando se recaban opiniones subjetivas de las personas objeto de la intervención o de personas de su entorno. Además, los puntos de corte que sirven para tomar las decisiones sobre mejoría o recuperación no dejan de ser relativamente arbitrarios, y valorados como demasiado estrictos en algunas
338 Medición en Ciencias Sociales y de la Salud circunstancias. De hecho, los niveles críticos de los ICF se han flexibilizado en algunos estudios cuando la variable X fue medida mediante una escala de síntomas psicopatológicos, dado que no reflejaban bien ciertas mejorías parciales de individuos con puntuaciones bajas en el pretest. Finalmente, debe tenerse en cuenta que los diferentes métodos de evaluación de la significación clínica del cambio tienen sentido fundamentalmente en el análisis de la evolución de casos individuales. Otro tipo de cuestiones de interés clínico, por ejemplo el de la efectividad mostrada por un tratamiento a partir de los datos de diversas aplicaciones, requieren de diseños y análisis estadísticos complementarios.
¿Diferencias de las puntuaciones directas o diferencias en los rasgos latentes? Para comprobar las diferencias entre grupos con mediciones pre y postest, y así realizar inferencias sobre los efectos de una intervención, suelen plantearse determinados diseños donde la variable independiente es el tipo de grupo (grupo control y uno o más grupos experimentales). Dependiendo del tipo de diseño y de la variable dependiente que se establezca, pueden analizarse los datos con diferentes técnicas estadísticas, entre las que destacan: ANOVA sobre las puntuaciones de cambio d. ANCOVA sobre d, tomando como covariable la medida pretest Xpre. ANOVA sobre las puntuaciones residuales:
Z res = [ X post − (a + b X pre )] , siendo la expresión que se resta los pronósticos en Xpost realizados a partir Xpre con la oportuna ecuación de regresión simple. MANOVA, si existen varias variables dependientes. De una u otra forma, estos análisis estadísticos se realizan considerando como variable dependiente alguna transformación de las puntuaciones directas X1 y X2, lo cual tiene sus inconvenientes. Por una parte, hemos visto ya que el uso de las diferencias d puede tener los problemas de fiabilidad ya comentados si las dos variables tienen igual varianza y fiabilidad. Por otra parte, sabemos también que una cosa es el rendimiento observable de una persona en un test y otra su nivel de rasgo latente. Dado que, generalmente, el rendimiento observable y los niveles θ no se relacionan linealmente, similares puntuaciones d no necesariamente representan cambios similares en θ (δ = θ1 – θ2). Concretamente, como exponen Dimitrov & Rumrill (2003), dos personas con diferente nivel de rasgo en el pretest, pero igual cambio verdadero δ (debido a la intervención), pueden manifestar distintas puntuaciones empíricas d. Por ejemplo, si el test es fácil, cabe pensar que d será mayor para una persona de bajo nivel θ que para otra con nivel alto. Esto es debido al efecto techo que se produce para la de mayor nivel de rasgo (que tanto en el pre como en postest obtendría puntuaciones directas elevadas). Por el contrario, si el test es difícil, d será mayor para la persona de alto nivel θ debido al efecto suelo que se produce para la persona de menor ni-
Capítulo 9. Fiabilidad interjueces y medición del cambio
339
vel de rasgo. Dicho de otro modo, las puntuaciones directas y sus diferencias dependen de las propiedades de los ítems (por ejemplo, de su dificultad), es decir, generalmente no son invariantes. Estos autores proponen dos tipos de soluciones diferentes a este tipo de problemas, ambas basadas en el análisis de las diferencias en los rasgos latentes: (1) La primera consiste en aplicar modelos de TRI que se han desarrollado específicamente para el tratamiento de las medidas de cambio; es el caso del modelo LLMC (Linear Logistic Model for Change) de Fisher, que es una extensión del modelo de Rasch que se ejecuta con el programa LPCM-WIN. (2) La segunda alternativa es aplicar modelos de ecuaciones estructurales y de AFC, lo que nos permite estudiar la propiedad de invarianza y comparar las diferencias de los grupos a nivel de rasgo latente. En esta propuesta, también denominada análisis factorial multigrupo, se contrasta el grado de invarianza de la estructura factorial a través de los grupos pre y postest, para, posteriormente, comparar el rendimiento en el pre y en el postest en los rasgos definidos, es decir, a nivel latente. Una descripción básica del AFC multigrupo se incluirá en el capítulo 10. Además de permitir el estudio del cambio grupal a nivel latente, los modelos de ecuaciones estructurales pueden tener una importante utilidad en el estudio de la estabilidad de los cambios producidos por una intervención. Así, Hardy y Thiels (2009) muestran cómo los modelos estructurales de curvas de desarrollo latente (LGCM) son especialmente recomendables para estudiar el cambio a nivel de rasgo que se produce en cada persona sometida a tratamiento, tomando una serie de t mediciones observadas durante o después de la intervención. Si el análisis lo hiciéramos a nivel de datos observables, un ANOVA de medidas repetidas podría darnos alguna información a nivel de grupo (p. ej, si existen diferencias entre las medias de dos medidas consecutivas). Los modelos LGCM combinan elementos del ANOVA de medidas repetidas y del AFC, del tal forma que las comparaciones se realizan modelando la “evolución latente” de cada individuo. Para una persona sometida a intervención, a la que se ha medido en t ocasiones, se establece una ecuación de regresión simple:
Yt = y 0 + At y s + et
[9.18]
Donde Yt es la medición observada en el momento t (imagínese que son 4 medidas de estabilidad emocional), y0 representa la intersección o nivel inicial latente de la persona (p. ej., el nivel de rasgo pretest en estabilidad emocional), ys es la pendiente o cambio latente sobre el tiempo, At es el peso o saturación de dicha pendiente en el momento t (sirve para definir la forma del cambio a través del tiempo) y et es el error de pronóstico para el momento t. Dicho de forma más resumida, lo que el modelo asume es que la puntuación observada de un sujeto en un momento depende de su nivel inicial verdadero, de su trayectoria de cambio verdadero y de cierto error de predicción. En el modelo se asume que los pesos de Yt en y0 (intersección) son constantes (el nivel inicial no cambia en los diferentes momentos), mientras que los pesos de Yt en yS (pendientes) especificarán en concreto la forma de la curva de desarrollo del sujeto. Por ejemplo, si los valores At para una persona se establecieran proporcionalmente en los diferentes momentos (p. ej., 0 para la primera medición y 1, 2, 3 para las otras tres) se estaría estudiando la progresión lineal de su nivel latente en estabilidad emocional. En ese caso, las ecuaciones para las puntuaciones observadas en distintos momentos serían:
340 Medición en Ciencias Sociales y de la Salud Yt =0 = y 0 + e0 Yt =1 = y 0 + y S + e1 Yt =2 = y 0 + 2 y S + e2 Yt =3 = y 0 + 3 y S + e3 Por lo tanto, y0 sería una variable que indicaría el nivel latente pretest de las personas y ys otra variable que indicaría la tasa de cambio lineal en el rasgo latente. En comparación con un ANOVA de medidas repetidas, donde la variabilidad intrasujeto es considerada como error, este modo de proceder permite estudiar la diferente efectividad de la intervención en ciertos tipos de personas. En concreto, pueden servir para decidir: (1) si el nivel pretest de una persona se relaciona con la efectividad de la intervención (i. e., las estimaciones de las covarianzas entre intersecciones y pendientes sirven para estudiar si la efectividad depende de los niveles iniciales de los sujetos), (2) si se mantienen las mejorías después de la intervención, (3) en qué grado existen diferencias individuales en cuanto a efectividad, (4) si la mejoría durante el tratamiento predice la estabilidad en el tiempo de esa mejoría y (5) en qué grado dos tratamientos difieren en todas estas cuestiones. Otras ventajas de estos modelos, y su aplicación al estudio de la efectividad de dos terapias distintas para el tratamiento de la bulimia, pueden consultarse en Hardy y Thiels (2009).
10
Análisis Factorial Confirmatorio Introducción
Cómo ya hemos mencionado anteriormente, el análisis factorial (AF) sirve para estudiar las dimensiones que subyacen a las relaciones entre varias variables. En realidad hay dos estrategias distintas de AF: exploratoria y confirmatoria. La lógica que subyace a ambas es la misma, pero existen diferencias importantes. En un análisis factorial exploratorio (AFE), el investigador estudia qué estructura factorial se ajusta mejor a los datos y no se requieren previsiones exactas sobre: 1. Cuántos factores subyacen a las relaciones entre variables, pues se decide el número de factores siguiendo una estrategia empírica (p. ej., el análisis paralelo). 2. Qué variables pesan en cada factor o qué factores correlacionan entre sí. Esto no quiere decir que el AFE no requiera un modelo teórico. Una cierta teoría previa está implícita en la selección de las variables (p. ej., ítems) que se analizan factorialmente y, además, cualquier buen investigador tendrá hipótesis acerca de las relaciones entre las variables. Sin embargo, el AFE es una técnica exploratoria porque no se contrasta directamente el modelo teórico. Por ello, si el modelo de AFE obtenido no coincide con el modelo teórico, no puede concluirse que éste sea incorrecto. Para decidir esto último es necesario aplicar un análisis factorial confirmatorio (AFC), en el que el investigador plantea hipótesis definidas a priori sobre: 1. Cuál es el número de factores. 2. Si hay o no correlaciones entre los factores. 3. Cómo saturan las variables observadas en ellos. 4. Si existen correlaciones entre los términos de error o específicos.
342 Medición en Ciencias Sociales y de la Salud A medida que se acumulan estudios dentro de un campo de conocimiento, los investigadores prefieren utilizar técnicas confirmatorias frente a exploratorias. Cuando la teoría permite establecer relaciones claras entre los ítems y las dimensiones latentes, puede ser más adecuado efectuar un AFC. De esta manera, podemos contrastar, por ejemplo, si la estructura obtenida por unos autores se replica en otra muestra. Frente al AFE, el AFC tiene algunas ventajas, ya que permite: 1. Contrastar directamente el modelo teórico del investigador. 2. Estudiar modelos complejos (p. ej., se pueden estimar conjuntamente todos los pesos de un modelo factorial jerárquico o introducir errores correlacionados entre las variables). 3. Establecer restricciones en los pesos (p. ej., que los pesos de dos ítems son iguales). 4. Reducir el número de parámetros a estimar. Al fijar qué variables no pesan en los factores, se estima un menor número de parámetros. En el AFE, el número de parámetros estimados se incrementa rápidamente al añadir variables y factores. Por ejemplo, con 20 variables y 4 factores independientes habría aproximadamente 80 (4×20) pesos a estimar1; en el AFC, si cada variable pesa en un solo factor, habría 20 pesos a estimar. Esto tiene consecuencias importantes, ya que los modelos más complejos (con más parámetros) requieren mayores tamaños muestrales para ser correctamente estimados. El AFC es una herramienta estadística fundamental en Psicometría para obtener evidencia sobre la estructura interna del test (ver capítulo 5) y para contrastar el supuesto de unidimensionalidad que subyace a la aplicación de algunos modelos de la TRI (ver capítulo 4). En ambos casos, se realizaría un AFC de las respuestas a los ítems. El AFC también permite recoger evidencias de validez sobre las relaciones del test con otras variables (ver capítulos 5 y 14). Por ejemplo, se requiere del AFC para el análisis de datos en un diseño de matriz multirrasgo-multimétodo; en este diseño una muestra de sujetos es evaluada en un conjunto de constructos medidos, cada uno, con un conjunto de métodos diferentes. En este caso, se realizaría un AFC de las puntuaciones en las distintas medidas. Dos excelentes fuentes para profundizar en el AFC son el libro de Brown (2006) y el de Thompson (2004). En español pueden consultarse los capítulos sobre AFC en Martínez-Arias (1995) y en Martínez-Arias et al. (2006).
El análisis factorial confirmatorio, paso a paso Para realizar un AFC se requiere tomar algunas decisiones: 1. Realizar una representación gráfica del modelo. Para ello se siguen algunas convenciones que facilitan la comprensión del modelo de forma rápida y eficaz. 2. Estudiar si el modelo está identificado; es decir, si existe suficiente información para estimar sus parámetros. Si no está identificado o no está identificado parcialmente, sus parámetros (o los de una parte del modelo) no se pueden estimar y se tiene que redefinir el modelo para que esté identificado. 1
En realidad, se estiman algunos parámetros menos, ya que se imponen algunas restricciones mínimas para la estimación. Por ejemplo, cuando se utiliza la técnica de Componentes Principales existe la restricción Λ'Λ = I.
Capítulo 10. Análisis Factorial Confirmatorio
343
3. Estimar los parámetros del modelo. Para ello debe escogerse un método de estimación (ML, ULS,…), mediante el que se obtienen los parámetros que minimizan las discrepancias entre las varianzas y covarianzas reproducidas a partir del modelo (S*) y las observadas (S). El método más frecuente es ML (Máxima Verosimilitud), pero existen otros más adecuados, por ejemplo, para variables con el nivel de medida ordinal y pocas categorías de respuesta o cuando se incumple el supuesto de distribución multivariada normal. 4. Obtener indicadores del ajuste del modelo; es decir, contrastar si los datos empíricos se ajustan a lo predicho por el modelo teórico. En definitiva, se estudia si el parecido entre S y S* es suficiente para afirmar que el modelo se ajusta a los datos. Si el nivel de ajuste es bajo se contrastan modelos alternativos o se estudian modificaciones que mejoren el ajuste. En los siguientes apartados se describe con cierto detalle cada uno de estos pasos.
Representación del modelo Una práctica frecuente es representar nuestro modelo mediante lo que se denomina un diagrama de senderos (en inglés, “path diagram”), como el de la Figura 10.1. En este caso, se representa el modelo para las respuestas a 7 ítems de una prueba de Cordialidad, cuyo contenido puede consultarse en el ejemplo 6.2. Se establece, según el modelo teórico que sirvió de referencia, que los ítems 1, 2, 3 y 7 deben conformar un factor de “Trato a los demás” mientras que los ítems 4, 5 y 6 deben conformar un factor de “Confianza en los demás”. Figura 10.1. Diagrama de senderos para un modelo de factores correlacionados E1
E2
E3
E4
E5
E6
1
1
1
1
1
1
X1
X2
X3
X4
λ11
λ21 λ31
λ71
X5
X6
E7 1
X7
λ42 λ52 λ62 F2
F1
σF1F2 Las variables se representan mediante cuadrados si son observables (en este caso, los ítems) o mediante círculos si son variables latentes: como los factores (F1, F2,) o los errores (E1, E2, E3,…, E7). Las relaciones entre variables se representan mediante líneas. Una línea curva bidireccional conectando dos variables latentes indica que ambas covarían (en
344 Medición en Ciencias Sociales y de la Salud la figura 10.1 los factores están correlacionados; en la figura 10.2 los factores son independientes). Las flechas rectas indican que hay una relación direccional entre las 2 variables conectadas (por ejemplo, X1 recibe líneas de F1 y del error, E1, para representar que está influenciada por ambas variables). En ocasiones, se hace una distinción entre variables endógenas (variables que reciben flecha direccional de alguna otra variable del modelo) y variables exógenas (variables que no reciben ninguna flecha direccional dentro del modelo). En los modelos de AFC, las variables latentes son siempre exógenas y las variables observables, endógenas. Puede observarse, en ambas figuras, que no se contemplan efectos de F2 a X1 o X2, ni tampoco de F1 a X4 o X5. Tampoco hay flechas bidireccionales entre E1 y E2, lo que quiere decir que los errores en las variables observadas no están correlacionados. Figura 10.2. Diagrama de senderos para un modelo de factores independientes E1
E2
1
X1
1
X2
λ11
E3
E4
E5
E6
1
1
1
1
X3
X4
λ21 λ31 F1
λ71
X5
X6
E7 1
X7
λ42 λ52 λ62 F2
Las reglas de representación, aunque arbitrarias, son importantes. Algunos programas como AMOS (Arbuckle, 2005) permiten que el usuario genere su modelo dibujándolo (como en las Figuras 10.1 y 10.2) y el programa genera las estimaciones de los parámetros del modelo. Es usual que en informes y artículos científicos se presente un diagrama del modelo utilizando las convenciones descritas en este apartado.
Conceptos básicos del modelo de AFC Ecuaciones para las puntuaciones La representación de las figuras 10.1 y 10.2 se puede traducir al siguiente conjunto de ecuaciones para las puntuaciones:
X 1 = λ11 F1 + E1 X 2 = λ 21 F1 + E 2 X 3 = λ31 F1 + E3 X 4 = λ 42 F2 + E 4
Capítulo 10. Análisis Factorial Confirmatorio
345
X 5 = λ52 F2 + E5 X 6 = λ62 F2 + E 6 X 7 = λ71 F1 + E 7 Un modelo de AFC se puede expresar de forma genérica como:
Xj =
M
∑λ
jm Fm
+ Ej
[10.1]
m =1
donde el parámetro λjm indica el peso de la variable Xj en el factor Fm. Ej refleja la parte específica de la variable que no tiene que ver con los factores comunes e incluye el efecto debido a la especificidad de la variable, al error de medida o el error de muestreo. Obsérvese que la ecuación general [10.1] es exactamente la misma que la del AFE (ecuación [6.1]). Sin embargo, aunque no son explícitas en la ecuación general, existen algunas diferencias entre ambos planteamientos, ya que en el modelo de AFC: 1. No todos los ítems pesan en todos los factores. Si la variable j no pesa en el factor m, entonces se define λjm = 0 (p. ej., λ12 = 0). 2. Podría permitirse que los errores estén correlacionados (p. ej., rE1E2 ≠ 0). 3. Podrían establecerse restricciones en los pesos. Por ejemplo, podríamos establecer que los tres ítems que pesan en el segundo factor tienen idéntico peso (λ42 = λ52 = λ62).
Pesos no estandarizados y pesos estandarizados Otra diferencia importante es que en el AFE se trabaja usualmente con las puntuaciones Xj y Fm en escala típica, mientras que en el AFC se trabaja con las puntuaciones Xj y Fm en escala diferencial. Esto implica que los parámetros λjm obtenidos en el AFC dependen de la escala de medida de las variables (p. ej., al multiplicar la variable X1 por 10, el valor del λ11 cambiará). A los parámetros λjm que se obtienen cuando se analizan las variables Xj y Fm en escala diferencial se les llama pesos no estandarizados. No son fáciles de interpretar porque un mayor peso no implica necesariamente una mayor influencia del factor y, además, no tienen un valor mínimo o máximo posible (p. ej., λjm puede tomar un valor de 3,5). Sin embargo, en el AFC pueden obtenerse también los pesos estandarizados, que son los que se obtendrían al trabajar con las variables Xj y Fm en escala típica:
X *j =
M
∑λ
* * jm Fm
+ E *j
m =1
donde X∗j y F∗m son las variables Xj y Fm en escala típica, λ∗jm es el peso estandarizado de la variable X∗j en el factor F∗m y E∗j refleja la parte específica de X∗j . Los pesos estandarizados pueden obtenerse como una transformación de los pesos no estandarizados:
346 Medición en Ciencias Sociales y de la Salud λ*jm = λ jm
σ Fm
[10.2]
σXj
Puesto que las variables X∗j y F∗m se expresan en puntuaciones típicas, el peso λ∗jm puede interpretarse directamente como la importancia del factor y toma valores, generalmente, entre –1 y 1. Los pesos estandarizados son más fáciles de interpretar y no dependen de la escala de medida de las variables (p. ej., al multiplicar la variable X1 por 10, el valor del peso estandarizado no cambiará). En un AFE siempre se obtienen pesos estandarizados2.
Ejemplo 10.1. Pesos estandarizados y pesos no estandarizados Se aplicó el modelo de AFC de la Figura 10.1 a las respuestas a los 7 ítems del Test de Cordialidad; la matriz de varianzas-covarianzas empírica se muestra en la Tabla 10.1. Tabla 10.1. Matriz S de varianzas-covarianzas empírica. X1 X2 X3 X4 X5 X6 X7
X1
X2
X3
X4
X5
X6
X7
0,710 0,219 0,238 0,151 0,120 0,152 0,170
0,628 0,279 0,175 0,126 0,227 0,250
0,723 0,053 0,071 0,111 0,135
0,912 0,458 0,312 0,223
0,880 0,210 0,200
1,069 0,240
0,820
Los pesos del AFC se muestran en la Tabla 10.2. El peso estandarizado λ∗11 es3: * = λ11 λ11
σ F1 S X1
= 0,421
1 0,710
= 0,500
Donde σF1 y SX1 son las desviaciones típicas del factor y del ítem en la muestra. Los pesos estandarizados se interpretan igual que los coeficientes de la matriz de configuración del AFE. En nuestro ejemplo, las relaciones entre cada ítem y su factor son elevadas (mayores de 0,4). Si el peso de algún ítem en un factor hubiera sido bajo (p. ej., menor de 0,1) esto indicaría que esa relación, aunque aparezca en el modelo, podría no existir. 2
Por tanto, en este capítulo se introduce un cambio de notación con respecto al Capítulo 6. Aquí, λ se refiere siempre a los pesos no estandarizados, que se distinguen de los pesos estandarizados (λ∗); por el contrario, en el Capítulo 6, λ se refiere a los pesos estandarizados, que son los únicos que se obtienen en el EFA. 3
Observe que aparecen los parámetros poblacionales (p. ej., σF1). Sin embargo, al aplicar la fórmula, se usan los estimadores muestrales. En este capítulo, por mantener la claridad expositiva, se mantendrá la denominación poblacional de los parámetros (λ, σ) aun cuando, en una muestra, sólo se conocerán los estimadores ( λˆ, σˆ ).
347
Capítulo 10. Análisis Factorial Confirmatorio Tabla 10.2. Parámetros estimados en el modelo de la Figura 10.1 (Programa MPLUS, método ML) No estandarizados
Pesos X1 F1 X2 F1 X3 F1 X7 F1 X4 F2 X5 F2 X6 F2 Covarianzas: F1 ↔ F2 Varianzas
Estandarizados
Denominación
Parámetro estimado
Razón crítica
Denominación
Parámetro estimado
λ11 λ21 λ31 λ71 λ42 λ52 λ62
0,421 0,572 0,449 0,429 0,745 0,595 0,429
9,219 13,042 9,774 8,735 12,920 11,198 7,705
λ∗11 λ∗21 λ∗31 λ∗71 λ∗42 λ∗52 λ∗62
0,500 0,723 0,529 0,474 0,781 0,635 0,415
σF1F2
0,458
7,635
ρF1F2
0,458
σ2F1 σ2F2
1 † 1
σ∗2F1 σ∗2F2
1 † 1
†
†
†Parámetros fijados: σ2F1 = 1 y σ2F2 = 1 (ver apartado Identificación del modelo)
La columna etiquetada como “Razón crítica” sirve para contrastar la significación de cada parámetro. Este estadístico se obtiene dividiendo el parámetro estimado por su error típico; si la distribución de las Xj es multivariada normal, la distribución del estadístico es aproximadamente normal. Por ejemplo, 9,219 es mayor que z0,95 (= 1,96), por tanto el peso 0,421 (o el estandarizado, 0,5) del ítem 1 es estadísticamente distinto de cero. En este caso, todos los parámetros de relación (los pesos y la covarianza entre factores) son estadísticamente significativos. Tabla 10.3. Pesos estandarizados obtenidos en el AFC y matriz de configuración obtenida en el AFE
X1 X2 X3 X4 X5 X6 X7
F1 0,500 0,723 0,529 0 0 0 0,474
AFC
F2 0 0 0 0,781 0,635 0,415 0
F1 0,060 0,036 –0,139 0,842 0,623 0,306 0,217
AFE
F2 0,471 0,706 0,635 –0,055 –0,013 0,226 0,351
Los pesos del AFC aparecen en la Tabla 10.3 en forma de matriz, para facilitar su comparación con los obtenidos en el AFE. Puede observarse que en el AFC el investigador establece qué relaciones entre ítems y factores son nulas. Por el contrario, puede verse que todos los pesos del AFE son distintos de cero.
348 Medición en Ciencias Sociales y de la Salud
Ecuaciones para las varianzas y covarianzas reproducidas Como en los modelos de AFE, las relaciones entre las variables se siguen de los parámetros del modelo. Puesto que las puntuaciones Xj están expresadas en escala diferencial, en el AFC se modela la matriz de varianzas-covarianzas en vez de la matriz de correlaciones. A partir del modelo se establece que las varianzas y covarianzas deberían tomar unos valores concretos. Los parámetros a estimar son los pesos factoriales, las varianzas y las covarianzas entre las variables exógenas (en nuestro caso, las variables latentes Fm y Ej). Los parámetros a estimar para el modelo de la Figura 10.1 se muestran en la Tabla 10.4. Tabla 10.4. Parámetros a estimar (inicialmente) para el modelo de la Figura 10.1 Pesos factoriales, varianzas y covarianzas de las variables exógenas
λ11 , λ 21 , λ31 , λ 42 , λ52 , λ62 , λ71 , σ E21 , σ E22 , σ E23 , σ E24 , σ E25 , σ E26 , σ E27 , σ F21 , σ F22 , σ F1F2 A partir de la matriz de varianzas-covarianzas empírica, S, se estiman los parámetros del modelo y puede obtenerse la matriz de varianzas-covarianzas reproducida, S*. La matriz de varianzas-covarianzas reproducida es la que debe ocurrir si el modelo es cierto. Las ecuaciones para calcular sus elementos son muy similares a las vistas para el AFE (ver ecuaciones [6.2] y [6.11]); si los errores no correlacionan con los factores, la ecuación para calcular la varianza reproducida de la variable Xj es4: 2
S *X j =
M
∑λ m =1
2 2 jmσ Fm
+
M
M
∑ ∑λ m =1 m '=1 m '≠ m
jm λ jm 'σ Fm Fm '
+ σ E2 j
[10.3]
El valor de σ2Εj es muy importante, ya que el cociente σ2Εj/S∗2Xj indica la proporción de varianza de Xj que no es explicada por los factores comunes. La fórmula para calcular la covarianza reproducida entre las variables j y j’ es5:
S *XjXj′ =
M
∑
m =1
4
M
M
∑ ∑λ m =1 m′=1 m′≠ m
jm λ j ′m′σ Fm Fm′
+ σ E j E j'
[10.4]
Recuerde que, en esta fórmula, λ son los pesos no estandarizados. Para los pesos estandarizados la fórmula es: S *2* = Xj
5
λ jm λ j′mσ F2m +
M
∑λ m =1
*2 jm
+
M
M
∑ ∑λ m =1 m′ =1 m ≠ m′
* * jm λ jm′ ρ Fm Fm′
+ σ 2* Ej
En formato matricial, S* = ΛΦΛ' + Ψ , donde Λ es la matriz de pesos factoriales, de orden J x M, Φ es la matriz de varianzas-covarianzas entre factores, de orden M x M; Ψ es la matriz de varianzas-covarianzas entre los errores, de dimensiones J x J. Los residuos se obtienen como S – S*.
Capítulo 10. Análisis Factorial Confirmatorio
349
En ocasiones se utiliza el término Sjj’ (o S*jj’) para referirse al elemento de la fila j y la columna j’ de la matriz S (o S*). Por ejemplo, S11 se refiere a la varianza observada del ítem 1 y S*12 se refiere a la covarianza reproducida entre el ítem 1 y el ítem 2.
Ejemplo 10.2. Matriz de varianzas-covarianzas reproducida Se aplicó el modelo de AFC de la Figura 10.1 a las respuestas a los 7 ítems del Test de Cordialidad. Los pesos estimados y las covarianzas estimadas entre factores latentes se mostraron en la Tabla 10.2. En la Tabla 10.5, se muestran las varianzas únicas o debidas a los factores únicos (σ2E1, σ2E2,…, σ2E7). Tabla 10.5. Varianzas únicas en el modelo de la figura 10.1 (Programa MPLUS, método ML) No estandarizados
Estandarizados
Denominación
Parámetro estimado
Razón crítica
Denominación
Parámetro estimado
σ2E1 σ2E2 σ2E3 σ2E4 σ2E5 σ2E6 σ2E7
0,531 0,299 0,520 0,355 0,524 0,883 0,634
12,705 7,512 12,276 5,089 9,530 13,739 13,034
σ∗2E1 σ∗2E2 σ∗2E3 σ∗2E4 σ∗2E5 σ∗2E6 σ∗2E7
0,750 0,477 0,720 0,390 0,597 0,828 0,775
A partir de los parámetros estimados pueden obtenerse las varianzas y covarianzas reproducidas. Por ejemplo, en el modelo de la Figura 10.1 la varianza reproducida para el ítem 1 es (ver parámetros estimados en Tablas 10.2 y 10.5): 2 S *X2j = λ11 σ F21 + σ E21 = 0,4212 (1) + 0,531 = 0,708
y la proporción de varianza del ítem 1 no explicada por los factores comunes es:
σ E21 S *X21
=
0,531 = 0,75 0,708
La covarianza reproducida entre los ítems 1 y 2 es:
S *X1X 2 = λ11λ 21σ F21 + λ12 λ 22σ F22 + 2λ11λ 22σ F1F2 + σ E1E2 = = (0,421)(0,572)(1) + (0)(0)(1) + 2(0.421)(0)(0.458) = 0,241 y la covarianza reproducida entre los ítems 1 y 4 es (teniendo en cuenta los pesos fijados a cero):
350 Medición en Ciencias Sociales y de la Salud S *X1X 4 = λ11λ 42σ F F = (0,421)(0,745)(0,458) = 0,144 1 2
La matriz de varianzas-covarianzas reproducida S* para los modelos de la Figura 10.1 y 10.2 se muestra en la Tabla 10.6. Puede observarse que la diferencia principal entre ambos modelos es que en el de factores independientes (Figura 10.2) se predice que los ítems 1, 2 y 3 covarían cero con los ítems 4, 5 y 6. Tabla 10.6. Matriz S* de varianzas-covarianzas reproducida según el modelo de la Figura 10.1 (por encima de la diagonal) y el modelo de la Figura 10.2 (por debajo de la diagonal) X1 X1 X2 X3 X4 X5 X6 X7
0,239 0,201 0,000 0,000 0,000 0,163
X2
X3
X4
X5
X6
X7
0,241
0,189 0,257
0,144 0,195 0,153
0,115 0,156 0,122 0,444
0,083 0,112 0,088 0,320 0,255
0,180 0,245 0,193 0,146 0,117 0,084
0,277 0,000 0,000 0,000 0,225
0,000 0,000 0,000 0,189
0,457 0,312 0,000
0,210 0,000
0,000
Residuos Como en los modelos de AFE, cada residuo es la diferencia entre un elemento de la matriz de varianzas-covarianzas observada S (Tabla 10.1) y el elemento correspondiente de la reproducida S*. Por ejemplo, el residuo para la varianza del ítem 1 es:
(
)
2 2 res11 = S X2 1 − S *X21 = 0,710 − λ11 σ F1 + σ E21 = 0,710 − 0,710 = 0
donde res11 indica el elemento de la fila 1 y columna 1 en la matriz de residuos; el residuo para la covarianza entre los ítems 1 y 2 es:
res12 = S X
1X 2
− S *X1X 2 = 0,219 − λ11λ 21σ F21 = 0,219 − 0,241 = −0,023
Las matrices de residuos correspondientes a los dos modelos definidos se muestran en la Tabla 10.7, incluida en el siguiente ejemplo. Podemos comprobar que los residuos son generalmente mayores en el modelo de factores no correlacionados, tal como se definieron en la Figura 10.2 (veremos más adelante que ese modelo no se ajusta a los datos).
Capítulo 10. Análisis Factorial Confirmatorio
351
Ejemplo 10.3. Matriz de residuos Tabla 10.7. Residuos (resjj’) o diferencias entre los elementos de S y S* según el modelo de la Figura 10.1 (por encima de la diagonal) y el modelo de la Figura 10.2 (por debajo de la diagonal)1 X1 X1 X2 X3 X4 X5 X6 X7
–0,021 0,037 0,151 0,120 0,151 0,007
X2
X3
X4
X5
X6
X7
–0,023
0,048 0,022
0,008 –0,021 –0,101
0,006 –0,030 –0,052 0,014
0,069 0,114 0,023 –0,008 –0,045
–0,011 0,004 –0,058 0,076 0,083 0,156
0,002 0,174 0,126 0,226 0,025
0,053 0,071 0,111 –0,054
0,000 0,000 0,222
0,000 0,200
0,240
En negrita se señalan los residuos mayores en valor absoluto que 0,10; método ML
1
Identificación del modelo En el AFC no existe el problema de la indeterminación factorial propio del AFE. Sin embargo, el modelo de AFC debe estar identificado para que la solución factorial obtenida sea única. Se dice que un modelo no está identificado cuando no es posible estimar los parámetros del modelo. Esto es, existen distintos conjuntos de parámetros que dan lugar al mismo ajuste estadístico. Para que el modelo esté identificado se debe atender a dos aspectos: 1. Fijar la métrica de las variables latentes: Un punto básico de la identificación es fijar la escala de medida de los factores latentes, es decir, fijar la desviación típica de esas variables. Esta escala es “arbitraria” y no afecta al ajuste del modelo (como cuando se mide la longitud de un objeto, las unidades de medida pueden ser metros o centímetros). Existen distintas formas de establecer la métrica: − Un modo es fijar la varianza de los factores a uno. En ese caso, se asume que los factores están estandarizados. Una ventaja de esta estrategia es que las covarianzas entre los factores son las correlaciones entre ellos. − Otra posibilidad es, para cada factor, fijar el peso de una variable a uno. Al hacer esto la varianza del factor latente es función de la varianza de la variable medida. Una costumbre frecuente es fijar el peso de la variable que, teóricamente, sea mejor indicador del factor aunque, en realidad, la decisión es arbitraria6. Una pequeña desventaja de esta estrategia es que no se contrasta la significación estadística del peso que se fija a 1. 6
Existen algunas excepciones. En los modelos de AFC más complejos (p. ej., modelos multigrupo o modelos con restricciones de equivalencia entre algunos parámetros) el modo en que se fija la métrica del factor no es ar-
352 Medición en Ciencias Sociales y de la Salud En cualquier caso, cuando se fija la métrica del factor, se reduce el número de incógnitas del modelo, y por tanto la cantidad de parámetros a estimar. Podemos comparar en nuestro ejemplo los parámetros a estimar antes (Tabla 10.4) y después (Tabla 10.8) de fijar la métrica de los factores. Tabla 10.8. Parámetros a estimar para el modelo de la Figura 10.1 después de fijar la métrica de los factores (en este caso, se han fijado σ 2F1 = 1 y σ 2F2 = 1). Pesos factoriales, varianzas y covarianzas de las variables exógenas1
λ11 , λ 21 , λ31 , λ 42 , λ52 , λ62 , λ71 σ E21 , σ E22 , σ E23 , σ E24 , σ E25 , σ E26 , σ E27 , σ F1F2 2. Comprobar que el número de grados de libertad es positivo. Debemos distinguir entre el número de datos disponibles para estimar los parámetros del modelo y el número de parámetros a estimar. Los datos disponibles son los (J (J + 1))/2 elementos distintos de la matriz S de varianzas-covarianzas (ver Tabla 10.1), donde J es el número de ítems. En nuestro ejemplo, tenemos 28 elementos en S [((7)(8))/2]. Al número de parámetros lo designaremos como t. En el modelo de la figura 10.1, t = 15 (ver los parámetros a estimar en la Tabla 10.8). En un modelo de AFC cada elemento de la matriz de varianzas-covarianzas es predicho a partir de los parámetros. El número de elementos a predecir no debería ser menor que el número de parámetros con el que se predice. Es decir, para que un modelo esté identificado el número de parámetros debe ser menor que el número de datos disponibles. A la diferencia entre el número de datos y el número de parámetros estimados se la denomina grados de libertad; el número de grados de libertad se obtiene como:
gl =
J ( J + 1) −t 2
[10.5]
En general, en un modelo de AFC, el número de parámetros a estimar se calcula contando los pesos no fijados de las variables observadas a las variables latentes (7 en el modelo de la Figura 10.1) y las varianzas y covarianzas no fijadas entre las variables latentes (8 en el modelo de la Figura 10.1). Por tanto, en el modelo de la Figura 10.1 tenemos 28 varianzas/covarianzas distintas y 15 parámetros a estimar, lo que nos da 13 grados de libertad; para el modelo de la Figura 10.2 tendríamos un parámetro menos a estimar y, por tanto, 14 grados de libertad. Si el modelo está identificado los grados de libertad serán siempre positivos, aunque en realidad pueden ser: − Negativos (gl < 0). Cuando hay más parámetros a estimar que datos se dice que el modelo no está identificado. En este caso no pueden estimarse los parámetros. Por ejemplo, para un modelo de un factor y dos variables, tenemos tres elementos a predecir (dos varianzas y una covarianza) y cuatro parámetros (λ11, λ21, σ 2E1 y σ 2E2). Entonces tendríamos tres residuos distintos: bitrario. En estos casos, fijar el peso del mejor indicador a 1 sería el modo más conveniente de fijar la métrica y fijar la varianza del factor a 1 puede dar resultados incorrectos (Brown, 2006, p. 107).
Capítulo 10. Análisis Factorial Confirmatorio
(
2 + σ E21 res11 = S11 − λ11
353
)
res12 = S12 − λ11λ21
(
)
res 22 = S 22 − λ221 + σ E22
Cada ecuación representa la diferencia entre un elemento de S y la ecuación correspondiente para ese elemento según el modelo (S*); es decir, los residuos. La idea es buscar aquellos parámetros λ11, λ21, σ 2E1 y σ 2E2 que conviertan en cero (o próximos a cero) el valor de los residuos. En este caso, tenemos –1 grados de libertad. Esto quiere decir que, con estos datos, no podemos saber los valores de λ11, λ21, σ 2E1 y σ 2E2, ya que existen muchos posibles valores de λ11, λ21, σ 2E1 y σ 2E2 para los que los residuos son iguales a cero. Por ejemplo, si S11 = 0,710, S22 = 0,628 y S12 = 0,219, los parámetros podrían ser λ11 = 0,843, λ21 = 0,26, σ 2E1 = 0 y σ 2E2 = 0,56 pero también λ11 = 0,276, λ21 = 0,7925, σ 2E1 = 0,634 y σ 2E2 = 0. Con ambos conjuntos de parámetros estimados los residuos son cero. Por ello nunca se debe definir un factor únicamente con dos variables ya que, planteando la unidimensionalidad, el modelo no estará identificado. − Cero (gl = 0). Cuando el número de datos es igual al número de parámetros estimados la solución es única. Se habla entonces de modelo saturado. Estos modelos no tienen interés porque no se simplifica la realidad (tenemos tantos parámetros estimados como datos). Dicho de otro modo, son siempre ciertos. Por ejemplo, para un modelo de un factor y tres variables, tenemos un sistema de seis datos (3 varianzas y 3 covarianzas) y seis parámetros a estimar (λ11, λ21, λ31, σ 2E1, σ 2E2 y σ 2E3). Las ecuaciones son:
(
2 + σ E21 res11 = S11 − λ11
)
res12 = S12 − λ11λ21 res13 = S13 − λ11λ31
(
res 22 = S 22 − λ221 + σ E22
res 23 = S 23 − λ 21λ31
(
2 res33 = S 33 − λ31 + σ E23
) )
Tenemos 0 grados de libertad. En este caso, la solución es única. Por ejemplo, si S11 = 0,710, S12 = 0,219, S13 = 0,238, S22 = 0,628, S23 = 0,279 y S33 = 0,723, los parámetros estimados serían λ11 = 0,432, λ21 = 0,507, λ31 = 0,551, σ 2E1 = 0,523, σ 2E2 = 0,371 y σ 2E3 = 0,419. Con esos parámetros estimados, todos los residuos son cero. Por ello, tampoco resulta conveniente definir un factor con sólo tres variables. En esos casos, para el modelo de un factor, el ajuste es siempre perfecto. − Positivos (gl > 0). Cuando el número de ecuaciones es mayor que el número de incógnitas se dice que el modelo está sobreidentificado. Es el caso del modelo de la figura 10.1; disponemos de 28 ecuaciones (una ecuación para cada elemento de la matriz de varianzas-covarianzas) y 15 incógnitas. No es posible encontrar un conjunto de valores para los parámetros estimados (λjm, σ 2Ej, σF1F2) que hagan cero los residuos, pero existe un conjunto de parámetros estimados que hacen que los residuos tomen el valor
354 Medición en Ciencias Sociales y de la Salud más pequeño posible para este modelo. La solución de valores que minimizan esas discrepancias es única (en nuestro caso, los parámetros estimados que minimizan los residuos para el modelo de la Figura 10.1 se ofrecen en las Tablas 10.2 y 10.5). Los residuos obtenidos se muestran en la Tabla 10.7 (por encima de la diagonal) y son distintos (pero próximos) a cero. El tamaño de los residuos o discrepancias nos permitirá comprobar si el modelo es adecuado para estos datos. Los modelos sobreidentificados simplifican la realidad (hay menos parámetros estimados que datos) y pueden ser falsos. Puede parecer una contradicción que busquemos un modelo tal que podamos contrastar si es falso pero justamente la falsabilidad es un requisito fundamental en Ciencia. Por tanto, es condición necesaria que el modelo esté sobreidentificado para que los parámetros se puedan estimar. Debe notarse, sin embargo, que no es condición suficiente. En ocasiones el modelo está sobreidentificado pero existen algunos parámetros que no pueden estimarse. En ese caso, se dice que el modelo no está identificado localmente. Por ejemplo, esto puede ocurrir si: 1. En un factor latente sólo pesa una variable. 2. En un factor latente pesan sólo dos variables y el factor no correlaciona con los otros. Finalmente, puede ocurrir que el modelo esté completamente identificado estadísticamente y que, sin embargo, no puedan estimarse algunos parámetros por las características de los datos observados. Se dice entonces que el modelo está empíricamente no identificado. Por ejemplo, supongamos un modelo de dos factores correlacionados y dos variables por factor. Las ecuaciones asociadas a los residuos serían:
(
2 res11 = S11 − λ11 + σ E21
)
res12 = S12 − λ11λ21
res13 = S13 − λ11λ32σ F1F2 res14 = S14 − λ11λ42σ F1F2
(
res 22 = S 22 − λ221 + σ E22
)
res 23 = S 23 − λ21λ32σ F1F2 res 24 = S 24 − λ21λ42σ F1F2
(
2 res33 = S 33 − λ32 + σ E23
res34 = S 34 − λ32 λ42
(
res 44 = S 44 − λ242 + σ E24
)
)
Suponga que las varianzas observadas tienen el valor 1 (S11 = S22 = S33 =S44 = 1), las covarianzas para ítems pertenecientes al mismo factor toman el valor 0,5 (S12 = S34 = 0,5) y las covarianzas entre ítems de factores distintos toman el valor 0 (S13 = S14 = S23 = S24 = 0). Puesto que los ítems de factores distintos no covarían, el valor de σF1F2 en esa muestra debería ser 0 (obsérvese que si σF1F2 = 0, res13 = 0, res14 = 0, res23 = 0 y res24 = 0). Sin em-
Capítulo 10. Análisis Factorial Confirmatorio
355
bargo, si en la muestra ocurre que σF1F2 = 0, el número de ecuaciones para estimar el resto de los parámetros se reduciría de tal forma que habría más parámetros (8) que ecuaciones (6):
(
2 + σ E21 res11 = S11 − λ11
)
res12 = S12 − λ11λ21
( − (λ
res 22 = S 22 − λ221 + σ E22
res33 = S 33
2 32
+ σ E23
res34 = S 34 − λ32 λ 42
(
res 44 = S 44 − λ242 + σ E24
) ) )
Ejemplo 10.4. Identificación del modelo El modelo representado en la Figura 10.2 tiene 14 grados de libertad, por lo tanto está sobreidentificado. Sin embargo, en un análisis más detenido, puede observarse que hay partes del modelo que no pueden ser falsadas. F2 se define sólo con tres variables y es ortogonal a F1. Por ello, para esa parte del modelo, el ajuste será perfecto independientemente del valor de las covarianzas entre X3, X4 y X5. Por esa razón los residuos para las covarianzas entre los ítems 3, 4 y 5 son exactamente cero (ver Tabla 10.7). Se dice que esta parte del modelo no es falsable, porque si las covarianzas entre los ítems 3, 4 y 5 hubieran sido otras los residuos para esas covarianzas seguirían siendo cero.
Recomendaciones sobre la identificación A modo de síntesis, pueden realizarse algunas recomendaciones para facilitar que el modelo esté identificado (Brown, 2006): 1. Fijar la métrica de todos los factores mediante alguno de los dos métodos descritos en el apartado anterior. 2. Comprobar que el modelo está sobreidentificado; es decir, que el número de parámetros a estimar es menor que el número de elementos de la matriz de varianzascovarianzas. En el caso del modelo de un factor, se requieren 4 variables para que el modelo esté sobreidentificado. En el caso de modelos de varios factores correlacionados, se requieren dos variables por factor. Sin embargo, es recomendable el uso de un mínimo de tres variables por factor para prevenir la aparición de un modelo empíricamente no identificado.
356 Medición en Ciencias Sociales y de la Salud
Estimación de parámetros Existen distintos procedimientos de estimación de parámetros. El fundamento matemático de estos procedimientos es complejo, pero su lógica es sencilla. Mediante los procedimientos de estimación se buscan aquellos parámetros (λ,…) que minimizan las diferencias entre los elementos de la matriz S (varianzas y covarianzas observadas) y los elementos de la matriz S* (matriz de varianzas-covarianzas reproducida). Ello es equivalente a buscar los parámetros que minimizan lo que se denomina Función de Discrepancia entre S y S*, F(S, S*). Considérese el siguiente vector d de discrepancias o residuos distintos:
d = {d1 ,...d l ..., d L }
[10.6]
donde d1 = res11, d2 = res12, d3 = res13,… y dL = resJJ, siendo L el número de elementos del vector, que es (J(J + 1))/2. La función de discrepancia toma el valor 0 cuando las d son cero y valores mayores cuanto mayores sean (en valor absoluto) las discrepancias. Existen distintos procedimientos de estimación, en los que se define la Función de Discrepancia de distinta manera. A continuación se describen los más utilizados, que son ULS y ML.
Unweighted Least Squares o Mínimos Cuadrados no Ponderados (ULS) En el método ULS (Mínimos Cuadrados no Ponderados) la función de discrepancia es7: FULS (S, S * ) =
L
∑d
2 l
[10.7]
l
Las discrepancias se elevan al cuadrado para que, al minimizar FULS, se minimicen las discrepancias en valor absoluto. Es el método más sencillo y no asume ningún supuesto sobre la distribución de las variables observadas. Está implementado en la mayoría de los programas de AFC. El uso de ULS es adecuado si se analizan las variables estandarizadas. No es recomendable aplicarlo cuando se analiza una matriz de varianzas-covarianzas, ya que los resultados (p. ej., los pesos estandarizados) dependen de la escala de medida de las variables. Por ejemplo, supongamos que se realiza un AFC sobre las puntuaciones en tests que difieren en longitud. Las pruebas con más ítems tendrán generalmente mayor varianza y mayor peso en el valor de la función de discrepancia (ya que los residuos serán mayores en esas variables). Este método tiene algunos problemas, ya que no se conoce la distribución de los estimadores y no es posible obtener índices de ajuste con distribución estadística conocida. Pueden obtenerse indicadores como SRMR para estudiar el ajuste (ver apartado Índices de bondad de ajuste). 7
Matricialmente,
FULS (S, S * ) = d' d
Capítulo 10. Análisis Factorial Confirmatorio
357
Máxima-Verosimilitud (ML) Con ML se buscan aquellos parámetros que hacen más verosímiles las respuestas de los sujetos, asumiendo que la distribución de las variables es multivariada normal. La función de discrepancia de ML puede expresarse como (Browne, 1974): FML (S, S * ) =
L
L
l
l'
∑∑ w
ll ' d l d l '
[10.8]
donde se suman, ponderando con un peso wll’, todos los posibles productos entre los elementos del vector de discrepancias (es decir, los productos d1d1, d1d2, …, dLdL)8. Obsérvese que si S = S*, la ecuación 10.8 toma su mínimo valor, 0 (en ese caso, para todo l, dl = 0). Con los pesos wll’ se relativiza la contribución de los residuos al valor de la Función de Discrepancia, según la escala de medida de las variables y la precisión del residuo estimado. Por ejemplo, un residuo grande sobre una covarianza que es estimada con poca precisión (con mucha variabilidad en el muestreo) y que relaciona dos variables cuya varianza es grande, recibirá un peso wjj’ menor y contribuirá en menor grado a la función de discrepancia (Batista y Coenders, 2000; p.73). Al establecer esa ponderación, ML proporciona idéntica solución (p. ej., los mismos pesos estandarizados) independientemente de la escala de medida de las variables. La denominación de Máxima Verosimilitud se debe a que se buscan los parámetros (pesos [Λ], varianzas y covarianzas entre factores latentes [Φ] y varianzas y covarianzas entre errores [Ψ]) que maximizan la verosimilitud de las respuestas observadas:
L( X | Λ, Φ, Ψ )
[10.9]
En el método ML se asume que la distribución de las variables es multivariada normal. Si se cumple ese supuesto, maximizar la ecuación [10.9] es equivalente a minimizar la función de discrepancia [ecuación 10.8], que sólo depende de S y S*. La ventaja principal del método ML es que, si el supuesto distribucional se cumple, podemos obtener medidas estadísticas de ajuste, así como realizar contrastes sobre la significación de los parámetros. Sin embargo, cuando no se cumple, el procedimiento ML puede dar lugar a resultados imprecisos: el estadístico χ2 para contrastar el ajuste del modelo estará sobrestimado (se tiende a rechazar el modelo aunque sea correcto9) y los errores típicos estarán subestimados (aumentando la probabilidad de que una relación inexistente sea estadísticamente significativa). Por ello, un punto importante en la aplicación de ML es comprobar que la distribución de las variables es multivariada normal. Para ello, se ha propuesto estudiar los índices univariados de Asimetría y Apuntamiento. Si no son ex8
Matricialmente: FML (S, S* ) = d' Wd
Ver apéndice para una explicación más detallada del significado de la matriz W. 9
Por “modelo correcto” nos referimos a un modelo que, en la población, se ajusta a los datos perfectamente.
358 Medición en Ciencias Sociales y de la Salud cesivamente elevados (Asimetría menor que 2 en valor absoluto; Apuntamiento menor que 7 en valor absoluto) puede utilizarse ML, pues es un método robusto a pequeñas desviaciones de la normalidad (West, Finch y Curran, 1995). También se ha propuesto el uso de un coeficiente multivariado de apuntamiento (Mardia, 1970; 1974). Bajo la hipótesis nula (no apuntamiento), el coeficiente de Mardia sigue la distribución normal estándar; Bentler (2005) sugiere que el valor de este estadístico debería ser menor que 5.
Métodos robustos para el AFC con variables con distribución no normal Si los índices de asimetría y (especialmente) los de apuntamiento son elevados, entonces puede ser más apropiado aplicar otros métodos. Satorra y Bentler (1994) propusieron realizar la estimación ML incorporando correcciones en el cálculo de χ 2 y de los errores típicos de estimación. Algunos programas (p. ej., MPLUS, LISREL) incorporan este método de estimación ML con correcciones en el cálculo de los índices de ajuste y de los errores típicos de los parámetros. Se denomina método ML Robusto o de media ajustada (MLM) y no requiere grandes muestras de sujetos (dependiendo de la complejidad del modelo, muestras de entre 200 y 500 sujetos pueden resultar apropiadas)10. Otra posibilidad es obtener medidas precisas de los errores típicos mediante procedimientos de Bootstrapping11, lo que puede hacerse en programas como AMOS.
Métodos para variables categóricas El análisis de la matriz de varianzas-covarianzas (o de la matriz de correlaciones de Pearson) puede resultar incorrecto si se analizan variables categóricas con pocas categorías de respuesta (p. ej., 4 o menos). Esta situación es muy frecuente en Psicología, donde no es extraño aplicar ítems que se puntúan dicotómicamente o tienen 3 categorías de respuesta. En ese caso, al realizar el AFC tradicional: 1. Se incumple el supuesto de relación lineal del modelo de AFC (ver ecuación [10.1]) ya que se producen relaciones no lineales entre los factores y los ítems; esto se debe a la presencia de un efecto suelo o de un efecto techo (p. ej., se produce un efecto techo cuando la mayoría de las personas escogen la máxima opción en el ítem). Estos efectos dan lugar a una subestimación de los parámetros y a la aparición de factores que no tienen un significado sustantivo. Por ejemplo, en ítems dicotómicos se producen factores relacionados con la dificultad de los ítems (ver Capítulo 6). 2. Las variables con pocas categorías de respuesta no siguen una distribución multivariada normal. Puesto que el método ML asume una distribución normal de las variables, al utilizarlo se obtendrán estadísticos de ajuste y errores típicos incorrectos. 10
También se ha propuesto un método asintóticamente libre de distribución: ADF/WLS. Desgraciadamente, aunque sea el método matemáticamente más correcto se requieren grandes muestras para que WLS funcione adecuadamente (i. e., más de 2.000 sujetos). Por lo tanto, su uso es desaconsejable. 11
El Bootstrapping es una técnica mediante la cual se simulan muestras “artificiales” similares a nuestra muestra empírica y se observa el comportamiento del estadístico a través de las muestras artificiales.
Capítulo 10. Análisis Factorial Confirmatorio
359
En estos casos puede resultar más adecuado el análisis de la matriz de correlaciones tetracóricas (en el caso de ítems dicotómicos) o de correlaciones policóricas (en el caso de ítems politómicos), tal como describimos en el capítulo 6. Existen distintos programas (p. ej., FACTOR, PRELIS, MPLUS) que permiten calcular estas matrices de correlaciones. Sin embargo, los procedimientos usuales de estimación (ML, MLM) no son aplicables a este tipo de matrices. Los dos procedimientos más utilizados son: 1. ULS. En ocasiones, la matriz de correlaciones tetracóricas/policóricas es “no definida positiva” (i. e., algunos autovalores son negativos). En este caso, ULS es uno de los pocos procedimientos que pueden aplicarse. 2. RWLS. Método de Mínimos Cuadrados Ponderados Robusto (Robust Weighted Least Squares). El método RWLS es una modificación del método WLS que parece funcionar adecuadamente incluso en muestras pequeñas (a partir de 200 sujetos, según Flora y Curran, 2004) y, por lo tanto, es la elección óptima si se trabaja con variables de dos o tres categorías. Este procedimiento está implementado en MPLUS. Si los datos son dicotómicos, otra posibilidad es aplicar la técnica del Análisis Factorial No Lineal, implementada en el programa NOHARM (ver capítulo 6), donde no se requiere el cálculo de la matriz de correlaciones tetracóricas y se pueden obtener ciertas medidas de ajuste, como RMR y el índice γ de Tanaka (ver apartado Índices de bondad de ajuste). Una última alternativa es crear “parcelas” de ítems (Bandalos y Finney, 2001; Nasser y Wisenbaker, 2003). A partir de los ítems se crean puntuaciones en subtests, de forma que la distribución en las nuevas variables se aproxime mejor a la normal. Sin embargo, esta estrategia genera el nuevo problema de cómo asignar los ítems a los subtests.
Ejemplo 10.5. Métodos de estimación Los resultados de asimetría y apuntamiento para los 7 ítems del Test de Cordialidad se muestran en la Tabla 10.9. Tabla 10.9. Estadísticos descriptivos (entre paréntesis los errores típicos) Variable
Media
Desv. típica
Asimetría
Apuntamiento
X1
4,026
0,843
–0,384 (0,115)
–0,644 (0,229)
X2
4,077
0,792
–0,379 (0,115)
–0,686 (0,229)
X3
4,097
0,851
–0,424 (0,115)
–0,819 (0,229)
X4
3,366
0,955
–0,055 (0,115)
–0,317 (0,229)
X5
3,454
0,938
–0,067 (0,115)
–0,067 (0,229)
X6 X7
3,606
1,034
–0,297 (0,115)
–0,410 (0,229)
3,910
0,905
–0,484 (0,115)
–0,229 (0,229)
Algunas variables tienen una distribución no normal pero los valores son lo suficientemente pequeños para utilizar el procedimiento de estimación ML. Dividiendo los índices
360 Medición en Ciencias Sociales y de la Salud por su error típico, se puede obtener un estadístico para contrastar la hipótesis nula de que el índice es 0 en la población. La distribución de tal estadístico es aproximadamente normal. Por ejemplo, –3,576 [–0,819 / 0,229] es menor que z0,05 (= –1,96), por tanto el apuntamiento de la distribución del ítem 3 se aleja significativamente del valor de apuntamiento de una distribución normal. En la mayor parte de los ítems los índices son estadísticamente significativos. La distribución de las puntuaciones en los ítems 1, 2, 3, 6 y 7 es asimétrica negativa (los sujetos se agrupan en las puntuaciones altas). La distribución de los ítems 1, 2 y 3 tiene apuntamiento negativo (la distribución es platicúrtica; es decir, aplanada). En la Tabla 10.10 se muestran los parámetros estimados con los distintos métodos. Tabla 10.10. Parámetros estimados (estandarizados) obtenidos con distintos procedimientos (MPLUS) ML/MLM1
ULS2
RWLS2
0,500 0,723 0,529 0,474 0,781 0,635 0,415 0,458
0,552 0,766 0,521 0,561 0,749 0,630 0,539 0,550
0,558 0,757 0,556 0,568 0,797 0,673 0,494 0,529
λ∗11 λ∗21 λ∗31 λ∗71 λ∗42 λ∗52 λ∗62 ρF1F2 1
Pearson; 2Policóricas
Los procedimientos ML y MLM proporcionan pesos similares, algo inferiores a los obtenidos cuando se analiza la matriz de correlaciones policóricas. Las diferencias entre procedimientos son pequeñas. Por orden de preferencia (de mayor a menor) deberán ser utilizados RWLS, ULS, MLM y ML.
Recomendaciones sobre los métodos de estimación En cuanto al método de estimación que resulta más apropiado, sintetizando los comentarios realizados, algunas recomendaciones a considerar son las siguientes (ver por ejemplo, Finney y DiStefano, 2006): 1. Si los ítems tienen 5 categorías o más y se cumple el supuesto de distribución multivariada normal, puede utilizarse el método ML con la matriz de varianzas-covarianzas. 2. Si los ítems tienen 5 categorías o más y no se cumple el supuesto de distribución multivariada normal, puede utilizarse MLM con la matriz de varianzas-covarianzas. 3. Si los ítems tienen 3 ó 4 categorías, puede utilizarse RWLS con la matriz de correlaciones policóricas. 4. En el caso de ítems dicotómicos, puede utilizarse RWLS con la matriz de correlaciones tetracóricas, puede realizarse el AF no lineal o aplicar un modelo multidimensional de TRI.
Capítulo 10. Análisis Factorial Confirmatorio
361
En los dos primeros puntos se señala la conveniencia de analizar la matriz de varianzascovarianzas. Cuando se analiza la matriz de correlaciones de Pearson pueden surgir algunos problemas (Cudeck, 1989; Joresckog, Sorbom y DuToit, 2003; p. 209): 1. Puede analizarse un modelo incorrecto si se incluyen restricciones en los parámetros más allá de las necesarias para fijar la métrica de los factores. Por ejemplo, en un modelo unidimensional, al analizar la matriz de varianzas-covarianzas, la restricción λ11 = λ21 indica que los ítems son tau-equivalentes. Esta restricción tiene poco sentido si se analiza la matriz de correlaciones ya que implicaría que los pesos estandarizados son iguales (λ∗11 = λ∗21); por tanto, no sólo que los ítems son tau-equivalentes sino también que sus varianzas son iguales. Otra situación en la que el análisis de las matrices de correlaciones puede dar lugar a resultados incorrectos es en la aplicación de los modelos multigrupo. 2. Cuando se utiliza la matriz de correlaciones de Pearson y el procedimiento ML, las estimaciones de los errores típicos de algunos estimadores son incorrectas en algunos programas (p. ej., LISREL). Esto se debe a que, en estos programas, se analiza la matriz de correlaciones como si fuera una matriz de varianzas-covarianzas. Los errores típicos se calculan con fórmulas incorrectas al no considerar las diferencias entre las distribuciones muestrales de los elementos de una matriz de varianzas-covarianzas y las correspondientes a una matriz de correlaciones (p. ej., los valores de la diagonal en la matriz de correlaciones son necesariamente 1).
Índices de bondad de ajuste Una vez estimados los parámetros debe contrastarse el grado en que el modelo se ajusta a los datos. El valor de los índices es sensible al tamaño de los residuos: cuanto mayores sean éstos, mayor será el desajuste. El número de índices de ajuste para modelos confirmatorios es inmenso, así como los trabajos que estudian su funcionamiento y el modo en que se ven afectados por el tamaño de la muestra y el incumplimiento de los supuestos de normalidad de los datos (p. ej., Hu y Bentler, 1995; 1998; 1999). En la Tabla 10.11 se muestra esquemáticamente una clasificación de los índices de ajuste y los criterios de interpretación de éstos (adaptada de Schreiber, Stage, King, Nora y Barlow, 2006). Como se muestra en la tabla es importante distinguir entre: 1. Índices inferenciales e índices descriptivos. Los primeros tienen una distribución estadística y nos permiten hacer inferencias sobre lo que ocurre en la población (p. ej., si se mantiene la hipótesis nula de que los residuos son cero en la población) mientras que los segundos no tienen distribución estadística conocida y, por tanto, sólo nos permiten concluir sobre lo que ocurre en la muestra. 2. Índices de ajuste absoluto e índices de ajuste comparativo. Los primeros nos sirven para establecer en qué grado el modelo propuesto reproduce los datos, mientras que en los segundos se sigue la estrategia de determinar el grado en que el modelo propuesto es mejor que otro modelo alternativo.
362 Medición en Ciencias Sociales y de la Salud Tabla 10.11. Clasificación de los Índices de ajuste Inferencial/ Descriptivo
Absoluto / comparativo
Índice de ajuste
Criterio de interpretación
Ajuste Absoluto
Estadístico X 2
Se mantiene el modelo si p ≥ 0,05; no se recomienda.
Ajuste comparativo
Comparación de modelos anidados (X 2)
Inferencial
Ajuste Absoluto
Descriptivo
Ajuste comparativo
Los modelos no difieren si p ≥ 0,05
X 2 / gl
Ratios menores que 2 ó 3 suelen considerarse indicadores de ajuste aceptable; no se recomienda.
RMR
Cuanto más pequeño, mejor ajuste; 0 indica ajuste perfecto; no se recomienda porque es difícil de interpretar.
SRMR
≤ 0,08, el modelo se ajusta.
RMSEA
≤ 0,06, el modelo se ajusta.
GFI / AGFI
≥ 0,95, el modelo se ajusta; no se recomienda.
NFI
≥ 0,95: el modelo se ajusta. Tiende a sobrestimarse en muestras pequeñas.
NNFI o TLI
≥ 0,95 (para variables continuas) o ≥ 0,96 (para variables categóricas): el modelo se ajusta
RNI CFI
≥ 0,95 (para variables continuas o para variables categóricas): el modelo se ajusta.
Métodos inferenciales: Ajuste absoluto Como en el AFE, pueden obtenerse indicadores estadísticos que nos informan del grado en que el modelo se ajusta a los datos. Por ejemplo, al utilizar el método ML se obtiene un estadístico χ 2:
χ 2 = ( N − 1) FML (S, S*)
[10.9]
Capítulo 10. Análisis Factorial Confirmatorio
363
donde N es el tamaño de la muestra. Si el modelo es correcto, está sobreidentificado y la muestra es suficientemente grande (p. ej., 250 personas), el estadístico de la ecuación [10.9] se distribuye asintóticamente según χ 2 con grados de libertad iguales a ((J (J + 1)) / 2) – t, donde J es el número de variables y t es el número de parámetros estimados. Con este estadístico se contrasta la hipótesis nula de que la función de discrepancia es 0 en la población (es decir, los datos se ajustan perfectamente al modelo m):
H 0 : FML ( Σ, Σ *m ) = 0 H1 :
FML ( Σ, Σ *m )
[10.10]
≠0
Un problema asociado al estadístico χ 2 es que, si la muestra es suficientemente grande, cualquier modelo resultará inadecuado, pues al aumentar el tamaño de la muestra se incrementa la potencia para detectar discrepancias estadísticamente significativas, pero irrelevantes desde el punto de vista práctico. Por el contrario, si la muestra es pequeña, grandes discrepancias pueden no resultar estadísticamente significativas. Por eso se dice que este estadístico es sensible al tamaño de la muestra. Por otro lado, cuando se utiliza ML se asume que las J variables siguen una distribución multivariada normal. Si esto no ocurre, el valor del estadístico estará sobrestimado. En ese caso, es preferible obtener el estadístico con la corrección propuesta por Satorra y Bentler (1994), incorporada en programas como LISREL o MPLUS, o el procedimiento de Bootstrapping, propuesto por Bollen y Stine (1990), incorporado en el programa AMOS.
Métodos inferenciales: Comparación de modelos anidados Cuando se utilizan modelos confirmatorios es frecuente contrastar distintos modelos (rivales) simultáneamente. En algunas ocasiones puede entenderse que un modelo está anidado dentro de otro (suele establecerse que es el mismo modelo pero con algunos parámetros fijados a valores concretos). Por ejemplo, son modelos anidados uno con dos factores correlacionados y otro que define que ambos factores son independientes (el segundo es el primero, fijando la correlación entre factores a 0). Cuando los modelos son anidados se pueden establecer comparaciones estadísticas del ajuste. La diferencia de los χ 2 de los dos modelos (χ 2dif = χ 2m1 – χ 2m2) se distribuye a su vez según χ 2 con grados de libertad iguales a la diferencia de grados de libertad de los dos modelos (gldif = glm1 – glm2)12.
Ejemplo 10.6. Medidas estadísticas de ajuste La Tabla 10.12 muestra los valores del estadístico χ 2, los grados de libertad (gl ) y el nivel crítico (p) para los modelos de las figuras 10.1 y 10.2. 12
El procedimiento descrito es válido para el método ML, si se utilizan los procedimientos MLM o RWLS la comparación de modelos anidados es algo más compleja (ver Brown, 2006; p. 385).
364 Medición en Ciencias Sociales y de la Salud Tabla 10.12. Medidas de ajuste para los modelos de uno y dos factores (ML, MPLUS) Modelo m1: Dos factores independientes Modelo m2: Dos factores correlacionados Comparación de Modelos m1 y m2
χ2
gl
p
97,62 52,56 45,06
14 13 1
< 0,001 < 0,001 < 0,001
Utilizando un nivel de significación α = 0,01, puede concluirse que ninguno de los dos modelos se ajusta a los datos (luego veremos que existen mejores índices de ajuste que llevan a conclusiones diferentes). Además, la diferencia de ajuste entre los dos modelos es estadísticamente significativa ( χ 21 = 45,06; p < 0,001), lo que indica que el ajuste del modelo de factores correlacionados es significativamente mejor que el ajuste del modelo de factores independientes.
Métodos descriptivos: Índices de ajuste absoluto Medidas basadas en el χ 2 Los métodos inferenciales tienen algunos problemas. Por un lado, el valor de χ 2 es sensible al tamaño de la muestra; por otro lado, si se añaden más parámetros (p. ej., covarianzas entre errores, inclusión de factores adicionales, etc.) los modelos más complejos (pero menos parsimoniosos) acabarán por ajustarse a los datos. Por ello, se han propuesto otras medidas basadas en χ 2 pero incorporando una penalización por la falta de parsimonia del modelo. De partida, los valores χ 2 de dos modelos diferentes no son directamente comparables, ya que en los modelos más complejos χ 2 tiene un valor esperado menor. Si el modelo se ajusta a los datos y la distribución de las variables es multivariada normal, el estadístico χ 2 de la ecuación [13.9] sigue la distribución χ 2 y, por tanto, su valor esperado y varianza a través de las muestras son:
E ( χ 2 ) = gl 2
Var ( χ ) = 2 gl
[10.11] [10.12]
Un modelo más complejo tiene un número de parámetros, t, mayor y, por tanto, un número menor de grados de libertad, gl, y un menor valor esperado. Una manera de penalizar por la complejidad del modelo es dividir el valor χ 2 del modelo por sus grados de libertad. Se ha propuesto utilizar el criterio χ 2 / gl < 2 ó χ 2 / gl < 5 como medida de ajuste. También se ha propuesto estandarizar el valor del χ 2: 2 χ est =
χ 2 − gl 2 gl
[10.13]
Capítulo 10. Análisis Factorial Confirmatorio
365
Estos indicadores están desaconsejados porque siguen siendo sensibles al tamaño de la muestra (es decir, que a mayor tamaño muestral es más fácil rechazar el modelo incluso si la discrepancia es pequeña).
El análisis de los residuos: RMR (o RMSR) y SRMR Los residuos se calculan sobre la matriz de varianzas-covarianzas. Para obtener RMR (o RMSR), se calcula la “Raíz del Promedio de los Residuos al Cuadrado” (en inglés, Root of Mean Squared Residual): L
RMR =
∑d
2 l
l
L
[10.14]
El problema de RMR es que no es directamente interpretable porque depende de la escala métrica de las variables, por ello se suele aplicar la fórmula anterior sobre los residuos obtenidos con la matriz de correlaciones. Se habla en ese caso del indicador “RMR estandarizado” o SRMR (Standardized Root of Mean Squared Residual). Un valor de 0,08 o menos indicaría buen ajuste a los datos (Hu y Bentler, 1998). Algunos programas de análisis factorial (p. ej., NOHARM) trabajan con la matriz de varianzas-covarianzas con datos dicotómicos. En este caso, el valor máximo de la covarianza está bien definido (es 0,25) y se suele interpretar RMR directamente. Algunos autores sugieren que si RMR es menor que 4 N el modelo ajusta (De Ayala, 2009; p. 299). Además de SRMR, es importante informar de las cantidades de los residuos siempre que sea posible, pues pueden detectar la presencia de “desajustes locales”. Algunos programas (p. ej., AMOS) proporcionan los residuos estandarizados normalizados, que permiten descubrir qué covarianzas muestran peor ajuste al modelo (si el residuo estandarizado es mayor que 1,96 o menor que –1,96, entonces es estadísticamente distinto de cero). Otros programas (p. ej., MPLUS) proporcionan también los denominados índices de modificación (ver apartado re-especificación del modelo). Estos indicadores delimitan cuál sería el decremento (mejora) en χ 2 si un parámetro fijado a un valor (p. ej., a 0) fuera libremente estimado. Los índices de modificación son estadísticos que se distribuyen según χ 2 con un grado de libertad. Podemos contrastar si las covarianzas entre errores son estadísticamente distintas de cero a partir de los índices de modificación. Si una covarianza entre errores es estadísticamente distinta de cero, esto indicaría que la relación entre las dos variables no está bien representada en el modelo.
Ejemplo 10.7. Medidas de ajuste (SRMR) En la Tabla 10.13 se muestran los valores de los estadísticos SRMR para los dos modelos de dos factores que venimos analizando.
366 Medición en Ciencias Sociales y de la Salud Tabla 10.13. Medidas de ajuste (SRMR)
Dos factores independientes Dos factores correlacionados
MPLUS1 (ML)
MPLUS1 (MLM)
MPLUS2 (RWLS)
0,130 0,062
0,116 0,056
0,151 0,068
1
Pearson; 2Policóricas
El modelo de dos factores correlacionados muestra mucho mejor ajuste. SRMR fue menor que 0,08 para los resultados obtenidos mediante todos los procedimientos de estimación. Dado que se trata de datos categóricos, el método de estimación más adecuado sería RWLS o, asumiendo variables continuas pero con distribución no normal, el MLM. Los residuos sin estandarizar se mostraron en la Tabla 10.7. Un problema de esos residuos es que se refieren a la matriz de varianzas-covarianzas. En la Tabla 10.14 se muestran los residuos para las correlaciones policóricas, más fáciles de interpretar. Tabla 10.14. Residuos según el modelo de la Figura 10.1 (por encima de la diagonal) y el modelo de la Figura 10.2 (por debajo de la diagonal) (método RWLS) X1 X1 X2 X3 X4 X5 X6 X7
–0,039 0,039 0,219 0,181 0,197 0,004
X2
X3
X4
X5
X6
X7
-0,035
0,080 0,074
–0,016 –0,051 –0,156
–0,018 –0,073 –0,091 0,042
0,051 0,127 0,008 –0,037 –0,085
–0,057 –0,028 –0,107 0,056 0,068 0,155
0,001 0,268 0,197 0,325 0,044
0,079 0,107 0,153 –0,087
0,000 0,000 0,295
0,000 0,270
0,303
Nota: en negrita, índices de modificación estadísticamente significativos (p < 0,05).
Para el modelo de factores independientes se obtienen residuos de las correlaciones más elevados que para el modelo de factores correlacionados. El patrón de residuos indica que los ítems 1, 2, 3 y 7 correlacionan más alto de lo esperado según el modelo teórico con los ítems 4, 5 y 6. En el modelo de factores correlacionados el número de residuos altos es menor, pero algunos son estadísticamente significativos.
RMSEA (Raiz del Error Cuadrático Medio) La Raíz del Error Cuadrático Medio de Aproximación o RMSEA (Root Mean Square Error of Approximation) es un índice propuesto por Steiger y Lind (1980) y se basa en obtener una “medida de discrepancia” εm a la que se denomina error de aproximación del modelo; por ejemplo, para ML:
ε m = FML (S, S *m ) − E ( FML (S, S *m ) | m = V ) =
χ m2 N −1
−
gl m N −1
=
χ m2 − gl m N −1
[10.15]
Capítulo 10. Análisis Factorial Confirmatorio
367
donde FML(S,S*m) es el valor de la función de discrepancia en la muestra y E(FML(S,S*m)|m = V) es el valor esperado de esa discrepancia si el modelo m fuera verdadero (V). Puesto que descontamos de FML(S,S*m) el valor esperado si el modelo m fuera verdadero, lo que queda, el error de aproximación, puede tomarse como una estimación del desajuste del modelo en la población:
ε m ≅ FML ( Σ, Σ *m )
[10.16]
Donde Σ es la matriz de varianzas-covarianzas poblacional y Σ∗ es la matriz de varianzascovarianzas reproducida según los parámetros estimados en la muestra. Se puede hacer una corrección para que el valor εm nunca sea negativo:
εˆm = max(ε m ,0)
[10.17]
Pues bien, RMSEA se obtiene dividiendo el error de aproximación por los grados de libertad del modelo (para penalizar el modelo según su complejidad, ya que modelos con más parámetros tienen menos grados de libertad) y calculando la raíz (pues la función de discrepancia es una suma ponderada de productos de discrepancias): RMSEA =
εˆm gl m
=
χ m2 − gl m gl m ( N − 1)
[10.18]
Valores por debajo de 0,05 indican buen ajuste del modelo a los datos, valores entre 0,05 y 0,08 indican ajuste aceptable, valores entre 0,08 y 0,10 indican ajuste marginalmente aceptable y valores por encima de 0,10 indican mal ajuste. Si bien no hay que tomar esa clasificación como las “Tablas de la Ley”, estas guías pueden servir de orientación para tomar una decisión sobre el ajuste del modelo. Hu y Bentler (1999) consideran como aceptables valores de RMSEA iguales o inferiores a 0,06. Este índice tiene una distribución estadística conocida (McCallum, Browne y Sugawara, 1996). Por tanto, se puede calcular un intervalo de confianza para RMSEA a partir del cual tomar las decisiones: para un buen ajuste, el valor inferior del intervalo debería ser menor que 0,05 y el superior más pequeño de 0,08. También es posible contrastar si puede mantenerse la hipótesis nula de que RMSEA es menor que 0,05 en la población. Joreskog y Sorbom (1996) sugieren que el valor p de ese contraste debe ser mayor que 0,5. Gorsuch (2003) recomienda el uso de RMSEA como medida descriptiva del desajuste, aunque se sabe que funciona peor en muestras de menor tamaño (Chen, Curran y cols., 2008).
Ejemplo 10.8. Medidas de ajuste (RMSEA) Los valores de RMSEA para los modelos de las figuras 10.1 y 10.2 se muestran en la Tabla 10.15. Atendiendo al indicador más correcto (asociado a la estimación MPLUS-
368 Medición en Ciencias Sociales y de la Salud RWLS), los datos no se ajustan a ninguno de los modelos. Sin embargo, quizá la muestra es demasiado pequeña (N = 454) para aplicar el método RWLS. Atendiendo a los procedimientos que proporcionan estadísticos robustos en ausencia de distribución normal de las variables (Bootstrapping y MLM), el modelo de factores correlacionados proporciona un ajuste aceptable. Tabla 10.15. Medidas de ajuste (RMSEA) AMOS1 (bootstrap)
MPLUS1 (ML)
MPLUS1 (MLM)
MPLUS2 (RWLS)
0,108 0,076
0,115 0,082
0,109 0,076
0,213 0,114
Dos factores independientes Dos factores correlacionados 1
Pearson; 2Policóricas
GFI, AGFI y el índice γULS de Tanaka Conocida la función de discrepancia (ecuación [10.8]): L
L
l
l'
∑∑ w
F (S * , S) =
[10.19]
ll ' d l d l '
(donde d1 = S11 – S*11, d2 = S12 – S*12, d3 = S13 – S*13,… y dL = SJJ – S*JJ) definamos dos vectores v y v* tales que sus elementos son los elementos de la matriz de varianzascovarianzas observada {v1 = S11, v2 = S12, v3 = S13,… y vL = SJJ} y reproducida {v*1 = S*11, v*2 = S*12, v*3 = S*13,… y v*L = S*JJ}. Podemos establecer una función de discrepancia como la siguiente: L
L
l
l'
∑∑ w
ll ' vl vl '
L
L
l
l'
∑∑ w
=
* * ll ' vl vl '
+
L
L
l
l'
∑∑ w
ll ' d l d l '
[10.20]
Tanaka y Huba (1985) derivaron el siguiente índice de ajuste (donde los pesos w son los pesos para la función de discrepancia):
γ = 1−
L
L
l L
l' L
l
l'
∑∑ w
ll ' d l d l '
∑∑ w
ll ' vl vl '
=
L
L
l L
l' L
l
l'
∑∑ w
* * ll ' vl vl '
∑∑ w
[10.21]
ll ' vl vl '
Por lo tanto, el índice γ es una medida de la cantidad relativa de las varianzas y covarianzas en S pronosticadas por el modelo. Puede tomar valores entre 0 y 1. Valores por enci-
Capítulo 10. Análisis Factorial Confirmatorio
369
ma de 0,9 y próximos a 1 son recomendables. Cuando se utilizan los pesos w de la función de discrepancia del método ML, el indicador γ coincide con el índice GFI (Goodness of Fit Index) propuesto por Joreskog y Sorbom (1989); matricialmente (ver por ejemplo, Mulaik, James, Van Alstine et al., 1989), GFI puede expresarse como:
GFI = γ ML = 1 −
tr (S *−1S − I ) tr (S *−1S) 2
[10.22]
El programa NOHARM incorpora γULS que, dada la función de discrepancia para el método ULS, se simplifica a: L
γ ULS = 1 −
∑d l L
∑
2 l
[10.23]
vl2
l
Un problema de GFI (y de γULS) es que no se penalizan los modelos más complejos. Para evitar que se pueda mejorar el ajuste haciendo el modelo más complejo (i. e., añadiendo parámetros) puede obtenerse el índice AGFI (Adjusted Goodness of Fit Index) aplicando una corrección que introduce una penalización según el número de parámetros obtenido (análoga a la que se aplica en los modelos de Regresión Múltiple al calcular el Coeficiente de Correlación Múltiple al cuadrado):
AGFI = 1 −
(J ( J + 1)) 2 (1 − GFI ) gl
[10.24]
donde el término corrector, (J (J + 1) / 2) / gl, es un número mayor que 1 (observe que el número de grados de libertad no puede ser mayor que el número de elementos de la matriz de varianzas-covarianzas). Por tanto, AGFI < GFI. Actualmente debe indicarse que GFI y AGFI tienen sólo valor histórico, pues existe consenso en que no son los mejores indicadores de ajuste. GFI no tiene en cuenta la parsimonia del modelo. Además, los estudios de simulación han mostrado que tanto GFI como AGFI se encuentran entre los indicadores más dependientes del tamaño de la muestra (su valor tiende a incrementarse al aumentar el número de evaluados).
Métodos descriptivos: Índices de ajuste comparativo Mediante los índices de ajuste comparativo se estudia si el ajuste del modelo establecido es superior al obtenido con el ajuste de un modelo de comparación o de línea base. Generalmente, se escoge como modelo de comparación el modelo de independencia. En este modelo se asume que no hay factores comunes (i. e., toda la varianza de las variables se debe a factores únicos):
370 Medición en Ciencias Sociales y de la Salud X j = Ej
[10.25]
Se escoge el modelo de independencia como modelo de línea base porque es uno de los más simples que se puede aplicar a cualquier conjunto de datos y porque no responde a un modelo teórico concreto. Los datos raramente se ajustarán a este modelo (si lo hicieran, esto querría decir que no es adecuado realizar un análisis factorial con nuestros datos). Lo que nos cuestionamos no es si un modelo es superior al modelo de independencia, sino en qué grado lo es. Existen distintos índices para cuantificar la respuesta.
NFI (Normed Fit Index) Sean F(S,S*b) y F(S,S*m) las funciones de discrepancia del modelo base (b) y de nuestro modelo (m). El índice NFI se obtiene como:
NFI = 1 −
F (S, S *m ) F (S, S *b )
= 1−
χ m2 χ b2
[10.26]
Puesto que, en general, χ 2b > χ 2m, la razón χ 2m / χ 2b es proporcional al grado en que el modelo m es peor que el modelo b. Los valores de NFI se encuentran entre 0 [F(S,S*m) = F(S,S*b)], y 1 [F(S,S*m) = 0]. Se entiende que el modelo m debe ser mucho mejor que el modelo de independencia, por lo que suelen tomarse como indicadores de buen ajuste valores superiores a 0,95; se considera un ajuste aceptable si NFI se encuentra entre 0,90 y 0,95. Este indicador tiene varios problemas: 1. Se puede mejorar el ajuste del modelo haciéndolo más complejo (i. e., añadiendo parámetros). Este índice no penaliza la complejidad del modelo y esto puede ir en contra del criterio de parsimonia. 2. El valor del NFI será menor que 1 incluso si el modelo se ajustara a los datos en la población. Esto se debe a que χ 2m nunca será cero en una muestra, pues se producirán discrepancias debidas a la variación muestral (recuerde que el valor esperado de χ 2m si el modelo m fuera correcto son los grados de libertad del modelo, glm). 3. En estudios de simulación se encuentra que su funcionamiento no es adecuado en muestras menores de 200 sujetos (Hu y Bentler, 1995).
NNFI (Non-Normed Fit Index) o TLI Como hemos comentando, modelos más complejos (con más parámetros) tienen un valor esperado para χ 2 menor. Esto es un problema importante, porque podemos establecer modelos con un χ 2 menor, simplemente mediante el establecimiento de más parámetros. Estos modelos no resultan parsimoniosos y los resultados sobre un buen ajuste no suelen replicarse en nuevas muestras. Una manera de corregir este defecto del indicador NFI es trabajar con el porcentaje de incremento que supone χ 2 en cada modelo en relación a su
Capítulo 10. Análisis Factorial Confirmatorio
371
valor esperado [(χ 2 – gl)/gl]. Tucker y Lewis (1973) propusieron la siguiente modificación de NFI:
χ m2 − gl m NNFI = 1 −
gl m
χ b2
− glb glb
χ b2 =
glb
−
χ b2
glb
χ m2 gl m
[10.27]
−1
A este indicador también se le denomina TLI (en honor a los autores que lo propusieron). Se interpreta de la misma manera que NFI. Si el modelo se ajusta a los datos, el valor esperado de (χ 2m – glm)/glm es 0. Los valores de TLI se encuentran, usualmente, entre 0 [(χ 2b/glb) = (χ 2m/glm)] y 1 [(χ 2m/glm) = 1]. De nuevo, el modelo propuesto debe ser mucho mejor que el modelo de independencia, por lo que suelen tomarse como indicadores de buen ajuste valores superiores a 0,95, y de ajuste aceptable, valores entre 0,90 y 0,95. Es uno de los índices menos afectado por el tamaño muestral (Marsh, Balla y McDonald, 1988). Si los factores son independientes, TLI puede dar resultados adecuados con muestras de 200 sujetos. Si los factores están relacionados, pueden requerirse muestras más grandes (Hu y Bentler, 1995).
RNI (Relative Non-Centrality Index) y CFI (Comparative Fit Index) El índice CFI se basa en la comparación del error de aproximación del modelo propuesto y del modelo de independencia. El error de aproximación del modelo m es:
εm =
χ m2 − gl m I −1
y el error de aproximación del modelo de independencia es:
εb =
χ b2 − glb I −1
A partir de estos errores de aproximación puede calcularse el RNI o índice de no centralidad relativa (observe que la lógica es similar a la de NFI) (McDonald y Marsh, 1990):
RNI = 1 −
εm χ 2 − gl m = 1 − m2 εb χ b − glb
[10.28]
Bentler (1990) propuso el indicador CFI (índice de ajuste comparativo), estableciendo algunas correcciones sobre la fórmula anterior para que no se obtengan valores negativos ni mayores que 1:
372 Medición en Ciencias Sociales y de la Salud CFI = 1 −
max( χ m2 − gl m ,0)
[10.29]
max( χ m2 − gl m , χ b2 − glb )
Si el valor de RNI es menor que 1, siempre es mayor que TLI13. Suele interpretarse como los indicadores anteriores: valores mayores que 0,9 indican un ajuste aceptable. El índice CFI, junto con RMSEA, es uno de los indicadores de ajuste más usados (McDonald y Ho, 2002). Una ventaja de CFI es que resulta muy recomendable para muestras pequeñas (mejor que TLI). Sin embargo, TLI penaliza mejor que CFI los modelos no parsimoniosos. TLI (o NNFI) es un indicador muy parecido a RNI, pero introduce una penalización por la complejidad del modelo:
χ m2 − gl m NNFI = 1 −
gl m
χ b2
− glb
= 1−
( (χ
) − gl )
glb χ m2 − gl m gl m
2 b
[10.30]
b
glb donde la ratio glb/glm será mayor cuanto más complejo sea el modelo. Por lo tanto, podemos decir que el TLI y el CFI se complementan.
Ejemplo 10.9. Medidas de ajuste (TLI, CFI) Los valores TLI y CFI (ver Tabla 10.16) indican que el modelo de factores independientes no se ajusta a los datos (TLI, CFI < 0,9) y que el ajuste del modelo de dos factores correlacionados es aceptable, aunque puede ser mejorado (TLI ≅ 0,9; CFI > 0,9). Tabla 10.16. Medidas de ajuste (TLI, CFI)
Dos factores independientes Dos factores correlacionados 1 Pearson; 2Policóricas
13
MPLUS1 (ML) TLI CFI
MPLUS1 (MLM) TLI CFI
MPLUS2 (RWLS) TLI CFI
0,740
0,827
0,739
0,826
0,646
0,755
0,867
0,918
0,872
0,921
0,898
0,922
Ya que el modelo de independencia es el más simple posible y por tanto la ratio glb/glm siempre es un número mayor que 1 (véase la ecuación [10.30]).
Capítulo 10. Análisis Factorial Confirmatorio
373
Recomendaciones sobre los índices de ajuste Es recomendable el uso combinado de varios de los anteriores indicadores (p. ej., SRMR y TLI). También parece fundamental estudiar el desajuste local de los modelos mediante la inspección de los residuos. Existe consenso en no utilizar ciertos indicadores de ajuste (p. ej., GFI, AGFI) y otros muchos (PNFI, PGFI, IFI, ECVI, AIC,…) cuya utilización no es tan frecuente. Hemos optado por describir los índices más utilizados y los que dependen menos del tamaño muestral, que son TLI, RMSEA y CFI14. Estos tres indicadores pueden considerarse complementarios. En resumen: 1. TLI penaliza mejor que CFI los modelos complejos. 2. RMSEA y TLI pueden no resultar adecuados en muestras inferiores a 250 sujetos, ya que hay una cierta tendencia a que se rechace el modelo verdadero. 3. TLI y CFI dependen del tamaño de las correlaciones entre las variables analizadas: si el promedio de las correlaciones no es alto, TLI y CFI tampoco lo serán. 4. En cuanto a SRMR, Hu y Bentler (1999) recomiendan su uso combinado con otros indicadores (TLI > 0,95 y SRMR < 0,09 o RMSEA < 0,06 y SRMR < 0,09). Para finalizar, deben tenerse en cuenta ciertas consideraciones respecto al estudio del ajuste de un modelo: 1. Las medidas de ajuste estadístico (p. ej., Chi cuadrado), a pesar de su elegancia matemática, suelen ser demasiado restrictivas (i. e., ningún modelo se ajustará exactamente a los datos si la muestra es suficientemente grande). 2. Debe distinguirse entre la discrepancia en la muestra (que incluye el error de muestreo y el error de aproximación)15 y la discrepancia si ésta se pudiera calcular en la población (que incluye solo el error de aproximación). Haciendo más complejo el modelo siempre se mejora su ajuste a los datos de una muestra específica; sin embargo, es posible que estemos tratando un error de muestreo como si fuera un error de aproximación, y por tanto que esas mejoras no se repliquen en otras muestras. Por ello, es importante considerar la parsimonia del modelo y penalizar en cierto grado su complejidad. RMSEA, TLI y CFI parecen indicadores adecuados en este aspecto, pues todos son función del error de aproximación εm. Además, TLI y RMSEA incorporan una penalización adicional por la complejidad del modelo. 3. Los puntos de corte para los índices de ajuste siempre tienen un cierto grado de arbitrariedad (Lance, Butts y Michels, 2006; Marsh, Hau y Wen, 2004) por lo que siempre resulta necesario estudiar detenidamente los desajustes “locales” del modelo (p. ej., mediante una inspección de los residuos). 14
NFI es poco utilizado, pero lo hemos introducido porque facilita la explicación de los restantes índices. El índice γULS de Tanaka se describe porque se incluye en uno de los programas de libre distribución para AFC con variables dicotómicas (NOHARM). Sin embargo, dado que es equivalente a GFI, depende del tamaño de la muestra (está negativamente sesgado en muestras pequeñas) y no penaliza la complejidad del modelo. 15
Recuerde que el error de muestreo es el error que se produce porque las correlaciones en la muestra diferirán de las correlaciones en la población simplemente por variación muestral. Esto ocurre aunque nuestro modelo sea el correcto en la población. El error de aproximación es el error que se produce, al trabajar en la población, si nuestro modelo no es correcto.
374 Medición en Ciencias Sociales y de la Salud
Re-especificación del modelo Es muy frecuente que los datos no se ajusten al modelo teórico que se propone inicialmente. Este desajuste puede manifestarse en varios aspectos: 1. El modelo ajusta, pero algunos pesos no son estadísticamente significativos. Esto indica que algunas relaciones que se establecen en el modelo no son correctas. Para saber si un parámetro difiere estadísticamente de cero, se divide la estimación del parámetro por su error típico y se obtiene una “razón crítica” que se distribuye de forma aproximadamente normal. Los valores deberían ser superiores en valor absoluto a 2.0 para que interpretemos que el valor es mayor que 0 de forma estadísticamente significativa. Si es menor que ese valor, probablemente el parámetro debería ser fijado a 0. 2. Existen parámetros que se han fijado a cero, pero deberían ser estimados. Los programas proporcionan indicadores que delimitan cuál sería el decremento (mejora) en el índice de ajuste si el parámetro fuera libremente estimado. Esos indicadores son los índices de modificación (MI) que se distribuyen según χ 2 con un grado de libertad. Los parámetros con mayor índice de modificación son candidatos a estimarse libremente. Los modelos de AFC pueden ser modificados hasta que logremos un ajuste aceptable. Sin embargo, si actuamos de esta manera estaremos utilizando un modelo confirmatorio de manera exploratoria. Si se realizan modificaciones en el modelo, lo correcto es contrastarlas en una muestra distinta, para garantizar la replicabilidad de los resultados. En realidad, las modificaciones sólo se deberían utilizar si desde el punto de vista teórico o racional son defendibles (p. ej., los ítems tienen un modo de redacción muy similar). De lo contrario, nuestro modelo será menos susceptible de ser replicado en una validacion cruzada. Este riesgo es especialmente importante si el tamaño muestral es pequeño (MacCallum, Roznowski y Necowitz, 1992).
Ejemplo 10.10. Índices de modificación En el modelo de la Figura 10.1 todos los parámetros son estadísticamente significativos (ver Tabla 10.2). Los mayores índices de modificación (MI) aparecen en la Tabla 10.19. Fijándonos en los resultados de la última columna, parece que los pesos de los ítems 4 y 6 en el factor 1 (o de los ítem 3 y 7 en el factor 2) pueden ser distintos de 0. También podría haber correlaciones entre los errores de los ítems 4 y 5 (+), del ítem 3 con los ítems 1 (+), 2 (+), 4 (–) y 7 (–) o del ítem 6 con los ítems 2 (+), 5 (–) y 7 (+)16. Recordemos que una correlación positiva entre los errores de dos ítems indica que la relación entre los ítems es mayor de la que se esperaría a partir del modelo; puede deberse a que ambos ítems comparten algo específico (p. ej., el modo de estar redactados).
16
El símbolo entre paréntesis (+ o –) indica el signo del residuo.
Capítulo 10. Análisis Factorial Confirmatorio
375
Tabla 10.19. Índices de Modificación
x4 x6 x3 x7 e1 e2 e2 e3 e3 e4 e5 e6
MI (ML-MPLUS)
MI (MLM-MPLUS)
MI (RWLS-MPLUS)
5,54 17,82 11,83 14,39 6,95 6,80 6,85 8,34 7,92 17,83 5,54 4,26
5,01 16,11 10,69 13,01 6,29 6,15 6,19 7,54 7,16 16,12 5,01 3,85
10,97 30,01 18,31 23,39 8,54 9,57 9,72 14,41 6,70 29,99 10,99 18,08
F1 F1 F2 F2 e3 e3 e6 e4 e7 e5 e6 e7
↔ ↔ ↔ ↔ ↔ ↔ ↔ ↔
*En negrita, se señalan los MI estadísticamente significativos (p < 0,01)
En nuestro ejemplo, el mayor MI corresponde al ítem 6 (Dejo que los demás usen mis cosas). Parece que las respuestas en ese ítem se relacionan con el Factor 1 (Trato a los demás). Además, obtiene varios residuos positivos con los ítems de ese Factor (los ítems 2 y 7). Esto podría deberse a que el ítem 6 es también, en cierto grado, un indicador del Factor 1 (Trato a los demás) y no sólo del Factor 2 (Confianza en los demás). Una posible modificación del modelo sería incluir una flecha del Factor 2 a ese ítem (ver Figura 10.3). Figura 10.3. Diagrama de senderos para un modelo de factores correlacionados (con una modificación del modelo) E1
E2
E3
E4
E5
E6
1
1
1
1
1
1
X1
X2
X3
X4
λ11
λ21 λ31 λ61
λ71
X5
X6
E7 1
X7
λ42 λ52 λ62 F2
F1
σF1F2 Al incluir esta modificación cambiarían las estimaciones de los parámetros y los índices de ajuste (ver Tabla 10.20), mejorando sustancialmente.
376 Medición en Ciencias Sociales y de la Salud Tabla 10.20. Medidas de ajuste para el modelo original y el modificado (método MLM) Modelo de dos factores correlacionados Modelo de dos factores correlacionados modificado
TLI
CFI
SRMR
RMSEA
0,872
0,921
0,056
0,076
0,923
0,956
0,043
0,059
Los parámetros obtenidos se muestran en la Tabla 10.21. Ahora, el peso estandarizado del ítem 6 en el factor 1 es 0,266, estadísticamente significativo (9,827 > 1,96). Tabla 10.21. Parámetros estimados en el modelo de la Figura 10.3 (Programa MPLUS, método MLM) No estandarizados
Parámetro estimado
Parámetro estimado
Razón crítica
Denominación
λ11 λ21 λ31 λ61 λ71 λ42 λ52 λ62
0,415 0,578 0,443 0,275 0,433 0,791 0,578 0,277
9,062 13,574 9,827 4,306 8,770 11,572 8,819 3,710
λ∗11 λ∗21 λ∗31 λ∗61 λ∗71 λ∗42 λ∗52 λ∗62
0,493 0,730 0,521 0,266 0,479 0,829 0,617 0,268
σF1F2
0,400
7,094
ρF1F2
0,400
Denominación Pesos X1 F1 X2 F1 X3 F1 X6 F1 X7 F1 X4 F2 X5 F2 X6 F2 Covarianzas: F1 ↔ F2
Estandarizados
Modelos confirmatorios multigrupo Existen objetivos de investigación donde es preciso comprobar la invarianza de la estructura factorial de una prueba en distintas muestras (p. ej., cuando se adapta una prueba a otra cultura, algo que trataremos en el capítulo 13) o comparar el rendimiento de dos o más grupos en los rasgos (p. ej., para analizar los efectos de una intervención a nivel latente, tal como vimos en el capítulo 9). En estas situaciones puede aplicarse un modelo de AFC multigrupo para contrastar las oportunas hipótesis. Para varios grupos, el modelo factorial se expresa como:
X j(g ) = vg +
M
∑λ
jm ( g ) Fm ( g )
+ E j(g )
[10.31]
m =1
donde el subíndice g hace referencia al grupo y vg es la intersección que permite modelar las medias de los ítems. En términos matriciales, las variables se distribuyen de la siguiente forma:
Capítulo 10. Análisis Factorial Confirmatorio
377
Fg ~ MVN (α g , Φ g )
[10.32]
E g ~ MVN (0, Ψ g )
[10.33]
X g ~ MVN ( X g , S g )
[10.34]
donde MVN(.) indica la distribución multivariada normal; el primer término del paréntesis es el vector de medias y el segundo término es la matriz de varianzas-covarianzas entre las variables. Φg es la matriz de varianzas-covarianzas entre los factores comunes, Ψg es la matriz de varianzas-covarianzas entre los factores únicos y Sg es la matriz de varianzas covarianzas entre los ítems. αg es el vector de medias de los factores comunes y X g es el vector de medias de los ítems. Las medias, varianzas y covarianzas de los ítems se definen a partir de las medias, varianzas y covarianzas de las variables latentes:
Xg = v g + Λ gα g Sg =
Λ g Φ g Λ 'g
+ Ψg
[10.35] [10.36]
En estudios sobre evidencias de validez se analiza la invarianza de estos parámetros a través de los grupos (ver Tabla 10.22). Básicamente, se trata de comprobar que las puntuaciones en los ítems tienen el mismo significado, es decir, que no están sesgadas (ausencia de DIF17). Existen distintos grados de invarianza factorial: 1. Invarianza de la configuración. Se trata de contrastar en primer lugar, mediante las oportunos indicadores de bondad de ajuste, que la estructura propuesta (qué ítems miden qué rasgo) es similar en ambos grupos. Se propone por tanto comprobar inicialmente que el modelo propuesto se ajusta por separado a ambos tipos de datos, aunque los pesos de los ítems en las variables latentes puedan diferir. Para ello, deben obtenerse indicadores descriptivos de ajuste (por ejemplo, SRMR, RMSEA o CFI) en cada una de las dos situaciones. 2. Invarianza métrica de las medidas. La presencia de DIF se estudia proponiendo diferentes modelos anidados: en primer lugar se establece un modelo donde no se asume la invarianza a través de los dos conjuntos de datos (modelo 1, que es el establecido en el estudio de invarianza de la configuración); en segundo lugar se establece un modelo, anidado al primero, en el que se asume la invarianza de los pesos (modelo 2, para la detección del DIF no uniforme). Si las diferencias entre χ 2 de los modelos son no significativas podemos concluir que los pesos son iguales a través de los grupos (Λ1 = Λ2 = Λ). Se habla entonces de que se cumple la invarianza métrica. En este caso, puede decirse que los factores significan lo mismo en los grupos y es legítimo comparar a los grupos en las varianzas (covarianzas) de los factores latentes incluidos en el modelo. 3. Invarianza escalar de las medidas. En ocasiones se desea contrastar si las diferencias de medias entre los grupos en las variables se explican por las diferencias de medias en 17
Algunos procedimientos alternativos para la detección del DIF se estudiarán más detalladamente en el capítulo 13.
378 Medición en Ciencias Sociales y de la Salud los factores latentes. Para ello se estudia el ajuste de un modelo (modelo 3) en el que no hay diferencias en las intersecciones (v1 = v2 = v) pero puede haberlas en las medias de los factores (α1 = α2). El modelo 3 se anida en el modelo 2 y sirve para la detección del DIF uniforme. Si no hay diferencias estadísticas entre ambos modelos, se hablaría de invarianza escalar y se consideraría probada la invarianza de las medidas, en el sentido de no producirse DIF de ningún tipo. Sólo después de estas comprobaciones sería apropiado comparar las medias de los grupos en los factores. 4. Invarianza estricta. Si adicionalmente las varianzas únicas son iguales (Ψ1 = Ψ2 = Ψ), se habla de invarianza estricta. Es el mayor grado de invarianza que se puede encontrar. Al fijar las varianzas únicas a ser iguales puede incrementarse la potencia para detectar diferencias en las medias entre los grupos (Lubke y Dolan, 2003). Diferencias en las varianzas de los factores (Φ) y en las varianzas únicas (Ψ) implicarían diferencias de precisión en las medidas a través de los grupos, lo que no resulta imprescindible para poder compararlos. Tabla 10.22. Grados de invarianza factorial Invarianza
Modelo
Estructura de varianzas-covarianzas
Estructura de medias
Modelos para el estudio de la invarianza de la estructura de varianzas-covarianzas Invarianza de configuración 18,19
1
Invarianza débil o invarianza métrica 18,19
2
S 1 = Λ 1Φ 1 Λ 1' + Ψ 1
X1 = v 1
Λ 2 Φ 2 Λ '2
+ Ψ2
X2 = v 2
S1 = Λ Φ1 Λ ' + Ψ 1
X1 = v 1
S2 = Λ Φ2Λ' + Ψ2
X2 = v 2
S2 =
Modelos para el estudio de la invarianza de la estructura de medias Invarianza fuerte o Invarianza escalar 20
Invarianza estricta
20
3
4
S1 = Λ Φ1 Λ ' + Ψ 1 '
X1 = v
S2 = Λ Φ2Λ + Ψ2
X 2 = v + Λα 2
S1 = Λ Φ1 Λ ' + Ψ
X1 = v
S2 = Λ Φ2Λ' + Ψ
X 2 = v + Λα 2
18
Para que el modelo esté identificado se fijan m pesos λ a 1 en ambos grupos (uno por factor). Esos ítems hacen de “variables de anclaje”.
19
Para que el modelo esté identificado se fija α1 = α2 = 0.
20
Para que el modelo esté identificado se fija α1 = 0.
Capítulo 10. Análisis Factorial Confirmatorio
379
Recomendaciones sobre los tamaños muestrales Lo dicho para el AFE puede aplicarse a los modelos confirmatorios: el tamaño de los pesos y de las correlaciones entre factores, el tamaño de la muestra y el número de indicadores por factor son variables relevantes que determinan la calidad de las estimaciones obtenidas mediante AFC (Jackson, 2001). Este tipo de variables también tienen efectos en el funcionamiento de los índices de ajuste. Por ejemplo, el número de indicadores por factor y la fiabilidad de las medidas influyen en SRMR (a mayor número de indicadores y mayor fiabilidad, menor será el SRMR). El tamaño muestral influye en el funcionamiento de los indicadores SRMR, RMSEA, NFI, TLI y CFI, incrementándose el rechazo de los modelos correctos en muestras pequeñas (p. ej., menos de 200 sujetos). El NFI muestra el peor comportamiento y el CFI el mejor. El tamaño muestral también interacciona con la fiabilidad de las medidas en el caso de los indicadores TLI, CFI y NFI (cuando la fiabilidad es alta, su funcionamiento es adecuado y el tamaño muestral tiene un efecto menor). Como en el AFE, la ratio entre el tamaño de la muestra y el número de parámetros estimados no parece ser un factor determinante. El tamaño de la muestra es muy relevante al trabajar con modelos de AFC, ya que la potencia para detectar si un modelo es incorrecto es menor si la muestra es pequeña. Además, en muestras pequeñas es más probable que algunas características del modelo no se repliquen en nuevas muestras, especialmente si se ha seguido alguna estrategia de modificación “ad hoc” para conseguir el ajuste del modelo.
Malos usos de los modelos de AFC Aunque los modelos de AFC constituyen una herramienta estadística poderosa, su uso no está exento de riesgos, especialmente si se utilizan de forma inadecuada. Algunos de estos riesgos son: 1. Capitalización del azar. En un modelo confirmatorio debe establecerse a priori el modelo teórico. En ocasiones, los datos en la muestra no se ajustan al modelo. En ese caso, el investigador puede sentirse tentado de establecer las modificaciones necesarias (del modelo) hasta que se obtenga un buen ajuste. Estas modificaciones ad hoc, que en cualquier caso deberían ser siempre informadas, facilitan que se produzca un ajuste apropiado para los datos muestrales concretos que se están analizando; se produce un fenómeno de “capitalización del azar”. Al aplicar el modelo ad hoc a los datos de otra muestra, se obtendrán peores niveles de ajuste. Por lo tanto, en ausencia de réplica con otros datos, las modificaciones llevarán a un modelo, resultado de modificar el inicialmente propuesto, que aparentará ser mejor de lo que es. 2. Los modelos de AFC pueden resultar excesivamente exigentes y llevar a conclusiones equivocadas. Por ejemplo, en un test como el que hemos analizado en este capítulo (el test de Cordialidad) puede resultar irrealista que cada ítem mida un único factor y sature exactamente cero en los demás. Si recordamos los pesos estimados en el AFE (ver Tabla 10.3), aunque cada ítem satura principalmente en un factor, también tiene pesos superiores a 0,1 en el otro factor. A veces es difícil anticipar estos “pequeños efectos”
380 Medición en Ciencias Sociales y de la Salud en un modelo de AFC (p. ej., en nuestro caso resulta necesario incluir un peso del ítem 6 en el factor 1, aunque su relación con el factor es bastante baja, ya que λ*61 = 0,266). 3. Algunos de los requerimientos para una correcta aplicación de estos modelos no están bien resueltos y son objeto de investigación en la actualidad. Por ejemplo, como hemos visto, existen infinidad de indicadores de ajuste. Las conclusiones sobre el ajuste que se derivan de cada indicador pueden ser distintas y, por tanto, existe riesgo de que cada investigador escoja aquellos que más le convengan. Por ello conviene que se informe siempre de los mismos indicadores (p. ej., RMSEA, SRMR, CFI y TLI). Además, los puntos de corte establecidos para decidir un buen ajuste tienen limitaciones, pues surgen a partir de estudios de simulación cuyas condiciones pueden no ser generalizables21. Por ello los indicadores de ajuste global deberían siempre ser complementados con el análisis de la matriz de residuos, lo que puede ayudar a descubrir desajustes locales.
Apéndice La matriz de varianzas-covarianzas asintótica Matricialmente, la función de discrepancia puede expresarse como:
FML (S, S * ) = d' Wd Donde W = V–1 es la inversa de la matriz de varianzas-covarianzas en el muestreo de los elementos de S (ver Batista y Coenders, 2000) o matriz de varianzas-covarianzas asíntótica; V es una matriz de dimensión L × L donde cada elemento representa cómo varían (y covarían), a través de las muestras, los elementos de S. Por ejemplo, el elemento V11 indicaría la varianza del elemento S11 a través de las muestras; el elemento V12 sería la covarianza entre los elementos S11 y S12 a través de las muestras, etc. Los pesos wll’ de la ecuación [10.8] son función de los elementos de la matriz V. Por ejemplo, cuanto mayor sea V11, menor será w11, el peso que se da a la discrepancia d1 (= S11 – S*11), pues se asume que S11 será más variable de muestra a muestra. En el caso de ML los elementos de V se estiman asumiendo que el modelo es correcto y que las variables siguen una distribución multivariada normal.
Software para el AFC Los paquetes estadísticos más utilizados para los modelos de AFC son AMOS (Arbuckle, 2005), MPLUS (Muthen y Muthen, 2006) y LISREL (Jöreskog y Sörbom, 2004). NOHARM (Fraser y 21
Por ejemplo, Hu y Bentler (1998) concluyen que el SRMR y el TLI pueden ser sensibles a distintos tipos de desajuste; sin embargo, Fan y Sivo (2005) refutan sus conclusiones en un estudio más completo. Otro ejemplo: Chen, Curran, Bollen, Kirby y Paxton (2008) estudian el soporte empírico para la regla RMSEA < 0,05 y concluyen que la utilidad de ese punto de corte puede depender del tamaño de la muestra o del tamaño del desajuste que se quiera detectar.
Capítulo 10. Análisis Factorial Confirmatorio
381
McDonald, 1988) y MX (Neale, 1995) son programas de libre distribución. SEM (Fox, 2006) es también una librería de funciones en el lenguaje R. En el siguiente apartado se resume la sintaxis para los programas MPLUS y NOHARM.
AFC con MPLUS Cuadro 10.1. Aplicación del programa MPLUS para el AFC (variables continuas) TITLE: AFC para variables continuas (modelo Figura 10.1) DATA: FILE IS bfq.dat; VARIABLE: NAMES ARE x1-x7; USEVARIABLES ARE x1-x7; ANALYSIS: ESTIMATOR = ML; MODEL: F1 BY x1-x3* x7*;F2 BY x4-x6*; F1@1; F2@1; F1 with f2*; x1-x7 with x1-x7@0; OUTPUT: SAMPSTAT, STANDARDIZED, RESIDUAL, MOD(3.84);
Cuadro 10.2. Aplicación del programa MPLUS para el AFC (variables categóricas) TITLE: AFC para variables categóricas (modelo figura 10.1) DATA: FILE IS bfq.dat; VARIABLE: NAMES ARE x1-x7; USEVARIABLES ARE x1-x7; CATEGORICAL ARE x1-x7; ANALYSIS: ESTIMATOR = RWLS; MODEL: F1 BY x1-x3* x7*;F2 BY x4-x6*; F1@1; F2@1; F1 with f2*; x1-x7 with x1-x7@0; OUTPUT: SAMPSTAT, STANDARDIZED, RESIDUAL, MOD(3.84);
La estructura de la sintaxis es la siguiente: TITLE: permite especificar un título para el análisis. DATA: FILE IS: se define el nombre del fichero de datos. El fichero de datos (“bfq.dat”) se halla en el mismo directorio donde se encuentra la sintaxis, por lo que no hace falta explicitar la unidad ni el directorio. Por defecto el fichero de datos es un fichero con las respuestas de los sujetos a los ítems (en formato libre; es decir, las respuestas a distintos ítems separadas por espacios). VARIABLE: NAMES ARE: Se definen los nombres de las variables en el fichero de datos. USEVARIABLES ARE: Se especifica qué variables entran en el análisis. CATEGORICAL ARE (opcional): Se indica qué variables son categóricas. ANALYSIS:
382 Medición en Ciencias Sociales y de la Salud ESTIMATOR = Permite especificar el tipo de estimador. Los más adecuados son ML para variables continuas (MLM si las variables no tienen distribución multivariada normal) y RWLS para variables categóricas. MODEL: Permite especificar el modelo. BY indica “…es un factor en el que pesan los ítems…”. WITH indica “…es una variable latente que correlaciona con la variable latente…”. * indica “…los párametros anteriores se estiman.”. @X indica “…para los parámetros anteriores se fija su valor a X”. Por ejemplo: F1 BY x1-x3* x7*; F2 BY x4-x6*; : Indica que los ítems 1, 2, 3 y 7 pesan en el factor 1 y se estiman todos sus parámetros; los ítems 4, 5 y 6 pesan en el factor 2 y se estiman todos sus parámetros. F1@1; F2@1; : Indica que la varianza de los factores 1 y 2 se fija a 1. F1 WITH F2@0; : Indica que la covarianza (correlación) entre factores se fija a 0. x1-x7 with x1-x7@0; : Indica que las covarianzas entre los residuos de las variables x1 a x7 se fija a 0 (esto es necesario para que nos proporcione los índices de modificación de esos parámetros). OUTPUT: Permite especificar la información en la salida: SAMPSTAT: Proporciona los estadísticos descriptivos para la muestra (p. ej., matriz de varianzas-covarianzas empírica o matriz de correlaciones policóricas). STANDARDIZED: Proporciona los parámetros estandarizados. RESIDUAL: Proporciona las covarianzas residuales. MOD(3.84): Proporciona los índices de modificación mayores que 3,84 (para los pesos y para los parámetros fijados).
AFC con NOHARM En el caso de ítems dicotómicos, se puede aplicar NOHARM para realizar un AFC. Para aplicar el programa se requiere construir un fichero de sintaxis como el mostrado en el Cuadro 10.3.
Cuadro 10.3. Aplicación del programa NOHARM (Formato del fichero de sintaxis) Ejemplo de 7 ítems dicotómicos de Cálculo Numérico y 2 dimensión 7 2 2000 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 0.90650 0.72700 0.77500 0.48750 0.44350 0.52300 0.69600 0.62100 0.42800 0.75600 0.27000 0.25600 0.16850 0.23300 0.28850 0.32150 0.30250 0.21350 0.28550 0.12900 0.33900 0.58050 0.51550 0.35600 0.49600 0.20900 0.28000 0.62450
Capítulo 10. Análisis Factorial Confirmatorio
383
La estructura de la sintaxis es la siguiente: 1. Título: permite hasta 80 caracteres. 2. Linea de control. Separados por espacios deben aparecer: - El número de ítems. - El número de dimensiones. - El número de sujetos. - 1 (poner 1 para leer la matriz de varianzas-covarianzas no centrada). - 0 (para realizar un análisis factorial confirmatorio). - 0 (para que el programa genere los valores iniciales). - 0 (para que se impriman en la salida los datos de entrada). - 0 (para que proporcione la matriz de residuos). 3. El parámetro c estimado para todos los ítems. Por ejemplo, si se trata del modelo de 2 parámetros: 0 0 0 0 0 0 0. 4. En las siguientes J líneas se indica el patrón de configuración de la matriz de pesos (ítems x factores). Un 0 indica que el peso está fijado (a 0, por defecto) y un 1 que se estima el parámetro. 5. En las siguientes líneas (dos en el ejemplo) se establece la matriz de varianzas-covarianzas entre los factores en formato diagonal. El 0 indica que se fija el parámetro (al valor 1 si es una varianza, a 0 si es una covarianza) y el 1 que se estima el parámetro. En el ejemplo, se fijan las varianzas a 1 y se estima la covarianza. 6. En las siguientes líneas, se proporciona la matriz de varianzas-covarianzas no centrada (que se obtiene ejecutando el programa PRODMOM, proporcionado también por los autores). Los valores en la diagonal son las proporciones de acierto de cada uno de los 7 ítems. El valor 0,727 es la proporción de personas que acierta los ítems 1 y 2; 0,4875 es la proporción que acierta los ítems 1 y 3, etc.
11
TRI: Procedimientos estadísticos Comprobación de supuestos Unidimensionalidad
La comprobación del supuesto de unidimensionalidad en los modelos de TRI suele hacerse mediante la aplicación del Análisis Factorial (ver capítulos 6 y 10). Sin embargo, los procedimientos tradicionales de análisis factorial no son del todo adecuados para el tipo de datos que se analizan (las respuestas a los ítems, que suelen ser variables categóricas), ya que al aplicarlos estaríamos asumiendo que son variables continuas y que existe una relación lineal entre la variable latente y los ítems. Estas asunciones son erróneas cuando se trabaja con ítems dicotómicos. En el capítulo 6 vimos que, al aplicar los procedimientos tradicionales, pueden aparecer los llamados factores de dificultad. Además, puesto que se incumplen los supuestos del modelo lineal, pueden obtenerse índices de ajuste y errores típicos distorsionados. Por tanto, las estrategias de análisis más útiles se basan en la aplicación de las técnicas de análisis factorial apropiadas para ese tipo de datos (Análisis factorial no lineal, de información completa o basados en la matriz de correlaciones tetracóricas). Para profundizar en el AF de datos categóricos puede consultarse Finney y DiStefano (2006). Para decidir sobre la unidimensionalidad de la prueba puede ajustarse un modelo confirmatorio unidimensional para datos categóricos y utilizar los indicadores de ajuste descritos en el capítulo precedente: TLI, CFI, RMSEA, SRMR o γULS. También debe contrastarse que las correlaciones o las covarianzas residuales son próximas a cero. La inspección de los residuos (junto al análisis de contenido de los ítems) puede ayudar a descubrir dimensiones ignoradas o posibles redundancias entre ítems. La mayoría de los programas de AF ofrecen información sobre el tamaño de los residuos y su significación estadística.
386 Medición en Ciencias Sociales y de la Salud Otra forma de justificar la unidimensionalidad es utilizar el procedimiento de análisis paralelo para la retención de factores en AFE, descrito en el capítulo 6. Con este procedimiento no suelen obtenerse resultados muy distintos si se analizan las correlaciones de Pearson en vez de las tetracóricas (Cho, Li y Bandalos, 2009). Existen procedimientos alternativos que pueden consultarse en las revisiones de Cuesta (1996) y Tate (2003).
Ejemplo 11.1. Supuesto de Unidimensionalidad Se analizaron las respuestas de 2.000 evaluados a un test de 7 ítems de cálculo numérico (pueden consultarse en el ejemplo 4.5). Los resultados de ajuste para el modelo de AF unidimensional (programas MPLUS, FACTOR y NOHARM) se muestran en la Tabla 11.1. Tabla 11.1. Índices de ajuste en el modelo de un factor. Modelo CFA EFA EFA
Método de extracción 1
RWLS (MPLUS) AF no lineal (NOHARM)2 ULS (FACTOR)1
1
γULS
TLI
CFI
0,944
0,932
0,996
RMSEA
RMSR
0,042
0,058 0,0064 0,056
2
Matriz de correlaciones tetracóricas; Análisis factorial no lineal.
Al realizar el AF sobre la matriz de correlaciones tetracóricas con MPLUS se observa que el ajuste al modelo unidimensional es aceptable (TLI, CFI > 0,9; RMSEA < 0,05). RMSR es menor que 0,06; este valor puede calcularse a partir de las correlaciones residuales entre ítems, que se muestran en la Tabla 11.2. Se encuentran residuos altos y positivos (mayores que 0,10) entre los ítems 6 y 7. Esto indica que, aunque se cumple la unidimensionalidad en términos globales, la correlación entre estos dos ítems es más alta que la esperada según el modelo. Tabla 11.2. Correlaciones residuales entre ítems (obtenidas con el método RWLS, en MPLUS) 1
2
3
4
5
2
0,098*
3
0,007
0,040
4
–0,017
0,048
0,075*
5
–0,026
0,080*
–0,035
–0,031
6
–0,063
–0,061*
–0,033
–0,033
–0,025
7
–0,041
–0,102**
–0,039
–0,050
0,006
6
0,119**
Nota: Índice de modificación estadísticamente significativo (*p < 0,01; ** p < 0,001)
Al aplicar el método de AF no lineal con el programa NOHARM, el índice γULS de Tanaka indica también que el ajuste es aceptable (γULS > 0,9). El índice RMSR, calculado sobre los elementos de la matriz de varianzas-covarianzas, es 0,0064, menor que el criterio de
Capítulo 11. TRI: Procedimientos estadísticos
387
comparación, 0,089, que se obtiene como “cuatro veces el recíproco de la raíz del tamaño de la muestra” (i. e., el error típico de la covarianza residual; McDonald, 1997). Finalmente, el análisis paralelo sobre la matriz de correlaciones de Pearson (con el programa FACTOR) determina también que la solución unidimensional es adecuada (ver Figura 11.1). Figura 11.1. Análisis Paralelo (correlaciones de Pearson)
autovalor
3
Muestra empírica Media en muestras aleatorias
2
1
0
1
2
3
4
5
6
7
Factor
Para evaluar la unidimensionalidad, también debe comprobarse que todos los ítems pesan razonablemente en el primer factor (p. ej., que obtienen pesos mayores que 0,3). Esto puede observarse para estos 7 ítems, ya que la saturación más baja es 0,395, que se obtiene para el ítem 5. Tabla 11.3. Pesos en el primer factor (obtenidos con el método RWLS, en MPLUS) Ítems
Peso factorial
1 2 3 4 5 6 7
0,466 0,661 0,416 0,441 0,395 0,674 0,557
Independencia local El análisis de las correlaciones residuales en un AF puede proporcionar información sobre qué ítems muestran problemas de dependencia local. Sin embargo, se han desarrollado procedimientos específicos para detectar la dependencia local entre ítems. A partir de la TRI, se puede construir una tabla de contingencia (Tabla 11.4) con las probabilidades observadas (O00, O01, O10, O11) y esperadas (E00, E01, E10, E11) para cada posible patrón de respuestas en dos ítems.
388 Medición en Ciencias Sociales y de la Salud Tabla 11.4. Probabilidades observadas (O00, O01, O10, O11) y esperadas (E00, E01, E10, E11) para cada posible patrón de respuestas en dos ítems. Ítem 2
Ítem 1
Ítem 2
0
1
0
O00
O01
1
O10
O11
Ítem 1
0
1
0
E00
E01
1
E10
E11
La probabilidad observada Okk’ es simplemente:
O kk ' =
nkk '
[11.1]
N
donde nkk’ es el número observado de personas que puntúan k en el ítem 1 y k’ en el ítem 2 (k, k’: 0, 1) y N es el número de personas que responden a los dos ítems. Para obtener la probabilidad esperada Ekk’ se siguen los siguientes pasos: 1. Se asume que las personas pueden ser clasificadas en Q grupos de θ y que en cada grupo con nivel θq hay una proporción g(θq) de personas que se corresponde con lo esperado según la distribución normal estándar (ver Figura 11.2). Figura 11.2. g(θ): Probabilidad de θ para una distribución normal, N(0,1), considerando 81 grupos entre –4 y 4 (–4, –3,9,…) Probabilidad de θ (Distr. normal)
0,05 0,04 0,03 0,02 0,01
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,00
θ
2. En cada grupo q se calcula el número esperado de evaluados que puntúan k en el ítem 1 y k’ en el ítem 2, si el modelo de TRI es cierto y se cumple la independencia local: P(X1 = k, X2 = k’|θ) = P(X1 = k |θ) P(X2 = k’ |θ). Por ejemplo, la probabilidad de acertar los dos ítems se obtiene como:
P ( X 1 = 1, X 2 = 1 | θ ) = P1 (θ ) P2 (θ )
389
Capítulo 11. TRI: Procedimientos estadísticos donde P1(θ) y P2(θ) son las probabilidades de acertar cada ítem según el modelo. 3. Se calcula la suma ponderada de las probabilidades esperadas en cada nivel θ:
E kk ' =
Q
∑ P( X
1
= k , X 2 = k ' | θ q ) g (θ q )
[11.2]
q =1
A partir de las tablas de contingencia, puede obtenerse un estadístico χ 2 mediante el cual se contrasta si existen diferencias estadísticamente significativas entre las probabilidades observadas y esperadas:
χ2 = N
K
K
∑∑
k =1 k '=1
(O kk ' − E kk ' )2 E kk '
[11.3]
Algunos autores sugieren que si se cumple la hipótesis nula (el modelo se ajusta a los datos) el estadístico se distribuye según χ 2 con 3 grados de libertad (Drasgow et al., 1995). Frecuentemente se utiliza como heurístico para tomar decisiones el cociente χ 2 / gl (si la ratio es mayor que 3 ó 5, se interpreta que hay problemas de dependencia local). Puesto que el valor de χ 2 es muy sensible al tamaño muestral (la misma discrepancia entre probabilidades observadas y esperadas da lugar a un valor de X 2 mayor cuanto mayor sea el tamaño muestral), Drasgow y cols. (1995) proponen una corrección para facilitar las comparaciones cuando se trabaja con distintos tamaños muestrales:
χ *2 =
3000 2 ( χ − gl ) + gl I
[11.4]
donde χ∗2 es una aproximación al χ 2 que se obtendría en una muestra de 3.000 personas. Ambos indicadores, χ 2 y χ∗2, pueden obtenerse con el programa MODFIT (Stark, 2001a).
Ejemplo 11.2. Comprobación del supuesto de Independencia Local con MODFIT Se analizaron mediante el ML3P las respuestas de 2.000 evaluados a un test de 7 ítems de cálculo numérico. Al realizar un análisis con el programa MODFIT se obtienen los estadísticos χ 2 para contrastar la independencia local entre pares de ítems (ver Tabla 11.5). Puede observarse dependencia local entre los ítems 6 y 7, que son los que tenían un enunciado más similar. Para el resto de los pares de ítems se comprueba que el grado de dependencia local no es estadísticamente significativo ( p > 0,05). Estos resultados son consistentes con los que se habían obtenido al analizar la unidimensionalidad (aunque se mantenía la unidimensionalidad, el residuo para la correlación entre los ítems 6 y 7 era excesivamente alto).
390 Medición en Ciencias Sociales y de la Salud Tabla 11.5. para pares de ítems, seleccionados según el ML3P Par de ítems 1 1 1 1 1 1 2 2 2 2 2
2 3 4 5 6 7 3 4 5 6 7
χ2
gl
χ 2/gl
p
4,262 0,075 0,207 0,074 0,689 0,062 1,787 1,827 6,202 0,509 2,368
3 3 3 3 3 3 3 3 3 3 3
1,421 0,025 0,069 0,025 0,230 0,021 0,596 0,609 2,067 0,170 0,789
0,235 0,995 0,976 0,995 0,876 0,996 0,618 0,609 0,102 0,917 0,500
Par de ítems 3 3 3 3 4 4 4 5 5 6
4 5 6 7 5 6 7 6 7 7
χ2
gl
χ 2/gl
p
4,295 0,657 0,835 0,960 0,374 0,502 0,874 0,392 0,116 9,657
3 3 3 3 3 3 3 3 3 3
1,432 0,219 0,278 0,320 0,125 0,167 0,291 0,131 0,039 3,219
0,231 0,883 0,841 0,811 0,946 0,918 0,832 0,942 0,990 0,022
Cuando se aplica la TRI, los resultados respecto a la independencia local pueden variar según el modelo elegido. Por ejemplo, al aplicar el ML1P se obtienen los valores χ 2 presentados en la Tabla 11.6. Tabla 11.6. χ 2 para pares de ítems, seleccionados según el ML1P Par de ítems 1 1 1 1 1 1 2 2 2 2 2
2 3 4 5 6 7 3 4 5 6 7
χ2
gl
χ 2/gl
p
12,201 0,927 1,264 2,292 0,087 0,388 1,635 3,887 4,008 9,443 0,008
3 3 3 3 3 3 3 3 3 3 3
4,067 0,309 0,421 0,764 0,029 0,129 0,545 1,296 1,336 3,148 0,003
0,007 0,819 0,738 0,514 0,993 0,943 0,651 0,274 0,261 0,024 1,000
Par de ítems 3 3 3 3 4 4 4 5 5 6
4 5 6 7 5 6 7 6 7 7
χ2
gl
χ 2/gl
p
0,106 16,029 0,671 6,042 9,053 0,005 3,939 0,713 1,396 40,605
3 3 3 3 3 3 3 3 3 3
0,035 5,343 0,224 2,014 3,018 0,002 1,313 0,238 0,465 13,535
0,991 0,001 0,880 0,110 0,029 1,000 0,268 0,870 0,706 0,000
Puede observarse que hay más parejas de ítems para las que el modelo muestra desajuste. Por tanto, los valores χ 2 también sirven para tomar decisiones sobre el modelo a elegir. En este caso, las asociaciones observadas entre los ítems 2, 6 y 7 (los más discriminativos) y entre los ítems 3, 4 y 5 (los menos discriminativos) difieren de las esperadas según el modelo teórico (que sólo incluye un parámetro).
Capítulo 11. TRI: Procedimientos estadísticos
391
Estimación de parámetros Calibración de los ítems: método de estimación Máximo-Verosímil Marginal (MML) Partiendo de la situación en que tanto los parámetros de los ítems como los de las personas son desconocidos (p. ej., en la primera aplicación del test), existen distintos procedimientos para estimar los parámetros de los ítems. En este caso, la función de verosimilitud se establece como:
P( X | θ, a, b, c) =
N
∏ P( X
i
| θ i , a, b, c)
[11.5]
i =1
donde P(X|θ, a, b, c) indica la probabilidad de las respuestas dados los parámetros de evaluados e ítems; X es una matriz con todas las respuestas de todos los evaluados a todos los ítems; θ es un vector con los niveles de rasgo de todos los evaluados; a, b y c son los vectores con los parámetros de los ítems; P(Xi|θi, a, b, c) se define como:
P( X i | θ i , a, b, c) =
J
∏ P( X
j
= xij | θ , a j , b j , c j )
[11.6]
j =1
Se trata de estimar los parámetros a, b y c de los ítems que maximizan la probabilidad de las respuestas observadas. El problema es que la función P(X|θ, a, b, c) depende también de los parámetros θ de los evaluados, no conocidos, y que no es posible estimar ambos conjuntos de parámetros (ítems y evaluados) simultáneamente. El procedimiento de estimación más frecuente que resuelve este problema es el de Máxima Verosimilitud Marginal (Bock y Aitkin, 1981), que consiste básicamente en lo siguiente: 1. Se asume que las personas pueden ser clasificadas en Q grupos de θ y que en cada grupo con nivel θq hay una proporción g(θq) de personas que se corresponde con lo esperado según la distribución normal estándar (ver Figura 11.2). 2. No conocemos el nivel de rasgo de cada persona, θ, pero podemos asumir que el rasgo sigue la distribución g(θq); en tal caso, podemos considerar la probabilidad marginal de que cada persona tenga un patrón de respuestas determinado, dados sólo los parámetros de los ítems, P(Xi| a, b, c):
P( X i | a, b, c) =
Q
∑ P( X
i
| θ q , a, b, c) g (θ q )
[11.7]
q =1
Es decir, para cada evaluado i se obtiene una “suma” ponderada de la probabilidad condicionada de su patrón de respuestas, P(Xi | θq , a, b, c), considerando la probabili-
392 Medición en Ciencias Sociales y de la Salud dad de que el evaluado tenga cada uno de los Q valores θ posibles según la distribución normal, g(θq). De esta manera, eliminamos de la ecuación [11.5] la variable θ , cuyos valores desconocemos. El concepto de probabilidad marginal se ilustra en el Cuadro 11.1. Cuadro 11.1. Concepto de probabilidad marginal del patrón de respuestas Tabla 11.7. Probabilidad marginal para el patrón de respuestas: X1 = 1, X2 = 1, X3 = 1, X4 = 0. Parámetros de los ítems según el ML2P (D = 1,7): a1 = 1, b1 = –1, a2 = 1, b2 = 0, a3 = 1, b3 = 1, a4 = 1 y b4 = 2.
θq
–3
–2
–1
0
1
2
3
Probabilidad del patrón de respuestas Li(θq): P(Xi|θ q;a,b)
0,000
0,000
0,002
0,063
0,346
0,407
0,148
Probabilidad de θq considerando 7 puntos: g(θq)
0,004
0,054
0,242
0,399
0,242
0,054
0,004
1
Producto: P(Xi|θq;a, b) g(θq)
0,000
0,000
0,001
0,025
0,084
0,022
0,001
0,132
Σ
En las filas aparecen los valores de P(Xi |θq;a,b), g(θq) y el producto de ambos. La suma de los valores de la última fila es 0,132, que sería la probabilidad marginal de ese patrón de respuestas, P(Xi|a,b). En este ejemplo se han probado unos valores a y b concretos. Mediante programas informáticos, se obtendrían los parámetros a y b que hacen máximo L(a,b) el producto de las probabilidades marginales de los patrones de respuesta asociados a los distintos evaluados (ver ecuación [11.8]).
3. Para efectuar la calibración, se buscan, mediante métodos numéricos, los parámetros de los ítems que maximizan la función de verosimilitud marginal, en la que se tiene en cuenta las respuestas de los N evaluados:
L(a, b, c) ≡ P( X | a, b, c) ∝
N
∏ P(X | a, b, c) i
i =1
[11.8]
Capítulo 11. TRI: Procedimientos estadísticos
393
Para cada ítem j, se buscan los parámetros que satisfacen las ecuaciones:
δ LnL(a, b, c ) = 0 δa j δ LnL(a, b, c ) = 0 δb j δ LnL(a, b, c ) = 0 δc j
Estimación bayesiana modal a posteriori del nivel de rasgo (MAP) Un problema de la estimación ML es que no es posible estimar los parámetros de los evaluados cuando el patrón de respuestas es constante (p. ej., si la persona acierta o falla todos los ítems). Este problema se resuelve en la estimación bayesiana, donde se incorpora a la estimación la información sobre la distribución de los niveles de rasgo en la población (denominada distribución previa o a priori). En la estimación ML se buscaba qué valor asignar al parámetro θ para maximizar la función de verosimilitud, Pj(Xi | θ). En la estimación bayesiana se considera θ como una variable, de forma tal que cada persona tiene una probabilidad de tener cada valor θ de los posibles, Pj(θ | Xi). A esa probabilidad se la denomina probabilidad posterior. A partir del Teorema de Bayes, se establece la siguiente relación:
P (θ | X i ) =
P ( X i | θ ) g (θ ) P( X i )
[11.9]
La probabilidad posterior se interpreta como la probabilidad de que un evaluado i tenga una θ determinada, dado que ha obtenido el patrón de respuestas Xi. La estimación bayesiana puede obtenerse asignando al evaluado el valor θ que hace máxima la probabilidad posterior. Puesto que el denominador no depende de θ, podemos establecer la siguiente relación:
P(θ | X i ) ∝ P( X i | θ ) g (θ ) = Li (θ ) g (θ )
[11.10]
donde g(θ) indica la distribución previa de θ (generalmente, una distribución normal con media 0 y desviación típica 1); el símbolo ∝ indica que el producto Li(θ )g(θ ) y la probabilidad posterior, Pj(Xi|θ ), son directamente proporcionales (es decir, si un valor de θ maximiza el producto L(θ )g(θ ), maximizará también la probabilidad posterior). La estimación de θ que maximiza el producto L(θ )g(θ ) se denomina como estimación Modal a Posteriori (MAP). Siguiendo la lógica descrita para el procedimiento ML, se busca el parámetro que satisface la ecuación de estimación:
394 Medición en Ciencias Sociales y de la Salud δ δ Ln( Li (θ )) + Ln( g (θ )) = 0 δθ δθ
[11.11]
donde, si la distribución previa es normal, N(µθ = 0, σθ = 1):
θ − µθ δ Ln(g (θ )) = − = −θ δθ σθ 2
[11.12]
La ecuación [11.11] es parecida a la que se establecía en el procedimiento ML (ecuación [4.11]); en la estimación bayesiana se añade un término adicional (ecuación [11.12]) mediante el que se pondera que θ sea similar a µθ, tanto más cuanto menor sea σθ. Por tanto, la diferencia principal entre la función de verosimilitud y la probabilidad posterior es que la segunda supone una ponderación de la primera, dando más peso a los valores θ que se consideran más probables en la población.
Ejemplo 11.3. Estimación del nivel de rasgo por el método MAP Supongamos que un evaluado tiene el siguiente patrón de respuestas: X1 = 1, X2 = 1, X3 = 1, X4 = 0. Los parámetros de los ítems, según el ML1P, fueron: a = 1, b1 = –1, b2 = 0, b3 = 1 y b4 = 2. En la Tabla 11.8 se muestran los valores de probabilidad posterior para 7 valores de θ. Tabla 11.8. Probabilidades posteriores –3
–2
–1
0
1
2
3
Función de Verosimilitud: L i (θ )
0,000
0,000
0,002
0,063
0,346
0,407
0,148
Función de densidad: g(θ )
0,004
0,054
0,242
0,399
0,242
0,054
0,004
Función proporcional a la Probabilidad Posterior: Li(θ )g(θ )
0,000
0,000
0,001
0,025
0,084
0,022
0,001
P(X i )
0,132
0,132
0,132
0,132
0,132
0,132
0,132
Probabilidad Posterior: P(θ |Xi)
0,000
0,000
0,005
0,191
0,634
0,166
0,005
θ
Σ
0,132
1
En la Figura 11.3 se representa la probabilidad posterior para el patrón de respuestas del ejemplo anterior, para valores θ entre – 4 y 4. La probabilidad posterior nos indica cómo se distribuye θ para evaluados con el patrón Xi. En nuestro ejemplo, el valor θ que maxi-
Capítulo 11. TRI: Procedimientos estadísticos
395
miza la probabilidad posterior es 1,0 ( θˆ MAP = 1). Este valor difiere de la estimación ML, que para esta persona fue 1,6. En la estimación bayesiana se considera que tenemos poca información sobre el nivel real de la persona (i. e., ha respondido a pocos ítems) y, por tanto, teniendo en cuenta que la media de la población es 0, se le asigna una θ más próxima a la media poblacional.
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
P ( θ |Xi) : Probabilidad Posterior
Figura 11.3. Probabilidad posterior
θ
Para terminar, conviene recordar que al realizar las estimaciones siempre se comete cierto grado de error, mayor cuanto menor sea el número de ítems (o peor su calidad psicométrica). Al estimar θ mediante ML, se produce un sesgo “hacia fuera” (positivo si el nivel de habilidad es superior a la media, negativo si es inferior) y suele ser mayor que el que se obtiene utilizando la estimación bayesiana. Por el contrario, el sesgo para la estimación MAP es “hacia dentro” (se sesgan los niveles de rasgo estimados hacia la media fijada en la distribución a priori, que suele ser 0) y menor que en la estimación ML.
El error típico de estimación del estimador de θMAP El valor del error típico de estimación depende del procedimiento de estimación utilizado. Si se utiliza la estimación MAP, asumiendo una distribución normal de θ con varianza σ2θ, la función de información para la estimación MAP se obtiene como:
1 I MAP (θˆMAP ) = I (θˆMAP ) + 2
σθ
[11.13]
donde I( θˆMAP ) es el valor de la función de información para θ = θˆMAP (ver ecuación [4.22]). El error típico de estimación se obtiene como:
396 Medición en Ciencias Sociales y de la Salud S e (θˆMAP ) ≡ σ (θˆMAP | θ ) =
1 I MAP (θˆMAP )
1
= I (θˆ
MAP ) +
1
[11.14]
σ θ2
donde, si la distribución previa es normal, N(µθ = 0, σθ = 1):
S e (θˆMAP ) ≡ σ (θˆMAP | θ ) =
1 I (θˆMAP ) + 1
Es decir, al utilizar la estimación bayesiana, el error típico se reduce porque se tiene en cuenta que disponemos de una información adicional: la persona proviene de una población con varianza conocida, σ 2θ.
Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP) y desviación típica posterior (PSD) La distribución posterior, Pj(θ | Xi), indica la probabilidad de θ dado el patrón de respuestas Xi. A partir de esa distribución puede obtenerse el valor esperado de θ dado Xi.
θ EAP ≡ ε (θ | X i ) =
Q
∑θ
q P (θ q
| Xi )
[11.15]
q =1
y la desviación típica posterior:
S e (θˆEAP ) ≡ Var (θˆ | X i ) =
Q
∑ (θ
q
− θˆEAP ) 2 P(θ q | X i )
[11.16]
q =1
La estimación EAP tiene las mismas propiedades que la estimación MAP: proporciona estimaciones finitas para los patrones constantes de respuestas y tiene sesgo “hacia dentro”. La diferencia es que en el procedimiento EAP se toma como estimador la media de la distribución posterior, mientras que en el MAP se considera la moda de dicha distribución. La estimación EAP puede tomar valores más estables cuando la distribución posterior es bimodal.
Ejemplo 11.4. Estimación del nivel de rasgo por el método EAP Seguimos con el evaluado del ejemplo anterior. En la Tabla 11.9 se muestran los valores de probabilidad posterior para 7 valores de θ.
Capítulo 11. TRI: Procedimientos estadísticos
397
Tabla 11.9. Probabilidad de la respuesta dada al ítem como función del nivel de θ para el patrón de respuestas: X1 = 1, X2 = 1, X3 = 1, X4 = 0. Parámetros de los ítems según el ML1P: a = 1, b1 = –1, b2 = 0, b3 = 1 y b4 = 2
θq
–3
–2
–1
0
1
2
3
P(θq |Xi) θq P(θq |Xi) (θq – θEAP)2 P(θq |Xi)
0,000 0,000 0,000
0,000 0,000 0,000
0,005 –0,005 0,020
0,191 0 0,182
0,634 0,634 0,000
0,166 0,332 0,174
0,005 0,015 0,020
Σ 0,98 0,40
En nuestro ejemplo, tomando 7 puntos de cuadratura, los valores de θˆ EAP y de Var( θˆ EAP) serán 0,98 y 0,40 respectivamente. En la práctica, generalmente, se emplea un mayor número de puntos de cuadratura para obtener estimaciones más precisas.
Estimación bayesiana de los parámetros de los ítems También existen procedimientos de estimación bayesiana marginal donde se fijan distribuciones previas para los parámetros de los ítems (Gifford y Swaminathan, 1990; Mislevy, 1986). En ese caso hablamos de estimación Máximo Verosímil Marginal a Posteriori (MMAP). La función de verosimilitud a maximizar sería proporcional a la función de verosimilitud ponderada por la distribución previa de los parámetros de los ítems:
P( a, b, c | X ) ∝ L( a, b, c )g ( a )g ( b )g ( c )
[11.17]
donde g(a), g(b) y g(c) indican las distribuciones previas asumidas para los parámetros. Con el establecimiento de distribuciones previas se sortean algunas dificultades que pueden darse en la estimación de los parámetros a, b y c (p. ej., si los ítems son muy difíciles). La estimación bayesiana facilita la estimación de dichos parámetros, eliminando los valores extremos y facilitando que, en el proceso de estimación, se alcance el criterio de convergencia. Cuanto menor sea la desviación típica de la distribución previa del parámetro (a, b o c), más se parecerá el valor de los parámetros estimados a la media de la distribución previa correspondiente y, por tanto, menor importancia tendrán los datos empíricos en la determinación del valor de los parámetros de los ítems. Por el contrario, cuanto mayor sea la desviación típica, menor importancia tendrá la distribución previa en la determinación del valor de los parámetros. La distribución previa “por defecto” puede variar bastante dependiendo del programa elegido para realizar las estimaciones: 1. Para el parámetro a, – En XCALIBRE se recomiendan, en métrica normal, las distribuciones previas g(a) ~ normal(0,75, 0,12) o g(a) ~ normal(1,2, 0,12). La elección de una u otra depende de la fiabilidad de los ítems y de la especificidad en el dominio de contenidos del test (a mayor fiabilidad o a mayor especificidad, mayor parámetro a).
398 Medición en Ciencias Sociales y de la Salud – En MULTILOG, los ejemplos que se incluyen asumen para el parámetro a en métrica logística, g(a) ~ normal(1,7, 1); esto equivale a asumir, en métrica normal, g(a) ~ normal(1, 0,588). – En BILOG, por defecto, se asume una distribución previa para el logaritmo del parámetro a en métrica normal: g(Ln[a]) ~ normal(0, 0,5); esto quiere decir que el parámetro a sigue una distribución log-normal: g(a) ~ log-normal(1,133, 0,604) y garantiza que el parámetro a no pueda tomar valores negativos. En general, si el parámetro a sigue una distribución log-normal con parámetros µlna y σlna, la distribución del parámetro a tiene como media y desviación típicas:
µa = e
2 µln a + 0,5σ ln a
σa = e
2 2 µln a +σ ln a
[11.18]
(e
2 σ ln a
− 1)
[11.19]
En la Figura 11.4 se muestran las distribuciones previas por defecto para los tres programas. Figura 11.4. Distribuciones previas por defecto para el parámetro a en los distintos programas. BILOG
Distribución previa de a
XCALIBRE
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
MULTILOG
a
2. Para el parámetro b: Se suele asumir una distribución normal con media 0 (p. ej., g(b) ~ normal(0, 1), g(b) ~ normal(0, 2)). En MULTILOG, para el ML3P se trabaja con una parametrización distinta y se fija la distribución previa para un parámetro denominado CCOEFF = –ba (donde a es el parámetro de discriminación en métrica logística). Se suelen utilizar las mismas distribuciones previas que para el parámetro b (p. ej., g(CCOEFF) ~ normal(0, 2)).
Capítulo 11. TRI: Procedimientos estadísticos
399
3. Para el parámetro c: – En XCALIBRE, puede fijarse g(c) ~ normal(K –1, σc), donde K es el número de opciones y σc es fijado por el programa para que el 95% de los valores se encuentren entre 0,5K –1 y 1.5 K –1 (σc ≅ 0,25 K –1). Esto sería equivalente a considerar, para el parámetro c, distribuciones con medias 0,5, 0,33, 0,25 y 0,2 y desviaciones típicas 0,128, 0,085, 0,064 y 0,051, para los casos en que los ítems tengan 2, 3, 4 y 5 opciones de respuesta, respectivamente. – En MULTILOG se estima como parámetro una transformación de c, Logit(c), que, por razones técnicas, es más fácil de estimar que el parámetro c: Logit (c) = Ln(c /(1 − c))
[11.20]
asumiendo una distribución previa Logit(c) ~ normal(K –1, 0,5); esto sería equivalente a considerar distribuciones para el parámetro c con medias 0,5, 0,33, 0,25 y 0,2 y desviaciones típicas 0,118, 0,106, 0,094 y 0,081, para 2, 3, 4 y 5 opciones opciones de respuesta. – En BILOG se utiliza una distribución Beta para el parámetro c. La función de densidad de la distribución Beta es:
g (c ) ≈
1 α −1 c (1 − c) β −1 H
[11.21]
donde H es una constante de normalización. La media (µc) y la desviación típica (σc) de esa distribución dependen de los valores α y β:
µc =
σc =
(α − 1) (α + β − 2) (α − 1)( β − 1) (α + β − 2) 2 (α + β − 1)
[11.22]
[11.23]
En BILOG, se definen α y β como:
α = 20 K −1 + 1
[11.24]
β = 20(1 − K −1 ) + 1
[11.25]
Esto es equivalente a considerar distribuciones con medias 0,5, 0,33, 0,25 y 0,2 y desviaciones típicas 0,109, 0,103, 0,094 y 0,087, para 2, 3, 4 y 5 opciones. En la Figura 11.5 se muestran las distribuciones previas por defecto para los tres programas, para ítems de 2 y 5 opciones de respuesta.
400 Medición en Ciencias Sociales y de la Salud Figura 11.5. Distribuciones previas por defecto para el parámetro c en los distintos programas (2 opciones, izquierda; 5 opciones, derecha) BILOG
BILOG
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
MULTILOG
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
MULTILOG
c
XCALIBRE
Distribución previa de c
Distribución previa de c
XCALIBRE
c
Como en la mayoría de las situaciones no se dispone de los resultados de aplicaciones anteriores, puede ser complicado decidir qué distribución previa es la más conveniente. El programa BILOG también permite utilizar un procedimiento iterativo para fijar las medias de las distribuciones previas (opción FLOAT): 1. Se estiman los parámetros con las distribuciones previas iniciales. 2. Se calculan las medias de los parámetros a, b y c. 3. Se estiman de nuevo los parámetros, considerando como medias de las distribuciones previas las medias de los parámetros obtenidas en el segundo paso. 4. Se repiten los pasos 2 y 3, hasta que no haya cambios de los parámetros en pasos sucesivos. Esta opción puede usarse si el número de ítems del test analizado es suficientemente alto, de forma que la media de sus parámetros represente bien la media de los parámetros de todos los ítems que podrían elaborarse para medir el rasgo.
Comprobación de la Bondad de ajuste: métodos gráficos Si un modelo de TRI se ajusta a los datos, las CCI empíricas y teóricas deberían ser similares. Una estrategia sencilla para comprobar esto sería agrupar a las personas por su nivel de rasgo estimado, estableciendo Q intervalos (p. ej., 10), y luego comparar las probabilidades esperadas de acierto (Eq) y las observadas (Oq) para cada uno de los grupos. El problema es que θ se estima con error y, por tanto, la agrupación de las personas puede resultar imprecisa. Por ello, en los programas de TRI se incluyen otros procedimientos. Una estimación de la probabilidad observada de acierto en el ítem j para el grupo con nivel de rasgo q se obtiene como:
Capítulo 11. TRI: Procedimientos estadísticos
O jq =
r jq
401 [11.26]
Nq
donde rjq es el número estimado de personas con θ = θq que aciertan el ítem y Nq es una estimación del número observado de personas con θ = θq; rjq se obtiene como:
r jq =
N
∑x
ij P (θ q
| Xi )
[11.27]
i =1
donde se suma la probabilidad posterior de θq dado el patrón de respuestas (ver ecuación [11.9]) para las personas con un patrón de respuestas tal que han acertado el ítem j (i. e., xij = 1). Nq se obtiene como:
Nq =
N
∑ P(θ
q
| Xi )
[11.28]
i =1
donde se suman las probabilidades posteriores de θq para todos los evaluados. El valor de la probabilidad esperada de acierto en el ítem j para el grupo con θq viene dada por la CCI y es:
E jq = Pj ( θ q )
[11.29]
En la Tabla 11.10 se muestran los valores Oq y Eq para un ítem concreto, en función de 25 niveles de rasgo, obtenidos a partir del programa MODFIT. Tabla 11.10. Probabilidades observadas y esperadas para distintos niveles de θq1
θq
–2,05 –1,56 –1,29 –1,08 –0,92 –0,77
…
0,92
1,08
1,29
1,56
2,05
Oq Eq
0,61 0,64
… …
0,98 0,98
0,98 0,98
0,98 0,98
0,98 0,99
0,99 0,99
0,72 0,73
0,78 0,78
0,82 0,82
0,85 0,84
0,87 0,86
Estas probabilidades suelen representarse de forma gráfica. Se puede calcular también el intervalo de confianza asociado a la probabilidad observada para cada uno de los niveles de rasgo. Por ejemplo, para un nivel de confianza del 95 %:
IC (O jq ) = O jq ± 1,96 O jq (1 − O jq ) / N q
1
[11.30]
Éstos son los valores de θq que se utilizan en el programa MODFIT; se denominan puntos de cuadratura de Gauss-Hermitte.
402 Medición en Ciencias Sociales y de la Salud
Ejemplo 11.5. Ajuste para un ítem de Cálculo Numérico En la Figura 11.6 se representan la CCI (Eq) y las probabilidades de acierto observadas (Oq) en uno de los ítems del test de Cálculo Numérico. Puede observarse que los valores de la CCI se encuentran dentro del intervalo de confianza asociado a la probabilidad observada para cada uno de los niveles de rasgo contrastados. Figura 11.6. CCI observadas y esperadas del ítem 1, según el ML3P
Probabilidad de acierto en el ítem
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3
O
0,2
E
0,1
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-3,0
0,0
θ
Procedimientos de equiparación de parámetros En general, los parámetros de los ítems de dos tests que se han aplicado en distintas muestras tendrán distinta métrica, porque usualmente habrá diferencias entre las dos muestras en la media y desviación típica del nivel de rasgo. Además, las puntuaciones obtenidas para los evaluados de distintas muestras no serán comparables. Este problema no es específico de la TRI. En Psicometría sabemos que es un error comparar directamente las puntuaciones de personas distintas en pruebas distintas; incluso aunque los contenidos sean muy similares, las pruebas pueden diferir en dificultad u otras características. Por ejemplo, en la TCT, una puntuación X = 20 puede tener distinto significado si el test es fácil o si el test es difícil. De la misma manera, un ítem j puede ser fácil ( pj = 0,9) si se aplica a una muestra de alto nivel de habilidad o difícil ( pj = 0,1) en una muestra de bajo nivel. En TRI sucede algo similar: un ítem j puede tener un parámetro b estimado alto en una muestra de bajo nivel (p. ej., bj = 2) o bajo en una muestra de alto nivel (p. ej., bj = –2). Esto ocurre porque, generalmente, se asume que la muestra con la que estamos trabajando
Capítulo 11. TRI: Procedimientos estadísticos
403
tiene una media de 0 en el nivel de rasgo ( θ = 0) y los parámetros b de los ítems se estiman en relación a ese supuesto. Esto puede parecer contradictorio con la propiedad de la invarianza de la TRI. Sin embargo, no lo es, porque desde la TRI pueden transformarse los parámetros de los ítems para que se encuentren en la misma escala métrica y sean comparables. A este proceso se le llama equiparación de parámetros. Supongamos que se aplican dos tests a dos muestras diferentes. ¿Cómo conseguir que sea la misma la métrica de los parámetros de los ítems cuando han sido aplicados a muestras distintas? Con un proceso de equiparación se trata de realizar una transformación de una métrica en la otra. Se requiere que una parte de cada test, a la que se denomina test de anclaje, sea común y haya sido respondida por todos los evaluados. Cuanto mayor sea el número de ítems de anclaje y mejor represente el test de anclaje los contenidos del test total, mayor será la precisión de la equiparación (algunos autores sugieren que pueden ser necesarios al menos 20 ítems o el 20% de la longitud del test, lo que sea mayor; Angoff, 1984). Antes de mostrar algunos de los procedimientos de equiparación, introduzcamos alguno de los conceptos de un diseño de equiparación (ver Figura 11.7). Figura 11.7. Diseño de anclaje o equiparación Muestra
Evaluados
Ítems 1, 2, 3, …, 10
O
N
1, 2, 3, … 500 501, 502, 503, … 1000
Forma (ítems (subtest O’)
11, 12, 13,…, 20 Original 1-20) (subtest A) Ítems de Anclaje (ítems 1120) (subtest A) Forma (ítems
21, 22, 23,…, 30
(subtest N’) Nueva 11-30)
1. Test de anclaje (A): Test compuesto por ítems que forman parte de las dos formas, la Forma Original y la Forma Nueva (en la Figura 11.7, los ítems del 11 al 20), y que ha sido aplicado a todos los evaluados (1.000 en nuestro caso). 2. Muestra original (O): Muestra en la que se aplica la Forma Original en la que los parámetros de los ítems se hallan en la métrica deseada (en la Figura 11.7, la Forma Original tiene los ítems del 1 al 20 y ha sido aplicada a los evaluados del 1 al 500) A los parámetros de ítems que no forman parte del test de anclaje los denominaremos O’ (ítems del 1 al 10). 3. Muestra Nueva (N): Muestra en la que se aplica la Forma Nueva. Se desea cambiar la métrica de los parámetros de los nuevos ítems para que sea consistente con la métrica de los parámetros de los ítems originales (en la Figura 11.7, la Forma Nueva se compone de los ítems del 11 al 30 y ha sido aplicada a los evaluados del 501 al 1.000). A los parámetros que no forman parte del test de anclaje los denominaremos N’ (ítems del 21 al 30).
404 Medición en Ciencias Sociales y de la Salud Refirámonos a los parámetros de los ítems de la siguiente forma: ajtm, donde el primer subíndice indica el ítem, el segundo el subtest al que pertenece (t: A, O’ o N’) y el tercero la métrica según la muestra en la que se calibró (m: O o N). Un procedimiento de equiparación es buscar aquella transformación de los parámetros que hace mínima la diferencia cuadrática media entre los valores de la CCT obtenida para los ítems de anclaje en la muestra original y los valores de la CCT obtenida para los ítems de anclaje en la nueva muestra; en otras palabras, se buscan los parámetros g y h que minimizan la función F(g, h) (Stocking y Lord, 1983): N
a X (θˆi ; a AO , b AO , c AO ) − X (θˆi ; AN , gb AN + h, c AN ) FS − L ( g , h) = g i =1
∑
2
[11.31]
donde, por ejemplo, aAO se refiere a todos los parámetros a de los ítems de anclaje obtenidos en la muestra original (a1AO, a2AO, a3AO,….) y aAN se refiere a todos los parámetros a de los ítems de anclaje obtenidos en la nueva muestra (a1AN, a2AN, a3AN,….). También puede minimizarse el promedio de la discrepancia cuadrática entre las CCI de los ítems (Haebara, 1980): FH ( g , h) =
I
J
a Pj (θˆi ; a jAO , b jAO , c jAO ) − Pj (θˆi ; jAN , gb jAN + h, c jAN ) g j =1
∑∑ i =1
2
[11.32]
Ambos procedimientos se hallan implementados en el programa ST (Hanson y Zeng, 2004). Una vez obtenidas las constantes g y h, se pueden transformar los parámetros de los ítems de la nueva forma para que se hallen en la métrica de los parámetros de los ítems de la forma original (i. e., los que se habrían obtenido si los nuevos ítems se hubieran calibrado en la muestra original):
a N 'O = a N ' N g bN 'O = gbN ' N + h c N 'O = c N ' N
[11.33] [11.34] [11.35]
También para θ se puede establecer una transformación similar. Refirámonos a los parámetros de las personas de la siguiente forma: θitm, donde el primer subíndice indica el evaluado, el segundo el subtest específico que se le aplicó (t: O’ o N’) y el tercero la escala métrica (m: O o N). La transformación de la métrica de θ de la nueva muestra en la métrica de la muestra original se haría aplicando:
θ N 'O = gθ N ' N + h
[11.36]
Otra posibilidad de equiparación consiste en calibrar todos los ítems simultáneamente, tratando la ausencia de respuesta a un ítem no aplicado como valor perdido. En ese caso, se habla de un proceso de calibración concurrente.
Capítulo 11. TRI: Procedimientos estadísticos
405
Ejemplo 11.6. Equiparación Dos grupos de personas han respondido a distintos tests que comparten algunos ítems. En concreto, un grupo de 500 personas ha respondido a los ítems del 1 al 10 (forma O) y otro grupo de 500 personas ha respondido a los ítems del 6 al 15 (forma N). Por tanto, todos los evaluados han respondido a los ítems del 6 al 10 (test de anclaje). Ambas formas han sido calibradas por separado. El investigador quiere saber si los ítems específicos de la Forma Nueva (N´) son igual de difíciles que los ítems específicos de la Forma Original (O´). También se pregunta qué grupo tiene mayor nivel de rasgo. Al estimar los parámetros de los ítems se obtienen los resultados mostrados en la Tabla 11.11. Tabla 11.11. Párametros de los ítems (ML2P) Forma O ítem 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Forma N
a 1,08 1,13 1,89 1,88 1,88
b –0,52 1,54 0,57 0,56 0,54
a
b
0,96 1,45 1,78 1,66 1,15
–1,65 –0,53 0,61 1,57 2,44
0,90 1,45 1,77 1,73 1,08 1,13 1,38 1,79 1,64 1,07
–2,95 –1,72 –0,58 0,58 1,58 –3,00 –2,20 –0,52 1,06 1,98
Puede observarse que para los ítems del 6 al 10, comunes a ambas formas, se han obtenido parámetros distintos cuando se han aplicado en las distintas muestras, especialmente en los parámetros b. Los parámetros estimados en distintas muestras no son directamente comparables. Por ejemplo, no podemos decir que el ítem 15 sea más difícil que el ítem 2. Esto se debe a que, para la estimación de los parámetros de los ítems, se ha asumido que la muestra en la que se ha aplicado la Forma O tiene una distribución θ con media 0 y desviación típica 1. Lo mismo se ha asumido para la muestra en la que se ha aplicado la Forma N. Sin embargo, es claro que ambas muestras no pueden tener la misma distribución del rasgo. Los ítems del test de anclaje tienen menor parámetro b en la muestra en la que se ha aplicado la Forma N, lo que quiere decir que el nivel medio de θ es mayor en esta muestra.
406 Medición en Ciencias Sociales y de la Salud Conociendo los parámetros estimados para los ítems del test de anclaje en ambas muestras podemos transformar los de N en la métrica de O; podemos saber también cuáles serían los parámetros estimados para los ítems del 11 al 15 si se hubieran aplicado en la muestra donde se aplicó la Forma Original. Al aplicar el programa ST (Hanson y Zeng, 2004) se obtiene la salida de resultados mostrada en el Cuadro 11.2. Cuadro 11.2. Obtención de las constantes de equiparación con el programa ST Number of common items: 5 Item Parameter Means a b New Form 1.3872 -0.6212 Old Form 1.4013 0.4873
c 0.0000 0.0000
Item Parameter Standard Deviations a b c New Form 0.3437 1.6069 0.0000 Old Form 0.3061 1.4561 0.0000 Transformation Functions Stocking-Lord Intercept(h) 1.083684 Slope (g) 0.926521
Haebara 1.072353 0.902120
Mean/Mean 1.102267 0.989966
Mean/Sigma 1.050215 0.906174
Por el método de Stocking y Lord (ver ecuación [11.31]) las constantes de la ecuación de transformación serían:
g = 0,926521 h = 1,083684 Los parámetros transformados se obtienen aplicando las ecuaciones [11.33] a [11.35]. Los resultados se muestran en la Tabla 11.12. Por ejemplo, para transformar los parámetros del ítem 6:
a N 'O = a N ' N g = 0,90 / 0,926521 = 0,97 b N 'O = gb N ' N + h = 0,926521(−2,95) + 1,083684 = −1,65 Podemos ver que los parámetros transformados de los ítems del test de anclaje, obtenidos en la muestra en la que se aplicó la forma N, se parecen mucho más a los parámetros de los ítems de anclaje cuando se estimaron en la muestra en la que se aplicó la Forma O.
Capítulo 11. TRI: Procedimientos estadísticos
407
Tabla 11.12. Transformación de los párametros de los ítems de la forma N a la métrica de la forma O Forma N a 6 7 8 9 10 11 12 13 14 15
0,90 1,45 1,77 1,73 1,08 1,13 1,38 1,79 1,64 1,07
b –2,95 –1,72 –0,58 0,58 1,58 –3,00 –2,20 –0,52 1,06 1,98
Parámetros transformados de la forma N a la métrica O a b 0,97 1,56 1,91 1,87 1,17 1,22 1,49 1,93 1,77 1,15
–1,65 –0,51 0,55 1,62 2,55 –1,70 –0,95 0,60 2,07 2,92
También podemos saber la media y la desviación en θ del grupo en el que se ha aplicado la Forma N si se les hubiera aplicado la forma O:
θ N 'O = gθ N ' N + h = 0,926521(0) + 1,083684 = 1,083684 Sθ N 'O = gSθ N ' N = 0,926521(1) = 0,926521
Es decir, que el grupo en el que se aplicó el nuevo test tiene mayor media y menor variabilidad en el nivel de rasgo que el grupo en el que se aplicó el test original.
El uso de los procedimientos de equiparación es necesario en muchos contextos aplicados de medición en Ciencias Sociales y de la Salud. Resulta imprescindible en el proceso de construcción y mantenimiento de bancos de ítems (p. ej., para construir Tests Adaptativos Informatizados), donde no se puede aplicar todo el banco a todos los evaluados. También es usual realizar equiparaciones en el proceso de adaptación de un test a otra cultura; en este caso, la equiparación es un paso previo a cualquier comparación de los parámetros (de ítems o de personas) entre culturas. Otras veces se quiere evaluar cómo cambia el nivel de rendimiento educativo en distintos años (p. ej., para evaluar el efecto de una intervención educativa); el problema es que si las pruebas aplicadas en distintos años son distintas, es imposible separar qué cambios se deben a mejoras en el aprendizaje y cuáles a una variación en la dificultad de las pruebas. Para que tales comparaciones resulten útiles se requiere un test de anclaje y, de nuevo, un diseño de equiparación. Puede encontrarse información detallada sobre los procedimientos de equiparación e en Kolen y Brennan (2004).
408 Medición en Ciencias Sociales y de la Salud
Apéndices Recomendaciones sobre los tamaños muestrales La calidad de las estimaciones puede venir determinada por muchas variables: el número de personas, la longitud del test, la dificultad de los ítems, la distribución del nivel de rasgo, etc. Algunos de los resultados se sintetizan en Baker y Kim (2004), De Ayala (2009) y Yen y Fitzpatrick (2006). Gran parte de la investigación se ha desarrollado considerando métodos de estimación no bayesianos. Wright y Stone (1979) sugieren al menos 20 ítems y 200 personas para estimar los parámetros en el modelo de Rasch. Stone (1992) concluye que 20 ítems y 500 personas pueden proporcionar resultados adecuados para el ML2P. Para el ML3P, Thissen y Wainer (1982) muestran que, si se utiliza la estimación MML, el tamaño muestral requerido para estimar los parámetros de ciertos ítems puede ser superior a 10.000 personas. Los parámetros más difíciles de estimar son los parámetros c, seguidos de los parámetros a y, por último, de los parámetros b. Las anteriores recomendaciones pueden resultar excesivamente exigentes, pues raramente se dispone de muestras tan grandes. Afortunadamente, el uso de los métodos bayesianos (MMAP) puede reducir los requerimientos muestrales, especialmente para el ML3P (Mislevy, 1986; Swaminathan y Gifford, 1986). Por ejemplo, Harwell y Janosky (1991) muestran que, si las distribuciones previas son bien escogidas, con muestras de menos de 250 personas pueden obtenerse resultados adecuados para el ML2P. Yen (1987) indica que, para 20 ítems, una muestra de 1.000 personas es suficiente para estimar el ML3P (Yen, 1987); sin embargo, una limitación de ese trabajo es que no estudia la recuperación de parámetros en muestras más pequeñas. En un reciente trabajo, Swaminathan, Hambleton, Sireci, Xing y Rivazi (2003), evidencian que en muestras de 500 evaluados pueden obtenerse estimaciones razonables de los parámetros de los ítems y que pueden reducirse aún más los tamaños muestrales necesarios utilizando valoraciones previas de la dificultad obtenidas a partir de jueces expertos. La estimación de parámetros es un problema complejo, y una mala elección de las opciones en los programas disponibles puede llevar a estimaciones inadecuadas. Por ejemplo, el uso de la estimación bayesiana puede resultar contraproducente si las distribuciones previas son mal escogidas (Baker, 1990; Harwell y Janosky, 1991). Si se fija, por ejemplo, que la media de la distribución previa del parámetro a es 1,5 y en nuestro test los ítems son poco discriminativos, los parámetros a de los ítems pueden resultar sobrestimados. Por ello es recomendable, si el número de ítems es suficiente (p. ej., 20), estimar la media de la distribución previa (p. ej., mediante la opción FLOAT en BILOG). Una estrategia orientativa puede ser calcular los errores típicos esperados para los parámetros de los ítems. Si se conocen los parámetros θ de los evaluados, los errores típicos del parámetro εj (εj : aj, bj o cj) de un ítem j pueden aproximarse como:
Se(ε j ) ≡ σ (εˆ j | ε j ) =
1 I (ε j )
[11.37]
donde I(εj) es la función de información para el parámetro εj del ítem j. La función de información del ítem j es la suma a través de los evaluados:
Capítulo 11. TRI: Procedimientos estadísticos
I (ε j ) =
I
∑ I (ε i
j)
409 [11.38]
i =1
Las funciones de información para los parámetros aj, bj y cj se muestran en la Tabla 11.13, donde puede verse que la información para cada parámetro del ítem depende de los otros parámetros y de la θ del evaluado. Para estimar los parámetros a y b, las personas “más informativas” son aquellas cuya θ es próxima al parámetro b del ítem. La información proporcionada para estimar b será mayor cuanto mayor sea el parámetro a y menor el parámetro c el ítem. Para estimar el parámetro c, son más informativas las personas con niveles θ bajos.
Tabla 11.13. Ecuaciones para calcular la función de información en el ML3P Parámetro
Ecuación para calcular la función de información
aj
Pj* (θ ) I i (a j ) = (θ − b j ) 2 D 2 Pj* (θ )Q *j (θ )(1 − c j ) Pj (θ ) Pj* (θ ) Pj (θ )
bj
I i (b j ) =
D 2 a 2j Pj* (θ )Q *j (θ )(1 − c j )
cj
I i (c j ) =
Q j (θ ) 2 P (θ ) (1 − c j ) j 1
[11.39] [11.40]
[11.41]
Una manera de anticipar cuál sería la información para el parámetro de un ítem es asumir una distribución normal para el nivel de rasgo, g(θ) ~ N(0, 1). En este caso, se puede calcular la función de información para el parámetro del ítem como:
I (ε j ) = N
Q
∑ g (θ
q ) I q (ε j )
[11.42]
q =1
Finalmente, si se utiliza estimación bayesiana (MMAP) pueden sumarse a la ecuación [11.41] la información proporcionada por la distribución previa; por ejemplo, si se asume una distribución normal para el parámetro εj ~ N(µεj,σεj) se añadiría el término:
I previa (ε j ) =
1
σ ε2 j
[11.43]
Para otras distribuciones previas distintas de la normal puede consultarse el trabajo de Kim (2007).
410 Medición en Ciencias Sociales y de la Salud TRI: Software Software para el contraste de la unidimensionalidad Para probar el cumplimiento de los supuestos de independencia local o unidimensionalidad pueden utilizarse programas que incluyan modelos de análisis factorial de variables dicotómicas o politómicas. NOHARM (Fraser y McDonald, 1988), TESTFACT (Bock y cols., 2003), PRELIS-LISREL (Joreskog y Sorbom, 2007), MPLUS (Muthen y Muthen, 2006), FACTOR (Lorenzo y Ferrando, 2006), CEFA (Browne, Cudeck, Tateneni y Mels, 1998) o MICROFACT (Waller, 2001) son algunas de las alternativas. No hay programas claramente mejores o peores. Por ejemplo, algunos de estos programas (TESTFACT o NOHARM) tienen un uso restringido para ítems de respuesta dicotómica pero, a la vez, permiten que el investigador incluya un parámetro de adivinación (que, en principio, parece lo apropiado cuando trabajamos con ítems de opción múltiple). Otros programas (p. ej., MPLUS) proporcionan procedimientos robustos de estimación que son menos sensibles al tamaño de la muestra. Todos estos programas permiten comprobar el grado de ajuste de la solución unidimensional. Nosotros recomendamos FACTOR y NOHARM ya que ambos son programas de libre distribución. Además, el programa FACTOR es de uso sencillo e incluye el procedimiento de Análisis Paralelo para tomar decisiones sobre el número de factores (ver capítulo 6). Para aplicar el programa NOHARM se requiere construir un fichero de sintaxis como el mostrado en el Cuadro 11.3.
Cuadro 11.3. Aplicación del programa NOHARM (Formato del fichero de sintaxis) 7 ítems y 1 dimensión 7 1 2000 1 1 0 0 0 0 0 0 0 0 0 0 0.90650 0.72700 0.77500 0.48750 0.44350 0.52300 0.69600 0.62100 0.42800 0.27000 0.25600 0.16850 0.32150 0.30250 0.21350 0.58050 0.51550 0.35600
0.75600 0.23300 0.28850 0.28550 0.12900 0.33900 0.49600 0.20900 0.28000 0.62450
La estructura de la sintaxis es la siguiente: 1. Título: Nombre para el análisis de hasta 80 caracteres. 2. Línea de control. Separados por espacios deben aparecer: – 7 (el número de ítems). – 1 (el número de dimensiones). – 2000 (el número de personas). – 1 (para leer la matriz de varianzas-covarianzas no centrada). – 1 (para realizar un análisis factorial exploratorio). – 0 (para que el programa genere los valores iniciales). – 0 (para que imprima en la salida los datos de entrada). – 0 (para que nos proporcione la matriz de residuos). 3. El parámetro c estimado para todos los ítems. En nuestro ejemplo, al tratarse del modelo de 2 parámetros: 0 0 0 0 0 0 0 (habría que poner tantos valores como ítems). 4. En las siguientes líneas, se proporciona la matriz de varianzas-covarianzas no centrada (que se obtiene ejecutando el programa PRODMOM). Los valores en la diagonal son las proporciones de
Capítulo 11. TRI: Procedimientos estadísticos
411
acierto de cada uno de los 7 ítems. El valor 0,727 es la proporción de personas que acierta los ítems 1 y 2; 0,4875 es la proporción de personas que acierta los ítems 1 y 3, etc.
Cuadro 11.4. Resultados al aplicar el programa NOHARM NOHARM (PC version) Fitting a (multidimensional) Normal Ogive by Harmonic Analysis - Robust Method Input File : cov.out Title : 7 ítems, 1 dimensión Number of items = 7 Number of dimensions = 1 Number of subjects = 2000 An exploratory solution has been requested. […] ITEM COVARIANCE MATRIX 1 2 1 0.085 2 0.024 0.174 3 0.013 0.038 4 0.011 0.035 5 0.008 0.032 6 0.014 0.040 7 0.014 0.032
3 0.249 0.033 0.018 0.036 0.029
4
5
0.184 0.015 0.029 0.024
6
0.205 0.031 0.029
7
0.224 0.068
0.234
[…] RESIDUAL MATRIX (lower off-diagonals) 1 2 3 4 2 -0.007 3 -5.4E-04 -0.007 4 0.001 -0.006 -0.010 5 0.001 -0.009 0.003 0.003 6 0.004 0.006 0.005 0.005 7 0.003 0.011 0.005 0.006
5
6
0.003 -0.002
-0.016
Sum of squares of residual (lower off-diagonals) = 8.72678490033248E-0004 Root mean square of residual (lower off-diagonals) = 6.44640353786604E-0003 Tanaka index of goodness of fit = 9.96341610877559E-0001 […] (c) LORD`S PARAMETERIZATION - for the unidimensional case ========================================================= VECTOR A : Discrimination parameters 1 2 3 4 0.540 0.833 0.444 0.497
5 0.414
6 0.965
7 0.660
VECTOR B : Difficulty parameters 1 2 3 4 -2.776 -1.180 -0.142 -1.559
5 1.459
6 0.598
7 -0.576
En el Cuadro 11.4 se muestran los resultados al aplicar el AF no lineal a estos datos. El valor del índice de ajuste RMSR es 0,00644 y el índice γULS de Tanaka es 0,996. El mayor residuo aparece entre los ítems 6 y 7 (-0,016). Los parámetros a y b se muestran en métrica normal. Por ejemplo, el ítem 7 tiene parámetros a = 0,660 y b = −0,576.
412 Medición en Ciencias Sociales y de la Salud El programa CHIDIM (de Champlain y Tang, 1997) permite probar estadísticamente si los residuos fuera de la diagonal (utilizando el modelo de análisis factorial implementado en el programa NOHARM) son estadísticamente distintos de 0. Existen otros programas especializados que incluyen otros procedimientos (no descritos en este libro) para contrastar la unidimensionalidad y la independencia local, como son IRTNEW (Chen, 1998), que proporciona los estadísticos descritos en el trabajo de Chen y Thissen (1997), y los programas DIMTEST (Stout et al., 1992), HCA/CCPROX (Roussos, Stout y Marden, 1998) y DETECT (Zhang y Stout, 1999), que se basa en el uso de modelos no paramétricos. Remitimos al lector interesado al trabajo de Tate (2003).
Software para contrastar el ajuste de los modelos Un problema de algunos programas de TRI (p. ej., MULTILOG o PARSCALE) es que carecen de estadísticos de bondad de ajuste adecuados. Para cubrir esta laguna se han desarrollado diversos programas de libre distribución (MODFIT y IRTFIT_RESAMPLE) que resultan muy útiles para comprobar el ajuste de modelos dicotómicos y politómicos. El programa MODFIT (Stark, 2001a) es una aplicación que funciona en Microsoft Excel y que permite obtener diversos indicadores de ajuste para todos los modelos vistos. El programa IRTFIT_RESAMPLE (Stone, 2004) es una aplicación de SAS que permite calcular índices de ajuste basados en las probabilidades posteriores (Stone y Zhang, 2003). Finalmente, el programa GOODFIT (Orlando y Thissen, 2000) permite obtener los índices de ajuste propuestos por estos dos autores. El programa EO-FIT permite el cálculo del ajuste entre la distribución esperada según la TRI y la distribución observada (Ferrando y Lorenzo, 2001)
Software para la calibración de modelos de TRI La aplicación de los modelos de TRI requiere cálculos complejos que hacen necesaria la utilización de programas informáticos. Existe una lista extensa de programas que se pueden utilizar para la estimación de parámetros en la TRI: BILOG (Mislevy y Bock, 1990), BILOG-MG (Zimowski, Muraki, Mislevy y Bock, 2003), LOGIST, ASCAL, XCALIBRE (ASC, 1988), MULTILOG (Thissen, 2003), PARSCALE (Muraki y Bock, 2003) y un largo etcétera. Estos programas incluyen también medidas de ajuste de un ítem al modelo concreto que se está aplicando. Distintos programas permiten la estimación de distintos modelos, a la vez que proporcionan distinta información sobre el ajuste a los datos o sobre la comprobación de los supuestos. Desgraciadamente, no existe un único programa que permita estimar todos los modelos u obtener todos los indicadores de ajuste o del cumplimiento de los supuestos. Los programas más populares para la estimación de modelos dicotómicos son BILOG, ASCAL, XCALIBRE, RASCAL o MULTILOG. También existe un número amplio de programas especializados en los modelos de Rasch: WINMIRA (von Davier, 2001), WINSTEPS (Linacre, 2006b), BIGSTEPS (Linacre y Wright, 1998), CONQUEST (Wu, Adams y Wilson, 1998), FACETS (Linacre, 2006a), LPCM-WIN (Fischer y Ponocny-Seliger, 1998), etc. Estos programas permiten la estimación de modelos y proporcionan información detallada del ajuste de los ítems y de las personas. El programa OPLM (Verhelst, Glas y Verstralen, 1995) permite la estimación de la extensión del modelo de Rasch en la que el investigador imputa los parámetros de discriminación. En la página http://www.winsteps.com/rasch.htm puede encontrarse información actualizada sobre múltiples programas para estimar los modelos de Rasch. Otro programa con un futuro prometedor es ICL, de libre distribución, que permite la estimación de parámetros de una gran variedad de modelos unidimensionales dicotómicos (Hanson, 2002). Finalmente, pueden utilizarse librerias específicas en programas estadísticos de propósito general. Por ejemplo, en el paquete R existen librerías para aplicar los modelos de TRI (Rizopoulos, 2006). La
Capítulo 11. TRI: Procedimientos estadísticos
413
revista Journal of Statistical Software ha dedicado un número especial a las librerías de R para realizar análisis psicométricos (Leeuw y Mair, 2007). El artículo de Elosua (2009) es una buena fuente de información para aquellos que desean introducirse en el aprendizaje del paquete R. En el presente apartado nos centraremos en el manejo básico de MULTILOG, que requiere preparar el fichero de datos y construir un fichero de sintaxis como se muestra en los Cuadros 11.5 y 11.6.
Cuadro 11.5. Aplicación del programa MULTILOG (Formato del fichero de datos) FORMATO DEL ARCHIVO DE DATOS Se requiere que los datos de entrada (las respuestas de las personas a los ítems) se encuentren en formato de “sólo texto” o ASCII. Para introducir los datos en ese formato puede utilizarse el editor de Windows “Bloc de notas” o cualquier otro editor de textos (siempre que al salvar el fichero lo salvemos con el formato ASCII). Ejemplo de fichero de datos Fichero de datos con individuos 0001 1111111 0002 1111111 0003 1111101 0004 1110111 0005 1111101 …
Fichero de datos con patrones de respuesta 0001 1111111 10 0002 1111111 5 0003 1111101 3 0004 1110111 1 0005 1111101 6 …
Si se trata de un fichero con datos de individuos, los datos de cada persona ocupan una única línea. La identificación de la persona debe ocupar las primeras columnas (en este caso, ocupa las cinco primeras). Luego vienen las respuestas a los ítems (cada ítem en una columna). Si se trata de un fichero con patrones de respuestas, los datos de cada patrón ocupan una única línea. La identificación del patrón debe ocupar las primeras columnas (en este caso, ocupa las cinco primeras). Después vienen las respuestas a los ítems que se corresponden con ese patrón (cada ítem en una columna). El número de personas con cada patrón ocupa las últimas columnas (en este caso, las cinco últimas).
414 Medición en Ciencias Sociales y de la Salud Cuadro 11.6. Aplicación del programa MULTILOG (Formato del fichero de sintaxis) Ejemplo de análisis de un test de 7 ítems con el modelo de 3 parámetros >PROBLEM RANDOM, INDIVIDUAL, DATA = 'p.DAT', NITEMS = 7, NEXAMINEES = 2000, NCHARS = 5; >TEST ALL, L3; >PRIORS ALL, AJ , PARAMS=( 1.7,1.0); >PRIORS ALL, CK = 1, PARAMS=( 0.0,1.0); >PRIORS ALL, DK = 1, PARAMS=(-1.1,1.0); >EST, NC = 100; >SAVE; >END ; 3 018 1111111 Y 8 (5A1,7A1) La estructura de la sintaxis es la siguiente2: 1. Las dos primeras líneas constituyen el título de la sintaxis. Cada comando posterior (PROBLEM, TEST, etc.) debe comenzar con “>” y terminar con “;”. Dentro de cada comando, las instrucciones se separan con “,”. Los comandos son: PROBLEM (obligatorio): permite especificar: Tipo de problema (a elegir): RANDOM: Para estimar los parámetros de los ítems. SCORE: Para estimar los niveles de rasgo por el método MAP. SCORE, NOPOP: Para estimar los niveles de rasgo por el método ML. Tipo de datos (a elegir): INDIVIDUAL: Si cada línea del fichero de datos es un individuo. PATTERN: Si cada línea del fichero de datos es un patrón de respuestas, seguido de la frecuencia de ese patrón de respuestas. Nombre del fichero de datos (obligatorio): DATA = ‘nombrefichero.dat’ Número de ítems: NITEMS = J: J es el número de ítems. Número de personas (obligatorio para la opción INDIVIDUAL): NEXAMINEES = N: N es el número de evaluados. 2
Es importante conocer que MULTILOG sólo lee las 80 primeras columnas en los ficheros de sintaxis. Si un comando o instrucción ocupa más de 80 caracteres de una línea, se deben separar las instrucciones en varias líneas.
Capítulo 11. TRI: Procedimientos estadísticos
415
Número de evaluados (obligatorio para la opción PATTERN): NPATTERNS = P: P es el número de patrones de respuesta. Longitud del identificador (opcional): NCHAR = A: A es el número de caracteres del identificador. TEST (obligatorio): permite especificar qué modelo se aplica a cada ítem. Cada comando TEST requiere especificar: A qué ítems se aplicar el modelo: ALL: Indica que se aplica el modelo a todos los ítems. ITEMS = (1(1)4, 6): Indica que se aplica el modelo a los ítems 1, 2, 3, 4 y 6. El modelo que se aplica a esos ítems: L1: Modelo de un parámetro. L2: Modelo de dos parámetros. L3: Modelo de tres parámetros. PRIORS (opcional): Se usa cuando se estiman los parámetros de los ítems (opción RANDOM); permite especificar las distribuciones previas. Puede haber varios. Cada comando PRIORS requiere especificar: A qué ítem se aplica la distribución previa: ALL: Indica que las distribuciones previas se aplican a todos los ítems. ITEMS = (1(1)4, 6): Indica que las distribuciones previas se aplican a los ítems del 1, 2, 3, 4 y 6. A qué parámetro del modelo se refiere la distribución previa: AJ: Para especificar la distribución previa del parámetro aCOEFF (a en métrica logística) en los modelos logísticos de uno, dos o tres parámetros. CK = 1: Para especificar la distribución previa del parámetro cCOEFF = –b/a en el modelo logístico de tres parámetros. BJ: Para especificar la distribución previa del parámetro b en los modelos logísticos de uno o de dos parámetros. DK = 1: Para especificar la distribución previa del parámetro dCOEFF = logit(c) en el modelo logístico de tres parámetros. Cuáles son los parámetros de la distribución previa: PARAMS(m, DT): Parámetros de la distribución previa; m indica la media y DT indica la desviación típica. START ALL (obligatorio cuando se estiman los parámetros de los evaluados): permite especificar el fichero de parámetros de los ítems; requiere especificar: El nombre del fichero con los parámetros de los ítems obtenido previamente: PARAM = ‘nombrefichero.par’;. SAVE (opcional): indica que se salvarán los parámetros estimados en un fichero. EST (opcional): permite aumentar el número de ciclos de la estimación MML, para asegurar que se alcanza el criterio de convergencia; requiere especificar: El número de ciclos: NC = l: l es el número de ciclos. END; (obligatorio): determina el fin de las instrucciones para modelar los datos y el comienzo de las instrucciones para leer las respuestas del fichero de datos.
416 Medición en Ciencias Sociales y de la Salud Después de los comandos aparecen las líneas que especifican el formato del archivo de datos. Primera línea: contiene el número de códigos posibles en el fichero, 3. Segunda línea: Contiene los códigos de respuesta posibles, 018. Tercera línea: Contiene la respuesta correcta para cada ítem, 1111111. Cuarta línea: Respuesta a la pregunta, ¿hay un código para los valores perdidos3?, Y. Quinta línea (si la cuarta línea es Y ): Código para los valores perdidos, 8. Quinta línea (si la cuarta línea es N ) o sexta línea (si la cuarta línea es Y ): Para ficheros de individuos: Se especifican las columnas que ocupan el identificador y los ítems; (5A1,7A1) indica que el identificador ocupa las cinco primeras columnas y que las respuestas a los ítems ocupan las 7 siguientes. Para ficheros de patrones: Se especifican las columnas que ocupan el identificador, los ítems y el número que indica la frecuencia de ese patrón; (5A1,7A1, F5.0) indica que el identificador ocupa las cinco primeras columnas, que las respuestas a los ítems ocupan las siete siguientes y que la frecuencia de personas con un patrón ocupa las cinco columnas siguientes. En el Cuadro 11.6 se muestran los resultados para el ítem 1, obtenidos al aplicar el ML3P a estos datos. El proceso iterativo de estimación terminó en 30 ciclos, menor que el máximo impuesto (100 ciclos). Por tanto, se alcanzó la convergencia. En métrica normal, los parámetros estimados a, b y c para el ítem 1 son 0,68, –1,92 y 0,33, respectivamente. En el fichero de resultados también se informa de los parámetros que estima y para los que, de hecho, se fijan las distribuciones previas: ACOEFF (que es el parámetro a en métrica logística), CCOEFF (–1,702ab) y DCOEFF (que es el logit del parámetro c, ln[c/(1 – c)] ). A continuación se muestran los valores de la función de información para ese ítem para distintos niveles θ, entre –3 y 3, tomando intervalos de 0,2. El ítem 1 es máximamente informativo para niveles θ en torno a -1,6. Por último, se muestra la información del test completo si se utilizara la estimación MAP (según la ecuación [11.13]), la desviación típica posterior (según la ecuación [11.14]) y el coeficiente de fiabilidad marginal, según la ecuación [4.29].
3
El tratamiento de las omisiones es un tema complejo. Si el test es de rendimiento óptimo, las omisiones deberían ser tratadas como valores perdidos. Si el test es de rendimiento óptimo las omisiones deberían ser tratadas como valores perdidos si se corresponden con ítems no alcanzados (i. e., al final del test) y como errores en caso contrario. El programa BILOG incluye una omisión que permite reemplazar en la función de verosimilitud, L(a, b, c), la probabilidad de omisión por la probabilidad de una respuesta fraccionalmente correcta (que sería equivalente a utilizar la fórmula de corrección del azar en la TCT). La probabilidad de omitir se define en la función de verosimilitud como: P( X j = O | θ ) ≡ P j (θ )1 / K Q j (θ )1−1 / K
Capítulo 11. TRI: Procedimientos estadísticos
417
Cuadro 11.6. Resultados de MULTILOG FINISHED CYCLE 30 MAXIMUM INTERCYCLE PARAMETER CHANGE=
0.00070 P(
19)
[…] ITEM 1: 2 NOMINAL CATEGORIES, 2 HIGH TRADITIONAL 3PL, NORMAL METRIC: A B 0.68 -1.92 FOR: CONTRAST P(#) 1 1 @THETA: -3.0 - -1.6 -1.4 - 0.0 0.2 - 1.6 1.8 - 3.0
C 0.33
CONTRAST-COEFFICIENTS (STANDARD ERRORS) A C COEFF.[ DEV.] P(#) COEFF.[ DEV.] P(#) 1.16 (0.15) 2 2.24 (0.35) 3
INFORMATION: 0.073 0.093 0.176 0.168 0.064 0.052 0.012 0.009
D COEFF.[ DEV.] -0.72 (0.86)
(Theta values increase in steps of 0.2) 0.114 0.134 0.153 0.167 0.176 0.179 0.155 0.140 0.124 0.107 0.091 0.077 0.043 0.035 0.028 0.023 0.018 0.015 0.007 0.006 0.005 0.004 0.003
[…] TOTAL TEST INFORMATION @THETA: INFORMATION: -3.0 - -1.6 1.133 1.180 -1.4 - 0.0 1.866 1.972 0.2 - 1.6 2.977 3.106 1.8 - 3.0 1.779 1.625 @THETA: -3.0 - -1.6 -1.4 - 0.0 0.2 - 1.6 1.8 - 3.0
1.404 2.221 2.725 1.339
1.509 2.344 2.461 1.282
1.626 2.527 2.201 1.236
1.748 2.758 1.971
POSTERIOR STANDARD DEVIATION: 0.939 0.921 0.898 0.872 0.844 0.732 0.712 0.697 0.684 0.671 0.580 0.567 0.568 0.582 0.606 0.750 0.784 0.815 0.842 0.864
0.814 0.653 0.637 0.883
0.784 0.629 0.674 0.900
0.756 0.602 0.712
MARGINAL RELIABILITY:
1.240 2.060 3.096 1.505
0.5723
1.314 2.136 2.954 1.412
12
Modelos politómicos de TRI: modelos para ítems de categorías ordenadas Introducción
La mayoría de los tests pensados para la medición de actitudes y rasgos de personalidad se componen de ítems con un formato de respuesta graduada en el que se pide el grado de acuerdo con una afirmación o la frecuencia de un determinado comportamiento. Generalmente, el formato de respuesta incorpora más de dos categorías. Existen modelos de TRI que permiten formalizar la relación entre el nivel de rasgo θ y la probabilidad de elegir cada una de las K categorías de respuesta, a los que se denomina modelos politómicos. Los modelos politómicos de TRI tienen las ventajas asociadas a cualquier modelo de la TRI, que ya se mencionaron en el capítulo 4. Por ejemplo, se obtienen medidas de lo preciso que es el test en cada nivel de rasgo y medidas de bondad de ajuste que indican si es adecuado aplicar el modelo psicométrico a los datos. Además, los modelos politómicos proporcionan información muy útil para estudiar la calidad de los ítems y sobre los procesos de respuesta de los evaluados. En este capítulo se estudia fundamentalmente uno de los modelos más aplicados: el modelo de respuesta graduada. Existen también otros modelos específicos para categorías ordenadas (p. ej., el modelo de crédito parcial) o para datos de opción múltiple (p. ej., el modelo nominal) pero, por cuestiones de espacio y dada su mayor complejidad o menor nivel de aplicación, se tratarán con menor detalle. Una descripción sencilla de estos modelos puede encontrarse en Embretson y Reise (2000), mientras que una descripción más técnica se incluye en Van der Linden y Hambleton (1997). Dos libros recientes han sido publicados sobre modelos politómicos, el de Revuelta, Abad y Ponsoda (2006), en español, y el de Ostini y Nering (2006), en inglés.
420 Medición en Ciencias Sociales y de la Salud
El modelo de respuesta graduada (MRG) El modelo de respuesta graduada (MRG) es un modelo para ítems de categorías ordenadas, es decir, un modelo donde las categorías de respuesta pueden ordenarse “a priori” por el grado en el que implican un nivel de rasgo mayor. Por ejemplo, considere el siguiente ítem de un test para medir Ansiedad: Es una persona con muchas preocupaciones Muy en Desacuerdo
En Desacuerdo
Ni de acuerdo ni en desacuerdo
De Acuerdo
Muy de Acuerdo
Las opciones pueden ordenarse teóricamente por el nivel de rasgo que implica elegirlas. Por ejemplo, se espera que elegir la opción Muy de acuerdo implique un mayor nivel de rasgo (Ansiedad) que elegir la opción De acuerdo. El MRG fue propuesto por Samejima (1969; 1972), la función de probabilidad acumulada [P*(Xj ≥ k | θ)] se modela mediante el ML2P (k: 1, 2,…K):
P*jk (θ ) ≡ P*(X j ≥ k|θ ) =
1 1 + exp (− D a j (θ − b jk −1 ))
[12.1]
Estas curvas se denominan curvas características operantes (CCO), cada una de las cuales representa la probabilidad de elegir una categoría igual o superior a k, que se incrementa con el nivel de rasgo. Veamos en la Figura 12.1 las CCO para dos ítems con 5 categorías de respuesta (K = 5). Por ejemplo, CCO5, P*j5 (θ ), representa la probabilidad de escoger la categoría 5 frente a las categorías 1, 2, 3 y 4. La curva CCO4, P*j4 (θ ), es la probabilidad de escoger las categorías 4 y 5 (frente a las categorías 1, 2 y 3). Obviamente, CCO1 no se representa pues la probabilidad de elegir la categoría 1 o superior es igual a 1. Los parámetros a y b, que modulan la forma de una CCO, se interpretan de la siguiente forma: 1. Los parámetros bjk (bj1, bj2, …, bjK–1) indican la posición de las CCO en relación al eje de abscisas (cuanto mayores los parámetros bjk más hacia la derecha se encontrará la CCO). Un ítem de K categorías ordenadas tiene K – 1 parámetros bjk.que indican el nivel de rasgo θ donde la probabilidad de escoger k + 1 o superior es 0,5. Por ejemplo, en el ítem 1 de la Figura 12.1 (gráfica de la derecha) el parámetro b12 = –2,5; esto quiere decir que la probabilidad de escoger la categoría 3 o superior alcanza el valor 0,5 cuando θ = –2,5. Puesto que el parámetro b12 es un valor muy bajo no es necesario tener un nivel alto en θ para escoger la categoría 3 u otra superior. En general, cuanto menores sean los parámetros bjk de un ítem, menor será el nivel de θ necesario para puntuar alto en ese ítem. Por ejemplo, en el ítem 2 los parámetros b son mayores y, por ello, las CCO están más a la derecha, lo que implica que hay que tener un mayor nivel de rasgo para puntuar alto.
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
421
2. El parámetro aj de discriminación (uno para cada ítem) es proporcional a la pendiente que tienen las CCO cuando θ = bk. Si θ se expresa en puntuaciones típicas y D = 1,702, los valores a suelen oscilar entre 0,3 y 2,5. En la Figura 12.1 puede observarse que el ítem 2 tiene CCO con mayor pendiente (la probabilidad de elegir una categoría o superior cambia más abruptamente, como función del nivel de rasgo, que en el ítem 1). Figura 12.1. CCO para el ítem 1 con parámetros a = 1, b1 = –3, b2 = –2,5, b3 = –1,5 y b4 = 0 (izquierda) y para el ítem 2 con parámetros a = 2, b1 = –1, b2 = –0,5, b3 = 0 y b4 = 0,5 (derecha) 1,0
0,9 0,8 0,7 0,6 0,5
CCO2
0,4 0,3
CCO3
0,2
CCO4
0,1
CCO5
0,9 0,8 0,7 0,6 0,5
CCO2
0,4 0,3
CCO3
0,2
CCO4
0,1
CCO5
θ
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
Prob. de elegir k o mayor en el ítem
Prob. de elegir k o mayor en el ítem
1,0
θ
A partir de las CCO, pueden deducirse las probabilidades de elegir las opciones como función del nivel de rasgo. Antes es necesario definir dos restricciones lógicas: P*j1(θ ) = 1
[12.2]
Lo que indica que, al responder al ítem, la probabilidad de escoger la categoría 1 o superior es 1. Además se define que: P*jK+1(θ ) = 0
[12.3]
Lo que indica que la probabilidad de escoger categorías superiores a la máxima categoría del ítem (K) es 0. Considerando las ecuaciones anteriores, la probabilidad de escoger la categoría k se puede obtener restando las correspondientes probabilidades acumuladas consecutivas:
Pjk (θ ) ≡ P(X j = k|θ ) = P*jk (θ ) − P*jk +1(θ )
[12.4]
Donde P*jk+1 (θ ) no debe confundirse con P*jK+1 (θ ). La lógica de la ecuación [12.4] es sencilla: si a la probabilidad de escoger k o superior le restamos la probabilidad de escoger k + 1 o superior, el resultado es la probabilidad de escoger la opción k; por ello, el MRG es un “modelo de diferencias” (Thissen y Steinberg, 1986). La representación de las probabilidades de escoger la opción k como función del nivel de rasgo, Pjk(θ ), se denomina Curva de la Categoría de Respuesta k (CCR). Por ejemplo, para un ítem de 5 categorías ordenadas:
422 Medición en Ciencias Sociales y de la Salud Pj1 (θ ) = P*j1(θ ) − P*j2(θ ) = 1 − P*j2(θ ) Pj 2 (θ ) = P*j2(θ ) − P*j3(θ ) Pj 3 (θ ) = P*j3(θ ) − P*j4(θ ) Pj 4 (θ ) = P*j4(θ ) − P*j5(θ ) Pj 5 (θ ) = P*j5(θ ) − P*j6(θ ) = P*j5(θ )
Ejemplo 12.1. Cálculo de las CCO y las CCR en el MRG En el ítem 1 (con parámetros a = 1, b1 = –3, b2 = –2,5, b3 = –1,5 y b4 = 0), vamos a calcular la probabilidad que tiene de escoger cada una de las 5 categorías alguien con θ = 0. Primero, se calculan las CCO:
P*j2(θ = 0) =
1 1 = = 0,994 1 + exp (− D a j (θ − b j1 )) 1 + exp (−1,702 (1) (0 − (−3)))
P*j3(θ = 0) =
1 1 = = 0,986 1 + exp (− D a j (θ − b j 2 )) 1 + exp (−1,702 (1) (0 − (−2,5)))
P*j4(θ = 0) =
1 1 = = 0,928 1 + exp (− D a j (θ − b j 3 )) 1 + exp (−1,702 (1) (0 − (−1,5)))
P*j5(θ = 0) =
1 1 = 0,5 = 1 + exp (− D a j (θ − b j 4 )) 1 + exp (−1,702 (1) (0 − 0))
La probabilidad de escoger cada categoría sería:
Pj1 (θ = 0 ) = 1 − P*j2(θ = 0) = 1 − 0,994 = 0,006 Pj 2 (θ = 0) = P*j2(θ = 0) − P*j3(θ = 0) = 0,994 − 0,986 = 0,008 Pj 3 (θ = 0) = P*j3(θ = 0) − P*j4(θ = 0) = 0,986 − 0,928 = 0,058
Pj 4 (θ = 0) = P*j4(θ = 0) − P*j5(θ = 0) = 0,928 − 0,5 = 0,428 Pj 5 (θ = 0) = P*j5(θ = 0) = 0,5 Es decir, que lo más probable es que esta persona tenga una puntuación alta en el ítem (tiene una probabilidad de 0,928 de escoger la opción 4 o la opción 5).
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
423
En relación a las CCR, los parámetros a y b se interpretan de la siguiente forma: 1. Los parámetros bjk (bj1, bj2, …, bjK–1). Cuanto más próximos estén 2 parámetros b sucesivos (bk–1 y bk), menos elegida será la categoría k. En la Figura 12.2 se representan las CCR de los ítems con las CCO representadas en la Figura 12.1. Puede observarse que en el ítem 1 la categoría 2 es muy poco elegida; esto ocurre porque las CCO2 y CCO3 están muy cerca. En el ítem 1, los parámetros b11 y b12 están muy próximos (b11 = –3; b12 = –2,5) y, por tanto, la categoría 2 no es la más escogida para ningún nivel de rasgo. En el ítem 2 los parámetros b están igualmente espaciados, por lo que las categorías 2, 3 y 4 tienen CCR similares (i. e., la misma curva desplazada). Además los parámetros bjk se relacionan con los niveles de rasgo donde las CCR alcanzan la máxima probabilidad de elección de una categoría (sin considerar las categorías 1 y K ). En concreto, la categoría k es máximamente elegida en el punto (bk–1 + bk) / 2. Por ejemplo, en el ítem 2, la categoría 3 es máximamente escogida en el nivel θ = –0,25 [= (–0,5 + 0) / 2] y la categoría 4 en el nivel θ = 0,25 [= (0 + 0,5) / 2]. 2. El parámetro aj. El parámetro aj se relaciona con el grado de apuntamiento de las CCR: a mayor parámetro aj, mejor diferencian las categorías de respuesta entre diferentes niveles de rasgo (ya que menor es el solapamiento entre las curvas de respuesta).
1,0
1,0
0,9
0,9
0,8
0,8
0,7 0,6
CCR1
0,5
CCR2
0,4
CCR3
0,3
CCR4
0,2
CCR5
0,1 0,0
Prob. de elegir k en el ítem
0,7 0,6
CCR1
0,5
CCR2
0,4
CCR3
0,3
CCR4
0,2
CCR5
0,1
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0
θ
-4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
Prob. de elegir k en el ítem
Figura 12.2. CCR para el ítem 1 con parámetros a = 1, b1 = –3, b2 = –2,5, b3 = –1,5 y b4 = 0 (izquierda) y para el ítem 2 con parámetros a = 2, b1 = –1, b2 = –0,5, b3 = 0 y b4 = 0,5 (derecha)
θ
La puntuación esperada en el ítem y la Curva Característica del Test En un modelo politómico, las CCR indican la probabilidad de escoger cada opción k en cada nivel de rasgo. También puede obtenerse la puntuación esperada en el ítem para cada nivel de rasgo:
ε (X j | θ) =
K
∑P k =1
jk
(θ )k
[12.5]
424 Medición en Ciencias Sociales y de la Salud que es una suma de las puntuaciones posibles (k: 1, 2,…,K), ponderadas por la probabilidad de obtenerlas en un nivel determinado θ. Obsérvese que la puntuación esperada en un ítem dicotómico coincide con la probabilidad de acierto; en efecto, para ítems dicotómicos (k: 0, 1):
ε (X j | θ) =
K
∑P
jk (θ ) k
= (1 − Pj (θ ))0 + Pj (θ )(1) = Pj (θ )
k =1
En el caso de ítems politómicos, también puede obtenerse la Curva Característica del Test (ver capítulo 4), que representa la puntuación esperada en el test como función de θ. El valor de la CCT, dado θ, se obtiene como la suma de las puntuaciones esperadas en los ítems para el valor θ, que en este caso será:
ε (X | θ) =
J
∑ j =1
ε j (X j | θ) =
J
K
∑∑ P
jk (θ ) k
[12.6]
j =1 k =1
Supuestos de unidimensionalidad e independencia local La aplicación de un modelo politómico requiere, como en el caso dicotómico, contrastar si se cumplen los supuestos de unidimensionalidad e independencia local (ver capítulo 4). El contraste de la unidimensionalidad puede realizarse mediante un análisis factorial de las correlaciones policóricas (ver capítulo 6); si los ítems tienen más de tres categorías pueden obtenerse resultados satisfactorios con la matriz de correlaciones de Pearson. El contraste de la independencia local puede llevarse a cabo mediante el análisis de las correlaciones residuales o mediante el análisis de las tablas de contingencia por pares de ítems (p. ej., con el programa MODFIT). Si se cumple la independencia local, las correlaciones residuales deberían ser cercanas a cero y las frecuencias observadas en las tablas de contingencia deberían ser similares a las esperadas según el modelo. Para obtener las tablas de contingencia se procede como en el caso de los ítems dicotómicos, pero con algunas modificaciones (puesto que ahora tenemos varias opciones de respuesta). Para cada par de ítems, se construye una tabla de contingencia (Tabla 12.1) con las probabilidades observadas (O11, O12, O13,…) y teóricas según el modelo de TRI (E11, E12, E13,…) para cada posible patrón de respuestas en esos ítems. La probabilidad Okk’ es:
O kk ' =
n kk ' N
[12.7]
donde nkk’ es el número observado de personas que puntúan k en el ítem 1 y k’ en el ítem 2 (k, k’: 1, 2, …, K) y N es el número de personas que responden a los dos ítems.
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
425
Tabla 12.1. Probabilidades observadas (O11, O12, O13,,… y teóricas (E11, E12, E13,…) para cada posible patrón de respuestas en dos ítems de cuatro categorías de respuesta Ítem 2 1
Ítem 1
2
3
Ítem 2 4
1
2
3
4
1
O11 O12 O13 O14
1
E11 E12 E13 E14
2
O21 O22 O23 O24
2
E21 E22 E23 E24
3
O31 O32 O33 O34
3
E31 E32 E33 E34
4
O41 O42 O43 O44
4
E41 E42 E43 E44
Ítem 1
Para obtener la probabilidad esperada Ekk’ se siguen los siguientes pasos: 1. Se asume que las personas pueden ser clasificadas en Q grupos de θ y que en cada grupo con nivel θq hay una proporción g(θq) de personas que se corresponde con lo esperado según la distribución normal estándar. 2. En cada grupo q se calcula el número esperado de evaluados que puntúan k en el ítem 1 y k’ en el ítem 2, si el modelo de TRI es cierto y se cumple la independencia local: P(X1 = k, X2 = k’|θ) = P(X1 = k |θ) P(X2 = k’ |θ). Por ejemplo, la probabilidad de escoger la categoría 4 en dos ítems se obtiene como:
P( X 1 = 4, X 2 = 4 | θ ) = P14 (θ ) P24 (θ ) donde P14(θ ) y P24(θ ) son las probabilidades de escoger la categoría 4 en cada ítem según el modelo. 3. Se calcula la suma ponderada de las probabilidades esperadas en cada nivel de θ:
E kk ' =
Q
∑ P(X
1
= k , X 2 = k ' | θ q ) g( θ q )
[12.8]
q =1
A partir de las tablas de contingencia, puede obtenerse un estadístico χ 2 mediante el cual se contrasta si existen diferencias estadísticamente significativas entre las probabilidades observadas y esperadas:
χ2 = N
K
K
∑∑ k =1 k '=1
(Okk ' − E kk ' ) 2 E kk '
[12.9]
Algunos autores sugieren que si se cumple la hipótesis nula (el modelo se ajusta a los datos) el estadístico se distribuye según χ 2 con [(K x K) – 1] grados de libertad (Drasgow y otros, 1995). Como en el caso dicotómico, suele utilizarse como heurístico para tomar decisiones el cociente χ 2 / gl (si la ratio es mayor que 3 ó 5, se interpreta que hay problemas de dependencia local). También en este caso, puede aplicarse la corrección propuesta por
426 Medición en Ciencias Sociales y de la Salud Drasgow y otros (1995) para facilitar las comparaciones cuando se trabaja con distintos tamaños muestrales (ver capítulo 11). Estos indicadores χ 2 pueden obtenerse con el programa MODFIT.
Ejemplo 12.2. Comprobación del supuesto de unidimensionalidad Se analizaron las respuestas de 662 adultos a los ítems de una versión abreviada del Inventario de Preocupación de Pensilvania (los datos se han tomado de Gana, Martin y otros, 2002). Los enunciados y el formato de respuesta de los ítems se muestran en el Cuadro 12.1 (la traducción al español se ha tomado de Nuevo, Montorio y Ruiz, 2002). Cuadro 12.1. Versión abreviada del Inventario de Preocupación de Pensilvania Indique hasta qué punto se identifica con cada una de las situaciones que vamos a presentarle a continuación, referidas al modo que tienen las personas de preocuparse. Nada
Algo
Regular
Bastante
Mucho
1. Sus preocupaciones le agobian. 2. Hay muchas circunstancias que hacen que se preocupe. 3. Sabe que no debería preocuparse por las cosas, pero no puede evitarlo. 4. Cuando está bajo tensión, tiende a preocuparse mucho. 5. Siempre está preocupándose por algo. 6. Tan pronto como termina una tarea, empieza a preocuparse por alguna otra cosa que debería hacer. 7. Ha estado preocupado toda su vida. 8. Se da cuenta de que siempre está preocupándose por las cosas. Nota: Todos los ítems son directos
Para comprobar el supuesto de unidimensionalidad se obtuvo el ajuste del modelo de un factor. Se realizó un AFC con el programa MPLUS y un AFE con el programa FACTOR. Los resultados se muestran en la Tabla 12.2. El ajuste al modelo unidimensional confirmatorio es aceptable (TLI, CFI > 0,9) aunque algunos indicadores señalan un cierto desajuste (RMSEA > 0,08). El valor RMSR (raíz del promedio de las correlaciones residuales
427
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
al cuadrado) calculado sobre los elementos de la matriz de correlaciones policóricas es aproximadamente 0,04 (< 0,05). Tabla 12.2. Índices de ajuste en el Análisis Factorial Confirmatorio (1 factor) y Exploratorio (1 factor) (matriz de correlaciones policóricas) Modelo
Método de extracción
Núm. de factores
TLI
CFI
CFA EFA
RWLS (MPLUS) ULS (FACTOR)
1 1
0,971
0,990
GFI
RMSEA
RMSR
0,087
0,038 0,042
1,00
El porcentaje de varianza total explicado asociado al primer autovalor (4,78) es del 60% mientras que el porcentaje asociado al segundo (0,75) es del 9%. A partir del gráfico de sedimentación (ver Figura 12.3, izquierda) y del análisis paralelo sobre la matriz de correlaciones de Pearson (ver Figura 12.3, derecha), podría concluirse que la solución es unidimensional.
5
5
4
4
3
3
autovalor
autovalor
Figura 12.3. Izquierda: Gráfico de sedimentación (correlaciones policóricas); Derecha: Análisis Paralelo por Bootstrap (correlaciones de Pearson)
2 1
muestra empírica media en muestras aleatorias
2 1
0
0 1
2
3
4
5
Factor
6
7
8
1
2
3
4
5
Factor
6
7
Además, se obtuvieron pesos mayores que 0,4 para todos los ítems (ver Tabla 12.3). Tabla 12.3. Pesos en el primer factor (Solución unidimensional) (MPLUS) Ítems
Peso factorial
1
0,790
2
0,739
3
0,809
4
0,776
5
0,884
6
0,601
7
0,768
8
0,611
8
428 Medición en Ciencias Sociales y de la Salud Los residuos se muestran en la Tabla 12.4. El residuo más alto aparece entre los ítems 3 y 8 (–0,09). Varios de los residuos para el ítem 8 son estadísticamente significativos. A pesar de esto, las correlaciones residuales son ciertamente bajas (todas menores en valor absoluto que 0,10). Por tanto, puede concluirse que se cumple razonablemente el supuesto de unidimensionalidad. Tabla 12.4. Correlaciones residuales entre ítems (un factor) (MPLUS) 2 3
1
2
0,04* 0,01
0,00
3
4
5
6
4
0,00
0,03
-0,01
5
–0,02 –0,02 –0,03
–0,05**
0,02*
-0,01
-0,02
–0,02
-0,01
–0,07**
0,00
-0,04
0,03*
0,05
0,01
0,06**
–0,09**
0,05*
–0,06**
–0,04
6 7 8
7
0,04 0,04
Nota: Se marcan en negrita los residuos estadísticamente significativos, atendiendo a los índices de modificación (*p < 0,01; ** p < 0,001)
Tras contrastar la unidimensionalidad, se estimaron los parámetros de los ítems del MRG con el programa MULTILOG y se utilizó el programa MODFIT para contrastar el supuesto de independencia local. Los resultados se muestran en la Tabla 12.5. Tabla 12.5. χ 2 para cada par de ítems según el MRG Par de ítems
χ2
gl
χ 2 / gl
p
Par de ítems
χ2
gl
χ 2 / gl
p
1
2
20,461
21
0,974
0,492
3
5
30,841
20
1,542
0,057
1
3
22,93
21
1,092
0,348
3
6
36,289
23
1,578
0,039
1
4
14,845
21
0,707
0,831
3
7
28,032
21
1,335
0,139
1
5
20,945
19
1,102
0,340
3
8
23,89
21
1,138
0,298
1
6
22,815
22
1,037
0,412
4
5
15,354
18
0,853
0,638
1
7
20,353
21
0,969
0,499
4
6
20,791
21
0,99
0,472
1
8
19,005
20
0,95
0,522
4
7
10,992
21
0,523
0,963
2
3
24,999
20
1,25
0,201
4
8
35,479
22
1,613
0,035
2
4
25,225
21
1,201
0,238
5
6
32,143
23
1,398
0,097
2
5
45,563
20
2,278
0,001
5
7
20,981
21
0,999
0,460
2
6
29,585
22
1,345
0,129
5
8
56,808
20
2,84
0,000
2
7
14,643
20
0,732
0,796
6
7
29,305
24
1,221
0,209
2
8
35,819
21
1,706
0,023
6
8
26,099
21
1,243
0,203
3
4
45,255
21
2,155
0,002
7
8
50,232
21
2,392
0,000
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
429
Puede observarse que los ítems 5 y 8 aparecen implicados en varios de los valores X2 estadísticamente significativos. Sin embargo, todas las ratios X 2 / gl son menores que 3, lo que indica un ajuste aceptable del modelo a los datos. A partir de todos los análisis realizados puede concluirse que se cumple razonablemente el supuesto de independencia local.
Estimación de parámetros Una vez contrastados los supuestos de unidimensionalidad e independencia local, puede procederse a la obtención de los parámetros de los ítems según el modelo de respuesta graduada. El procedimiento de estimación más frecuente es el de Máxima Verosimilitud Marginal (MML). Se trata de encontrar los parámetros que maximizan la función de verosimilitud marginal, en la que se tienen en cuenta las respuestas de los N evaluados (ver capítulo 11):
L(a, b) ≡ P( X | a, b) ∝
N
∏ P( X
i
| a, b)
[12.10]
i =1
También, aunque menos frecuente, puede usarse el método de estimación Máximo Verosímil Marginal a Posteriori (MMAP), en el que se maximiza una función proporcional al producto de la función de verosimilitud marginal por la distribución previa de los parámetros de los ítems:
P(a, b | X) ∝ L(a, b) g (a) g (b)
[12.11]
donde g(a) y g(b) indican las distribuciones previas asumidas para los parámetros a y b. La estimación MMAP puede ser útil para evitar parámetros b demasiado extremos (p. ej., –10) cuando alguna categoría es escogida por muy pocas personas. Para la estimación de los parámetros de los ítems existen programas específicos, como MULTILOG o PARSCALE.
Ejemplo 12.3. Estimación de los parámetros de los ítems Se analizaron las respuestas de 662 adultos a los 8 ítems del Inventario de Preocupación de Pensilvania. En la Tabla 12.6 se muestran los parámetros del MRG estimados con el programa MULTILOG (en el Apéndice se detalla la sintaxis establecida). Los parámetros de discriminación se muestran en métrica logística (D = 1,702). Puede observarse que el parámetro a guarda una relación directa (pero no exacta) con la correlación ítem-test coc ). Los ítems con menor parámetro a son los 6 y 8, que tienen los menores varregida ( r jX c lores r jX . Puede comprobarse también que la media de los parámetros b guarda una rela-
430 Medición en Ciencias Sociales y de la Salud ción inversa con su media. Podemos ver asimismo que el ítem en el que es necesario un nivel de rasgo más elevado para señalar una frecuencia alta es el 6 (“Tan pronto como termina una tarea, empieza a preocuparse por alguna otra cosa que debería hacer”). Es por ello que este ítem tiene la media más baja (2,11) y el promedio mayor en b (1,13). Tabla 12.6. Estadísticos descriptivos de los ítems (media y desviación típica), correlación ítem-test corregida y parámetros de la TRI estimados al aplicar el MRG (métrica logística) Media
Sj
c r jX
a
b1
b2
b3
b4
Media b
1
2,65
1,27
0,69
1,40
–0,95
0,00
0,70
1,55
0,32
2
3,32
1,28
0,39
1,19
–1,53
–0,21
0,73
1,82
0,20
3
2,52
1,35
0,72
1,58
–0,59
0,11
0,74
1,48
0,43
4
3,02
1,28
0,67
1,30
–1,38
-0,37
0,32
1,30
-0,03
5
2,17
1,23
0,78
2,15
–0,29
0,46
1,02
1,71
0,72
6
2,11
1,18
0,51
0,81
–0,49
0,82
1,70
2,47
1,13
7
2,17
1,28
0,66
1,29
–0,26
0,52
1,18
1,83
0,82
8
3,10
1,09
0,52
0,82
–2,54
–0,74
0,54
1,95
–0,20
En la Figura 12.4 se muestra la puntuación esperada (como función de θ ) en 4 de los ítems (3, 5, 6 y 8). Puede verse que las puntuaciones esperadas son generalmente mayores en el ítem 8 (el que tiene menor media de los parámetros b), mientras que las puntuaciones esperadas en el ítem 6 son bastante menores. Las funciones tienen mayor pendiente para los ítems 3 y 5 que para los ítems 6 y 8 (estos últimos tienen menor parámetro a). Figura 12.4. Puntuación esperada en los ítems 3, 5, 6 y 8 según el MRG (se presentan en la leyenda ordenados por su media)
En la Figura 12.5, se muestra la Curva Característica del Test. Puede observarse la relación no lineal existente entre la puntuación esperada en el test y θ.
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
431
40 35 30 25 20 15 10
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
5
-3,0
CCT: Puntuación esperada en el test
Figura 12.5. Curva Característica del Test
θ
Comprobación del ajuste: métodos gráficos Además de comprobar los supuestos de unidimensionalidad e independencia local, debe contrastarse si el modelo se ajusta a los datos. Para ello pueden utilizarse, con algunas adaptaciones, los métodos gráficos descritos en el capítulo 11. Primero, se estima la probabilidad observada de escoger la opción k en el ítem j para el grupo con nivel de rasgo θq (Ojkq):
O jkq =
r jkq
[12.12]
Nq
donde rjkq es el número estimado de personas con θ = θq que escogen la opción k del ítem y Nq es una estimación del número observado de personas con θ = θq; rjkq se obtiene como:
r jkq =
N
∑X
kij P (θ q
| Xi )
[12.13]
i =1
donde Xkij es una variable dicotómica que indica si la persona i escoge la categoría k en el ítem j (Xkij = 1, si la persona escoge la categoría; Xkij = 0, si la persona no escoge la categoría). Por tanto, se suman las probabilidades posteriores de θq para las personas que han escogido esa opción en el ítem j. Nq se obtiene como:
Nq =
N
∑ P(θ i =1
q
| Xi )
[12.14]
432 Medición en Ciencias Sociales y de la Salud donde se suman las probabilidades posteriores de θq para todos los evaluados. El valor de la probabilidad esperada de escoger k en el ítem j para el grupo con θq viene dada por la CCR y es:
E jkq = Pjk ( θ q )
[12.15]
Estas probabilidades suelen representarse de forma gráfica; además se puede calcular el intervalo de confianza asociado a la probabilidad observada para cada uno de los niveles de rasgo (ver capítulo 11).
Ejemplo 12.4. Comprobación del ajuste (métodos gráficos) En la Figura 12.6 se representan las CCR observadas (Ojkq) y teóricas (Ejkq) para las opciones 1 y 2 del ítem 8 del Inventario de Preocupación. Observe que, como predice el modelo, la probabilidad observada de escoger la opción 1 decrece a medida que aumenta el nivel de rasgo. En este caso, los valores teóricos se encuentran dentro de los intervalos de confianza de las probabilidades observadas. El modelo también predice adecuadamente la CCR de la opción 2. Figura 12.6. Probabilidades observadas (líneas grises) y teóricas (líneas negras) de elegir las opciones 1 (izquierda) y 2 (derecha) del ítem 8 1,0
Probabilidad de escoger la opción 2
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
θ
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-3,0
0,0
-3,0
Probabilidad de escoger la opción 1
1,0
θ
En la Figura 12.7 se representan las CCR observadas (Ojkq) y teóricas (Ejkq) para las opciones 3, 4 y 5 del ítem 8. En este caso, existe un cierto desajuste de las CCR teóricas y empíricas para las opciones 3 y 4. En los niveles de rasgo altos, la opción 3 es menos escogida de lo que se espera según el modelo; ocurre lo contrario para la 4. Es decir, el modelo predice erróneamente que algunas personas de nivel medio-alto de rasgo escogen la opción 3 (“Regular”), cuando, en realidad, escogen la opción 4 (“Bastante”).
433
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
Figura 12.7. Probabilidades observadas (líneas grises) y teóricas (líneas negras) de elegir las opciones 3, 4 y 5, respectivamente 1,0
Probabilidad de escoger la opción 4
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
θ
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-3,0
0,0
-3,0
Probabilidad de escoger la opción 3
1,0
θ
Probabilidad de escoger la opción 5
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-3,0
0,0
θ
Comprobación del ajuste: métodos estadísticos Además de los métodos gráficos, puede contrastarse la significación estadística de las discrepancias entre la CCR observada y teórica. Stone y Zhang (2003) han propuesto un contraste estadístico de las discrepancias entre las probabilidades observadas, Ojkq, y las esperadas, Ejkq. Para obtener este contraste estadístico se siguen los siguientes pasos: 1. Se calcula un estadístico χ 2:
χ 2j =
Q
K
∑∑ q =1 k =1
N q ( O jkq - E jkq )2 E jqk
[12.16]
434 Medición en Ciencias Sociales y de la Salud donde Ojkq, Nq y Ejkq se obtienen aplicando [12.12], [12.14] y [12.15] en la muestra original. 2. Se obtiene la distribución del estadístico si el modelo se ajusta a los datos. Esto se hace mediante “bootstrapping”. Se generan, por simulación, R muestras en las que las respuestas se ajustan al modelo estimado en la muestra original. Para cada ítem, en cada una de las R muestras, se obtiene el estadístico χ 2 según la ecuación [12.16]:
χ 2j ( r ) =
Q
K
∑∑
N q ( r ) ( O jkq ( r ) - E jkq )2
[12.17]
E jkq
q =1 k =1
donde Ojkq(r) y Nq(r) se obtienen mediante las ecuaciones [12.12] y [12.14] en cada muestra r. 3. Se estima el p-valor, la probabilidad de que el χ j2 del ítem en la muestra original sea mayor que el χ j2(r) a través de las R muestras (para los detalles concretos sobre el modo en que se calcula el p-valor, ver Stone y Zhang, 2003):
p = P( χ 2j > χ 2j ( r ) )
[12.18]
Si p < 0,05, se concluye que la discrepancia es estadísticamente significativa con un nivel de confianza del 95%. El programa MrFitit (Sueiro y Abad, en preparación) proporciona el índice X2 de Stone. Sueiro y Abad (2009) muestran que el índice de Stone muestra un rendimiento ligeramente superior al de otros indicadores de ajuste alternativos.
Ejemplo 12.5. Comprobación del ajuste (métodos estadísticos) En la Tabla 12.7 se muestran los indicadores de ajuste para los 8 ítems del Inventario de Preocupación. El ajuste no es bueno para los ítems 2, 3 y 8. Tabla 12.7. Índices de ajuste basados en la comparación de las probabilidades de escoger cada opción (observada y teórica) como función de θ (p-valor asociado al estadístico X2 de Stone) Ítems
1
2
3
4
5
6
7
8
p-valor
0,046
0,003
0,000
0,875
0,185
0,297
0,576
0,002
Conviene complementar esta información con el análisis gráfico. Las figuras 12.8 y 12.9 muestran las CCR observadas (Ojkq) y teóricas (Ejkq) para las opciones de los ítems 2 y 3. Puede observarse que, aunque es estadísticamente significativo, el desajuste en los ítems 2 y 3 es menor que en el ítem 8. Puede concluirse finalmente que el ítem 8 es un candidato a ser eliminado del test. Existe cierto grado de dependencia local con otros ítems (p. ej., el 3) y los índices de ajuste indican que las probabilidades de respuesta no son bien predi-
435
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
chas por el modelo. Para proceder adecuadamente habría que eliminar el ítem 8, reestimar los parámetros del resto de los ítems y recalcular los indicadores de ajuste. A pesar de ello, por simplicidad, en los análisis que siguen se muestran los resultados para el test completo, incluyendo el ítem 8. Figura 12.8. Probabilidades observadas (líneas grises) y teóricas (líneas negras) de elegir las opciones del ítem 2
0.1
0.1
3.0
2.5
2.0
-3.0
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
θ
θ
θ 1.0
Probabilidad de escoger la opción 5
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-3.0
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
-2.0
0.0
0.0
-2.5
Probabilidad de escoger la opción 4
0.2 0.0
-3.0
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0.0
-3.0
0.0
0.2
1.5
0.1
0.4 0.3
1.0
0.2
0.3
0.5
0.5
0.3
0.4
0.6
0.0
0.4
0.5
0.7
-0.5
0.5
0.6
0.8
-1.0
0.6
0.7
0.9
-1.5
0.7
0.8
-2.0
0.8
1.0
0.9
-2.5
0.9
Probabilidad de escoger la opción 3
1.0
Probabilidad de escoger la opción 2
Probabilidad de escoger la opción 1
1.0
θ
θ
Figura 12.9. Probabilidades observadas (líneas grises) y teóricas (líneas negras) de elegir las opciones del ítem 3 1.0
0.1
Probabilidad de escoger la opción 5
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
θ
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
3.0
2.5
2.0
1.5
1.0
0.5
-0.5
-1.0
-1.5
-2.0
0.0
θ
0.1
θ
0.0 -2.5
0.0
0.2
3.0
2.5
2.0
1.5
1.0
3.0
2.5
2.0
1.5
1.0
0.5
θ 1.0
-3.0
Probabilidad de escoger la opción 4
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
θ 1.0
0.3
0.0 -3.0
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0.0 -3.0
0.0
0.2
0.4
0.5
0.1
0.3
0.5
0.0
0.2
0.4
0.6
-0.5
0.3
0.5
0.7
-1.0
0.4
0.6
0.8
-1.5
0.5
0.7
0.9
-3.0
0.6
0.8
-2.0
0.7
0.9
-2.5
0.8
1.0
Probabilidad de escoger la opción 3
Probabilidad de escoger la opción 2
Probabilidad de escoger la opción 1
1.0 0.9
436 Medición en Ciencias Sociales y de la Salud
Estimación de θ Puede estimarse el nivel de θ por cualquiera de los procedimientos que se han descrito en los capítulos 4 y 11. Por ejemplo, mediante Máxima Verosimilitud se estima como nivel de θ aquel que maximiza la verosimilitud del patrón de respuestas; la función de verosimilitud en el caso de ítems politómicos es:
Li (θ ) ≡ P ( X i | θ ) =
J
∏ P( X
j
= xijk | θ )
[12.19]
j =1
Ejemplo 12.6. Estimación de θ En la Tabla 12.8 se muestran los niveles θ estimados para 5 personas en función de su patrón de respuestas. Por ejemplo, la segunda persona ha elegido la categoría 3 en todos los ítems menos en el primero, donde ha escogido la categoría 2. Puede observarse que la segunda y la tercera persona tienen la misma puntuación en el test (23 puntos); sin embargo, se les estima distinto nivel θ. Esto es porque, según el modelo, la elección de la categoría 2 en el ítem 1 y la 3 en el ítem 6 implica menor nivel de rasgo que el patrón de respuesta inverso. Tabla 12.8. Nivel estimado de θ como función del patrón de respuestas Patrón de respuestas en los 7 ítems
X
θ
11111112
8
–2,516
23333333
23
0,416
33333233
23
0,453
24555555
31
2,129
Función de información La función de información del ítem indica con qué precisión sirve para estimar cada valor de θ. En modelos politómicos, la información para un ítem se obtiene como (Muraki y Bock, 2003; p. 614): I j (θ ) =
K
D 2 a 2j T jk 2
k =1
Pjk (θ )
∑
[12.20]
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
437
Donde Tjk es:
T jk = Pjk* (θ )(1 − Pjk* (θ )) − Pjk* +1 (θ )(1 − Pjk* +1 (θ )) Así pues, la información que proporciona un ítem depende de: 1. El parámetro de discriminación del ítem. El parámetro aj aparece en el numerador de la ecuación [12.20]: a mayor parámetro aj, mayor información. 2. La diferencia entre el parámetro θ y los parámetros b de los ítems. Cuanto más próximo se encuentre θ a uno o más parámetros bjk, mayor información. Observe que el numerador de la ecuación [12.20] será mayor cuanto mayores sean, en valor absoluto, los términos Tjk. Cuando Tjk es positivo nunca puede ser mayor que el producto P*jk (θ) (1–P*jk (θ)), que es máximo cuando P*jk (θ) = 0,5; esto ocurre si θ = bjk–1. Cuando Tjk es negativo nunca puede ser mayor que el producto P*jk+1(θ) (1–P*jk+1 (θ)), que es máximo cuando P*jk+1 (θ) = 0,5; esto ocurre cuando θ = bjk–1. 3. La diferencia entre los parámetros bjk de las categorías. Un ítem con los parámetros bjk espaciados discriminará en un intervalo amplio del nivel de rasgo. Un ítem con los parámetros bjk concentrados en torno a un único punto, será informativo en torno a ese nivel de rasgo, pero menos informativo para otros niveles. En la Figura 12.10 se representan los resultados obtenidos para dos ítems que difieren en sus parámetros. Puede observarse que el ítem 1 tiene una función de información más “amplia” ya que los parámetros b están más espaciados. Por otro lado, el ítem 2 tiene un mayor parámetro a y, por tanto, su función de información es mayor, en general, que la del ítem 1, salvo para niveles bajos de rasgo. Figura 12.10. Función de información para el ítem 1 (con parámetros a = 1, b1 = –3, b2 = –2,5, b3 = –1,5 y b4 = 0) y para el ítem 2 (con parámetros a = 2, b1 = –1, b2 = –0,5, b3 = 0 y b4 = 0,5). Función de información del ítem
5.0
item Ítem11 item Ítem22
4.0 3.0 2.0 1.0
-4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.0
θ
Como ya vimos en el capítulo 4, a partir de la función de información puede obtenerse el error típico de estimación de θ :
438 Medición en Ciencias Sociales y de la Salud 1
Se(θ ) ≡ σ (θˆ | θ ) =
I (θ )
Ejemplo 12.7. Función de información En la Figura 12.11 se muestra la función de información para 4 ítems del Inventario de Preocupación (ítems 3, 5, 6 y 8). Los ítems 6 y 8, que tienen un parámetro bajo de discriminación, tienen funciones de información con valores bajos, mientras que los ítems 3 y 5 resultan más informativos. El ítem que más contribuye a la información del test es el ítem 5, que es el de mayor parámetro a. Figura 12.11. Función de información de los ítems (3, 5, 6 y 8) 5 IIF3 IIF5
Información del ítem
4
IIF6 IIF8
3 2 1
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-2,0
-1,5
-2,5
-3,0
0
θ
En la Figura 12.12 se muestran la función de información (izquierda) y el error típico de estimación condicionado a θ (derecha) del test. Ambas funciones proporcionan información idéntica, ya que el error típico de estimación se obtiene como el recíproco de la raíz del valor de la información. Por tanto, a mayor valor en la función de información, menor error típico de estimación (y viceversa). Puede verse que el test formado por los cuatro ítems es poco preciso para los niveles de rasgo bajos (p. ej., menores de –1) o muy altos (p. ej., mayores de 2). Un error de estimación de θ de 0,3 es equivalente aproximadamente a un coeficiente de fiabilidad de 0,921.
1
Si el error típico de estimación para todos los evaluados fuera 0,3, la ecuación para calcular el coeficiente de fiabilidad marginal (ver ecuación [4.36]) nos daría justamente 0,92 [= 1 / (1 + 0,32)].
439
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
1,0 0,9 0,8
Se( θ )
0,7
Se(θ )
0,6 0,5 0,4 0,3 0,2 0,1
3,0
2,5
2,0
1,5
1,0
θ
0,5
0,0
-0,5
-1,5
-1,0
-2,0
θ
-2,5
-3,0
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
0,0
-3,0
Información del test
Figura 12.12. Función de información del test (izquierda) y del error típico de estimación (derecha)
Otros modelos politómicos Además del modelo de respuesta graduada existen otros modelos politómicos que pueden aplicarse a ítems con un formato de categorías ordenadas. Algunos de los modelos más importantes son el Modelo de Crédito Parcial (MCP) de Masters (1982), el Modelo de Crédito Parcial Generalizado (MCPG) de Muraki (1992) y el Modelo Nominal (MRN) de Bock (1972). A continuación se describen brevemente estos modelos2.
Modelo de Crédito Parcial Generalizado (MCPG) y Modelo de Crédito Parcial (MCP) En el MCPG la probabilidad de elegir la categoría k frente a la probabilidad de escoger la categoría k – 1 sigue el modelo logístico de 2 parámetros (k: 0, 1,…, K–1):
P*jk (θ ) ≡
P(X j = k|θ ) P(X j = k|θ ) + P(X j = k − 1|θ )
=
1 1 + exp (− a j (θ − b jk −1 ))
[12.21]
Es decir que, en este caso, P*jk(θ) indica la probabilidad de estar en la categoría k considerando a los evaluados que se encuentran en esa categoría o en la anterior. Por ejemplo, bj2 indica qué nivel θ se requiere para que la probabilidad de escoger la categoría 2 (frente a la categoría 1) sea 0,5. El parámetro aj toma siempre valores positivos, de forma que la probabilidad de escoger la categoría k frente a la categoría inmediatamente inferior se incrementa a medida que aumenta el nivel de rasgo. Cuanto mayor sea el parámetro aj de un 2
Para simplificar la explicación se considera que las respuestas de un ítem de K categorías se han puntuado como 0, 1, 2,… hasta K–1.
440 Medición en Ciencias Sociales y de la Salud ítem, mayor será la relación entre θ y la probabilidad de escoger la opción k (frente a k – 1). A partir de la ecuación 12.21 y sabiendo que: K −1
∑ P( X
j
= k |θ) =1
k =0
pueden obtenerse las CCR. En concreto, la probabilidad de escoger la categoría 03:
1
Pj1 (θ ) ≡ P( X j = 1 | θ ) = 1+
K −1
m
m =1
h =1
∑ exp(∑ a (θ − b j
[12.22] jh ))
y la probabilidad de escoger la categoría k (distinta de 0), que es:
exp( Pjk (θ ) ≡ Pjk (X j = k | θ ) =
k
∑ a (θ − b j
jh ))
h =1
m 1+ exp a j (θ − b jh ) m =1 h =1 K −1
∑
∑
[12.23]
La complejidad de las ecuaciones [12.22] y [12.23] no debe oscurecer la lógica del MCPG, que es muy sencilla y que se resume en la ecuación [12.21]. Los parámetros bjk indican también en qué nivel θ se cortan las CCR de dos categorías sucesivas. En efecto, puede comprobarse que para cualquier k distinto de 0:
Pjk −1(θ = b jk ) = Pjk (θ = b jk ) El MCP es un caso particular del MCPG en el que todos los ítems tienen el mismo parámetro de discriminación.
Modelo de Respuesta Nominal (MRN) El MRN se aplica cuando no se tiene una idea a priori sobre el ordenamiento de las categorías de respuesta o cuando se quiere contrastar si las categorías están realmente ordenadas (p. ej., si queremos estudiar si escoger De acuerdo en un ítem implica realmente mayor nivel de rasgo que escoger Neutral). En este modelo se toma una categoría como referencia (p. ej., la categoría 0) y se establece que la probabilidad de elegir la categoría k frente a la categoría de referencia (0) sigue el modelo logístico de 2 parámetros: 3
Revuelta, Abad y Ponsoda (2006; pp. 122-124) desarrollan la demostración de este punto para el MCP.
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
P(X j = k|θ )
P*jk (θ ) ≡
P(X j = k|θ ) + P(X j = 0|θ )
=
1 1 + exp (− a jk (θ − b jk ))
441
[12.24]
En este caso, P*jk(θ) indica la probabilidad de estar en la categoría k considerando a los evaluados que se encuentran en esa categoría o la de referencia. Observe que, en este caso, el parámetro de discriminación ajk puede ser distinto para cada categoría k y en cada ítem. Un parámetro ajk positivo indica que la probabilidad de escoger la categoría k frente a la categoría de referencia se incrementa a medida que aumenta el nivel de rasgo (tanto más cuanto mayor el parámetro ajk). Si las categorías están ordenadas, los parámetros ajk de las categorías sucesivas deben ser positivos y estar ordenados (a mayor k, mayor valor de ajk). El parámetro bjk indica qué nivel θ se requiere para que la probabilidad de escoger la categoría k (frente a la categoría 0) sea 0,5. A partir de la ecuación 12.24 se puede obtener la probabilidad de escoger la categoría k (distinta de 0), que es4,5: exp(a jk (θ − b jk ))
Pjk (θ ) ≡ Pjk (X j = k | θ ) = 1+
K −1
∑ exp(a
jk (θ
[12.25]
− b jk ))
m =1
Obsérvese que, en este caso, los parámetros bjk indican en qué nivel θ se cortan las CCR de la categoría k y la categoría 0 de referencia. En efecto, puede comprobarse que para cualquier k distinto de 0:
Pj 0(θ = b jk ) = Pjk (θ = b jk )
Ejemplo 12.7. Otros modelos politómicos Se aplicaron los modelos MRG, MCPG y MRN a las respuestas del Inventario de Preocupación. Los parámetros estimados para el ítem 8 se muestran en la Tabla 12.9. En la Figu4
En las ecuaciones [12.25] basta reemplazar el numerador por 1 para obtener la fórmula para la probabilidad de escoger la categoría 0.
5
La presentación del modelo nominal más frecuente es (ver Revuelta, Abad y Ponsoda, 2003): Pjk(θ ) =
exp(a jkθ + c jk )
K
∑ exp(a
jkθ
+ c jk )
m =0
Posteriormente se imponen algunas restricciones en los parámetros a y c para la identificación del modelo (p.ej., a0 = 0, c0 = 0). En este apartado hemos utilizado una parametrización distinta por motivos didácticos, para facilitar la comparación con los otros modelos (observe que en la ecuación [12.25] se presentan parámetros b, en vez de parámetros c). La relación entre ambas parametrizaciones es cjk = –ajkbjk.
442 Medición en Ciencias Sociales y de la Salud ra 12.3 se detallan las CCR (en el MRG las categorías de respuesta se etiquetan de 1 a 5, mientras que en los otros modelos las categorías se etiquetan de 0 a 4). El significado de los parámetros es distinto en los diferentes modelos. Por ejemplo, consideremos los parámetros bjk. En el MCPG, el parámetro b4 = 1,69 indica que hay que tener un nivel de rasgo de 1,69 para que la probabilidad de elegir la categoría 4 (frente a la categoría 3) sea 0,5. Es decir, indica el nivel θ (1,69) en el que las CCR de las opciones 3 y 4 se cortan (ver Figura 12.13, centro). En el MRN, el parámetro b4 = –0,41 indica que hay que tener un nivel de rasgo de –0,41 para que la probabilidad de elegir la categoría 4 (frente a la categoría de referencia, la 0) sea 0,5. Es decir, indica el nivel θ (–0,41) en el que la CCR de la opción 4 se corta con la CCR de la opción 0 (ver Figura 12.3, derecha). Tabla 12.9. Parámetros del ítem 8 según los distintos modelos Modelo
a
a1
MRG
1,40
MCPG
0,84
MRN
a2
0,93
a3
1,75
a4
2,96
3,15
b1
b2
b3
b4
–2,54
–0,74
0,54
1,95
–2,63
–0,54
0,46
1,69
–2.45
–1,57
–0.75
–0.41
Puede observarse también que, aunque los modelos MRG y MCPG tienen parámetros diferentes, las CCR son muy similares (téngase en cuenta el diferente etiquetado de las categorías). Por el contrario, las CCR para las opciones 3 y 4 difieren en el MRN con respecto al MCPG. Observe que los valores de los parámetros a3 y a4 son muy parecidos en el MRN (2,96 y 3,15), por lo que la forma de las CCR es muy similar (la probabilidad de escoger las opciones tiende a incrementarse con el nivel de rasgo). Esto indica que en ese ítem (“Se da cuenta de que siempre está preocupándose por las cosas”) no es muy claro que las personas que escogen la opción Mucho tengan mayor nivel de rasgo que las personas que escogen la opción Bastante. Es interesante notar que este ítem es el que mostró peor ajuste al aplicar el modelo MRG. Figura 12.13. Curvas de respuestas según los modelos. De izquierda a derecha: MRG, MCPG y MRN
0.4 0.3
θ
θ
3.0
2.5
2.0
3.0
2.5
2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
3.0
2.5
2.0
1.5
1.0
-3.0
θ
0.5
0.0
-0.5
-1.0
0.0
-1.5
0.0
-2.0
0.1
0.0
-2.5
0.1
1.5
0.2
0.1
1.0
0.2
0.0
0.3
0.5
0.5
0.2
0.4
0.6
-0.5
0.3
0.5
+
0.7
-1.0
0.4
+
0.6
CCR0 CCR1 CCR2 CCR3 CCR4
-1.5
0.5
0.7
0.9 0.8
-2.0
0.6
0.8
1.0
CCR0 CCR1 CCR2 CCR3 CCR4
-2.5
0.9
-3.0
+
0.7
1.0
CR1 CR2 CR3 CR4 CR5
Prob. de elegir k en el ítem
0.8
-3.0
Prob. de elegir k en el ítem
0.9
Prob. de elegir k en el ítem
1.0
Capítulo 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas
443
Apéndice Tamaño de la muestra Como ya se comentó en el capítulo 11, uno de los problemas de la TRI es que generalmente se requieren muestras numerosas de personas para la estimación de los parámetros de los ítems. En el caso de los modelos politómicos, con un mayor número de parámetros por ítem, el problema se agrava. Para el MRG, Reise y Yu (1990) recomiendan al menos 500 sujetos (ellos trabajaron con 25 ítems de 5 categorías). De Ayala (2009) sugiere que un límite inferior podría ser que al menos haya 5 sujetos por cada parámetro a estimar, aunque la muestra necesaria puede depender de múltiples factores: frecuencia de omisiones, diseño de anclaje, distribución del nivel de rasgo, localización de los parámetros b, longitud de la prueba, uso de una distribución previa para a, etc.
Calibración de los ítems para un caso concreto con el programa MULTILOG La sintaxis para estimar el MRG se muestra en el Cuadro 12.2 (en negrita se señalan las diferencias con la sintaxis para modelos dicotómicos).
Cuadro 12.2. Aplicación del programa MULTILOG (Formato del fichero de sintaxis) Ejemplo de análisis con el modelo de respuesta graduada >PROBLEM RANDOM, INDIVIDUAL, DATA = 'worry.DAT', NITEMS = 8, NEXAMINEES = 662, NCHARS = 5; >TEST ALL, GRADED, NC=(5(0)8); >EST NC = 100; >SAVE; >END; 5 12345 11111111 22222222 33333333 44444444 55555555 (5A1,8A1) En el commando TEST se debe especificar como modelo GRADED, acompañado del comando NC = (K(0)J), donde K indica el número de categorías y J el número de ítems. Después de los comandos aparecen las líneas que especifican el formato del fichero de respuestas. En el caso de los modelos politómicos la estructura es la siguiente:
444 Medición en Ciencias Sociales y de la Salud Primera línea: contiene el número de códigos de respuesta posibles en el fichero, 5. Segunda línea: Contiene los códigos posibles, 12345. Tercera línea y siguientes: Cada línea se corresponde con uno de los códigos señalados en la segunda línea (la primera línea con el primer código, la segunda línea con el segundo código, etc.). En cada línea se señala con qué categoría ordenada (1ª, 2ª, 3ª,…, Kª) se corresponde el código en cada ítem. En este caso, todos los ítems son directos. El código 1 se corresponde siempre con la primera categoría ordenada (la que implica el nivel más bajo de rasgo): 11111111; en este caso, hay 8 unos seguidos porque hay 8 ítems. El código 2 se corresponde siempre con la segunda categoría ordenada: 22222222; y así sucesivamente. Si hubiera omisiones deben codificarse con un 0 en el fichero de datos. MULTILOG proporciona para cada ítem la siguiente información: Parámetros de los ítems: Se muestran los parámetros a y b de cada ítem, así como el error típico de estimación de cada parámetro: ITEM A B( B( B( B(
1) 2) 3) 4)
1: 5 GRADED CATEGORIES P(#) ESTIMATE (S.E.) 1 2.38 (0.15)
View more...
Comments