Herrera, A. (1998). Notas de Psicometria 1-2 - Historia de Psicometria y Teoria de La Medida

Share Embed Donate


Short Description

Download Herrera, A. (1998). Notas de Psicometria 1-2 - Historia de Psicometria y Teoria de La Medida...

Description

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS HUMANAS DEPARTAMENTO DE PSICOLOGIA

NOTAS SOBRE PSICOMETRIA GUIA PARA EL CURSO DE PSICOMETRIA Aura Nidia Herrera Rojas

SANTAFE DE BOGOTA FEBRERO 1998

CONTENIDOS CONTENIDOS PRESENTACION

1

DATOS HISTORICOS DE LA MEDICION EN PSICOLOGIA

3

INTRODUCCION A LA TEORÍA DE LA MEDICIÓN MEDIR, MEDICIÓN Y MEDIDA Concepto Tipo de medida Escala de medida Unidad de medida Instrumentos Operaciones Resultados SUPUESTOS BÁSICOS USOS DE LA MEDICIÓN EN PSICOLOGÍA ALGUNAS CLASIFICACIONES REPASO DE TEORIA ESTADÍSTICA Funciones de probabilidad Valor esperado Varianza y desviación típica Covarianza y correlación Distribución binomial Distribución normal y normal estandarizada (Z) Aproximación de la distribución binomial a la normal Teorema del límite central

10 10 10 12 12 13 13 13 14 14 14 15 16 16 17 18 20 21 22 23 23

PRESENTACION No es fácil lograr que el título de un documento como este sea el resumen fiel y justo de lo que contiene y la forma de presentación de los temas, de manera que oriente al lector a cerca de lo que puede esperar de él. Esta introducción se dedicará entonces, a contarle al lector lo que NO es este documento, lo que NO contiene, lo que NO puede esperar de él y tal vez a persuadirlo de que no lo vale la pena leerlo, a menos que esté inscrito en el curso de psicometría del programa de Psicología de la Universidad Nacional y no tenga intención de cancelar tal inscripción, en cuyo caso no tendrá más alternativa que revisarlo con cierto detenimiento. Esa revisión, sin embargo puede limitarse a hacer un inventario de los temas y subtemas que trata con el fin de estudiarlos utilizando cualquier otro de los textos que aparecen en la bibliografía. Este no es un texto de psicometría, ni siquiera presenta en forma explícita una propuesta a cerca de lo que es la medición en psicología, sus alcances y limitaciones y cómo puede entenderse lo que en la actualidad se conoce como psicometría. Si usted está interesado en este tema puede remitirse a textos como el de Bunge (1983) o Suppes (1984), quienes se ocupan de la discusión filosófica y matemática de lo que implica medir en ciencia, los problemas que presenta y los retos que debe enfrentar; o al capítulo de Pawlik (1992) quien presenta un panorama general de la evaluación psicológica y sus principales usos en la actualidad. Tampoco puede encontrar el lector una revisión de la historia de la psicometría, sus desarrollo actualizados y sus perspectivas futuras, aunque es evidente la carencia de trabajos actualizados en nuestro medio que traten este tema, pueden encontrarse algunas revisiones en los textos de Anastasi (1974), Nunnally (1973), Tyler (1972), Guilford (1986) o Carpintero (1989). De otra parte, aquí se ignora por completo la discusión sobre las implicaciones éticas de medir en psicología y algunas de las normas convencionales que deben respetar los psicólogos como consumidores y usuarios de instrumentos de medición psicológica. Los estándares para la utilización y aplicación de ‘test’ psicológicos pueden encontrarse, entre otros, en la publicación de la A.P.A. (1974) o en el proyecto de la Asociación Colombiana de Facultades de Psicología ASCOFAPSI (1991). El lector tampoco puede esperar una presentación completa de la teoría psicométrica y la discusión sobre sus principios teóricos y filosóficos. Si ese es su interés, en trabajos como los de Guiselli (1964), Horst (1968), Lord y Novick (1968), Magnusson(1969) y Jones (1971), entre otros, puede encontrar presentaciones detalladas de los principios básicos de la teoría clásica de medición, de la confiabilidad y del error de medida en psicología, y en el libro de Thorndike (1995) puede encontrar, además una revisión sobre los métodos bayesianos en la aplicación de pruebas. Ahora, si usted tiene intereses un poco más específicos sobre algunos modelos de análisis más contemporáneos puede remitirse a trabajos como el de Rasch (1960), Iroson (1980), Lord (1980), Apodaka y Páez (1992), Licht (1995), Klem (1995) o Hoyle (1995). NO es ésta una guía práctica para quienes se ven enfrentados a la tarea de construir y analizar pruebas, estén interesados en la comprensión intuitiva de las técnicas psicométricas, o necesiten hacer uso adecuado de los principales procedimientos conociendo en detalle, o sin hacerlo, el sustento matemático o estadístico de los mismos o las discusiones en torno a ellos. En este sentido resulta útil la revisión de trabajos como el de Guilford (1954), Wesman (1971), Krathwohl y Payne (1971), Sherman y Tinkelman (1971), Thorndike R. (1973), Brown (1980) o Thorndike (1995); de manuales como los publicados por la Dirección Nacional de Administración Judicial (1991) o la Universidad de los Andes (Sabogal, 1989) o de las páginas que dedica Carroll (1988) a los ‘aspectos selectos de metodología psicométrica’. Tampoco podrá encontrar el lector una recopilación de información sobre los principales o más conocidos instrumentos de medición psicológica que oriente a quienes deseen decidir sobre el uso de algunos de ellos con algún objetivo específico. Aunque no muy actualizados, dos trabajos

NOTAS SOBRE PSICOMETRIA

Presentación

podrán ser de gran utilidad si este es su interés: Anastasi (1974) y Béla Székely (1978); una importantísima fuente de información al respecto la constituyen los Mental measurements yearbook o bien, haciendo uso de la tecnología moderna se puede tener acceso a información permanentemente actualizada a través de Internet. Por último, lo que probablemente decepcione más a los potenciales lectores es el hecho de que este documento NO reemplaza la asistencia a las clases de psicometría, lo cual sería un gran mérito. Definitivamente sin la participación activa en las discusiones de clase y la presentación de experiencias en el trabajo práctico que se propone en el curso, jamás podrá un estudiante alcanzar los objetivos planteados en el programa del mismo. Sin embargo, para despejar las dudas que en los párrafos anteriores puedan haberse creado sobre la existencia de este documento, puede decirse que se trata de un trabajo en proceso que contiene una recopilación de algunas notas de un curso de psicometría, recogidas y modificadas cada semestre entre 1994 y la fecha; cuya única pretensión es presentar de manera sintética los principales tópicos de algunos temas de teoría psicométrica clásica y de algunos de los procedimientos más comunes en la elaboración y análisis de pruebas psicológicas; y cuyo único mérito tal vez sea el simple hecho de existir.

2

DATOS HISTORICOS DE LA MEDICION EN PSICOLOGIA Pueden encontrarse algunos intentos de hacer medición muy antiguos: el Imperio Chino, los griegos, la edad media y hasta la Biblia; tal vez el ejemplo más reportado sobre estos primeros intentos es la clasificación del médico griego Galeno, quien clasifica a los seres humanos según los ‘humores’ en sanguíneo, colérico, flemático y melancólico en lo que podría verse como una primera propuesta de escala nominal para medición de la personalidad. Aunque la literatura está llena de ejemplos como el anterior, lo que se conoce hoy como psicometría empezó a tomar forma sólo hasta el siglo XIX. El famoso episodio del joven auxiliar en el Observatorio Astrológico de Greenwich, cuyos registros del tiempo de paso de las estrellas a través de una línea del campo visual del telescopio, diferían sistemáticamente de los de su maestro, se convirtió gracias a las elaboraciones de los psicofísicos, en la evidencia de que algunas diferencias humanas podían cuantificarse. Mediante monitoreos de los registros de los astrónomos en dicho observatorio Bessel (1816) observó que había variaciones en la rapidez con que reaccionaban los individuos a estímulos visuales, dando lugar a lo que se conocería como la ecuación personal. Quetelet, matemático belga, fue el primero en plantear que la teoría matemática de la probabilidad podía aplicarse a las mediciones humanas. Por otra parte, los trabajos de Esquirol (1838), médico francés que se interesó por el estudio del retraso mental, constituyen un avance interesante en la medición de este trastorno que tendría implicaciones en el futuro desarrollo de técnicas más refinadas para la medición del mismo. Pueden resumirse en tres los aportes de Esquirol: Por una parte hace distinción entre los ‘alienados’, con profundos trastornos emocionales y los retrasados mentales con deficiencias de tipo intelectual; de otra parte intenta algunas clasificaciones de los diversos grados de retraso mental y finalmente, identifica ‘el lenguaje’ como el criterio más fiable para evaluar y clasificar los trastornos mentales. En esta misma línea se encuentran las contribuciones de su compatriota y colega Seguín (1866) quien, con su rechazo a la noción de incurable del retraso mental, crea la primera escuela para retrasados y diseña algunos procedimientos de adiestramiento básicamente sensoriomotor, algunos de los cuales forman parte de los llamados ‘test no verbales de inteligencia’. Desde una perspectiva muy diferente, ya que estaban más interesados por plantear generalizaciones que por analizar diferencias, se encuentran los primeros psicólogos experimentales del laboratorio de Wuntd, (1879) en Leipzig. Estos personajes, a quienes la historia reconoce como los fundadores de la psicología experimental, tuvieron gran importancia en los desarrollos de la medición en psicología: Por una parte diseñaron algunas pruebas de sensibilidad y tiempos de reacción a estímulos visuales, auditivos y de otros sentidos, marcando la pauta para la mayoría de trabajos que en la misma línea se desarrollaron a finales de siglo XIX y por otra, con su rigor científico, pusieron de manifiesto la necesidad de controlar las condiciones de prueba y tipificar procedimientos. Sin duda uno de los personajes que ha merecido el mayor reconocimiento por sus interesantes aportes no sólo en la medición en psicología sino en otros campos como la biología, es Sir Francis Galton. Este polifacético inglés interesado por el estudio de la herencia, sintió rápidamente la necesidad de medir las características humanas así que creo un laboratorio antropométrico en Londres (1884) para el cual diseñó varias pruebas de agudeza y discriminación sensorial con la convicción de que éstos le permitían medir el intelecto. Algunos de tales instrumentos como la barra de Galton y el silbato de Galton se han utilizado para medición de la discriminación visual de longitud y del grado de sensibilidad a tonos altos, respectivamente, hasta hace muy poco tiempo. Además del diseño de instrumentos de medición sensorial, Galton fue el primero en utilizar las escalas de estimación, los cuestionarios y la asociación libre; pero tal vez el aporte que no ha sido suficientemente reconocido fue el haber seleccionado y adaptado algunas técnicas matemáticas para el análisis de los resultados de sus pruebas y la medición de las diferencias individuales y el haber introducido

NOTAS SOBRE PSICOMETRÍA

Datos históricos 1

la idea de variación concomitante entre dos medidas , constituyéndose en el precursor de lo que hoy se conoce como coeficientes de correlación, análisis de regresión y otros procedimientos de análisis cuantitativos en investigación con humanos. De acuerdo con las ideas de Galton sobre la medición de la inteligencia y convencido de que era casi imposible medir objetivamente funciones complejas, el psicólogo norteamericano James McKeen Catell, discípulo de Wundt en el laboratorio de Leipzig, diseñó y aplicó un sinnúmero de test de discriminación sensorial, tiempo de reacción, memoria y otras. A Catell se le debe además, la rápida difusión de aplicación de pruebas en Norte América y los primeros intentos por validarlas con criterios externos; sin embargo, el hecho que con mayor frecuencia se reporta en torno a sus aportes es haber introducido en la literatura psicológica el término de test mental (1890). Aunque, por este hecho, a Catell se le reconoce como el ‘padre’ de los test mentales, las dos últimas décadas del siglo pasado fueron testigos de una gran cantidad de trabajos que pretendían desarrollar medidas de funciones psicológicas complejas. Entre ellos se encuentran los trabajos de los alemanes Oehrn (1889), Kraepelin (1895) y Ebbinghaus (1897), los norteamericanos Jastrow (1891), Münsterberg (1891), Bolton (1892), J. A. Gilbert (1897), los italianos Guicciardi y Ferrari (1896) y muchos otros, algunos de los cuales empezaban a cuestionar el hecho de que los resultados de los test mentales no guardaran correspondencia con el éxito académico. Dos de estos trabajos merecen capítulo aparte: Por un lado, los intentos de medición de procesos psicológicos complejos en el campo de la psicopatología presentado por Kraepelin (1895), quien construyó una cantidad de test que pretendían medir diversos rasgos que permitieran caracterizar a los individuos, se constituyeron en los precursores de las mediciones objetivas de la personalidad. Por otra parte, los tests de completación de frases de Ebbinghaus (1897) fueron los únicos de los desarrollados en esa época, que permitieron una predicción adecuada del rendimiento académico y aún hoy forman parte de la mayoría de pruebas de inteligencia. Sin embargo, el honor de la publicación de la primera escala de medida de inteligencia le correspondió al francés Alfred Binet, quien en compañía de Henri había publicado en 1895, un artículo que criticaba los tests existentes hasta el momento por dedicarse a mediciones muy precisas de funciones muy elementales; y proponía otros que abarcaban funciones más complejas aunque medidas menos precisas. En este contexto, la primera escala de medida de inteligencia, que reunió las experiencias anteriores e introdujo además preguntas sobre juicio, comprensión y razonamiento, fue desarrollada por Binet y Simon y se publicó en 1905. En la segunda revisión de esta escala se propone un procedimiento sistemático para obtener los puntajes de prueba y se introduce el concepto de Edad mental (1908), y en la revisión de Terman (1916), conocida como StanfordBinet, aparece la idea de Cociente Intelectual. La edad mental de Binet y Simon se obtenía gracias al ordenamiento de los elementos de la escala en orden creciente de dificultad y su agrupación por niveles de edad. Tal agrupación obedecía a criterios empíricos, reuniendo los elementos que podían ser contestados correctamente por niños normales de cada edad cronológica desde 3 a 13 años; la edad mental era el nivel al que llegaba cada examinado, esto es, el nivel que alcanzaba dentro de esta graduación. Tratándose de un índice tan sencillo tuvo gran aceptación por ser la primera propuesta de una unidad de medida que aunque no alcanzaba el nivel de precisión de las utilizadas hasta el momento dentro de los mediciones sensoriales, tenía el gran mérito de ser propia de la psicología. La principal limitación de esta unidad era sin embargo, que su interpretación dependía de lo que se esperaría de la ejecución del examinado dada su edad cronológica; es decir, saber que un niño tenía una edad mental de 4 años no reportaba mayor información a cerca de si su nivel estaba dentro de lo ‘normal’ o por el contrario estaba por encima o por debajo de lo que se esperaría de él. La propuesta de Terman supera tal limitación construyendo una unidad cuyo resultado es interpretable: el famoso C.I. no era 1

En sus ‘Notas sobre la historia de la correlación’ Karl Pearson (1920), refiriéndose al trabajo de Galton titulado ‘Typical laws of heredity in man’ (1877), escribe: ‘ Aquí aparece por primera vez una medida numérica ‘ r’ de lo que se conoce como ‘reversión’, que más tarde Galton llamó ‘regresión’ . Esta ‘ r’ es la fuente de nuestro símbolo para el coeficiente de correlación”. Maxwell (1979).

4

NOTAS SOBRE PSICOMETRÍA

Datos históricos

otra cosa que la razón edad mental de Binet sobre la edad cronológica multiplicado por 100, de manera que los puntajes al rededor de 100 (edad mental = edad cronológica) indicaban normalidad, para cualquier nivel de edad del examinado. Esta unidad de medida de inteligencia, con todas sus limitaciones, tiene una gran importancia en la psicometría ya que con ella, los test psicológicos lograron un reconocimiento nunca antes alcanzado hasta el punto de que el C.I. se convirtió casi en un mito. Terminada la segunda década del presente siglo los tests psicológicos gozaban de gran popularidad, el concepto de C.I. era ya ampliamente conocido y la Americana Psychological Association (A.P.A.) mostraba gran interés en el desarrollo de pruebas psicológicas. La decisión de Estados Unidos de participar en la Primera Guerra Mundial y de la APA en colaborar en dicha empresa, puso de manifiesto algunas limitaciones de los tests psicológicos conocidos hasta el momento. Por una parte, se trataba de instrumentos que debían ser aplicados de manera individual y por psicólogos experimentados lo cual no resultaba conveniente si se trataba de seleccionar grandes números de personas para el ejército norte americano. Robert Yerkes (1917) y su equipo designado precisamente por la APA, recolectó todos los tests disponibles y algunos no publicados y conformaron una primera prueba de aplicación colectiva conocida como Test Army Alfa, basada en los trabajos aún no publicados de Arthur Otis. Por otra parte, las pruebas conocidas hasta el momento no permitían la evaluación de personas analfabetas, con deficiencias de lenguaje o que no conocieran el idioma, nuevamente los trabajos de Otis sirvieron como base para el desarrollo del primer test de inteligencia no verbal conocido como el Test Army Beta. Finalmente, el concepto de C.I., a partir de edad mental y edad cronológica no resultaba muy adecuado cuando se trataba de evaluar adultos, así que nacieron las primeras formas de puntuación de los tests a partir de normas de grupo; basadas en la comparación de la ejecución de un individuo en la prueba, con el desempeño promedio del grupo (población) al que pertenece según algunas variables de interés como sexo, edad o escolaridad. Este tipo de unidad de medida sigue siendo utilizado hoy. Así la tercera década del presente siglo fue testigo de una inusitada popularización del uso de los ‘tests psicológicos’ hasta el punto de que la psicología se asociaba con términos como ‘test’ o ‘C.I.’. Según Anastasi (1974) “... el florecimiento de los test, ocurrido en los años veinte, basado en el uso indiscriminado de los mismos, puede haber causado tanto retraso como progreso en los test psicológicos.”. Sin embargo, mientras en Norte América estaba en pleno auge el desarrollo y uso de test psicológicos para muchísimos fines, otros autores se preocupaban más por los análisis matemáticos que brindaran mayor soporte a sus resultados y por el desarrollo de modelos teóricos y de análisis sobre todo en el campo de la medición de la inteligencia. Se destacan en esta línea los trabajos de los ingleses Spearman, Thompson y Burt, que fueron continuados y perfeccionados por los norte americanos Kelley y Thurstone. Charles Spearman, basado en las ideas de Galton y en los posteriores trabajos de Karl Pearson sobre su medida de correlación, había iniciado desde 1904 una serie de trabajos sobre las funciones cognoscitivas. Apoyado en la observación de que las matrices de correlaciones entre tests 2 cognoscitivos eran positivas y jerárquicas , plantea su famosa teoría de dos factores y sustenta matemáticamente sus conclusiones (1927). Según esta teoría las puntuaciones en los tests cognoscitivos pueden explicarse a través de dos factores: uno general, conocido como el factor g, que es común a todas las funciones medidas en los tests y uno específico, s, que sería exclusivo de cada una. El principal contradictor de las ideas de Spearman es su compatriota Thompson quien, basado en las mismas evidencia demuestra con el mismo rigor matemático que las correlaciones observadas por Spearman pueden explicarse por las leyes del azar operando sobre un conjunto complejo de elementos independientes que constituyen la inteligencia. Por su parte, otro inglés Burt (1941) venía sosteniendo que las correlaciones entre los tests podían ser satisfactoriamente explicadas a través de: a) un factor general, varios factores comunes de mayor o menor nivel de 2

Una matriz de correlaciones es una tabla que presenta los valores de todas las correlaciones entre un grupo de variables, dos a dos. Es entonces simétrica, los elementos de la diagonal principal son iguales a 1 y se dice que es jerárquica cuando sus columnas son proporcionales.

5

NOTAS SOBRE PSICOMETRÍA

Datos históricos

generalidad y c) tantos factores específicos como tareas o tests. Sin embargo, el desarrollo y refinamiento de lo que hoy se conoce como análisis factorial o multifactorial en psicometría, se le debe al norteamericano Thurstone. El psicólogo estadounidense L. L. Thurstone (1935, 1947) inicia lo que Béla Székely (1978) ha denominado la segunda etapa del análisis factorial, al introducir los principios del álgebra matricial en el análisis de las tablas de correlación logrando así representaciones n dimensionales de las relaciones entre test, la extracción de los posibles factores explicativos para resumir de manera más o menos fiel la misma información de la matriz original, y el desarrollo de métodos de rotación de tales ejes buscando la ‘estructura simple’ que facilitara la interpretación de los resultados. Es evidente que el diseño de estos procedimientos abría las puertas para la medición de aptitudes más específicas y para dar respuestas más satisfactorias a los cuestionamientos que venían planteándose desde la década anterior a cerca de las diferencias intraindividuales observadas en el desempeño frente a pruebas de inteligencia general. En lo que a desarrollo de instrumentos se refiere, el resultado directo de las investigaciones de Thurstone sobre el análisis factorial y la identificación de aptitudes primarias, fue la batería conocida como test de Chicago de Aptitudes Mentales Primarias (PMA), publicada por primera vez en 1941. La versión de esta batería en 1962, con algunas adaptaciones y modificaciones sigue utilizándose hoy en el contexto educativo y laboral; y las técnicas de análisis factorial propuestas por Thurstone son aún muy utilizadas para el análisis de diversas pruebas psicológicas. Mientras esto ocurría se habían desarrollado una serie de pruebas de uso en diversas áreas de aplicación de la psicología. Por una parte, en 1939 se publicaba la escala de Inteligencia de Wechsler-Bellevue con la intención de proponer un instrumento de medida adecuado para adultos, que presentara elementos y sistemas de puntuación más adaptados para este tipo de población. Esta escala fue la primera versión de la que hoy se conoce como Escala de inteligencia para adultos de Wechsler (WAIS), muy utilizada en diferentes contextos. Por otra parte se adelantaban los trabajos del neurólogo alemán Kurt Goldstein y el psicólogo Gelb, quienes una vez terminada la primera guerra mundial habían iniciado el desarrollo de algunos instrumentos de medición neuropsicológica, con base en la observación de jóvenes soldados que habían sufrido lesiones cerebrales. Como resultado de este trabajo se diseñaron los test de formación de conceptos que pretendían evaluar el deterioro de la actitud abstracta como consecuencia de la lesión cerebral, y que siguen utilizándose hoy en evaluación neuropsicológica. Sin embargo Goldstein sólo logró el diseño definitivo de su prueba, compuesta por 5 test, después de haber emigrado a Estados Unidos y en compañía de Scheerer, trabajo que fue publicado en 1941. En esta misma línea se desarrolló el test de formación de conceptos de Hanfman y Kasanin (1942), con base en un instrumento de clasificación de objetos que había sido elaborado por Vigotsky. En mediciones de personalidad también se habían hecho avances interesantes en lo que a desarrollo de pruebas se refiere: Una de ellas es la hoja de datos personales de Woodworth, considerada el precursor de los hoy llamados inventarios de personalidad, que se había desarrollado durante la primera guerra mundial pero sólo se conoció y empleó fuera del contexto militar después de que ésta terminara. Por otra parte Hartshorne y May (1928-1930) habían desarrollado algunos test de ejecución con la intensión de medir aspectos como mentira, robo y espíritu de cooperación en niños escolares. Con una perspectiva diferentes E. K. Strong publicaba en 1943 sus cuestionarios de intereses vocacionales para hombres y mujeres. Pero tal vez el trabajo de mayor trascendencia en esta línea es el registro multifásico de la personalidad de Hathaway y Mckinley (1940), primera versión del Inventario Multifasético de Personalidad de Minnesota MMPI que tiene varias traducciones, adaptaciones y estandarizaciones y sigue siendo utilizado hoy. Tal vez hasta el momento ningún instrumento de medición de la personalidad ha sido objeto de tantos estudios, aplicaciones e investigaciones en diferentes áreas de la psicología (clínica, laboral, educativa), como el MMPI. En este contexto: la popularización del uso de los tests psicológicos, el reconocimiento de diferencias intraindividuales en el desempeño en test de funciones intelectuales, los fuertes avances en el desarrollo de métodos matemáticos y estadísticos para el análisis de los resultados de los mismos y el diseño de algunas pruebas psicológicas de utilidad en psicología clínica, educativa, laboral y

6

NOTAS SOBRE PSICOMETRÍA

Datos históricos

en neuropsicología; Estado Unidos decide intervenir en la segunda guerra mundial y nuevamente los psicólogos norteamericanos se ven enfrentados a algunas demandas por parte del ejército. Esta vez la respuesta fue la creación de las ‘baterías de aptitud múltiple’ o ‘pruebas diferenciales’ de la línea del PMA, que permitían la evaluación de funciones mucho más específicas y la clasificación de personal para tareas especializadas como pilotos, bombarderos, operadores de radio y otras. Ejemplos de estos instrumentos son la Aircrew Classification Battery, el Army General Clas3 sification Test (AGCT) y el Armed Forced Qualification Test (AFQT) . Con las dos últimas se levantaron escalas de calificación estandarizadas conocidas como Army Standard Scores. Sin embargo, la mayoría de baterías o pruebas diferenciales se conocieron después de terminada la guerra cuando el ejercito las cedió para uso civil y en los años subsiguientes se observó un incremento significativo en el número de trabajos que buscaban el diseño de esta clase de instrumentos, la mayoría de ellos construidos con base en el procedimiento recientemente conocido de análisis factorial. Algunos de los instrumentos más conocidos de esta generación son el Test de clasificación de aptitudes de Flanagan (FACT), la batería de test de aptitud general (GATB) y el test de aptitudes diferenciales (DAT). El primero de ellos, cuyos progresos empezaron a conocerse en 1947, fue el resultado de algunos trabajos iniciados durante la segunda guerra mundial con el objeto de diseñar instrumentos de clasificación de personal de las fuerzas aéreas y se orienta hacía el consejo profesional y la selección de personal. La GATB fue diseñada por el State Employment Service estadounidense (1956) con base en resultados de análisis factorial de baterías preliminares y con el objeto de contar con un instrumento útil para consejo profesional y laboral. Finalmente, el DAT, que fue publicado originalmente en 1947, fue construida como instrumento para orientación vocacional en el campo educativo, ha sido objeto de muchos estudios en esa área y en consecuencia han aparecido varias revisiones algunas de las cuales se siguen utilizando hoy. En este mismo período la evaluación educativa, que había venido reemplazando sus formas convencionales por los famosos test, desde la aparición de la primera versión del Stanford Achiement Test hacía ya un par de décadas; entra definitivamente en la honda de las mediciones objetivas y estandarizadas. Vale destacar aquí los trabajos de E. L. Thorndike y otros educadores y psicólogos dedicados a aplicar y refinar las técnicas de construcción, utilización y calificación de pruebas de rendimiento escolar; y la creación, en 1947, del Educational Testing Service (ETS) encargado de la construcción y evaluación de pruebas en el área educativa y laboral. Tal vez el instrumento más conocido en esta línea es el Graduate Record Examination (GRE), que se había originado en 1936, pasó a manos del ETS en 1948 y sigue utilizándose como instrumento de selección de estudiantes universitarios en Estados Unidos. En este contexto llegó formalmente la psicología a Colombia y lo hizo precisamente como psicometría en el campo Educativo. En 1940? se crea la sección de psicotecnia en la Facultad de Medicina de la Universidad Nacional de Colombia con el fin de seleccionar los aspirantes a ingresar a esta institución y en 1948 se inicia la enseñanza de la psicología en la carrera de medicina de la Universidad Nacional de Colombia en lo que Mejía (1993) llama la ‘época dorada de la psicometría’ en Colombia (1939-19??). Durante las dos décadas siguientes se desarrollaron nuevos instrumentos de medición en muchas áreas y se revisaron y publicaron nuevas versiones y adaptaciones de los ya existentes; sin embargo, lo que parece caracterizar este periodo es la aparición de trabajos sobre teoría de la medición, los principios y fundamentos de la medición en psicología, los problemas de validez y confiabilidad y en síntesis, la construcción de una teoría psicométrica. En lo que tiene que ver con desarrollo y revisión de pruebas se pueden mencionar, entre muchos otros: el cuestionario de 16 factores de la personalidad de Catell (16PF) desarrollado mediante análisis factorial y publicado en 1951; el cuestionario de personalidad de Eysenck, resultado de las investigaciones que sobre estructura de personalidad había venido adelantando desde 1947; el inventario de temperamento de 4 Guilford-Zimmerman (1956), las escalas Wechsler de inteligencia ; la tercera revisión de la escala 3

Una presentación detallada de las características de estos instrumentos y otros desarrollados en el mismo contexto, se encuentra en Anastasi (1974) 4 Son tres instrumentos conocidos como escala Wechsler de inteligencia para niños (WISC) publicada en 1950; la escala Wechsler de inteligencia para adultos (WAIS) publicada en 1955 y la escala Wechsler de

7

NOTAS SOBRE PSICOMETRÍA

Datos históricos

de inteligencia de Stanford-Binet (Terman y Merrill, 1960) y los inventarios de intereses vocacionales (1966) e intereses generales de Kuder (1964), revisiones de la hoja de intereses vocacionales de Kuder que había sido publicada en 1948. De otra parte, una ligera revisión de la bibliografía existente permite verificar que en este periodo se produjeron las grandes obras sobre teoría y procedimientos psicométricos que son de uso corriente aún. Corriendo el riesgo de omitir algunos de mucha importancia, se pueden citar trabajos como la publicación de Gulliksen, H. (1950) titulado ‘teoría de los test mentales’; los trabajos de Cronbach y colaboradores sobre validez y confiabilidad en las pruebas psicológicas, publicados entre 1951 y 1957; las publicaciones de Guilford (1954) sobre métodos psicométricos, de Rasch (1960) sobre modelos probabilísticos para pruebas de logro e inteligencia y de Guiselli (1964) sobre teoría de la medición psicológica; la teoría de Guilford sobre la estructura de la inteligencia humana, cuya primera edición apareció en 1967; la gran cantidad de artículos publicados por Paul Horst entre 1949 y 1960 y su libro sobre medición y predicción psicológica en 1968; la teoría estadística de los puntajes de test mentales de Lord y Novick (1968), los trabajos de Eysenck sobre estructura de la personalidad, publicados a partir de los 50’s y el muy conocido texto de Magnusson sobre teoría de los test (1969). A pesar de la gran producción de trabajos sobre teoría psicométrica y el empeño de algunos psicólogos por brindar sustento teórico y técnico al uso de los mismos en una gran diversidad de campos; a partir de la década de los sesenta se puede identificar lo que Anastasi (1974) denomina la ‘revuelta anti-test’. Esta época, si así puede llamarse, se caracterizó no sólo por un evidente escepticismo por parte de académicos y público en general a cerca de la utilidad de las pruebas psicológicas, sino por algunas posiciones abiertamente en contra de los mismos. Algunas de las publicaciones que tal vez tuvieron más impacto en este sentido fueron las de Gross en 1962, Hoffman en el mismo año y Black en 1963 (Citados por Anastasi, 1974); con títulos tan sugestivos como ‘The brain watchers’, ‘The tyranny of testing’ y ‘They shall not pass’, respectivamente; en las que no sólo se ponía en duda la utilidad de los tests sino que se hacían serias críticas a su uso. Algunas de tales críticas de tipo técnico: cuestionaban la capacidad de las pruebas para brindar información confiable sobre las aptitudes, la inteligencia o la personalidad del examinado y por tanto la utilidad de los resultados con fines predictivos útiles en el campo educativo, laboral o clínico. Otras eran de tipo ético y filosófico con afirmaciones a cerca de la violación de la intimidad del examinado; la indebida divulgación y utilización de los resultados de las pruebas; la falta de responsabilidad en el manejo de las implicaciones emocionales de la aplicación y conocimiento de resultados de las pruebas; la visión limitada y reduccionista del individuo a partir de los resultados de las pruebas y en fin, la pretensión de cuantificar lo no cuantificable: el ser humano. Finalmente, había objeciones de tipo político: las pruebas pretendían medir conformismo social o, en todo caso favorecían a quienes mostraban determinadas preferencias políticas o filosóficas; las pruebas desfavorecían a determinados grupos étnicos o con diferencias culturales; y en nuestro medio el uso de pruebas llegó a identificarse con imperialismo norteamericano. Probablemente algunas de las críticas eran razonables y se debían al abuso de los instrumentos de medición por parte de profesionales inescrupulosos o no capacitados, otras podrían atribuirse a desconocimiento de las limitaciones de las pruebas y otras, podrían verse como reacción al fenómeno aceleradísimo de implementación y uso de pruebas. En fin, dejemos que algún historiador se interese por analizar estos hechos desde una óptica mucho más completa que la que podemos tener desde aquí. Como era de esperarse, la ‘revuelta anti-test’ ha dejado sentir sus efectos. Probablemente uno de ellos sea el hecho de que los modelos de análisis de instrumentos psicológicos que se generaron entre las décadas de los 70 y 80 son aún hoy muy poco conocidos, al menos en nuestro medio, y apenas se están empezando a valorar y a utilizar sobretodo en el campo educativo. Uno de ellos es el modelo bayesiano. A pesar de que Thomas Bayes había expuesto los fundamentos de lo que 5 hoy se conoce como teoría estadística bayesiana en 1763, se necesitaron casi dos siglos para

5

inteligencia para niveles preescolar y primario (WPPSI) publicada en 1967. Todas han sido traducidas al español y estandarizadas en varios países y son de uso muy común en diversas áreas como educación, psicología clínica y neuropsicología. El artículo de Bayes apareció publicado nuevamente en 1958 en la revista Biometrika, despertando el interés de algunos académicos (Martz y Waller, 1982)

8

NOTAS SOBRE PSICOMETRÍA

Datos históricos

que algunos estadísticos vieran en él una alternativa de análisis de algún interés y sólo hasta hace un par de décadas empezaron a verse sus aplicaciones y utilidad en el análisis de pruebas psicológicas. De manera muy sintética puede expresarse el sentido del teorema de Bayes como el enunciado formal de las relaciones entre la conocida probabilidad a priori, la información que se tenga sobre el fenómeno de interés y la probabilidad a posteriori; lo cual permite hacer estimaciones teniendo en cuenta la información adicional que se tenga proveniente de p.e. experiencias previas. Este principio general ha tenido implicaciones en la interpretación de resultados de pruebas psicológicas y en el diseño y construcción de las mismas. Por una parte, permite estimar la posición de un sujeto en un nivel del atributo que pretende medir la prueba teniendo en cuenta tanto su desempeño actual como la información previa que se tenga sobre él. Por otra parte, si lo que se desea con la construcción y aplicación de una prueba es estimar con precisión el nivel del examinado en el atributo, el análisis bayesiano permite identificar el ‘punto’ más adecuado para obtener información que permita el posicionamiento rápido y preciso del sujeto. Estas aplicaciones y el uso de nuevas tecnologías como los cumputadores, han permitido el desarrollo de los instrumentos conocidos como ‘pruebas hechas a la medida’ en las cuales cada elemento de la prueba es seleccionado con base en la información que se tenga sobre el sujeto y en la respuesta que dé al elemento anterior. Otro interés de los psicólogos en las últimas décadas ha sido el sesgo de las pruebas y los elementos que las componen. Tal sesgo puede verse de manera muy sencilla, a través de las discrepancias de dificultad y discriminación de los elementos de la prueba o de puntaje promedio y confiabilidad de la prueba total, en grupos diferentes. Rasch había propuesto en 1960 un procedimiento, que no depende de la población a la que se aplicó la prueba, para posicionar sus elementos en un nivel del atributo. Sin embargo, ha sido Wright en compañía de Panchapakesan (1969) y de Stone (1979), quienes han mostrado la utilidad de este tipo de análisis en algunas de sus publicaciones sobre análisis de ítems y diseño de pruebas. Finalmente, dos modelos de análisis multivariados que han sido objeto de estudio de algunos psicólogos y sociólogos en los últimos años han sido el ‘Patn Analysis’ y los ‘Structural equation modeling‘. Estos modelos han mostrado utilidad en la comprobación de hipótesis de relaciones entre grupos de variables, el primero de ellos como una extensión de los análisis de regresión donde se puede analizar más de una variable dependiente (Klem, L, 1995) y el segundo como procedimiento para poner a prueba modelos que incluyen tanto variables observadas como variables latentes y diferentes tipos de relaciones entre ellas. Algunas publicaciones sobre este último tema son Bollen, K. A. (1989); Apodaka y Páez (1992) y Hoyle, R. (1995). Aunque en la actualidad no se ha iniciado en Colombia un estudio cuidadoso de los últimos avances en modelos cuantitativos de aplicación en psicología, lo cual se evidencia por la ausencia de estos temas dentro de los programas de los cursos de psicometría o de métodos cuantitativos en las Facultades de Psicología en nuestro país; algunos hechos parecen indicar un cambio de actitud frente a la medición psicológica. El fortalecimiento del Servicio Nacional de Pruebas, pese a todos sus contradictores; la implementación cada vez más generalizada de procedimientos de selección en las grandes universidades; la exigencia explícita de la Constitución Nacional de Colombia (1991) en cuanto al ingreso a las entidades del Estado, por sistemas de méritos; y los subsecuentes desarrollos legales en las diferentes ramas del Poder Público, que prevén la utilización de medidas objetivas dentro de los concursos de ingreso; se están convirtiendo en demandas apremiantes que exigen de los psicólogos volcar su atención sobre los métodos cuantitativos. Desde esa perspectiva, probablemente quien escriba la historia de la Psicología en Colombia dentro de unas décadas, podrá afirmar que el principio del segundo milenio fue la época del resurgimiento de la psicometría.

9

INTRODUCCION A LA TEORÍA DE LA MEDICIÓN MEDIR, MEDICIÓN Y MEDIDA Jones, L. (1971) encontró cuarenta (40) significados diferentes asociados a los términos medición y medida, entre los cuales están: un procedimiento, una operación, una relación, una técnica o conjunto de técnicas, una unidad o parámetro y un resultado específico. Considerada como un procedimiento, la medición puede implicar desde una serie de pasos organizados que incluye la asignación precisa de valores o números (calificaciones) a objetos o sujetos según un atributo hasta un proceso de estimación subjetiva de un evento particular. Pero además la medición ha sido considerada como una técnica o conjunto de técnicas para diseñar y utilizar instrumentos que permitan obtener información sobre algún atributo. Se ha denominado también "medición" o "medida" a las unidades o parámetros de comparación utilizados para estimar la magnitud de una propiedad e inclusive, a los resultados obtenidos como consecuencia de la comparación entre el atributo y dichos parámetros. Todos estos significados parecen hacer énfasis en uno o unos pocos aspectos o elementos de la medición sin lograr una visión amplia y completa de la misma (Herrera, 1993a). Por otra parte, Gutiérrez (1989) define la medición como una relación en la cual los objetos o sujetos conforman el conjunto dominio y, el conjunto de valores o números conforman el rango, a cada elemento del primer conjunto se asigna uno del segundo (número) según algunas normas previamente establecidas. Al considerar la medición como una relación se está haciendo énfasis en la asignación de números o valores a objetos o sujetos según el atributo medido. Esta visión hace equivaler "medición" a cuantificación, entendida ésta, según Bunge (1983), como el procedimiento por el cual se asocian algunos conceptos con variables numéricas. Otra posición frecuente es definir medición como la operación de comparar un atributo de un objeto o sujeto con una unidad de medición previamente definida, la cual termina con la expresión del número de veces de la unidad de medición que representa la magnitud del atributo. Esta definición, similar a la de Gutiérrez, incluye también las nociones ya mencionadas: la medición como relación y como cuantificación; pero haciendo énfasis en la operación misma. Como ha podido verse las definiciones expuestas hacen énfasis en uno u otro aspecto de la medición sin lograr una descripción completa de lo que implica medir, que englobe sin perder precisión, los diferentes aspectos o elementos que le son propios. Una definición que cumpla con estos requisitos deberá tener en cuenta que la medición incluye la definición precisa (previa) del atributo que será medido, el establecimiento de la unidad de medición que se utilizará, la operación concreta de comparación del primero con la segunda y la asignación de valores cuantitativos según el resultado de dicha comparación y obedeciendo algunas reglas, generalmente convencionales. Teniendo en cuenta estas consideraciones y en pocas palabras, la medición puede verse como ‘observación cuantitativa’ de manera que ‘... siempre que se atribuyen número a ciertos rasgos sobre la base de la observación se están practicando mediciones.’ (Bunge, 1983). Desde una perspectiva bien amplia, puede entenderse la medición como el procedimiento necesario para la adquisición de información sobre un atributo de un objeto, sujeto o evento en un momento determinado; tal adquisición de información obedece a un objetivo específico e implica la estimación, con ayuda de un instrumento de medición, de la magnitud de dicho atributo en términos de la unidad de medida; el resultado de dicho procedimiento es expresado mediante números (Jones, 1971). Dicho procedimiento puede sintetizarse como aparece en la figura 1. Concepto Hace referencia a la especificación de lo que pretende medirse. Responder esta pregunta en psicología implica básicamente dos aspectos: a) recurrir a constructos teóricos y asumir una posición

frente a los mismos, la cual fundamente y dé cuerpo al procedimiento subsiguiente y b) identificar el tipo de concepto de que se trata. Puede distinguirse cuatro (4) clases de conceptos:

CONCEPTO

TIPO DE MEDIDA



 Qué se mide? (Constructo)  Revisión teórica, adopción de un posición  Identificación del tipo de concepto  Directa o indirecta?  Manifestación observable

ESCALA DE MEDIDA

 Nominal  Ordinal  De intervalo (uniforme)  De razón (métrica)

UNIDAD DE MEDIDA

 Dimensión?  Unidad fundamental o derivada?  Precisión, constancia y fácil reproducción

INSTRUMENTO

 Precisión, fidelidad  No reactivo  Relación propiedadobservable

OPERACIONES

 Aplicación  Conteo  Cuantificación  Transformaciones

RESULTADOS

 Error de medida

Figura 1: Representación de los elementos de un procedimiento de medición Los conceptos individuales, claramente no cuantitativos, tienen como referente individuos y en consecuencia el uso de números, no pasará de ser puramente nominal. Los conceptos de clase tienen como referente grupos de individuos que comparten alguna propiedad de manera que además de asignación numérica puramente nominal el uso de números puede tener uno de dos sentidos: a) presencia o ausencia de dicha propiedad para lo cual se emplean generalmente los número 0 y 1 o, b) cardinalidad o número de individuos que conforman la clase, en este caso se tratará de números enteros. Los conceptos relacionales pueden ser comparativos o no comparativos. Los primeros serán aquellos que permiten establecer jerarquías entre individuos de un conjunto de manera que el número puede denotar el puesto u orden de un individuo en dicha jerarquía. Los conceptos no comparativos hacen referencia a relaciones del tipo ‘ser alumno de’ o ‘ser vecino de’ y en consecuencia el uso de números no pasa de ser convencional para denotar si dicha relación es o no válida para cualquier par de individuos.

11

Finalmente, los conceptos cuantitativos tienen como referente magnitudes de una propiedad, las cuales pueden representarse por un número cuyo uso deja de ser puramente nominal o convencional. En algunos casos a la definición de un concepto relacional subyace uno cuantitativo. La Tabla 1 muestra un ejemplo de ello. Tabla 1 Ejemplo de tipos de conceptos Tipo de concepto De clase

Concepto Largo

Relacional (Comparativo)

Más largo

Cuantitativo

Longitud

Operación

Asignación numérica

Definición de una clase: A: { x | x es largo}

Si x es largo  ‘1’ . Si x no es largo  ‘0’

Definición de una jerarquía:

x es el más largo  puesto ‘1’ y es el segundo más largo  puesto ‘2’ z es el tercer más largo  puesto ‘3’

x>y> z ...

Estimación de una magnitud: x mide ‘20 cm.’ y mide ‘10 cm.’

o bien A contiene ‘30’ individuos

Si x mide 20 cm.  x = 20 Si y mide 10 cm.  y = 10 además x = 2y

Tipo de medida Se pueden identificar tantos tipos de medida como clases de propiedades y técnicas de medición. Sin embargo, la primera dicotomía de interés en este momento es: mediciones directas e indirectas. Las primeras suponen un contacto inmediato entre la propiedad medida y el instrumento o escala. Se realiza entonces, mediante la comparación de la magnitud de interés con una escala material y el conteo de unidades de la escala. La medición indirecta supone medición directa de algo que no es lo medido y algún tipo de cálculo o cómputo. La medición indirecta supone necesariamente la elección de lo observable (efecto o manifestación medible directamente) y un trabajo arduo en la construcción de los instrumentos de medición. Escala de medida Una escala de medida es una representación de los grados de una propiedad mediante números. Para todo par magnitud-instrumento se pueden distinguir dos tipos de escala: conceptual y material. La primera es el intervalo sobre el cual se representan los valores numéricos de una magnitud y la material es el conjunto de señales en el instrumento cuya lectura permite atribuir valores numéricos a la magnitud. Bunge (1983) distingue magnitudes: a) incondicionalmente extensivas, b) condicionalmente extensivas, c) cuasiextensivas y d) intensivas; dependiendo de si existe o no para ellas una propiedad física de adición respecto de la variable del objeto (Esto es, F( x  y )  F( x )  F( y ) ). Las magnitudes intensivas no cumplen éste requisito, lo cual no significa que no puedan someterse a ningún cálculo y que no entren en la composición de las teorías científicas cuantitativas. Se identifican varias escala de medida dependiendo de las leyes que cumplan en cuanto a ordenamiento y espaciamiento de los grados (números):

12

La escala nominal no cumple ninguna de éstas propiedades y la asignación numérica, completamente arbitraria, puede ser reemplazada por cualquier otro tipo de rótulo. La escala ordinal permite establecer un ordenamiento que represente la magnitud de la propiedad y no cumple ley alguna respecto del espaciamiento entre intervalos de la escala. La escala de intervalo (uniforme) tiene distanciamientos iguales y permite percibir diferencias iguales de magnitud a partir de un punto cero que es completamente convencional o arbitrario. Finalmente la escala de razón (métrica) además de cumplir las leyes anteriores sobre ordenamiento y distanciamiento, parte de un cero absoluto el cual depende de condiciones o leyes que pertenecen a alguna teoría y generalmente coincide con la desaparición de la propiedad. Unidad de medida Una unidad es un intervalo dentro de la escala de medida. La adopción de una escala implica la elección del concepto de unidad para la escala conceptual y de un objeto físico patrón para la escala material. La elección de una unidad de medida supone dos pasos previos: a) identificar la dimensión de la magnitud y b) responder si se trata de una magnitud fundamental o derivada. Convencionalmente las magnitudes de la misma dimensión se miden con la misma unidad. Una magnitud es fundamental cuando es irreductible a otras más básicas y no requiere el análisis de dimensión ya que la elección de las unidades es convencional. Una magnitud es derivada cuando se compone de varias magnitudes fundamentales relacionadas de alguna forma, se expresan mediante fórmulas que son la base para el análisis dimensional. El análisis dimensional es un análisis de fórmulas que pertenecen a una teoría o la presuponen. Una vez realizado el análisis anterior, la elección de la unidad material o patrón es convencional pero debe cumplir con los requisitos de precisión, constancia y de fácil reproducción para que hagan posibles comparaciones objetivas. Teniendo la unidad conceptual y su materialización se pueden derivar múltiplos y submúltiplos de las mismas y se tendrá un sistema de unidades que permite, entre otras cosas, las conversiones de una escala a otra. Sin embargo, es importante recordar que esto no puede ocurrir en el vacío teórico. De hecho se sustenta en una teoría. Instrumentos Un instrumento de medida es la técnica o conjunto de técnicas que permiten la asignación numérica a las magnitudes de la propiedad o atributo ya sea por comparación con las unidades de medida o para provocar y cuantificar las manifestaciones del atributo cuando éste es medible sólo de manera indirecta. Un instrumento debe satisfacer tres exigencias básicas: 1.

Detectar ‘la señal’ sin interferencia y, en especial, sin intervención del operador. La operación de medida es la interacción objeto de medida-instrumento, por tanto el interés no es ya el objeto de medida sino el complejo objeto-instrumento.

2.

No provocar reacción en el objeto de medida o, de ser así, tal reacción debe ser calculable.

3.

Basarse en supuestos determinados sobre la relación entre la propiedad y el efecto observado.

El cumplimiento de estos requisitos exige apoyo teórico sobre la propiedad que se mide. Operaciones Llamaremos aquí operaciones a las acciones necesarias para relacionar magnitud e instrumento de manera que el segundo recoja las señales del primero, y para obtener un resultado interpretable. Se incluyen entonces, operar el instrumento (aplicar la prueba), leer la señal del mismo (obte-

13

ner puntajes brutos o conteo de respuestas) y, en algunos casos hacer transformaciones numéricas. La operación básica de la medición es el conteo (de objetos perceptibles, de unidades de la escala en la magnitud de la propiedad, etc.). El conteo es directo cuando se trata de objetos perceptibles (números fácilmente accesibles) e indirecto cuando se debe recurrir a una muestra o cuando se trata de asignaciones teóricas (parámetros). Los números directamente accesibles : a) pertenecen a rasgos básicos de la realidad y b) cambian dentro de ciertos rangos sin que la realidad se transforme cualitativamente. Resultados La medición arroja números o conjunto de números que deben ser procesados con el fin de darles una interpretación. Teóricamente puede establecerse una diferencia entre el valor real (verdadero) de la magnitud de la propiedad y el valor observado mediante la medición. Tal diferencia sería el error de medida tan desconocido como el valor real (En la próxima unidad se trabajará este concepto). A partir de los datos puede hacerse una estimación del error lo cual permitirá a su vez, estimar el valor real. Se asume que la media de los valores observados es la mejor estimación del valor real, luego la obtención de un resultado implica algunas operaciones: Tipificación: identificación y descripción detallada de las condiciones de la medición Presentación o resumen de los datos que permitan llegar a alguna generalización sobre su comportamiento (forma de su distribución, función de distribución). Estimación del error de medida y del valor real. Así, el resultado de la medición es, más que un conjunto de datos brutos o la determinación de un punto o valor exacto, la construcción de un intervalo que, con alguna probabilidad contenga el valor





real. Esto es, P xi  kei  X v  xi  kei  p , donde xi es un valor observado en el i-ésimo sujeto, Xv es el valor real de magnitud de atributo para el i-ésimo sujeto, ei es el error de medida para esa observación particular y k depende de la distribución de probabilidad y del nivel de precisión que se desee para el intervalo. Finalmente, cualquier resultado de una medición debe interpretarse a la luz de la misma teoría y a su vez aportar nuevos elementos que la confirmen o generen nuevas preguntas de investigación.

SUPUESTOS BÁSICOS De acuerdo con lo anteriormente expuesto, todo proceso de medición parte de algunos supuestos que pueden resumirse como sigue: 1.

Se miden propiedades de los objetos o sujetos y no al objeto como tal. En otras palabras, el objeto de medida será una propiedad de un objeto.

2.

Las propiedades de los objetos o sistemas existen y existen el alguna medida, independientemente de la medición.

3.

El resultado de la medición es sólo un valor observado de la magnitud de la propiedad pero no es su valor real, en consecuencia, se mide con error pero tal error no debe ocultar el valor real.

USOS DE LA MEDICIÓN EN PSICOLOGÍA Identificar los usos de la medición en psicología implica contestar a la pregunta ¿para qué se mide?. Algunos autores presentan esta respuesta revisando la utilidad de la medición en las diferen14

tes áreas de aplicación de la psicología (educativa, social, laboral, etc.) y añadiendo a su categorización una clase denominada psicología experimental o básica. Sin entrar a discutir los problemas que estas categorizaciones presentan sobre todo cuando se trata de definir fronteras entre unas y otras clases; aquí se distinguen tres categorías: descripción, modelamiento e intervención. En el primer grupo se encuentran los procedimientos cuyo objetivo último es hallar algunos valores de la magnitud de algunas propiedades psicológicas para una muestra o población. El modelamiento implica la construcción o identificación de un modelo teórico que relacione algunas variables con la propiedad objeto de la medida. Tal modelo puede permitir a) predicción o pronóstico de un comportamiento futuro o en otras condiciones (selección de personal o educativa) o b) explicación de un comportamiento actual a partir de variables pasadas o presentes (clínica, laboratorio). La intervención hace referencia a la manipulación de algunas variables para producir cambios en un comportamiento (intervención clínica, investigación básica). Las anteriores categorías no son mutuamente excluyentes ni implican un orden determinado; con mucha frecuencia se combinan dentro de un mismo estudio alternándolas según el objetivo buscado (En aplicaciones clínicas con frecuencia se empieza y termina con una descripción)

ALGUNAS CLASIFICACIONES La literatura especializada reporta tantas clasificaciones de medición en psicología, como criterios de los autores. Todas ellas resultan igualmente convencionales y su utilidad se limita con frecuencia, a fines puramente didácticos. La Figura 2 muestra las clasificaciones más comunes.

RASGO

ESTADO

Vs

Conjunto de conductas relacionadas que aparecen y desaparecen juntas de manera consistente en diferentes situaciones

Comportamientos o respuestas que se presentan en determinada situación pero no en condiciones diferentes

REFERENCIA A NORMA Patrón de calificación relativo al desempeño de un grupo de referencia

Vs



Vs

PROCESO Cambios comportamentales dependiendo de las condiciones o después de algún tratamiento o modificación de alguna variable relevante. Estudio longitudinal

REFERENCIA A CRITERIO



Parámetro de calificación según un nivel de desempeño previamente establecido

}

Muestreo de un universo hipotético de posibles respuestas que serían manifestación de la propiedad de interés

}

Análisis detallado de (todas, en lo posible) las situaciones o respuestas que son manifestación de la propiedad

MUESTRA REPRESENTATIVA Vs INVENTARIO DE COMPORTAMIENTO

15

EJECUCION TIPICA

Vs

Comportamiento habitual o típico del sujeto. Medidas de personalidad, intereses, actitudes,...

EJECUCION MAXIMA Capacidad o desempeño tope máximo del sujeto. Medidas de inteligencia, aptitudes, habilidades, etc.

Tareas o conjunto de instrucciones cuya respuesta es de ejecución. Habilidades motoras.

{EJECUCION Vs

Presentación de preguntas o tareas escritas y respuestas también escritas. Cerradas o ensayos.

{LAPIZ Y PAPEL

Figura 2: Representación de algunas clasificaciones de la medición en psicología

REPASO DE TEORIA ESTADÍSTICA Antes de introducir en temas como teoría clásica del error de medida, algunos procedimientos para estimación de la confiabilidad y validez de instrumentos de medición en psicología, formas de estandarización de pruebas psicológicas y análisis de pruebas; es necesario repasar algunos elementos básicos de estadística. No se presentan explicaciones detalladas de cada tema que se supone conocido por el estudiante, más bien se tratará de explicitar los elementos necesarios para la comprensión de los temas subsiguientes, de uniformizar un lenguaje y de presentar una notación. Funciones de probabilidad Si X es una variable aleatoria con valores xi donde i va de 1 a n, (n un número finito), la función de probabilidad es la regla o fórmula que asocia a cada valor xi , su probabilidad. Así, la función de probabilidad g(xi) se define como g(xi) = P[X=xi] (1a) y la función de probabilidad acumulada G(xj) es la regla o fórmula que asigna a cada valor xj la probabilidad de que X asuma un valor igual o inferior a xj. La función de probabilidad acumulada se define entonces, como:

G( x j )  P [ X  x j ]   g( xi )   P [ X  xi ] i j

(1b)

i j

Si g(xi) es una función de probabilidad, siempre se cumple que: (i)

0  g ( xi )  1. Esto es, P[ X = xi ] estará entre 0 y1 para todos los valores xi .

16

(ii)

n

n

i 1

i 1

 g( xi )   P [ X  xi ]  1 . Esto es, la suma de las probabilidades para todos los valo-

res xi siempre es igual a 1. En otras palabras, la probabilidad del evento que contiene todos los valores posibles de X es 1. De otra parte, si X es una variable aleatoria continua, con valores xi donde i va de 1 a , la probabilidad de que X tome un valor particular xi, ( P[ X = xi ]) tiende a 0. Se define entonces, la función que asocia a cada par de valores xi , xj , la probabilidad de que la variable asuma valores entre xi y xj. Esta es la función de densidad g(xi , xj) definida como

g(xi , xj ) = P[xi  X  xj]

(1c)

y la función de densidad acumulada, G(xj), es la que asocia a cada valor xj la probabilidad de que X tome valores iguales o inferiores a xj. La función de densidad acumulada se define entonces, como:

G( xj ) = P[X  xj]

(1d)

Si g(xi , xj ) es una función de densidad, entonces se cumple que: (i)

0  g ( xi , xj )  0

(ii)

g( xi , xj ) = P xi  X  xj  = área bajo la curva entre xi y xj

(iii)

g(- ,  ) = P[-   X ] = 1 . Es decir, el área total bajo la curva que forma la función de densidad es

1

Valor esperado El valor esperado denota el valor promedio, conocido como media aritmética. Así, Si X es una variable aleatoria con valores xi , donde i puede variar de 1 hasta n, y con función de probabilidad g(xi)=PX=xi, entonces el valor esperado de X se define como: n

n

i 1

i 1

E ( X )   xi g( xi )   xi P [ X  xi ]   x

(2a)

Si se trata de eventos igualmente probables esto es, todos los xi tiene la misma probabilidad 1/n, el valor esperado de X puede expresarse como: n

n

xi  x , i 1 n

E ( X )   xi ( 1 / n )   i 1

(2b)

expresión generalmente conocida como fórmula para la media de datos no agrupados. Ahora, si cada xi es el valor medio (punto medio) de un grupo de fi valores igualmente probables (intervalo de clase) de manera que la probabilidad de cada xi es fi /n, entonces el valor esperado de X puede expresarse como:

17

n

n

f i xi  x i 1 n

E ( X )   xi ( f i / n )   i 1

(2c)

expresión generalmente conocida como fórmula para la media de datos agrupados Las principales propiedades del valor esperado o media son: Si X es una variable aleatoria y a, b, y c son constantes reales, entonces se cumple que: (i)

E(a) = a, es decir, el valor esperado de una constante es la misma constante

(ii)

E(X + a) = E(X) + a = x + a

(iii)

E(bX) = bE(X) = bx

(iv)

E(a+bX) = a+bE(X) = a + bx

(v)

E(a+bX+cX2 ) = a + bE(X) + cE(x2 )

(vi)

E(X-x) = E(X) - x = x -x =0

Varianza y desviación típica La varianza es la medida que dispersión que denota el promedio (valor esperado) de distancias cuadráticas respecto a la media. En consecuencia, si X es una variable aleatoria, la varianza de X se define como:

Var( X )  E ( X   x )2  2x ,

(3a)

De acuerdo con la definición de valor esperado, si cada valor 1/n, entonces la varianza puede expresarse como:

(xi - x) tiene la misma probabilidad 2

n

n

Var( X )   ( xi  x )2 1 / n 

 ( xi   x )2

i 1

n

i 1

  2x ,

(3b)

expresión generalmente conocida como fórmula para la varianza de datos no agrupados. Ahora, si cada xi es el valor medio de un grupo de fi valores igualmente probables de manera que 2 la probabilidad de cada valor (xi - x) es fi /n, entonces la varianza de X puede expresarse como: n

n

Var( X )   ( xi  x )2 f i / n  i 1

 f i ( xi   x )2

i 1

n

  2x ,

(3c)

expresión generalmente conocida como fórmula para la varianza de datos agrupados.

18

Otra expresión comúnmente usada debido a que facilita el cálculo de la varianza es n

2 

 xi2

i 1

n

 2

(3d)

y se obtiene del desarrollo algebraico y la aplicación de algunas propiedades del valor esperado a partir de la definición de varianza (expresión 2a), así:

Var( X )

 E ( X 2  2 X x   2x )  E ( X 2 )  2 E ( X ) x  E (  2x )  E ( X 2 )  2 2x   2x  E ( X 2 )   2x xi2   2x i 1 n n



Las propiedades de la varianza pueden resumirse como sigue: Si X es una variable aleatoria y b y c son constantes reales, entonces se cumple que: (i)

Var(b) = 0

(ii)

Var(X)  0

(iii)

Var(X +b) = Var(X) =2

(iv)

Var(bX ) = b2Var(X) = b22

(v)

Var(b + cX) = c2 Var(X) = c22

Sin embargo, dado que la varianza son distancias cuadráticas se tendrán siempre unidades al cuadrado, lo cual puede dificultar la interpretación. Una medida de dispersión más comúnmente usada es la desviación estándar o desviación típica, definida como la raíz cuadrada positiva de la varianza, así:

Ds( X )  Var( X )   x ,

(4a)

de manera que la fórmula para la desviación típica de datos no agrupados es:

Ds( X ) 

( xi   x )2  x , n i 1 n



(4b)

y para datos agrupados:

f i ( xi   x )2 Ds( X )    x n i 1 n

(4c)

19

Covarianza y correlación La covarianza es una medida de asociación (covarianción, variación conjunta) lineal entre dos variables y se define como el valor esperado del producto cruzado de las distancias de cada variable con respecto a su media. Así, si X y Y son variables aleatorias con medias x y y respectivamente, entonces la covarianza entre X y Y se define como:

Cov( X ,Y )  E ( X   x )( Y   y ) , si cada producto cruzado

(5a)

( xi   x )( yi   y ) tiene probabilidad 1/n, desarrollando expresión 4a

se obtiene la comúnmente llamada fórmula para la covarianza: n

Cov( X ,Y ) 

 ( xi   x )( yi   y )

i 1

(5b)

n

Puede mostrarse, además que si X y Y son variables aleatorias y se define una tercera variable W tal que W=X+Y, entonces:

Var( W )  Var( X )  Var( Y )  2Cov( X ,Y )

(5c)

Sin embargo la covarianza puede tomar valores muy grandes o pequeños dependiendo de las unidades de las variables, lo cual dificulta la interpretación de los resultado observados. Una medida de asociación que no presenta dicha dificultad es el índice de correlación definido como la covarianza estandarizada, esto es, dividida por el producto de las desviaciones típicas de las variables. Así, si X y Y son variables aleatorias con medias x y y y con desviaciones típicas x y y respectivamente, entonces la correlación entre X y Y se define como:

Corr( X , Y ) 

Cov( X , Y ) , x y

(6a)

y utilizando la expresión 3b se obtiene la expresión comúnmente conocida como coeficiente de correlación producto-momento de Pearson: n

Corr( X , Y ) 

 ( x i   x )( y i   y )

i 1

n x  y

  xy

(6b)

Este coeficiente de correlación tiene algunas características de interés: (i)

es una medida de asociación lineal entre variables, de manera que no resulta adecuado cuando se trata de estimar asociaciones no lineales.

(ii)

-1   x y  1, para cualquier par de variables X y Y, asumiendo los valores -1 y 1 cuando las variables están lineal y perfectamente correlacionadas en sentido inverso o directo, respectivamente.

Si además X y Y son linealmente independientes se cumple que:

20

(iii)

Cov (X ,Y)=0, por tanto

(iv)

Corr (X ,Y) =0 y puede demostrarse que

(v)

Var (X +Y)=Var(X-Y)=Var(X)+Var(Y)

Distribución binomial Se denomina ensayo de Bernoulli a cada repetición de un experimento, en el cual: (i)

Sólo se tienen dos resultados posibles denominados convencionalmente éxito (E) y fracaso

(F). (ii)

La probabilidad de éxito, PE

= p permanece constante y q =PF =1-p

(iii)

Los ensayos son independientes esto es, el resultado de un ensayo no afecta el resultado de otro, o en términos de probabilidad condicional, la probabilidad de éxito en un ensayo i dado que se obtuvo éxito en el ensayo j, es igual a la probabilidad de éxito de ensayos i y j. Esto es

p, para cualquier par

PEi |Ej  = PE = p

Si se define una variable aleatoria X , como el número de éxitos obtenidos en n ensayos de Bernoulli, entonces: (i)

X tiene distribución binomial con parámetros n, número de ensayos y p, probabilidad de éxito en cada ensayo. Nótese X

(ii)

La función de probabilidad

g(xi) es

g(xi) = P[X = xi ] = donde

  n xi

 b(n,p)

 p n xi

xi

q n - xi

(7a)

es la combinatoria de xi en n. Esto es, el número de muestras de tamaño xi que

se pueden formar teniendo n elementos en total. (iii)

La función de probabilidad acumulada G(xj) es j

j

i 1

i 1

G(xj) =P X  xj =  P X  xi    (iv)

 p n xi

Si se tiene un sólo ensayo de Bernoulli (n=1),E(X)

xi

q n  xi

= 0q+1p = p.

(7b)

(7c)

De manera que en n ensayos (n>1):

E(X) = nE(X) = np.

(7d)

21

(v)

En un sólo ensayo de Bernoulli (n=1),

Var(X) = E(X) -(E(X))2 = p - p2 = p(1-p) = pq.

(7e)

De manera que en n ensayos (n>1) independientes n

Var(X) =  pi qi

(7f)

i 1

pero pi es constante a través de los n ensayos, de manera que

Var(X) =npq y en consecuencia

(7g)

Ds(X) = npq

Distribución normal y normal estandarizada ( Z ) Supóngase una variable aleatoria continua X con función de densidad g(xi , 2 2 varianza  . Si X tiene distribución normal (Nótese XN( , )), entonces:

xj) y con media  y

(i)

=e=o donde e es la mediana o percentil 50 y o es la moda. En consecuencia,

(ii)

A =0 donde A es la medida de asimetría.

(iii)

P -  X + = .683

(iv)

P -1.96  X +1.96 = .95

(v)

P -2  X +2 = .954

(vi)

P -3  X +3 = .997

(8a)

Ahora si X es una variable aleatoria distribuida normalmente con media

XN(, 2) y se define una nueva variable Z tal que Z  (i) (ii)

 y varianza 2, esto es

X  , entonces: 

E(Z) =0 y Var(Z)=1; en consecuencia X   N(0,1) conocida como distribución normal estandarizada o distribución Z. Así, 

X   Z de manera que 

(iii)

xj   x   P xi  X  x j  P i Z     





(8b)

22

Aproximación de la distribución binomial a la normal Si X  b (n, p) con p .5 y con n grande (n), puede demostrarse que X tiene distribución aproximadamente normal con media E(X)=np y con varianza Var(X)=npq. Expresado de otra forma Xaprox. N (np , npq). De manera que: (i)

(ii)

x  np  aprox N( 0 , 1) y en consecuencia, npq Pxi  X  xj   P



x i  np npq

Z

x j  np npq



(8c)

Teorema del límite central Si X1 ,X2 , ... Xn son variables aleatorias independientes distribuidas con media se toman muestran de tamaño n , entonces (i)

 y varianza 2 y

E( X ) = 1/n E(X1 + X2 + ...+ Xn ) = 1/n E(X1 ) + E( X2 ) + ...+E( Xn ) = 1/n ( +  + ...+  ) = n / n

E( X )= (ii)

(9a)

Var( X ) = 1/n2 Var(X1 + X2 + ...+ Xn ) = 1/n2 Var(X1 ) +Var( X2 ) + ...+Var( Xn ) = 1/n2 (2 + 2 + ...+ 2 ) = n2 /n2

Var( X ) =2 /n

(9b)

y en consecuencia, (iii)

Sd( X ) = 

(9c)

n

conocida como error estándar de la media. Si, además X tiene distribución normal con media

 y varianza 2 y se toman muestras in-

dependientes de tamaño n, entonces

X  N( ,2 /n).

(10a)

Y más aún si X tiene cualquier distribución y n es grande, entonces 23

(iv)

X  aprox. N( ,2 /n). y, en consecuencia

(v)

Z

X   aprox. N(0,1) / n

(10b)

de manera que

(vi)

P xi  X  xj   P

Así, si X (i)

x

i

/

 n

 Z

xj   /

n



(10c)

 aprox b (np , npq) y se toman muestras independientes de tamaño n con n grande,

La proporción muestral de éxitos en los

n ensayos, p  aprox N(p , pq/n), en consecuen-

cia,

(ii)

Z=

pp  aprox. N (0,1) pq n

(10c)

y por tanto

(iii)

P pi  p  pj   P[

pi  p  pq n

Z 

pj  p pq

]

(10d)

n

24

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF