Manual de Pruebas de Inteligencia y Aptitudes
May 12, 2017 | Author: Luz Elena Moreno Escandon | Category: N/A
Short Description
Descripción: Manual de Pruebas de Inteligencia y Aptitudes...
Description
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
Kathia Maria Costa Neiva
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
Kathia Maria Costa Neiva
Diseño de portada: Fernando A. Colmenero Primera edición: junio de 1996 MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES © Universidad Iberoamericana © Kathia Maria Costa Neiva © Plaza y Valdés, S.A. de C.V. Derechos exclusivos de edición reservados para todos los países de habla española. Prohibida la reproducción total o parcial por cualquier medio, sin autorización escrita por los editores. Este libro es una coedición entre la Editorial Plaza y Valdés y la Universidad Iberoamericana Editado en México por Plaza y Valdés editores Manuel María Contreras No. 73 Col. San Rafael México D.F. Tel. 705-00-30 ISBN: 968-856-466-4 HECHO EN MEXICO
A mi padre de quien heredé el gusto por leer y escribir A mi madre de quien heredé el ser emprendedora y perseverante A Edi, Tais y Tiago quienes siempre me han apoyado en mis proyectos profesionales
ÍNDICE GENERAL Prólogo Introducción Agradecimientos
9 11 13
PRIMERA PARTE: Aspectos métricos de las pruebas psicológicas 15 Las pruebas psicológicas 17 Capítulo I Capítulo II Construcción y evaluación de las pruebas psicológicas 27 Capítulo III Unidades de calificación de las pruebas psicológicas 47 SEGUNDA PARTE: Inteligencia Capítulo IV La inteligencia Capítulo V Escala de Inteligencia Stanford-Binet Capítulo VI Escala de Inteligencia para adultos de Wechsler (WAIS) Capítulo VII Escala de Inteligencia para el nivel escolar de Wechsler (WISC) Capítulo VIII Escala de Inteligencia para los niveles preescolar y primario de Wechsler (WPPSI) Capítulo IX Beta II-R Capítulo X Test de Matrices Progresivas (Raven) Capítulo XI Test de Dominós Capítulo XII Test de Goodenough
59 61 67 75 105 127 137 145 153 159
TERCERA PARTE: Aptitudes 171 Capítulo XIII Las Aptitudes 173 Capítulo XIV Pruebas de Aptitud Diferencial (DAT) 177 7
Capítulo XV Prueba de Clasificación de Aptitudes de Flanagan (FACT)
195
BIBLIOGRAFÍA
203
PROLOGO Con el propósito de que los estudiantes de psicología pongan en práctica los conocimientos teóricos adquiridos previamente sin ambigüedades ni contradicciones, el presente manual de pruebas de inteligencia y aptitudes, pretende organizar y aclarar dos de las variables más investigadas dentro de la psicología. Cabe señalar que los tests psicólogicos son de las herramientas más utilizadas en el quehacer profesional, por lo que resulta imprescindible conocer el orden y desarrollo de las pruebas, aplicar los aspectos metodológicos implicados en la medida, aplicar, interpretar e integrar a una batería de pruebas y desarrollar una posición ética con respecto a su utilización. Deseo felicitar a la Dra. Kathia Ma. Costa Neiva, ya que ha podido transmitirnos su experiencia acumulada como profesora de psicometría por 4 años y medio en esta Universidad. Estoy seguro que el presente manual facilitará la comunicación entre maestros y alumnos y promoverá un aprendizaje significativo a todo aquel que lo consulte.
Antonio Tena Suck
9
INTRODUCCIÓN La idea de construir un manual sobre pruebas psicológicas surgió de mi experiencia como profesora de Psicometría de la Universidad Iberoamericana - México D.F. La necesidad de textos claros, organizados y resumidos que facilitaran la tarea de los profesores me llevó a la elaboración de este primer manual sobre Pruebas de Inteligencia y Aptitudes. Mi interés es que éste sea el primer manual de una serie sobre Pruebas Psicológicas. Los tests psicológicos constituyen uno de los instrumentos básicos de trabajo del Psicólogo. Son utilizados en las distintas áreas de la Psicología: Clínica, Educativa, Industrial, Comunitaria. Son necesarios en tareas como: psicodiagnóstico, orientación vocacional, selección de personal, investigación, entre otras. Por ello, conocerlos, saber aplicarlos, evaluarlos, interpretarlos, y criticarlos es imprescindible. El objetivo del presente manual es proveer a los Psicólogos y alumnos de Psicología una fuente de consulta, clara, sucinta y organizada sobre algunas de las pruebas de inteligencia y aptitudes más utilizadas. No se pretende, de manera alguna, que éste sustituya a los manuales de las pruebas. La intención es que sirva como una primera aproximación al conocimiento de éstas y que facilite la tarea de los psicólogos, en los momentos en que necesiten decidir sobre la utilización de una u otra prueba psicológica, proporcionando la información esencial para la toma de una decisión. Este manual está dividido en tres partes. La primera parte —Aspectos métricos de las pruebas psicológicas— tiene como objetivo introducir al tema proveyendo la información básica sobre los tipos de pruebas y los procedimientos de construcción, evaluación y calificación de las mismas. Estas 11
Kathia Maria Costa Neiva informaciones son de gran importancia para la comprensión y análisis de las distintas pruebas que serán presentadas en las dos otras partes del manual. La segunda parte —Inteligencia — provee una introducción al concepto de inteligencia y la información básica sobre varias de las pruebas de inteligencia frecuentemente utilizadas por los psicólogos. La tercera parte —Aptitudes — esclarece sobre el concepto de aptitud y proporciona la información básica sobre algunas de las baterías de aptitudes múltiples más utilizadas. Se espera que la presente obra, sea de gran utilidad a todos los profesionistas interesados en el campo de la Psicometría y que facilite su quehacer profesional.
Kathia Maria Costa Neiva Noviembre 1995
12
AGRADECIMIENTOS Deseo manifestar mi agradecimiento a la Universidad Iberoamericana y en especial al Dr. José Gómez del Campo, director del Departamento de Psicología, por apoyar la publicación de este manual; al Mtro. Antonio Tena Suck, coordinador del Departamento de Psicología, por animarme a escribirlo, por revisar cuidadosamente el manuscrito original y aportar sugerencias interesantes y al Arq. Alejandro Robles Oyarzun, subdirector de Difusión Universitaria, por agilizar la publicación del mismo. Deseo también agradecer a la Dirección General de Orientación Vocacional de la UNAM y muy especialmente a su director, Dr. Ramón Alberto Ruiz Tapia, por permitir el acceso al material sobre la Prueba Diferencial de Aptitudes "PROUNAM" y autorizar la mención de dicha prueba en este manual. Asimismo, agradezco al Dr. Lucio Cárdenas, Jefe del Proyecto del PROUNAM, por su disponibilidad en proveerme la información necesaria y revisar la parte del manuscrito relacionada a esta prueba. Por último, quisiera manifestar mi profundo agradecimiento a todos mis alumnos de Psicometría que con sus comentarios, dudas y cuestionamientos me motivaron e incentivaron a escribir este manual.
13
PRIMERA PARTE ASPECTOS METRICOS DE LAS PRUEBAS PSICOLOGICAS
CAPITULO I LAS PRUEBAS PSICOLÓGICAS Son muchas las definiciones propuestas para el término "prueba psicológica". Sintetizándolas, puede considerarse que una prueba psicológica es un instrumento de medición psicológica que posee tres características fundamentales: 1. Sirve de estímulo para extraer un segmento de la conducta de un sujeto. 2. Es rigurosamente estandarizado, o sea se construye, se administra y se califica según reglas preestablecidas. 3. Permite comparar estadísticamente la conducta de un sujeto con un grupo de sujetos de una población definida y clasificarla cuantitativa, cualitativa y/o tipológicamente. Así, la medición de una conducta implica " l a utilización de determinados procedimientos (operaciones), según reglas especificadas, para obtener como resultado la asignación de valores numéricos a la ejecución de una persona" (Brown, 1980, p.8) La función básica de las pruebas psicológicas es medir diferencias de conducta entre los individuos o diferencias en la conducta de un mismo individuo en distintos momentos (Anastasi, 1978). A. ORÍGENES Aunque puede considerarse que Platón y Aristóteles fueron los pioneros de la medición psicológica, ésta adquirió importancia en el siglo XIX, con el aumento de la preocupación por la identificación y clasificación de retrasados mentales. La obra publicada en 183 8, por el médico francés Esquirol, 17
Kathia Maria Costa Neiva sobre retraso mental, sus procedimientos para constituir algún sistema de clasificación de los diferentes grados de retraso y las técnicas de adiestramiento muscular y de los sentidos propuestos por Seguin en 1866, constituyeron los primeros pasos para la elaboración de una medida de la inteligencia. Sin embargo, fue Galton, en Inglaterra, quién, interesado en estudiar la herencia humana, ideó las primeras pruebas, para que fueran utilizadas en el laboratorio antropométrico que estableció en la Exposición Internacional de 1884. Estas, eran pruebas sensomotoras que medían básicamente agudeza visual y auditiva, energía muscular, tiempo de reacción, etc. El creía que las mismas podían servir para medir la capacidad intelectual. Galton contribuyó aun al desarrollo de métodos estadísticos para análisis de datos sobre las diferencias individuales y estuvo entre los primeros a aplicar las escalas de estimación (rating scales), los métodos de cuestionario y la técnica de asociación libre. En sus libros El genio Heredado e Investigación del desarrollo de las facultades humanas relató sus ideas sobre las diferencias individuales y sus primeros intentos por medirlas. La expresión test mental apareció por primera vez en un artículo escrito por el psicólogo americano Cattell en 1890, donde describía las pruebas aplicadas a estudiantes universitarios para evaluar su nivel intelectual. Estas pruebas medían capacidades sensoriales y otras funciones simples como: velocidad de movimiento, sensibilidad al dolor, energía muscular, agudeza de la vista y del oído, discriminación de pesos, tiempo de reacción, memoria, etc. En este mismo período, el psicólogo experimental Alfred Binet, investigó activamente, junto con sus colaboradores, métodos de evaluación de la capacidad intelectual. Pero fue en 1905 que, comisionado por la Secretaria de Educación Pública del gobierno francés para estudiar la educación de 18
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES niños retrasados mentales, elaboró junto con Simon la primera escala Binet-Simon. Esta escala contenía 30 problemas en orden creciente de dificultad que medían, entre otras, funciones como: razonamiento, juicio y comprensión. En la segunda escala (1908), se aumentó el número de tests, aunque se eliminaron algunos de la primera versión considerados no satisfactorios. Además, se agruparon los tests en niveles de edad, lo que permitió que la puntuación obtenida por un niño pudiera ser expresada como una edad mental (edad de los niños normales cuya ejecución se igualaba). La 3 a versión (1911) presentó cambios menores: se añadieron tests en varios niveles de edad y la escala se extendió hasta el nivel adulto. El Binet-Simon obtuvo gran éxito, habiendo sido traducido y adaptado a varios idiomas. La revisión más conocida fue realizada en E. U. A. por Terman en la Universidad de Stanford y se llamó Stanford-Binet (1916). En esta última fue utilizada por primera vez la noción de cociente de inteligencia (C.I.) obtenido por la fórmula: C.I.= Edad Mental/ Edad cronológica x 100. Otra revisión fue hecha en 1912 por Kuhlmann, quién extendió la escala hasta el nivel de edad de 3 meses. Con el desarrollo de los tests surgieron las primeras oficinas de Orientación Vocacional: Munich (1902), Francia (1906), E.U.A. (1908), Bélgica (1914), España (1916), Inglaterra (1920), etc. Los tests colectivos de inteligencia aparecieron en 1917, cuando los E. U. A. decidieron participar en la primera guerra mundial y necesitaron clasificar intelectualmente millón y medio de reclutas. Los más utilizados fueron el Alfa y Beta, el primero se destinaba a la población general y el segundo era empleado con analfabetos y extranjeros que no dominaban el inglés. La segunda revisión del Beta (Beta II-R) es utilizada actualmente. A partir de la primera guerra las pruebas psicológicas 19
Kathia Maria Costa Neiva experimentaron un gran avance. Además de los tests de inteligencia, que eran principalmente verbales, se desarrollaron tests de aptitudes específicas, de rendimiento y de personalidad. Los tests de aptitudes específicas fueron construidos sobre todo para la orientación y selección profesional. Los más utilizados medían aptitudes mecánicas, burocráticas, musicales y artísticas. Los avances metodológicos, principalmente el análisis factorial, aportaron mucho a la elaboración de tests y en especial al desarrollo de las baterías de aptitud múltiple, que aparecieron a partir de 1945. Otra vez la labor de los psicólogos militares en la segunda guerra mundial fue determinante para la evolución de las pruebas psicológicas. B. TIPOS DE PRUEBAS Las pruebas psicológicas pueden clasificarse desde diversos puntos de vista. Compilando las ideas de algunos autores (Morales, 1973; Anastasi, 1978; Brown, 1980) se proponen las siguientes dimensiones de clasificación: 1) Según la • Pruebas • Pruebas • Pruebas • Pruebas • Pruebas • Pruebas • Pruebas • Pruebas • Pruebas
conducta que miden: de inteligencia de aptitudes/habilidades de personalidad/temperamento de intereses/preferencias de valores de actitudes de rendimiento psicomotoras situacionales
2) Según el objetivo: . Pruebas de potencia o ejecución máxima - Exigen del 20
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES examinado su máximo rendimiento en las distintas tareas que componen la prueba. Este es el caso de las pruebas de inteligencia, habilidades, aptitudes específicas o múltiples y de rendimiento. - Pruebas de ejecución o rasgos (ejecución típica) Estas también son llamadas pruebas de clasificación tipológica o cualitativa. En esta clasificación se sitúan las escalas o inventarios de personalidad, tests de ajuste, de temperamento, de intereses o preferencias, de valores, de actitudes, técnicas proyectivas, pruebas situacionales, etc. 3) Según la forma o el tipo de respuesta exigida: • Pruebas objetivas - Son aquellas en que el examinado elige una respuesta entre varias alternativas (reactivos de comparación, verdadero/falso o elección múltiple). Este es el caso de las pruebas de inteligencia y aptitudes. - Pruebas subjetivas - Son aquellas en que el sujeto proporciona libremente la respuesta, como en las pruebas de personalidad, especialmente en las proyectivas como Rorschach, TAT (Prueba de Apercepción Temática), Frases Incompletas de Sacks, etc. 4) Según la • Pruebas • Pruebas • Pruebas
forma de administración: de aplicación individual de aplicación colectiva autoadministrables
5) Según la libertad de ejecución: • Pruebas de poder - Son aquellas que exigen que el sujeto emplee toda su capacidad, realice lo más que pueda. El tiempo límite a veces es controlado, pero cuando esto sucede, se considera que éste es suficiente para que el sujeto demuestre su máxima capacidad. . Pruebas de velocidad - Son las que exigen que el sujeto 21
Kathia Maria Costa Neiva ejecute la tarea asignada, lo más rápido posible. La duración de la prueba es rigurosamente controlada, existe un tiempo límite estricto. 6) Según el material utilizado en la prueba: • Prueba de lápiz-papel • Prueba completamente verbal • Prueba de ejecución (material visomotor) • Pruebas mixtas (combinación de diferentes materiales) 7) Según la forma de dar las instrucciones: • Orales • Escritas 8) Según la forma de calificación: • Manual • Informatizada 9) Según la población a la que se destina: • Pruebas para bebés (baby-tests) • Pruebas para niños preescolares • Pruebas para niños escolares • Pruebas para adolescentes • Pruebas para adultos • Pruebas que se aplican a dos o más etapas del desarrollo Una prueba psicológica combina varias de estas dimensiones (de inteligencia, para adultos, de poder, verbal, etc.) o diferentes aspectos de una misma dimensión (prueba verbal y de ejecución, para adolescentes y adultos, etc.) C. USOS DE LAS PRUEBAS Una pruebapsicológica puede ser empleada con diferentes finalidades: 22
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
• Evaluación: por ejemplo en el caso de evaluarse el rendimiento académico de alumnos. • Clasificación: cuando, por ejemplo, se clasifica intelectualmente a los niños de un determinado grado escolar. • Selección: cuando se seleccionan candidatos para un puesto o alumnos para la universidad. • Diagnóstico: cuando se busca estudiar áreas del comportamiento de un sujeto para detectar o no dificultades específicas. • Investigación: cuando se busca verificar hipótesis, como por ejemplo, si el nivel de ansiedad de jóvenes drogadictos es más alto que el de jóvenes no drogadictos. Se constata pues, que las pruebas psicológicas pueden ser utilizadas en las distintas áreas de la Psicología: clínica, educacional, industrial y social. Algunas son específicas de una sola área, otras pueden servir a cualquiera de ellas. En el área clínica, las pruebas no solo son utilizadas básicamente para diagnosticar aspectos del comportamiento normal y patológico, sino también para evaluar intervenciones terapéuticas. En el área escolar, son muchos los empleos: clasificación de alumnos (nivel intelectual, rendimiento escolar), homogeneidad de los grupos, detección de problemas de aprendizaje, orientación vocacional, evaluación psicomotora, etc. En el área industrial son utilizadas para selección, clasificación y promoción de personal, evaluación de capacitación, evaluación de productividad y calidad del trabajo, evaluación de la propia organización, etc. En el área social son empleadas sobre todo para comprender y evaluar los procesos grupales y los patrones culturales y sociales. Finalmente, en cualquiera de estas áreas las pruebas psicológicas pueden ser utilizadas con fines de investigación científica. 23
Kathia Maria Costa Neiva D. ASPECTOS ÉTICOS Son muchas las medidas adoptadas para controlar el uso inadecuado de las pruebas psicológicas. El Código de Etica Profesional del Psicólogo Ethical Principles of Psychologists and Code of Conduct y el Standards for Educational and Psychological Testing, ambos editados por la A.P.A. (American Psychological Association), contienen varios principios que reglamentan la publicación, distribución y utilización de las pruebas psicológicas. Todo psicólogo debe tener conocimiento de estos principios y cuidar que los mismos sean rigurosamente cumplidos, puesto que, son éstos los que permiten conservar la credibilidad en las pruebas. En seguida se mencionan algunos puntos éticos importantes apuntados por Anastasi (1978): • La venta, distribución y utilización de los tests debe restringirse a personas calificadas para ello. • No debe venderse un test en el mercado sin que éste esté suficientemente validado a través de investigaciones. • No deben publicarse en periódico, revista o libro popular, ni tests ni parte de ellos. • No deben realizarse tests por correo, ni tampoco enviar resultados de los mismos. • La aplicación, calificación, interpretación y comunicación de los resultados de tests debe ser realizada por persona debidamente calificada y entrenada. • Todo test debe disponer de un manual que contenga informaciones detalladas sobre su aplicación, calificación e interpretación, datos precisos de confiabilidad y validez, además de tablas de normas con información sobre el número y naturaleza de los sujetos a partir de los cuales las mismas se establecieron. El manual debe ser una exposición objetiva sobre el test y no un instrumento de publicidad que busque presentarlo de manera más favorable. 24
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES • Es imprescindible aclarar al examinado sobre el objetivo del test y la forma en que serán utilizados sus resultados. • Los resultados obtenidos en un test solo pueden ponerse a disposición de terceros bajo dos condiciones: a) el examinado debe consentir que se proporcione la información; b) la persona a la que se transmite debe tener una necesidad legítima de la información (por ejemplo, profesores o futuros patrones). Sin embargo, hay algunos casos especiales, como: a) en circunstancias que puedan implicar peligro para un individuo o sociedad, el psicólogo tiene obligación de revelar la información a profesionales o autoridades públicas; b) el psicólogo está obligado a revelar la información de un test a los padres o guardianes de un menor o a las autoridades de su escuela. Los puntos arriba mencionados no agotan las medidas propuestas en el Código de Etica Profesional del Psicólogo. Además, cada uno de ellos implica discusiones éticas importantes y debe ser sujeto de reflexión por parte de todo psicólogo o estudiante de Psicología. Proteger la intimidad de sus clientes y la credibilidad de su material de trabajo es parte del quehacer profesional del psicólogo. Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión) Madrid: Editorial Aguilar. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a reimpresión) México D.F.: Editorial Trillas.
25
CAPITULO II CONSTRUCCIÓN Y EVALUACIÓN DE LAS PRUEBAS PSICOLÓGICAS Toda prueba psicológica es construida de tal manera que represente o pueda predecir una determinada conducta. Según Brown (1980) una prueba psicológica es una representación cuando sus reactivos son similares a la conducta que desea medir y es predictiva cuando sus reactivos, aunque no son similares a la conducta, pueden predecirla. Por lo tanto, la construcción de los reactivos de una prueba es fundamental, así como su análisis y comprobación. Conocer exactamente lo que se quiere medir es muy importante para la construcción de "buenos reactivos". Al elaborarse una prueba, se proponen inicialmente una buena cantidad de reactivos, de los cuales solo se quedan aquellos que realmente miden lo que se pretende medir. Bacher (1981) advierte sobre los errores sistemáticos queocurren en la construcción de reactivos y hace varias sugerencias, entre ellas: (a) el vocabulario debe ser simple, accesible a todos, (b) se deben evitar los términos técnicos y palabras cuyo sentido varíe según la región o el grupo social, (c) se deben evitar formulaciones muy abstractas pues pueden ser mal comprendidas, (d) se deben evitar reactivos muy largos, sobre todo cuando son formulados en la forma interrogativa o cuando contengan negaciones, (d) en la formulación de los reactivos, se debe evitar favorecer determinadas respuestas volviendo las demás menos probables, (e) no debe figurar en la formulación de un reactivo más de una idea pues, es imposible saber a cuál de ellas contesta el sujeto. 27
Kathia Maria Costa Neiva No es el propósito de este manual proveer mayores detalles sobre la construcción de las pruebas sino informar sobre los diferentes procedimientos de evaluación y comprobación de las mismas, para que se puedan analizar los límites de éstas. A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS El primer procedimiento para analizar los reactivos de una prueba consiste en aplicársela a una muestra de personas, similares a las que se pretenden examinar con la misma, para verificar la reacción de éstas ante el instrumento. Con esta aplicación puede verificarse el nivel de dificultad de la prueba, el poder de discriminación de sus reactivos así como ambigüedades en éstos. El nivel de dificultad de la prueba depende de sus reactivos y de su distribución en la prueba (Anastasi, 1978). Este puede ser verificado a través de la distribución de las puntuaciones totales de una muestra de sujetos. Un nivel de dificultad normal proporciona una curva de distribución de las puntuaciones semejante a la curva normal (figura 2.1), donde hay una acumulación de sujetos en el centro (puntuaciones medianas) y una disminución gradual de sujetos al acercarse de los extremos de la curva (puntuaciones altas o bajas).
Figura 2.1: Curva de distribución normal
Si la prueba es muy difícil, la curva de distribución de las puntuaciones de los sujetos presenta una acumulación en el extremo 28
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES inferior o sea gran número de sujetos con puntuaciones bajas (figura 2.2). Esto indica que faltan a la prueba suficientes reactivos fáciles. Sin embargo, cuando la prueba es muy fácil, la acumulación de puntuaciones se da en el extremo superior (puntuaciones altas) y por lo tanto le faltan reactivos difíciles (figura 2.3).
Figura 2.2 Distribución desviada (a la izquierda)
Figura 2.3 Distribución desviada (a la Derecha)
Cuando sucede uno de los dos casos arriba mencionados suele modificarse el nivel de dificultad de la prueba hasta que la gráfica de distribución de las puntuaciones se aproxime a la curva normal. Para tal, se pueden añadir reactivos más fáciles o más difíciles, cambiar la posición de reactivos, eliminar o modificar reactivos, revisar pesos o ponderaciones de las puntuaciones asignadas a determinadas respuestas, etc. (Anastasi, 1978). La verificación del poder discriminative de los reactivos es hecha a través de un análisis estadístico que "indica la amplitud con la que el reactivo mide lo que debe medir" (Brown, 1980, p. 31). El procedimiento más común es el que, utilizando la calificación de la prueba como medida de criterio, correlaciona las respuestas a los reactivos individuales con las calificaciones totales obtenidas en la prueba. Se supone que las personas que obtuvieron calificaciones totales altas respondieron a un reactivo en forma correcta con mayor frecuencia que aquellas que obtuvieron calificaciones totales bajas. Si esto ocurre, el reactivo es considerado "bueno", o sea que discrimina relativamente bien lo que se desea medir. 29
Kathia Maria Costa Neiva Un tercer procedimiento en el que se verifica el porcentaje de personas que seleccionan cada una de las respuestas alternativas de un reactivo. Las respuestas que son muy poco o nunca escogidas deberán ser revisadas, pues indican que no contribuyen al poder discriminativo del reactivo (Brown, 1980). Algunos otros procedimientos también son útiles dependiendo del objetivo y tipo de prueba como: interrelaciones entre reactivos; interrelaciones entre reactivos y las diferentes subescalas de una prueba; efectos de diferentes límites de tiempo, etc. En general, estos procedimientos son realizados en dos muestras independientes (validación cruzada) para eliminar variaciones provenientes de errores en el muestreo. B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA El análisis de laprueba, como un todo, supone distintos procedimientos, que objetivan la minimización de los efectos de variables que pudieron intervenir en la medición. En otras palabras supone el control de los errores. 1. Estandarización Este proceso, también llamado por algunos autores tipificación, implica la utilización del mismo material de prueba (o equivalente) bajo un procedimiento uniforme de aplicación y puntuación (Anastasi, 1978). Solo así pueden compararse los resultados obtenidos por distintos sujetos en una misma ocasión o por un mismo sujeto en distintas ocasiones. En primer lugar, el material de la prueba debe ser siempre el mismo, o comprobadamente equivalente. En segundo lugar, las condiciones de aplicación deben también ser, en la medida de lo posible idénticas. Para tal, las instrucciones de aplicación, las demostraciones previas, los límites de tiempo, las formas de resolver dudas, la disposición del material, etc. deben 30
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES ser rigurosamente las mismas para todos los sujetos. Por ello, el manual de una prueba debe proveer estas informaciones con el máximo de detalles. Además, el aplicador debe cuidar aspectos como: tono e inflexión de voz, expresión facial, reacciones verbales del tipo "sí" o "bien" quepueden dar la connotación de "correcto", entre otros. El ambiente de la aplicación debe proporcionar las condiciones físicas adecuadas para que el resultado del sujeto no se vea afectado por variables extrañas como: falta o exceso de luz, ruidos, intervenciones, etc. Finalmente, el procedimiento de calificación debe ser lo más uniforme posible. Se necesita para tal un alto grado de objetividad en la puntuación y calificación de las respuestas de los sujetos. En pruebas que utilizan reactivos de elección múltiple es más fácil garantizar esta objetividad. Sin embargo, los reactivos que suponen una respuesta libre del sujeto son más vulnerables. En este caso, es importante que el manual de la prueba proporcione indicaciones detalladas para la asignación de calificaciones y que los calificadores sean debidamente entrenados para esta tarea. Otro aspecto importante de la estandarización del procedimiento de puntuación es el establecimiento de normas. "Una norma es la actuación media o normal" (Anastasi, 1978, p. 24) de un grupo de personas similar al que se destina la prueba. Al aplicarse la prueba a este grupo llamado norma de estandarización, muestra de tipicación o grupo normativo, se obtiene el promedio de actuación del grupo, así como los grados de desviación por arriba y por abajo del promedio. La comparación del resultado de un sujeto con la norma, permite determinar la posición del mismo con respecto a este grupo. Muchas veces se necesita comparar el resultado de un sujeto con diferentes grupos (según el sexo, la edad, el nivel de escolaridad, la ocupación, etc.) y por lo tanto son necesarios varios grupos normativos. Además, las normas pueden estar expresadas en diferentes unidades de calificación: CI de desviación, percentil, estanina, puntuación T, puntuación Z, etc. El próximo capítulo tratará con detalles las distintas unidades de calificación. 31
Kathia Maria Costa Neiva
2. Validez La validez de una prueba es el grado en que ésta mide lo que se quiere medir y solo lo que se quiere medir (Anastasi, 1978). Existen tres procedimientos que permiten verificar la validez de una prueba. La utilización de uno u otro depende del objetivo y tipo de prueba. 2.1. Validez de contenido Este tipo de validez es utilizado sobre todo en pruebas de rendimiento/ aprovechamiento, aunque también se aplica a otros tipos de pruebas psicológicas (Brown, 1980). A través de la validez de contenido se verifica si los reactivos de la prueba realmente constituyen "una muestra representativa del universo de las conductas o de los contenidos" (idem, p. 154) que se quiere medir. El procedimiento utilizado para verificar la validez de contenido de una prueba consiste en: 1) Precisar las habilidades, conocimientos y comprensiones que corresponden al contenido enseñado y que ha sido el objetivo de un curso o entrenamiento. 2) Examinar cuidadosamente la prueba (muestra de tareas) para ver qué conocimientos, habilidades y comprensiones requiere. 3) Verificar qué tanto contenido de la prueba representa el contenido y los objetivos del curso o entrenamiento. Una prueba válida debe estar compuesta de tareas que representen al máximo los contenidos y metas de la enseñanza. Este procedimiento no utiliza ningún índice cuantitativo para verificar la adecuación de la muestra de tareas; la evaluación se da a través de un examen detallado y cuidadoso de la misma y por lo tanto implica un proceso de juicio y razonamiento por parte del evaluador. Brown (1980) presenta algunos de los inconvenientes que puede presentar este tipo de validez: a) no poder utilizar un índice cuantitativo para verificar el grado de relación, b) distintos evaluadores pueden no estar de acuerdo en cuanto a la validez del contenido de la prueba y c) la falta de claridad en la precisión del dominio dificultará los juicios 32
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES de validez de contenido. Murphy y Davidshofer (1994) hacen además hincapié en el hecho de que "los estudios de validez de contenido no pueden, por ellos mismos, garantizar la validez de la medida"(p. 113). 2.2. Validez de criterio Este tipo de validez está relacionado con la predicción de un resultado específico futuro por ejemplo, el éxito en una futura ocupación o en un futuro programa de capacitación. Por ello, se aplica a pruebas utilizadas para pronosticar resultados por medidas de criterios muy claras y definidas (e .g. tests de selección y clasificación de personal). Se elige así una medida como criterio (e.g. desempeño en el empleo) y se verifica cuánto la medida en la prueba (e.g. prueba de habilidad numérica) se relaciona con la medida del criterio. Existen varios métodos para verificar la validez de criterio. El más utilizado supone el siguiente procedimiento: 1) Aplicar la prueba a un grupo, antes de iniciar el desempeño en un trabajo o de ingresar en un programa de capacitación o curso. 2) Definir un criterio que sirva de valoración del éxito en el empleo, programa de capacitación o curso y obtener más tarde, junto al mismo grupo, una medida de este criterio. 3) Calcular la correlación entre la calificación en la prueba y la calificación en el criterio de valoración del éxito. El coeficiente de correlación puede variar de -1 a +1. Cuando el valor es cercano a 0 indica que no existe correlación entre las dos medidas. Tanto un coeficiente positivo cuanto un coeficiente negativo indican una relación entre las medidas. Un coeficiente positivo indica que ambas medidas varían en la misma dirección (ambas altas o ambas bajas), mientras que un coeficiente negativo indica que si una medida es alta, la otra es baja o viceversa. Tanto mayor es esta correlación, más efectiva será la prueba para predecir este criterio y consecuentemente más válida. La gran dificultad de este procedimiento está en la elección de un criterio adecuado de valoración. Thorndike (1975) propone cuatro cualidades que debe tener un criterio de valoración: 33
Kathia Maria Costa Neiva • Adecuación - Un criterio es adecuado cuando la calificación de éste está determinada por los mismos factores que determinan el éxito en el trabajo/curso/tarea. No hay ninguna prueba que permita verificar la adecuación o no del criterio. Hay que confiar en el juicio del profesional para elegirlo. • Exención de prejuicios - la medida del criterio debe proporcionar, a cada persona, la misma oportunidad de obtener una buena calificación. Por ello, debe ser exenta de prejuicios del evaluador. • Conflabilidad - La medida del criterio debe ser estable y reproducible para que una prueba cualquiera pueda predecirla. Si la medida del criterio varía de una situación a otra o de tiempo en tiempo, ésta no podrá relacionarse con otras medidas y por lo tanto no habrá prueba que la pueda predecir. • Disponibilidad - En la elección del criterio debe tomarse en cuenta los problemas prácticos de su utilización: disponibilidad, tiempo, costo, etc. Un segundo método para determinar la validez de criterio es ' 'ver si las calificaciones predictoras diferencian a los grupos específicos por su ejecución en el criterio" (Brown, 1980, p. 133). Por ejemplo, para determinar si una prueba de habilidad numérica es un buen predictor del éxito de alumnos en un curso de álgebra, se debe proceder de la siguiente manera: 1) Dividir los alumnos en dos grupos: los aprobados y reprobados en el curso de álgebra 2) Comparar las calificaciones, de esos dos grupos, en la prueba de Habilidad Numérica para verificar si hay una diferencia estadísticamente significativa entre sus calificaciones. El procedimiento generalmente utilizado para verificar si la diferencia es significativa es la obtención de la estadística t. Esta estadística "compara la diferencia en las medias con la medida del error de muestreo" (Brown, 1980,p. 132). Si el valor/obtenido es significativo (según las tablas), quiere decir que los dos grupos tienen calificaciones significativamente diferentes en la prueba. Un valor t no significativo indica que las calificaciones de la prueba no discriminan entre los 34
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES grupos definidos según el criterio y consecuentemente, que la prueba no es válida. Un tercer método es la utilización de índices de exactitud en la toma de decisiones (Brown, 1980). El procedimiento, en este caso, consiste en: 1) Clasificar las calificaciones de la prueba en dos o más categorías independientes (ejemplo: fracaso VÍ éxito o aceptable vs inaceptable) 2) Clasificar, según las mismas categorías, las calificaciones del criterio 3) Comparar el conjunto de datos 4) Obtener la proporción de decisiones correctas (Pdc) Por ejemplo, el cuadro 2.1 indica las predicciones correctas (aciertos) e incorrectas (fallas). Se consideran en el cuadro cuatro grupos formados a través de la comparación de dos categorías de criterio y dos categorías de la prueba predictiva (éxito vs fracaso). CUADRO 2.1 Predicciones en las decisiones Predicción de la Prueba Psicológica ÉXITO FRACASO
Ejecución del criterio ÉXITO FRACASO Falla (B) Aciertos (A) Falla (C) Aciertos (D)
Cuando los grupos obtienen éxito o fracaso en ambas medidas, la de la prueba y la del criterio, se considera una predicción o decisión correcta o sea un acierto (grupos A y D). Los demás casos son considerados una falla (grupos B y C). Un índice importante en la toma de decisiones es la proporción de decisiones correctas(P¿.) en el total de decisiones. Esta proporción se obtiene a través de la siguiente fórmula:
35
Kathia Maria Costa Neiva Los valores A, B, C y D corresponden al número de sujetos de cada uno de los cuatro grupos y N al total de sujetos. La proporción de decisiones correctas (Pdc) indica la exactitud de las decisiones y puede ser utilizada como índice de validez de la prueba. Brown (1980) comenta sobre las variaciones en este procedimiento, como la que supone la determinación de la calificación límite óptima, calificación que separa a los grupos para producir el número máximo de decisiones correctas. 2.3. Validez de construcción (o validez interna o estructural) Este tipo de validez verifica el grado en que una prueba mide un constructo o rasgo teórico. En realidad, no existe un índice cuantitativo único o sólo un procedimiento de validez de construcción. La validez se evalúa mediante un conjunto de evidencias y métodos. Brown (1980) agrupa en cinco categorías la variedad de técnicas y procedimientos utilizados para establecer la validez de construcción: a) Métodos intrapruebas En esta categoría se encuentran las técnicas utilizadas para estudiar la estructura interna de una prueba: su contenido, los procesos utilizados para contestar a las preguntas, la relación entre sus reactivos, la relación entre las subescalas. Se incluyen en esta categoría desde procedimientos de validez de contenido hasta estudios de homogeneidad de la prueba (coeficiente alfa, coeficiente KuderRichardson), que serán examinados más adelante. Estos índices indican si la prueba mide un solo o varios rasgos. b) Métodos interpruebas Estos métodos están diseñados para verificar las relaciones entre varias pruebas o sea, si éstas miden o no el mismo rasgo. Algunos de los procedimientos utilizados son: 36
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES • Validez congruente - En este caso se verifica la correlación entre las calificaciones de una nueva prueba y las obtenidas en una otra, ya validada, que mida el mismo rasgo. Si la correlación es alta significa que ambas pruebas miden el mismo rasgo y que pueden interpretarse los resultados de la nueva prueba como los de aquella ya validada. • Validez factorial - Este es considerado uno de los tipos más importantes de validez. Es verificada a través de un procedimiento estadístico—el análisis factorial—que permite determinar "cuantos factores (construcciones) se necesitan para explicar las intercorrelaciones entre un conjunto de calificaciones de varias pruebas" (Brown, 1980, p. 165). El análisis factorial permite obtener: 1) el número de factores que explican las intercorrelaciones entre las pruebas, 2) los factores que componen cada prueba y 3) la cantidad de varianza en las calificaciones de las pruebas que explican los factores. Así, pueden determinarse las pruebas que comparten una varianza común y que por lo tanto miden el mismo factor o sea la misma construcción. Además, la proporción de varianza total en las calificaciones de la prueba que es atribuida al factor, puede ser utilizada como índice de validez de construcción. • Validez discriminante - En este caso el objetivo es verificar que las calificaciones de una nueva prueba no se correlacionen con las obtenidas en otras pruebas que miden otros rasgos distintos. Se demuestra así que la medida de esta nueva prueba es independiente de la medida de otras construcciones o rasgos. c) Estudios relacionados con criterios Este método se basa en la predicción acerca de diferencias entre grupos, naturalmente separados o diseñados experimentalmente. Por ejemplo, una teoría sugiere que algunas clases de grupos deben obtener puntuaciones elevadas o bajas respecto al rasgo medido por una nueva prueba. Al aplicársela se verificará cuanto las calificaciones en esta prueba separan a estos grupos, o sea pueden predecir las diferencias entre ellos. 37
Kathia Maria Costa Neiva d) Manipulación
experimental
En este procedimiento se manipula experimentalmente una variable y se observa sus efectos sobre las calificaciones de la prueba o la relación de éstas con algún criterio. Por ejemplo, una teoría puede sugerir que la expresión de un rasgo o conducta se modificará a consecuencia de algunas condiciones o tratamientos experimentales. Se aplica entonces la nueva prueba en la condición experimental para verificar si las modificaciones previstas ocurren. Sería el caso de aplicarse una prueba de ansiedad a personas que están por someterse una operación quirúrgica para verificar si esta prueba puede detectar el nivel de ansiedad que supuestamente debe encontrarse aumentado por la inminencia de la cirugía. e) Estudios de capacidad de generalización Según Brown (1980) se encuentran en esta categoría los estudios que "analizan sistemáticamente la prueba sobre una gama de condiciones o dimensiones —por ejemplo— en una variedad de poblaciones (transferibilidad) o con diferentes condiciones de administración"(p. 167). El explica con detalles el método propuesto por Campbell y Fiske llamado Matriz de Multirasgo y Multimétodo. Este procedimiento consiste básicamente en examinar las correlaciones entre los mismos rasgos medidos por diferentes métodos (validez convergente) y las correlaciones entre diferentes rasgos, medidos por un mismo método (validez discriminante). 3. Confiabilidad La confiabilidad es el "grado de consistencia de las mediciones "(Brown, 1980, p.80). Es la consistencia de las puntuaciones obtenidas por los mismos sujetos cuando son examinados con la misma prueba o una forma paralela de ésta, en diferentes ocasiones. 38
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Toda medida implica un cierto error. El objetivo de una prueba psicológica es reducir, al mínimo, el error de medición. Al reducirlo se eleva el nivel de confíabilidad de la prueba. Thorndike (1975) apunta cuatro fuentes principales de error que resultan de: 1) Variaciones surgidas dentro del procedimiento mismo de medición, que pueden estar relacionadas con las condiciones de aplicación de la prueba, tales como: la situación física, las instrucciones, los errores en el registro de tiempo, los factores de distracción, etc. 2) Variaciones en el sujeto mismo, a corto plazo (salud, atención, motivación, ansiedad, experiencia con la prueba, etc.) o a largo plazo (maduración, aprendizaje, cambios en su ambiente, etc.). 3) Variaciones procedentes de la muestra específica de tareas (reactivos) elegidas para representar el área de la conducta que mide la prueba. 4) Variaciones en la velocidad de trabajo del sujeto. Existen diferentes procedimientos para examinar la cantidad de error en la medición, o sea, estimar el grado de consistencia de la misma. Brown (1980) diferencia dos tipos de consistencia, que aunque están relacionados, considera útil separar para fines didácticos. La confiabilidad verifica la consistencia de la medida a través del tiempo (estabilidad) y a lo largo de formas equivalentes de la prueba (equivalencia). La homogeneidad o consistencia interna verifica si todos los reactivos de la prueba miden o no el mismo rasgo. Serán analizados, por separado, los distintos procedimientos. 3.1. Procedimientos para verificar la confiabilidad de una prueba psicológica Existen diferentes procedimientos que permiten verificar el nivel de confiabilidad de una prueba psicológica: a) Repetición de la misma prueba (Test/Retest) Este procedimiento consiste en aplicar la misma prueba dos veces. 39
Kathia Maria Costa Neiva La medida de confiabilidad es la correlación entre las calificaciones obtenidas en la primera aplicación y en la reaplicación. Esta medida se denomina coeficiente de estabilidad. Este procedimiento puede ser realizado de dos maneras distintas: • Sin intervalo de tiempo entre las dos mediciones, o sea, la reaplicación es realizada en seguida de la aplicación. En este caso son controlados dos tipos de errores provenientes de: (a) variaciones en el procedimiento mismo de medición y (b) variaciones en la velocidad de trabajo del sujeto. • Con intervalo de tiempo entre las dos mediciones, o sea, la reaplicación se hace después de cierto tiempo, que puede ser de días o de años. Tres errores son controlados en este procedimiento, que resultan de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en el sujeto de una vez a otra y (c) variaciones en la velocidad de trabajo del sujeto. Este tipo de procedimiento no debe ser utilizado en el caso de rasgos que sean, por principio, inestables o cuando se produzca algún tipo de aprendizaje diferencial entre las dos aplicaciones (por ejemplo un programa de estudios o entrenamiento). Otro problema es el del efecto de la práctica, sobre todo cuando la aplicación y reaplicación son realizadas sin intervalo de tiempo o con un intervalo muy corto entre las dos. En este caso "algunas personas pueden recordar sus respuestas o aprender algo sobre la técnica de pasar una prueba" (Brown, 1980, p. 85). b) Aplicación de formas paralelas (o equivalentes) de la prueba Para este procedimiento hay que disponer de formas equivalentes de la prueba, que sigan la misma especificación pero que sean compuestas de muestras separadas de la conducta que se pretende medir. Las formas paralelas deben por tanto cubrir el mismo contenido, utilizar el mismo número de reactivos y poseer el mismo grado de dificultad. La medida de confiabilidad es la correlación entre las puntuaciones obtenidas en las dos formas de la prueba. 40
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Este procedimiento también puede ser realizado de dos maneras: • Sin intervalo de tiempo entre la aplicación de las dos formas equivalentes de la prueba. En este caso la correlación entre las dos medidas ofrece un coeficiente de equivalencia. Los tipos de errores tomados en cuenta son los que provienen de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en la velocidad de trabajo del sujeto y (c) variaciones procedentes de la muestra de tareas. • Con intervalo de tiempo entre la aplicación de las dos formas paralelas de la prueba. La correlación entre las dos medidas ofrece, en este caso, un coeficiente de estabilidad y equivalencia. Con este procedimiento puede controlarse los cuatro tipo de errores mencionados anteriormente, que provienen de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en el sujeto de una vez a otra, (c) variaciones en la velocidad de trabajo y (d) variaciones procedentes de la muestra de tareas. El procedimiento que utiliza la aplicación de formas paralelas con intervalo de tiempo es el que proporciona el coeficiente de confiabilidad más preciso y riguroso pues permite controlar las distintas fuentes de error. Por esta misma razón el provee el coeficiente de confiabilidad más bajo. Sin embargo, él plantea problemas prácticos importantes, puesto que exige que se disponga de dos formas paralelas de la prueba y del tiempo necesario para aplicárselas por separado. c) Confiabilidad por mitades Este procedimiento, también llamado de test subdivide (split half), es el más ampliamente utilizado para estimar la confiabilidad a partir de una sola administración de la prueba (Thorndike, 1975). Según Murphy y Davidshofer (1994), este procedimiento soluciona los dos problemas prácticos del método de formas paralelas: la dificultad de desarrollar formas paralelas y la necesidad de tiempo para las aplicaciones. 41
Kathia Maria Costa Neiva Para realizarlo se aplica la prueba y después se divide en dos mitades supuestamente equivalentes y equilibradas en relación al contenido y nivel de dificultad. Para la división puede precederse de distintas maneras. La más común es la que utiliza los reactivos pares, en una de las formas, y los impares en la otra. Sin embargo, este tipo de división no puede ser manejada cuando existe alguna desviación sistemática en la prueba como por ejemplo, los tipos alternativos de reactivos o reactivos en que la respuesta depende de la anterior (Brown, 1980). La correlación entre las calificaciones de las dos mitades de la prueba proporciona una estimación de la confiabilidad. Mientras tanto, como cada conjunto de calificaciones está basado en la mitad de los reactivos de la prueba original completa y la confiabilidad de una prueba depende de su longitud, la correlación entre las dos mitades proporciona una estimación de la confiabilidad inferior a la que podría esperarse de la prueba original. Para estimar la confiabilidad de la prueba original completa se utiliza la siguiente fórmula, propuesta por Spearman-Brown:
en d o n d e c o n f i a b i l i d a d de la prueba original completa correlación entre las mitades de la prueba Este procedimiento toma en cuenta solamente dos tipos de errores provenientes de variaciones en el procedimiento mismo de medición y variaciones procedentes de la muestra de tareas. Además, presenta algunas limitaciones como: (a) dos medias pruebas pueden ser más semejantes que dos formas paralelas separadas; por ejemplo, cuando los reactivos están basados en un mismo material de referencia — texto, experimento— pueden provocar distorsiones en el coeficiente de confiabilidad y (b) este tipo de coeficiente no tiene significado en pruebas de tiempo limitado donde influya la rapidez; el factor 42
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES velocidad tenderá a inflar el coeficiente de confiabilidad (Brown, 1980). Sin embargo, la utilización de este procedimiento presenta ventajas prácticas importantes relacionadas a la aplicación de un mismo material de prueba, sólo una vez. Hay que tomarse también en cuenta que cuanto mayor sea la muestra de conducta de la persona, tanto más confiable será la medida. Además, entre mayor sea la muestra de conducta registrada menos dependerá la medida de elementos fortuitos en la conducta del sujeto o en la muestra específica de tareas. Por ello, la utilización de un gran número de reactivos es un medio utilizado para garantizar la confiabilidad de una prueba. 3.2. Interpretación de coeficientes de confiabilidad Brown (1980) propone tres modos de interpretación de los coeficientes de confiabilidad: • Correlación entre calificaciones reales y obtenidas - Se puede interpretar un coeficiente de confiabilidad tomando como base que la proporción de la variancia en las calificaciones obtenidas representa la variación de las calificaciones reales. Por ejemplo si r = 0.80, entonces 80% de la variabilidad en las calificaciones obtenidas se debe a diferencias en las calificaciones reales y 20% se debe a errores de medición. • Comparación con la confiabilidad de otras pruebas - Este es un criterio muy utilizado para decidir si la prueba puede o no ser considerada confiable. En este caso se compara el coeficiente de confiabilidad de la prueba con el nivel de confiabilidad de pruebas similares ya existentes. • Errores en las calificaciones individuales - Puede interpretarse el coeficiente de confiabilidad evaluando el cambio que podrá pasar en la calificación de un sujeto al volver a contestar la prueba. Para eso hay que verificar cuál es el error estándar de la medición. Thorndike (1975, p. 204) presenta un cuadro del error estándar de medición para diferentes valores del coeficiente de confiabilidad. 43
Kathia Maria Costa Neiva Es importante en la interpretación de un coeficiente de confiabilidad tener en mente que éste es específico de la muestra utilizada, de la situación de prueba y del método utilizado para su cálculo. Por eso hay que verificar la confiabilidad de una prueba en una gran variedad de situaciones y con diferentes muestras y procedimientos. 3.3. Procedimientos para verificar la homogeneidad de una prueba psicológica Los procedimientos para verificar la homogeneidad o consistencia interna de una prueba buscan determinar el grado de las relaciones recíprocas entre los reactivos que la componen. Brown (1980, p. 102) afirma que "se puede definir la homogeneidad como la consistencia en la ejecución de todos los reactivos de una prueba psicológica". Una correlación positiva entre las calificaciones de los distintos reactivos de una prueba indica que ésta es homogénea. Si la prueba está compuesta de subpruebas heterogéneas, se procede al estudio de la homogeneidad de cada subprueba, cuyos reactivos deben por tanto ser homogéneos. Los procedimientos más comunes para verificar la homogeneidad o consistencia interna de una prueba son: a) Coeficiente alfa Este coeficiente, propuesto por Cronbach (1951), es utilizado con bastante frecuencia . Su utilización es limitada a las pruebas cuyos reactivos no son calificados de forma dicótoma (correcto o incorrecto). Su fórmula es:
44
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES en d o n d e : n ú m e r o de reactivos de la prueba sumatoria desviación estándar de cada reactivo desviación estándar de la prueba b) Fórmula de Kuder - Richardson (KR-20) Esta fórmula, propuesta por Kuder y Richardson en 1937, es utilizada cuando se califican los reactivos de la prueba de forma dicótoma y suele ser considerada como un caso especial del coeficiente alfa:
en donde: número de reactivos de la prueba desviación estándar de la prueba sumatoria proporción de individuos que contestan bien un reactivo 1- p= proporción de individuos que fallan en este reactivo Esta fórmula no se aplica a pruebas psicológicas de velocidad pues, para el cálculo del componente Σ pq, es necesario que cada reactivo sea probado por todas las personas, lo que no siempre ocurre en las pruebas de velocidad. Estos mismos autores propusieron una segunda fórmula (KR-21) que supone que todos los reactivos de la prueba tienen el mismo grado de dificultad. Esta fórmula es menos utilizada puesto que tal situación raramente ocurre. c) Análisis factorial Este procedimiento es uno de los más utilizados y en general es considerado como el mejor por varios autores (Brown, 1980). 45
Kathia Maria Costa Neiva Mientras tanto, es un proceso complejo que supone la utilización de varios métodos de cálculo. Estos métodos utilizan la matriz de intercorrelaciones entre los reactivos de la prueba y permiten verificar si existe un único factor o varios que expliquen estas intercorrelaciones. Si existe un sólo factor la prueba es considerada homogénea. Si son varios factores que explican las intercorrelaciones significa que, aunque la prueba es heterogénea, existen subpruebas compuestas por conjuntos de reactivos homogéneos. Este procedimiento permite también detectar los reactivos que no tienen relación con el factor principal, ni con ninguno de los factores que componen la prueba. Finalmente, todos los puntos discutidos en este capítulo deben ser examinados cuando se pretende utilizar una determinada prueba psicológica para estar seguro, no sólo de sus cualidades métricas, sino también de sus límites. Todo manual de prueba debe proveer información suficiente sobre estos aspectos y todo psicólogo debe saber cómo interpretarlos. Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión) Madrid: Editorial Aguilar. Bacher, F. (1981). Les etiquetes en Psychologie. Tesis inédita de Doctorado en Psicología, Université de París V, París Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Cronbach, L.J. (1951). Alpha and the internal structure of tests. Psychometrika, 16, 297-334. Murphy, K. R. y Davidshofer, CO. (1994). Psychological Testing - Principles Applications. New Jersey: Prentice Hall. Thorndike, L. R. Y Hagen, E. (1973). Tests y técnica de medición en psicología y educación. México: Editorial Trillas.
46
CAPITULO III UNIDADES DE CALIFICACIÓN DE LAS PRUEBAS PSICOLÓGICAS Las respuestas de un individuo a una prueba psicológica determinan su calificación bruta, también llamada original o directa. Esta calificación carece de significado si no es comparada a una norma, o sea a la ejecución promedio de un grupo de individuos. Esta comparación permite determinar la posición exacta del individuo con respecto a este grupo. Para tal, las calificaciones brutas son transformadas, mediante diferentes procedimientos estadísticos, en calificaciones derivadas (o transformadas o ponderadas). Las calificaciones derivadas tienen como objetivo fundamental propiciar la comparación de las calificaciones obtenidas en diferentes pruebas, expresándolas en un mismo tipo de unidad. Existen varios tipos de puntuaciones derivadas, que suponen diferentes procedimientos estadísticos para su obtención. Anastasi (1978) las clasifica en tres tipos principales: de edad o cronológicas, percentiles y típicas. Para comprender e interpretar estas calificaciones se requiere de nociones básicas de estadísticas como: media, mediana, moda, desviación estándar, curva normal y rango. No es objetivo de este manual aportar este tipo de información, que puede ser encontrada en cualquier libro de estadística. A. PUNTUACIONES DE EDAD 1. Cociente intelectual de razón (CI) El CI de razón se empleó por primera vez en la forma del 47
Kathia Maria Costa Neiva Stanford-Binet de 1916, aunque su idea surgió anteriormente con Stern y Kuhlmann. La fórmula para obtenerlo es: donde:
EM= edad mental EC= edad cronológica
La edad mental es el nivel de edad que corresponde a la calificación recibida por el niño en la ejecución de la prueba. Por ejemplo, un niño de 8 años que obtiene una puntuación que corresponde a la puntuación promedio de los niños de 10 años, posee una edad mental de 10 años. El CI de razón fue muy utilizado en las primeras pruebas de inteligencia, lo que ya no ocurre actualmente, debido a sus limitaciones e inconvenientes. Algunos de éstos son: (a) las normas de edad dejan de tener un significado claro cuando utilizadas con adultos normales o superiores, (b) la distribución de los CI proporciona desviaciones estándar variables (de 12 a 20 puntos) según la edad (Terman y Merril, 1937 en Brown, 1980), lo que no permite comparar, de manera confiable, CI obtenidos a distintas edades, (c) el CI no es aplicable a las funciones que no muestran un cambio claro y consistente con la edad. 2. Cociente educacional Este cociente, aplicado a las pruebas de rendimiento escolar, se obtiene de manera similar al cociente intelectual, pero en este caso se utiliza la edad educacional en lugar de la edad mental. Su fórmula es: CE = EE x 100 / EC. El cociente educacional posee las mismas limitaciones del CI y por lo tanto " n o se pueden hacer comparaciones entre una materia y otra, aun cuando las pruebas hayan sido estandarizadas con el mismo grupo" (Morales, 1993, p. 65). 48
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES B. RANGOS PERCENTILES Este tipo de puntuación derivada es una de las más utilizadas por su facilidad de interpretación. Esta se expresa en función del porcentaje de personas del grupo normativo, que obtienen calificaciones más bajas. Así, un percentil de 65 indica que 6 5 % de los sujetos del grupo normativo obtuvieron calificaciones inferiores. Es importante no confundir el uso del porcentaje de personas, en el caso del percentil, con la idea de porcentaje de respuestas correctas. En otras palabras, un percentil de 65 no significa que el sujeto respondió correctamente a 65% de los reactivos, sino que 65% de los sujetos obtuvieron calificaciones inferiores a la suya. La forma gráfica utilizada para expresar los rangos percentiles es llamada ojiva. La obtención de los rangos percentiles supone el siguiente procedimiento: 1) Ordenar las calificaciones brutas obtenidas por el grupo normativo de la menor hasta la mayor. 2) Calcular la frecuencia de cada calificación 3) Calcular la frecuencia acumulada (F A) a cada aplicación, sumando la frecuencia de la calificación más baja con la frecuencia de la calificación siguiente y así sucesivamente hasta la calificación más alta. 4) Determinar el punto medio de cada frecuencia acumulada (FA ). Para la FA más baja, se añade a ésta un cero y se divide entre dos. El resultado es el punto medio de esta FA. En seguida se pasa a la FA siguiente, a la cual se suma la FA más baja, dividiendo el resultado entre dos. Se sigue este procedimiento hasta la FA más alta. 5) Convertir la frecuencia acumulada a cada punto medio (FApm) a porcentaje acumulada a cada punto medio (PApm), a través de la fórmula: P A p m = 100 x FApm / N, donde N es el número total de casos. 49
Kathia Maria Costa Neiva 6) Hallar los rangos percentiles, convirtiendo los valores de los PApm a números enteros, a excepción del 1 para el 0 y del 99 para el 100. La tabla 3.1. ofrece un ejemplo de este procedimiento, utilizando los resultados, en una prueba, de una muestra de 100 personas. Así, puede decirse que un sujeto que obtuvo una calificación bruta de 34 está situado en el rango percentil 80, lo que significa que 80% de los sujetos obtuvieron calificaciones inferiores a la suya en la prueba y 20%, calificaciones superiores. TABLA 3.1 Obtención de rangos percentilares
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
2 2 6 3 5 5 7 6 8 13 7 6 7 6 4 3 5 2 2 1
2 4 10 13 18 23 30 36 44 57 64 70 77 83 87 90 95 97 99 100
50
1.0 3.0 7.0 115 15.5 20.5 26.5 33.0 40.0 50.5 60.5 67.0 73.5 80.0 85.0 88.5 92.5 96.0 98.0 99.5
1.0 3.0 7.0 11.5 15.5 20.5 26.5 33.0 40.0 50.5 60.5 67.0 73.5 80.0 85.0 88.5 92.5 96.0 98.0 99.5
1 3 7 11 15 20 26 33 40 50 60 67 73 80 85 88 92 96 98 99+
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES La gran ventaja de los percentiles es la facilidad de su cálculo e interpretación. Además, pueden ser empleados con niños y adultos y con distintos tipos de tests (aptitud, inteligencia, personalidad). Mientras tanto, presentan dos limitaciones importantes (Brown, 1980). Primero, por ser una escala ordinal, sus valores no se pueden sumar, restar, multiplicar o dividir, lo que impide la utilización de ciertos análisis estadísticos. Segundo, presentan una distribución rectangular, en las que las puntuaciones brutas, en general, se aproximan de la curva normal, lo que provoca que: (a) las diferencias de las puntuaciones brutas, próximas al centro de la distribución, se exageren en la transformación a percentil y (b) las diferencias de las puntuaciones brutas, cerca de los extremos de la distribución, se reduzcan considerablemente en la transformación a percentil. Con eso, los rangos percentilares pueden, a veces, ser mal interpretados. Anastasi (1978, p.55), advierte: "los percentiles presentan un cuadro correcto de la posición relativa de cada individuo en el grupo normativo, pero no de la cuantía de la diferencia entre su puntuación y la de otra persona". Para resolver esta limitación algunas pruebas como el D. A.T. (Test de Aptitud Diferencial) utilizan, para presentar los resultados en percentiles, un papel probabilístico aritmético que proporciona una representación visual correcta de las diferencias entre las puntuaciones de las distintas subescalas. Este papel es " u n papel cuadriculado en el cual las líneas verticales se encuentran espaciadas de la misma forma que los percentiles en una distribución normal..., mientras que las líneas horizontales se encuentran uniformemente espaciadas, o viceversa" (ídem, p.55). C. CALIFICACIONES TÍPICAS (o estándar) Este tipo de puntuación es muy utilizado en pruebas 51
Kathia Maria Costa Neiva psicológicas por sus ventajas, principalmente por la de ser una escala de intervalo y permitir, por lo tanto, la realización de varios análisis estadísticos. Las calificaciones típicas expresan, en unidades de desviación estándar, la distancia del sujeto con respecto al promedio del grupo. 1. Calificaciones típicas lineales Estas calificaciones son obtenidas a través de una transformación lineal de las calificaciones brutas. Por eso, muestran la misma estructura de la distribución de las calificaciones brutas. 1.1. Calificación
z
La calificación típica lineal básica es la calificación z. Su fórmula es: z = X - X S donde: X= calificación del sujeto X= promedio de la calificación de la muestra s = desviación estándar de esta muestra La calificación z se expresa en una escala que tiene una media de 0 y una desviación estándar de 1. El valor de z indica la distancia en que se encuentra la calificación bruta del promedio. Si z tiene un signo positivo indica que la calificación bruta está arriba del promedio, mientras que un z negativo indica que la calificación bruta está abajo del promedio. En una distribución normal z varia aproximadamente de -3 a +3. 52
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Para evitar los valores negativos y decimales proporcionados por la calificación z, se han diseñado otras calificaciones estándar lineales, obtenidas a partir de ésta, a través de una nueva transformación lineal. Para convertir la calificación z a la nueva escala se multiplica aquélla por la desviación estándar deseada y a este resultado se añade la media deseada. En seguida serán presentadas algunos tipos de calificaciones que utilizan este procedimiento. 1.2. Calificación
T
En estas calificaciones se considera una media de 50 y una desviación estándar de 10, lo que proporciona la siguiente fórmula: T = 1.3. Calificaciones
l0z
+ 50
AGCT
Estas calificaciones fueron originalmente usadas en la prueba de inteligencia general ARMY (Army General Classification Test), de donde proviene su denominación. Esta prueba fue utilizada para seleccionar soldados para la Primera Guerra Mundial. En esta situación la media fue de 100 y la desviación estándar de 20. Por eso su fórmula es: AGCT = 20z + 1.4. Calificaciones
100
CEEB
La sigla utilizada para denominar estas calificaciones proviene del College Entrance Examination Board, donde éstas fueron utilizadas por primera vez. En este caso, se considera una media de 500 y una desviación estándar de 100. Su fórmula es: 53
Kathia Maria Costa Neiva CEEB = l00z + 500 1.5. CI de desviación estándar (CIs) Estos CI, muy distintos de los CI originales, basados en la relación entre edad mental y edad cronológica, son otro tipo de puntuación típica con una media de 100 y una desviación estándar próxima a la de la distribución de la prueba de inteligencia Stanford-Binet (revisión de 1960). En el caso de esta revisión la desviación estándar obtenida fue de 16 y por lo tanto la fórmula del CI de desviación proporcionada por esta prueba es: CIs =
16z +
100
Mientras tanto, se ha observado que la desviación estándar puede variar de una prueba a otra, aunque se utilice la misma unidad de medida. Por ejemplo, la desviación estándar de las pruebas de inteligencia Wechsler (WAIS, WISC, WPPSI) es de 15, y la fórmula del CI obtenido con estas pruebas es: CIs =
15z +
100
Por eso, hay que tener cuidado al comparar los CI de desviación de pruebas diferentes. Estos, sólo pueden ser comparados cuando emplean valores iguales o muy parecidos de desviación estándar. Por ejemplo, al interpretar los resultados de un niño que, a los 8 años, obtuvo un CI de desviación de 124 en una prueba cuya desviación estándar es de 12 y que, a los 10 años, obtuvo un CI de desviación de 136 en una prueba cuya desviación estándar es de 18, se puede erróneamente pensar que este niño ha desarrollado su capacidad intelectual en este periodo. En realidad, los dos CI resultan de una misma calificación z (+2), como indican las operaciones abajo, representando así la misma medida de la capacidad intelectual. 54
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 12 x (+2) + 100 =
124
18 x (+2) + 100 = 136
El inconveniente de las puntuaciones típicas lineales se presenta cuando se necesita comparar puntuaciones obtenidas en diferentes pruebas. Estas, solamente podrán ser utilizadas cuando la forma de la distribución de las puntuaciones de las distintas pruebas es similar. Para poder comparar puntuaciones obtenidas en distribuciones de forma distinta, se emplean transformaciones no lineales, como las calificaciones típicas normalizadas. 2. Calificaciones típicas normalizadas Estas calificaciones "están expresadas en función de una distribución que se ha transformado para que se adapte a una curva normal" (Anastasi, 1978, p. 57) y son calculadas a través del siguiente procedimiento: 1) Ordenar las calificaciones brutas 2) Hallar la frecuencia de cada calificación 3) Calcular la frecuencia acumulada a cada calificación (FA) 4) Determinar el punto medio de la frecuencia acumulada de cada calificación (FApm) 5) Convertir la frecuencia acumulada a cada punto medio a porcentaje acumulada (PApm) 6) En el cuadro de zonas de la curva normal 1 , hallar la calificación z correspondiente a cada porcentaje acumulado. Las cinco primeras etapas de este procedimiento son idénticas a las utilizadas en el cálculo de rangos percentiles (ver tabla 3.1). Las calificaciones típicas normalizadas también pueden ser transformadas a otras escalas, utilizando cualquier media y cualquier desviación estándar arbitraria.
1
Este cuadro puede ser encontrado en diversos manuales de estadística.
55
Kathia Maria Costa Neiva 2.1. Calificaciones T escaladas Se utilizan los mismos valores usados en la calificación T, media de 50 y desviación estándar de 10, entonces, T = l0z + 50 2.2. CI de desviación La media utilizada es de 100 y la desviación estándar puede ser establecida por el autor de la prueba, siendo, en general, cercana de 16. Por ejemplo: CI = 16z + 100. 2.3. Calificaciones estaninas La escala estanina es una calificación estándar de 9 intervalos, con una media de 5 y una desviación estándar de 2. Para convertir las puntuaciones brutas en estaninas debe procederse de la siguiente manera: 1) Disponer las puntuaciones brutas por orden de tamaño. 2) Calcular el número de casos correspondientes a cada estanina, de acuerdo con los porcentajes de la curva normal, como indica la tabla 3.2. Por ejemplo, si el grupo es de 100 personas, a las cuatro de puntuaciones más bajas se atribuye la estanina 1, a las siete siguientes, la estanina 2 y así sucesivamente. TABLA 3.2 Porcentaje de la curva normal utilizada para la conversión a estaninas Porcentaje
4
7
12
17
20
17
12
7
4
Estanina
1
2
3
4
5
6
7
8
9
2.4. Calificaciones estén Son similares a las anteriores, siendo que en este caso son diez unidades estándar (1-10). "Tienen cinco unidades 56
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES normalizadas de cada lado de la media y poseen media desviación estándar de amplitud, excepto en los extremos 1 y 10 que son abiertos" (Morales, 1993, p. 62). El procedimiento de obtención es análogo al de las estaninas, aunque los porcentajes asignados son diferentes. 2.5.
Calificaciones C escaladas
También similares a las dos últimas, pero tienen once unidades estándar, con valores de 0 a 10. Son obtenidas de modo similar, pero los porcentajes se distribuyen diferente. Las calificaciones típicas normalizadas son las que mejor se aplican a la mayoría de los casos. Mientras tanto, Anastasi (1978) hace énfasis en las objeciones técnicas provenientes de la normalización de distribuciones. Según ella, este tipo de calificaciones debe ser solamente utilizado cuando la muestra es grande y representativa y cuando existen motivos para creer que la desviación de la normalidad proviene de defectos en la prueba y no de la muestra o de otros factores que afecten la conducta medida. D. TABLAS DE NORMAS DE CALIFICACIÓN Los manuales de pruebas deben ser siempre acompañados de tablas de normas de calificación que permiten ubicar la ejecución de un individuo dentro de un grupo o de diferentes grupos ( por sexo, por edad, por grado, etc.). Estas tablas pueden ser construidas a partir de diferentes tipos de calificaciones: normas de edad, normas percentilares, normas de calificaciones típicas, etc. Una tabla de normas deberá contener las calificaciones brutas y sus correspondientes calificaciones derivadas y ser acompañada de la descripción de la muestra de sujetos a partir de la cual fue elaborada. 57
Kathia Maria Costa Neiva Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión). Madrid: Editorial Aguilar. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a reimpresión). México D.F.: Editorial Trillas.
SEGUNDA PARTE INTELIGENCIA
II
I
I .1
I I 11
CAPITULO IV LA INTELIGENCIA A. LA DEFINICIÓN DE INTELIGENCIA lVluchos teóricos como Binet, Spearman, Thurstone, Guilford, Piaget, Wechsler, entre otros, propusieron definiciones para el concepto de inteligencia. Dorsch (1976), en su Diccionario de Psicología, señala que la mayoría de las definiciones apunta como característica principal de la inteligencia ''la capacidad de orientarse en situaciones nuevas a base de comprensiones, o de resolver tareas con la ayuda del pensamiento, no siendo la experiencia lo decisivo, sino mas bien la comprensión de lo planteado y de sus relaciones" (p. 506). Pueden distinguirse tres enfoques teóricos en la medida de la inteligencia (Aubret y col., 1991): 1. El enfoque empírico Se basa en una definición amplia de la inteligencia, próxima a la del sentido común. Está representado en las primeras pruebas de inteligencia (Binet-Simon), que fueron construidas a partir de la experiencia práctica, sobre todo con el objetivo de diagnóstico o de resolver dificultades escolares (ver capítulo I). 2. El enfoque factorial El método estadístico de análisis factorial, introducido por Spearman en 1904, ha permitido grandes avances en la investigación y medición de la inteligencia. 61
Kathia Maria Costa Neiva La Teoría de los Dos Factores o Teoría Bifactorial, formulada por Spearman, fue el primero de los modelos que representaran al enfoque factorial. Esta teoría señala que todas las habilidades del hombre tienen un factor común (factor g) y uno específico a cada una de ellas (factor e). El factor g, de inteligencia general, es intraindividualmente constante e interindividualmente variable. El factor e, es variable intra e interindividualmente, por lo tanto es específico de cada habilidad particular (Raven, 1987). Varias pruebas fueron pues construidas para medir, lo mejor posible el factor g, como es el caso de la Prueba de Matrices Progresivas de Raven y del Test de Dominós de Anstey. Otro modelo, el multifactorial, defendido principalmente por Thurstone, considera que la inteligencia es compuesta por un número limitado de habilidades primarias llamadas factores de grupo, sin que resulte necesaria la existencia de un factor común. Sin embargo, la verificación de que estos factores de grupo son sólo relativamente independientes llevó a la idea de que la correlación entre dos de estos factores implica la existencia de un factor general, que la correlación entre dos factores generales implica otro factor más general, etc. La inteligencia, en este caso, es concebida como un conjunto de factores distribuidos jerárquicamente de la siguiente manera: uno o más generales, algunos de grupo y varios específicos. El modelo tridimensional de Guilford (1956, 1967, 1970) considera que la estructura intelectual es compuesta de habilidades que son clasificadas de tres maneras: (a) en términos de operaciones: cognición, memoria, pensamiento divergente, pensamiento convergente o evaluación; (b) en término de contenidos de estas operaciones: figurativo, simbólico semántico o conductual; (c) en término de producto: unidades, clases, relaciones, sistemas, transformaciones o implicaciones. Cuando se combinan las tres clasificaciones se obtiene un modelo cúbico, con 120 celdillas (5 operaciones X 4 contenidos X 6 productos), cada una de las cuales representa una habilidad. 62
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES La mayoría de estas habilidades ya ha sido demostrada en investigaciones (Guilford y Hoepfner, 1971). 3) El enfoque genético Este enfoque tiene origen en la teoría de Jean Piaget. Según este autor " l a inteligencia constituye el estado de equilibrio hacia el cual tienden todas las adaptaciones sucesivas de orden sensomotor y cognoscitivo, así como todos los intercambios asimiladores y acomodadores entre el organismo y el medio" (Piaget, 1972, p.23). Según Ginsburg y Opper (1977) el concepto de inteligencia propuesto por Piaget supone "una serie de adaptaciones biológicas, un equilibrio entre el individuo y el medio ambiente, una evolución gradual y una actividad mental"(p. 13). Piaget no se preocupa en describir las diferencias individuales, ni el nivel medio de funcionamiento cognoscitivo, pero sí el nivel óptimo en una determinada etapa del desarrollo. Piaget (1972) toma en cuenta tres aspectos en su concepción de la inteligencia: el contenido, la función y la estructura. El contenido, uno de los aspectos más sencillos del pensamiento, es el que el individuo expresa en un determinado momento. La estructura está representada, de un lado, por los factores biológicos hereditarios, las estructuras físicas (ejemplo: el sistema nervioso) y las reacciones conductuales automáticas (ejemplo: los reflejos) y del otro, por las estructuras psicológicas, estructuras organizadas de conducta que no pueden ser explicadas completamente por lo hereditario pues se basan en alguna experiencia (ejemplo: esquema de chupar el dedo). La función se refiere a los principios generales de funcionamiento que afectan la inteligencia: la organización y la adaptación. La organización es " l a tendencia que tienen todas las especies a sistematizar u organizar sus procesos en sistemas coherentes que pueden ser físicos o psicológicos 63
Kathia Maria Costa Neiva (p. 16). La adaptación, que implica la interacción del individuo con su medio ambiente, es descrita en función de dos procesos complementarios: la asimilación y la acomodación. En el primero, el individuo utiliza sus estructuras para incorporar, asimilar, elementos del medio ambiente. En el segundo, el individuo modifica o acomoda su estructura para enfrentarse a las exigencias del medio. Finalmente, el individuo tiende a buscar un equilibrio con el medio ambiente, utilizando para este fin las funciones de organización y adaptación. A lo largo de las diferentes etapas del desarrollo intelectual, son utilizadas distintas estructuras psicológicas, con el objetivo de alcanzar una mayor eficacia en la interacción con la realidad. Piaget nunca se preocupó en estandarizar las pruebas que construyó para estudiar las estructuras lógicas del pensamiento. Un investigador francés del I.N.E.T.O.P. (Instituí National du Travail et de I´Orientation Professionnelle), F. Longeot, interesado en la teoría de Piaget, desarrolló la escala E.P.L. (Echelle du Développement de la Pensée Logique), presentada en 1965 (Aubret y col., 1991). B. LA MEDICIÓN DE LA INTELIGENCIA Son muchas las pruebas de inteligencia construidas hasta el presente momento. Algunas de fácil aplicación y calificación, otras más complicadas que requieren un examinador suficientemente entrenado y con amplia experiencia. Algunas que sólo pueden ser aplicadas en forma individual y otras que pueden también ser aplicadas colectivamente. Unas para niños y adultos, otras construidas específicamente para niños o para adultos. Unas estandarizadas en una única muestra y otras estandarizadas en distintas muestras. Unas más válidas y confiables que otras. De cualquier manera, toda prueba tiene sus ventajas y desventajas que dependen también del uso que 64
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
el psicólogo va a hacer de ella. Lo importante es disponer de la información básica sobre las distintas pruebas para que uno pueda decidir cuál de ellas es la que conviene más a un determinado fin. Este manual tiene como objetivo principal proporcionar el conocimiento básico con respecto a las pruebas de inteligencia más comúnmente utilizadas, facilitando así la elección de un instrumento de medida adecuado, cuando se hace necesario la evaluación de la capacidad intelectual. Es importante señalar que la información aportada por el presente manual no sustituye, en hipótesis alguna, la información proporcionada por los manuales de las pruebas. La información presentada en este manual sirve como una primera aproximación al conocimiento de algunas de las pruebas de inteligencia. La utilización de una prueba requiere de la consulta de su manual. Los capítulos de esta segunda parte serán dedicados a la presentación, sucinta y organizada, de distintas pruebas de inteligencia. Serán analizados, en cada prueba, los siguientes aspectos: aspectos históricos, descripción de la prueba, material, población con la que se utiliza, forma de administración, tiempo de administración, procedimiento de administración, procedimiento de calificación, normas, confiabilidad y validez. Además, se incluirá un apartado de "Comentarios", cuyo objetivo es aportar opiniones expresadas por distintos teóricos, así como observaciones del propio autor, provenientes de su experiencia en la utilización de la prueba. Referencias bibliográficas Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., FrancequinChartier, G., Huetau, M., Porlier, J - C , Rozencwajg, P. y Vrignaud, P. (1991). Evaluer I'intelligence. Manuscrito no publicado, I.N.E.T.O.P., París, Francia. 65
Kathia Maria Costa Neiva Dorsch, F.(1976). Diccionario de Psicología. Barcelona: Editorial Herder. Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del desarrollo intelectual. Madrid: Editorial Paidós. Guilforf, J.P. (1956). The structure of intellect. Psychological Bulletin, 53, 267-293. ,(1967). The nature of human intelligence. Nueva York: McGraw Hill. , (1970). Creativity: Retrospect and Prospect. Journal of Creative Behavior, 4(3), 149-168. , y Hoepfner, R. (1971). The analysis of intelligence. Nueva York: McGraw Hill. Piaget, J. (1972). Psicología de la inteligencia. Buenos Aires: Editorial Psique. Rapaport, D. (1965). Test de diagnóstico psicológico. Buenos Aires: Editorial Paidós. Raven, J. C. (1987). Test de Matrices Progresivas. Buenos Aires: Paidós
66
CAPITULO V ESCALA DE INTELIGENCIA STANFORD-BINET 1. ASPECTOS HISTORICOS
Esta
escala es derivada de la Escala de Inteligencia BinetSimon, creada en 1905 y revisada en 1908 y 1911. La primera versión del Stanford-Binet fue publicada por Terman en 1916 y obtuvo gran éxito sobre todo por introducir el concepto de CI (Cociente Intelectual), por proporcionar instrucciones detalladas de aplicación y calificación y por utilizar una muestra representativa de la población americana de cerca de 1,400 sujetos para su estandarización (Terman y Merrill, 1973). En 1937 fue publicada la segunda revisión. En ésta, se construyeron dos formas paralelas, L y M, que cubrían rangos de edades de los 2 años hasta la edad adulta y que fueron estandarizadas en una muestra de más de 3,000 sujetos. La tercera revisión, realizada en 1960, presentaba una única forma LM, que incluía los mejores reactivos de las formas L y M publicadas anteriormente. En esta revisión no se utilizó una nueva muestra de estandarización, sino que se aprovecharon las respuestas de 4,498 personas, entre 2½ y 18 años, que habían contestado una de las dos formas, L o M, entre 1950 y 1954. La selección de los mejores reactivos fue realizada a través de varios procedimientos. Las modificaciones realizadas consistieron en la eliminación de algunos reactivos y reubicación de otros, proporcionando 67
Kathia Maria Costa Neiva una nueva distribución de éstos en los diferentes niveles de edad. No se introdujo nuevos materiales, aunque en algunos reactivos se actualizaron los dibujos. Un aspecto importante de esta revisión fue el inicio de la utilización del CI de desviación para eliminar los inconvenientes estadísticos del CI de razón (Terman y Merrill, 1973). En 1972, se llevó a cabo una reestandarización sistemática de la forma LM. El material se mantuvo prácticamente el mismo, fueron cambiados un diseño de una tarjeta (muñeca) y una palabra de la subprueba Semejanzas. Los procedimientos de administración y calificación no fueron alterados. Se utilizó una muestra representativa de la población americana de cerca de 100 sujetos para cada nivel de edad. 2. DESCRIPCIÓN DE LA PRUEBA La prueba Stanford-Binet es compuesta de varias subpruebas agrupadas según niveles de edad. La prueba considera 20 niveles de edad, desde la edad de 2 años hasta la adulta superior. Entre 2 y 5 años las subpruebas se agrupan por intervalos de medio año y entre 5 y 14 años, se agrupan por intervalos anuales. Hay además un nivel adulto promedio y tres niveles adulto superiores (I, II y III). Para cada nivel de edad existen seis subpruebas, excepto para el nivel adulto promedio que tiene ocho. La dificultad de las subpruebas es uniforme en cada nivel. Para cada nivel, existe una subprueba extra que puede ser utilizada en caso de anulación de una de las subpruebas originales. Sin embargo, la subprueba extra no debe sustituir una subprueba original en la cual fracasa el sujeto. Una determinada subprueba puede aparecer sólo en un nivel de edad o en varios. Las subpruebas utilizadas en los niveles de edad más bajos hacen hincapié en las capacidades sensoriales y motoras. Algunas de éstas son: identificación 68
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES de partes del cuerpo u objetos, torre de cubos de construcción, vocabulario de imágenes, comparación de barras, copia de círculo, combinación de palabras, etc. Para niños mayores, las subpruebas empiezan a exigir capacidades verbales y conceptos numéricos. En este caso las subpruebas son del tipo: vocabulario, palabras abstractas, repetición de dígitos, orientación, memoria (palabras y dibujos), cuenta de cubos, juicio práctico, etc. Para los adultos, son utilizadas sobre todo subpruebas de contenido verbal, simbólico y abstracto, como: vocabulario, analogías, interpretación de proverbios, frases desordenadas, entre otras. 3. MATERIAL La prueba es compuesta de distintos materiales que son utilizados en las diferentes subpruebas. Se encuentran juguetes, tarjetas impresas, cubos, objetos de diferentes tipos (coches, muñecos, animales) que están acondicionados en una maleta, junto con el manual de la prueba y el cuaderno de respuestas. 4. POBLACIÓN CON LA QUE SE UTILIZA La prueba puede ser utilizada desde dos años de edad hasta la edad adulta. 5. FORMA DE ADMINISTRACIÓN La administración debe ser individual. Se exige un examinador entrenado y con amplia experiencia, puesto que la aplicación y la puntuación de la mayoría de las subpruebas son relativamente complejas. Un problema adicional está en el hecho de que cada subprueba debe ser calificada inmediatamente después de su aplicación, pues la realización 69
Kathia Maria Costa Neiva subsecuente depende de la actuación del sujeto en la subprueba anterior. 6. TIEMPO DE ADMINISTRACIÓN En niños pequeños, la aplicación completa requiere no más que 30 o 40 minutos y en niños mayores y adultos cerca de hora y media. En casos excepcionales, la administración requiere demasiado tiempo y es conveniente dividirla en dos sesiones. 7. PROCEDIMIENTO DE ADMINISTRACIÓN El primer paso es llenar los datos personales del examinado en el cuaderno de respuestas. Nadie contesta todas las subpruebas del Stanford-Binet, solamente las que correspondan a una amplitud de niveles de edad adecuados a su nivel intelectual. Se inicia la aplicación por un nivel de edad ligeramente inferior al de la edad mental que se espera tenga el sujeto. Si el sujeto fracasa en alguna de las subpruebas de este nivel, se le aplica el nivel inmediatamente inferior. La aplicación sigue hasta llegar a un nivel en que todas las subpruebas sean resueltas con éxito. Este nivel es denominado edad basal. En seguida, se continúa la aplicación hasta el nivel en que ninguna de las subpruebas es contestada correctamente. Este nivel es llamado edad tope. Aquí se suspende la aplicación. Es importante mencionar la existencia de una escala abreviada. En cada nivel de edad, fueron elegidas cuatro subpruebas para constituir la escala abreviada, tomando en cuenta la validez y representatividad. Estas subpruebas están marcadas con un asterisco en el cuaderno de respuestas. La escala reducida solamente debe ser utilizada cuando no hay tiempo suficiente para una aplicación completa. 70
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 8. PROCEDIMIENTO DE CALIFICACIÓN La respuesta a un reactivo es calificada comparándola a una lista de respuestas correctas presentadas en el manual de la prueba. La calificación no proporciona créditos parciales, utiliza el sistema de todo o nada. En general, las subpruebas correctamente contestadas por un individuo se extienden a varios niveles de edad, limitados en un extremo por su edad basal y en el otro por su edad tope. Para calcular la edad mental de un sujeto en esta prueba, se parte de su edad basal y se añade a ésta los meses correspondientes por cada subprueba que realice correctamente más allá de este nivel. Para hallar su CI, se utilizan las tablas que se encuentran en el manual (Terman y Merrill, 1973). Se busca la tabla correspondiente a la edad mental del sujeto, se localiza su edad cronológica en la respectiva columna y se halla su CI de desviación. En el manual se encuentran dos conjuntos de normas, uno que corresponde a la revisión de 1960 y otro a la reestandarización de 1972. 9. NORMAS Los inconvenientes observados en la utilización del CI de razón (ver primer capítulo y Terman y Merrill, 1973) llevaron a la utilización del CI de desviación a partir de la revisión de 1960. Estos CI de desviación, como se ha explicado anteriormente, son calificaciones estandarizadas con una media de 100 y desviación estándar de 16 puntos. Su principal ventaja es presentar resultados comparables en todos los niveles de edad. Las normas obtenidas en la reestandarización de 1972 provienen de una muestra representativa de la población americana de cerca de 100 sujetos en cada uno de los 20 niveles de edad. 71
Kathia Maria Costa Neiva 10. CONFIABILIDAD Y VALIDEZ Distintos estudios han demostrado el alto nivel de confíabilidad del Stanford-Binet. Los valores obtenidos para el coeficiente de equivalencia y estabilidad de las formas L y M, aplicadas con una semana de intervalo o menos, son de .90 o más. En general, se ha observado que el coeficiente de confíabilidad es más alto en las muestras de niños mayores y en aquellas de niños que presentan CI más bajos. Los índices de confíabilidad obtenidos indican que el error estándar de la medida es de cinco puntos de CI (Brown, 1980; Anastasi, 1978). El estudio de las subpruebas de la forma LM, realizado en 1960, utilizando la correlación biserial (correlación entre cada subprueba y la escala total) indica una correlación biserial promedio de 0.66, lo que asegura que la prueba tiene una buena consistencia interna (Terman y Merrill, 1973). La validez estructural ha sido también comprobada por varios análisis factoriales, que constataron la existencia de un factor general aunque no excluyeron la posibilidad de que existan factores de grupo en algunos niveles de edad. La validez predictiva o de criterio fue también estudiada. Los coeficientes de correlación encontrados entre el CI del StanfordBinet y calificaciones escolares, evaluaciones de maestros y resultados en pruebas de rendimiento varían entre .40 y .75 (Anastasi, 1978). 11. COMENTARIOS No se puede negar la importancia histórica de la prueba Stanford-Binet en la medida de la inteligencia. Tampoco la calidad técnica de su proceso de construcción, su eficiencia y amplia aceptación a lo largo de los años. Sin embargo, Anastasi (1978) apunta algunos límites de la prueba, a los cuales uno debe estar atento: 72
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES • La medida está muy cargada de funciones verbales, sobre todo en los niveles de edad superiores, lo que llevaría a los individuos con deficiencia de lenguaje a obtener resultados relativamente bajos. • La prueba es inadecuada para medir aptitudes diferenciales pues: (a) no se encuentran las mismas subpruebas a todos los niveles de edad; (b) el número de subpruebas de cada tipo es muy reducido para que se pueda determinar, de manera precisa, la realización de un individuo en un grupo específico de subpruebas y (c) es difícil determinar cuales son las funciones medidas por una subprueba, solamente a través de la observación de su contenido. • La prueba es inadecuada para adultos sobre todo en la amplitud normal y superior. Aunque se utilicen tres niveles de adulto superior es muy difícil establecer, para la mayoría de los adultos superiores, la edad tope (la edad en que ninguna subprueba es resuelta). Además, el contenido de las subpruebas del Stanford-Binet es más apropiado para niños que para adultos. Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión). Madrid: Editorial Aguilar. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet intelligence scale. Form L-M. Boston: Houghton Mifflin Company.
73
CAPITULO VI ESCALA DE INTELIGENCIA PARA ADULTOS (WAIS) 1. ASPECTOS HISTÓRICOS La primera escala individual para la medida de la inteligencia del adolescente y del adulto fue publicada en 1939 en Baltimore por David WECHSLER, jefe de clínica del hospital psiquiátrico de Bellevue (New York). Esta escala era llamada "Wechsler-Bellevue". Su construcción tomó como base la concepción global de la inteligencia definida por Wechsler como ' 'la capacidad agregada o global del individuo para actuar con propósito, para pensar racionalmente y para habérselas de manera efectiva con su medio ambiente^ (Wechsler, 1955, p.3). El desarrollo de esta escala ha sido impulsado por el hecho de que las escalas existentes, no proporcionaban una medida adecuada de la inteligencia en el adulto. No solamente el uso de la edad mental era inapropiado para medir la inteligencia en el adulto, sino que la mayoría de los reactivos de estas escalas estaban orientados hacia los intereses infantiles. Además, los adultos eran frecuentemente penalizados por el énfasis dado a la velocidad de respuesta, en comparación con la exactitud, puesto que las personas más grandes generalmente trabajan más despacio que los niños. Las escalas existentes también presentaban fallas importantes en los procedimientos de estandarización. La nueva escala tenía como objetivo superar estas dificultades. La escala Wechsler-Bellevue dio origen, después de algunas 75
Kathia Maria Costa Neiva revisiones, a la escala WAIS (Wechsler Adulte Intelligence Scale) que surgió en 1955 en Estados Unidos. Esta nueva escala no contenía cambios significativos en cuanto a su contenido general, construcción y organización. Las modificaciones más importantes estaban relacionadas a: a) la muestra normativa, b) las instrucciones y calificaciones c) el contenido para situaciones especiales (evaluación de sujetos con un bajo nivel intelectual). Algunos reactivos de la escala original fueron conservados; otros fueron sustituidos por reactivos menos ambiguos y presentados en un mejor orden de dificultad. En 1981, El WAIS sufrió una revisión y pasó a llamarse WAIS-R (Wechsler, 1981a). El objetivo de esta última revisión fue actualizar algunos contenidos y proveer nuevas normas basadas en las puntuaciones obtenidas por muestras más actuales de la población. Cerca del 80% de los reactivos del WAIS-R provinieron del WAIS, intactos o modificados. Los demás reactivos fueron nuevos. Además, se realizaron pequeños cambios en el procedimiento de aplicación y de puntuación. El WAIS ha sido traducido y adaptado a varios idiomas, demostrando mucha utilidad y aceptación. La versión francesa fue realizada por Pichot y presentada en 1968 (Vrignaud, en Aubret y col, 1991). La versión para el idioma español se llama WAIS-español y fue presentada en 1981 (Wechsler, 1981b). EL WAIS ha dado origen a las demás escalas Wechsler, WISC y WPPSI, utilizadas con niños, que serán presentadas en los próximos capítulos. 2. DESCRIPCIÓN DE LA PRUEBA Las pruebas de Wechsler están compuestas por dos subescalas, una verbal y otra de ejecución, que están constituidas por una serie de tests específicos (subtests). Según Morales (1993), 76
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES estas escalas "son, por una parte, escalas heterogéneas intertest, debido a que miden diferentes funciones y, por tanto, distintos factores ...; y por otra parte, son escalas homogéneas intratest, porque cada subtest mide un sólo factor en toda su amplitud"(p. 107). Los reactivos de cada subtest son organizados en orden creciente de dificultad. Los reactivos de los subtests se clasifican en tres grupos: 1) reactivos que toda persona puede contestar, tenga o no instrucción escolar, 2) reactivos que se espera sean contestados por sujetos de instrucción escolar media y 3) reactivos que sólo pueden ser contestados por sujetos con una instrucción especial (idem). La escala verbal del WAIS está compuesta de seis subtests: 1) Conocimientos o Información, 2) Comprensión, 3) Aritmética, 4) Semejanzas, 5) Vocabulario y 6) Repetición de dígitos o retención de dígitos. La escala de ejecución se compone de 5 subtests: 1) Dibujos Incompletos o Figuras Incompletas, 2) Diseño con cubos, 3) Ordenación de dibujos, 4) Composición de objetos y 5) Dígitos y Símbolos o Claves. 2.1. Características de los subtests Cada subtest solicita funciones intelectuales distintas y por lo tanto difiere en sus características y contenidos. Las dos medidas —verbal y de ejecución— representan las diferentes formas en que puede expresarse la inteligencia. En seguida, serán presentadas las características específicas de cada subtest mencionadas por Wechsler (1955), Rapaport (1965), Vrignaud (en Aubret y col., 1991) y Morales (1993). a. Escala verbal: Conocimientos o Información: Este subtest propone cuestiones que permiten verificar la extensión de los 77
Kathia Maria Costa Neiva conocimientos del sujeto. Dos funciones son solicitadas: 1) capacidad de retención (memoria) y 2) asociación y organización de experiencias. Los resultados están ligados al medio ambiente cultural, a la estabilidad emocional y a los intereses. Mientras tanto, proporcionan una buena indicación de la capacidad intelectual. Este subtest presenta una buena correlación con la escala total y sus resultados en general se mantienen bien con la edad. Comprensión: Este subtest depende de un cierto aprendizaje de informaciones prácticas aunado a la habilidad de evaluar y utilizar la experiencia. Es una prueba de juicio. Mide la inteligencia social, la aptitud para evaluar la experiencia. Además, el factor verbal contribuye considerablemente al buen desempeño en este subtest. Las funciones solicitadas son: 1) razonamiento abstracto, 2) organización del conocimiento (análisis y síntesis), 3) capacidad de utilizar en la práctica las experiencias y aprendizajes obtenidos y 4) manejo de símbolos, números y lenguaje. Los factores influyentes son: a) las oportunidades culturales, b) la capacidad para colocarse en situaciones reales y c) el juicio social y sentido común. Proporciona muchos datos clínicos, es sensible a las psicopatías, esquizofrenias y a las actitudes reaccionales. Presenta una buena correlación con la escala total y con los subtests de Conocimientos y Semejanzas. Sus resultados se mantienen bien con la edad. Aritmética: Este subtest es una señal de vivacidad intelectual. Solicita las siguientes funciones: 1) razonamiento abstracto, 2) formación de conceptos numéricos, 3) retención de procesos aritméticos. Los resultados son influenciados por: a) la concentración, b) la atención inmediata y automática, c) las oportunidades ambientales para adquirir los procesos aritméticos fundamentales y d) las reacciones emocionales y de inhibición escolar. Este subtest evalúa el saber de origen escolar y familiar, la concentración con relación a la atención, 78
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES la abstracción y la memoria. Presenta una buena correlación con la escala total y sus resultados se mantienen medianamente con la edad. Semejanzas: El tipo de respuestas ofrecidas proporciona indicios sobre el proceso de pensamiento del sujeto y su nivel de generalización y abstracción. Según Rapaport (1965), los sujetos buscan sus respuestas en tres planes diferentes: concreto, funcional y abstracto. La correlación de este subtest con la escala total es muy buena. Sin embargo, es uno de los tests menos estables de los subtests del grupo esencialmente verbal. Son exigidas funciones como: 1) análisis de relaciones y 2) formación de conceptos verbales (calidad). Los factores influyentes son: a) un mínimo de oportunidades culturales, b) la capacidad para relacionar hechos y c) la adaptación adecuada al medio ambiente. Vocabulario: Subtest constituido de palabras que se sacaron de una serie experimental, presentadas en orden de dificultad creciente. Según Rapaport (1965, p. 40), " l a riqueza e integración del Vocabulario depende, en parte, de la capacidad de la dotación natural y, en parte, de la riqueza cultural de los primeros años". El Vocabulario es refractario a la disminución por inadaptación y también al progreso por la instrucción o experiencia de vida. Inicialmente, Wechsler lo utilizó como subtest complementario, y posteriormente lo incluyó regularmente. El ha constatado que este subtest es un muy buen índice de la inteligencia y que permite observaciones clínicas importantes: proceso de pensamiento del sujeto (calidad, extensión de las ideas y de la expresión), rasgos particulares, errores sutiles, aspecto convencional, perseveración, redundancia, incoherencia, pudiendo llegar a aspectos patológicos (esquizo-epilepsia). Presenta una correlación muy elevada con la escala total y se mantiene bien con la edad. Solicita funciones del tipo: 1) adquisición 79
Kathia Maria Costa Neiva y desarrollo del lenguaje y 2) adquisición y organización de significados verbales. Los resultados son influenciados por: a) las potencialidades naturales y 3) las oportunidades culturales. Repetición de dígitos: Uno de los subtests más mediocres. Su correlación con la escala total es mediana. Inicialmente, Wechsler propuso que este subtest fuera utilizado como complementario, pero después lo incorporó a la subescala verbal. Requiere: 1) concentración y memoria inmediata, 2) imaginación auditiva y 3) imaginación visual simultánea. Los factores influyentes son: a) atención inmediata, b) atención dirigida c) nivel de ansiedad. El fracaso en este subtest presenta frecuentemente significación diagnóstica, siendo el mismo utilizado para detectar deficiencia mental o defectos orgánicos. Cuando se obtienen bajas calificaciones y éstas no están asociadas con problemas de deficiencia u organicidad, pueden deberse a un cierto grado de ansiedad. Sus resultados disminuyen con la edad. b. Escala de ejecución: Figuras incompletas: La tarea del sujeto es discernir la parte esencial tomando en cuenta la forma o la función del objeto. Este subtest discrimina bien los niveles mediocres e inferiores de la inteligencia. Su correlación con la escala total es alta. Los resultados en este subtest se mantienen relativamente bien con la edad. Las funciones solicitadas son: 1) percepción visual fina (análisis), 2) concentración visual, 3) atención selectiva, 4) imágenes visuales. Los factores influyentes son: a) esfuerzo sistemático voluntario y selectivo, b) enfoque activo de la atención, c) agudeza visual y d) experiencia ambiental. Diseño con cubos: Es considerado el mejor subtest de ejecución, mide lo mismo que miden los tests verbales, está 80
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES saturado en g y revela las perturbaciones antiguas o recientes de los procesos de percepción superiores. Es importante analizar el proceso de trabajo y las actitudes. Se detectan comportamientos característicos en el caso de deterioro mental. Sus resultados no se mantienen con la edad. Este subtest presenta una buena correlación con la escala total y también con los subtests verbales. Requiere: 1) percepción de forma, 2) percepción visual: análisis y síntesis, y 3) integración visomotora. Los resultados pueden ser influenciados por: a) el nivel de actividad motora, b) un mínimo de discriminación del color, c) la agudeza y velocidad del análisis visual y d) la organización visual. Ordenación de dibujos: Subtest de construcción difícil debido al contenido de las historias (rol social o afectivo). Exige la comprensión de la situación en su totalidad y su organización en el tiempo y en el espacio. Raramente es realizado por un deficiente mental. Este subtest presenta una correlación mediana con la escala total y sus resultados no se mantienen con la edad. Es el subtest más vulnerable de la escala. Requiere las funciones siguientes: 1) percepción visual de relaciones, 2) síntesis de material no verbal y 3) anticipación y organización visual. Los factores influyentes son: a) la exactitud visual y b) un mínimo de oportunidades culturales. Composición de objetos: Este subtest proporciona indicios sobre el modo de percepción, el método de investigación y la reacción delante de la dificultad o de un error. Su correlación con la escala total es mediocre y varía según la edad (baja entre 15 y 30 años). Las funciones exigidas son: 1) percepción visual, 2) integración visomotora y 3) anticipaciones adecuadas. Los factores influyentes son: a) velocidad de la actividad motora, b) precisión de la actividad motora, c) interés y d) atención. Dígitos y Símbolos o Claves: Excepto casos particulares, 81
Kathia Maria Costa Neiva el aspecto motor no interviene en los resultados obtenidos en esta escala. Requiere: 1) recuerdo inmediato, 2) integración visomotora 3) imaginación visual y 4) capacidad de reproducción e imitación. Puede sufrir influencia de los factores: a) velocidad de la actividad motora, b) rapidez en la asociación, c) aprendizaje en función de entrenamiento de la atención, d) instabilidad y e) emotividad. La correlación de este subtest con la escala global es relativamente buena pero sus resultados no se mantienen con la edad. Los subtests pueden ser clasificados en cuatro grupos, según los factores específicos que evalúan y su vulnerabilidad (sensibilidad) (Rapaport, 1965). 1) Esencialmente verbal: Conocimientos, Vocabulario, Semejanzas y Comprensión . "Su rasgo común es que requieren la explicación verbal de los problemas y la formulación verbal de las respuestas" (ídem, p. 38). Son los tests menos vulnerables. La disminución considerable ante cualquiera de estas cuatro pruebas sugiere la presencia de una inadaptación grave. 2) Atención y concentración: Retención de dígitos y Aritmética. En ambos, la verbalización es sólo una forma de comunicación. Son los subtests verbales más vulnerables y variables. 3) Coordinación Visomotora: Diseño con c u b o s , Composición de objetos, Dígitos y símbolos. "Un rasgo común en estos subtests es que tras la conducta que estimulan subyacen funciones tanto motrices como visuales" (ídem, p.39). Estos subtests son más resistentes que los demás de ejecución , pero más vulnerables que los subtests esencialmente verbales. 4) Organización Visual: Ordenación de dibujos y Figuras incompletas. Se basan en la organización visual, no suponiendo ninguna acción motriz en especial. Estos subtests son los más vulnerables. Según Morales (1993), desde el punto de vista de la 82
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES vulnerabilidad, se considera que el subtest de Vocabulario es el menos sensible de todos y por lo tanto el que mejor sirve como parámetro de comparación de la ejecución de los demás subtests. Los más sensibles son: repetición de dígitos (escala verbal) y figuras incompletas (escala de ejecución), siendo el primero más vulnerable que el segundo. En general, los subtests de ejecución son más vulnerables que los verbales. 3. MATERIAL Para la aplicación del WAIS se requieren: 1) el manual, 2) un protocolo donde se registran las respuestas del examinado, 3) una tarjeta con una lista de palabras para Vocabulario, 4) una libreta que contiene los reactivos de Figuras incompletas y los modelos para Diseño con cubos, 5) una caja con tarjetas para Ordenación de dibujos, 6) una caja con cubos rojos/ blancos para Diseño con cubos, 7) cuatro cajas que contienen las partes de los reactivos de Composición de objetos, 8) un diagrama para Composición de Objetos, y 9) una plantilla de corrección para Dígitos y Símbolos. El examinador necesita también un cronómetro y dos lápices, sin goma, para Dígitos y Símbolos (Wechsler, 1981b). 4. POBLACIÓN CON LA QUE SE UTILIZA El WAIS es utilizado con personas a partir de los 16 años (ídem). 5. FORMA DE ADMINISTRACIÓN Esta prueba sólo debe ser administrada individualmente. La complejidad de su aplicación y calificación no permite la administración en forma colectiva.
83
Kathia Maria Costa Neiva 6. TIEMPO DE ADMINISTRACIÓN Se requieren entre 50 y 90 minutos para la aplicación completa del WAIS. Sin embargo, las diferencias individuales respecto al estilo particular de cada sujeto para contestar y la técnica de aplicación del examinador pueden alargar o abreviar el tiempo de administración. El ideal es aplicar todos los subtests en una misma sesión. Si esto resulta imposible por problemas de horario, motivación u otra razón, pueden programarse dos sesiones con un intervalo máximo de una semana. No se debe reducir el número de subtests aplicados para ahorrar tiempo. La reducción en el número de éstos sólo puede ser contemplada cuando no sea posible la aplicación de ciertos subtests debido a incapacidades que impiden su realización como: inadecuada comprensión del lenguaje o deficiencias sensorio-motrices. Por ejemplo, es posible aplicar solamente la subescala verbal a individuos con incapacidades motoras o solamente la subescala de ejecución, en el caso de sujetos imposibilitados de comprender o utilizar el lenguaje (Wechsler, 1981a) Algunos subtests de las escalas Wechsler suponen un tiempo límite estricto para su ejecución y otros no. Por ejemplo, en el WAIS, cada reactivo del subtest de Aritmética debe ser contestado en un tiempo límite que varía de 15 a 120 segundos. Además, en algunos subtests se bonifica la ejecución rápida del sujeto, concediéndole puntos extras dependiendo del tiempo de ejecución. En los subtests que no suponen un tiempo límite, el examinador debe conceder al sujeto el tiempo adecuado para que éste exprese su respuesta. Generalmente se considera de 10 a 15 segundos como suficiente. 7. PROCEDIMIENTO DE ADMINISTRACIÓN El procedimiento de administración de las escalas Wechsler es relativamente complejo y supone un buen entrenamiento. 84
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES El examinador debe leer las instrucciones y preguntas directamente del manual, sin cambiar términos ni apartarse de los procedimientos estandarizados. Para sacar dudas, repetir instrucciones y hacer preguntas que esclarezcan una respuesta ambigua o incompleta, el examinador debe seguir las indicaciones especificadas en el manual. Además, debe tener muy claro los procedimientos de puntuación de cada subtest para que pueda discontinuar la aplicación, después de un determinado número de errores, o regresar a la aplicación del primer reactivo del subtest, cuando sea el caso. El registro, de los datos personales y de las respuestas, en el protocolo es realizado por el examinador. El subtest de Dígitos y Símbolos es contestado por el sujeto directamente en el espacio destinado del protocolo. En el WAIS, primero se aplican todos los subtests verbales y en seguida todos los subtests de ejecución (Wechsler, 1981b). La secuencia de aplicación fue alterada en el W AIS-R, subtests verbales y de ejecución son sistemáticamente alternados (Wechsler, 198 la). Para cada subtest, se indica el reactivo donde debe iniciarse la aplicación y en que situación debe retornarse a la aplicación del primer reactivo. Para algunos subtests, un cierto número de errores consecutivos conduce a la discontinuación del subtest. 8. PROCEDIMIENTO DE CALIFICACIÓN Para la mayoría de los subtests de las escalas Wechsler la puntuación es objetiva. Sin embargo, la evaluación de los subtests de Semejanzas, Vocabulario y Comprensión y de algunos de los reactivos de Conocimientos requiere un criterio considerable por parte del examinador. El manual del WAIS proporciona, para estos subtests, ejemplos de respuestas para cada reactivo, además de un criterio general de puntuación. El examinador debe estar familiarizado con este criterio general para poder calificar correctamente. En estos 85
Kathia Maria Costa Neiva subtests se recomienda apuntar las respuestas completas del sujeto para facilitar la calificación. Pueden asignarse uno o más puntos a las respuestas correctas dependiendo del subtest, de la calidad de la respuesta o del tiempo en que el sujeto ha contestado el reactivo. Para cada subtest se calcula la puntuación natural, que en seguida es convertida a puntuación normalizada, utilizando la tabla de conversión presentada en el manual. En seguida, se calcula el total de las puntuaciones normalizadas de cada subescala —Verbal y de Ejecución— de la escala total. Con estas puntuaciones totales se hallan los respectivos CI (verbal, de ejecución y total). En el manual del WAIS, existen varias tablas de conversión (puntuación normalizada - CI) que están divididas por rangos de edad. Deben registrarse las puntuaciones naturales y normalizadas en el protocolo de respuestas, la suma de puntuaciones de cada subescala, la puntuación total y los tres valores de CI. Es importante señalar que cuando un subtest es anulado o cuando, por impedimento del sujeto, se hizo inadmisible la aplicación de toda la escala, es necesario prorratear la suma de las puntuaciones normalizadas de la subescala. Si se anula un subtest de la subescala verbal, la suma de las puntuaciones normalizadas debe ser multiplicada por 6/5 para obtener la puntuación prorrateada. Si el subtest omitido es de la subescala de ejecución, la suma de las puntuaciones normalizadas de los otros cuatro subtests debe ser multiplicada por 5/4 (Wechsler, 1981b). Obtenido el CI total se utiliza la tabla de clasificación de inteligencia, presentada a continuación, para establecer el diagnóstico. El examinador puede también hacer la gráfica de las puntuaciones del sujeto en el protocolo (primera hoja), encerrando en un círculo las puntuaciones naturales obtenidas en cada subtest y conectando los círculos con una línea. 86
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CI 130 y por encima 120-129 110-119 90-109 80-89 70-79 69 y hacia abajo
CLASIFICACIÓN Muy superior Superior Arriba del normal (brillante) Normal Abajo del normal (torpe) Limítrofe Deficiente Mental
Además del diagnóstico de la capacidad intelectual, pueden realizarse otros análisis, cuantitativos y cualitativos, que permiten profundizar el diagnóstico de habilidades o incapacidades específicas. En seguida, serán presentados otros tipos de análisis que pueden ser llevados a cabo con los resultados del WAIS. 8.1. Comparación por edad Puede ser interesante comparar los resultados de un individuo, en cada uno de los subtests, con los resultados de personas del mismo grupo de edad. Para realizar este tipo de comparación, el manual del WAIS provee 10 cuadros de puntuaciones normalizadas por edad. Estos cuadros no deben ser utilizados para computar el CI. En cada cuadro comparativo por edad, una puntuación normalizada de 10 para un subtest representa la puntuación normalizada media para este grupo de edad. La desviación estándar de puntuaciones normalizadas para cada subtest es de 3 puntos (Wechsler, 1981a, 1981b). El procedimiento es el siguiente {ídem): • Se localiza el cuadro que corresponde a la edad del individuo y se buscan las puntuaciones normalizadas para cada subtest •Las puntuaciones normalizadas por edad son apuntadas, 87
Kathia Maria Costa Neiva entre paréntesis, en la columna situada al lado de la columna destinada a puntuaciones normalizadas, en el protocolo. Estas puntuaciones permiten al examinador evaluar la actuación del individuo en relación con personas de su misma edad y comparar los resultados de una primera aplicación con los de una reaplicación, permitiendo verificar cambios en la ejecución de los distintos subtests, además de las variaciones causadas por la edad. Estas puntuaciones son también utilizadas para el cálculo del coeficiente de deterioro mental (ver más adelante en el apartado 8.3). 8.2. Dispersión de los resultados El análisis de la dispersión de los resultados obtenidos en las escalas Wechsler provee datos importantes sobre las funciones intelectuales más y menos desarrolladas. Discrepancias fuertes pueden también estar asociadas a ciertos tipos de patologías mentales. a. Diferencia entre el CI Verbal y el CI de Ejecución El CI Verbal indica la facilidad del sujeto en utilizar palabras y símbolos y el CI de Ejecución, su habilidad para manipular objetos y para percibir patrones visuales. En general, puede existir una diferencia de algunos puntos entre estos dos CI. En el caso del WAIS, esta diferencia solamente tiene importancia a partir de 10 puntos (Wechsler, 1955). En el WAIS-R también se observó que una diferencia de 10 puntos corresponde a un nivel de significancia de .05 (Wechsler, 1981a). b. Interpretación de las diferencias entre el CI Verbal y el CI de Ejecución Cuando se encuentra una diferencia significativa entre los dos CI, hay que ser prudente en su interpretación antes de 88
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES considerar que el sujeto tiene realmente una función intelectual más desarrollada que la otra. Wechsler (1955) afirma, respecto al WAIS, que la cantidad y dirección de la diferencia varía según la edad y el nivel global de inteligencia del individuo. El apunta que "sujetos de inteligencia superior generalmente lo hacen mejor en la parte verbal del examen, y sujetos de inteligencia inferior lo hacen mejor en la parte de ejecución" (p.213). El, también hace incapié en las diferencias raciales y culturales. c. Dispersión intraindividual El cálculo de la dispersión de las puntuaciones obtenidas por un sujeto en los diferentes subtests permite apreciar la homogeneidad de sus resultados y establecer un perfil de éstos. El estudio de la dispersión responde a la pregunta siguiente: ¿Cuándo podemos decidir que la puntuación obtenida en un subtest se desvía significativamente del promedio de los resultados del sujeto? Vrignaud (en Aubret y col., 1991) menciona el siguiente procedimiento para calcular la dispersión intraindividual en el WAIS: • Calcular el promedio de las puntuaciones normalizadas (Suma de puntuaciones normalizadas/Número de escalas). Si la diferencia entre el CI verbal y el CI de Ejecución es considerada significativa, es recomendable calcular, por separado, el promedio de las puntuaciones normalizadas de la subescala verbal y de la subescala de ejecución. • Calcular la dispersión hallando la diferencia entre la puntuación normalizada de cada subtest y el promedio de puntuaciones normalizadas (total o por subescala). Este mismo autor añade que Wechsler propuso, para la escala Wechsler-Bellevue, un método para determinar cuales son los subtests que presentan desviaciones significativas. 89
Kathia Maria Costa Neiva Aunque Wechsler no ha comentado sobre la utilización de este método en el caso del WAIS, éste es generalmente utilizado por los clínicos. Según este método, para determinar si la diferencia, entre la puntuación normalizada obtenida en un subtest y el promedio, es significativa, debe examinarse la suma total de las puntuaciones normalizadas o el CI total del sujeto. Para sumas totales comprendidas entre 80 y 110, que corresponden a CI totales comprendidos entre 85 y 115. es significativa toda diferencia de más de 2 puntos entre la puntuación del subtest y el promedio de las puntuaciones normalizadas. Este intervalo representa más o menos una desviación típica. Para los CI superiores a 115 o inferiores a 85, el valor de la diferencia significativa varía en función del promedio de las puntuaciones normalizadas del sujeto. La diferencia, entre la puntuación normalizada obtenida en un subtest y el promedio de las puntuaciones normalizadas, es significativa si su valor es superior a este promedio divido entre 4. Por Ejemplo: para un sujeto cuyo promedio de puntuaciones norma'izadas es 5.6, la diferencia es significativa si es mayor que 5.6/4 = 1.4; para otro sujeto cuyo promedio es 13.2, la diferencia es significativa si es mayor que 13.2/4 = 3.3. Además de este procedimiento, Wechsler propuso la tabla presentada abajo, donde define, para diferentes valores de la diferencia, símbolos que caracterizan el sentido e importancia de la desviación: + ++
desviación del subtest de 1.5 a 2.5 unidades arriba de la puntuación promedio. desviación del subtest de 3 o más unidades arriba de la puntuación promedio. desviación del subtest de 1.5 a 2.5 unidades abajo de la puntuación promedio. 90
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
desviación del subtest de 3 o más unidades abajo de la puntuación promedio. 0 desviación del subtest de +1.5 a -1.5 unidades de la puntuación promedio. Vrignaud (en Aubret y col., 1991) señala la ambigüedad, de la parte de Wechsler, en la determinación de la importancia de la diferencia. De un lado, propuso el método expuesto inicialmente para determinar el valor de la diferencia significativa y de otro, propuso una tabla con valores fijos (que no dependen del CI del sujeto) para la determinación de la importancia de la diferencia. d. Análisis e interpretación de la dispersión Dos tipos de análisis pueden ser realizados a través del estudio de la dispersión del WAIS. 1) Análisis de las funciones intelectuales más desarrolladas o deficientes. En este caso deben analizarse las escalas que presentan una dispersión significativa (para arriba o para abajo) verificando a cuales funciones intelectuales corresponden. Se determinan así cuales funciones intelectuales el sujeto tiene más desarrolladas y cuales son las más deficientes. Este análisis proporciona una interpretación cualitativa de los resultados numéricos obtenidos a través del cálculo de la dispersión. 2) Establecimiento de relaciones entre las dispersiones y diferentes entidades clínicasEste análisis, propuesto por Rapaport (1965), permite establecer asociaciones entre las divergencias de las puntuaciones de subtests particulares y las entidades clínicas específicas. Consiste en relacionar el perfil del sujeto con perfiles correspondientes a tipos particulares de problemas o disfunciones mentales. Rapaport (ídem), a partir de una investigación realizada 91
Kathia Maria Costa Neiva con la escala Wechsler-Bellevue, que fue aplicada a 261 casos clínicos y de control, propone un análisis de la dispersión de los diferentes subtests y describe las vicisitudes de cada uno de ellos en los distintos grupos clínicos. El utiliza las siguientes medidas de la dispersión: a) Dispersión del Vocabulario: el Vocabulario es el subtest menos vulnerable o sea es donde los sujetos muestran la máxima tendencia a no sufrir disminuciones en el rendimiento; sirve de referencia para medir la disminución de los otros subtests; b) Dispersión media: desviación de los subtests verbales con respecto al promedio y verbal de los subtests de ejecución con respecto al promedio de ejecución; los subtests verbales y de ejecución son tratados separadamente pues difieren en el grado de vulnerabilidad; c) Puntuaciones normalizadas extremadamente altas o bajas. El análisis de la dispersión permite evaluar la eficiencia desigual de las diferentes funciones y a partir de estas diferencias de la eficiencia funcional pueden inferirse las categorías clínicas en que puede esperárselas. Rapaport (1965, pp. 50-61) propone, para cada grupo y sus respectivos subtests, el análisis siguiente: • Grupo esencialmente verbal Vocabulario: Este subtest se halla profundamente disminuido en los neurasténicos, en los depresivos psicóticos y en los esquizofrénicos deteriorados. Los promedios más altos para el Vocabulario se encuentran en las condiciones paranoideas, en los preesquizofrénicos sobreideacionales y en los compulsivos obsesivos. Un puntaje en este subtest, inferior en dos o más unidades a la tendencia central de los otros subtests esencialmente verbales, indica un retardo significativo del desarrollo o disminución del Vocabulario. Conocimientos: En general las puntuaciones son semejantes 92
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES a las de Vocabulario; sólo en tres grupos se observa una puntuación significativamente más baja que la de Vocabulario: histeria, depresiones involucionadas y en algunas esquizofrenias paranoideas crónicas. En estos dos últimos grupos también se hallan disminuidas las puntuaciones en el resto de los subtests verbales, lo que no ocurre con los histéricos. En las neurosis y psicosis intelectualizantes, especialmente en los preesquizofrénicos sobreideacionales y los compulsivos obsesivos los Conocimientos se encuentran preservados. Cuando el puntaje en Conocimientos está tres o más unidades abajo del puntaje en Vocabulario significa una disminución significativa de la disponibilidad del conocimiento general. Semejanzas: Este subtest permite distinguir los diferentes tipos de depresiones. En las neurosis depresivas la puntuación en este subtest no está afectada; en las psicosis depresivas ella está por debajo del Vocabulario y aun más por debajo del promedio de los puntajes del grupo esencialmente verbal. De la misma manera, en las esquizofrenias paranoideas este puntaje no se ve afectado, mientras que en los casos crónicos y deteriorados su puntaje es inferior al de Vocabulario y al promedio de los puntajes verbales. Los puntajes más altos son obtenidos por los grupos "intelectualizantes". Una puntuación inferior en tres o más unidades a la de Vocabulario indica una disminución significativa de la formación verbal de conceptos. Comprensión: Cuando la puntuación en este subtest está más de dos unidades por debajo de la de Vocabulario o de Conocimientos constituye un índice grave. Indica una significativa disminución del juicio. Esto se observa, con frecuencia, en los compulsivos obsesivos, esquizofrénicos, preesquizofrénicos y depresivos. Se constata que, mientras los histéricos represivos presentan una disminución en el subtest de Conocimientos y un puntaje normal en el de 93
Kathia Maria Costa Neiva Comprensión, los compulsivos obsesivos presentan un excelente puntaje en Conocimientos y una caída en Comprensión. • Grupo de atención y concentración Repetición de dígitos: En los neuróticos y depresivos se observa una baja de puntuación, especialmente en aquellos casos en que la ansiedad adquiere una mayor importancia, provocando una disminución de la atención. Se considera este subtest como un test específico de ansiedad. Un puntaje inferior de 4 o más unidades al del Vocabulario indica una significativa disminución de la atención. Aritmética: El puntaje a este subtest se ve seriamente disminuido en el caso de los esquizofrénicos, especialmente de los deteriorados y de los psicóticos depresivos. Los neuróticos y normales presentan disminuciones pequeñas. También aquí los grupos "intelectualizantes" presentan altos puntajes, superiores al de Vocabulario. El puntaje en este subtest inferior en 4 o más unidades al de Vocabulario indica una significativa disminución de la concentración. • Grupo de coordinación visomotora Composición de objetos: La puntuación en este subtest se ve disminuida sobre todo por la depresión o ansiedad intensa. Es uno de los subtests más vulnerables. En las depresiones, en general, los puntajes bajan en la mayoría de los subtests de ejecución. Cuando el puntaje es normal en los demás subtests de ejecución y la caída se da solamente en este subtest indica una ansiedad neurótica normal. Los esquizofrénicos generalmente presentan un desempeño normal en este subtest. Un puntaje inferior en 5 o más unidades al de Vocabulario indica una significativa disminución de la organización y coordinación visomotora. 94
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
Diseño con cubos: Este subtest es el más sólido de los de ejecución y en general se mantiene próximo al nivel del Vocabulario. El factor que genera disminución en este subtest es la depresión. En este caso la disminución es igual o más importante que la de los demás subtests de ejecución y cuanto mayor la disminución más grave es la depresión. Un puntaje, en este subtest y en el de Composición de objetos, superior a una tendencia central baja para los tests de ejecución puede indicar una esquizofrenia. En general en estos dos subtests los esquizofrénicos crónicos y deteriorados pueden desempeñarse perfectamente bien. Un puntaje en Diseño con cubos inferior en tres o más unidades al de Vocabulario indica una baja significativa de la organización y coordinación visomotora. Dígitos y Símbolos: Este es el subtest de ejecución más sensible al retardo psicomotor producido por las depresiones. En los esquizofrénicos, es la disminución de la concentración que perjudica el desempeño en esta prueba, aunque algunos tipos (los blandos) la realizan sin ansiedad y obtienen buenas puntuaciones. Las personas acostumbradas a realizar trabajos semejantes al requerido en este subtest, como los taquígrafos, suelen obtener puntuaciones altas no solamente en este subtest pero también en los demás de ejecución. Una puntuación en Dígitos y Símbolos, tres o más unidades inferior a la de Vocabulario, indica una disminución significativa de la coordinación y velocidad visomotora. • Grupo de organización visual Ordenamiento de dibujos: Este es un subtest muy vulnerable, aun en neuróticos y normales. También se halla disminuido en los esquizofrénicos paranoideos y más profundamente en los deteriorados y psicóticos depresivos. Un puntaje inferior al de Vocabulario en 4 o más unidades revela una baja 95
Kathia Maria Costa Neiva significativa de la aptitud para realizar anticipaciones correctas y/o de la organización visual. Figuras incompletas: Este es el subtest que presenta la serie de disminución más sistemática. La disminución más importante es observada en los psicóticos depresivos, luego vienen los esquizofrénicos deteriorados sin clasificar, luego los esquizofrénicos agudos y crónicos seguidos de los compulsivos obsesivos, luego los neuróticos depresivos, en seguida los normales con tendencias depresivas y finalmente los normales no depresivos. Para diferenciar los psicóticos depresivos de los esquizofrénicos se verifica el desempeño en los demás subtests de ejecución que debe estar mucho más disminuido entre los primeros. Completando el análisis de la dispersión, Rapaport (1965, pp.68-81) comenta sobre los patrones de dispersión específicos y característicos de diferentes grupos clínicos. Presentamos en seguida algunas características de tres de estos grupos: • Grupo de esquizofrénicos: Los esquizofrénicos agudos sin clasificar presentan puntajes inferiores al de Vocabulario en prácticamente todos los subtests. El subtest de Conocimientos es el que presenta menor dispersión con respecto al de Vocabulario. El patrón diagnóstico para los esquizofrénicos agudos es el siguiente, en los subtests verbales se observa disminución en el de Comprensión y sobretodo en el de Aritmética y poca baja en el de Repetición de Dígitos; en los de ejecución se observa gran disminución en los subtests de Organización Visual (Ordenamiento de figuras y Figuras incompletas) y en el de Composición de Objetos. Los casos crónicos presentan puntuaciones en los subtests inferiores a la de Vocabulario, excepto en Conocimientos; pero casi ninguna de ellas es tan baja cuanto las obtenidas por los casos agudos. En general, los casos 96
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES crónicos se desempeñan mejor que los agudos, excepto en Comprensión, Aritmética y Repetición de Dígitos. Los esquizofrénicos deteriorados sin clasificar muestran una baja importante en casi todos los subtests. Comprensión y Repetición de Dígitos sufren una disminución considerable, Aritmética aun más y los peores son Ordenamiento de figuras, Figuras incompletas y Dígitos y Símbolos. El diagnóstico diferencial del carácter agudo, crónico o deteriorado de una esquizofrenia paranoica se basa en: 1) los casos agudos conservan muy bien su desempeño en Semejanzas, bien en Conocimientos, pero son los peores en Composición de objetos y Dígitos y Símbolos. 2) los casos crónicos presentan una dispersión más blanda que la de los agudos y se distinguen de ellos sobre todo por la disminución en Conocimientos y Semejanzas, 3) los casos deteriorados son los que presentan la mayor disminución del juicio (Comprensión), de la atención (Repetición de dígitos), de la concentración (Aritmética) y de la capacidad de planeamiento y anticipación (Ordenamiento de figuras). Tanto en los esquizofrénicos sin clasificar como en los paranoideos la dispersión es mayor en los grupos deteriorados, seguidos de los agudos y finalmente de los crónicos. • Grupo de depresivos La gravedad de la depresión corre paralela a la medida de la disminución de los subtests de ejecución. Los psicóticos depresivos son los que presentan mayor disminución. El desempeño de los psicóticos depresivos difiere del de los neuróticos depresivos en: el subtest de Semejanzas se halla bien conservado en los neuróticos y muy disminuido en los psicóticos; los subtests de Conocimientos y Repetición de dígitos se hallan mejor conservados en los neuróticos. La diferenciación entre psicóticos depresivos, 97
Kathia Maria Costa Neiva esquizofrénicos y preesquizofrénicos se halla en la ausencia de una disminución especial en los subtests de organización visual (Ordenamiento de figuras y Figuras incompletas), en la disminución de Diseño de cubos y en la falta de la relación Repetición de dígitos/Aritmética, puesto que en el primero el desempeño está seriamente disminuido mientras que en el segundo está apenas un poco menos. La diferencia entre depresivos neuróticos y esquizofrénicos agudos se basa en la baja sistemática de los primeros en los subtests de ejecución, en la ausencia de verbalizaciones extravagantes y en la lentitud, bloqueo y pobreza de producción. • Grupo de neuróticos Los grupos histeroides difieren de los obsesivos puesto que los primeros presentan puntajes en Comprensión más altos que en Conocimientos, lo que sucede al revés en los últimos. En los grupos histeroides los puntajes en Conocimientos, Comprensión y Semejanzas se hallan bien conservados, cercanos o superiores a los de Vocabulario, ya los de Repetición de dígitos y Aritmética sufren una disminución considerable. Estos son los grupos más ansiosos de los neuróticos y observamos en estos dos últimos subtests los efectos de la ansiedad. Los grupos neuróticos de tipo obsesivo se caracterizan por una disminución en Comprensión, aunque el desempeño en Conocimientos se halla conservado. También en estos grupos la ansiedad es fuerte, lo que provoca una fuerte disminución en Repetición de dígitos. Los neurasténicos presentan un nivel de eficiencia sumamente bajo en los tests de ejecución resultante de su pereza y apatía. Sus puntajes verbales parecen permanecer en un nivel relativamente parejo, aunque bajo. En los compulsivos obsesivos se constata una baja en 98
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
Aritmética mayor que en cualquier otro grupo neurótico. Se
observa aun una disminución del juicio (Comprensión), de la organización visual (Ordenamiento de figuras y Figuras Incompletas) y de los conceptos verbales (Semejanzas) como sucede en los esquizofrénicos agudos sin clasificar. La distinción está en el hecho de que la dispersión, en los primeros, se da en un nivel de puntuaciones normalizadas más altas, siendo raras las respuestas peculiares o los errores en los reactivos fáciles. Finalmente, cabe mencionar que estos análisis provienen de una investigación realizada con la escala Wechsler-Bellevue y que por lo tanto debemos tener cuidado en generalizarlos para las demás escalas de Wechsler. Este tipo de análisis deja abierto un sinnúmero de problemas tanto en el dominio estadístico como en el de la interpretación clínica de los perfiles. Sin embargo, permite la elaboración de hipótesis diagnósticas que deben ser verificadas con la aplicación de pruebas psicológicas específicas. 8.3. Coeficiente de deterioro mental Wechsler (1955) considera señal de deterioro mental cualquier caída significativa o pérdida de las habilidades intelectuales. Esta declinación mental puede ocurrir como resultado de una enfermedad mental específica o de una lesión orgánica o cerebral, pero también resulta del proceso senil, del aumento natural de la edad. Partiendo de la observación de que ciertas habilidades declinan más despacio con la edad que otras, Wechsler (ídem) propuso un procedimiento para el cálculo del coeficiente de deterioro. En éste, se utilizan las puntuaciones ponderadas obtenidas en los subtests que "se mantienen" con la edad
(Conocimientos, Vocabulario, Dibujos incompletos y Composición de objetos) y aquellas obtenidas en los subtests que "no se mantienen" con la edad (Repetición de dígitos, 99
Kathia Maria Costa Neiva Aritmética, Diseño con cubos y Dígitos y símbolos). El procedimiento propuesto es el siguiente: 1) Transformar las puntuaciones brutas obtenidas en cada uno de estos subtests en puntuaciones normalizadas utilizando los cuadros de transformación por edades (ver manual) 2) Sumar las cuatro puntuaciones normalizadas obtenidas en los subtests que se mantienen con la edad (Conocimientos, Vocabulario, Dibujos incompletos y Composición de objetos) 3) Sumar las cuatro puntuaciones normalizadas obtenidas en los subtests que declinan con la edad (Repetición de dígitos, Aritmética, Diseño con cubos y Dígitos y símbolos). 4) Calcular el coeficiente de deterioro mental cuya fórmula es: Suma (punt. norm, subtests que se mantienen) -Suma (punt. norm, subtests que declinan) Suma puntuaciones normalizadas subtests que se mantienen
5) Interpretación: un coeficiente positivo es indicador de deterioro mental. El estudio de la dispersión de este coeficiente muestra que uno tiene 20 posibilidades entre 100 de obtener un CD > .12 y 1 posibilidad entre 100 de obtener un CD > .35. En general, se obtiene un valor cercano a 0, independientemente de la edad (Vrignaud en Aubret y col, 1991). Es importante señalar que para el cálculo del coeficiente de deterioro deben utilizarse las puntuaciones ponderadas obtenidas en las tablas por edad. Este procedimiento elimina la deterioración psicológica provocada por la edad y evalúa únicamente la deterioración patológica. 9. NORMAS Las normas del WAIS son presentadas en CI de desviación, considerando una media de 100 y una desviación estándar de 15 puntos. Estas provienen de una muestra de 1,700 adultos 100
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES de E.U.A (16-64 años), prorrateados de acuerdo con el censo de 1950. Los sujetos fueron tomados de cuatro áreas geográficas en que se dividió a los Estados Unidos y se establecieron 18 centros de aplicación en diferentes sitios. Las aplicaciones fueron realizadas por examinadores, supervisados por psicólogos profesionales (Wechsler, 1955). Las normas del WAIS-R fueron extraídas de una muestra de 1,880 adultos (entre 16 y 74 años y 11 meses), estratificada de acuerdo con el censo de E.U.A. realizado en 1970. Los sujetos fueron examinados entre 1976 y 1980 en 115 centros localizados en 39 estados y Washington DC. Un grupo de individuos de esta muestra fue sometido a ambas formas de la escala (WAIS y WAIS-R) (Wechsler, 1981a). 10. CONFIABILIDAD Y VALIDEZ Anastasi (1978) resume los resultados reportados sobre la confíabilidad y validez del WAIS. La confiabilidad de los subtests, de las subescalas y de la escala total fue verificada con los grupos de edad de 18-19, 24-34 y 45-54. En general, se utilizó el procedimiento de división en mitades, excepto en los casos en que este procedimiento no era apropiado: Repetición de Dígitos y Dígitos y Símbolos. Para Dígitos y Símbolos se utilizó el procedimiento de test-retest y para Repetición de dígitos se obtuvo la correlación entre las puntuaciones de Dígitos en Orden Progresivo y Dígitos en Orden Inverso, corregida por la fórmula de Spearman-Brown. Fueron calculados coeficientes de confiabilidad de las subescalas y de la escala total a partir de los coeficientes obtenidos para los subtests. El CI de la escala total presentó coeficientes de confiabilidad de .97 en los tres grupos de edad, el CI de la subescala verbal, coeficientes de .96 en los tres grupos y el de la subescala de ejecución, coeficientes entre .93 y .94. Los subtests presentaron coeficientes más 101
Kathia Maria Costa Neiva bajos, variando de .60 a .90. Vocabulario demostró ser el subtest más confiable. El error estándar de la medida es de 3 puntos (en cada grupo) para el CI Verbal, de 4 puntos para el CI de Ejecución y de 2.60 para el CI Total. La validez del WAIS fue demostrada por distintos procedimientos. Muchos estudios fueron realizados para estudiar la validez de criterio, utilizando: correlaciones con evaluaciones de realización en el trabajo, con calificaciones académicas, etc. La validez estructural fue testada a través de intercorrelaciones entre los distintos subtests y subescalas y de análisis factoriales. Uno de los estudios factoriales, realizado por Cohen, identificó tres factores básicos: un factor de comprensión verbal, un factor de organización perceptual y un factor de memoria. Según Wechsler (1981a) estos resultados confirman la adecuación de la división en dos subescalas: una verbal y otra de ejecución. Fueron también obtenidos coeficientes de correlación con otras pruebas de inteligencia. Con el Stanford-Binet, los coeficientes de correlación variaron entre .80 y .90 dependiendo de la muestra. Con los tests colectivos las correlaciones fueron un poco más bajas, variando de .40 a .80 (Anastasi, 1978). Anastasi (ídem) relata, con detalles, varios de los estudios realizados para testar la validez de esta escala. El WAIS-R presentó también coeficientes de confiabilidad elevados en nueve grupos de edad. Estos fueron obtenidos a través de los mismos procedimientos utilizados para el WAIS. Los coeficientes promedio obtenidos fueron: .97 para la subescala verbal, .93 para la subescala de ejecución y .97 para la escala total. Los coeficientes de confiabilidad de los subtests variaron entre .52 y .96, la escala de vocabulario obtuvo el coeficiente más alto. En general, los subtest verbales presentaron una mayor confiabilidad que los de ejecución. El subtest de Repetición de dígitos presentó un coeficiente significativamente superior al obtenido en la versión anterior 102
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES del WAIS. Este resultado puede ser atribuido a los cambios realizados en este subtest. El error estándar de la medida es de 2.74 para la subescala verbal, de 4.14 para la subescala de ejecución y de 2.53 para la escala total (Wechsler, 1981a). El manual del WAIS-R no presenta ningún estudio específico sobre la validez de esta prueba. El autor comenta que como el WAIS-R mide las mismas habilidades que sus precursores (WAIS y WECHSLER-BELLEVUE), los resultados de los estudios realizados con estos últimos pueden ser considerados relevantes para la escala revisada (ídem). 11. COMENTARIOS El WAIS ha demostrado gran utilidad y aceptación. Su gran ventaja es proporcionar un diagnóstico mucho más fino de las habilidades intelectuales de un individuo, comparado al ofrecido por la mayoría de las pruebas de inteligencia. Además, posibilita otros análisis, a nivel cuantitativo y cualitativo, que enriquecen enormemente la interpretación de sus resultados, posibilitando hasta la formulación de hipótesis diagnósticas de disfunciones orgánicas y mentales. Mientras tanto, ésta es una prueba que sólo puede ser aplicada individualmente y que requiere un tiempo de aplicación importante. Necesita también, examinadores altamente entrenados. Una observación importante, en la utilización de WAISespañol, es el hecho de que todavía no existen normas para la población mexicana. En México, desde 1964, vienen siendo realizados los primeros pasos para la estandarización de la escala, bajo la dirección del doctor. Rogelio DíazGuerrero (Morales, 1993).
103
Kathia Maria Costa Neiva Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión). Madrid: Editorial Aguilar. Aubret, F., Aubret, J., Chartier, D., Chaudagne, H.,FrancequinChartier, G., Huetau, M., Porlier, J - C , Rozencwajg, P. y Vrignaud, P. (1991). Evaluer I'intelligence. Manuscrito no publicado, I.N.E.T.O.P., París, Francia. Morales, M.L. (1993). Psicometria Aplicada (2a ed., 2a reimpresión) México D.F.: Editorial Trillas. Rapaport, D. (1965). Test de diagnóstico psicológico. Buenos Aires: Editorial Paidós. Wechsler, D. (1955). La medición de la inteligencia del adulto. La Habana: Cultural, S.A. , D . (1981a). WA1S-R Manual: Wechsler Adult Intelligence Scale-Revised. Nueva York: The psychological Corporation , D. (1981b). WAIS-Español - Escala de Inteligencia para Adultos -Manual. México D.F.: Editorial El Manual Moderno.
CAPITULO VII ESCALA DE INTELIGENCIA PARA EL NIVEL ESCOLAR DEfWECHSLER (WISC) 1. ASPECTOS HISTÓRICOS La escala WISC (Escala de Inteligencia para el Nivel Escolar) fue presentada en 1949, como una extensión de la escala Wechsler-Bellevue, para ser utilizada con niños de 5 a 15 años 11 meses (Wechsler, 1981c). En 1974, surgió la escala revisada del WISC (WISC-R) que es fundamentalmente similar, pero técnicamente superior, a la original. Los cambios básicos fueron: 1) eliminación de los reactivos ambiguos, obsoletos o injustos e inclusión de reactivos nuevos para incrementar la confiabilidad de la escala; 2) cambio en el rango de edad para 6 a 16 años 11 meses; 3) cambios en la estandarización (ejemplo: más amplia representación de los blancos); 4) cambio en el contenido de algunos reactivos; 5) cambio en la secuencia de aplicación de los subtests; 6) cambio en las instrucciones de aplicación; 7) cambio en los criterios de calificación (Wechsler, 1981d). Una nueva edición del WISC fue presentada recientemente (WISC-III). Como en el caso de la revisión anterior, esta última representa un desarrollo técnico de la versión original. Incluye reactivos actualizados, dibujos más modernos, mejores normas y más investigaciones con respecto a la validez. Esta escala fue traducida y adaptada para varios idiomas. Las dos primeras versiones fueron traducidas para el español 105
Kathia Maria Costa Neiva —WISC-español y WISC-R español— y presentadas en 1981. Además, desde 1964 está siendo realizada la estandarización de esta prueba para la población mexicana (WISC-RM), por el equipo de investigaciones del INCCAPAC (Instituto Nacional de Ciencias del Comportamiento y de la Actitud Pública, Asociación Civil), bajo la dirección del doctor Rogelio Díaz-Guerrero. Para elaborar esta versión se tomó la traducción de Puerto Rico, se le comparó con el original de Wechsler, se hicieron correcciones en la traducción y se adaptaron aquellos reactivos considerados no adecuados a la cultura mexicana, cuidando de no alterar ni el contenido, ni el grado de dificultad de los mismos (Morales, 1993). 2. DESCRIPCIÓN DE LA PRUEBA El WISC se compone de dos subescalas: Verbal y de Ejecución. Cada subescala es compuesta de 6 subtests: 1) Verbal: Conocimientos o Información, Comprensión, Aritmética, Semejanzas, Vocabulario y Repetición de dígitos o retención de dígitos; 2) De ejecución: Figuras Incompletas o Dibujos Incompletos, Diseño con cubos, Ordenación de dibujos, Composición de objetos, Dígitos y Símbolos o Claves, y Laberintos. Los subtests del WISC son los mismos del WAIS, la diferencia es que se agregó el subtest de Laberintos a la subescala de ejecución. Dos de estos subtests son considerados complementarios: en la escala verbal, el subtest Repetición de dígitos y en la de ejecución, es subtest de Laberintos. Los subtests complementarios tienen como objetivo sustituir un subtest, que por algún motivo específico quede invalidado (Wechsler, 1981c, 198 Id). 3. MATERIAL Para la aplicación del WISC se requieren: 1) el manual, 2) 106
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES un protocolo donde se registran las respuestas del examinado, 3) un protocolo de Claves y Laberintos, 4) una libreta con algunos problemas de Aritmética, Figuras Incompletas y Diseños con Cubos, 5) una caja con tarjetas para Ordenación de Dibujos, 6) una lámina con árboles y una lámina blanca para problemas de Aritmética, 7) una caja con cubos rojiblancos para Diseño con Cubos, 8) cinco cajas con diferentes "rompecabezas" para Composición de Objetos y 9) una plantilla de Claves. Además, se necesita un cronómetro, dos lápices rojos sin goma y un lápiz color negro para Claves y Laberintos. 4. POBLACIÓN CON LA QUE SE UTILIZA El WISC es indicado para niños entre 5 y 15 años y 11 meses y el WISC-R para niños de 6 a 16 años y 11 meses. 5. FORMA DE ADMINISTRACIÓN Esta prueba sólo debe ser administrada individualmente. 6. TIEMPO DE ADMINISTRACIÓN Se requieren entre 50 y 75 minutos para la aplicación de 10 subtests del WISC. El ideal es aplicar toda la prueba en una única sesión. Pero, si esto resulta imposible debido a problemas de horario, motivación del niño o algún otro motivo, puede dividirse en dos sesiones, con un intervalo máximo entre ellas de una semana. Lo que no se puede hacer es disminuir el número de escalas para ahorrar tiempo (Wechsler, 1981c, 198 Id). En el WISC, también debe estarse atento a los subtests 107
Kathia Maria Costa Neiva que suponen un límite estricto de tiempo, así como a los subtests que bonifican la ejecución rápida del individuo. 7. PROCEDIMIENTO DE ADMINISTRACIÓN La complejidad de la aplicación exige del examinador un buen entrenamiento. El examinador debe seguir exactamente las instrucciones del manual, las indicaciones para sacar dudas, para formular y contestar preguntas y para repetir instrucciones. Es importante que el examinador sepa que las instrucciones utilizadas en el WISC-R son, algunas veces, distintas a las del WISC y que él debe estar muy atento a estas diferencias. La aplicación del WISC requiere aún más cuidado puesto que ésta se realiza con niños. Los niños, sobre todo los muy jóvenes, son más inquietos, curiosos con el material, hacen preguntas, pueden cansarse más rápido, etc. El examinador debe prepararse para enfrentar situaciones de este tipo y seguir las instrucciones del manual para manejarlas. El examinador inicia la aplicación llenando los datos personales y calculando la edad exacta del individuo. En el manual se indica la forma correcta de realizar este cálculo. En el WISC se aplican primero los subtests de la subescala verbal y después los subtests de la subescala de ejecución (Wechsler, 198 le). En el WISC-R se alternan subtests verbales y de ejecución. El orden recomendado es el siguiente: 1) Información, 2) Figuras Incompletas, 3) Semejanzas, 4) Ordenación de dibujos, 5) Aritmética, 6) Diseño con cubos, 7) Vocabulario, 8) Composición de Objetos, 9) Comprensión, 10) Claves, 11) Retención de Dígitos (subtest complementario) y 12) Laberintos (subtest complementario). Este orden no es estricto pudiendo ser adaptado a las necesidades de un niño específico. Si el niño se rehusa a ejecutar un subtest en particular el examinador puede dejarlo para el final de la sesión (Wechsler, 198Id). 108
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Los subtests complementarios pueden usarse: (a) cuando el tiempo lo permita, (b) como subtest alternativo cuando uno de los subtests, de la misma subescala, se quede invalidado y (c) cuando el sujeto presente una limitación específica que impida la ejecución de uno de los subtests. Mientras tanto, la sustitución no puede ser realizada simplemente porque el sujeto obtuvo una puntuación baja en un determinado subtest (Wechsler, 1981c). Para cada subtest, se indica el reactivo donde debe iniciarse la aplicación; el reactivo inicial depende, en varios subtests, de la edad del examinado. Por ello, es muy importante hacer el cálculo exacto de la edad del niño antes de iniciar la aplicación. Al aplicarse a niños con sospecha de deficiencia mental, perturbados emocionalmente o atípicos es recomendable iniciar con el primer reactivo. 8. PROCEDIMIENTO DE CALIFICACIÓN El procedimiento básico de calificación es muy similar al del WAIS, aunque los criterios de calificación de los subtests, cuya puntuación no es objetiva (Semejanzas, Vocabulario y Comprensión y algunos de los reactivos de Conocimientos), son muy distintos. Por ello, un examinador entrenado en el WAIS no debe creerse capaz de aplicar o calificar un WISC sin el debido entrenamiento. Los criterios utilizados en el WISC y en el WISC-R también tienen diferencias importantes. En el WISC, se asignan uno o más puntos a las respuestas correctas dependiendo del subtest, de la calidad de la respuesta o del tiempo en que el sujeto ha contestado el reactivo. Para cada subtest, se calcula la puntuación natural y se la convierte en puntuación normalizada. Las tablas de conversión (puntuación natural - puntuación normalizada) están divididas por edades, con intervalos de 4 meses. Estas, son presentadas en el manual. En seguida, se calcula el total de las puntuaciones 109
Kathia Maria Costa Neiva normalizadas de cada subescala —Verbal y de Ejecución— y de la escala total. Con estas puntuaciones totales se hallan los respectivos CI (verbal, de ejecución y total) en la tabla de conversión presentada en el manual. Todas las puntuaciones deben ser apuntadas en el protocolo, en sus respectivos espacios. Allí también se debe trazar la gráfica de las puntuaciones. Es importante señalar que, en esta prueba, cuando se incluyen en la aplicación los subtests complementarios, debe prorratearse la suma de las puntuaciones normalizadas (Verbal y/o de Ejecución) antes de convertirla a CI. Esto se hace necesario, puesto que, la construcción de la tabla de CI fue basada en la suma de las puntuaciones normalizadas de cinco subtests verbales y cinco de ejecución. Para prorratear se multiplica la suma de puntuaciones normalizadas de la subescala por 5/6. Si ocurre la invalidación de un subtest, o sea, en el caso que sólo se tomen en cuenta cuatro de los subtests de una subescala, se multiplica la suma de puntuaciones normalizadas de esta subescala por 5/4 (Wechsler, 198Id). Obtenido el CI total se utiliza la tabla de clasificación de inteligencia para establecer el diagnóstico (ver Capítulo VI). También con el WISC pueden realizarse otros análisis para profundizar el diagnóstico de habilidades o incapacidades específicas. 8.1. Dispersión de los resultados a. Diferencia entre el CI Verbal y el CI de Ejecución Según Kaufman (1982), en el WISC-R, la diferencia entre el CI Verbal y el CI de Ejecución es considerada significativa cuando es superior o igual a 12 puntos. El apunta que cuando la diferencia es mayor que 25 puntos puede ser indicativo de disfunción neurológica (daño cerebral). Mientras tanto, añade que "las discrepancias en los CI V-E no deben utilizarse para inferir una disfunción neurológica si no se cuenta con un 110
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES apoyo convincente de otros datos y observaciones suplementarias" (ídem, p.30). b. Interpretación de las diferencias entre el CI Verbal v el CI de Ejecución Kaufman (1982, pp. 26-50) analiza posibles explicaciones para las diferencias significativas entre los CI Verbal y de Ejecución en el WISC-R. • Inteligencia verbal contra inteligencia no verbal Algunos individuos pueden tener una facilidad desigual para expresar su inteligencia: dando mayor énfasis a la expresión de la inteligencia verbal en respuesta a estímulos verbales o expresándola mejor en forma manipulativa en respuestas a estímulos visuales concretos. Las verdaderas diferencias entre la inteligencia verbal y la no verbal pueden reflejar un mayor desarrollo de uno de los hemisferios cerebrales. El hemisferio izquierdo está especializado en el procesamiento de estímulos lingüísticos mientras que el derecho es experto en el manejo de estímulos visuales-espaciales. Entonces: E > V puede sugerir un mayor desarrollo del hemisferio derecho en tanto que V > E puede sugerir un mayor desarrollo del hemisferio izquierdo. • Capacidad fluida y capacidad cristalizada Las discrepancias entre el CI Verbal y el de Ejecución pueden indicar diferencias entre las capacidades fluida y cristalizada más que entre el pensamiento verbal y de ejecución. "La capacidad fluida implica solución de problemas en los que el punto crítico es la adaptación y flexibilidad para enfrentar estímulos desconocidos; la capacidad cristalizada se refiere 111
Kathia Maria Costa Neiva al funcionamiento intelectual en tareas que requieren entrenamiento, educación y aculturación previos" (ídem, p. 32). La primera es reflejo del aprendizaje incidental, obtenido indirectamente de las experiencias de la vida, mientras que la segunda implica un entrenamiento directo y deliberado. No hay una correspondencia perfecta entre las dicotomías V-E y fluida-cristalizada. Aunque la escala verbal puede ser considerada una buena medida del Pensamiento cristalizado, la escala de ejecución evalúa además del Pensamiento fluido, la Visualización amplia (factor análogo a Organización perceptual) y otras capacidades menores. Estas escalas no son medidas puras de estos pensamientos. Un niño proveniente de un medio privilegiado y cuyos padres dan mucha importancia al éxito escolar es probable que obtenga V > E, como también los niños que logran su éxito escolar con un trabajo excesivo. Es frecuente que los niños con problemas de aprendizaje obtengan E > V. La relación E > V en los niños con desventaja cultural puede indicar una verdadera capacidad intelectual potencial a pesar de la falta de experiencia de aprendizajes adecuadas. El CI de ejecución considerablemente más alto indica que el niño puede abordar la solución de problemas de forma adaptable y flexible, lo que sugiere que él podría llegar a una situación de éxito escolar si fuera debidamente estimulado en estas habilidades. • Deficiencias psicolingüísticas Deficiencias en el funcionamiento psicolingüístico generan problemas de aprendizaje y seguramente afectan las puntuaciones de un test de inteligencia. Como el WISC-R evalúa la inteligencia por medio de los transmisores correspondientes a las formas de comunicación auditivavocal y visual-motora, si uno de estos transmisores está 112
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
dañado, una parte del test ya no está midiendo la inteligencia del sujeto. Por ejemplo, un niño con deficiencia en las vías de comunicación auditiva-visual probablemente realizará una ejecución deficiente en la mayoría de los subtests verbales y podrá tener dificultades en los subtests no verbales que requieren la comprensión de extensas instrucciones verbales. Los niños con problemas psicolingüísticos graves podrán presentar una fuerte discrepancia V-E. Los niños con problemas receptivos no tienen la oportunidad de demostrar su inteligencia en el canal afectado, mientras que los que tienen problemas en el área de expresión no pueden comunicar sus procesos de pensamiento. Si la discrepancia V-E es resultado de una deficiencia psicolingüística, el CI total no tiene significado. • Bilingüismo Es probable que los niños que aprenden dos idiomas simultáneamente en la infancia obtengan una puntuación más alta en la escala de Ejecución que en la Verbal. "Varias investigaciones han encontrado que los niños mexicanos norteamericanos y los puertorriqueños que viven en los Estados Unidos obtienen puntuaciones significativamente mayores en las medidas de capacidad mental no verbal que en la verbal" (Kaufman, 1982,p.36). Este hecho es generalmente observado independientemente de que la prueba sea aplicada en inglés o español. No se pueden atribuir las bajas calificaciones en la escala verbal a un déficit intelectual pues las puntuaciones en las tareas cristalizadas son influenciadas por la capacidad de lenguaje, por la cultura y por el estilo cognoscitivo. Kaufman (ídem) recomienda que, al evaluar un niño bilingüe a través del WISC-R, no se compute o interprete el CI global y se proceda a una interpretación juiciosa de la discrepancia CI V-E. 113
Kathia Maria Costa Neiva • Dialecto de los negros Se ha observado que la pronunciación, estructura gramatical y vocabulario del niño negro tienen sus peculiaridades. Aunque el examinador está familiarizado con el lenguaje y la cultura negra posiblemente sentirá el impacto del dialecto de los negros en el CI del WISC-R. Tanto el CI verbal cuanto el de Ejecución pueden ser afectados, sin embargo el CI verbal es el más vulnerable. Cuando los examinadores desconocen el dialecto de los negros puede haber una profunda influencia de las diferencias de lenguaje sobre el CI verbal. Hay muchas diferencias de pronunciación que pueden provocar dificultades en los estímulos de Vocabulario y Semejanzas. Además, al contestar los reactivos verbales el niño puede usar palabras y conceptos específicos a la cultura negra. Muchas de estas respuestas, que pueden ser correctas o parcialmente correctas, pueden ser tomadas como incorrectas por un examinador que no tenga los conocimientos pertinentes. Así, cuando un niño negro presenta una puntuación de ejecución mucho más alta que la verbal, debe considerarse la posibilidad que su puntuación verbal esté disminuida por las diferencias lingüísticas. • Problema de coordinación Un CI Verbal más alto que uno de Ejecución no necesariamente indica que el niño ha desarrollado mejor su capacidad mental verbal que no verbal. Muchos subtests de ejecución exigen una coordinación motora considerable para un rendimiento acertado. Niños con un desarrollo motor deficiente tienden a obtener una baja puntuación en la Escala de Ejecución. Los subtests Diseño con cubos, Composición de objetos, Laberintos y Dígitos y Símbolos son los que más coordinación motora exigen. Siempre que el examinador observe que las puntuaciones normalizadas del niño en los primeros cinco subtests de 114
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
ejecución muestran una disminución constante, debe considerar la posibilidad de un problema motor. Si el niño no manifiesta alguna dificultad de coordinación durante la aplicación, sobre todo de la escala de ejecución, la hipótesis debe ser rechazada. Cuando esta hipótesis no es rechazada, es importante aplicar tests suplementarios específicos que permitan verificarla (Ejemplo: Bender). • Exigencias de tiempo Las discrepancias de tipo V > E también pueden ser explicadas por la incapacidad del niño de conducirse adecuadamente bajo situaciones de apremio. En todos los subtests de ejecución se toma el tiempo y en muchos se dan bonificaciones por una rápida ejecución. Sin embargo, en la escala verbal sólo se controla el tiempo en Aritmética. Un niño con este tipo de problema tendrá no solamente una puntuación de ejecución baja pero también la de Aritmética. En general, la conducta del niño proporciona indicios de su problema. Algunos emiten respuestas claramente negativas hacia el cronómetro o comportamientos que indican ansiedad con respecto al mismo; otros harán caso omiso del cronómetro o de la importancia del tiempo. El rendimiento deficiente en los subtests cronometrados puede ser debido a (además de problemas de coordinación motora): inmadurez, ansiedad, distracción, reflexión o compulsión. Un método para verificar la capacidad no verbal de solución de problemas sin presiones de tiempo, es el probar los límites al terminar la aplicación del WISC-R completo. En este caso se elimina el cronómetro y se presenta otra vez aquellos reactivos que el niño no pudo contestar correctamente, analizando su conducta bajo estas nuevas condiciones. 115
Kathia Maria Costa Neiva • Dependencia e independencia del campo Según Kaufman (1982) el estilo cognoscitivo bipolar — dependencia-independencia del campo— "se refiere al proceso o forma de una actividad cognoscitiva (es decir, se interesa en cómo percibimos, aprendemos, nos relacionamos con la gente, etc.), más que al contenido; es difuso, abarca los dominios sociales, intelectivos y personales, y es estable con el tiempo; además, a diferencia de los extremos de la inteligencia, cada polo tiene un valor adaptativc bajo circunstancias específicas" (p.46). El añade que, en general, las personas independientes del campo son flexibles en situaciones que exigen la resolución de problemas, imponen una estructura cuando se carece de ella al manejar materiales verbales y perceptuales, tienen una orientación impersonal, son interesadas por los aspectos teóricos y abstractos y utilizan la intelectualización como mecanismo de defensa. Las dependientes del campo están en armonía con los aspectos sociales de su medio ambiente, echan mano del orden social predominante, se interesan por la gente y gustan de estar con ella, no estructuran de forma espontánea a los estímulos (los dejan como están), tienen un concepto corporal global y no detallado y utilizan defensas inespecíficas como la represión. Las personas independientes del campo, por su forma analítica tienen mayor facilidad en los subtests Figuras incompletas, Diseño con cubos y Composición de objetos. En consecuencia, puede atribuirse una discrepancia E > V al hecho que el sujeto sea del tipo independiente del campo, así como la relación V > E puede estar asociada a un tipo dependiente del campo. El mismo autor apunta que pueden comprobarse las hipótesis relacionadas al estilo cognoscitivo: 1) analizando el perfil de los subtests que debe indicar que las puntuaciones normalizadas obtenidas en Figuras 116
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES incompletas, Diseño con cubos y Composición de objetos son radicalmente distintas (mayores o menores) al promedio de las demás puntuaciones (verbales y no verbales); 2) aplicando instrumentos específicos para discriminar el estilo cognoscitivo (Ejemplo: Test de Figuras Ocultas); 3) integrando la información referente al medio del niño con las observaciones del comportamiento del niño en las áreas social y personal. • Operación de evaluación de GUILFORT Las escalas verbal y de ejecución difieren en el grado en que miden la operación de ' 'evaluación'' descrita por Guilfort. Esta operación está relacionada con la capacidad para emitir juicios tomando como base una norma conocida. Este proceso mental es requerido para que se obtengan buenas puntuaciones en los cinco subtests de ejecución normalmente aplicados, pero sólo es necesario para un subtest verbal — Comprensión. Luego, las discrepancias V-E pueden deberse a la capacidad de evaluación excelente o deficiente y no a diferencias entre las habilidades de Comprensión Verbal y Organización Perceptual. Según Kaufman (1982), dos condiciones son importantes para la formulación de esta hipótesis: 1) que exista poca variación en las puntuaciones normalizadas de la Escala de Ejecución, 2) que la puntuación de Comprensión difiera significativamente del promedio de las puntuaciones verbales y que sea consistente con el promedio de las puntuaciones normalizadas obtenidas en la Escala de Ejecución. • Influencias socioeconómicas Las discrepancias V-E pueden ser atribuidas, en parte, al medio socioeconómico del niño. La investigación ha demostrado que los hijos de profesionistas tienden a obtener 117
Kathia Maria Costa Neiva puntuaciones superiores en la Escala Verbal, mientras que en los hijos de trabajadores no especializados sucede el opuesto. Kaufman comenta: "aunque los datos son muy variables para cada categoría socioeconómica, estas tendencias son dignas de atención ya que sugieren que las experiencias que el niño tiene en su medio pueden ayudar a conformar sus habilidades relativas en las esferas verbal y no verbal" (ídem, p.50). Kaufman (1982) menciona algunas situaciones en que la discrepancia CI V-E carece de importancia: • Los cocientes de inteligencia no corresponden a las puntuaciones del factor No hay un acuerdo perfecto entre el CI de la escala y el factor (verbal o no verbal). El subtest Aritmética realmente no pertenece al factor verbal, tampoco hay datos que apoyen la inclusión de Dígitos y Códigos en el factor perceptual. En consecuencia, hay que analizar el impacto que tienen estos dos subtests sobre la discrepancia V-E. Discrepancias V-E que aparentemente no son significativas (inferiores a 12) pueden en realidad ser importantes, o viceversa. • Compensación Verbal de la deficiencia en Ejecución Los niños que tienen habilidades verbales excepcionalmente desarrolladas pueden utilizarlas para compensar habilidades no verbales deficientes. En este caso hay que observar el rendimiento del niño en dos tests no verbales, que tienen cargas secundarias de Comprensión Verbal - Ordenación de figuras y Figuras incompletas - y su discrepancia de los demás tests de ejecución. Muchas veces se observa que los niños altamente verbales vocalizan sus estrategias de resolución de problemas. 118
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
• Dispersión en el perfil Siempre que se observe una dispersión considerable en el perfil de puntuaciones normalizadas, en la Escala Verbal, en la Escala de Ejecución o en ambas, la discrepancia VE suele perder significado. La existencia de dispersión de las puntuaciones normalizadas obtenidas en la Escala Verbal indica que la capacidad global de Comprensión Verbal del niño no es la causa principal de las puntuaciones normalizadas que obtuvo en los distintos subtests de esta escala, sino que existen otras variables que han contribuido; por lo tanto el CI Verbal no corresponde a una entidad unitaria. El mismo tipo de razonamiento debe ser realizado en cuanto a la Escala de Ejecución. En este caso la discrepancia entre los CI VE tiene poco significado. • Efectos de la repetición del test Varias situaciones pueden llevar a una reaplicación del test con un intervalo de unos cuantos meses. "En ningún caso en que se vuelva a aplicar el WISC-R después de uno o varios meses son de fiar las discrepancias V-E y los CI globales obtenidos por los niños en segunda aplicación'' (Kaufman, 1982, p.56). Cuando se realiza un retest después de un mes, se espera que cualquier niño logre un incremento cercano a los 7 puntos en su CI total. Sin embargo, este incremento no se distribuye igualmente entre el CI Verbal y el CI de Ejecución. El primero obtiene un incremento de 3½ puntos mientras que el segundo aumenta de 9½ puntos. Este incremento desigual puede provocar una discrepancia significativa en la reaplicación. Es probable que el mayor incremento del CI de Ejecución se deba a una familiaridad relativa con las tareas. Si es posible, es conveniente aplicar un instrumento de retest diferente (Ejemplo: el StanfordBinet). En el caso que se reaplique el WISC-R, se debe 119
Kathia Maria Costa Neiva proceder a una interpretación prudente, sin dar importancia indebida al CI global o a la discrepancia V-E. "Cuando la discrepancia V > E casi es significativa, se debe suponer que probablemente refleje una diferencia significativa; sin embargo, se deben ignorar aquellas discrepancias E > V que apenas son significativas. En caso que se encuentren grandes discrepancias E > V, es pertinente mantener como hipótesis viable que la magnitud de esas discrepancias se puede atribuir parcialmente al retest" (ídem, p. 57). c. Dispersión intra-individual Kaufinan (1982, p. 64) propone el siguiente procedimiento para calcular fluctuaciones internas significativas en el WISC-R: 1) Compute la puntuación normalizada promedio de todos los subtests de la Escala Verbal aplicados (5 o 6) y la puntuación normalizada promedio de los subtests de la Escala de Ejecución. Redondee cada promedio al número entero más próximo. 2) Examine las puntuaciones normalizadas de la Escala Verbal y anote todos los valores que están 3 puntos por arriba del promedio de esta escala. Estas son las ventajas significativas del niño y deben señalarse con " V " . En seguida anote los valores que están 3 puntos por abajo del promedio de la Escala Verbal y señálelos con " D " (desventaja). 3) Realice el mismo procedimiento arriba mencionado con las puntuaciones de la Escala de Ejecución. 4) Todas las puntuaciones normalizadas cuyas desviaciones no son significativas deben considerarse como fluctuaciones al azar Deben interpretarse las ventajas y desventajas del niño con base a las funciones intelectuales medidas por los subtests cuya dispersión es significativa. En la sesión del WAIS, se mencionan las funciones intelectuales medidas por cada uno de los subtests de la escala. 120
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
9. NORMAS Las normas para ambas versiones del WISC son presentadas en CI de desviación, considerando una media de 100 y una desviación estándar de 15 puntos. Los manuales presentan tablas de normas para 11 grupos de edad. El WISC fue estandarizado en una muestra de 2,200 niños de E.U.A., distribuidos en 11 grupos de edad (100 niños y 100 niñas de cada edad), de 5 años 0 meses a 15 años 11 meses. Todos los niños fueron examinados dentro de un mes y medio de su medio año; por ejemplo los niños de 5 años, ya habían cumplido 5 años, 4 meses y 15 días, sin embargo no habían pasado de los 5 años, 5 meses y 15 días. Los requisitos de muestreo fueron basados, en gran medida, en los datos del Censo de E.U.A de 1940, tomándose en cuenta la edad, el sexo, el área geográfica, la residencia urbanarural y la ocupación de los padres. Se incluyeron en la muestra 55 casos de débiles mentales, la mayoría provenientes de escuelas especiales (Wechsler, 1981c). Las normas del WISC-R provienen de una muestra de 2,200 niños de E.U.A., 200 de cada uno de los 11 grupos de edad, desde los 6 ½ hasta los 16 ½ años. Cada niño fue examinado hasta seis semanas de su medio año cumplido, como en el WISC. El plan de muestreo fue estratificado y se seleccionaron variables de acuerdo con los datos del Censo de 1970. Las variables utilizadas fueron: edad, sexo, raza (blancos y no blancos), región geográfica, ocupación de los jefes de la familia y residencia rural-urbana. La muestra de estandarización se limitó a niños ' 'normales"; no se tomaron en cuenta niños institucionalizados con anormalidades mentales o con problemas emocionales graves. Un total de 202 examinadores aplicaron la prueba a lo largo de E.U.A., entre diciembre de 1971 y enero de 1973 (Wechsler, 1981d). La estandarización de la versión mexicana (WISC-RM) 121
Kathia Maria Costa Neiva se inició en 1964, con una muestra de niños residentes en la ciudad de México. La muestra incluyó niños escolares urbanos, de ambos sexos y de tres niveles de sistemas escolares, que representaban tres niveles económicos de la ciudad de México (Morales, 1993). 10. CONFIABILIDAD Y VALIDEZ Para estudiar la confíabilidad de las dos versiones del WISC, se utilizó el procedimiento de división en mitades, excepto en los casos en que este procedimiento no era apropiado: Repetición de Dígitos y Dígitos y Símbolos. Para Dígitos y Símbolos se utilizó el procedimiento de test-retest y para Repetición de dígitos se obtuvo la correlación entre las puntuaciones de Dígitos en Orden Progresivo y Dígitos en Orden Inverso, corregida por la fórmula de Spearman-Brown. Fueron calculados coeficientes de confíabilidad de las subescalas y de la escala total a partir de los coeficientes obtenidos para los subtests. En el caso del WISC, la confíabilidad de los subtests, de las subescalas y de la escala total ha sido testada con los grupos de edad de 7 ½, 10 ½ y 13 ½ años, considerados los más representativos de los rangos de edades para los cuales fue diseñada la prueba. Los coeficientes de confíabilidad para la Subescala Verbal variaron, en función del grupo de edad, entre .88 y .96; los de la Subescala de Ejecución, entre .86 y .90; y los de la Escala Total entre .92 y .94. Los coeficientes de confíabilidad fueron más elevados en los grupos de edades más altas. El Error Estándar varió también con el grupo de edad: para la Subescala Verbal entre 3.00 y 5.19, para la Subescala de Ejecución, entre 4.74 y 5.61 y para la Escala Total entre 3.68 y 4.25. El Error Estándar fue siempre menor en los grupos de edades más altas (Wechsler, 1981c). Para estudiar la confíabilidad del WISC-R, se tomaron en 122
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES cuenta los 11 grupos de edad. Para la Subescala Verbal el coeficiente promedio fue .94, para la Subescala de Ejecución fue .90 y para la Escala Total fue .96. Los valores promedio observados de Error Estándar fueron de 3.6, 4.66 y 3.19, para las escalas verbal, de ejecución y total, respectivamente. Con el WISC-R se sacaron también coeficientes de estabilidad, reaplicando la prueba después de un intervalo de cerca de un mes. Una comparación en la media de los CI en la primera y en la segunda aplicación revela un aumento de alrededor 3 ½ puntos en la Escala Verbal, 9 ¼ puntos en la escala de Ejecución y de 7 puntos en la escala Total. Estos resultados deben ser tomados en cuenta cuando se reaplica la prueba después de un breve intervalo de tiempo (Wechsler, 198Id). La confiabilidad del WISC-RM fue verificada a través del procedimiento de test-retest, con un intervalo de 12 meses, en tres grupos de edades: 6-7 (133 casos), 9-10 (118 casos) y 12-13 (133 casos). Los coeficientes de confiabilidad obtenidos variaron, según el grupo, entre .72 y .76 para la subescala verbal, entre .64 y .70 para la subescala de ejecución y entre .77 y .79 para la escala total (Morales, 1993). La validez, del WISC y del WISC-R, fue estudiada a través de las intercorrelaciones entre los diferentes subtests. En el caso del WISC, en tres grupos de edad (7 ½ , 10 ½ y 13 ½ ) y en el caso del WISC-R en todos los 11 grupos de edad. Los coeficientes obtenidos son presentados en los respectivos manuales e indican que, en general, cada subtest verbal se correlaciona mejor con la subescala verbal que con la de ejecución y que cada subtest de ejecución se correlaciona mejor con la subescala de ejecución que con la verbal (Wechsler, 1981c, 198 Id). Fueron realizados también estudios para determinar la relación entre el WISC-R y otras medidas de inteligencia, de aplicación individual: el WPPSI, el WAIS y el StanfordBinet. La correlación entre el CI total del WISC-R y el del 123
Kathia Maria Costa Neiva WPPSI, obtenida con un grupo de 50 niños de 6 años 0 meses fue de .82. La correlación obtenida entre el CI total del WISCR y el del WAIS, en un grupo de 40 niños con edades de 16 años 11 meses, fue .95. La correlación entre el WISC-R y el Stanford-Binet fue estudiada en cuatro grupos de niños (6, 9 ½ , 12 ½ y 16 ½ años). Los coeficientes de correlación promedio, entre los CI de la subescala verbal, de la subescala de ejecución y de la escala total y los CI del Stanford-Binet, fueron .71, .60 y .73, respectivamente. Estos valores son similares a aquellos obtenidos en estudios que comparan el Stanford-Binet al WISC (Wechsler, 198Id). La validez del WISC-RM fue estudiada mediante un análisis factorial por edades. Los resultados confirmaron aquellos obtenidos por Wechsler y otros investigadores con la escala WISC. Además, fue realizado un análisis de varianza (ANOVA) con el objetivo de probar el poder discriminative de cada subtest, por edad, y de verificar la hipótesis de diferenciación por sexo y nivel socioeconómico (Morales, 1993). 11. COMENTARIOS Las ventajas del WISC son similares a las atribuidas al WAIS, sobre todo respecto a la posibilidad de elaborar un diagnóstico más fino de las habilidades intelectuales, más y menos desarrolladas, del niño. La aplicación y puntuación del WISCR es relativamente más fácil que la del WISC. Los cambios realizados en el WISC-R fueron de gran utilidad para los examinadores. Las dificultades encontradas en la utilización del WISC se refieren a aspectos prácticos: aplicación estrictamente individual, tiempo de aplicación considerable, material costoso, etc. Tanto el WISC como el WISC-R no han sido estandarizados para la población mexicana, solamente traducidos para el español. La versión mexicana, construida bajo la dirección 124
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES de Díaz-Guerrero (WISC-RM), es la que presenta una estandarización para la población mexicana. Sin embargo, hay que llevar en consideración que la muestra utilizada se limitó a la ciudad de México, no siendo por lo tanto representativa de toda la población mexicana. Referencias bibliográficas Kaufman, A.(1982) Psicometría razonada con el WISC-R. México D.F.: Editorial El Manual Moderno. Magnuson, P. (1979). Teoría de los tests México: Editorial Trillas. Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a reimpresión) México D.F.: Editorial Trillas. Wechsler, D. (1981c). WISC-Español - Escala de Inteligencia para el nivel escolar -Manual. México D.F.: Editorial El Manual Moderno. , D. (1981d). WISC-R-Español - Escala de Inteligencia revisada para el nivel escolar - Manual. México D.F.: Editorial El Manual Moderno.
125
CAPITULO VIII ESCALA DE INTELIGENCIA PARA LOS NIVELES PREESCOLAR Y PRIMARIO (WPPSI) 1. ASPECTOS HISTÓRICOS La escala WPPSI (Wechsler Preschool and Primary Scale of Intelligence), fue presentada en 1963. La idea original era elaborar una escala que fuera una extensión descendiente del WISC. Sin embargo, después de un estudio preliminar, y por razones teóricas y prácticas, se consideró que el WPPSI "era una escala independiente, adaptada de manera óptima al examen mental de los niños de 4 a 6 ½ años" (Wechsler, 198 le, p. 1). Asimismo, ocho de los once subtests del WPPSI y casi la mitad de sus reactivos provienen directamente del WISC. Las modificaciones básicas que se hicieron en los subtests provenientes del WISC son: adición de elementos más fáciles y eliminación de otros más difíciles, algunos cambios en el contenido de reactivos y en la forma de la aplicación. Posteriormente se presentó una versión revisada (WPPSIR) que puede ser utilizada con niños de 3 a 7 años de edad. La versión en español —WPPSI español— surgió en 1981 (Wechsler, 198 le). En México, fue realizado un estudio para la traducción, adaptación, confiabilidad y validez del WPPSI 127
Kathia Maria Costa Neiva en un grupo de 60 niños de nivel socio económico medio alto (Coto Villa y Llano de la Torre, 1981). 2. DESCRIPCIÓN DE LA PRUEBA El WPPSI consta de un total de once subtests, seis pertenecientes a la subescala verbal y cinco a la subescala de ejecución. Ocho de los subtests provienen del WISC: Información, Vocabulario, Aritmética, Semejanzas, Comprensión, Figuras Incompletas, Laberintos y Diseño con Prismas y tres son nuevos: Frases, Casa de los Animales y Diseños Geométricos. El subtest de Frases es complementario y sólo debe ser utilizado como alternativa, cuando no se puede aplicar o se queda invalidado uno de los subtests verbales. Las subescalas, verbal y de ejecución están compuestas por los siguientes subtests (Wechsler, 198le): Subescala verbal Información Vocabulario Aritmética Semejanzas Comprensión Frases (complementario)
Subescala de ejecución Casa de Animales Figuras Incompletas Laberintos Diseños geométricos Diseños con prismas (o con cubos)
3. MATERIAL El material del WPPSI se compone de: (1) un manual, (2) un protocolo, (3) una hoja con laberintos, (4) una hoja de Diseños Geométricos, (5) un tablero de 28 cilindros de colores para Casa de los Animales, (6) una libreta con espiral que contiene los reactivos de Figuras Incompletas y algunos de Diseño con Prismas, (7) una libreta con espiral que contiene 128
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES algunos de los problemas de Aritmética y los de Diseños Geométricos, (8) una caja con 14 prismas, rojo y blancos para Diseño con Prismas y para algunos de los problemas de Aritmética. El examinador necesitará también un cronómetro y dos lápices de color rojo (Wechsler, 198le). 4. POBLACIÓN CON LA QUE SE UTILIZA El WPPSI puede ser utilizado con niños de 4 a 6 ½ años y el WPPSI-R con niños de 3 a 7 años. 5. FORMA DE ADMINISTRACIÓN La administración es exclusivamente individual. 6. TIEMPO DE ADMINISTRACIÓN La aplicación del WPPSI requiere entre 50 y 75 minutos. Si posible, la prueba debe ser aplicada en una única sesión. Caso el niño de muestra de cansancio o desmotivación, puede aplicársela en dos sesiones, con un intervalo máximo de una semana. En el WPPSI también existen subtests con tiempo estrictamente limitado y otros que no tienen límite de tiempo. En estos últimos, se considera que 15 segundos son suficientes para que el niño inicie su respuesta. 7. PROCEDIMIENTO DE APLICACIÓN Como en las demás escalas de Wechsler, las instrucciones de aplicación y calificación, presentadas en el manual, deben ser seguidas con la mayor precisión posible. Siendo el WPPSI utilizado con niños muy pequeños, su aplicación requiere del examinador mucha simpatía, objetividad y paciencia. Es 129
Kathia Maria Costa Neiva muy importante mantener el interés y motivación del niño, pero deben ser evitadas manifestaciones de efusividad o sobreprotección. Con frecuencia, los niños pequeños quieren manejar el material, situación que debe ser debidamente controlada por el examinador. Llenar los datos personales del sujeto es el primer paso de la aplicación, seguido del cálculo exacto de la edad del niño, cuyo procedimiento viene descrito en el manual. En la aplicación, se alternan los subtests verbales y de ejecución, así como los "fáciles" y "difíciles". El orden de aplicación indicado, en el manual, es el siguiente: 1) Información, 2) Casa de Animales, 3) Vocabulario, 4) Figuras Incompletas, 5) Aritmética, 6) Laberintos, 7) Diseños Geométricos, 8) Semejanzas, 9) Diseño con Prismas y 10) Comprensión. Este orden puede ser alterado, si el niño presenta alguna dificultad especial o manifiesta alguna resistencia a un determinado subtest (Wechsler, 198le). El subtest de Casa de Animales puede ser reaplicado, después de todos los demás, con el objetivo de ayudar al examinador en la evaluación cualitativa de la habilidad del niño para aprender una tarea simple. La reaplicación permite, muchas veces, diferenciar a los sujetos de aprendizaje rápido o lento. El subtest de Frases es aplicado cuando se invalida o no se puede aplicar alguno de los subtests verbales. En la mayoría de los subtests se inicia la aplicación por el reactivo 1, con excepción de los subtests de Aritmética, Diseño con Prismas y Frases cuyo reactivo inicial depende de la edad del niño. 8. PROCEDIMIENTO DE CALIFICACIÓN El procedimiento básico de calificación, aunque muy similar al del WISC, supone criterios distintos, sobre todo en los subtests que implican una calificación no objetiva. Se asignan 130
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES uno o más puntos a las respuestas correctas y se calcula, para cada subtest, la puntuación natural. Cada puntuación natural es convertida en puntuación normalizada, utilizándose los cuadros de conversión, presentados en el manual, que están divididos por rangos de edades. Se halla la Puntuación Verbal, que es la suma de las puntuaciones normalizadas de los cinco subtests verbales, y la Puntuación de Ejecución, que Se obtiene sumando las cinco puntuaciones de los subtests de ejecución. Es importante señalar que caso se reaplique el subtest Casa de Animales, no se incluye en la suma de la Puntuación de Ejecución la puntuación normalizada de la reaplicación, sólo la de la primera aplicación. Si solamente se pueden tomar en cuenta cuatro de los subtests de una subescala (por problemas de invalidez), debe prorratearse la suma de puntuaciones normalizadas de esta subescala, multiplicándola por cinco cuartos (5/4) (Wechsler, 198le). En seguida, se calcula la puntuación total, sumando la Puntuación de Ejecución con la Puntuación Verbal. Estas tres puntuaciones son convertidas a CI mediante los cuadros de conversión presentados en el manual. Todas las puntuaciones son apuntadas en el protocolo, en los espacios correspondientes. Además, puede trazarse la gráfica de las puntuaciones del sujeto en el protocolo. Para establecer el diagnóstico, se utiliza la tabla de clasificación de la inteligencia, ya presentada anteriormente (ver Capítulo VI ). 8.1. Aspectos cualitativos Analizando las respuestas del niño, puede llegarse a una mayor y mejor comprensión de éste, puesto que, sus respuestas reflejan, no sólo las influencias culturales o familiares, sino también algunas características de personalidad como: motivación, persistencia, impulsividad, ansiedad, necesidad de realización, independencia, etc. Sin embargo, hay que tener el cuidado de no hacer demasiadas inferencias a partir de una sola respuesta. 131
Kathia María Costa Neiva 8.2. Diagnóstico de deficiencia mental en niños de edad preescolar Aunque el diagnóstico de deficiencia mental en niños pequeños puede ser una tarea relativamente fácil, "su diferenciación de otras incapacidades o deficiencia similares (por ejemplo, esquizofrenia y lesión cerebral), en muchas ocasiones es realmente difícil´´(Wechsler, 198 le, p.26). La dificultad mayor está en distinguir las perturbaciones congénitas del desarrollo mental interrumpido y también en evaluar, de manera objetiva, las deficiencias. Esta evaluación se vuelve aún más importante a la medida en que se acerca la entrada del niño en la edad escolar. 8.3. Dispersión de los resultados a. Diferencia entre el CI verbal y el CI de ejecución Wechsler (198le) considera que la diferencia entre el CI verbal y el CI de ejecución es significativa, a un nivel de confianza de 5%, cuando es mayor que 11 puntos. Según él, una diferencia de 15 o más puntos es importante y debe ser investigada. b. Diferencia entre las puntuaciones normalizadas de los distintos subtests Wechsler presenta en el manual del WPPSI un cuadro con las diferencias entre las puntuaciones normalizadas requeridas para la obtención de una significancia estadística al nivel de confianza de 15%. Según él, una diferencia de 3 puntos entre las puntuaciones normalizadas de cualquier par de subtests es significativa a este nivel de confianza (ídem). 132
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 9. NORMAS Las normas del WPPSI son presentadas en CI de desviación, considerando una media de 100 y una desviación estándar de 15 puntos. En el manual se encuentran tablas de normas para 6 grupos de edad. Las normas del WPPSI fueron derivadas de una muestra considerada representativa de los niños estadounidenses de 4 a 6 ½ años de edad. El total de la muestra fue de 1,200 niños, 100 niños y 100 niñas para cada uno de los seis grupos de edad, que están divididos por intervalo de seis meses. Cada niño fue examinado dentro de las seis semanas anteriores o posteriores a su cumpleaños o dentro de las seis semanas anteriores o posteriores a su medio año cumplido. La muestra fue basada en los datos del Censo de E.U.A. de 1960 y fue estratificada según los siguientes criterios: edad, sexo, región geográfica, residencia (urbana-rural), color (blancos-no blancos) y ocupación del padre (Wechsler, 198le). 10. CONFIABILIDAD Y VALIDEZ La confiabilidad fue estudiada mediante las correlaciones entre las puntuaciones naturales de los reactivos pares y aquellas de los reactivos nones, que fueron en seguida corregidas a través de la fórmula de Spearman-Brown. Como este procedimiento no es apropiado para subtests que son cronometrados, como el subtest Casa de Animales, se utilizó en este caso el procedimiento de test-retest. Los coeficientes fueron obtenidos para los seis niveles de edad. Los coeficientes promedios obtenidos para los distintos subtests variaron de .77 a .87. Los coeficientes promedio de las escalas fueron, .94, .93 y .96, para la escala verbal, de ejecución y total, respectivamente (Wechsler, 198le) Fue también estudiada la estabilidad de las puntuaciones 133
Kathia Maria Costa Neiva del WPP SI. A un grupo de 50 niños, entre 5 ¼ y 5 ¾ años de edad, se les aplicó la escala dos veces con un intervalo de 48 hasta 117 días. Los coeficientes de estabilidad (corregidos) de los subtests variaron de .60 a .93. Los coeficientes obtenidos para la subescala verbal, de ejecución y la escala total fueron, .86, .89 y .92, respectivamente (ídem). Se estudió también el Error Estándar de la medida para cada subtest y escala, en los distintos grupos de edad. El manual del WPPSI presenta un cuadro indicando los distintos valores obtenidos. En la subescala verbal el Error Estándar varía, según el grupo de edad, entre 3.40 y 3.69; en la subescala de ejecución varía entre 3.44 y 4.35 y en la escala total varía entre 2.66 y 3.12 (Wechsler, 1981e). La validez del WPPSI fue estudiada a través de las intercorrelaciones entre: a) los 11 subtests, b) cada subtest y las subescalas, c) cada subtest y la escala total y d)las subescalas verbal y de ejecución. Se tomaron en cuenta los seis grupos de edad. Se observó, de un lado, que los subtests verbales se correlacionan mejor con su propia subescala que con la de ejecución, y del otro, que los subtests de ejecución se correlacionan mejor con su propia subescala que con la verbal. La correlación promedio obtenida entre las dos subescalas —verbal y de ejecución —fue de .66 (ídem). La validez fue también verificada mediante la correlación con otras pruebas de inteligencia de aplicación individual: la Escala de Stanford-Binet (Forma LM), el Peabody Picture Vocabulary Test (Forma A) y el Pictorial Test of Intelligence; los coeficientes de correlación obtenidos fueron .75, .58 y .64, respectivamente. La muestra utilizada fue de 98 niños entre los 5 y 6 años de edad. Los coeficientes de correlación obtenidos entre los CI del WPPSI y el del Stanford-Binet son de la misma magnitud que los observados entre el los CI del WISC y el del Stanford-Binet. Se observó también, que el CI verbal del WPPSI se correlaciona más con el CI del 134
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Stanford-Binet, que el CI de ejecución, lo que también fue observado en las investigaciones que se interesaron a la correlación entre el WISC y el Stanford-Binet (Wechsler, 198 le). La correlación entre el CI total del WISC-R y el del WPPSI, obtenida con un grupo de 50 niños de 6 años 0 meses fue de .82 (Wechsler, 1981d). 11. COMENTARIOS El WPPSI tiene las mismas ventajas de las demás escalas Wechsler, además de ser una de las pocas escalas que permite la evaluación de la capacidad intelectual de niños tan pequeños. Las dificultades encontradas en la utilización del WPPSI se refieren a los mismos aspectos ya mencionados respecto a las escalas Wechsler: aplicación estrictamente individual, tiempo de aplicación considerable, material costoso, etc. Esta prueba tampoco ha sido estandarizada para la población mexicana, solamente traducida para el español. La versión mexicana, desarrollada por Coto Villa y Llano de la Torre (1981), no ha sido estandarizada. Estos investigadores solamente realizaron un primer estudio sobre la traducción y adaptación del WPPSI, limitado a una pequeña muestra (N=60) de niños mexicanos de nivel socio económico medio alto. Referencias bibliográficas Coto Villa, M. J. y Llano de la Torre, A. (1981). Estudio sobre la traducción, adaptación, conflabilidad y validez del test para preescolares y primaría de Wechsler (WPPSI) en un grupo de niños de nivel socioeconómico medio alto. Tesis inédita de Licenciatura en Psicología. Universidad Iberoamericana, México D.F. Wechsler, D. (1981d). WISC-R-Español-Escala de Inteligen135
Kathia Maria Costa Neiva cia revisada para el nivel escolar-Manual. México D.F.: Editorial El Manual Moderno. ., D. (1981e). WPPSl-Español - Escala de Inteligencia para los niveles preescolar y primario Manual. México D.F.: Editorial El Manual Moderno.
136
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CAPITULO IX BETA II-R 1. ASPECTOS HISTÓRICOS El Beta II-R (Segunda Edición Revisada) tiene su origen en el Examen Beta Grupal (Group Examination Beta) desarrollado por la Armada de los Estados Unidos de Norteamérica durante la primera guerra mundial para seleccionar reclutas extranjeros o analfabetos. La versión original, que fue la primera prueba colectiva de inteligencia, fue revisada en 1934 por Kellogg y Morton, con el objetivo de adaptarla a poblaciones civiles (Examen Beta Revisado). Esta prueba se quedó conocida como el Beta I (Primera edición). Posteriormente, apareció la edición utilizada actualmente (Beta II-R) (Kellogg y Morton, 1974). Entre una edición y otra, fueron realizadas varias revisiones del manual. En 1946, Lindner y Gurvitz llevaron a cabo una reestandarización, utilizando procedimientos basados en la escala de inteligencia Wechsler-Bellevue. Aunque no se introdujeron cambios importantes en los procedimientos de aplicación y calificación, es a partir de esta revisión que se empezó a utilizar el CI de desviación. Se desarrollaron tablas de conversión para nueve niveles de edad. En 1957, fue realizada otra revisión del manual que aportó nueva información sobre la confiabilidad de la prueba (ídem). Los cambios introducidos en el Beta II-R están relacionados al contenido de los reactivos y a la estandarización. Aunque 137
Kathia Maria Costa Neiva la naturaleza de las tareas no cambió, el orden de éstas fue alterado ligeramente. El material sufrió modificaciones (reactivos mayores o redibujados), los reactivos obsoletos, ambiguos o inadecuados fueron reemplazados por nuevos y fueron revisadas las instrucciones para que se volvieran más comprensibles. Además, fueron utilizados procedimientos de estandarización más sofisticados; la muestra estudiada siendo más representativa de toda la población norteamericana, de las mismas edades a las que se destina el instrumento (ídem). 2. DESCRIPCIÓN DE LA PRUEBA El Beta II-R es una prueba de inteligencia no verbal diseñada especialmente para adultos que tienen problemas de lectura y escritura. Está compuesta de seis tareas, cada una de ellas mide como uno puede resolver determinados problemas. Las tareas son: Laberintos, Claves, Figuras Geométricas, Figuras Incompletas, Pares Iguales vs Desiguales y Objetos Equivocados. 3. MATERIAL El material consta de: 1) un folleto de tareas, donde son presentadas y contestadas, una a una, las seis tareas; 2) una lámina complementaria para los ejercicios de práctica de la tarea 3 (Figuras Geométricas), 3) una plantilla de calificación y 4) el manual de la prueba. Se necesita también un cronómetro. 4. POBLACIÓN CON LA QUE SE UTILIZA Esta prueba es indicada para adultos que presentan problemas de lectura (no leen o la lectura es deficiente) y escritura, así 138
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES como para extranjeros. Es utilizada frecuentemente en prisiones y en industrias que emplean sobre todo obreros no calificados. 5. FORMA DE ADMINISTRACIÓN Esta prueba fue construida para posibilitar la aplicación colectiva, pudiendo ser también administrada en forma individual. Para la aplicación grupal se requiere de un examinador para cada 15 examinados. Se necesitan más asistentes cuando en el grupo existan sujetos que requieran ayuda especial para la ejecución de los ejercicios de práctica. 6. TIEMPO DE ADMINISTRACIÓN Cada tarea tiene un tiempo límite para su realización, que no incluye el tiempo necesario para las instrucciones y para la ejecución de los ejercicios de práctica. El examinador debe contar, por lo tanto, con un cronómetro o con un reloj con segundero. Para la aplicación completa se necesitan cerca de 30 minutos. Los tiempos límites para cada tarea son: TAREA
TIEMPO
Tarea 1 (Laberintos)
1 min. 30 seg.
Tarea 2 (Claves)
2 min.
Tarea 3 (Figuras Geométricas)
4 min.
Tarea 4 (Figuras Incompletas)
2 min. 30 seg.
Tarea 5 (Pares Iguales vs Desiguales)
2 min.
Tarea 6 (Objetos Equivocados)
3 min.
7. PROCEDIMIENTO DE ADMINISTRACIÓN Cada examinado debe contar con dos lápices y una goma; y empezar 139
Kathia Maria Costa Neiva llenando, en el folleto de tareas, sus datos personales. En el caso de analfabetos, el examinador debe encargarse de anotarlos. Cada tarea tiene una instrucción específica que debe ser leída atentamente por el examinador. Antes de cada una de ellas, hay algunos ejercicios de práctica que aclararán cómo hacerlas. Las tareas son realizadas en orden y contestadas directamente en el folleto de tareas. 8. PROCEDIMIENTO DE CALIFICACIÓN La plantilla de calificación facilita la corrección de las tareas. Los criterios de puntuación varían de una tarea a otra y deben ser seguidos rigurosamente. En el caso de las tareas 2, 3, 4 y 6, se asigna un punto para cada respuesta correcta. En la tarea 1 (laberintos) se asigna un punto a la ejecución correcta de la mitad de cada uno de los laberintos; la puntuación máxima de cada laberinto es de dos puntos. En el manual vienen los casos en que se considera incorrecta la mitad de un laberinto. En la tarea 5 (Pares Iguales vs Desiguales) se atribuye un " + " a las respuestas contestadas correctamente y un " - " a las respuestas contestadas en forma incorrecta. Se resta, el total de las respuestas contestadas incorrectamente (-), del total de las respuestas contestadas correctamente (+). Unicamente se toman en cuenta los reactivos contestados por el examinado (Kellogg y Morton, 1974). Para cada tarea, se convierte la puntuación bruta o natural en puntuación normalizada utilizando un cuadro de conversión presentado en el manual. En el Sumario de Puntuaciones (última hoja del folleto de tareas), se anotan los valores en los debidos espacios. La suma de las puntuaciones normalizadas puede ser convertida a CI de desviación o percentil, mediante cuadros de conversión disponibles en el manual. Estos cuadros 140
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES toman en cuenta el grupo de edad del sujeto. El manual provee también una tabla de clasificación de la inteligencia, en función del CI obtenido. 9. NORMAS Las normas son expresas en CI de desviación y en percentil. Se determinó que los CI, en cada grupo de edades, tendrían una media con valor de 100 y una desviación estándar con valor de 15. Las tablas de CI de desviación y de percentil están dividas en siete grupos de edad: (16-17), (18-19), (20-24), (25-34), (35-44), (45-54) y (55-64). Las normas provienen de una muestra considerada representativa de la población norteamericana, compuesta por 1,050 personas entre 16 y 64 años de edad. Se utilizó un procedimiento de muestreo estratificado y se tomaron en cuenta las siguientes variables: sexo, edad, región geográfica, raza y ocupación. Aunque el nivel de escolaridad no fue controlado, se procuró que en la muestra existiera una proporción semejante de sujetos que habían completado determinado números de años escolares en relación con la existente en la población norteamericana. La aplicación de la prueba se llevó a cabo entre abril de 1974 y mayo de 1976 (ídem). 10. CONFIABILIDAD Y VALIDEZ La confiabilidad del Beta II-R fue testada en una muestra de 79 sujetos (40 hombres y 39 mujeres) de 16-17 años. Como las tareas de esta prueba deben ser resueltas con rapidez, el procedimiento de confiabilidad utilizado fue el de TestRetest con intervalo de 3 semanas. El coeficiente de estabilidad obtenido fue de .91. El Error Estándar de la medida es de 4.6, lo que significa que existe una probabilidad de 2 sobre 141
Kathia Maria Costa Neiva 3 de que el CI real del examinado se encuentre dentro de 4.6 puntos del CI obtenido (Kellogg y Morton, 1974). La validez ha sido estudiada mediante la correlación entre la puntuación obtenida en el Beta y la puntuación obtenida en otras medidas de inteligencia. La Primera Edición del Beta presentaba una correlación de .80 con el Alpha, de .73 con el Stanford-Binet (Anastasi, 1974) y correlaciones variando entre .37 y .83 con el WAIS, dependiendo de la muestra utilizada (Kellogg y Morton, 1974). Es importante señalar que estos coeficientes fueron obtenidos con muestras muy específicas. La correlación entre el CI del Beta II-R y el CI del WAIS fue estudiada en una muestra más amplia y general que tomó dos de los grupos de edad del Beta II-R: 18-19 y 35-44 años. Se observó una correlación entre el CI del Beta II-R y el CI total del WAIS de .64 (18-19 años) y de .66 (35-44 años). Las correlaciones más altas se obtuvieron entre los CI del Beta II-R y los CI de la escala de ejecución del WAIS: .68 (18-19 años) y .73 (35-44 años) (ídem). Fue también estudiada la relación entre la Primera Edición del Beta y el Beta II-R. La muestra utilizada fue de 267 sujetos entre 18 y 54 años. A 132 sujetos se les aplicó primero la Primera Edición del Beta y 7 a 10 días después el Beta IIR. Al resto de los sujetos se procedió de manera inversa. Los coeficientes de correlación obtenidos fueron:. 84 (Primera Edición - Beta II-R) y .93 (Beta II-R - Primera Edición). Este estudio permitió detectar que, en general, los CI de la Primera Edición resultan más bajos que los obtenidos en el Beta IIR. Esta diferencia puede ser explicada de dos maneras: (a) diferencias en las estrategias de muestreo utilizadas en las dos estandarizaciones y (b) la posibilidad que la población adulta norteamericana, ejecute mejor actualmente las tareas en comparación con los sujetos que participaran de la normalización en 1946 (ídem). 142
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 11. COMENTARIOS Algunas de las ventajas del Beta 1I-R son: ser una medida no verbal de inteligencia, permitir una aplicación colectiva, poder ser aplicado a personas analfabetas o con problemas de escritura y lectura, no requerir mucho tiempo para su administración. Entre los inconvenientes está el hecho de que el valor máximo de este instrumento no es muy alto, no diferenciando bien entre sujetos de capacidades muy altas. Por este motivo, se recomienda que los individuos que puntúan muy alto en esta prueba deberían ser examinados con otros instrumentos, para que se pueda obtener una medida más exacta de su capacidad (Kellogg y Morton, 1974). Otro aspecto importante está en las normas. Las tablas presentadas en el manual son adecuadas solamente para la población norteamericana, de donde fueron extraídos los datos normativos. Referencias bibliográficas Anastasi, A (1978). Tests Psicológicos, (3 a ed., 4a reimpresión). Madrid: Editorial Aguilar. Kellogg, C E . y Morton, N.W. (1974). Instrumento no verbal de inteligencia - Beta II-R. Manual. México D.F.: Editorial El Manual moderno.
143
CAPITULO X TEST DE MATRICES PROGRESIVAS (RAVEN) 1. ASPECTOS HISTÓRICOS
Esta prueba fue desarrollada por el psicólogo inglés J.C. Raven e impresa por primera vez en 1936. Dos años después, la prueba ya tenía su forma definitiva y estaba tipificada (Progressive Matrices —1938— Series A, B, C, D, E). Posteriormente fueron publicadas: (a) una escala para niños de 3 a 10 años y adultos deficientes (1938), (b) una revisión de la escala general de 1938 (1956) y (c) una escala general para niveles superiores. La revisión de 1956 presentó como cambios el reemplazo de un reactivo y modificación de la ubicación de otros siete (Raven, 1987). 2. DESCRIPCIÓN DE LA PRUEBA El Test de Matrices Progresivas es una prueba no verbal que busca medir la inteligencia general. La escala general es compuesta de 60 problemas, dispuestos en cinco series de doce problemas (A, B, C, D y E) en orden de dificultad progresiva. Las dos primeras series plantean problemas de educción de relaciones y las demás, problemas de educción de correlatos. Es un test de matrices lacunarios pues cada reactivo es compuesto de una lámina de figuras geométricas abstractas lacunarias que exige una tarea de completamiento. 145
Kathia Maria Costa Neiva Cada figura geométrica es la matriz de un sistema de pensamiento. Para descubrir la matriz de pensamiento implicada en cada figura, el sujeto realiza una tarea de observación, comparación y razonamiento analógico. El completamiento de la matriz es realizado a través de elección múltiple entre una serie de 6 o 8 respuestas (ídem). La escala especial es compuesta de 36 láminas dispuestas en tres series: A, Ab y B. La primera y la última son las mismas de la escala general, la serie Ab es de un nivel de dificultad intermediario. 3. MATERIAL El material básico consta de: (1) un cuaderno de matrices, donde vienen encuadernadas las láminas en negro y blanco; (2) un protocolo de prueba, donde se registran los datos y las respuestas del sujeto; (3) una plantilla de corrección (clave matriz); (4) una carpeta de evaluación, donde vienen varias tablas normativas (baremos) obtenidas con distintas muestras y una tabla de diagnóstico de la capacidad intelectual, y (5) el manual del autor. La escala especial es presentada en la forma de tablero o de cuadernillo y las láminas son coloridas. En la forma de tablero, las láminas están encuadernadas sobre planchas de cartón con excavaciones, de manera que pueden ser manejadas como un test de tipo encaje. Cada serie viene en una carpeta y las tres carpetas en un estuche. 4. POBLACIÓN CON LA QUE SE UTILIZA La escala general es utilizada con sujetos normales o poco dañados intelectualmente, de 12 a 65 años. La escala especial es indicada para niños menores de 12 años o adultos dañados intelectualmente (reducida capacidad intelectual, serios trastornos de lenguaje o audición). La forma de cuadernillo 146
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES es indicada para niños entre 9 y 11 años y sujetos deficitarios, mientras que la forma de tablero es recomendada para niños menores de 9 años y sujetos muy deficitarios (Raven, 1987) 5. FORMA DE ADMINISTRACIÓN En niños menores de 9 años o adultos muy deficitarios la aplicación es individual. En niños mayores de 9 años o adultos, la aplicación puede ser individual o colectiva. Con estos últimos, la prueba puede también ser autoadministrada. 6. TIEMPO DE ADMINISTRACIÓN El tiempo de administración no es limitado. En general, se necesitan entre 30' y 40' para la ejecución de la prueba. 7. PROCEDIMIENTO DE ADMINISTRACIÓN Inicialmente, deben llenarse los datos del examinado en el protocolo de prueba. El procedimiento de administración consiste en presentar a la inspección del sujeto, uno a uno, los 60 problemas de completamiento e instruirle para hallar la respuesta correcta entre varias soluciones presentadas (6 o 8). Cada respuesta debe ser anotada en su respectivo espacio en el protocolo de prueba. Las anotaciones pueden ser realizadas por el examinador (aplicación individual) o por el propio examinado (aplicación colectiva o autoaplicación). En el caso de una aplicación colectiva, el examinador debe vigilar para asegurarse de que los examinados no se salten ningún problema, anoten sus respuestas en las respectivas casillas y no copien entre sí. 8. PROCEDIMIENTO DE CALIFICACIÓN Para calificar la prueba se utiliza una clave matriz de corrección que permite verificar las respuestas correctas e 147
Kathia Maria Costa Neiva incorrectas. Se atribuye un punto para cada respuesta correcta. Se calculan los puntajes parciales (de cada serie) y el puntaje total (suma de puntajes parciales). Se convierte la puntuación bruta a puntaje ponderado (percentil), buscando en la carpeta de evaluación la tabla de normas (baremo) más adecuada a los datos del examinado (edad, nacionalidad, etc.). Finalmente, se convierte el percentil en rango, estableciendo así el diagnóstico de la capacidad intelectual del sujeto. 8.1. Consistencia del puntaje Un segundo procedimiento de evaluación es la verificación de la consistencia del puntaje, cuyo objetivo es comprobar si la composición del puntaje del sujeto es ajustada al esperado. Raven ha calculado los puntajes medios, de cada una de las series, que deberían componer cada uno de los posibles puntajes totales. Estos puntajes medios son los puntajes parciales esperados para cada puntaje total. Para verificar la consistencia del puntaje de un sujeto, se calcula, por sustracción, la discrepancia entre los puntajes obtenidos por el sujeto en cada una de las cinco series (puntajes parciales) y los puntajes parciales esperados en razón de su puntaje total. El puntaje de un sujeto es considerado consistente cuando la discrepancia entre puntajes parciales y puntajes parciales esperados, no es mayor que +2 o -2. En el manual se encuentran las tablas que presentan los puntajes parciales esperados para cada puntaje total (Raven, 1987). 8.2. Evaluación de errores Una forma adicional de evaluación es la que toma en cuenta la cantidad de errores. Los errores indican las fallas en el razonamiento. La ejecución satisfactoria, de los problemas propuestos en esta prueba, exige la educción de tres correlatos: 148
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES (a) correlato numérico: cantidad de figuras, (b) correlato de figuras: forma de las figuras y (c) correlato lineal: disposición de las figuras (recta, oblicua curva). Al dar una solución errada, el sujeto puede estar omitiendo uno, dos o tres correlatos. Así, se distinguen tres tipos de errores: (1) finos (F) - educción de dos correlatos; (2) medios (M) - educción de un correlato y (3) grosero (G) - completa ausencia de educción. En el manual (Raven, 1987, p. 27), se presenta una tabla de graduación de errores para los 60 problemas. Para expresar cuantitativamente cada error, se acreditan a: errores groseros = 1 ½ puntos, errores medios = 1 punto y errores finos = ½ punto. Se suman los valores hallando así el puntaje de error (P.E.). Este puntaje es muy útil en la selección de clases de escolares y de cuadros militares para desempatar percentiles iguales. También es importante en diagnóstico diferencial, para detectar fallas y déficits en las funciones mentales (ídem). 9. NORMAS Las normas son expresas en percentiles. El manual ofrece varias tablas de normas (baremos) obtenidas con distintas muestras: de Argentina, Uruguay, España e Inglaterra. El número de sujetos varía de una muestra normativa a otra, así como la edad de éstos. Algunas normas fueron establecidas a partir de una aplicación individual, otras a partir de una aplicación colectiva. 10. CONFIABILIDAD Y VALIDEZ El coeficiente de estabilidad (test-retest) del Raven varía según la edad, entre .83 y .93. (Raven, 1987; Anstey, 1974). La validez de criterio ha sido comprobada comparando los resultados de un grupo de sujetos con la opinión de los 149
Kathia Maria Costa Neiva maestros acerca de su inteligencia y verificando el éxito o fracaso en el aprendizaje escolar de un grupo de alumnos en el año siguiente al de su medición. La validez estructural ha sido estudiada a través de análisis factoriales. Raven encontró una saturación g de .82 (Raven, 1987), aunque otros estudios han llegado a valores entre .75 y .79 (Anstey, 1974). El estudio realizado por Vernon en 1947 (citado por Anstey, 1974) ha detectado un factor específico del grupo visual perceptivo, factor espacial, y un residuo compuesto por otros factores específicos no identificados. Otro procedimiento, para el estudio de la validez estructural, obtuvo una correlación de .86 con el test de Terman - Binet. 11. COMENTARIOS Las principales ventajas del Test de Matrices Progresivas (Raven) son: (a) es una prueba no verbal, supuestamente independiente de factores culturales; (b) es de fácil administración y evaluación; (c) no requiere demasiado tiempo para ser contestado ni calificado y (d) la tarea motiva tanto a jóvenes cuanto a adultos mayores. Cuanto a las desventajas, Raven (1987) menciona las detectadas por M. Madruga en 1958. Algunas de ellas son: (a) validez deficiente, (b) no mide el factor g con pureza, (c) permite dar soluciones acertadas por otras vías distintas a la que se pretende medir (por ejemplo, su probabilidad de respuestas al azar el de 1/6 o 1/8 según el reactivo) y (d) presenta excesiva dificultad para personas de nivel intelectual mediocre. Anastasi (1978) comenta que estudios realizados en algunas culturas no europeas llevaron a dudar de la adecuación de esta prueba para grupos con ambientes muy diferentes. Además, en estos grupos se ha verificado que el test refleja una cierta educación y que está susceptible a la práctica.
150
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión). Madrid: Editorial Aguilar. Anstey, E. (1974). Test de dominós - manual. Buenos Aires: Editorial Paidós. Raven, J. C. (1987). Test de Matrices Progresivas. Buenos ' Aires: Paidós
151
CAPITULO XI TEST DE DOMINOS 1. ASPECTOS HISTÓRICOS El test de Dominós fue construido para la armada británica por el psicólogo inglés Edgar Anstey en 1944. Esta prueba fue ideada para servir como test paralelo del test de Matrices Progresivas de Raven y para superar algunos de sus inconvenientes (Anstey, 1974). La versión original, que constaba de 44 reactivos, ha quedado como un "closed test" con uso oficial o exclusivo. En 1955, Anstey publicó una nueva versión con carácter de "open test'', ligeramente diferente de la primera en su material. Esta, constaba de 48 reactivos de complejidad creciente, agrupados en ocho páginas según diferentes principios. Anstey confió esta nueva versión al investigador uruguayo W. L. Risso, de la Universidad del Trabajo del Uruguay, para estandarización. La prueba fue entonces tipificada, fueron elaboradas normas para el Uruguay, estudiada su validez y confíabilidad y preparado su manual (ídem). El test de Dominós ha tenido dos adaptaciones: la inglesa (Group Test 100) y la francesa (D48). La primera, realizada por el Instituto de Psicología Industrial de Londres, utiliza el test de Dominós dentro de una batería que incluye también pruebas verbales. La segunda, que alcanzó gran difusión, fue elaborada por P. Pichot y publicada por el Centre de Psychologie Appliquée de París. Esta adaptación difiere de la original sobre todo en la disposición de los reactivos. 153
Kathia Maria Costa Neiva Además de distribuir las fichas de Dominós en columnas, en estrella y en espiral, como el test de Anstey, las dispone también en elipse. El D48 fue estandarizado para sujetos de 12, a 39 años y proporciona normas para seis niveles culturales diferentes. En algunos países de América Latina también se realizaron estudios y adaptaciones del test (Anstey, 1974). 2. DESCRIPCIÓN DE LA PRUEBA El test de Dominós es una prueba no verbal de inteligencia, que no depende en un grado considerable del ambiente, de la educación o de la experiencia del individuo. Se basa en la teoría factorial de Spearman y busca por lo tanto medir el factor de inteligencia general g. Es un test de educción de leyes o principios de relaciones y de completamiento de series numéricas. Los principios que regulan las secuencias en las series son los siguientes: Simetría, Alternancia y progresión simple, Asimetría, Progresión circular, Progresión compleja, Combinación de principios previos, Adición y Sustracción. Es un test de figuras numéricas de puntos dispuestos en grupos según un patrón, las fichas de Dominós. Los estudios han demostrado que la experiencia previa con el juego de Dominós no interviene en el resultado del sujeto (ídem). El test es compuesto de 48 reactivos, impresos en ocho páginas, a razón de seis reactivos por página. Los reactivos, pertenecientes a un mismo principio, están dispuestos en orden de dificultad creciente. Sin embargo, el primer reactivo correspondiente a un nuevo principio, en general, es más fácil que el último reactivo correspondiente al principio anterior. 3. MATERIAL El material básico está constituido por: 1) un cuaderno de 154
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES prueba, donde vienen las instrucciones básicas, cuatro ejemplos y 48 reactivos; 2) una hoja de respuestas, 3) una clave matriz de corrección; 4) una carpeta de instrucciones y evaluación, donde se encuentran también las tablas de normas (baremos) y la tabla de diagnóstico y 5) el manual del autor. 4. POBLACIÓN CON LA QUE SE UTILIZA Esta prueba puede ser utilizada con sujetos de 12 años en adelante, aunque es posible aplicársela individualmente a partir de los 10 años. El autor de la prueba ha comprobado una cierta dificultad de ejecución cuando aplicó la prueba a sujetos de más de 65 años. El considera que puede aplicársela individualmente a enfermos mentales, sin embargo, en éste caso, la interpretación de los resultados debe basarse más en criterios cualitativos que cuantitativos (Anstey, 1974). 5. FORMA DE ADMINISTRACIÓN Esta prueba puede ser aplicada en forma individual y colectiva. 6. TIEMPO DE ADMINISTRACIÓN Para la realización de esta prueba se establece un tiempo límite de 30 minutos, con una tolerancia de 12 a 15 minutos adicionales. Aunque se limite el tiempo, no se considera ésta una prueba de velocidad sino de poder (power test), pues pretende medir solamente la habilidad de los sujetos y no su velocidad de trabajo. El autor de la prueba considera que el tiempo establecido es suficiente para que los sujetos tengan la oportunidad de intentar la resolución de todos los problemas. Los sujetos menos inteligentes nunca resolverán los problemas más difíciles aunque se les permita dedicar más tiempo a 155
Kathia Maria Costa Neiva ellos. En una aplicación colectiva, la reducción del grupo a 1/5 o 1/6 de su tamaño original puede señalar el tiempo límite para la finalización de la prueba (Anstey, 1974). 7. PROCEDIMIENTO DE ADMINISTRACIÓN El procedimiento se inicia llenando los datos personales del examinado en la hoja de respuestas. En seguida, con el cuaderno de pruebas abierto en la página preliminar, se explican las instrucciones, se discuten los ejemplos ya resueltos (A y B) y se le pide al examinado que conteste los ejemplos C y D. La tarea consiste en observar bien un grupo de Dominós y calcular cuantos puntos le corresponden a la ficha que está en blanco. El sujeto debe llenar, en el debido espacio de la hoja de respuestas, las cifras que corresponden a la ficha en blanco. Dentro de cada mitad de la ficha, los puntos pueden variar de 0 a 6. 8. PROCEDIMIENTO DE CALIFICACIÓN La clave matriz de corrección permite una calificación rápida y precisa. Se coloca la hoja de respuestas dentro de la clave matriz, que posee ventanillas por donde se pueden ver las respuestas. Se hace una marca visible sobre las respuestas correctas. Se adjudica un punto para cada respuesta totalmente correcta. Una respuesta totalmente correcta es la que se compone de las cifras exactas en cada una de las mitades de la ficha en blanco, estando las cifras ubicadas en la posición correcta. Se consideran soluciones erradas: (a) las inversiones de posiciones y (b) las respuestas que omiten el 0 (cero) y simplemente dejan en blanco la mitad de la ficha (Anstey, 1974). Con el puntaje total, se busca en la tabla de normas adecuada el percentil correspondiente. En seguida, se verifica el rango al cual corresponde el nivel intelectual del examinado. 156
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 8.1. Porcentaje de eficiencia Este índice permite verificar el sistema de trabajo del sujeto: aproximación cuidadosa a los problemas, sacrificio de la exactitud en beneficio de la rapidez, etc. La fórmula utilizada para calcularlo es (ídem): % eficiencia = C / T donde:
C= número de respuestas correctas T= número de respuestas que el sujeto ha intentado resolver, o sea, correctas más incorrectas.
9. NORMAS Las normas son expresadas en percentil. El manual ofrece tres tablas de normas: (a) un baremo inglés para la población general, (b) un baremo uruguayo: 1 2 - 3 0 años y población general, y (c) un baremo argentino provisorio: 1 2 - 1 7 años y población general. La estandarización que parece más consistente es la realizada en Montevideo, con 1736 sujetos de 12 a 30 años de edad, alumnos de escuelas industriales de la Universidad del Trabajo del Uruguay y del Instituto Crandon. Las normas argentinas fueron extraídas de una muestra de 583 estudiantes de 12 a 17 años (Anstey, 1974). 10. CONFIABILIDAD Y VALIDEZ Los estudios han encontrado que el coeficiente de confiabilidad (Kuder-Richardson) del test de Dominós tiende a crecer con la edad, variando de .85 a .91. Para la población general el es de .85 (ídem). La validez ha sido estudiada por el método de análisis 157
Kathia Maria Costa Neiva factorial. Dos estudios obtuvieron una saturación de g de .82 y un tercero de .90, lo que indica que el test es una buena medida de la capacidad intelectual general. Un factor específico de tipo numérico ha sido detectado en dos de estos estudios (ídem). Como la idea original es que el test de Dominós fuera una prueba paralela al de Raven, muchos estudios comparativos, entre las dos pruebas, fueron llevados a cabo. El coeficiente de correlación, entre las dos pruebas, obtenido por Anstey fue de .55, lo que llevó a pensar que en realidad los dos tests son complementarios, pero no paralelos. 11. COMENTARIOS El test de Dominós tiene las ventajas de un test no verbal, no dependiendo de factores culturales. Es también económico (su aplicación puede limitarse a 30 minutos), es confiable (sobre todo para edades más altas) y dificulta la respuesta al azar, pues la probabilidad de respuestas de este tipo es de 1/49. Con respecto a desventajas, se considera que las tablas de normas son muy limitadas en cuanto a los rangos de edad que utilizan, no existiendo normas de edad específicas para personas mayores de 30 años. Para éstas, se deben utilizar las normas de la población general. Otro aspecto importante, está en el hecho de poseer el test un factor numérico. Se puede suponer que éste pueda afectar los resultados de personas que poseen dificultades específicas en el área de razonamiento numérico, pero no en otras áreas intelectuales. Referencias bibliográficas Anstey, E. (1974). Test de Dominós - manual. Buenos Aires: Editorial Paidós. 158
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CAPITULO XII EL TEST DE GOODENOUGH 1. ASPECTOS HISTÓRICOS El Test del dibujo de un hombre de Goodenough fue publicado por primera vez en 1926. En castellano, su primera publicación fue realizada en 1951. Este test "ha sido muy empleado para examinar el nivel intelectual de los niños pequeños y para estudiar a aquellos niños que tienen disminuciones auditivas o en los que se sospecha la existencia de deficiencias neurológicas" (Harris, 1991, p. 17). Asimismo, ha sido utilizado para estudiar problemas de personalidad y adaptación, así como la delincuencia y otros defectos del carácter. La hipótesis básica de este test es que el dibujo que hace un niño de cualquier objeto, muestra las discriminaciones que él ha efectuado respecto al mismo, como un concepto. Así, su concepto de un objeto, como el ser humano, "resulta un índice útil para la creciente complejidad de sus conceptos en general" (ídem, p.23). El 1963 fue publicada la versión revisada, ampliada y actualizada del test, por Dale B. Harris. Esta revisión tuvo por objetivo: (1) extender la escala a los años de adolescencia y (2) desarrollar una forma alternativa de la escala de la figura del hombre, la escala de la figura de la mujer. Se hicieron algunos otros cambios como: (a) se incluyó el dibujo de sí mismo con el objetivo de facilitar un mejor estudio del autoconcepto, del afecto y del interés, (b) se hizo la estandarización de las escalas de puntos para la figura del 159
Kathia Maria Costa Neiva hombre y de la mujer y (c) se desarrollaron escalas cualitativas para una rápida aproximación a la puntuación. Para la revisión del test se reexaminó la bibliografía empírica y teórica, llegando a la conclusión de que esta prueba evalúa la madurez intelectual o conceptual de niños entre cuatro y catorce años, teniendo mucho menos valor como instrumento proyectivo para estudiar la personalidad y el área afectiva. 2. DESCRIPCIÓN DE LA PRUEBA Esta prueba tiene como tarea el diseño de la figura humana. Según Harris (1991), Goodenough tomó en cuenta los siguientes aspectos al elegir el tema del dibujo: (a) un tema con el cual todos los niños estuvieran familiarizados por igual, (b) un tema que presentara la menor variabilidad posible en sus características esenciales, (c) un tema sencillo que permitiera que aun los niños pequeños pudiesen hacerlo, pero al mismo tiempo suficientemente complejo para poner a prueba las capacidades de un joven o de un adulto y (d) un tema de interés universal y que motivara a todos. Basado en estos criterios, él seleccionó la figura humana, tema relativamente común en dibujos espontáneos de niños. En la versión original, el dibujo solicitado era el de un hombre. La elección del dibujo de un hombre se debe al hecho de considerar la vestimenta masculina más uniforme. En esta primera versión, el dibujo del hombre era evaluado según una escala de cuarenta ítems. El análisis de una muestra de dibujos de niños de diferentes edades y niveles escolares, permitió discernir los cambios que se producen en los dibujos infantiles con el aumento de la edad y el desarrollo intelectual. Cada ítem fue escogido de manera empírica, pudiendo basarse "en la presencia o en la ausencia de un determinado elemento, en el método de representación de una relación dada, especial o cuantitativa, o en la coordinación ojo-mano" (Harris, 1991, p. 83). Se hicieron 5 revisiones de la escala original, donde se reevaluaron los ítems y se añadieron otros. 160
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES La versión actual (test de la figura humana de GoodenoughHarris), incluye tres dibujos —la figura de un hombre, la figura de una mujer y el dibujo de sí mismo— que deben ser realizados en este orden. En cada una de ellas se analizan determinados ítems, que fueron elegidos según criterios determinados y validados a través de investigaciones. 3. MATERIAL Se requiere para la aplicación de esta prueba el cuadernillo del test (protocolo) y un lápiz número 2 o 2H (no debe utilizarse crayones). Para la calificación se necesita el manual de la prueba. 4. POBLACIÓN CON LA QUE SE UTILIZA Esta prueba puede ser utilizada con sujetos entre 3 y 15 años de edad. 5. FORMA DE ADMINISTRACIÓN El test del dibujo de la figura humana de Goodenough-Harris puede ser administrado en forma individual o colectiva, utilizándoos mismas instrucciones. Los preescolares y los niños bajo estudio clínico deben ser examinados individualmente. 6. TIEMPO DE ADMINISTRACIÓN No hay límite de tiempo para la realización del test. Los niños pequeños, en general, no tardan más de 10 o 15 minutos para hacer los tres dibujos. 7. PROCEDIMIENTO DE ADMINISTRACIÓN El primer paso de la aplicación es llenar los datos personales 161
Kathia Maria Costa Neiva solicitados en el protocolo, que puede ser realizado por el propio niño, a menos que él aun no sepa escribir. En seguida, el protocolo debe ser doblado, de manera que solamente la hoja que corresponde al primer dibujo —figura de un hombre— se quede a la vista. Realizado este dibujo, se pasa a la hoja siguiente, la de la figura de la mujer. Finalmente, se pasa a la hoja final, la del dibujo de sí mismo. A los niños, menores de ocho o nueve años, se recomienda dar un breve descanso entre el segundo y tercer dibujos. En los grupos de niños mayores (quinto o sexto grado), puede ser necesario incentivar a los niños renuentes a emprender la tarea. El autor advierte para algunas situaciones especiales que pueden ocurrir en la aplicación del test, como el niño puede dibujar solamente un busto o arruinar el dibujo y querer reempezarlo. En ambos casos, el examinador debe dar un nuevo protocolo, pero guardar ambos dibujos para una comparación posterior. 8. PROCEDIMIENTO DE CALIFICACIÓN Mientras la aplicación es muy sencilla, la calificación requiere estudio, paciencia y el seguimiento de las instrucciones al pie de la letra. Cada una de las tres figuras es evaluada en una escala de puntos, que corresponde a un número determinado de ítems: Figura del hombre -73 ítems, Figura de la mujer -71 ítems y Dibujo de sí mismo -73 ítems. En el manual vienen las instrucciones detalladas para la evaluación de los distintos ítems; algunos de ellos requieren un juicio más subjetivo del examinador. Algunos ejemplos de ítems analizados: presencia de cabeza, presencia de cuello, puente de la nariz, nariz y labios en dos dimensiones, representación del número correcto de dedos, proporción de los brazos, proporción de las piernas, vestimenta, coordinación motriz (líneas), etcétera (Harris, 1991) 162
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Cada ítem, de cada figura, es evaluado como aprobado o reprobado. A cada ítem aprobado se asigna un punto, no existiendo medios puntos. El total de estos puntos corresponde al puntaje bruto de la figura, el cual se convierte en puntaje estándar mediante las tablas presentadas en el manual. Para esta conversión se toman en cuenta el sexo y la edad del sujeto. Para cada figura se halla un puntaje estándar. Puede obtenerse una medida promedio de los dibujos de un hombre y de una mujer sumando los puntajes estándar y dividiendo el resultado entre dos. El puntaje estándar promedio representa una estimación combinada de la madurez intelectual del niño. El dibujo de sí mismo puede ser evaluado mediante la escala de puntos del sexo correspondiente. Sin embargo, el autorretrato no ha sido estandarizado y por lo tanto, debe ser considerado sólo como una medida tentativa de la madurez intelectual (Harris, 1991). Finalmente cada puntaje estándar es convertido en rango percentil, a través de la tabla de conversión adecuada, también disponible en el manual. En el protocolo, al lado de cada dibujo, hay espacios para registrar el puntaje. Se recomienda apuntar un " + " para cada ítem aprobado y un "cero" para cada ítem reprobado para facilitar el control de la calificación. Hay también un espacio para registrar el puntaje bruto de cada figura. En la primera hoja hay un cuadro resumen donde deben apuntarse los puntajes brutos, los puntajes estándar y los rangos percentiles de los tres dibujos, además del puntaje estándar promediado. Para los dibujos de la figura del hombre y de la figura de la mujer se puede también realizar una evaluación cualitativa. Las escalas cualitativas permiten una evaluación mucho más rápida de los dibujos que la escala de puntos. Mientras tanto, sus resultados no son tan exactos, proporcionando solamente una estimación aproximada de la 163
Kathia Maria Costa Neiva madurez intelectual del niño. Para esta evaluación, debe utilizarse una muestra de 12 dibujos (disponibles en el manual) clasificados según el nivel de madurez del " 1 "(menos maduro) al "12" (más maduro). El examinador debe comparar el dibujo que evalúa con los dibujos de la muestra y decidir con cual se parece más. Atribuirá al dibujo que evalúa el puntaje correspondiente al dibujo de la muestra que es más similar. Este valor debe ser registrado en el espacio correspondiente del cuadro resumen del protocolo, según sea la figura de un hombre o de una mujer. No fue elaborada ninguna escala cualitativa para el dibujo de sí mismo y el autor no cree conveniente utilizar las muestras de las figuras de un hombre o de una mujer para evaluarlo. Los valores obtenidos en la escala cualitativa son convertidos a puntaje estándar mediante tablas disponibles en el manual. En esta conversión también son tomadas en cuenta la edad y el sexo del sujeto. Este puntaje estándar es comparable al obtenido a través de la escala de puntos y por consiguiente puede ser convertido en rango percentil mediante la misma tabla. Harris (1991) propone aun, en forma experimental, una guía para el análisis del dibujo de sí mismo. Esta guía tiene como objetivo detectar rasgos especiales de la personalidad: intereses, actitudes, preocupaciones, etc. Consta de una sucesión de preguntas, que van de generales a específicas. 9. NORMAS Las normas de esta prueba son presentadas en puntaje estándar con una media de 100 y una desviación de 15 (CI de Goodenough) y en percentil. En las tablas de puntaje estándar se toman en cuenta el sexo y la edad del sujeto. La estandarización y las normas de la escala revisada están basadas en 2,975 niños, representativos de la distribución 164
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
ocupacional de los Estados Unidos en 1950, pertenecientes a cuatro áreas geográficas. Se incluyeron 75 niños de cada nivel de edad provenientes de cada una de estas áreas. La edad de los niños varió de los 5 a los 15 años y éstos fueron distribuidos de tal manera "que la muestra se centrara alrededor de los seis meses, con un número aproximadamente igual de niños escogidos por cada mes dentro de ese intervalo de edad" (Harris, 1991, p. 113). Se buscó que la cantidad de varones y niñas en cada estrato ocupacional fueran siempre igual. 10. CONFIABILIDAD Y VALIDEZ El primer paso para validar la escala revisada consistió en la validación de los ítems tomados en cuenta en la escala de puntos. Se utilizó una muestra de 100 niños (50 varones y 50 niñas) con edades entre: 5 años y 9 meses y 6 años 8 meses, 6 años 9 meses y 7 años 8 meses, y así sucesivamente. Los niños tenían como edad media, al momento de la realización de la prueba, 6 años 3 meses, 7 años 3 meses, etc. Las muestras de cada edad representaban la distribución de ocupaciones paternas en los E.U.A. Los ítems fueron seleccionados según los siguientes criterios: 1) acusar un incremento regular y bastante rápido en los niños que aprueban el ítem, 2) mostrar una relación con alguna medida general de inteligencia, 3) diferenciar entre los niños que obtenían un puntaje total alto en la escala y aquellos que obtenían un puntaje total bajo. Para el dibujo del hombre se ensayaron 100 ítems y se seleccionaron 73; para el dibujo de la mujer se ensayaron 90 de los cuales se mantuvieron 71. En estos ítems "se incluyeron algunos que son inoperantes en la niñez pero tienen cierta incidencia en la pubertad" (Harris, 1991, p. 89). Utilizando la misma muestra, fueron seleccionados y 165
Kathia Maria Costa Neiva validados los dibujos que componen la escala cualitativa. Se eligieron, de cada grupo de edad, 20 dibujos, 10 de varones y 10 de niñas de acuerdo con una tabla de números al azar. Estos dibujos fueron dispuestos en un orden fortuito y así presentados a doce examinadores. Estos, debían clasificar los dibujos en una escala del " 1 " al "11", el " 1 " correspondiendo a una menor excelencia y el "11" a una mayor excelencia. Se incluyeron también otras dos categorías para los dibujos que se apartaban suficientemente de los demás, sea por una extraordinaria inferioridad (0) o por una extraordinaria superioridad (12). La escala cualitativa final fue constituida por 23 dibujos, dispuestos en una escala de 23 puntos de intervalo, que pueden también ser utilizados como una escala de 12 puntos, si se emplean los valores alternos (Harris, 1991). La confiabilidad de la escala de puntos fue estudiada mediante la concordancia en la evaluación de distintos examinadores y la coherencia en el rendimiento del niño en la tarea del dibujo, según la evaluación de la escala. La correlación entre los puntajes totales obtenidos por distintos examinadores varió entre .80 y .96. Las correlaciones entre los puntajes de dibujos infantiles separados por un intervalo de hasta tres meses variaron entre .60 y .70. Uno de los estudios considerados más consistentes por Harris, fue realizado por McCarthy con 386 niños de tercero y cuarto grado, siendo la prueba aplicada dos veces con un intervalo de una semana. La confiabilidad por el método de división por mitades fue de .89, por el método de test-retest fue de .68. (ídem). En el estudio de la confiabilidad de la escala cualitativa fueron obtenidas correlaciones, entre los puntajes asignados por tres examinadores, de .86 a .92 para el dibujo de un hombre y de .74 a .88 para el dibujo de una mujer. Las correlaciones entre los puntajes obtenidos en la escala de 166
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES puntos y en la escala cualitativa variaron, según la edad, entre .72 y .94 para la figura de un hombre y entre .73 y .89 para la figura de una mujer (ídem). La validez de esta prueba fue evaluada mediante dos procedimientos: 1) estudiando los efectos que determinadas experiencias o aprendizajes ejercen sobre el rendimiento en el dibujo, 2) correlacionando estadísticamente la escala con otras medidas de inteligencia. En el primer caso se estudió el efecto del examinador, de la enseñanza artística, de ciertos tipos de instrucción formal, etc. Se observó, en general, que la influencia del examinador y de la enseñanza artística es insignificante (Anastasi, 1978, Harris, 1991). En el segundo, se correlacionó la prueba con varias medidas de inteligencia: Test de habilidades mentales primarias, Test de StanfordBinet, WISC, WAIS y otros. Las investigaciones fueron llevadas a cabo con distintas muestras y los resultados han proporcionado coeficientes de correlación muy variados, a veces altos, a veces bajos. Por ejemplo,' 'con niños pequeños, el puntaje del Test de Goodenough se asocia de modo notable con la madurez intelectual tal como la evalúa el Test de Stanford-Binet o el WISC" (Harris, 1991, p. 109). Ya la correlación obtenida con el Raven, en alumnos de jardín de infantes fue muy baja (.22). El manual presenta un cuadro de las correlaciones obtenidas en distintas investigaciones entre los puntajes en el Test de Goodenough y los puntajes en otros tests de inteligencia. Se estudió también la correlación entre la escala original y la escala revisada obteniéndose coeficientes altos que variaron, según la edad, entre .91 y .98 (Anastasi, 1978, Harris, 1991). La correlación entre la escala del hombre y la de la mujer también es bastante elevada, variando de .71 a .79, según la edad (Harris, 1991).
167
Kathia Maria Costa Neiva 11. COMENTARIOS Este test es de muy fácil aplicación, motiva en general a los niños y por ello viene siendo aplicado ampliamente en la clínica. Sin embargo, hay que estar atento a algunas limitaciones de la prueba: • Aunque originalmente esta prueba ha sido considerada como independiente del ambiente cultural, las investigaciones han demostrado que esta idea no es muy verdadera (Anastasi, 1974). La figura femenina parece más vinculada con la cultura, menos estereotipada y menos susceptible a la interpretación individual (Harris, 1991). • La prueba no discrimina bien la madurez intelectual de niños a partir de los doce años; los puntajes dejan de mostrar un aumento con la edad, a partir de la pubertad. Goodenough y otros investigadores llegaron a la conclusión de que este test es más apropiado para los niños pequeños (Harris, 1991). • Las niñas de las culturas occidentales se desempeñan mejor que los niños en la prueba. La diferencia es más acentuada en la escala de la figura de la mujer, que en la de la figura de un hombre (ídem). • El dibujo de sí mismo parece más útil para el estudio de los factores psicológicos no intelectuales (ídem). • Las escalas cuantitativas ofrecen mayor precisión en la evaluación, que las escalas cualitativas. Estas últimas no son medidas tan sensibles, especialmente después de los ocho o nueve años, y aumentan las diferencias entre los sexos observadas en las escalas cuantitativas. Sin embargo, las escalas cualitativas, además de más fáciles y más rápidas, "proporcionan una impresión total o global del desarrollo de la conducta en el dibujo reflejada gráficamente en la figura humana, que las tablas de porcentajes correspondientes a los ítems de las escalas de puntos no ofrecen" (Harris, 1991, p. 127). Por lo tanto, cada método de evaluación proporciona diferentes ventajas y desventajas. 168
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
• El manual de la prueba presenta solamente normas estandarizadas para la población americana. Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión). Madrid: Editorial Aguilar. Harris, D.B. (1991). El Test de Goodenough-Revisión, Ampliación y Actualización (2a ed., 3a reimpresión). México D.F.: Ediciones Paidós.
169
TERCERA PARTE APTITUDES
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CAPITULO XIII LAS APTITUDES A. LA DEFINICIÓN DE APTITUD La definición del término "aptitud''' proporcionada por el Diccionario de Psicología de Warren (1934, en Bennett, Seashore y Wesman, 1990) dice: Condición o conjunto de características consideradas sintomáticas de la capacidad de un individuo de adquirir mediante entrenamiento algún conocimiento, técnica o conjunto de respuestas (generalmente especificadas) como la habilidad para hablar un idioma, producir música., .(p. 1)
Esta definición indica que las aptitudes son producto de una interacción entre la herencia y el ambiente y que pueden ser desarrolladas. Brown (1980) diferencia los términos habilidad y aptitud, señalando que la habilidad indica "el poder para realizar una tarea" y la aptitud "el poder para aprender a realizar una tarea" (p.282). El primer término se refiere a un estado actual y el segundo a un estado futuro. En el término aptitud se incluye la idea de previsión, de probabilidad de que se adquieran o aprendan conductas. Desde 1928, con la publicación del libro de Kelley, Crossroads in the Mind of Man, ya se observaba la preocupación por investigar los diferentes factores que componen la inteligencia. El modelo multifactorial, defendido sobre todo por Thurstone, profundizó esta idea. A partir de varias investigaciones, él propuso 12 factores grupales a los cuales denominó de capacidades mentales primarias. De éstos, los que más se confirmaron en los estudios subsecuentes fueron: 173
Kathia Maria Costa Neiva (1) Comprensión verbal, (2) Fluencia verbal, (3) Número, (4) Espacio, (5) Memoria Asociativa, (6) Rapidez Perceptual y (7) Inducción (o Razonamiento general) (Anastasi, 1978). Posteriormente, Guilford (1956, 1967, 1970) propuso un modelo para la estructura intelectual, donde llegó a calcular la existencia de 120 habilidades. Antes de que fueran construidas baterías de aptitudes múltiples, se hicieron tentativas de comparar la posición relativa de un individuo en diferentes subtests o grupo de reactivos de pruebas de inteligencia. Como estas pruebas no fueron desarrolladas con este objetivo, generalmente, los subtests no permitían una comparación intraindividual adecuada. El desarrollo de baterías de aptitud múltiple fue estimulado por las limitaciones de las pruebas de inteligencia que, en general, se concentraban en la medida de la capacidad verbal, no proporcionando medidas de otras capacidades (abstracta, mecánica, etc.). Además, la creciente actividad de los psicólogos en las áreas de selección y clasificación de personal y de orientación vocacional llevaron a la necesidad de disponer de instrumentos más específicos que facilitaran estas tareas. Pero, fue sobre todo el desarrollo del método estadístico del análisis factorial que impulsó la investigación en esta área y permitió el desarrollo de los primeros instrumentos de medida de las aptitudes. B. LA MEDICIÓN DE APTITUDES Hay pruebas de aptitudes construidas para medir aptitudes específicas o especiales que pueden ser de tipo cognoscitivo (habilidad para matemáticas, creatividad), de tipo vocacional (velocidad y precisión perceptual, destreza manual) y de tipo musical o artístico. Existen también las baterías de pruebas de aptitudes 174
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES múltiples, que se componen de una serie de pruebas de aptitudes específicas. La construcción de estas baterías presupone que: (a) la batería debe contener tantas pruebas cuanto el número de aptitudes que se quiera medir, (b) cada prueba debe medir solamente una aptitud y (c) debe utilizarse la misma muestra normativa para todas las pruebas para que se pueda hacer comparaciones intra e interindividuales adecuadas. Otro problema está en la utilización del método apropiado para combinar las calificaciones de las pruebas. Se sugiere el método de regresión múltiple para determinar el peso óptimo de cada factor (Brown, 1980). En los próximos capítulos serán presentadas las informaciones básicas sobre algunas baterías de aptitudes múltiples ampliamente utilizadas, principalmente en las áreas
Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3 a ed.,4 a reimpresión). Madrid: Editorial Aguilar. Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990/ Pruebas de Aptitud Diferencial-(DAT) Manual del Instructor, México D.F. : Ed. El Manual Moderno. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Guilforf, J.P. (1956). The structure of intellect. Psychological Bulletin, 53, 267-293. , J.P. (1967). The nature of human intelligence. Nueva York: McGraw Hill. , J.P. (1970). Creativity: Retrospect and Prospect. Journal of Creative Behavior, 4(3), 175
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CAPITULO XIV PRUEBAS DE APTITUD DIFERENCIAL (DAT) 1. ASPECTOS HISTÓRICOS Las Pruebas de Aptitud Diferencial (DAT), desarrolladas en Estados Unidos por G. Bennett, H. Seashore y A. Wesman, fueron publicadas en sus formas originales (A y B) en 1947. Fueron diseñadas para atender a la demanda de los orientadores educacionales y vocacionales, que necesitaban de un instrumento que permitiera medir rigurosamente las aptitudes múltiples de los alumnos de secundaria y preparatoria. (Bennett, Seashore y Wesman, 1990). Estas pruebas fueron revisadas y reestandarizadas en 1962 (Formas L y M), en 1972 (Formas S y T), en 1980 (Formas V y W) y en 1990 (Formas C y D). En la primera revisión, el objetivo principal fue facilitar la administración y calificación de las pruebas y para tal se cambió el formato y extensión de las mismas. En la segunda, se conservaron los cambios anteriores y se actualizaron algunas pruebas. La tercera, tuvo como meta principal elaborar reactivos con el mismo nivel de dificultad para varones y mujeres. Se hicieron también cambios en las instrucciones para volverlas más comprensibles (ídem). La última revisión (5a edición) incluye reactivos nuevos y utiliza dos formas paralelas (C y D) para dos niveles diferentes (Nivel 1 y Nivel 2), aumentando así su utilidad y confiabilidad. 177
Kathia Maria Costa Neiva En México, fue publicada en 1990 la versión en español del DAT basada en la revisión de 1980 (Bennett y cols., 1990). En esta versión no se incluyeron las pruebas de Razonamiento Verbal, Ortografía y Uso del lenguaje. En 1994, surgió la Prueba Diferencial de Aptitudes PROUNAM, basada en la quinta versión del DAT (DAT 1990), desarrollada mediante la colaboración de la Universidad Nacional Autónoma de México, el Instituto de Evaluación en Gran Escala y The Psychological Corporation (Universidad Nacional Autónoma de México [UNAM], 1994a). Esta prueba está compuesta de las ocho subpruebas del DAT, siendo que tres de ellas fueron elaboradas totalmente en México (Razonamiento Verbal, Uso del Lenguaje y Ortografía). La elaboración de las dos primeras siguió los principios establecidos en la prueba original, aunque en el caso de la prueba Uso del Lenguaje se utilizaron las reglas del Idioma Español. Sin embargo " l a prueba de Ortografía fue diseñada en su totalidad para el 'PROUNAM' siguiendo modelos escolares utilizados en México para este tipo de evaluación" (Universidad Nacional Autónoma de México [UNAM], 1994b, p.5), en sustitución de la prueba original de "Spelling" que no era aplicable a México. Aunque la pruebas de la batería DAT son independientes, éstas fueron desarrolladas y reestandarizadas como una batería integrada, la estandarización de las distintas pruebas fue realizada con una misma muestra. Como el rango de niveles es el mismo para todas las pruebas de la batería, se pueden hacer comparaciones intra e interindividuales consistentes. Por ejemplo, si un estudiante obtiene un percentil 50 en tres pruebas de la batería, estamos seguros que la clasificación "promedio" tiene el mismo significado para tal estudiante en las tres áreas de habilidades. 178
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 2. DESCRIPCIÓN DE LA PRUEBA Las pruebas de la batería DAT "fueron diseñadas para valorar habilidades intelectuales fundamentales y evitar en la medida del posible que éstas dependan del aprendizaje de materias escolares especificas'' (Bennett y cols., 1990, p. 2). Las habilidades medidas en éstas son consideradas importantes en varias situaciones educativas y profesionales. La batería DAT se compone de 8 pruebas: Razonamiento Verbal, Habilidad Numérica, Razonamiento Abstracto, Velocidad y Exactitud Secretariates, Razonamiento Mecánico, Relaciones Espaciales, Uso del Lenguaje y Ortografía. La versión en español, publicada en 1990 (forma V y W), incluye sólo cinco de éstas (Habilidad Numérica, Razonamiento Abstracto, Velocidad y Exactitud Secretariales, Razonamiento Mecánico y Relaciones Espaciales), mientras que en el PROUNAM están incluidas todas las ocho pruebas. Es importante señalar que en el PROUNAM la prueba de Velocidad y Exactitud Secretariales se denomina Velocidad y Precisión Perceptual. Aunque cada prueba mide una habilidad específica, el agrupamiento de algunas de ellas puede proporcionar información adicional, como veremos más adelante. A continuación se describen las diversas pruebas. • Razonamiento Verbal Esta prueba tiene como objetivo medir " l a habilidad para comprender conceptos encerrados en palabras,...para pensar constructivamente, para encontrar la identificación entre conceptos aparentemente diferentes y para manejar las ideas en un nivel abstracto"(Bennett y cols., 1990, p.3). Sus reactivos son planteados como una doble analogía en que el primero y último términos están ausentes y deben ser seleccionados de entre cinco pares de palabras. Los contenidos 179
Kathia Maria Costa Neiva de los reactivos son relativamente familiares y cubren distintas áreas: historia, geografía, literatura, ciencia, etc. El vocabulario es generalmente simple. Esta prueba busca predecir el éxito en áreas que requieren " l a comprensión de relaciones verbales complejas y la destreza para manejar conceptos verbales" (ídem, p.3). Se puede decir que la prueba indica la posibilidad del estudiante para seguir estudios universitarios y pronostica, en cierta medida, el éxito académico en la mayoría de los campos. Algunas áreas específicas que requieren de esta habilidad son: comunicaciones, periodismo, traducción, producción editorial, literatura, filosofía, psicología, pedagogía, derecho, corrección de pruebas tipográficas, ventas, etc. • Habilidad Numérica Esta prueba mide la comprensión de relaciones numéricas y el manejo de los conceptos y relaciones numéricas. Sus reactivos son básicamente problemas de "cálculo numérico", que requieren el manejo de una gran variedad de conceptos matemáticos. Esta prueba busca predecir el éxito en los campos donde se hace necesario el pensamiento cuantitativo como: matemática, física, química, estadística, ingeniería, contaduría, actuada, economía, arquitectura, computación...y en trabajos especializados del tipo: carpintería, fabricación de herramientas, etc. • Razonamiento Abstracto Esta prueba provee una medida no verbal de la habilidad de razonamiento caracterizada por la percepción de relaciones entre patrones abstractos. Su medida indica la capacidad de reflexión del sujeto. Cada reactivo requiere el reconocimiento del principio o principios operantes en una serie de diagramas y la identificación del diagrama que sigue lógicamente en la 180
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES serie. En la selección de los diseños, se buscó utilizar diseños grandes y claros que mostraran diferencias obvias entre los sucesivos diagramas. Esta prueba predice el éxito en actividades que requieren de la percepción entre cosas, más que entre números o palabras. Esta, "complementa los aspectos de inteligencia general de las pruebas de Razonamiento Verbal y Habilidad Numérica" (Bennett y cols., 1990, p.4). Sin embargo, no puede sustituir ni ser sustituida por la prueba de Razonamiento Verbal, aunque en los casos de deficiencia de lenguaje pueda ser útil para la comprobación de las puntuaciones de Razonamiento Verbal. Esta aptitud es necesaria para el estudio de las carreras profesionales, especialmente para carreras como: computación, ingeniería, matemáticas, arquitectura, ciencias químicobiológicas, etc. • Velocidad y Exactitud Secretariates El objetivo de esta prueba es medir la' 'velocidad de percepción, la retención momentánea, y la velocidad y exactitud de la respuesta" (Bennett y cols., 1990, p.4) en una tarea perceptual simple. La tarea es seleccionar, de entre un grupo de combinaciones de números y letras, aquella que está subrayada, retenerla, e identificarla en un segundo grupo de combinaciones similares. La habilidad exigida en esta prueba es necesaria para tareas administrativas como: archivar, clasificar, codificar, catalogar, perforar tarjetas, tareas de almacenaje, etc. Se requiere también de esta aptitud para realizar actividades que involucren información científica y técnica y para aquellas que exijan memoria inmediata y la habilidad para trabajar rápido y sin errores. Aunque esta habilidad no es muy importante para los 181
Kathia Maria Costa Neiva objetivos educativos, un estudiante cuya puntuación es baja puede tener dificultades en cumplir algunas exigencias escolares de organización, velocidad y precisión. Si la puntuación baja es obtenida por un estudiante cuyas habilidades son en general superiores puede indicar una precisión exagerada, más que una falta de velocidad. • Razonamiento Mecánico En esta prueba cada reactivo presenta, en imágenes, una situación mecánica acompañada de una pregunta sencilla cuya respuesta debe ser seleccionada de una serie de respuestas de opción múltiple. Se considera que "la puntuación está afectada por la experiencia previa del sujeto, pero no a tal grado que cause dificultades para su interpretación" (Bennett y cols., 1990, p.4). Una alta puntuación indica una facilidad para aprender los principios de operación y reparación de instrumentos o mecanismos relativamente complejos. La prueba pronostica el éxito en las áreas que requieren la comprensión de los principios de las fuerzas físicas. Algunas ocupaciones como carpintero, mecánico, encargado de mantenimiento, ensamblador y muchas otras tareas de fábricas y oficinas requieren el tipo de habilidad que mide esta prueba. Además, esta habilidad es necesaria para campos como: ingeniería, física, computación, medicina, odontología, etc. • Relaciones Espaciales Esta prueba tiene como objetivo medir la habilidad para manejar objetos concretos a través de su visualización en un espacio tridimensional. Cada reactivo requiere el examen de un patrón que al doblarse forma una figura y la identificación de ésta. Los patrones son en general amplios y claros. Esta habilidad es necesaria en campos como: arquitectura, diseño 182
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES gráfico, diseño industrial, diseño de modas, diseño textil, artes, decoración, odontología, medicina...y en trabajos especializados del tipo: carpintería, fabricación de herramientas, etc. • Uso del Lenguaje Esta prueba evalúa la capacidad para expresarse correctamente en forma verbal o escrita según las reglas y características del idioma. Cada reactivo es compuesto de una oración que puede contener o no errores (gramaticales, de puntuación, de uso de mayúsculas y minúsculas). La tarea es identificar la parte incorrecta de la oración o bien si la misma está correcta. Esta es una aptitud necesaria a todas las actividades académicas y muy importante en áreas como: literatura, periodismo, comunicación, leyes, pedagogía, traducción, docencia, investigación, etc. • Ortografía Esta prueba mide la capacidad para identificar y reconocer errores ortográficos dentro de una oración. Cada reactivo requiere identificar, entre las respuestas posibles, la palabra que complete correctamente la oración. Esta habilidad es importante para cualquier área académica, sobre todo aquellas que requieren de la elaboración y revisión de textos, reportes y manuscritos. • Aptitud Académica (Razonamiento Verbal y Habilidad Numérica) Los aspectos del funcionamiento cognoscitivo derivados de las pruebas Razonamiento Verbal y Habilidad Numérica son semejantes a los proporcionados por la mayoría de las pruebas de aptitud académica. Al combinarse las puntuaciones de 183
Kathia Maria Costa Neiva estas dos pruebas se obtiene una evaluación de la habilidad general del sujeto o sea de su aptitud académica. Esta medida es útil para pronosticar el éxito académico en general, e identificar los sujetos que deberían continuar su educación más allá de la preparatoria. 3. MATERIAL El material básico de la forma V y W (Bennett y cols., 1990) se compone de: a) folleto de aplicación para cada una de las pruebas, b) hojas de respuestas, c) plantillas de calificación, d) forma de reporte individual, donde son presentados los resultados y la gráfica derivada de los mismos, e) manual. Para su aplicación se necesitan dos lápices con goma y un cronómetro. El material básico del PROUNAM (UNAM, 1994b) incluye, entre otros: a) cuadernillo de prueba (cinco formas diferentes) con los reactivos para las ocho pruebas y las respectivas instrucciones, b) cuadernillo de respuestas con espacios específicos para contestar cada una de las ocho pruebas y diseñado para ser calificado en forma automatizada (lectora óptica), c) hoja de respuestas para la parte I de la prueba de Velocidad y Precisión Perceptual, d) manual del aplicador, e) manual del orientador y f) hoja de interpretación de resultados del alumno. Además, se necesitan dos lápices con goma, un cronómetro y hojas de papel en blanco, tamaño carta, para las operaciones de la prueba de Razonamiento Numérico. 4. POBLACIÓN CON LA QUE SE UTILIZA Las formas V y W fueron construidas para ser utilizadas con adolescentes entre segundo de secundaria y tercero de preparatoria. Sin embargo, pueden también ser aplicadas a adultos. Las pruebas que componen el PROUNAM fueron diseñadas para el nivel de 2o año de preparatoria. 184
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 5. FORMA DE ADMINISTRACIÓN Las pruebas de la batería DAT pueden ser administradas individualmente o en forma colectiva. Cuando la aplicación es colectiva se requiere generalmente un examinador para cada grupo de 30 estudiantes. 6. TIEMPO DE ADMINISTRACIÓN Cada prueba tiene un tiempo máximo para su ejecución. Los límites de tiempo de las pruebas incluidas en la versión mexicana del DAT (forma V) y de aquellas incluidas en el PROUNAM son presentados en la tabla 14.1. T A B L A 14.1 LIMITE DE TIEMPO DE LAS PRUEBAS PRUEBA FORMA V PROUNAM Razonamiento Verbal 30 minutos Habilidad Numérica
30 minutos
35 minutos
Razonamiento Abstracto
20 minutos
20 minutos Partel - 3 minutos Parte II -3 minutos
Velocidad y Exactitud Secretariates Parte I- 3 minutos (Velocidad y Precisión Perceptual) Parte II-3 minutos Razonamiento Mecánico
30 minutos
25 minutos
Relaciones Espaciales Ortografía Uso del Lenguaje
25 minutos
25 minutos 10 minutos 20 minutos
La administración de las pruebas de la forma V y W debe ser realizada con un intervalo de tiempo relativamente corto entre una y otra, de preferencia en un período máximo de una o dos semanas. La aplicación puede ser realizada en dos, tres o cinco sesiones. En el manual son sugeridas distintas programaciones para la aplicación (Bennett y cois., 1990). Las pruebas que componen el PROUNAM son aplicadas en una misma sesión de aproximadamente 3 horas 45 minutos; la secuencia de aplicación de las pruebas debe ser estrictamente respetada (UNAM, 1994b) 185
Kathia Maria Costa Neiva 7. PROCEDIMIENTO DE ADMINISTRACIÓN La administración de las pruebas de la batería DAT (Forma V y W) es relativamente sencilla. Primero, se distribuye la hoja de respuestas donde el sujeto debe llenar los datos personales y en seguida, el folleto de prueba. En el folleto de cada prueba vienen las instrucciones acompañadas de ejemplos, así como el tiempo de duración máximo de la prueba. Las instrucciones deben ser leídas en voz alta por el examinador mientras que el examinado las lee en voz baja en su folleto. Antes de empezar deben sacarse las dudas que se presenten, siempre siguiendo las instrucciones. Se le debe explicar al examinado el propósito de las pruebas y advertirle que no se desanime cuando alguna pregunta le parezca muy difícil. La administración de las pruebas PROUNAM se inicia también llenando los datos sociodemográficos incluidos en el cuadernillo de respuestas. Las instrucciones específicas de cada prueba, así como los ejemplos, vienen en el cuadernillo de prueba. El procedimiento de aplicación es similar al mencionado con respecto a las formas V y W; los detalles de este procedimiento vienen en el manual del aplicador (UNAM, 1994b). 8. PROCEDIMIENTO DE CALIFICACIÓN 8.1. Las pruebas de las formas V y W Para calificar las pruebas de las formas V y W se utilizan plantillas de calificación. Es importante observar que en la prueba de Velocidad y Exactitud Secretariales solamente se califica la Parte II. Cada respuesta correcta es calificada con un punto. La puntuación bruta de cada prueba es la suma de las respuestas correctas. 186
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES La puntuación bruta de cada prueba es convertida en percentil o estanina utilizándose para tal efecto los cuadros de conversión disponibles en el manual. Estos cuadros toman en cuenta el sexo y el grado escolar del sujeto. Los resultados deben ser apuntados en la hoja de "Reporte Individual", donde se llenan los datos personales del sujeto, sus puntuaciones brutas, las puntuaciones percentiles obtenidas por comparación con una muestra de su mismo sexo y grado escolar, y las puntuaciones percentiles obtenidas por comparación con una muestra de su grado escolar pero de sexo opuesto. En esta misma hoja es trazado el perfil de aptitudes del sujeto, cuyo procedimiento será explicado en seguida. a. Comparación con muestras de cada uno de los sexos En el DAT es importante sacar el percentil obtenido por el sujeto en una prueba comparándolo, por un lado, con una muestra de sujetos de su mismo sexo, y por otro, con una muestra de sujetos del sexo opuesto. Lo que sucede es que los sexos califican típicamente en algunas pruebas del DAT en forma muy diferente. Por ejemplo, los varones tienden a tener puntuaciones más altas que las mujeres, en Razonamiento Mecánico y Relaciones Espaciales, aunque que en este último caso la diferencia sea menor. Además, las mujeres suelen tener mejores puntuaciones que los varones, en la prueba de Velocidad y Exactitud Secretariales. Siendo así, es importante comparar al sujeto con una muestra de su mismo sexo pero también, en muchas casos, es esencial la comparación con una muestra de sexo opuesto al suyo. Por ejemplo, si una joven (2 o semestre de 2 o año de preparatoria) obtiene una puntuación bruta de 43 en Razonamiento Mecánico, cuando comparada a una muestra femenina tendrá como percentil P50, mientras que cuando comparada a una muestra masculina tendrá un percentil P20. 187
Kathia Maria Costa Neiva La interpretación de la prueba cambia substancialmente si tomamos como referencia uno o otro valor de percentil. Suponiendo que esta joven tenga interés en seguir el área de Ingeniería Mecánica, donde la población es básicamente masculina, el percentil obtenido a través de la comparación con la muestra masculina va a ser de gran importancia. Este es el que va a permitir pronosticar sus posibilidades en la competencia escolar y profesional con esta mayoría masculina. En el caso mencionado, aunque lajoven, comparada con otras jóvenes de su mismo grado escolar, presenta una habilidad mecánica promedio, esta habilidad es baja cuando se compara con los varones de su mismo grado escolar. Esto, probablemente le traerá dificultades al tener que enfrentar la competencia masculina en la carrera de Ingeniería Mecánica. b.
El perfil de aptitudes
En la hoja de Reportes Individuales se explica como trazar la gráfica correspondiente al perfil de aptitudes del sujeto. Primero, se traza la gráfica correspondiente a los percentiles obtenidos comparando al sujeto con una muestra de su mismo sexo. Para cada resultado se traza una barra, en la columna referente a la prueba. Partiendo del punto correspondiente al percentil obtenido, se mide 1.2 cm. para arriba y 1.2 cm. para abajo obteniéndose así una barra que debe ser rellenada en color. Esta barra indica que podemos estar relativamente seguros de que la puntuación del sujeto está en algún punto dentro del área cubierta por la misma. Trazadas todas las barras que indican la habilidad del sujeto al compararlo con una muestra de su mismo sexo, hacemos el mismo procedimiento pero ahora tomando como referencia las puntuaciones percentil obtenidas comparando al sujeto con una muestra del sexo opuesto. Para cada prueba se trazará una segunda barra, paralela a la primera, que será rellenada de color distinto. 188
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Para interpretar el perfil de aptitudes se debe proceder de la siguiente manera (Bennett y col, 1990): 1) Comparar las barras trazadas teniendo como base la puntuación obtenida a partir de la norma del mismo sexo del sujeto (primeras barras, que son del mismo color). Esta comparación indica cuál es el desempeño del sujeto en cada prueba; cuáles son sus aptitudes más fuertes y más débiles. 2) Comparar cada par de barras correspondiente a una misma aptitud: la barra obtenida a partir de la norma de mismo sexo con aquella obtenida a través de la norma de sexo opuesto (primera y segunda barras, de colores diferentes). Esta comparación permite verificar si hay una discrepancia en el desempeño del sujeto comparado con muestras de distintos sexos. 3) La diferencia entre dos aptitudes (o resultados) es considerada significativa cuando las dos barras no se sobreponen. Cuando se sobreponen pero no en más de la mitad de su longitud, la diferencia puede o no ser importante. En este caso se deben buscar, en otras informaciones sobre el sujeto, indicios que ayuden a tomar una decisión. Si las barras se sobreponen en más de la mitad, no se considera significativa la diferencia, o sea la habilidad del sujeto en estas dos áreas es más o menos la misma. 8.2. Las pruebas PROUNAM La calificación de las pruebas PROUNAM es realizada en forma automatizada por el IEGE y la UNAM. Las calificaciones también son expresadas en percentil y estanina, comparando el sujeto con una muestra de su mismo sexo y con una muestra mixta (de ambos sexos). Un reporte informatizado de los resultados, que incluye un perfil de aptitudes, es entregado al alumno (UNAM, 1994a). 189
Kathia Maria Costa Neiva 9. NORMAS Las normas para las formas V y W del DAT fueron extraídas de una muestra de más de 61,000 estudiantes de 2 o . de secundaria a 3 o . de preparatoria, de 64 sistemas escolares públicos y parroquiales de los Estados Unidos de América. Las dos formas V y W son consideradas paralelas lo que significa que sus puntuaciones brutas son equivalentes y por lo tanto permiten la utilización de las mismas tablas de normas para su interpretación (Bennett y cols., 1990). Los normas se expresan tanto en percentil como en estanina, para cada sexo y nivel escolar (de 2 o . de secundaria a 3 o . de preparatoria). Para cada nivel escolar, se presentan normas para el primer y para el segundo semestre. El PROUNAM está estandarizado solamente para el 5 o . año de bachillerato (2 o . de preparatoria). Sus normas fueron extraídas de una muestra de 3,027 alumnos, hombres y mujeres, estudiantes de distintos sistemas: Escuela Nacional Preparatoria, CCH y Escuelas Incorporadas a la UNAM, siendo que las escuelas estaban ubicadas en distintas regiones geográficas (UNAM, 1994a). 10. CONFIABILIDAD Y VALIDEZ 10.1. Las pruebas de las formas V y W La confiabilidad de las pruebas de la batería DAT ha sido estudiada a través del procedimiento de división por mitades, cuyo coeficiente fue corregido utilizando la fórmula de Spearman-Brown, con excepción de Velocidad y Exactitud Secretariales. Siendo esta última una prueba de velocidad, se utilizó el procedimiento de formas paralelas. Los coeficientes de confiabilidad fueron calculados para cada una de las formas V y W, en cada nivel escolar y para cada sexo. En 190
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES general, se obtuvieron los coeficientes usando submuestras de la muestra de estandarización, con excepción de la prueba de Velocidad y Exactitud Secretariates (Bennett y cols., 1990). Los coeficientes de confiabilidad obtenidos fueron relativamente elevados variando, en la muestra masculina de 2o. de secundaria a 3o. de preparatoria de .89 a .97 (forma V) y de .87 a .97 (Forma W) y en la muestra femenina de .83 a .96 (forma V) y de .84 a .96 (forma W) (ídem). En el manual del DAT son también presentados los Errores Estándar de Medida para cada prueba (formas V y W), por nivel escolar y sexo. El procedimiento recomendado para trazar la gráfica del perfil de aptitudes (la construcción de barras) tiene como objetivo tomar en cuenta el error estándar de medida. En general, cada 1.2 cm. equivale a cerca de una y media unidades de error estándar de medida, lo que significa que, para la mayoría de las pruebas, las probabilidades son aproximadamente de nueve en diez de que la puntuación real del sujeto caiga dentro del intervalo delimitado por las barras (ídem). 10.2. Las pruebas PROUNAM El proceso de desarrollo y validación de las pruebas PROUNAM incluyó varios procedimientos. Para validar el PROUNAM se utilizaron cinco formas diferentes de la prueba (A, B, C, D, y E) conformadas con 250 reactivos de Razonamiento Verbal, 360 de Ortografía, 250 de Uso del Lenguaje, 250 de Razonamiento Numérico, 200 de Razonamiento Abstracto, 500 de Velocidad y Precisión Perceptual, 300 de Razonamiento Mecánico y 250 de Relaciones Espaciales. Las pruebas verbales, Razonamiento Verbal, Uso del Lenguaje y Ortografía fueron desarrolladas en México y específicamente para la Prueba Diferencial de Aptitudes PROUNAM. Para las demás pruebas se utilizaron 191
Kathia Maria Costa Neiva los reactivos de la quinta edición del DAT (1990), formas C y D, niveles 1 y 2. Los reactivos fueron analizados a través de varios procedimientos estadísticos como: valores P (porcentaje de la muestra que respondieron de forma correcta al reactivo) para determinar el nivel de dificultad, correlación biserial para establecer el nivel de discriminación, rango de omisión de los reactivos (porcentaje de sujetos de la muestra que no contestaron el reactivo) y análisis de Rasch que determina el nivel de dificultad del reactivo dentro de una escala métrica logística análoga a la calificación z (UNAM, 1994a). Se estudió la confiabilidad de las cinco diferentes formas de la batería, obteniéndose coeficientes Kuder-Richardson (KR-20) entre .79 y .96 para las ocho pruebas. Las medias, desviaciones estándar y percentiles seleccionados (cuartiles) mostraron variaciones moderadas entre las diferentes formas de la prueba. Se obtuvieron para la forma final de cada una de las pruebas (con excepción de Velocidad y Precisión Perceptual) coeficientes KR-20. Estos variaron de .71 a .90 según la prueba, lo que indica que las pruebas poseen un alto grado de consistencia interna. Se obtuvieron también los errores estándar de medida para cada una de las pruebas, cuyos valores estuvieron entre 2.33 y 3.51 (UNAM, 1994). Para demostrar la validez del PROUNAM se correlacionaron los valores en percentil obtenidos por la población de EUA en la 5a. edición del DAT y los obtenidos por los estudiantes mexicanos en el PROUNAM. Como las pruebas verbales no son comparables, se limitó la comparación a las pruebas no verbales. Se comparó así "el rendimiento de ambas poblaciones considerando tanto a la población general de ambos sexos (mixto), como las diferencias por g é n e r o " (ídem, p . 3 6 ) . Se examinaron también las intercorrelaciones entre las distintas pruebas que componen el PROUNAM, para verificar cuánto miden estas distintas aptitudes. "En general las intercorrelaciones entre las pruebas muestran un rango que va de bajo a moderado" {ídem, p.
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES 11. COMENTARIOS La batería DAT es considerada una gran contribución a la medida de las aptitudes. Morales (1993) cita un comentario de Carroll (1960) sobre las cualidades métricas de esta prueba: "Los autores han hecho un trabajo tan completo y técnicamente satisfactorio, que cualquier revisor lo encontraría difícil de hacerlo parecer suficientemente crítico para él mismo"(p.l31). Las pruebas fueron traducidas y adaptadas a varios idiomas y demostraron gran utilidad, tanto en el área de la orientación escolar y profesional como en el área de selección de personal. Su utilización en la realidad mexicana ha convivido hasta hace poco tiempo con una limitación importante. Como fue mencionado anteriormente, la versión en español del DAT publicada en México (forma V y W) no incluye las pruebas Referencias bibliográficas Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990;. Pruebas de Aptitud Diferencial (DAT) - Manual del Instructor, México D.F. : Ed. El Manual Moderno. Morales, M.L. (1993). Psicometría Aplicada, México D.F.: Ed. Trillas (2a. Edición, 2a. Reimpresión). Universidad Nacional Autónoma de México [UNAM] (1994a). Prueba Diferencial de Aptitudes PROUNAM- Manual técnico, México D.F. , (1994b).Prueba Diferencial de Aptitudes PROUNAM - Manual del aplicador, México D.F.
193
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
CAPITULO XV PRUEBAS PARA LA CLASIFICACIÓN DE APTITUDES DE FLANAGAN (FACT) 1. ASPECTOS HISTÓRICOS Las Pruebas para la Clasificación de Aptitudes (FACT) fueron desarrolladas por J.C. Flanagan y dieron continuidad a su proyecto de construcción de pruebas de clasificación para la Fuerza Aérea durante la Segunda Guerra Mundial (Anastasi, 1978). A partir de análisis sistemáticos de puestos se identificaron elementos comunes a ciertas actividades profesionales así como las aptitudes necesarias para la buena ejecución de las mismas. Se construyeron entonces pruebas para evaluar las aptitudes necesarias para que se realicen con éxito tareas ocupacionales específicas (Brown, 1980). Las pruebas FACT fueron publicadas por primera vez en 1953, su publicación en español fue realizada en 1970, y en 1989 fue presentada la primera edición mexicana. Esta batería es destinada fundamentalmente a la orientación vocacional y profesional y a la selección y clasificación de personal (Flanagan, 1989). 2. DESCRIPCIÓN DE LA PRUEBA La batería está compuesta de catorce pruebas, cada una destinada a medir una habilidad específica (ídem): • Inspección - Mide la habilidad necesaria para 195
Kathia Maria Costa Neiva inspeccionar artículos manufacturados y para detectar fallas o imperfecciones en éstos. La rapidez y la exactitud son importantes en esta prueba. • Claves - Mide la rapidez y exactitud en el manejo de claves utilizadas en el trabajo de oficina. • Memoria - Mide la habilidad para recordar las claves aprendidas en el test de claves. • Precisión - Mide la habilidad para hacer tareas de precisión con objetos relativamente pequeños; mide la rapidez y precisión en la ejecución de movimientos circulares pequeños, con los dedos de una o de ambas las manos al mismo tiempo. • Ensambles - Mide la habilidad para visualizar la forma de un objeto mirando solamente sus partes. • Escalas - Mide la habilidad para la lectura de material gráfico (escalas, gráficos, mapas), requerida en trabajos de ingeniería y ocupaciones técnicas semejantes. • Coordinación - Mide la habilidad para coordinar los movimientos de brazo y mano y controlarlos de una manera progresiva y exacta. • Comprensión y discernimiento - Mide la habilidad para leer de manera comprensiva, pensar lógicamente y utilizar el sentido común cuando es necesario. • Aritmética - Mide la habilidad para el cálculo. • Modelos - Mide la habilidad para reproducir bosquejos de modelos sencillos y en forma invertida. • Componentes - Mide la habilidad para identificar partes importantes en situaciones complejas. Utiliza como ejemplos dibujos lineales y bosquejos de planos. • Tablas - Mide el rendimiento en la lectura de dos tipos de tablas: a) formada únicamente por dígitos, b) formada por palabras y letras del alfabeto. • Comprensión Mecánica - Mide la habilidad para comprender principios mecánicos. Expresión Idiomática - Mide el dominio del idioma, la habilidad para manejar la expresión de ideas en forma escrita y oral. 196
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
3. MATERIAL El material básico para la aplicación se compone de: a) folletos de prueba que funcionan también como hojas de respuestas, b) dos lápices (uno del No. 3), c) cronómetro , d) hoja de clasificación de aptitudes y d) manual. 4. POBLACIÓN CON LA QUE SE UTILIZA Las pruebas FACT pueden ser utilizadas con adolescentes y adultos. 5. FORMA DE ADMINISTRACIÓN Las pruebas de la batería pueden ser administradas en forma individual y colectiva. En este último caso es conveniente utilizar un ayudante por cada 25 examinados (Flanagan, 1989). 6. TIEMPO DE ADMINISTRACIÓN Cada prueba requiere un tiempo de administración diferente. En el manual se recomienda un orden de aplicación de las pruebas que permite llevar a cabo la aplicación de todas ellas en dos períodos de medio día cada uno. El orden propuesto busca evitar la monotonía alternando pruebas verbales, numéricas y de ejecución. Las pruebas de Comprensión y discernimiento y de Expresión vienen al final de la sesión puesto que no tienen tiempo límite, permitiendo al sujeto la oportunidad de contestar todos los reactivos de éstas. Se presenta a seguir un cuadro con el orden recomendado para cada sesión y el tiempo requerido para cada prueba (Flanagan, 1989). Los límites de tiempo de cada prueba de la batería, con excepción de las pruebas 8 (Comprensión y Discernimiento) 197
Kathia Maria Costa Neiva Primera sesión- Tiempo total: 2 horas y 46 minutos aproximadamente Prueba 1.- Inspección 2.- Claves 3.- Memoria 4 - Precisión 5 - Ensambles Receso 6.- Escalas 7 - Coordinación 8- Comprensión y Discernimiento
Tiempo instrucciones 6 20 1 7 6 10 12 5
Tiempo Prueba 6 10 4 8 12
min. min. min. min. min. min. min. min.
Tiempo Total
min. min. min. min min.
16 min. 3 min. 35 min. aprox.
5 min.
12 30 5 15 18
min. min. min min. min.
28 min. 8 min. 40 min. aprox.
Segunda sesión- Tiempo total: 2 horas y 42 minutos a proximadamente 9 - Aritmética 1 0 - Modelos 1 1 - Componentes Receso 12.- Tablas 1 3 - Comprensión Mecánica 1 4 - Expresión Idiomática
10 8 4 10 5
min. min. min. min. min.
10 min. 20 min. 20 min.
20 min. 28 min. 24 min.
10 min.
15 min.
5 min.
20 min.
25 min.
5 min.
35 min. aprox.
40 min. aprox.
y 14 (Expresión Idiomática), deben ser cumplidos estrictamente y por lo tanto deben ser cronometrados. Puede aplicarse la batería completa o pueden combinarse pruebas de distintas maneras, de acuerdo con las habilidades requeridas por una determinada actividad profesional. 7. PROCEDIMIENTO DE ADMINISTRACIÓN Es importante proveer una breve explicación a los examinados sobre el propósito de las pruebas, antes de empezar su administración. La administración empieza solicitando al examinado que llene sus datos personales en el folleto de prueba. Las instrucciones de cada prueba vienen en el folleto de prueba, seguidas de ejemplos o ejercicios de ensayo. El examinador debe leerlas en voz alta mientras el examinado las leerá en voz baja. 198
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Las instrucciones que están en la portada de cada folleto son semejantes para todas las pruebas, por lo tanto el examinador necesitará leerlas solamente una vez, al iniciar la serie. Sin embargo, las instrucciones impresas en la portada de los folletos de las pruebas "Comprensión y Discernimiento'' y "Expresión Idiomática" son distintas y deben ser leídas por el examinador. El examinador debe leer las instrucciones específicas de cada prueba exactamente como vienen impresas. Si hay dudas por parte de los examinados, el examinador debe leer otra vez la parte de la instrucción que permita esclarecerlas. 8. PROCEDIMIENTO DE CALIFICACIÓN La mayoría de las pruebas fueron diseñadas para facilitar su corrección. Debajo de la hoja donde el examinado marca sus respuestas, hay una hoja carbón y abajo de ésta, una parrilla con casillas. La posición de las casillas corresponde a la de las respuestas correctas. Cuando el examinado pone una X en la casilla correspondiente a su respuesta, ésta automáticamente se reproduce en la parrilla. Este procedimiento permite una evaluación rápida y precisa de la prueba. En el caso de las pruebas que no traen parrillas, los resultados son computados sobre los mismos folletos. La fórmula utilizada para el cálculo de la puntuación total varía de una prueba a otra: total de repuestas correctas, total de respuestas correctas menos las equivocadas, etc. En el manual se presenta un cuadro que contiene la fórmula que debe ser utilizada en cada prueba. El puntaje bruto debe ser apuntado en el espacio designado en cada folleto de prueba. Allí mismo puede determinarse, a través de una tabla, el puntaje ponderado del sujeto, expresado en estanina. Obtenidos todos los puntajes brutos y ponderados, éstos 199
Kathia Maria Costa Neiva deben ser apuntados en la Hoja de Clasificación de Aptitudes, donde también deben ser llenados los espacios correspondientes a los datos de identificación del sujeto. La interpretación de las puntuaciones obtenidas puede ser realizada a dos niveles (Flanagan, 1989): • Comparando las aptitudes del individuo y verificando sus aptitudes más altas y más bajas, sus capacidades y limitaciones, y • Evaluando las aptitudes de un individuo para una determinada actividad ocupacional según el siguiente procedimiento: 1) En la Hoja de Clasificación de Aptitudes, aparecen 30 ocupaciones. Para cada ocupación están determinadas cuáles aptitudes son necesarias. Al lado de cada ocupación deben ser llenadas las casillas solicitadas con las respectivos calificaciones en estaninas. 2) Para cada ocupación se suman las calificaciones en estanina y se marca con un círculo el resultado obtenido (puntaje total). En caso que el número correspondiente al puntaje total no aparezca en la hoja, debe aproximárselo al número mayor. 3) El puntaje total también es convertido en estanina mediante la tabla de conversión que aparece en esta misma hoja. En este caso, cada valor de estanina tiene un valor más y un valor menos, por ejemplo, 1-, 1, 1+, 2-, 2, 2+, ... hasta 9-, 9 y 9+. La puntuación estanina obtenida debe ser apuntada al lado de la ocupación, en la casilla de calificación ocupacional. 4) Se compara el rendimiento del sujeto en distintas áreas ocupacionales (calificaciones ocupacionales). 9. NORMAS Las pruebas FACT utilizan como puntuación normalizada la estanina. La conversión de las puntuaciones brutas a estaninas 200
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES no toma en cuenta ni el sexo ni el grado escolar del examinado (Flanagan, 1989). Las normas fueron extraídas de una muestra de aproximadamente 11,000 estudiantes americanos, cuyos grados escolares variaban de tercer de secundaria a tercer de preparatoria (Anastasi, 1978). Con respecto a la edición mexicana, el manual del FACT no ofrece datos sobre la muestra de estandarización utilizada. 10. CONFIABILIDAD Y VALIDEZ Los comentarios de Anastasi (1978) sobre la confiabilidad de este instrumento apuntan que aunque es elevada la fìabilidad de las puntuaciones compuestas de aptitud ocupacional, "/os tests individuales tienen /labilidad más bien baja y algunas de las distribuciones de las puntuaciones sugieren diferenciaciones inadecuadas entre los individuos''(p. 352). En cuanto a la validez, este mismo autor comenta que las interrelaciones entre las pruebas indican que éstas miden aptitudes bastante distintas. Sin embargo, muchas ocupaciones exigen combinaciones semejantes de aptitudes, hasta aquellas cuyas actividades son substancialmente diferentes. Por ejemplo, la existencia de una alta correlación entre los resultados de piloto-aviador y diseñador sugiere una validez diferencial inadecuada. Por otro lado, Anastasi (ídem) apunta que la prueba ha demostrado tener una buena validez de predicción, con respecto a los criterios de capacitación profesional. Mientras tanto, los datos sobre la validez de predicción con relación a la admisión y éxito en el trabajo son escasos y menos consistentes, sobre todo debido a la inadecuación de los criterios y a la influencia de factores fortuitos. 201
Kathia Maria Costa Neiva 11. COMENTARIOS Las pruebas FACT pueden ser útiles para la orientación profesional y para la selección de personal pues permiten evaluar las habilidades del sujeto y proveer una cierta predicción con respecto al éxito en determinadas tareas ocupacionales. Sin embargo, son varias las restricciones a las mismas: •Los resultados sobre la confiabilidad y la validez de la batería parecen poco consistentes e inclusive en el manual de la edición mexicana no se proporcionan datos a respecto. •La representatividad de la muestra normativa de la versión original es considerada discutible (Anastasi, 1978). En cuanto a la edición mexicana, no se presentan en el manual datos sobre la muestra de estandarización utilizada. •No se toman en cuenta en las normas ni el sexo ni el grado escolar. Investigadores como Bennett y cois. (1990) observaron diferencias importantes, en algunas aptitudes, con respecto a estas variables. •La edición mexicana del FACT considera solamente 30 ocupaciones, lo que es un número relativamente reducido comparado al número de ocupaciones existentes en la actualidad. Referencias bibliográficas Anastasi, A. (1978). Tests psicológicos (3 a ed., 4 a reimpresión). Madrid: Editorial Aguilar. Bennett, G.K.; Seashore, H.G. y Wesman, A.G. (1990).Pruebas de Aptitud Diferencial (DAT) - Manual del Instructor, México D.F.: Editorial El Manual Moderno. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México, D.F.: Editorial El Manual Moderno. Flanagan, J.C. (1989). Manual del Examinador - FACT. México D.F.: Editorial El Manual Moderno. 202
BIBLIOGRAFÍA Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión). Madrid: Editorial Aguilar. Anstey, E. (1974). Test de Dominós - manual. Buenos Aires: Editorial Paidós. Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., Francequin-Chartier, G., Huetau, M., Porlier, J-C, Rozencwajg, P.y Vrignaud, P. (1991). Evaluer I'intelligence. Manuscrito no publicado, I.N.E.T.O.P., Paris, Francia. Bacher, F. (1981). Les enquêtes en Psychologic Tesis inédita de Doctorado en Psicología, Université de París V, París. Bennett, G.K.; Seashore, H.G., Wesman, A.G. (1990). Pruebas de aptitud diferencial (D.Â. T) - Manual del instructor. México D.F.: Editorial El Manual Moderno. Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Coto Villa, M.J. y Llano de la Torre, A. (1981). Estudio sobre la traducción, adaptación, conflabilidad y validez del test para preescolares y primaria deWechsler (WPPSI) en un grupo de niños de nivelsocioeconómico medio alto. Tesis inédita de Licenciatura en Psicología. Universidad Iberoamericana. Cronbach, L.J. (1951). Alpha and the internal structure of tests. Psychometrika, 16, 297-334. Dorsch, F.(1976). Diccionario de Psicología. Barcelona: Editorial Herder. Flanagan, J. (1989). Manual del examinador: FACT. México D.F.: El Manual Moderno. Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del desarrollo intelectual. Madrid: Editorial Paidós. 203
Kathia Maria Costa Neiva Guilforf, J.P. (1956). The structure of intellect. Psychological Bulletin, 53, 267-293. , J . P . (1967). The nature of human intelligence. Nueva York: McGraw Hill. ,J.P. (1970). Creativity: Retrospect and Prospect. Journal of Creative Behavior, 4(3), 149-168. Guilfort,J.P. y Hoepfner, R. (1971). The analysis of intelligence. Nueva York: McGraw Hill. Harris, D.B. (1991). El Test de Goodenough - Revisión, Ampliación y Actualización (2 a ed., 3a reimp.). México D.F.: Ediciones Paidós. Huteau, M. (1990). La varieté des formes et des composantes de I´intelligence. En M. Reuchlin y col. (Eds.),Cognition: ¡'individual et ¡'universe!. Paris: P.U.F. Kaufman, A. (1982) Psicometría razonada con el WISC-R. México D.F.;Editorial El Manual Moderno. Kellogg, C E . y Morton, N.W. (1974). Instrumento no verbal de inteligencia - Beta II-R. Manual. México D.F.: Editorial El Manual Moderno. Magnuson, P. (1979) Teoríade los tests. México, D.F. Trillas. Morales, M.L. (1993). Psicometría Aplicada (2 a ed., 2a reimpresión). México D.F.: Editorial Trillas. Murphy, K. R. y Davidshofer, C O . (1994). Psychological Testing - Principles Applications. New Jersey: Prentice Hall. Pasquasy, R. (1974). Las aptitudes y su medida. Madrid: Ediciones Marova. Piaget, J. (1972). Psicología de la inteligencia. Buenos Aires: Editorial Psique. Rapaport, D. (1965). Test de diagnóstico psicológico. Buenos Aires: Editorial Paidós. Raven, J. C. (1987). Test de Matrices Progresivas. Buenos Aires: Paidós. Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet intelligence scale. Form L-M. Boston: Houghton Mifflin Company. 204
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES Thorndike, L. R. Y Hagen, E. (1975). Tests y técnica de medición en psicología y educación. México: Editorial Trillas. Universidad Nacional Autónoma de México [UNAM].(1994a). Prueba Diferencial de Aptitudes PROUNAM - Manual técnico, México D.F. UNAM. , (1994b). Prueba Diferencial de Aptitudes PROUNAM - Manual del aplicador, México D.F.: UNAM. Wechsler, D. (1955). La medición de la inteligencia del adulto. La Habana: Cultural, S.A. , D. (1981a). WAIS-R Manual: Wechsler Adult Itelligence Scale-Revised. Nueva York: The Psychological Corporation. , D. (1981b). WAIS-Español - Escala de Inteligencia para Adultos - Manual. México D.F.: Editorial El Manual Moderno. , D. (1981c). WISC-Español - Escala de Inteligencia para el nivel escolar - Manual. México D.F.: Editorial El Manual Moderno. , D. (198 Id). WISC-R-Español - Escala de Inteligencia revisada para el nivel escolar- Manual. México D.F.: Editorial El Manual Moderno. , D. (198le). WPPSI-Español - Escala de Inteligencia para los niveles preescolar y primario - Manual. México D.F.: Editorial El Manual Moderno.
205
Se terminó de imprimir en el mes de junio de 1996. Tiraje 2,000 ejemplares.
View more...
Comments