elaboracion de pruebas psicometricas.

Share Embed Donate


Short Description

Descripción: trabajo académico detallado sobre los distintos pasos para elaborar un examen psicológico. validez y con...

Description

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE PSICOLOGÍA Y TRABAJO SOCIAL CARRERA PROFESIONAL: PSICOLOGIA ASIGNATURA: ELABORACIÓN DE PRUEBAS ALUMNO: MENDIZABAL CONTRERAS, MIGUEL FERNANDO CICLO: V DOCENTE: FERNANDO RAMOS RAMOS SEMESTRE 2014-III CODIGO: 476459660  – OPE HUANCAVELICA

TEMA: PASOS PARA LA ELABORACION DE PRUEBAS

Capítulo I: 1.- PROPÓSITO DEL TEST La construcción de una escala de medición de algún aspecto del comportamiento humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. La construcción de un test parte de una visión individual o grupal acerca de un determinado aspecto de la personalidad de las personas que necesita ser medido objetivamente, y esto implica el conocimiento de la existencia de otras pruebas, puesto que si existen deberá verse la confiabilidad y validez de esos test ára medir dicho, constructo, en caso de que no existan o que se hallen errores, se partirá a construir un test que mida objetivamente una rasgo o conducta. El propósito del test hace referencia a la elaboración del constructo, aquello en lo que va estar sostenido nuestro test y lo que pretende medir. Dentro de esto tenemos que definir también a que población está dirigida la prueba así como el tipo de ítems que se va a utilizar. Las pruebas cumplen funciones diferentes según sean sus propósitos po lo que su elaboración varía de acuerdo a sus propósitos, pero en forma ideal que una prueba empieza con la definición de las variables o constructos que van a medirse y con el esbozo del contenido propuesto. La obtención de una buena prueba no es una cuestión fortuita sino la respuesta a diversos interrogantes como los que se describen a continuación: ¿Qué es lo que la prueba medirá según su diseño? ¿Cuál es el objetivo de la prueba? ¿Existe necesidad de esta prueba?

TEMA: PASOS PARA LA ELABORACION DE PRUEBAS

Capítulo I: 1.- PROPÓSITO DEL TEST La construcción de una escala de medición de algún aspecto del comportamiento humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. La construcción de un test parte de una visión individual o grupal acerca de un determinado aspecto de la personalidad de las personas que necesita ser medido objetivamente, y esto implica el conocimiento de la existencia de otras pruebas, puesto que si existen deberá verse la confiabilidad y validez de esos test ára medir dicho, constructo, en caso de que no existan o que se hallen errores, se partirá a construir un test que mida objetivamente una rasgo o conducta. El propósito del test hace referencia a la elaboración del constructo, aquello en lo que va estar sostenido nuestro test y lo que pretende medir. Dentro de esto tenemos que definir también a que población está dirigida la prueba así como el tipo de ítems que se va a utilizar. Las pruebas cumplen funciones diferentes según sean sus propósitos po lo que su elaboración varía de acuerdo a sus propósitos, pero en forma ideal que una prueba empieza con la definición de las variables o constructos que van a medirse y con el esbozo del contenido propuesto. La obtención de una buena prueba no es una cuestión fortuita sino la respuesta a diversos interrogantes como los que se describen a continuación: ¿Qué es lo que la prueba medirá según su diseño? ¿Cuál es el objetivo de la prueba? ¿Existe necesidad de esta prueba?

¿Quién usará esta prueba? ¿Qué contenido abarcará esta prueba? ¿Cómo se aplicará la prueba? ¿Cuál es el formato ideal de la prueba? ¿Debería elaborarse más de una forma de la prueba? ¿Qué capacitación especial se requerirá de los administradores de la prueba para aplicarla o interpretarla? ¿Qué clases de respuestas se requerirán de quienes respondan la prueba? ¿Cómo se interpretarán los resultados de la prueba?

2.-TRADUCCIÓN EN TÉRMINOS OPERACIONALES DEL PRE TEST Una vez determinado el propósito es necesario que se planee como se va a construir el test, es a esto cuando nos referimos con términos operacionales, las operaciones que se usaran para construir nuestro test, se dividen en dos grandes áreas las que son el contenido y el formato del test. Hay dos grandes aproximaciones para hacer la definición de los constructos. En función de la novedad o no del objetivo que nos planteemos con la prueba y del tipo de test del que se trate se insistirá más en un procedimiento u otro. 1. Aproximación inductiva o exploratoria. El autor del test escribe un gran número de ítems que supuestamente miden el constructo. A continuación, se administran los ítems a un grupo grande de personas. Las respuestas de las personas a los ítems son analizadas mediante técnicas estadísticas para buscar patrones de relación entre los ítems. El autor el test pone nombre a esos patrones de relación y de esta forma define el constructo. La aproximación trabaja desde las respuestas de las personas hacia la definición del constructo.

 Ahora no se puede esperar construir un constructo valiéndose únicamente de estas técnica, pues se pondría a merced de la arbitrariedad y circunstancias externas, no se puede hacer esto sin tener una idea más o menos clara de lo que se quiere medir.

2. Aproximación deductiva o confirmatoria. El constructo no se mide en el vacío. Está insertado en una teoría que dirige la propia definición del constructo indicando los comportamientos que pueden considerarse indicadores del constructo. La contrastación de las hipótesis estructurales que pone de manifiesto la teoría determinará la validez del test. Esta aproximación va desde la teoría hacia los hechos.

Estos dos métodos no son excluyentes pues nunca se parte de la nada, todo lo contrario siempre se tiene una idea y conocimiento del constructo que se quiere medir. 1. Revisión bibliográfica. Tener presentes las conductas o indicadores que hayan utilizado otros investigadores para medir el mismo constructo y de los que podemos tener conocimiento por sus publicaciones. 2. Análisis de contenido. Este procedimiento consiste en hacer preguntas abiertas relativas al constructo que nos interesa a personas conocedoras del constructo o que son elementos de la población objetivo y cuyas respuestas pueden indicar categorías conductuales representativas del constructo. 3. Juicio de expertos. Se trata de pedir a personas “expertas” a través de

entrevistas o cuestionarios que nos indiquen qué tener en cuenta y, por lo tanto, medir en los sujetos por lo que respecta al constructo. 4. Identificación de incidentes críticos. La particularidad de este procedimiento está en que pedimos a personas cercanas a sujetos típicos de nuestra población

objetivo, que nos identifiquen comportamientos tipo de los distintos niveles del constructo. 5. Observación directa. El autor del test recoge la información mediante observación directa de personas que manifiestan el constructo. Los comportamientos de estos sujetos que el autor considere relevantes serán propuestos como posibles indicadores del constructo.

-Formato del Test.- Dentro de esto se considerara si el test se resolverá con la piz o papel o con la ayuda de un aparato, el tiempo para resolverlo, la modalidad de aplicación (individual, grupal, o autoadministrado), pero sobre todo la extensión de la prueba y el tipo de ítems. Diseñar el test es preparar la información necesaria para elaborar la población inicial de ítems. El autor del test en este paso como en los anteriores debe asegurar que el test final aportará la información necesaria para alcanzar el objetivo para el que van a utilizarse las puntuaciones. Todas las decisiones que tome debe someterlas al criterio siguiente: ¿contribuye a lograr el objetivo para el que van a utilizarse las puntuaciones?

3.-DETERMINACIÓN DEL PRE TEST.Es un test un poco más amplio, en promedio lleva 3 veces más ítems que el test final, y es la manera de construir el test donde se irán seleccionando los ítems más relevantes.  Algunos puntos importantes a tomar en cuenta son: Tenga siempre presente cuáles son los contenidos a evaluar y los objetivos que se persiguen; una vez que los tenga claramente explicitados procure traducirlos a preguntas concretas en la prueba de evaluación que elabore. Prevea una sola respuesta correcta de entre las alternativas ofrecidas. Si hay más de una respuesta correcta, los participantes se confunden, la puntuación es más difícil y la prueba pierde validez. Evitar los enunciados en forma negativa, son más difíciles de procesar.

Redactar frases cortas y evitar estructuras de frases complicadas. Evitar o minimizar el uso de expresiones como “raras veces”, “a menudo”, o “generalmente”.

 Asegurar la concordancia gramatical entre el enunciado general y las alternativas  Asegurar la corrección semántica y ortográfica de todo el texto contenido en las preguntas y sus opciones de respuestas alternativas. Evitar alternativas o enunciados jocosos. Conseguir que la longitud de las distintas alternativas de respuesta sea aproximadamente la misma. Evitar las reiteraciones de texto innecesario en todas las alternativas Evitar el uso como última alternativa de “todas las anteriores son correctas” o “ninguna de las anteriores es correcta”.

Evitar respuestas que de una manera obvia resulten imposible s. No ofrecer información engañosa. Las preguntas capciosas provocan respuestas equivocadas Distribuir la posición de las respuestas correctas al azar para evitar que los alumnos deduzcan una posible pauta de posición de respuestas correctas. Procure que las respuestas múltiples no hagan referencia a las respuestas de otras preguntas. Si las respuestas están estrechamente relacionadas entre sí, la puntuación del evaluado puede resultar gravemente afectada si contesta incorrectamente una pregunta previa relacionada. Esta situación puede afectar a los resultados y la validez de la prueba. Utilice diferentes niveles de dificultad en la prueba. Redacte preguntas complicadas, medianamente difíciles y fáciles. En lo posible redacte el doble de preguntas que compondrán la prueba, para posteriormente seleccionar de entre ellas la mitad.

Simplifique la mecánica de la prueba. Recuerde que su objetivo es medir los conocimientos de los alumnos, no su habilidad para comprender instrucciones complejas. Revise la prueba antes de realizarla. ¿Resulta adecuada?; y sobre todo cuestiónese sí ¿Responde a los contenidos y objetivos que se persiguen?

Capítulo II:

1.- ELABORACIÓN DEL PRE-TEST: Diseñar el test es preparar la información necesaria para elaborar la población inicial de ítems. El autor del test en este paso como en los anteriores debe asegurar que el test final aportará la información necesaria para alcanzar el objetivo para el que van a utilizarse las puntuaciones. Todas las decisiones que tome debe someterlas al criterio siguiente: ¿contribuye lograr el objetivo para el que van a utilizarse las puntuaciones? El fin principal de planificar un test es elaborar un bosquejo detallado, que sirva de guía para elaborar los reactivos con los que vamos a evaluar ciertos procesos o fenómenos. Dentro de esto debemos tener en cuenta dos pu ntos importantes.

- Número de ítems: Es imposible fijar a priori el número de ítems que debemos hacer para constituir la población inicial de ítems. También es evidente que, como después someteremos los ítems de esa población inicial a un proceso formal de revisión para conocer su calidad, habrá que elaborar más ítems de los que en última instancia formarán el test final. Tampoco podemos olvidar que el modelo lineal aditivo de las escalas tipo Likert y de la Teoría Clásica de los Test recomienda elaborar test largos, para favorecer el que podamos obtener mediciones fiables. El supuesto sobre el valor nulo del

promedio de los errores de medida de los items del test sólo se podrá alcanzar cuando el número de ítems es suficientemente grande. Teniendo en cuenta que una vez que sometamos a análisis empíricos los ítems elaborados nos veremos obligados a eliminar aquellos que no alcancen unos requisitos mínimos de calidad psicométrica, se trata de elaborar un número suficientemente amplio de ítems que garantice que dispondremos de un repertorio con calidad suficiente para establecer el test definitivo. Para ello se recomienda elaborar el doble o triple de ítems de los que previamente se hayan considerado para constituir el test definitivo. Aunque esto tambien dependerá de la dificultad para elaborar los ítems.

- Formato de respuesta: Viene determinado por el tipo de constructo que se vaya a medir y por la finalidad de uso que se le va a dar a la prueba. Por lo que respecta al formato de los ítems, la primera decisión a tomar es si el sujeto debe construir la respuesta (respuesta abierta) o si ha de seleccionarla de entre las propuestas. Las primeras se adaptan mejor a los procesos cognitivos complejos y en los que es primordial la actividad o producción del sujeto, mientras que los segundos son últimamente preferidos por su mayor precisión o fiabilidad, además de por su mayor rapidez de corrección. En los test de ejecución máxima los tipos de respuesta más frecuentes son: a) Verdadero y Falso. Tienen el inconveniente de ser respuestas excesivamente contundentes o extremas, y que de pocos enunciados se pueden emitir sin crítica. Suele ocurrir que alumnos de nivel alto en el constructo suelen equivocarse al responder por encontrar pequeñas razones que irían en contra de la respuesta correcta. Son ítems fáciles de construir, pero su respuesta está muy afectada por el azar. b) Elección múltiple.- Suelen tener entre tres y cinco alternativas de respuesta, de entre las que el sujeto tiene que elegir cuál es la correcta, o la más correcta si hubiera varias que pudieran ser consideradas como correctas. No obstante, hay pruebas psicométricas que ofrecen la posibilidad de elegir varias alternativas como correctas, e incluso de ordenarlas en cuanto al grado de corrección; pero

crean algunos problemas de calibración o de obtención de las puntuaciones en el atributo que se mide. c) Relacionar. En ítems de conocimientos e información suelen ofrecerse dos columnas de elementos informativos y pedir al sujeto relacione los elementos de la columna izquierda con los de la derecha. Constituyen una forma rápida de preguntar y responder sobre una gran cantidad de contenidos, pero no es adecuado para evaluar sobre procesos cognitivos de mayor complejidad. d) Completar, sustituir o corregir algún o algunos elementos de una frase o serie estimular. Este tipo de ítems evitan la influencia del azar, pero al igual que en el caso anterior son excesivamente memorísticos. e) Respuesta corta. Se pide la respuesta sin oferta de alternativas de respuesta. Con ello se evita la influencia del azar. Pueden ser adecuados para evaluar la claridad con la que se han asimilado algunos conceptos simples. Como todas las respuestas abiertas, éstas también pueden tener problemas de fiabilidad. Ejemplo: ¿para que exige el estado el matrimonio civil? f) Ensayo.- Ítems que requieren respuestas más largas y con mayor tiempo que en el tipo anterior, e incluso en ellos se suele permitir el uso de materiales complementarios. Ejemplo: Explique usted la importancia de la psicología organizacional en el mundo actual.

En los cuestionarios de personalidad o actitudes (tests de ejecución típica) se suelen utilizar formatos del tipo SI/NO, SI/NO/A VECES, o escalas tipo Likert, en las que la persona gradúa o pondera su respuesta en escalas de 3 a 9 posibles

valores. En estas escalas de actitudes se suelen distinguir tres tipos de alternativas de respuesta: a) Las alternativas de acuerdo con, piden a la persona que indique el grado de acuerdo con la información presentada en el enunciado del ítem. Habitualmente, son bipolares -registran el acuerdo y el desacuerdo- y simétricas respecto a un punto neutro. A través de las alternativas de respuesta, el sujeto indica si está fuertemente, moderadamente o ligeramente de acuerdo o en desacuerdo con el enunciado del ítem. Los modificadores (ejemplo muy, bastante, etc...) deben ser los mismos para el acuerdo y el desacuerdo, haciendo que las elecciones de respuesta sean simétricas. Para alcanzar esta simetría, no es imprescindible incluir un punto neutro. Las alternativas de acuerdo son las más populares y versátiles, utilizándose para una gran variedad de variables. Ejemplo: Un trabajo bien hecho es una buena medida de lo que vale una persona Muy en desacuerdo 1 2 3 4 5 Muy de acuerdo b) Las alternativas de evaluación, piden a la persona que haga un juicio en una dimensión de bueno-malo o adecuado-inadecuado, correcto-incorrecto, etc). Las alternativas suelen ir desde lo positivo (excelente) a lo negativo (terrible). Pueden utilizarse para medir actitudes o hacer juicios sobre la calidad de la ejecución en diferentes dominios. Ejemplo: Que es lo que más importante del matrimonio, el amor. Nada importante 1 2 3 4 5 Muy importante c) Las alternativas de frecuencia, suelen preguntar a las personas cuantas veces ocurre algo o debería ocurrir. Pueden utilizarse alternativas numéricas o verbales (una vez por día, una vez a la semana...). Suelen extenderse desde nunca a Siempre. Pueden utilizarse para medir variables de personalidad cuando se necesita que la persona indique con qué frecuencia realiza determinados comportamientos (o para describir el ambiente, indicando cuantas veces ocurre algo).

Ejemplo: Se preocupa usted cuando falta de dinero en su hogar. 5 Siempre 4 La mayoría de las veces 3 Unas veces sí y otras no 2 Rara vez 1 Nunca

2.- ELABORACIÓN DEL TIPO DE ÍTEMS: Es el momento de pensarse cómo contribuirá cada ítem a la puntuación total del test o puntuación en el constructo. En los tests de ejecución máxima se suele valorar la respuesta a cada reactivo de forma dicotómica : correcta = 1 punto e incorrecta 0 puntos. Así se obtendría la puntuación total como la suma de unos, esto es, como la suma de aciertos. Cuando se responde eligiendo una alternativa de entre las posibles respuestas ofertadas se suele aconsejar corregir la puntuación total con el número de errores. Guilford (1936) y Lord (1952) afirman conseguir con esta corrección sobre las puntuaciones del test una cierta mejoría en el coeficiente de validez de la prueba. La lógica consiste en que si queremos que la puntuación directa refleje lo que el sujeto sabe o posee del constructo, hay que restar al número total de aciertos (AT), el número de veces que el sujeto ha acertado por azar (AA): La redacción de los ítems, tal y como hemos planteado el procedimiento de construcción de una prueba, consiste en escribir los enunciados y demás componentes de los ítems (el tipo de alternativa de respuesta es elegido en el paso anterior). Al igual que ocurre con otros pasos, en la elaboración del test no hay unas normas, criterios o recomendaciones que garanticen totalmente la redacción de enunciados de calidad. Escribir buenos enunciados para los ítems es una habilidad que progresa con la práctica. Algo muy importante es la precisión

en el lenguaje. El ítem debe ser breve, no ambiguo, sin palabras irrelevantes o tautológicas y sin términos polisémicos. Se evitarán las palabras estereotipadas y las dotadas de prejuicios o sesgos. No conviene intentar hacerse el simpático con la redacción de los ítems, pues ello puede despertar en el sujeto que responde actitudes insospechadas y que, casi seguro, no tendrán nada que ver con el atributo que se pretende medir. Del cumplimiento de estas consignas se debe derivar que entre el escritor de ítems y el que los responde haya un total acuerdo en el significado de lo que se pregunta. En su formato más simple un ítem está constituido por un tronco, enunciado o pregunta y, en el formato más frecuente, varias alternativas de respuesta: una es la respuesta correcta (o en su caso la más correcta) y los demás son los distractores. Frecuentemente esta unidad básica va acompañada por el planteamiento de algo (problema, texto, ilustración, diagrama.etc) que se utiliza como objeto sobre el que referir la/las pregunta/s. Cuando esto es así, el ítem va acompañado por una instrucción (en negrita) que dirige la actividad del sujeto a leer el texto, ver el gráfico y responder al/los ítem/s. Si esta referencia va acompañada por varios ítems que preguntan sobre ella se suele hablar de súper ítem. Esta estructura de ítem/s permite mayores posibilidades a la hora de preguntar sobre referentes de una cierta complejidad y evaluar procesos cognitivos distintos. Es recomendable evitar las frases incompletas como tronco del test y sustituirlas por enunciados declarativos o interrogativos. Porque estos son más consistentes con las alternativas, que además así estarán expresadas de forma más completa. Con ello se ponen en funcionamiento procesos cognitivos de nivel superior al de la simple memoria de rellenar el hueco o completar la frase. En los tests de ejecución máxima, se suelen utilizar alternativas de una única respuesta correcta, o bien de las que una de ellas es la mejor respuesta correcta o la más correcta. El primer tipo de alternativas suele requerir del sujeto el recuerdo de hechos o información, mientras que las del tipo de la mejor respuesta

correcta requieren de juicio y discriminación, consecuentemente son más difíciles y pueden ser utilizadas para mayor variedad de propósitos de medida. Hay que tener cuidado con el uso de determinantes o cualificadores en los ítems. No suelen ser recomendables por dotar de una cierta indefinición o subjetividad al ítem. Además pueden dar pistas sobre la respuesta correcta. El tronco o enunciado del ítem, como su parte fundamental debe contener la información necesaria y fundamental para comprender perfectamente la situación que se plantea y el tipo de respuesta que se pide. Para ello y como recurso práctico que facilite la congruencia entre el objetivo operativo propio de cada una de las casillas del cuadro de especificaciones del test; se suelen utilizar tablas que clasifican los verbos de acción y los objetos directos de esa acción que son pertinentes en función del nivel taxonómico cognitivo o afectivo pertinente para cada objetivo operativo del cuadro de especificaciones del test. Sin intentar ser exhaustivo, pero como ayuda o recurso práctico a utilizar mientras facilite la tarea de redactar ítems que respondan a la definición del contenido del dominio psicológico que se pretende medir.

3.- ELABORACIÓN DE LAS INSTRUCCIONES, ELABORACIÓN DEL MATERIAL DEL PRE TEST Y ELABORACIÓN DE LA CALIFICACIÓN: Una vez que tenemos los ítems listos necesitamos organizar la forma en que queremos que se haga el examen para cuidar al detalle los posibles detalles que hagan poco confiable nuestro test, las instrucciones deben ser claras y meditadas con cuidado pues afectan el rendimiento del evaluado.

INSTRUCCIONES GENERALES Lea cuidadosamente toda la prueba, antes de responder. Dispone de (tiempo) para resolver la prueba. Cuando se equivoque, borre y escriba la nueva respuesta.

No emplee bolígrafo para responder la prueba. Utilice un solo tipo de letra (cursiva o script). Escriba en forma legible Durante el examen no se permite el uso del diccionario, material de apoyo, consulta a los compañeros, ni celulares. Las instrucciones específicas están asociadas con el tipo de ítem de que se trate, deben ser tan concretas que permitan al estudiante responder sin dificultad. Son ejemplos de instrucciones específicas las siguientes: Escriba una equis (X) dentro del paréntesis que posee la respuesta correcta. Cada respuesta debe dársele una ponderación. En el espacio que se ofrece a la derecha, escriba la palabra que completa el texto.

EL TIEMPO. Si hay tiempo límite entonces surge la necesidad de distinguir entre test de velocidad y de fondo o potencia, según que en los errores cometidos -RR no correctas- prime la variabilidad en ítems a los que no se les ha dado ningún tipo de R -velocidad pura- o cuando prima la variabilidad en los ítems a los que se ha respondido y en cambio no oscilan mucho las RR a los ítems no respondidos. Hay que decidir si el factor tiempo es relevante al constructo que deseamos medir. Cuando el interés primario estriba en el grado de consistencia de la ejecución que podría haber sido observada si todos los examinados hubiesen terminado el test. El material  también debe ser elegido con criterio pues habrá algunos que nos permitan medir con mejor eficacia una variable que otros, por ejemplo si se quiere medir la capacidad geoespacial de un apersona, necesitaremos de ciertos elementos adicionales al lápiz y papel, por ejemplo figuras geométricas, reglas, etc.

El ensamblaje de la prueba. La prueba se organiza por partes, según el tipo de ítems. Debe considerarse en este punto de estructuración de la prueba, la complejidad de los ítems y de las labores que exigen al estudiante. De modo que los ítems aparecen ordenados dentro del examen de los más fáciles a los más difíciles.

La Calificación: Elegir el tipo de calificacipon a usar es un criterio que se debe ver según las caracterisica de nuestro constructo, las pruebas de ensayo pueden hacerse más efectivas al estructurar la tarea con claridad, de modo que la interpretación de una pregunte no varíe de manera significativa de un sujeto a otro. Es entonces que la calificación se basa en la calidad de la respuesta, este proceso de calificación debe ser lo más objetivo posible de forma que las calificaciones dependan menos de factores ajenos al contenido o impresiones y más al nivel de conocimiento y comprensión. La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere ciertos matices. Dado un formato de respuesta determinado (opción binaria, categorías ordenadas o adjetivos bipolares) es necesario cuantificar las posibles respuestas a un ítem teniendo en cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y opinión.

4.-APLICACIÓN AL GRUPO PILOTO.- El objetivo es evaluar la calidad psicométrica del test y así corregir algunos detalles que no se habían visto antes, así como por medios estadísticos seleccionar los ítems más válidos para medir un determinado constructo. Un ejemplo de aplicación a un grupo piloto fue el aplicado a doce mujeres las cuales reunieron las mismas características de la población en estudio, pero que no formaron parte de la muestra, con el objetivo de verificar la confiabilidad del instrumento utilizado, Cuando utilizamos un diseño experimental de comparación de grupos. Incluye un mínimo de dos grupos, uno recibe tratamiento y el otro no. Los sujetos se asignan

aleatoriamente a las condiciones experimentales y control, ya sea antes o después de la aplicación del pre test. Ahora bien, lo peculiar del mismo es la evaluación que se realiza antes y al final del tratamiento a los grupos experimental y control. Esto nos permite averiguar el efecto de la intervención, que viene dado por la cantidad de cambio que se ha producido desde la evaluación pre tratamiento a la post tratamiento. Este tipo de diseño se representará gráficamente de la siguiente forma: asignación aleatoria de los sujetos (R), observación o evaluación (0) e intervención experimental o tratamiento.

Capítulo III: 1.-APLICACIÓN DEL ANÁLISIS DE ÍTEMS Luego de seleccionar nuestra muestra y aplicarles el pre test obtendremos puntuaciones, estas nos servirán para desarrollar el test definitivo, pero para ellos debemos someter estas puntuaciones a un análisis para seleccionar los ítems más válidos. Puntuación de cada ítem: valor asignado a las respuestas de los sujetos en función del formato de los ítems Puntuación Total: En general la puntuación total será la suma de las puntuaciones obtenidas por el sujeto en cada ítem. La calidad métrica de los ítems se puede evaluar con el análisis de las respuestas de los sujetos a dos elementos importantes del ítem: la alternativa correcta y las alternativas incorrectas. Las respuestas a la alternativa correcta son las que ofrecen mayor información acerca de la calidad métrica del ítem.

4 (cuatro) criterios a tomar en cuenta: La Dificultad: se establece a priori y está en función del contenido y de la complejidad de las operaciones demandadas al sujeto para responder correctamente. La Discriminación: un ítem presenta poder discriminativo cuando es capaz de diferencias adecuadamente a los sujetos de diferentes niveles de una variable criterio. La Fiabilidad y la Validez, estrechamente relacionadas con la discriminación del ítem. El análisis de las respuestas a las alternativas incorrectas (análisis de distractores), informa sobre la utilidad de cada alternativa incorrecta en el ítem y de su contribución a la calidad del mismo. Parámetros de los ítems

Dificultad del ítem Se han propuesto varios estadísticos. El más utilizado y sencillo es el estadístico “p” (proporción de sujetos que responden correctamente al ítem).

Varía de 0 (ítem muy difícil) a 1 (ítem muy fácil). Los ítems con valores extremos deben ser descartados. Para ítems dicotómicos, el índice de dificultad coincide con la media de lo s sujetos en el ítem. Los ítems que mejor discriminan son aquellos que son respondidos correctamente por la mitad de los sujetos. El índice de dificultad depende de la muestra utilizada. Corrección para ítems de elección múltiple. Varianza de un ítem: pi.qi

Varianza del test: Sumatorio de p.q Media del test: Sumatorio de p

Discriminación del ítem El poder discriminativo del ítem se define como la capacidad del ítem para distinguir a los sujetos de alta, media y baja puntuación en un criterio. El criterio puede ser: Interno (el test y el ítem miden el mismo constructo) (el índice de discriminación se puede interpretar como Índice de Homogeneidad). Externo (la puntuación en otro test) (el índice de discriminación es una medida del grado de validez del ítem). Dos son los tipos de medidas utilizados con más frecuencia: El Índice De Discriminación Se basa en la información que proporciona la comparación del rendimiento de dos grupos extremos (bajo y alto) en las puntuaciones en el test. Se toma el 27 % de los sujetos de más baja puntuación y el 27 % de más alta puntuación en el test. D = 0 refleja que el ítem no discrimina adecuadamente. D > 0’40 refleja que el ítem tiene gran poder discriminativo.

Un valor negativo en D indicaría una disminución en la precisión del instrumento de medida.

Fiabilidad y validez del ítem Cuando el criterio es interno, el índice se denomina Indice de fiabilidad del ítem, IF, y se considera una medida de la precisión con la que el ítem mide el

constructo o dominio de interés. La fiabilidad del test se puede expresar en términos de los índices de fiabilidad de los ítems que lo componen. Cuando el criterio es externo, el índice recibe el nombre de Índice de Validez del ítem, IV, según la naturaleza del criterio se debe utilizar un coeficiente u otro (biserial-puntual, biserial, Pearson). La validez del test se puede expresar a través de los IV de los ítems. Comparación de las respuestas a los ítems Se produce esta situación cuando interesa estudiar la similitud de las respuestas dadas por un grupo de sujetos a dos ítems que presentan características similares. Dados dos ítems podemos plantearnos tres criterios: Si dos ítems miden lo mismo = su grado de homogeneidad Se calcula el estadístico Chi-Cuadrado. Se compara con el valor Chi-Cuadrado de con g.l. = (columnas-1)(filas-1). Si el estadístico > valor de tabla, entonces el grado de homogeneidad es significativo.  Analizar el grado de intensidad de dicha homogeneidad Se calcula el estadístico “p”

Es sencillo e insesgado. Si el grado de dificultad es el mismo Se calcula el estadístico Chi-Cuadrado. Se compara con el valor de la tabla Chi-Cuadrado con g.l. = (columnas-1)(filas-1). Si el estadístico > que el valor de tabla, entonces podemos concluir que hay diferencias significativas entre la dificultad de ambos ítem s.

Análisis de distractores En ítems de elección múltiple, pueden aparecer ítems con poca discriminación o con valores de dificultad extremos. Si se comprueba que el contenido y la redacción son adecuados, el paso siguiente es el análisis del funcionamiento de las alternativas incorrectas como distractores, para identificar aquellos defectuosos y eliminarlos. Las alternativas incorrectas se consideran distractores eficaces si cumplen las siguientes condiciones: ser elegidos por un mínimo de sujetos, ser aproximadamente igual de atractivos para los sujetos, que el rendimiento medio en el test de los sujetos en cada distractor sea inferior al de los sujetos que han elegido la respuesta correcta y a la media del test general de todos los sujetos, que discriminen entre los sujetos de baja, media y alta puntuación en el test, pero en el sentido contrario a como lo hace la alternativa correcta. Funcionamiento diferencial del ítem Cabe preguntarse si el test mide de la misma manera a todos los grupos de sujetos a los que se les aplica. Lo que se conoce como el problema del sesgo. Las diferencias entre grupos ¿reflejan diferencias reales o están causadas por fuentes sistemáticas de error? Estas fuentes sistemáticas de variación afectan a la validez de constructo. El estudio del sesgo consiste en el análisis de las posibles fuentes de variación sistemática. Para ello hay que diferenciar entre impacto y funcionamiento diferencial del ítem (fdi). Un ítem presenta impacto cuando existen diferencias en la puntuación media obtenida en ese ítem por dos grupos de sujetos con distinto nivel en el rasgo o característica que mida el test.

Un ítem presenta FDI cuando existen diferencias en la puntuación media obtenida en ese ítem por dos grupos distintos de sujetos pero con el mismo nivel en el rasgo o característica evaluada en el test.

2.- ELABORACIÓN DE LOS FACTORES Y FORMATO DEFINITIVO DEL TEST Para elaborar los factores del test se deberá primero terminar con la elección de los ítems para así constituir el formato final de la prueba, para esto se partirá de algunos criterios como, Seleccionar los ítems del pre test por sus índices de homogeneidad estadísticamente significativos, Se agrupará los ítems por sus valores “p” (el número de ítems en porcentajes para cada franja de valores “p”

aparece en la tabla anterior). Se reordenará los ítems de acuerdo a sus valores “p”, colocando en primer lugar al del valor “p” más cercano a 1 y así sucesivamente en forma descendente ha sta el último, que será el valor “p” más cercano a 0.

Siempre se debe hacer una última inspección para así detectar algunos ítems que no tengan la suficiente consistencia. Luego de tener una lista final de ítems se los distribuirá según los factores que midan, estableciendo un orden de sucesión, para cuidar de que dos ítems que se aproximan al mismo factor no estén juntos, y así ganar confiabilidad en el examen.

Ejemplo: De un test de autoestima. Factores que componen el constructo: - Ideas cognitivas negativas de sí mismo: el sujeto tiene una imagen negativa de sí mismo. - Incapacidad: el sujeto no se cree capaz de realizar nada con éxito.

- Valor de sí mismo: hace referencia a ideas cognitivas relacionadas del valor como persona, de su valía…es una id ea en relación con los demás. - Ideas cognitivas sobre otros: hace evaluaciones negativas sobre otros, se compara con ellos y tiene la tendencia a creer que quieren hacerle daño. - Ideas cognitivas negativas sobre el futuro: tiene la tendencia a pensar que el futuro no le reportará nada, que no tiene valor para él. - Ideas cognitivas negativas sobre el mundo: en el mundo no hay nada que valga la pena, todo lo que en él sucede es insoportable. - Ideas sobre imagen corporal: - Percepción del aspecto físico y valoración: - Importancia que los demás le dan: - Aspecto físico como medio de relación: - Adolescencia: - Carácter modificable des aspecto físico:

Capítulo IV: TIPIFICACIÓN DEL TEST, ELABORACIÓN DE LA VALIDEZ DEL TEST Y ELABORACIÓN DE LA CONFIABILIDAD DEL TEST.

Validez:  Es el grado de en la que una prueba mide lo que se trazó medir, si realmente está midiendo la variable elegida. Por ejemplo si queremos medir la percepción de las personas haremos que nos describan una figura, en cambio no nos serviría medir su estatura. La validez sirve para que las inferencias que sacamos de resultado de un test tengan sustento, y existen varios procedimientos de validación:

- Validez de Contenido: se refiere a la pertinencia y representatividad del contenido del test con respecto a la definición de la variable que se va a medir. La pertinencia se refiere a lo adecuado de los ítems elegidos para el test, y la representatividad a la equidad y adecuada cantidad de ítems para medir una variable. La limitación indiscriminada de los indicadores de la variable reduce la validez de la medición, además las definiciones de las variables extremadamente amplias aumentan la dificultad de seleccionar los indicadores de la variable, de ahí la importancia de utilizar las definiciones operacionales. Por ejemplo, cuanto más amplios son los objetivos educacionales, mayor será el número de indicadores incluidos en el test, de lo que se desprende que la pertinencia y representatividad del contenido deberán estimarse sobre la base de los objetivos educacionales. Par su a análisis se necesita de un recurso de expertos, El consenso entre los expertos en el contenido es un proceso judicativo y no es un procedimiento experimental. - Validez de constructo: Por medio de los constructos se puede explicar diferentes fenómenos psicológicos, un test trata de medir ese constructos de manera objetiva, la validez de constructo trata de garantizar la existencia de un constructo psicológico que subyaga y dé sentido y significado a las puntuaciones del test. Entonces para que un test sea válido debe medir en alto grado el constructo con el que fue elaborado el test. Por ejemplo, si queremos

analizar si un programa educativo aumenta la

capacidad artística de los niños en edad preescolar. La validez de constructo es una medida sobre si tu investigación realmente mide la capacidad artística, una calificación un poco abstracta. La validez de constructo es valiosa en las ciencias sociales, donde existe una gran cantidad de subjetividad de los conceptos. A menudo, no hay ninguna unidad

aceptada de medición para los constructos e incluso los bien conocidos, como el CI, están abiertos a debate. Por lo tanto, con una buena definición de constructo, podemos analizar la capacidad de constructo, una medida de qué tan bien las pruebas miden el constructo. Es una herramienta que permite a los investigadores realizar un análisis sistemático de lo bien diseñada que está su investigación. - validez predictiva: toma como criterio externo una medida que se obtendrá en el futuro y compara los resultados que un individuo obtiene en el momento actual con los que obtiene después de cierto tiempo. Esto se aplica tanto individualmente como colectivamente.

Confiabilidad:

Es la estabilidad en los resultados que se obtengan de la

aplicación de un test en una persona, y que estos resultados arrojen un valor que sea acorde con la situación real de la persona a quién se lo aplica.

La confiabilidad de un instrumento se refiere al grado en que un individuo obtiene un puntaje en una prueba que se apegue con exactitud a la verdadera situación de la persona con respecto a la variable que se mide y si la información que se proporciona sobre esa situación es coherente.

Cuando se aplica una prueba los resultados pueden depender de la posición de la persona con respecto a la variable que se mide, pero pueden depender también de otras situaciones ajenas a la variable. Por ejemplo el estado emotivo de la persona o las condiciones del ambiente o las instrucciones impartidas si se presentan una de ellas el test no sería confiable ni útil. Entonces un test es confiable cuando los resultados de un individuo dependen de su posición con respecto a la variable medida. La confiabilidad de una prueba puede obtenerse a través de distintos procedimientos empíricos, por ejemplo: - Comparar los puntajes de un sujeto en dos momentos distintos.

- Comparar los puntajes en dos pruebas distintas pero equivalentes. Comparando los resultados que en un estudiante obtiene en la medida realizada por dos observadores independientes pero que utilizan un mismo instrumento. - comparando los resultados obtenidos por un estudiante en cada una de las dos mitades de una misma prueba.

Una buena prueba es confiable, es decir es consistente y es precisa. pero muchas veces en aplicaciones sucesiva no se obtienen resultados equivalentes, por la confiabilidad se da en grados, Las diferencias en el desempeño de un sujeto en sucesivas ocasiones pueden estar causadas por diversas razones: distinta motivación en las diversas situaciones en que fue evaluado, distintos niveles de cansancio o de ansiedad, estar más o menos familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una persona no serán perfectamente consistentes de una ocasión a la siguiente y decimos que la medición contiene cierta cantidad de error. Este error de medición, aleatorio e impredecible, se distingue de los errores sistemáticos que también afectan el desempeño de los evaluados por un test, pero de una manera más consistente que aleatoria. Validez: Se refiere a lo que mide una prueba y no puede expresarse en general sino que debe consignarse el uso particular para el que se planea utilizar el instrumento. Todos los procedimientos utilizados para determinar la validez se interesan en las relaciones entre ejecución en las pruebas y otros factores observados independientemente de las características de la conducta considerada.

Coeficiente de validez

El coeficiente de validez es la correlación entre la puntuación de la prueba y la medida de criterio. Los datos empleados al calcular cualquier coeficiente de validez también pueden expresarse como tablas o gráficos de espectancias que muestran la probabilidad de que un individuo que obtiene cierta puntuación en la prueba obtenga un nivel especificado de desempeño en el de criterio.

Teoría de la decisión: Una característica de la teoría de la decisión es que las pruebas se evalúan en términos de su eficacia en una situación particular. La evaluación no solo toma en consideración la validez de la prueba para predecir un criterio particular, sino también otros parámetros como la tasa base y la razón de selección. Otro parámetro importante es la relativa utilidad de los resultados esperados.

2.- ELABORACIÓN DE LAS TABLAS NORMATIVAS DEL TEST Y DEL BAREMO DEL TEST Para interpretar los resultados de la aplicación un test a una persona realmente debemos compararlos con los resultados de un grupo normativo. Los baremos consisten en asignar a cada posible puntuación directa un valor numérico (en una determinada escala) que informa sobre la posición que ocupa la puntuación directa (y por tanto la persona que la obtiene) en relación con los que obtienen las personas que integran el grupo normativo donde se bareman las pruebas. Hay varias maneras de baremar las principales son: - Centiles y percentiles - Baremos cronológicos: Edad metal y Coeficiente intelectual. - Puntuaciones Típicas, estándares, normalizadas, escalas T y D, estaninos o eneatipos. La puntuación directa que un sujeto obtiene en un test (Xi) no tiene demasiado significado en sí misma al considerarla aisladamente. Para que lo tenga, debemos

conocer las medidas de tendencia central y de variabilidad que definen la variable medida en el grupo de origen y/o debemos compararla con las puntuaciones del resto de sujetos que constituyen la muestra sobre la que se obtuvieron las mediciones; es decir, hay que interpretar la puntuación directa de cada sujeto en relación con la del grupo normativo al que pertenece. Para poder hacer esto es necesario disponer de un baremo o escala normativa que no es más que una tabla de conversión donde se refleja la correspondencia entre las puntuaciones directas de los sujetos y las puntuaciones “estandarizadas” adecuadas par a cada grupo o tipo de población (habitualmente definida en términos de sexo y edad).

Escalas típicas normalizadas Están constituidas por las puntuaciones típicas (Zn) que les corresponderían a las puntuaciones directas de los sujetos (X) si la distribución de la variable analizada se ajustara (más o menos) a una distribución normal. Para calcularlas basta con conocer la media y la desviación típica de la variable en cuestión y aplicar la fórmula indicada arriba. Además, si disponemos de la tabla de la curva normal, podremos buscarlas en ella y descubrir así el porcentaje de sujetos de la población que quedan por encima y por debajo de ellas.

Los test nos permiten obtener datos cuantitativos y cualitativos, arrojan resultados que en sí mismos (puntuaciones brutas) no dos dicen mucho, pero obtener más información cuando la comparamos con los resultados obtenidos por otros grupos, así podemos interpretarla. Existen dos formas para comparar los resultados, dependiendo de la forma en que ha sido construido el test (por normas o por criterios), son las siguientes: a. Normas. Se compara al sujeto con un grupo de referencia (otros sujetos). b. Criterios. Se compara al sujeto con respecto a un objetivo a lograr (lo puedo comparar consigo mismo), hasta que punto se la logrado o no el objetivo

propuesto (p.e. en lugar de comer una tableta de chocolate comer solo dos onzas al día). La mayor parte de los test están construidos en base a normas, fundamentados en la teoría clásica de los test. Por lo tanto:

1. Se posiciona al sujeto dentro de un colectivo, un grupo de referencia en cuanto a una característica. Existen diferentes formas de posicionar al sujeto, por medio de percentiles, desviación típica... 2. Los resultados obtenidos se comparan y el sujeto adquiere una posición relativa a un grupo de referencia (grupo normativo). Los test basados en criterios tienen las siguientes características: 1. Se construyen y aplican con el fin de saber si un sujeto ha conseguido el objetivo o no. 2. Para diferenciar si un sujeto se puede catalogar como apto o no para una tarea determinada. 3. Clasifico en base a la puntuación obtenida por el sujeto (lo comparo consigo mismo). 4. Existen diferentes tipos de población por lo que se utilizan puntos de corte, es decir, puntuaciones que diferencian, p.e. a un depresivo de un no depresivo, es el punto donde se divide la población (hasta aquí es normal...), diferencia la población normal de la clínica. También existen diferencias en cuanto a cómo se hace la comparación y las inferencias: - Normas. Juega un papel primordial la varianza, lo que se busca es una diferenciación, hacer una discriminación entre sujetos del mismo. Por ejemplo, cuando se utiliza la campana de Gauss para obtener la nota de un examen, la puntuación se obtiene en base a las notas del mismo grupo.

- Criterios. Se trata de que todos los sujetos puedan llegar al objetivo, no importa la varianza. En los tipos de test hay que encontrar la fiabilidad pero en: a. Los test basados en criterios, se hace énfasis en que la fiabilidad se da en las clasificaciones que hago en base a los criterios. b. Los test basados en normas, la fiabilidad está en las medidas que tomamos (un test es fiable si la medida es fiable).  Ambos tipos no son excluyentes, se pueden complementar. ¿Para qué sirven los test normalizados? Para transformar las puntuaciones brutas en puntuaciones indirectas, es decir, para comparar a un sujeto con el grupo. Tipificar, es el establecimiento de las normas que nos va a permitir comparar. Las normas se extraen siempre del promedio de actuación de un grupo de referencia (grupo normativo) al que tiene que pertenecer el sujeto o en base a la muestra de normalización, pero debe ser realmente representativa de su población de referencia. Para tipificar un test se siguen los siguientes pasos: 1. Acotar la población a la que va dirigida el test. 2. Elegir una muestra normativa (parte representativa de la población) para poder hacer inferencias a la población. 3. Para elegir la muestra utilizamos un muestreo (proceso de elección de muestra, extrayéndola de la población). Para hacer el muestreo se utilizan diferentes métodos: probabilístico, intencional u opinático, circunstancial o errático, etc.; y a su vez existen diferentes técnicas para llevarlo a cabo: aleatorio simple, por etapas, estratificado, etc.

4. Establecer normas de comparación (edad, sexo, grado, nivel socioeconómico, cultura) 5. Aplicar el test. 6. En base a las normas se analiza la forma de actuación del grupo normativo y obtiene la media de actuación. Los métodos más usados para describir la posición de un sujeto respecto al grupo son: a. Puntuación típica (z). b. Rangos percentiles. Son más fáciles de usar e interpretar pero no son exactos en la posición, conllevan más errores. Puntuación típica (z), es el número de desviaciones típicas (relación directa con las puntuaciones brutas) con respecto a la medida que tiene un sujeto. Está puntuación típica (z) significa lo mismo en cualquier distribución, también en diferentes grupos y variables. Se puede comparar un test con otro y tenemos una posición exacta de la persona (cuánto se dispersa su grupo). La media de una puntuación z es igual a cero. Baremos, tablas de comparación, de transformación de puntuaciones. Están construidos en base a una o varias escalas normativas (se aplican a un grupo o muestra y en base a ella luego se hacen inferencias para la población). Existen diferentes tipos: a. Cociente intelectual (CI). Se trata de comparar la edad cronológica (EC) con la edad mental (EM). Es la media de actuación de cada edad, punto de referencia. En base a ese promedio, por ejemplo, sabemos que un niño de 6 años que ha obtenido 8 puntos está en la media esperada para su edad, si saca 10 puntos está por encima de la media de su edad y tiene una edad cronológica de actuación de un niño de 8 años. CI = (EC/EM) x 100

Ventajas: el CI tiene un uso universal y una interpretación generalizada. Desventajas: el desarrollo es diferente según la edad y la interpretación es diferente, el CI es dependiente de eso. Es difícil ver las diferencias después de los 18 años. b. Escalas centiles. Ordenan al grupo, respecto a la actuación que todos los sujetos tienen. Pueden ser centiles o percentiles. Los percentiles son bastante usados pero son poco estables. Son porcentajes y no tienen equivalencia unos con otros, solo se pueden comparar los que son de la misma distribución y variables. Por ello, se utilizan las puntuaciones típicas z, pues son transformaciones lineales, el sujeto mantiene la misma posición, nos da una idea exacta de la puntuación del sujeto. Puede comparar entre grupos, dentro del mismo grupo, con el propio sujeto, comparar una variable con otra, se pueden hacer múltiples comparaciones. La desventaja es que z tiene un valor de + 3, es un límite muy corto, no son enteras las puntuaciones, se pueden tener puntuaciones negativas y son más difíciles de interpretar por ello se utilizan menos. c. Puntuaciones típicas normalizadas (Zn). Son puntuaciones transformadas y normalizadas, se ajustan a la curva normal. Pueden ser eneatipos o estaninos (media 5 y desviación típica 2), puntuaciones de 0 a 9, y decatipos (media 6 y desviación típica 2), puntuaciones de 1 a 10. Un decatipo se puede comparar con otro, es más estable que el percentil. Son fáciles de interpretar y son positivas.

Capítulo V Elaboración del Manual del Test

Una vez que hemos acabado con todos los pasos debemos elaborar un manual para que el test pueda ser aplicado por cualquier psicólogo o profesional interesado pero preparado, en este debemos incluir las instrucciones asi como la teoría en la que se apoya nuestro test, también debemos incorporar datos como la confiabilidad y la validez así como los baremos, en el debemos describir nuestro test, describir los materiales que incluye, normas de aplicación y corrección, así como las normas de interpretación, se deberá ser lo suficientemente extenso para explicar todos estos aspectos, cuidando de ser minucioso y claro.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF