Psicometria e clinimetria
Margarida Pocinho
LIÇÕES DE PSICOMETRIA:
2014
Margarida Pocinho
Página i
Psicometria e clinimetria
Índice
Psicometria ............................................................................................................... 4 Directrizes Internacionais para a Utilização de Testes ........................................................6 Conceber o instrumento de observação .......................................................................... 10 Planificação e construção de um questionário/ teste ....................................................... 10 Construção e padronização de instrumentos de medida .................................................. 11 A administração ................................................................................................................................. 15 Testar o instrumento de observação ................................................................................................. 17 Estudo Piloto ...................................................................................................................................... 45 Estratégias estatisticas de análise de dados ...................................................................................... 45
ANEXOS: ..........................................................................................................................6 INTERNATIONAL TEST COMMISSION ................................................................................................... 7
GUIÃO DE ARTIGO DE REVISÃO DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA GUIÃO DE APRESENTAÇÃO DAS DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA
Margarida Pocinho
Página ii
Psicometria e clinimetria
Quadro 1: grelha de decisão dos testes ............................................................................ 48 Quadro 2: grelha de decisão dos testes psicométricos ..................................................... 50
Figura 1: Opções de Medida............................................................................................ 11 Figura 2: construção de um questionário de raiz ............................................................. 12 Figura 3: etapas da construção de uma escala ................................................................. 13 Figura 4: adaptação de um questionário ao contexto cultural ......................................... 14 Figura 5: o processo de adaptação cultural ...................................................................... 14 Figura 6: identificar os testes estatisticos ........................................................................ 46
Margarida Pocinho
Página iii
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
PSICOMETRIA
Em termos etimológicos, Psicometria provém do grego psyké, que significa alma, e metron, que significa medida ou medição, e é uma área da Psicologia que faz a ponte entre a Estatística e a Psicologia. Sua definição consite no conjunto de técnicas utilizadas para mensurar, de forma adequada e comprovada experimentalmente, um conjunto ou uma gama de comportamentos que se deseja conhecer melhor. O Psicólogo psicometrista possui, no seu ambito de actuação e formação, características que lhe permitem manusear os testes psicológicos de acordo com alguns critérios básicos. Estes são: Validade, Fidedignidade e Padronização. Qualquer teste que se preste à validação e, posteriormente ao uso, deve ser fruto de pesquisas nessa área. A evolução da pesquisa científica baseada no cálculo em Psicologia é pouco incerto em sentido estrito, porém sabe-se que (sir) Francis Galton foi o fundador do primeiro laboratório voltado às medições antropométricas1, em Londres, no ano de 1884. "Ele entendia que a discriminação sensorial era a base do desempenho intelectual, e que medidas adequadas, neste sentido, seriam capazes de indicar diferenças entre os mais e os menos capazes (Anastasi, Psychological testing, 1988). Hermann Ebbinghaus, no ano de 1885, começa os primeiros estudos experimentais sobre a memória. Com base nas suas experiencias, Ebbinghaus formulou coeficientes sobre como se dá a aquisição de memória a partir de um conjunto de letras ordenadas de forma não-lógica. Se a realização de experimentos deu à psicologia o seu status de ciência, a inserção profissional ocorreu através da avaliação psicológica. O exemplo mais emblemático, neste sentido, é a contribuição de Ebbinghaus que serviu de modelo para construção de itens em avaliação psicológica. Contudo, a teoria que iria fundamentar a prática de avaliação psicológica estava já sendo delineada na Inglaterra sob influência da teoria da evolução de Charles Darwin, atravéz de Galton, primo de Darwin.
1
A antropometria trata das medidas físicas do corpo humano
Margarida Pocinho
Página 4
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
No Reino Unido, Galton conheceu James McKeen Cattell (1860-1944) e, juntos, formularam, pela primeira vez, provas que consistiam em medidas de discriminação sensorial, de tempo e de reacção. Em sentido diferente e por diversas críticas que estes possuiam dos testes anteriores de inteligência, o francês "Alfred Binet (1857-1911) e seu parceiro Théodore Simon desenvolveram, a pedido da comissão francesa para a investigação dos interesses da educação, o primeiro teste de inteligência para diferenciar crianças retardadas e crianças normais em seus mais variados graus" (Passarelli, 1995). Esta escala de classificação tem sua data de origem em 1905 e, desde então, sofreu diversas modificações na sua origem e no seu nome. Actualmente, apesar das variações e versões (Long ou short), ele é conhecido como Teste Stanford-Binet de Inteligência. A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e humanos, cujo objectivo primordial é a medição de tais fenómenos. É um processo de inquirição para a compreensão de um problema, enquadrado por uma teoria composta de variáveis medidas com números e analisada através de procedimentos estatísticos, tendo em vista determinar se para um dado nível de probabilidade, podem os dados serem generalizados. Estes métodos pressupõem a quantificação de dados através de estatísticas padronizadas e a interpretação de dados, segundo a técnica estatística, que, por sua vez, pressupõe a colheita de dados (amostragem), a verificação dos dados (validade) e a interpretação dos dados (correlação, associação, diferenças, aderências, etc.). “A PSICOMETRIA (Medidas em Psicologia) é um ramo da Psicologia que se utiliza dos conhecimentos da Estatística para a mensuração dos fenómenos psicológicos (construtos) de um indivíduo ou grupos, suas habilidades, aptidões, atitudes, conhecimentos,
inteligência
ou
traços
de
personalidade.
É
uma
disciplina
iminentemente técnica, com seus próprios fundamentos teóricos. Sua principal aplicabilidade é na testagem e na avaliação psicológica” (LAP- Laboratório de Avaliação Psicológica, 2007, p. 1).
Margarida Pocinho
Página 5
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
DIRECTRIZES INTERNACIONAIS PARA A UTILIZAÇÃO DE TESTES
Em 1992, a International Test Comission (ITC) iniciou um projecto para preparar orientações para a tradução e adaptação de testes e instrumentos psicológicos. Várias organizações ajudaram o ITC na preparação daquelas directrizes: European Association of Psychological Assessment, European Test Publishers Group, International Association for Cross-Cultural Psychology, International Association of Applied Psychology, International Association for the Evaluation of Educational Achievement, International Language Testing Association and International Union of Psychological Science. . Uma comissão de 12 representantes destas organizações trabalharam durante vários anos para preparar 22 orientações e, posteriormente, essas directrizes foram testadas em campo (ITC-International Test Commission, 2008). Em 1999 o Conselho da International Test Commission (ITC) dos Estados Unidos e a Task Force on Tests and Testing da European Federation of Professional Psychologists Associations (EFPPA) adoptaram um conjunto de Directrizes, oficialmente publicadas por ocasião da Assembleia Geral da ITC, em 24 de Julho de 2000, em Estocolmo (ver anexo). As directrizes, foram organizadas em quatro categorias: 1. Contexto a. Os efeitos das diferenças culturais que não são relevantes para os objectivos do estudo devem ser minimizados b. A duplicação de construtos a medir nas populações de interesse deve ser avaliada. 2. Construção, desenvolvimento e Adaptação a. Os autores do Teste/ editores devem garantir que o processo de Construção, Desenvolvimento e Adaptação tem em conta as diferenças linguísticas e culturais entre as populações para as quais os instrumentos adaptados ou as versões se destinam b. Os autores do Teste/ editores deverão fornecer provas de que a linguagem de todas as instruções, as rubricas e itens, bem como o manual
Margarida Pocinho
Página 6
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
são adequadas para todas as culturas e populações para os quais o teste ou instrumento se destina. c. Os autores do Teste/ editores devem apresentar provas de que a escolha das técnicas de testagem, formatos dos itens, protocolos e procedimentos são familiares a todas as populações se destina. d. Os autores do Teste/ editores deverão fornecer provas de que o conteúdo dos itens e materiais orientadores são familiares a todas as populações se destina. e. Os autores do Teste/ editores devem implementar uma avaliação sistemática, tanto linguística como psicológica, para melhorar a precisão do processo de adaptação e compilar evidências acerca da equivalência linguistica. f. Os autores do Teste/ editores devem garantir que o projecto de recolha de dados permite o uso de técnicas estatísticas adequadas para estabelecer equivalência entre os itens das diferentes versões linguísticas do teste ou instrumento. g. Os autores do Teste/ editores devem aplicar técnicas estatísticas adequadas (1) estabelecer a equivalência entre as diferentes versões do teste ou instrumento, e (2) identificar as componentes ou aspectos problemáticos do instrumento que podem ser inadequados para uma ou mais das populações a que se destinam h. Os autores do Teste/ editores devem fornecer informações sobre a avaliação da validade em todas as populações-alvo para quem a versões adaptadas são destinados. i. Os autores do Teste/ editores devem fornecer dados estatísticos da equivalência das questões para todas as populações a que se destina. j. Questões não equivalentes entre as versões destinadas a diferentes populações, não devem ser usadas na preparação de uma escala comum ou para comparar essas populações. No entanto, elas podem ser úteis no aumento da validade de conteúdo reportado a cada população.
3. Administração a. Os autores do Teste e administradores devem tentar antecipar os tipos de problemas que podem ser esperados, e tomar as medidas apropriadas Margarida Pocinho
Página 7
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
para corrigir esses problemas através da preparação de materiais e instruções adequadas. b. Os administradores dos testes devem ser sensíveis a uma série de factores relacionados à compreensão dos materiais, procedimentos administrativos, e os modos de resposta que podem influenciar a validade das inferências que se podem retirar dos scores c. Os factores ambientais que podem influenciar os resultados de um teste ou instrumento dvem ser semelhantes entre as populações para que as diferenças não sejam atribuídas a esses factores d. Instruções para administração do teste devem estar nos idiomas de origem e de destino para minimizar a influência de fontes indesejáveis de variação entre as populações. e. O manual do teste deve especificar todos os aspectos da administração que exigem uma análise do novo contexto cultural. f. O administrador deve ser discreto e a sua interação com o examinado deve ser minimizada. As regras explícitas que são descritas no manual de administração devem ser seguidas
4. Documentação / Intrepretação dos Scores a. Quando um teste ou instrumento é adaptado para uso noutra população, a documentação das mudanças devem ser fornecidos, junto com a prova da equivalência. b. As diferenças de pontuação entre as amostras a quem foi administrado o teste ou instrumento não devem ser tomada pelo valor absoluto dos scores. O pesquisador tem a responsabilidade de justificar as diferenças com outras evidências empíricas. c. As comparações entre as populações só podem ser feitas ao nível da invariância que foi estabelecida para as pontuações da escala. d. O autor do teste deve fornecer informações específicas sobre a forma em que os contextos socioculturais e ecológicos das populações podem afectar o desempenho, e deve sugerir procedimentos para explicar esses efeitos na interpretação dos resultados.
Margarida Pocinho
Página 8
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Estas diretrizes tornaram-se um quadro de referência para muitos psicólogos que trabalham na área da tradução e adaptação dos testes. A Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a Utilização de Testes agrupou colaboradores da Faculdade de Psicologia e de Ciências da Educação/Universidade do Porto, do CEGOC-TEA, Departamento de Educação e Psicologia/Universidade do Minho, da Faculdade de Psicologia e de Ciências da Educação/Universidade de Lisboa, da Faculdade de Psicologia e de Ciências da Educação/Universidade
de
Coimbra
e
do
Instituto
Superior
de
Psicologia
Aplicada/Lisboa e produziram um manual que foi editado pela CEGOC-TEA, com autorização da Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a Utilização de Testes, mas como a sua venda é proibida. Se tiver necessidade de consultar o documento contacte António Menezes Rocha, Director Associado do CEGOC-TEA através do e-mail:
[email protected]. O original das directizes pode ser consultado no anexo 3. É hoje comum que estudantes académicos, profissionais de saúde, profissionais da área social e outros adultos, crianças ou idosos consultem um psicólogo para que este o avalie,
sobretudo
se
existem
dificuldades,
ou
se
de
algum
modo
as
atitudes/comportamentos se afastam um pouco da normalidade. Em regra, o psicólogo começa por ouvir quem o procura ou aqueles que sabem ou podem fornecer dados necessários à construção de uma história clínica. Assim, no inicio são recolhidas informações (desenvolvimento físico e emocional) que dão sentido a todos os resultados que se obtêm posteriormente na avaliação psicométrica. Não se pode avaliar ninguém, sem enquadrar devidamente essa avaliação na história pessoal do sujeito avaliado. Além disso, quaisquer interpretações de testes requerem uma longa preparação teórica, que só um psicólogo tem acesso. Em Portugal, para além das directrizes supra citadas, ainda não existem regras que regulem a utilização dos testes psicométricos. Existem, de facto, testes psicométricos que todos conhecem e que por vezes efectuam, até por brincadeira. São testes que permitem avaliar, factores quer da personalidade, quer da inteligência, mas que não devem ser analisados fora do contexto da sua utilização: académico, clínico, social, organizacional, etc..
Margarida Pocinho
Página 9
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
CHEGOU A VEZ DE APLICAR AS NOÇÕES ESTUDADAS, NESTA ETAPA, AO SEU PRÓPRIO TRABALHO. COMECE POR PESQUISAR ESCALAS DE MEDIDA PARA PODER APLICAR E DAR INICIO A UM TRABALHO DE PSICOMETRIA QUE ORIGINARÁ UM ARTIGO CIENTIFICO SOBRE ESSA TEMÁTICA.
CONCEBER O INSTRUMENTO DE OBSERVAÇÃO
A primeira operação da fase de observação consiste em conceber um instrumento capaz de produzir todas as informações adequadas e necessárias para testar as hipóteses. Este instrumento será frequentemente, mas não obrigatoriamente, um Exame de diagnóstico, uma escala, um questionário ou um guião de entrevista. Alguns deles requerem, por vezes, um pré-inquérito como complemento da fase exploratória.
PLANIFICAÇÃO E CONSTRUÇÃO DE UM QUESTIONÁRIO/ TESTE Para se compreender qualquer actividade humana complexa é necessário dominar a linguagem e o tipo de abordagem que lhe é feita pelos tipos que a realizam. O mesmo acontece quando se trata de compreender a investigação científica. É necessário que se compreenda, pelo menos em parte, a linguagem científica e os métodos a que a ciência recorre para resolver os problemas. A planificação e construção de um teste é de interesse neste ponto porque, possibilitanos um modo de obter informações, as pessoas reagem a uma quantidade de estímulos estruturados, isto acontece essencialmente na pesquisa comportamental. Um teste é um procedimento sistemático em que se apresenta, aos indivíduos, um conjunto de itens que medem um atributo. Estas pesquisas possibilitam ao investigador atribuir scores individuais, que presumivelmente indicam o grau em que os indivíduos possuem o atributo que está a ser medido. A construção de um teste vai da validação, fidedignidade, aferição até à padronização. Quando construímos um questionário temos de ter atenção às normas a ter em conta na
Margarida Pocinho
Página 10
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
sua construção, à selecção dos itens, à administração padronizada, aos obstáculos que se nos colocam bem como a forma mais eficiente de construção e administração.
Por isso, o primeiro passo é decidir o que queremos e como queremos medir, não perdendo de vista a qualidade da medida (fig.1)
FIGURA 1: OPÇÕES DE MEDIDA
CONSTRUÇÃO E PADRONIZAÇÃO DE INSTRUMENTOS DE MEDIDA Questionário é uma ferramenta desenhada para obter e documentar exposições, ou para guiar a obtenção e a documentação de exposições, a serem lembradas pelos sujeitos de um estudo epidemiológico (Pocinho, 2007; White, Armstrong, & Saracci, 1992). Há duas técnicas predominantes para o desenvolvimento de escalas multi-itens de medidas de saúde: a clinimétrica e a psicométrica. A primeira, usada na prática clínica, assenta no julgamento de pacientes, médicos e outros profissionais a respeito de fenómenos clínicos, que abrangem várias características ou atributos dos pacientes, não relacionados entre si. A estratégia psicométrica, usada em psicologia e em testes de inteligência, sustenta-se em técnicas estatísticas e tem como objectivo (não exclusivo) desenvolver uma escala (ou escalas múltiplas) que meça características ou atributos
Margarida Pocinho
Página 11
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
únicos do indivíduo (Pocinho, 2007; Marx, Bombardier, Hogg-Johnson, & Wright, 1999; Wright & Feinstein, 1992) O desenvolvimento da escala, para ambas as estratégias, é feito em dois estágios: a construção e a redução de itens, sendo que a diferença se opera no último estágio. A construção de itens, semelhante para as duas, define o conteúdo do instrumento e assegura que todas as variáveis importantes sejam consideradas para inclusão na escala. A partir da base conceptual do que se deseja medir, chega-se aos diferentes domínios ou dimensões que explicam o fenómeno; define-se o conteúdo da escala e garante-se que todos os tópicos importantes sejam incluídos. Os itens são provenientes de múltiplas fontes: julgamento clínico/individual do profissional, pesquisas anteriores, opiniões de pacientes, consenso de especialistas ou modelos estatísticos. O conteúdo da escala é a primeira etapa, e os itens individuais são seleccionados tendo em vista medir os atributos que podem explicar o fenómeno. No final, o conjunto dos itens deve ser ajuizado para se verificar se existe uma representação adequada de todos os aspectos pertinentes do fenómeno em estudo (fig. 2)
Construção
CLINIMETRIA
PSICOMETRIA
TÉCNICAS ESTATISTICAS
JULGAMENTO DE PACIENTES, MÉDICOS E OUTROS PROFISSIONAIS A RESPEITO DOS FENÓMENOS CLINICOS
FIGURA 2: CONSTRUÇÃO DE UM QUESTIONÁRIO DE RAIZ
A redução de itens elimina itens redundantes ou inapropriados, diminuindo o número a um total que seja praticável de administrar, assegurando, ao mesmo tempo, que a escala meça o constructo ou o fenómeno clínico de interesse. A forma de se proceder à redução é diferente em cada estratégia (fig. 3).
Margarida Pocinho
Página 12
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
FIGURA 3: ETAPAS DA CONSTRUÇÃO DE UMA ESCALA
Na clinimétrica, as avaliações dos pacientes determinam quais os itens que deverão ser incluídos na escala final; após hierarquização dos itens segundo o seu impacto, serão incluídos na escala final os itens mais importantes e de maior frequência ou severidade, conforme avaliado pelos pacientes, respeitando-se a multidimensionalidade do constructo. Todas as dimensões que ajudam a explicar o constructo (ou o fenómeno clínico que se quer medir) devem estar representadas na escala final. Na psicométrica, são usadas várias técnicas estatísticas para reduzir o número de itens e distribuí-los em dimensões: matriz de correlações, Alpha de Cronbach, Análise Factorial e outras (Pocinho, 2007). O desenvolvimento da mensuração é fruto de uma transformação e evolução global ao longo de vários séculos. Concorrem nesse desenvolvimento as transformações que foram ocorrendo nas próprias sociedades, o desenvolvimento das ciências, as sucessivas mudanças sociais, culturais e económicas e por último na própria forma de ver o Homem ao longo deste últimos vinte séculos. Se optarmos por adaptarmos um instrumento em vez de construirmos de raiz, então o processo de validação tem outros trâmites (fig. 4).
Margarida Pocinho
Página 13
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Adaptação transcultural
TRADUÇÃO E ADAPTAÇÃO AO NOVO IDIOMA
ADAPTAÇÃO AO NOVO CONTEXTO CULTURAL
JURI BILINGUE
JULGAMENTO MULTIDISCIPLINAR
FIGURA 4: ADAPTAÇÃO DE UM QUESTIONÁRIO AO CONTEXTO CULTURAL
Em vez da construção dos itens e respectiva preocupação com o conteúdo e as fontes que os produzirão, precede-se à tradução e adaptação quer à língua, quer a todo o contexto cultural que envolve a medida e que podemos sintetizar o processo de adaptação cultural da seguinte forma (fig 5).
FIGURA 5: O PROCESSO DE ADAPTAÇÃO CULTURAL
Como já referimos, a construção de um teste pressupõe regras claras, sem ambiguidades, condição essencial para se obter um bom instrumento de medida. Isto exige-nos uma atenção redobrada, medir torna-se pois num aspecto essencial dos testes mas é necessário que não se confundam, nem se misturem atributos. Torna-se
Margarida Pocinho
Página 14
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
imprescindível que cada medida meça apenas um atributo. A definição dessas regras é o que se chama de padronização Uma das componentes das escalas é o facto de serem constituídas por um grande número de itens. Com efeito inicialmente há necessidade de uma grande pool de itens para depois se proceder à sua redução, que é por vezes três a quatro vezes menor na versão final. A forma inicial de escolha de itens pode ser, por um lado pela validade facial, ou seja, por aquilo que aparentemente parecem ter a ver com o que pretendemos testar, por outro, podem ser requeridos a um júri que pode ser constituído por cientistas ou profissionais do âmbito do nosso estudo, que com autoridade podem indicar ou rever os itens que estarão ligados ao nosso estudo. Quanto ao tipo de itens, estes podem ser abertos/fechados ou restritos. Os primeiros utilizam-se quando pretendemos respostas do tipo projectivo. As suas vantagens situam-se no facto de desejarmos por exemplo conhecer as habilidades e processos que um indivíduo ao ser testado usa para chegar à resposta. Os itens restritos, são aqueles de escolha forçada (verdadeiro-falso/escolha múltipla), as vantagens situam-se ao nível da relativa rapidez e objectividade na correcção que efectuamos. As principais desvantagens dos itens restritos, é o facto de estes poderem ser facilmente avaliados, mas estão sujeitos à aleatoriedade das respostas. No caso dos itens abertos/fechados, a principal desvantagem ou dificuldade situa-se ao nível da pontuação pois esta torna-se mais demorada. Para que este instrumento seja capaz de produzir a informação adequada deverá conter perguntas sobre cada um dos indicadores previamente definidos e formulá-las com um máximo de precisão. Mas esta precisão não é obtida imediatamente, é necessário testar o instrumento de observação.
A ADMINISTRAÇÃO A administração é conjuntamente com a selecção dos itens, uma das fases mais importantes para que este se torne num excelente meio de medição, ou seja, que tenha
Margarida Pocinho
Página 15
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
óptimas qualidades psicométricas. A objectividade requerida num teste é-lhe conferida pela padronização, criando-lhe condições, do mais uniforme possível, para os indivíduos examinados com o mesmo teste (Freeman, 1980). O teste ao ser administrado, deve ser feito de forma definida, sob condições uniformes, a uma amostra de examinados, representativa do grupo a que se destina (Aiken, 1982). É deste grupo que se estabelece as normas, ou seja a amostra de padronização. Nunnally refere que amostra de padronização deve conter no mínimo 300 indivíduos, sendo aconselhável uma amostra de 1000 sujeitos, ou ainda mais se possível (Nunnally, 1978). Bryman e Cramer não referem um numero fixo, mas uma relação de 3 a 5 indivíduos por variável (Bryman & Cramer, 2003), o que nos parece mais lógico, uma vez que diferencia escalas de 10 itens das escalas com 100. Autores como Golden, Freeman Aiken e Anastasi, alertam-nos para a necessidade de padronizar as condições circundantes de administração, assim questões como legibilidade, cor, forma tamanho, etc., tornam-se essenciais no pré-teste, pois podem provocar diferentes interpretações e variações na resposta que se pretende. O pré-teste não é mais do que “um processo de selecção, rejeição, adição e refinamento dos itens, e sua localização na escala em função do nível de dificuldade. Torna-se importante observar se os sujeitos compreendem as questões, se a administração é difícil, bem como o tempo que demora a responder ao teste, isto porque nem sempre é possível fazer o tipo de administração planeado (Anastasi, Testes psicológicos, 1977; Freeman, 1980; Aiken, 1982; Golden, Sawicki, & Franzen, 1984). Um dos aspectos essenciais na questão da padronização de um teste, é o facto de esperar que diferentes pessoas a quem o teste possa ser administrado, medindo o mesmo atributo, em termos de resultados, possam ser semelhantes. É essencial compreendermos a necessidade de existirem normas para a compreensão dos resultados de um teste, a amostra da padronização deve ser representativa da população, o que nos vai dar os valores de realização média dessa população. A distribuição dos resultados situa na curva de distribuição normal. A exigência de objectividade de um teste deste tipo, obriga, por facilidade de interpretação a que sejam fornecidas tabelas com os valores médios obtidos na população a quem passamos o pré-teste, ou mesmo de uma população específica onde o teste foi empregue. É essencial realizar-se estudos preliminares para ver se determinado
Margarida Pocinho
Página 16
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
tipo de teste é adequado a uma população que desejamos estudar, e essa adequação pode ser dada pelas medidas padronizadas. As normas e distribuição dos resultados são afectadas pela representatividade da amostra, bem como o podem ser pela proporção de cada sexo, distribuição geográfica, nível socioeconómico e idade. A padronização da administração é pois um aspecto essencial na planificação e construção de um teste, antes mesmo de ver a garantia que esse teste nos oferece, bem como a sua validade e adequabilidade.
TESTAR O INSTRUMENTO DE OBSERVAÇÃO A exigência de precisão varia consoante se trate de um questionário ou de um guião de entrevista. O guião de entrevista é o suporte da mesma. Mesmo quando está muito estruturado, fica nas mãos do entrevistador. Pelo contrário, o questionário destina-se frequentemente à pessoa interrogada; é lido e preenchido por ela. É, pois, importante que as perguntas sejam claras e precisas, isto é, formuladas de tal forma que todas as pessoas interrogadas as interpretem da mesma maneira. Num questionário dirigido a jovens e tendo por objecto a prática do desporto encontrava-se a seguinte pergunta: «Os seus pais praticam desporto?» Esta pergunta parece simples e clara e, no entanto, está mal formulada e conduz a respostas não utilizáveis. Em primeiro lugar, a palavra pais é imprecisa. Trata-se do pai e da mãe ou de um conjunto familiar mais alargado? Depois, que responder se apenas um deles pratica desporto? Uns responderão «sim», pensando que basta que um deles seja desportista; outros dirão «não», achando que a pergunta abrange ambos. Assim, para designar o mesmo estado de coisas obter-se-ão «sins» nuns e «nãos» noutros. Estas respostas não eram utilizáveis e toda a parte da investigação que andava à volta desta pergunta deve de ser abandonada. Além da exigência de precisão, é ainda necessário que a pessoa interrogada esteja em condições de dar a resposta, que a conheça e não esteja constrangida ou inclinada a escondê-la. Para nos assegurarmos de que as perguntas serão bem compreendidas e as respostas corresponderão, de facto, às informações procuradas é imperioso testar as perguntas. Esta operação consiste em apresentá-las a um pequeno número de pessoas pertencentes às diferentes categorias de indivíduos que compõem a amostra. Neste processo pode
Margarida Pocinho
Página 17
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
descobrir-se que um termo como «eutanásia» não é compreendido por toda a gente. Pode também chegar-se à conclusão que existem perguntas que provocam reacções afectivas ou ideológicas e cujas respostas deixam de ser utilizáveis. Por este meio identificam-se ainda outros tipos de perguntas, como aquelas às quais as pessoas não gostam de responder e, por conseguinte, se forem absolutamente necessárias é preferível não as colocar no início do questionário, pois pode influenciar a resposta às seguintes (Quivy & Campenhoudt, 1992). No que diz respeito ao guião de entrevista, as exigências são diferentes. É a forma de conduzir a entrevista que deve ser experimentada, tanto ou mais do que as próprias perguntas contidas no guião. Não falamos aqui do guião de entrevista muito estruturado, cujas exigências são semelhantes às do questionário. É sobretudo quando se trata de uma entrevista semidirectiva que as coisas se tornam muito diferentes. No entanto, cuidado: um guião de entrevista pouco estruturado não significa que o investigador tenha cometido omissões ou sido negligente durante a fase de construção, significa, que, por diversas razões ligadas aos seus objectivos de investigação, não julgou desejável que o tipo de construção da sua entrevista transparecesse através das perguntas (Quivy & Campenhoudt, 1992). Neste caso, trata-se de levar a pessoa interrogada a exprimir-se de forma muito livre acerca dos temas sugeridos por um número restrito de perguntas relativamente amplas para deixar o campo aberto a respostas diferentes daquelas que o investigador teria podido explicitamente prever no seu trabalho de construção. Aqui as perguntas ficam, portanto, abertas e não induzem as respostas nem as relações que podem existir entre elas. A estrutura das hipóteses e dos conceitos não está rigorosamente reproduzida no guião de entrevista, mas não está por isso menos presente no espírito de quem a conduz. O entrevistado deve continuamente levar o seu interlocutor a exprimir-se sobre os elementos desta estrutura sem lha revelar. O sucesso de uma entrevista deste tipo depende, é claro, da composição das perguntas, mas também, e sobretudo, da capacidade de concentração e da habilidade de quem conduz a entrevista. Assim, é importante testar-se. Isto pode fazer-se gravando algumas entrevistas e ouvindo como foram conduzidas (Quivy & Campenhoudt, 1992).
Margarida Pocinho
Página 18
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
FIDEDIGNIDADE
Termos como: garantia, precisão e fidelidade significam o mesmo, ou seja, apesar de não existir consenso, ambos significam fidedignidade, termo corrente nos meios académicos e pelo qual optamos neste manual. As duas características essenciais de um teste robusto são a garantia e a validade. Significa pois, até ponto é que as qualidades psicométricas de um teste são precisas e verdadeiras. A fidedignidade de um teste consiste na possibilidade de ele fornecer resultados consistentes em várias medições (Freeman, 1980; Aiken, 1982). Para Freeman fidedignidade de um teste não tem a ver com a construção do teste, mas sim com a administração deste. Questões como a predisposição dos indivíduos para realizar um teste, diferenças entre indivíduos, habilidades, efeito da prática, condições físicas do examinado na administração do teste, competência dos examinadores, são no entender de Freeman factores importantes a ter em conta na administração de um teste. A garantia é em parte uma consequência das condições em que a prova é aplicada. A fidedignidade é exprimida em termos estatísticos por um índice estatístico, o coeficiente de fidedignidade que indica até que ponto os indivíduos de um grupo obtém resultados relativamente consistentes quando se procede a duas medições utilizando o mesmo teste ou duas formas equivalentes de um teste e se calcula a correlação (Freeman, 1980). A fidedignidade é traduzida neste termos pelas diferentes pontuações dos observadores, bem como pela estabilidade temporal do atributo ou atributos medidos, obtendo-se assim a correlação entre dois testes paralelos ou duas aplicações do mesmo teste (testereteste). É traduzida, também pela consistência interna, ou seja, a homogeneidade dos itens do teste, mostrando-nos se estes (nas sub-partes) medem o mesmo atributo. Ao falarmos assim de fidedignidade, falamos concretamente de dois aspectos essenciais que esta mede: fidedignidade externa - consistência de um teste ao longo do tempo (estabilidade temporal); fidedignidade interna - se o atributo que a escala se propõe medir é consistente e se mantém apenas a medição de um único atributo (Kline, 1987). A garantia de um teste traduz-se num valor decimal (positivo) que assume valores entre o 0,00 e 1,00. Significa que 0,00 é a ausência de garantia e 1,00 garantia perfeita.
Margarida Pocinho
Página 19
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Anastasi refere que a fidedignidade pode ser definida como o grau de consistência entre duas medidas da mesma coisa (Anastasi, Testes psicológicos, 1977). Nunnally diz que o coeficiente de garantia é a correlação entre dois testes (Nunnally, 1978). Prieto e Muñiz definem Fidedignidade como capacidade de um instrumento fornecer resultados consistentes em aplicações repetidas. Esta noção, em geral, é utilizada para abarcar os dois aspectos diferentes da fidedignidade: a externa e a interna. Fidedignidade (interna) é o termo que se usa mais vulgarmente quando se pretende referir o grau de consistência entre todos os itens de uma medida. Quando se mede a consistência interna obtém-se um coeficiente de confiabilidade que, segundo Bryman e Cramer, é bom se for superior a 0,8 (Bryman & Cramer, 2003). Prieto e Muñiz apresentam critérios mais alargados e consideram inadequado um coeficiente abaixo de 0,60, adequado com algumas carências os coeficientes entre 0,60 e 0,70, adequado entre 0,70 e 0,80, bom entre 0,80 e 0,85 e excelente os que se encontram acima de 0,85 (Prieto & Muñiz, 2000). Como refere Golden não existe um tipo ideal de teste, estes incluem sempre algum erro (Golden, Sawicki, & Franzen, 1984). Aiken refere erros do tipo sistemático e erros do tipo não sistemático. Os primeiros influenciam as pontuações dos testes, mas não afectam a garantia. Os segundos podem baixar a garantia, uma vez que são imprevisíveis (Aiken, 1982). A existência de vários modos de estimação de garantia ou fidedignidade, como a consistência interna, as formas paralelas e o teste reteste, têm em conta a necessidades de quem administra o teste, o tipo de itens, bem como aquilo que o teste pretende medir, fornecendo dados que nos ajudam a diminuir a variância do erro.
CONSISTÊNCIA INTERNA
A consistência interna significa a consistência dos resultados ao longo do teste quando este é aplicado uma vez, ou seja, a precisão da medição efectuada num determinado momento (Freeman, 1980). Só podemos dizer que um instrumento tem consistência interna se todas as suas sub partes medirem a mesma característica. A consistência interna diz respeito às estimativas de garantia, baseando-se na correlação média entre os
Margarida Pocinho
Página 20
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
itens (Freeman, 1980). Ao requerer uma só aplicação, trata-se da melhor forma de avaliar os erros de medição, bem como mais económico. De entre as formas que existem para determinar a consistência interna temos: o método metade-metade, a correlação item-restante, o coeficiente alfa de Cronbach e a correlação média entre itens. Para determinar a consistência externa temos o testereteste e as formas equivalentes.
METADE-METADE DE SPEARMAN-BROWN
Postula que se pode chegar a uma medida de fidedignidade só com uma aplicação de uma de forma de um teste. Correlacionam-se as duas metades de um teste, aleatorizando os itens, ou com base nos itens pares e impares. Este método tem muita afinidade com o método das formas equivalentes. Na fidedignidade pelo método Metade-Metade, produz-se uma espécie de forma alternativa, dividindo uma escala em duas partes. Este método avalia o grau de consistência entre itens, determinando a consistência interna da escala, embora não possa medir a estabilidade temporal, oferece a vantagem de uma única aplicação. Este método assume que todos os itens contribuem de igual forma para a mensuração de um constructo mental. O coeficiente de correlação obtido através desta técnica Metade-Metade tende a gerar uma estimação inferior à da escala na sua totalidade já que a correlação aqui obtida é relativa a metade do teste. As escalas com elevado número de itens geram fidedignidades maiores. Com o objectivo de superar esta dificuldade foi criada uma fórmula para ajustar o coeficiente de correlação para toda a escala. A equação que define este tipo de correlação é a fórmula de previsão Spearman-Brown:
onde
é o número de "testes" combinadoρxx'é a fiabilidade do actual "teste". A
fórmula prevê a confiabilidade de um novo teste composto se replicar o actual critério N vezes (ou, de forma equivalente, a criação de um teste com N formas paralelas do actual exame). Assim, N = 2 implica a duplicação do tamanho do teste, adicionando os itens com as mesmas propriedades que as do actual exame (em função do aumento do Margarida Pocinho
Página 21
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
número de itens de uma medida). Valores de N inferior a um pode ser usado para prever o efeito de reduzir um teste. A fórmula também pode ser reorganizado para prever o número de repetições necessárias para atingir um grau de fiabilidade:
Esta fórmula é comumente utilizada por psicometristas para prever a confiabilidade de um teste após mudar o tamanho do teste. Esta relação é particularmente util para a divisão de metade-metade ( e respectivos métodos de estimativa de confiabilidade. A fórmula também é útil para a compreensão da relação entre o teste não-linear e confiabilidade sobre o tamanho do teste Se o teste longo / curto não é paralelo ao actual teste a previsão não será rigorosamente exactos. Por exemplo, se um teste altamente confiável foi alongado, acrescentando muitos itens pobres, estes influenciam negativamente a confiabilidade que provavelmente será muito inferior ao previsto por esta fórmula. A análise através da teoria do item resposta fornece uma informação muito mais precisa permitindo prever mudanças na qualidade da medição, adicionando ou removendo itens individuais.
CORRELAÇÃO ITEM – RESTANTE
A crescente quantidade e implemento da estatística na área da informática possibilitam ganhos em termos de tempo. O que há alguns anos era um processo moroso tornou-se agora numa operação simples e rápida. A correlação item-restante é uma outra fórmula de conhecer a fidedignidade de um teste, consegue-se através da correlação entre o respectivo item e a soma dos itens sem o item que se escolheu. A correlação item-restante permite eliminar os itens que apresentam correlações em relação a outros itens. Pode ocorrer a diminuição de muitos itens, mas isso não invalida este tipo de método uma vez que a sua aplicação permite mais garantia.
Margarida Pocinho
Página 22
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
ALFA DE CRONBACH
O coeficiente alfa de Cronbach () foi desenvolvido para calcular a confiabilidade de um teste. O valor de aumenta com o número de questões da escala; assim, escalas com vinte questões freqüentemente apresentam valores de próximo de 0,90 (Streiner, 1993). O coeficiente alfa de Cronbach é o resultado da aplicação de uma fórmula que serve para determinar a fidedignidade através da consistência interna, que varia entre 0 (zero) e 1 (um). Uma regra consensual entre a comunidade científica é que um α de 0,6-0,7 indica uma fidedignidade aceitável, 0,8-0,95 indica que é boa e 0,95 ou superior não é desejável pois indica que os items podem ser totalmente redundantes. Para o caso das escalas somativas de respostas dicotómicas é utilizada a fórmula KR-20 e KR-21 de Kuder-Richardson utilizados como medidas da consistência interna [as respostas a todos os itens que integram a escala devem estar codificados em 0 e 1 (incorrecto vs. correcto; discordo vs. concordo; falso vs. verdadeiro, etc.)]. O coeficiente KR-21 é uma simplificação do coeficiente KR-20, na qual se pressupõe que todos os itens têm variância igual. A sua importância é meramente histórica, uma vez que a respectiva determinação visava exclusivamente simplificar os procedimentos de cálculo manual, numa época anterior à existência generalizada de software estatístico (Alferes, 2008)
METADE-METADE DE GUTTMAN
Trata-se agora de considerar uma outra fórmula de estimar a garantia e que pode ser interpretado como o alfa de Cronbach. Trata-se de conceber os itens em dois grandes grupos e tratar estes como itens únicos, mas assume variâncias diferentes das duas metades, em relação ao coeficiente metade-metade de Spearman-Brown.
TESTE-RETESTE: FORMA ÚNICA
Esta é outra das formas de estimação da garantia/fidedignidade. Trata-se da administração de um mesmo teste em duas ocasiões diferentes ao mesmo grupo de indivíduos. O coeficiente de garantia obtém-se pela correlação entre as pontuações Margarida Pocinho
Página 23
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
obtidas em cada uma das aplicações obtidas do teste (Freeman, 1980).Es te tipo de estimação parte do princípio de que as características de um teste têm alguma estabilidade temporal. Ao interpretar os resultados do coeficiente de Teste-Reteste devem ter-se em conta algumas das limitações deste método. Ex: fadiga, diferentes condições ambientais, erros de administração cometidos pelo examinador, bem como o efeito de memória que pode ocorrer durante a segunda administração. Torna-se então numa obrigação a necessidade de limitar o número de vezes que o indivíduo é examinado com a mesma prova. Em vez de retestes frequentes, os elementos são obtidos examinando maior número de indivíduos em vez de os examinar várias vezes. Apresenta-nos algumas vantagens como o facto de o conteúdo ser completamente equivalente nas duas ocasiões, o facto de ser mais fácil elaborar uma forma única de um teste do que duas (Freeman, 1980). Em termos de desvantagens, trata-se de um método demorado. As modificações ocasionais pelo facto de se ter apreendido e desenvolvido “aptidões”. Os indivíduos já não são os mesmos (Freeman, 1980). Ainda dentro da opinião deste autor, embora o coeficiente de garantia seja relativamente elevado quando se usa a mesma forma de teste, a influência da evocação não é tão grande como possa parecer.
FORMAS EQUIVALENTES
As formas paralelas, que na sua forma ideal serão formas alternativas, consistem na administração de dois testes, equivalentes, aos mesmos indivíduos (Freeman, 1980). Esta forma considera que o número de itens têm de ser o mesmo, bem como os tipos de itens devem ser uniformes quanto ao conteúdo, operações ou dimensões implicáveis, níveis e amplitude da dificuldade e correcta solução. A distribuição da dificuldade deve ser idêntica, assim como devem ter o mesmo grau de homogeneidade no que respeita às operações ou dimensões medidas. As médias ou desvios padrões das duas formas devem ser idênticos. A mecânica de aplicação e apuramento deve ser semelhante nas duas formas (Freeman, 1980).
Margarida Pocinho
Página 24
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Este método de estimação da garantia por formas equivalentes apresenta vantagens como os possíveis efeitos de uma prática específica ou de uma evolução, pois os itens das duas versões não são os mesmos. Apresenta também algumas desvantagens, nomeadamente ao nível da construção e padronização. Isto é, assegurar a verdadeira equivalência das duas formas. De um modo geral os valores do coeficiente alfa são muito próximos dos valores obtidos pela correlação entre as formas alternativas. No entanto, se a correlação das duas formas alternativas for significativamente mais baixa, significa que algum erro de medida está presente. Um baixo coeficiente de fidedignidade obtido através da correlação de duas formas paralelas, significa que os dois testes não medem a mesma coisa, ou seja, não são duas formas alternativas (Freeman, 1980)
VALIDADE DE UM TESTE
A validade avalia até que ponto o procedimento de medição produz a resposta correcta, qual o poder de resposta e o poder de interpretação bem como o significado dos resultados. Procura responder a dois pontos ou questões essenciais que se levantam na construção e aplicação de um teste, primeiro se o teste está mesmo a medir o que desejávamos, em segundo se as informações têm algum relevo para o estudo que desejamos. Um teste é válido quando mede o que se supõe medir. Validade é portanto o grau com que os resultados obtidos são correctamente interpretados.
Aquilo que à partida pode parecer ser uma boa abordagem para a mensuração numa base intuitiva (validade facial), pode não ser válido pelos métodos e padrões de investigação (Nunnally, 1978). Poderá um teste ser valido e não ser fidedigno e vice-versa?. Aiken refere que “um teste pode ser fidedigno sem ser válido, mas não pode ser válido sem ser fidedigno”. É que enquanto a garantia ou fidedignidade é normalmente afectada por erros não sistemáticos que têm a ver com a administração e com a apresentação (critérios externos) a validade pode ser afectada por erros sistemáticos. A existência de fiabilidade adequada é necessária, mas não suficiente, para garantir a validade adequada.
Margarida Pocinho
Página 25
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
Relativamente à validade dos testes, não raras vezes se refere que um dado teste psicológico que pode ser válido numa situação não o é noutra, ou, ainda, que existem níveis diferentes de magnitude de validade de um teste. Este modo de falar sobre a validade dos testes psicológicos é, no mínimo, confuso. Para confundir ainda mais, o grande psicometrista Samuel Messick refere que a validade é um julgamento avaliativo que conjuga a evidência empírica e as racionalizações teóricas com a adequação e propriedade de inferências e acções baseadas em saturações de testes ou outros modos de avaliação (Messick, 1989). Este modo de entender e definir a validade dos testes, que é assumido pela própria American Psychological Association (American Psychological Association, 1985), tornou o tema um verdadeiro labirinto. Com efeito se fizermos uma revisão literatura da literatura tradicional e actual sobre o tema, encontramos um elenco sem fim de expressões ou tipos de validade que um teste pode ter. Vejamos alguns deles: 1. Validade de construto (também chamado de validade de conceito, validade conceptual, validade de construção, validade hipotético-dedutiva) (Cronbach & Meehl, 1955); 2. Validade de conteúdo (Cronbach & Meehl, 1955; Haynes, Richard, & Kubany, 1995); 3. Validade de critério, também chamada Validade preditiva (Cronbach & Meehl, 1955); 4. Validade concorrente (Cronbach & Meehl, 1955); 5. Validade aparente ou facial (Mosier, Problems and designs of cross-validation, 1951; Mosier, Problems and designs of cross-validation, 1951); 6. Validade generalizável ou inferncial (Mosier, A critical examination of the concepts of face validity, 1947; Mosier, Problems and designs of crossvalidation, 1951; Messick, 1989); 7. Validade discriminante (Campbell & Fiske, 1959); 8. Validade convergente (Campbell & Fiske, 1959); 9. Validade incremental (Bryant, 2000); 10. Validade factorial (Guilford, 1946); 11. Validade lógica (Cronbach L. J., 1949); 12. Validade empírica (empirical validity) (Cronbach L. J., 1949); 13. Validade consequencial (Messick, 1989);
Margarida Pocinho
Página 26
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
14. Validade intrínseca (Gulliksen, 1950); 15. Validade substantiva (Messick, 1989); 16. Validade estrutural (Messick, 1989); 17. Validade externa (Messick, 1989; Emory, 1985); 18. Validade interna também denominadas por validades de critério, de conteúdo e de construto (Emory, 1985); 19. Validade de hipótese também chamada de Validade indireta (Weber, 1990; Janis, 1965); 20. Validade posditiva que é o oposto de validade preditiva (Haynes, Richard, & Kubany, 1995). Encontramos, ainda referencia a mais tipos de validade em vários programas informáticos de tratamento de dados, contudo não identificámos a sua origem. São elas: 21. Validade curricular (curricular validity): constitui uma extensão da validade de conteúdo e consiste em verificar o aumento da aprendizagem (se se descobre que há aumento de aprendizagem em dois testes com validade de conteúdo, então se verifica validade curricular); 22. Validade diferencial (differential validity): validade de uma bateria de testes avaliada pela capacidade de predizer diferenças no desempenho em dois ou mais critérios; 23. Validade cruzada (cross validity): confirmar a validade dos resultados a partir de um novo exame com estudo empírico feito com uma segunda amostra independente; 24. Validade de grupos mistos (mixed-group validity): duas amostras com formatos diferentes no traço ou diferentes probabilidades em expressar dado comportamento são comparadas; 25. Validade múltipla (multiple validity): um teste tem validade múltipla quando estiver associado a uma amostra vasta de critérios; 26. Validade ecológica (ecologial validity): o quanto um instrumento psicológico mede factores espaciais, temporais e situacionais do campo de aplicação; 27. Validade sintética (synthetic validity): validade de teste complexo ou de uma bateria de testes baseada no facto de que vários factores foram representados num único escore composto;
Margarida Pocinho
Página 27
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
28. Validade condicional (conditional validity): a validade do teste depende do uso que dele se faz; 29. Validade incondicional (unconditional validity): a validade do teste depende do construto sendo medido e não do uso que dele se faz. Parece, então, que a intenção de Messick de "integrar" os diferentes aspectos de validade dos testes psicológicos, de facto introduziu enorme confusão. Borsboom, Mellenbergh e Van-Heerden colocam muito bem esse problema ao afirmarem: O conceito de validade com o qual os teóricos estão interessados parece estranhamente divorciado do conceito que pesquisadores têm em mente quando colocam a questão da validade. Isso deve-se a que, no século passado, a questão da validade evoluiu da questão de se a gente mede o que se pretende medir para a questão de se as relações empíricas entre scores de um teste se emparelham com relações teóricas numa rede nomológica2 e, finalmente, para a questão de se interpretações e acções baseadas em scores de testes são justificadas – não somente à luz de evidência científica, mas com respeito a consequências sociais e éticas do seu uso (Borsboom, Van-Heerden, & Mellenbergh, 2003). Pasquali refere que desde o trabalho de Cronbach e Meehl dos meados do século passado, o conceito de validade dos testes vem perdendo o seu sentido original. Embora os autores quisessem precisamente salvar esse conceito, a introdução do modelo da rede nomológica, concebida dentro da visão do positivismo lógico veio, na verdade, destruir o conceito de validade, originalmente concebido por Kelly na década de 1920 e, depois, por Cattell. O conceito de validade, foi totalmente descaracterizado com a definição do mesmo dada pelo grande psicometrista Samuel Messick, em 1989. Pasquali reforça a necessidade da redescoberta do conceito para salvar as bases da Psicometria (Pasquali, 2007). Quanto a nós um teste psicológico é um conjunto constituído de comportamentos que o sujeito deve exibir. Ele é um teste se todos os comportamentos envolvidos no conjunto se referem à "mesma coisa" (construto), é a questão da unidimensionalidade. Ademais, alguns sujeitos podem ser capazes de executar todos os comportamentos envolvidos,
2
nomological network
Margarida Pocinho
Página 28
Margarida Pocinho; Jorge Conde; Telmo Pereira
Psicometria
Lições
outros sujeitos, apenas alguns dos comportamentos e outros, ainda, nenhum dos comportamentos. A base da argumentação consiste em se entender que validade constitui uma propriedade do instrumento de medida e que não tem nada a ver com a ideia de que ela consistiria num julgamento sobre o significado dos scores de um teste, retomando, assim, o sentido original que Kelly (1927) quis dar a esse conceito, ao afirmar que um teste é válido quando mede aquilo que supostamente deve medir. Recorrendo a um exemplo de Pasquali, imagine que construímos um metro, feito de ferro, para medir o comprimento das coisas. Medimos um pedaço de pau e conseguimos uma medida do mesmo. Em seguida, aquecemos o metro e medimos novamente o pedaço de pau e a medida alterou-se (Pasquali, 2007). Coloca-se aqui uma questão; será que na segunda vez que o utilizámos ele já não mede o comprimento? O mesmo se pode passar com um arma que fica com a mira descalibrada. Claro que sim, no entanto está medindo errado. É óbvio que o metro continua medindo aquilo para o qual ele foi feito para fazer, isto é, medir comprimento. Isto é validade. Continua medindo o comprimento, é um facto, no entanto está a faze-lo sem precisão, erradamente, porque o metro, com o calor (factores perturbadores no uso do instrumento) ficou descalibrado. Mas a presença de factores perturbadores é corriqueira em qualquer empreitada científica (as chamadas variáveis estranhas ou confounding variables). De qualquer forma, o instrumento estar calibrado ou não, é questão de precisão, não de validade, porque ele continua medindo aquilo para o qual ele foi construído. Assim, continua sendo verdadeiro que o metro mede comprimento (validade), embora na prática ele o faça erradamente (precisão). Dessa forma, validade responde a se algo é verdadeiro ou falso, enquanto precisão responde a se algo está correcto ou errado. A primeira questão diz respeito a um problema ontológico e a segunda a um problema psicométrico (de mensuração) ou metodológico. No caso dos testes psicológicos, os dois problemas são relevantes e importantes, mas um não é o outro. Assim, conclui-se que os parâmetros de validade e precisão são características do instrumento de medida, do teste, e não da medida feita de um objecto. Esta última é confiável e legítima se o instrumento que a produziu for válido (pertinente, relevante) e preciso (calibrado). Quem garante a qualidade da medida é a qualidade do instrumento. E a validade do instrumento diz respeito exclusivamente à pertinência do instrumento com respeito ao objecto que se quer medir; é a questão da referência. Margarida Pocinho
Página 29
Psicometria
Margarida Pocinho; Jorge Conde; Telmo Pereira
Lições
Existem algumas linhas matemáticas que referem que a Análise Factorial, pelo método das Componentes Principais, pode não ser a técnica mais adequada quando temos uma escala de medida dicotómica.
Para que não restem dúvidas que os dados provêm de uma população normal multivariada, devemos fazer o Teste de esfericidade de Bartlett que testa a hipótese da matriz das correlações ser a matriz da identidade com determinante igual a 1. Resultados como os que podem ser observados no quadro que se segue demonstram que o teste Bartlett tem associado um nível de significância inferior a 0,05, o que leva à rejeição da hipótese da matriz das correlações na população ser a identidade, mostrando que a correlação que existe é entre as variáveis.
Quadro 1: Teste KMO e Bartlett - GDS Kaiser-Meyer-Olkin (KMO)
Teste da esfericidade de Bartlett
Qui-quadrado (aproximação)
0,932 5994,603
gl
378
p
0,000
Se o nível de significância fosse superior a 0,05, dever-se-ia reconsiderar a utilização deste modelo factorial. Um outro indicador da força da relação, entre as variáveis, é o Coeficiente de Correlação Parcial. O Kaiser-Meyer-Olkin (KMO), que varia entre zero e um, compara as correlações simples com as correlações parciais observadas entre as variáveis. Sendo que a decisão de uma Análise Factorial com um KMO