ANÁLISE DE DADOS CATEGORIZADOS
Short Description
Download ANÁLISE DE DADOS CATEGORIZADOS...
Description
´ ANALISE DE DADOS CATEGORIZADOS Julio da Motta Singer Universidade de S˜ao Paulo S˜ao Paulo, Brasil
Minicurso apresentado no XIII Simposio de Estadistica ”Estad´ıstica en Ciencias de la Salud” 3 a 7 de agosto de 2003 Armenia, Quindio. Colombia
Pref´ acio Estas notas de aula correspondem ao resumo de um texto sobre an´alise de dados categorizados em elabora¸ca˜o por Carlos Daniel Paulino e Julio da Motta Singer. Elas tamb´em cont´em material extra´ıdo de um manual implementa¸ca˜o computacional das t´ecnicas a´ı desenvolvidas, preparado por Carine Savalli, Carlos Daniel Paulino, Giovani Loiola Silva, Julio da Motta Singer, Maria Paula Chicarino, M´ario de Castro e Rodrigo Andrade Tavares.
Julio da Motta Singer S˜ao Paulo, julho de 2003.
2
1
Dados categorizados
Dados discretos relativos a uma ou mais vari´aveis definidas por meio de um n´ umero finito de n´ıveis ou categorias s˜ao denominados dados categorizados. Alguns exemplos podem ser encontrados na Tabela 1. As vari´aveis correspondentes podem ser classificadas como ordinais ou nominais conforme suas categorias sejam ordenadas ou n˜ao. Tabela 1. Exemplo de matriz com dados categorizados. Dados de um estudo sobre Endometriose Dr. Maurício Simões Abrão (FMUSP)
Grupo Paciente Idade Gestação Partos Abortos Dismenorréia Dispareunia AFSr Controle 1 26 3 3 0 L N 0 Controle 2 37 4 3 1 N P 0 Controle 3 37 4 4 0 N N 0 Controle 4 35 3 3 0 L N 0 Controle 5 34 4 3 1 N N 0 Controle 6 38 5 5 0 L N 0 Controle 7 30 5 4 1 N N 0 Controle 8 38 11 7 4 N N 0 Controle 9 36 7 6 1 N N 0 Controle 10 41 4 3 1 N N 0 Controle 11 36 7 4 3 N N 0 Controle 12 38 3 3 0 N N 0 Controle 13 32 3 3 0 L N 0 Controle 14 37 3 3 0 M P 0 Controle 15 32 6 6 0 N N 0 Doente 1 31 0 0 0 M P 1 Doente 2 32 0 0 0 M N 1 Doente 3 27 0 0 0 I PRO 1 Doente 4 28 1 1 0 L N 1 Doente 5 34 2 1 1 M N 1 Doente 6 38 9 6 4 I 2 1 Doente 7 29 0 0 0 S/ N 1 Doente 8 38 0 0 0 M 2 1 Doente 9 20 0 0 0 M . 1 Doente 10 38 0 0 0 L N 2 Doente 11 34 5 3 2 M 2 2 Doente 12 29 1 1 0 I PRO 2 Doente 13 23 0 0 0 I PRO 2 Doente 14 27 3 2 1 I PRO 2 Doente 15 40 2 2 0 M N 2 Doente 16 25 1 0 1 M P 2 Doente 17 39 0 0 0 I PRO 2 Doente 18 34 3 2 1 I PRO 2 Doente 19 24 2 1 1 I PRO 2 Doente 20 25 1 0 1 I PRO 2 Doente 21 39 0 0 0 I N 3 Doente 22 27 0 0 0 L PRO 3 Doente 23 30 1 0 1 M PRO 3 Doente 24 28 0 0 0 I N 3 Doente 25 20 0 0 0 M . 3 Doente 26 28 2 2 0 I N 3 Doente 27 26 0 0 0 M 2 3 Doente 28 32 1 1 0 I PRO 3 Doente 29 37 0 0 0 M PRO 3
3
Essencialmente estes dados podem ser dispostos na forma de uma tabela (de contingˆencia) s × r onde as s linhas correspondem a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis explicativas (se existirem), e as r colunas a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis respostas. A distin¸ca˜o entre vari´aveis explicativas e respostas ´e conseq¨ uˆencia da defini¸ca˜o das quest˜oes de interesse do estudo e da especifica¸ca˜o do planejamento amostral. Havendo apenas vari´aveis respostas, consideramos s = 1. De uma forma gen´erica, as tabelas de contingˆencia enfocadas neste trabalho podem ser representadas segundo o modelo da Tabela 1, em que nqm , q = 1, . . . , s , m = 1, . . . , r, denota a freq¨ uˆencia observada na P casela correspondente, nq. = rm=1 nqm , q = 1, . . . s ´e o total da q-´esima linha e N ´e o tamanho da amostra. Tabela 2. Forma bidimensional de uma tabela de contingˆencia gen´erica Subpopula¸ca˜o 1 2 · · q · · s Total
Categorias 1 2 ... n11 n12 . . . n21 n22 . . . · · nq1 nq2 . . . · · ns1 ns2 . . .
de resposta m ... r n1m . . . n1r n2m . . . n2r · · nqm . . . nqr · · nsm . . . nsr
Total n1· n2·
nq·
ns· N
Alguns exemplos ilustrativos seguem abaixo. Exemplo 1 (Paulino e Singer (2003)). Os dados da Tabela 3 se referem a um estudo de suscetibilidade a` c´arie dent´aria em crian¸cas. Os dois m´etodos de avalia¸ca˜o dessa suscetibilidade determinam duas vari´aveis respostas, cada uma com 3 n´ıveis (neste caso s = 1 e r = 9).
4
Tabela 3. Freq¨ uˆencias observadas de 97 crian¸cas de 11-13 anos de uma escola p´ ublica.
Risco de c´arie segundo o m´etodo simplificado
Baixo M´edio Alto
Risco de c´arie segundo o m´etodo convencional Baixo M´edio Alto 11 5 0 14 34 7 2 13 11
Exemplo 2 (Paulino e Singer (2003)). Os dados da Tabela 4 s˜ao provenientes de um estudo envolvendo a avalia¸ca˜o pulmonar pr´e-operat´oria de 1162 pacientes (classificados como tendo baixo, m´edio ou alto risco) e a ocorrˆencia de complica¸ca˜o pulmonar no per´ıodo p´os-operat´orio de cirurgia geral (neste caso s = 3 e r = 2). Tabela 4. N´ umero de pacientes. Avalia¸ca˜o pr´e-operat´oria do grau de complica¸ca˜o pulmonar Baixo Moderado Alto
Avalia¸ca˜o pulmonar p´os-operat´oria Sem complica¸ca˜o Com complica¸ca˜o 737 48 243 74 39 21
Exemplo 3 (Paulino e Singer (2003)). Estudo de fertilidade de ovelhas de v´arios rebanhos identificados pela ra¸ca e pela fazenda onde eram criadas, cuja influˆencia no tamanho da ninhada se pretende averiguar (neste caso s = 9 e r = 4).
5
Tabela 5. N´ umero de ovelhas.
Fazenda Ra¸ca A 1 B C
N´ umero de borregos por ninhada 0 1 2 ≥ 3 Total 10 21 96 23 150 4 6 28 8 46 9 7 58 7 81
2
A B C
8 5 1
19 17 5
44 56 20
1 1 2
72 79 28
3
A B C
22 95 103 18 49 62 4 12 16
4 0 2
224 129 34
Exemplo 4 (Koch et al. (1985)). Os dados da Tabela 6 resultaram da avalia¸ca˜o por um conjunto de homens de certos objetos culturalmente masculinos. Cada indiv´ıduo classificava como masculino (M) ou feminino (F) objetos que eram mostrados durante per´ıodos vari´aveis de exposi¸ca˜o. Os indiv´ıduos foram subdivididos em dois grupos conforme o conhecimento (Grupo 2) ou n˜ao (Grupo 1) da finalidade da experiˆencia (neste caso s = 2 e r = 9). Tabela 6. Freq¨ uˆencias observadas da avalia¸ca˜o do simbolismo sexual de objetos. Categorias de resposta nos 3 per´ıodos de exposi¸ca˜o Grupo MMM MMF MFM MFF FMM FMF FFM FFF 1 171 18 6 12 7 7 7 56 2 184 38 10 14 7 7 20 114
Exemplo 5. (Upton and Fingleton, 1985) Em ordem a detectar a eventual existˆencia de intera¸ca˜o positiva (atra¸ca˜o ) ou negativa (repuls˜ao) entre carvalhos e nogueiras, uma dada zona florestal foi dividida em 576 a´reas de tamanho e forma fixos e registrou-se para cada uma delas a ocorrˆencia ou n˜ao de cada tipo 6
de a´rvore (neste caso s = 1 e r = 4) Os resultados obtidos est˜ao descritos na Tabela 7. Tabela 7. N´ umero de a´reas. Carvalho Presente Ausente Total
Nogueira Presente Ausente 261 177 93 45 354 222
Total 438 138 576
Exemplo 6. (Koch et al. (1985)) Pacientes com diagn´ostico complicado ou n˜ao complicado, submetidos a 3 tratamentos (A, B e C) s˜ao observados com rela¸ca˜o a` cura de uma infec¸ca˜o nas vias urin´arias. Os dados s˜ao classificados em 6 subpopula¸co˜es, resultantes da combina¸ca˜o dos n´ıveis das duas vari´aveis explicativas (Tipo de diagn´ostico e Tratamento) com 2 poss´ıveis valores da vari´avel resposta (neste caso s = 6 e r = 2). Tabela 8. N´ umero de pacientes. Tipo de diagn´ostico Complicado
N˜ao Complicado
Tratamento A B C A B C
Status com rela¸ca˜o a` cura Curados N˜ao curados 78 20 101 11 68 46 40 54 34
5 5 6
Exemplo 7. Este exemplo ´e parte de um conjunto de dados tomado de Goodman (1962) e descreve as inten¸co˜es de voto (voto nos partidos A e B ou indecis˜ao) de 445 pessoas registradas em duas entrevistas espa¸cadas de um mˆes (neste caso s = 1 e r = 9). O objetivo ´e saber se as mudan¸cas na inten¸ca˜o de voto s˜ao iguais nos dois sentidos.
7
Tabela 9: Inten¸co˜es de voto em duas sondagens
Primeira sondagem
Segunda sondagem A B I A 192 1 5 B 2 146 5 I 11 12 71
Para a an´alise de dados com essas caracter´ısticas podemos seguir os seguintes passos: i) defini¸ca˜o das quest˜oes de interesse; ii) especifica¸ca˜o do delineamento amostral; iii) descri¸ca˜o dos dados amostrais; iv) escolha de um modelo probabil´ıstico que se afigure adequado (pelo menos, na base do senso comum ...); v) tradu¸ca˜o das quest˜oes de interesse em termos dos parˆametros do modelo probabil´ıstico adotado, ou seja, especifica¸ca˜o de modelos estruturais; vi) ajuste dos modelos especificados atrav´es de alguma metodologia estat´ıstica (e.g., metodologia de m´axima verosimilhan¸ca ou metodologia de m´ınimos quadrados generalizados); vii) compara¸ca˜o do(s) modelo(s) ajustado(s) com outros modelos alternativos; viii) convers˜ao das conclus˜oes em termos das quest˜oes originais.
2
Medidas de associa¸ c˜ ao
Consideramos aqui algumas medidas importantes para a an´alise de dados categorizados. Come¸camos com o seguinte exemplo: Fator de risco N˜ao Sim
Estado do paciente Sem doen¸ca Doente 1 − π0 π0 1 − π1 π1 8
Total 1 1
• π0 : Propor¸ca˜o de pacientes n˜ ao expostos ao fator de risco que apresentaram a doen¸ca. • π1 : Propor¸ca˜o de pacientes expostos ao fator de risco que apresentaram a doen¸ca. • Risco atribu´ıvel (d = π1 −π0 ): aumento na propor¸ca˜o de doentes atribu´ıvel a` exposi¸ca˜o ao fator risco. • Risco relativo (r = π1 /π0 ): propor¸ca˜o de doentes entre indiv´ıduos expostos ao fator de risco ´e r vezes a propo¸ca˜o de doentes entre os n˜ao expostos. • Compara¸ c˜ ao π0 = 0.42 π1 = 0.44
)
d = 0.02 r = 0.44
π0 = 0.02 π1 = 0.04
)
d = 0.02 r = 2.00
• log r = log π1 − log π0 : gˆenese dos modelos log-lineares • Importˆancia do conhecimento de alguma medida de associa¸ca˜o entre fator de risco e doen¸ca mesmo sem conhecimento de π0 e π1 . Em muitos estudos (caso/controle, por exemplo) n˜ao se pode estimar π0 e π1 . • Chances (”odds”): medida de freq¨ uˆencia de ocorrˆencia de eventos • π1 /(1 − π1 ): chance de um indiv´ıduo ser doente vs. n˜ao doente quando exposto ao fator de risco. • π0 /(1 − π0 ): chance de um indiv´ıduo ser doente vs. n˜ao doente quando n˜ ao exposto ao fator de risco. • Raz˜ ao de chances (”odds ratio”): ω=
π1 /(1 − π1 ) π0 /(1 − π0 )
• Estudos caso-controle Estado do paciente Sem doen¸ca (controle) Doente (caso)
Exposi¸ca˜o ao fator de risco N˜ao Sim 1 − p0 p0 1 − p1 p1 9
Total 1 1
• p0 : propor¸ca˜o de controles (n˜ao doentes) que tiveram exposi¸ca˜o ao fator de risco (6= π0 ). • p1 : propor¸ca˜o de casos (doentes) que tiveram exposi¸ca˜o ao fator de risco (6= π1 ). • Utilizando o Teorema de Bayes pode-se demonstrar que π1 /(1 − π1 ) p1 /(1 − p1 ) = =ω p0 /(1 − p0 ) π0 /(1 − π0 )
3
Modelos probabil´ısticos
A escolha de um modelo probabil´ıstico para os dados depende do planejamento e do objetivo do estudo. Vamos considerar trˆes estrat´egias de obten¸ca˜o dos dados de uma pesquisa de inten¸ca˜o de voto, cujo interesse era avaliar a rela¸ca˜o entre a opini˜ao de eleitores sobre um determinado candidato (X1 ) e sua faixa et´aria (X2 ). • Estrat´ egia I: entrevistar tantas pessoas quanto poss´ıvel, por exemplo, em 4 horas. Poder-se-˜ao obter dados como os da Tabela 10. Tabela 10: Frequˆencias hipot´eticas dos resultados de entrevistas realizadas num per´ıodo de tempo fixo.
Opini˜ao Favor´avel Desfavor´avel Total
Faixa et´aria < 40 ≥ 40 Total 43 25 41 70 179
• Suposi¸co˜es sobre o n´ umero de transeuntes com menos de 40 anos favor´aveis ao candidato que passa no s´ıtio em que se vai colher a amostra: i) num determinado intervalo de tempo, o n´ umero desses transeuntes ´e independente do n´ umero de transeuntes com as mesmas caracter´ısticas que passa em qualquer outro intervalo de tempo disjunto daquele; 10
ii) a distribui¸ca˜o daquele n´ umero de transeuntes s´o depende do comprimento do intervalo de tempo considerado e n˜ao do seu instante inicial; iii) a probabilidade de passagem de um daqueles transeuntes num intervalo de tempo suficientemente pequeno (um segundo, por exemplo) ´e aproximadamente proporcional ao comprimento do intervalo, com constante de proporcionalidade λ11 ; iv) a probabilidade de que dois ou mais daqueles transeuntes passem simultaneamente num intervalo de tempo suficientemente pequeno ´e desprez´avel. • Essas suposi¸co˜es permitem demonstrar que o n´ umero n11 de apoiantes com menos de 40 anos que passa num intervalo de tempo de comprimento m = 14400s (= 4 × 3600s) tem uma distribui¸ca˜o de Poisson com m´edia µ11 = mλ11 . • Aplicando o mesmo argumento aos outros nij e admitindo a independˆencia entre todas essas vari´aveis aleat´orias (suposi¸ca˜o que, neste caso, pode gerar alguma controv´ersia), chegamos ao modelo Produto de distribui¸ co ˜es de Poisson: f (n | µ) =
2 Y 2 Y
i=1 j=1
n
e−µij µijij , nij !
(1)
para nij ∈ INo i, j = 1, 2 onde n = (n11 , n12 , n21 , n22 )0 , µ = (µ11 , µ12 , µ21 , µ22 )0 com µij ∈ IR+ , i, j = 1, 2. • Hip´ otese de interesse: a propor¸ca˜o de apoiantes entre os indiv´ıduos mais jovens ´e a mesma que existe entre as pessoas menos jovens, ou seja, µ11 µ12 HI : = µ·1 µ·2 P
P
onde µ·j = i µij , µi· = j µij e µ·· = equivalentemente express´avel por HI : µij = para i, j = 1, 2. 11
P
µ1· = µ·· i,j
!
(2)
µij . Note-se que esta hip´otese ´e
µi· × µ·j , µ··
(3)
• Estrat´ egia II: fixar antecipadamente o n´ umero N de pessoas a entrevistar e selecion´a-las de um modo aleat´orio. Por exemplo, fixando N = 200, poder-se-˜ao obter dados como os da Tabela 11. Tabela 11: Frequˆencias hipot´eticas dos resultados do n´ umero fixado de entrevistas
Opini˜ao Favor´avel Desfavor´avel Total
Faixa et´aria < 40 ≥ 40 50 26 48 76 200
• θij : probabilidade de um indiv´ıduo apresentar a caracter´ıstica (i, j), considerada constante para todo o indiv´ıduo da popula¸ca˜o em estudo, i.e. θij = P (X1k = i, X2k = j), k = 1, . . . , N . • Seja θ = (θ11 , θ12 , θ21 , θ22 )0 tal que 10 θ =
P
i,j
θij = 1.
• Associemos ao indiv´ıduo k da amostra selecionada o vetor Wk (com componentes Wkij ordenadas lexicograficamente) definido de tal forma que Wkij = 1 e Wki0 j 0 = 0, i0 6= i ou j 0 6= j, se para tal indiv´ıduo se tem X1k = i e X2k = j. Isto significa que Wk ´e um vetor aleat´orio cujos valores poss´ıveis s˜ao {(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)}. Deste modo, os vetores Wk , k = 1, . . . , N s˜ao identicamente distribu´ıdos segundo a distribui¸ca˜o de Bernoulli (trivariada) de parˆametro θ. • Assumindo adicionalmente que esses vectores s˜ao independentes, segue-se P que o vetor das frequˆencias observ´aveis n = N k=1 Wk apresenta a distribui¸ca˜o Multinomial 2 Y
n
θijij f (n | N, θ) = N ! , i,j=1 nij ! com 10 n = N, 10 θ = 1. 12
(4)
• Hip´ otese de interesse: independˆencia estoc´astica entre X1 e X2 . HII : θij = θi· × θ·j ,
(5)
para i, j = 1, 2, onde {θi· } e {θ·j } representam as probabilidades marginais de X1 e X2 , respectivamente. • Estrat´ egia III: fixar antecipadamente o n´ umero Nj de indiv´ıduos de cada faixa et´aria. Fixando, por exemplo N1 = N2 = 100, poder-se-˜ao obter dados tais como aqueles dispostos na Tabela 12. Tabela 12: Frequˆencias hipot´eticas dos resultados do n´ umero de entrevistas fixado para cada faixa et´aria. Faixa et´aria < 40 ≥ 40 54 30 46 70 Total 100 100 200
Opini˜ao Favor´avel Desfavor´avel Total
• Note-se que, enquanto na Estrat´egia II s´o o total geral da tabela ´e fixo, aqui, os totais marginais das colunas tamb´em s˜ao fixos. A vari´avel fixa, X2 , serve apenas para indicar as subpopula¸co˜es de onde s˜ao tomadas as observa¸co˜es de X1 . • θi(j) : probabilidade de qualquer indiv´ıduo ser classificado na categoria i de X1 dado que est´a classificado no n´ıvel j de X2 , i.e., θi(j) = P (X1k = i | X2k = j) , para k = 1, . . . , N, j = 1, 2. Ent˜ao
P2
i=1 θi(j)
= 1, j = 1, 2.
• Argumentos similares aos utilizados no caso anterior permitem concluir que um modelo probabil´ıstica adequado ´e o modelo Produto de distribui¸ co ˜es Multinomiais f (n | N, π) =
2 Y
j=1
Nj !
2 Y
i=1
n
ij θi(j)
nij !
onde N = (N1 , N2 )0 e π = (π 01 , π 02 )0 , com π j = (θ1(j) , θ2(j) )0 , j = 1, 2. 13
(6)
• Hip´ otese de interesse: homogeneidade das distribui¸co˜es Multinomiais HIII : θ1(1) = θ1(2) .
(7)
• Rela¸ c˜ ao entre os modelos: A fun¸ca˜o de probabilidade do modelo Produto de distribui¸co˜es de Poisson admite as seguintes fatoriza¸co˜es : 2 Y e−µ·· µn·· ·· (µij /µ·· )nij f (n | µ) = × n·· ! n·· ! nij ! i,j=1
(8)
(
2 2 2 Y Y Y e−µ·· µn·· ·· (µ·j /µ·· )n·j (µij /µ·j )nij = × n·· ! × n·j ! n·· ! n·j ! nij ! j=1 j=1 i=1
=
2 Y
j=1
(
n
e−µ·j µ·j·j n·j !
)
×
2 Y
j=1
(
(µij /µ·j )nij n·j ! nij ! i=1 2 Y
)
)
(9)
(10)
• Como conseq¨ uˆencia de (8), o modelo Multinomial com parˆametros θij = µij /µ·· pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson por condicionamento no total da tabela, N. • Como conseq¨ uˆencia de (9) ou (10), o modelo Produto de distribui¸co˜es Multinomiais com parˆametros θi(j) = µij /µ·j pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson ou Multinomial por condicionamento nos totais marginais, Nj . • Esses resultados permitem que a classifica¸ca˜o de algumas vari´aveis como fatores seja feita a posteriori, por condicionamento.
4
Modelos estruturais
Em geral estamos interessados na redu¸ca˜o do n´ umero de parˆametros do modelo probabil´ıstico, acarretando uma simplifica¸ca˜o de sua estrutura param´etrica. A express˜ao matem´atica dessa redu¸ca˜o ´e chamada modelo estrutural. Em seguida apresentamos modelos que surgem em diversas situa¸co˜es pr´aticas. Lembramos P P que as restri¸co˜es naturais, j θj = 1 sob o modelo Multinomial ou j θi(j) = 1, i = 1, · · · , s, sob o modelo Produto de distribui¸co˜es Multinomiais devem ser levadas em conta. Essas restri¸co˜es podem ser expressas compactamente como (D0 π = 1s ) em que D ´e uma matriz conveniente. 14
4.1
Modelo linear geral
O chamado modelo linear geral tem formula¸ca˜o dada por Aπ = Xβ ,
(11)
onde A ´e uma matriz u × sr com posto r(A) = u ≤ sr tal que r([A0 , D]) = u + s, X ´e a matriz u × p de constantes conhecidas especificadora do modelo com posto r(X) = p ≤ u e β ´e o vetor dos p parˆametros do modelo estrutural. Modelos de simetria e homogeneidade marginal, por exemplo, se enquadram na express˜ao (11). Em termos de restri¸co˜es, (11) ´e equivalente a C A π = 0(u−p)
(12)
onde C ´e uma matriz (u − p) × u de caracter´ıstica m´axima, com linhas ortogonais a`s colunas de X. Exemplo 1 (continua¸ c˜ ao). A hip´otese de a distribui¸ca˜o do grau de risco ser a mesma para os dois m´etodos em an´alise (homogeneidade marginal), θi· = θ·i , i = 1, · · · 3, ´e express´avel por (11) com β = (θ1· , θ2· )0 ,
A=
1 0 1 0
1 0 0 1
1 0 0 0
0 1 1 0
X=
0 1 0 1 1 0 1 0
0 1 0 0 0 1 0 1
0 0 1 0
0 0 0 1
0 0 0 0
.
,
(13)
(14)
Sob a formula¸ca˜o (12), a hip´otese de homogeneidade marginal pode ser expressa com A dada por (13) e C=
1 0 −1 0 0 1 0 −1
!
.
(15)
Exemplo 7 (continua¸ c˜ ao). A hip´otese de simetria, i.e. θij = θji , i, j = 1, · · · 3, i < j ´e express´avel por (11) com β = (θ12 , θ13 , θ23 )0 ,
15
A=
0 0 0 0 0 0
1 0 0 0 0 0
0 1 0 0 0 0
X=
0 0 1 0 0 0
0 0 0 0 0 0
0 0 0 1 0 0
1 0 1 0 0 0
0 1 0 0 1 0
0 0 0 1 0 1
0 0 0 0 1 0
0 0 0 0 0 1
0 0 0 0 0 0
,
.
(16)
(17)
Sob a formula¸ca˜o (12), a hip´otese de simetria pode ser expressa com A dada por (16) e
1 0 −1 0 0 0 C = 0 1 0 0 −1 0 . 0 0 0 1 0 −1
(18)
Exemplo 3 (continua¸ c˜ ao). A compara¸ca˜o das subpopula¸co˜es determinadas pela combina¸ca˜o dos n´ıveis das vari´aveis definidoras da fazenda e ra¸ca poder´a ser feita em termos do tamanho m´edio da ninhada. Admitimos que as categorias representadas pelos inteiros ≥ 3 s˜ao agrupadas tendo score comum igual a 3. O interesse no modelo de ausˆencia de intera¸ca˜o entre as vari´aveis explicativas (fazenda e ra¸ca) ´e obtido em (11) tomando A e X indicadas abaixo, com β traduzindo a parametriza¸ca˜o da casela de referˆencia na subpopula¸ca˜o (1,1), ou seja correspondente a` ra¸ca A na fazenda 1, i.e., β = (β1A , βB , βC , β2 , β3 )0 . A = I9 ⊗ (0, 1, 2, 3)0 1 1 1 1 1 0 1 0 0 1 X0 = 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 16
1 0 1 1 0
1 0 0 0 1
1 1 0 0 1
1 0 1 0 1
(19)
(20)
4.2
Modelos log-lineares
Entre outras aplica¸co˜es os modelos log-lineares s˜ao u ´ teis na descri¸ca˜o de padr˜oes de associa¸ca˜o entre vari´aveis categorizadas. Exemplos t´ıpicos s˜ao os modelos de independˆ encia. Os modelos log-lineares podem ser expressos na forma logπ q = 1r λq + Xq β , q = 1, . . . , s ou, de uma forma condensada, por logπ = (Is ⊗ 1r )λ + Xβ ,
(21)
onde λ ´e um vetor de s componentes associados a`s restri¸co˜es naturais. A matriz X = (X1 0 , . . . , Xs 0 )0 , de dimens˜ao (sr × p), ´e tal que cada submatriz (r × p) de X, gerando π q a partir de β, satisfaz r([1r , Xq ]) = 1 + r(Xq ) , q = 1, . . . , s e r([Is ⊗ 1r , X]) = s + r(X) = s + p. A formula¸ca˜o (21) equivale a Alogπ = XL β
(22)
onde A ´e uma matriz s(r − 1) × sr tal que r(A) = s(r − 1) e AD = 0s(r−1)×s e XL ´e uma matriz s(r − 1) × p com as rela¸co˜es XL = AX e X = A0 (AA0 )−1 XL . Na express˜ao acima 0s(r−1)×s representa uma matriz s(r − 1) × s de elementos iguais a 0. Tomando A = Is ⊗ [Ir−1 , −1r−1 ] obtemos os chamados logitos de referˆ encia (relativos a` categoria r). Exemplo 5 (continua¸ c˜ ao). O modelo Multinomial correspondente a este problema pode ser reparametrizado fazendo-se Y XY log θij = λ + λX i + λj + λij
com as restri¸co˜es de identificabilidade 2 X i=1
λX i =
2 X
j=1
λYj =
2 X
λXY ij =
i=1
2 X
λXY ij = 0.
j=1
O modelo estrutural de independˆencia corresponde a tomar λXY 11 = 0 e poder ser Y 0 expresso sob a formula¸ca˜o (21) com s = 1, r = 4, λ = λ, β = (λX 1 , λ1 ) e 17
X=
1 1 1 −1 . −1 1 −1 −1
(23)
Sob a formula¸ca˜o (22), basta tomar
1 0 0 −1 A = 0 1 0 −1 0 0 1 −1
(24)
2 2 XL = 2 0 . 0 2
(25)
Exemplo 6 (continua¸ c˜ ao). Neste caso, que pode ser adequadamente modelado por um produto de distribui¸co˜es Multinomiais, o modelo log-linear saturado correspondente pode ser convenientemente expresso por (22) com A = I6 ⊗ (1, −1)
XL =
(26)
1 1 1 1 1 1 1 1 −1 0 −1 0 1 1 0 −1 0 −1 . 1 −1 1 1 −1 −1 1 −1 −1 0 1 0 1 −1 0 −1 0 1
(27)
Aqui os elementos de β = (µ, α1 , β1 , β2 , αβ11 , αβ12 )0 tˆem interpreta¸ca˜o similar a`quela dos parˆametros de uma ANOVA com restri¸co˜es de identificabilidade de soma zero. Embora as formula¸co˜es (21) e (22) sejam equivalentes, para efeito de interpreta¸ca˜o e implementa¸ca˜o computacional, a primeira ´e mais adequada para problemas cujo modelo probabil´ıstico ´e Multinomial enquanto a segunda ´e mais adequada para problemas cujo modelo probabil´ıstico ´e um produto de distribui¸co˜es Multinomiais. 18
Ainda em rela¸ca˜o aos modelos log-lineares pode-se considerar uma classe mais ampla express´avel por A∗ logπ = X∗ (28) Lβ , onde A∗ ´e uma matriz u × sr com r(A∗ ) = u ≤ s(r − 1) e a matriz u × p de especifica¸ca˜o X∗ e tal que r(X∗ L ´ L ) = p ≤ u. Nesta classe, mais ampla que aquela descrita acima, podemos ter u < s(r − 1) e A∗ D 6= 0u×s . Tais modelos s˜ao ditos log-lineares generalizados. Quando A∗ D = 0 o modelo (28) pode u×s
ser escrito na forma (21); para detalhes ver Paulino e Singer (2003). Em certas aplica¸co˜es o modelo ´e mais facilmente concretizado via (22) e em outras, via (28). Exemplo 2 (continua¸ c˜ ao). Um dos objetivos do estudo era comparar os riscos relativos de ocorrˆencia de complica¸co˜es pulmonares no per´ıodo p´osoperat´orio, tomando como referˆencia a categoria de baixo risco pr´e-operat´orio. Assim, o modelo (28) reflete a igualdade dos dois riscos relativos ao fazermos β = β,
A∗ =
0 −1 0 1 0 0 0 −1 0 0 0 1
0 X∗ L = (1, 1) .
4.3
!
,
(29) (30)
Modelos funcionais lineares
Os modelos vistos anteriormente constituem casos particulares de modelos funcionais lineares definidos por F(π) = Xβ ,
(31)
onde F(π) ´e um vetor de u ≤ s(r −1) fun¸co˜es param´etricas de interesse e a matriz u × p de especifica¸ca˜o X tem r(X) = p ≤ u. A fun¸ca˜o vetorial F(·) : IR sr → IRu deve satisfazer certas condi¸co˜es de regularidade (ver Paulino e Singer (2003), por exemplo). Aqui, (31) corresponde a` chamada formula¸ c˜ ao em termos de equa¸ co ˜es livres, sendo que (11), (22) e (28) configuram casos particulares. De forma equivalente temos a formula¸ c˜ ao em termos de restri¸ co ˜es
19
CF(π) = 0(u−p) , 0
onde C ´e uma matriz u × (u − p) base do complemento ortogonal do espa¸co imagem de X, e portanto, CX = 0(u−p)×p . Em muitas aplica¸co˜es F(π) pode ser constru´ıda atrav´es da composi¸ca˜o de fun¸co˜es lineares, logar´ıtmicas, exponenciais e adi¸ca˜o de um vetor de constantes. Exemplo 1 (continua¸ c˜ ao). Um dos objetivos do estudo era avaliar o grau de concordˆancia entre os dois m´etodos de avalia¸ca˜o. Para isto pode-se usar a estat´ıstica Kappa, κ=
P
i θii
−
1−
P
P
i θi· θ·i
i θi· θ·i
que pode ser obtida atrav´es de
P
i θii
= P
i θi·
−
P
P
i θi· θ·i
j6=i θ·j
.
F(π) = κ = exp[A4 log{A3 exp{A2 log(A1 π)}}] , com
A1 =
A2 =
A3 =
1 1 0 0 1 0 0 1 1 0
0 1 0 0 0 1 0 1 0 1
0 1 0 0 0 0 1 0 1 1
0 0 1 0 1 0 0 1 1 0
1 0 1 0 0 1 0 1 0 1
0 0 1 0 0 0 1 0 1 1
0 0 0 1 1 0 0 1 1 0
0 0 0 1 0 1 0 1 0 1
1 0 0 1 0 0 1 0 1 1
1 0 0 0 0 0 0
0 1 0 0 1 0 0
0 0 1 0 0 1 0
0 0 0 1 0 0 1
0 1 0 0 0 0 0
0 0 1 0 0 0 0
0 0 0 1 0 0 0
0 0 0 0 0 0 1
0 0 0 0 0 1 0
1 −1 −1 −1 0 0 0 0 0 0 0 1 1 1 20
!
,
0 0 0 0 1 0 0 ,
(32)
,
(33)
(34)
A4 =
5
1 −1
.
(35)
Estima¸ c˜ ao por M´ axima Verossimilhan¸ ca
Para estimar os parˆametros dos modelos estruturais apresentados consideramos um conjunto de dados com o paradigma da Tabela 2, para o qual assumimos um modelo probabil´ıstico Produto de Multinomiais, em que, por raz˜oes de simplicidade notacional definimos πij = θi(j) . Nosso interesse ´e ajustar modelos estruturais da forma π = π(β) = (π 1 (β), . . . , π s (β))0 com π i (β) = (πi1 (β), . . . , πir (β))0 , i = 1, . . . , s em que β ´e um vector p-dimensional de parˆametros desconhecidos. Sob essas condi¸co˜es, o logaritmo da fun¸ca˜o de verossimilhan¸ca correspondente pode ser expresso como ln Ln (β|n) = K +
s X r X
nij ln πij (β)
(36)
i=1 j=1
em que K ´e uma constante que n˜ao depende de β. O estimador de m´axima b das seguintes equa¸ verossimilhan¸ca (MV) de β ´e a solu¸ca˜o β co˜es, obtidas quando n igualamos a zero as derivadas de (36) Un (β) =
s X r X
nij ∂ πij (β) = 0 sujeito a i=1 j=1 πij (β) ∂β
r X
πij (β) = 1, i = 1, . . . , s.
j=1
(37)
Como a matriz hessiana correspondente, ∂2 ln Ln (β|n) ∂β∂β 0 s X r X ∂ nij ∂ = − πij (β) 0 πij (β) 2 [πij (β)] ∂β ∂β i=1 j=1
Vn (β) =
+
s X r X
nij ∂2 0 πij (β) i=1 j=1 πij (β) ∂β∂β
´e negativa negativa, a solu¸ca˜o de (37) corresponde a um ponto de m´aximo. Embora existam solu¸co˜es expl´ıcitas de (37) em alguns casos, geralmente ´e preciso recorrer a m´etodos iterativos para resolver essas equa¸co˜es. Um dos mais comum ´e o m´etodo de Newton-Raphson, que consiste em iterar 21
β (q) = β (q−1) − [Vn (β (q−1) ]−1 Un (β (q−1) ),
q = 1, 2, . . .
(38)
(0)
iniciando o processo por uma aproxima¸ca˜o conveniente β e terminando-o com a satisfa¸ca˜o de um crit´erio de convergˆencia previamente definido. Em situa¸co˜es particulares, outros m´etodos iterativos podem ser mais convenientes.
5.1
Modelo linear geral
Para o modelo de simetria, existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca que s˜ao dados por θˆij =
(
nij /N, i=j (nij + nji )/(2N ), i = 6 j.
(39)
Para outros modelos estruturais, o m´etodo do gradiente, proposto por Paulino e Silva (2000) ´e uma alternativa adequada. O m´etodo ´e desenvolvido com base na formula¸ca˜o (12). Partindo de uma estimativa inicial para π, novas estimativas s˜ao calculadas iterativamente at´e que um crit´erio de convergˆencia seja satisfeito. b (nota¸ Com a estimativa de π assim obtida, denotada por π ca˜o tamb´em usada para o estimador), segue de (11) que b = (X0 X)−1 XA0 π. b β
Para grandes amostras a matriz de covariˆancia aproximada do estimador MV de β ´e dada por −1 V b = { J0 DN D−1 (40) π (β ) J } , β onde N = n∗. ⊗ 1r = (Is ⊗ 1r 10r ) e DN ´e uma matriz diagonal sr × sr tendo os componentes de N na diagonal. A matriz J, de dimens˜ao sr × p, suposta de posto completo, ´e o jacobiano ∂π(β)/∂β 0 , e ´e calculada por 0
J = PA0 (APA )−1 X , com P = Is ⊗ (Ir − r −1 1r 10r ). b ´ A matriz de covariˆancia assint´otica de Aπ e dada por 0 VA π b = X Vβ bX .
(41)
b em (40) e (41) obtemos estimadores consistentes das Substituindo β por β matrizes de covariˆancias correspondentes.
22
5.2
Modelos log-lineares
Um exemplo de situa¸ca˜o em que existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca (37) ´e aquele para qual o modelo de independˆencia pode ser cogitado. Nessas condi¸co˜es, para uma tabela I × J, os estimadores MV de θij s˜ao dados por θˆij = ni· n·j /N,
i = 1, · · · , I, j = 1, · · · , J.
(42)
Para outros casos, podemos adotar o procedimento de Newton-Raphson descrito em Reis (1989), por exemplo. O procedimento iterativo para maximiza¸ca˜o da fun¸ca˜o de verossimilhan¸ca ´e iniciado com uma estimativa β (0) . A partir desta, π e β s˜ao sucessivamente calculados at´e que um crit´erio de convergˆencia seja atendido. As matrizes de covariˆancias assint´oticas de β e A log π s˜ao dadas por
Vb = { β
s X
nq. X0q [Dπ q − π q π 0q ]Xq }−1
(43)
q=1
0 0 −1 −1 0 VAlogπ b = X Vβ b X = X{J DN Dπ (β ) J } X
(44)
b em (43) e (44) obtemos estimadores consistentes para as Substituindo π por π respectivas matrizes de covariˆancias.
6
Estima¸ c˜ ao por M´ınimos Quadrados Generalizados
Nas Se¸co˜es 5.1 e 5.2 o m´etodo MV foi particularizado para os modelos linear geral e log-linear. Aqui nos dedicamos a` t´ecnica MQG, aplic´avel a toda a classe de modelos funcionais lineares da Se¸ca˜o 4.3. Em particular, essa t´ecnica tamb´em ´e aplic´avel aos modelos linear geral e log-linear. Referˆencias importantes sobre esse t´opico s˜ao Grizzle, Starmer and Koch (1969), Landis et al. (1976) e Koch et al. (1985). Seja p = D−1 co˜es amostrais. A matriz de covariˆancia N n o vetor das sr propor¸ de p ´e a matriz sr × sr diagonal em blocos dada por 0 Vp = D−1 N diag(Dπ q − π q π q , q = 1, . . . , s).
(45)
Substituindo π por p em (45) obtemos o seguinte estimador consistente para Vp : 23
d = D−1 diag(D − p p0 , q = 1, . . . , s). V p pq q q N
(46)
d =HV d H0 , V F p
(47)
EA (F) = F(π) = Xβ ,
(48)
Definindo F ≡ [F1 (p), . . . , Fu (p)]0 temos um estimador consistente de F(π). Um estimador consistente da matriz de covariˆancia de F ´e dado por
em que H = ∂F(π)/∂π |π =p ´e a matriz u × sr das derivadas das fun¸co˜es F(·) calculadas em p. Escrevendo
onde EA significa valor esperado assint´otico e X e β tˆem o mesmo significado indicado na Se¸ca˜o 4.3, o estudo das fun¸co˜es de interesse F(π) pode ser feito analisando (48) como um modelo de regress˜ao linear. Minimizando −1
d (F − Xβ) , (F − Xβ)0 V F
obtemos o estimador de MQG
−1
−1
b = (X0 V d X)−1 X0 V d F, β F F
(49)
cuja matriz de covariˆancia pode ser estimada de forma consistente por −1
d X)−1 . d = (X0 V V F βb
(50)
b = Xβ b . F
(51)
Valores preditos de F(π) sob o modelo (48) podem ser calculados como
Um estimador consistente da matriz de covariˆancia correspondente ´e −1
d = X(X0 V d X)−1 X0 V F b F
Um estimador consistente para o vetor de probabilidades π ´e fornecido por d d H0 V b =p − V π F p
24
−1
b (F − F)
(52)
Observa¸ c˜ ao 1. Mesmo quando o modelo Produto de Multinomiais n˜ao ´e adequado a`s freq¨ uˆencias observadas, podemos realizar a an´alise das fun¸co˜es de interesse usando os resultados (49)—(52) se dispusermos de estimativas de F(π) e VF com as propriedades mencionadas. Observa¸ c˜ ao 2. A existˆencia de freq¨ uˆencias observadas nulas (zeros amostrais) merece aten¸ca˜o especial neste caso. Ver Paulino e Singer (2003) para detalhes.
7
Testes de ajustamento dos modelos
b para o vetor de probabilidades, µ b = DN π b fornece Calculada uma estimativa π uma estimativa para as freq¨ uˆencias esperadas nas caselas. O ajustamento dos modelos pode ser avaliado confrontando, por algum meio, as freq¨ uˆencias obserb vadas (n) com as freq¨ uˆencias esperadas sob o modelo (µ). Para os modelos linear geral e log-linear com parˆametros estimados por MV podemos usar a estat´ıstica da raz˜ao de verossimilhan¸cas de Wilks b − logn). QV = −2n0 (logµ
(53)
b b 0 D−1 (n − µ), QP = (n − µ) b µ b 0 D−1 b QN = (n − µ) n (n − µ)
(54)
d (CH)0 ]−1 CF , QW = (CF)0 [CHV p
(56)
As estat´ısticas de Pearson (QP ) e de Neyman (QN ) definidas como
(55)
s˜ao gerais na medida em que se aplicam aos dois m´etodos de estima¸ca˜o (MV e MQG). O c´alculo de QP exige freq¨ uˆ encias estimadas estritamente positivas, enquanto QV e QN exigem freq¨ uˆ encias observadas com esta propriedade. O teste de ajustamento do modelo dispensa a estima¸ca˜o dos parˆametros, se recorrermos a` estat´ıstica de Wald
AD−1 p )
onde F = Ap (F = Alogp), H = A ( H = para o modelo linear geral d ´ (log-linear) e V p e dada em (46). A matriz C exerce o mesmo papel indicado na Se¸ca˜o 4.3, mas em rela¸ca˜o a` matriz X em (11), XL em (22) e X∗ L em (28), consoante o modelo em quest˜ao. No caso do modelo (28), a matriz A usada no c´alculo de H acima ´e substitu´ıda por A∗ . Nos modelos log-lineares, as frequˆencias observadas devem ser estritamente positivas. As estat´ısticas QN e QW s˜ao idˆenticas quando avaliadas com estimativas MQG. 25
Sob a validade do modelo estrutural em teste, a distribui¸ca˜o limite comum das estat´ısticas apresentadas ´e qui-quadrado com u − p graus de liberdade, com u = s(r − 1) nos modelos (21) e (22). Na situa¸ca˜o da nota do final da Se¸ca˜o 6 o ajuste do modelo pode ser testado com a estat´ıstica de Wald.
8
Hip´ oteses redutoras de modelos
Tendo conseguido um modelo satisfatoriamente ajustado aos dados pode haver interesse em testar simplifica¸co˜es adicionais materializadas em hip´oteses do tipo H0 : Wβ = 0t×1 ,
(57)
onde W ´e uma matriz t × p de posto r(W) = t ≤ p. Essas hip´oteses podem ser testadas atrav´es da estat´ıstica generalizada de Wald b 0 (WV b , d W0 )−1 Wβ QW G = (Wβ) b β
(58)
b eV d s˜ onde β oes apropriadas b ao calculados de acordo com o modelo (ver express˜ β nas Se¸co˜es 5.1, 5.2 e 6). Sob H0 a distribui¸ca˜o limite de QW G ´e χ2t .
26
9
Exemplo de an´ alise
Tabela 13: Distribui¸ca˜o de les˜ao obstrutiva coronariana expressiva para pacientes com e sem hipertens˜ao arterial, controlando sexo e idade. Sexo Fem
Idade
View more...
Comments