ANÁLISE DE DADOS CATEGORIZADOS

August 16, 2017 | Author: Jair Feitoza | Category: Risk Factor, Estimator, Matrix (Mathematics), Euclidean Vector, Mathematical Analysis
Share Embed Donate


Short Description

Download ANÁLISE DE DADOS CATEGORIZADOS...

Description

´ ANALISE DE DADOS CATEGORIZADOS Julio da Motta Singer Universidade de S˜ao Paulo S˜ao Paulo, Brasil

Minicurso apresentado no XIII Simposio de Estadistica ”Estad´ıstica en Ciencias de la Salud” 3 a 7 de agosto de 2003 Armenia, Quindio. Colombia

Pref´ acio Estas notas de aula correspondem ao resumo de um texto sobre an´alise de dados categorizados em elabora¸ca˜o por Carlos Daniel Paulino e Julio da Motta Singer. Elas tamb´em cont´em material extra´ıdo de um manual implementa¸ca˜o computacional das t´ecnicas a´ı desenvolvidas, preparado por Carine Savalli, Carlos Daniel Paulino, Giovani Loiola Silva, Julio da Motta Singer, Maria Paula Chicarino, M´ario de Castro e Rodrigo Andrade Tavares.

Julio da Motta Singer S˜ao Paulo, julho de 2003.

2

1

Dados categorizados

Dados discretos relativos a uma ou mais vari´aveis definidas por meio de um n´ umero finito de n´ıveis ou categorias s˜ao denominados dados categorizados. Alguns exemplos podem ser encontrados na Tabela 1. As vari´aveis correspondentes podem ser classificadas como ordinais ou nominais conforme suas categorias sejam ordenadas ou n˜ao. Tabela 1. Exemplo de matriz com dados categorizados. Dados de um estudo sobre Endometriose Dr. Maurício Simões Abrão (FMUSP)

Grupo Paciente Idade Gestação Partos Abortos Dismenorréia Dispareunia AFSr Controle 1 26 3 3 0 L N 0 Controle 2 37 4 3 1 N P 0 Controle 3 37 4 4 0 N N 0 Controle 4 35 3 3 0 L N 0 Controle 5 34 4 3 1 N N 0 Controle 6 38 5 5 0 L N 0 Controle 7 30 5 4 1 N N 0 Controle 8 38 11 7 4 N N 0 Controle 9 36 7 6 1 N N 0 Controle 10 41 4 3 1 N N 0 Controle 11 36 7 4 3 N N 0 Controle 12 38 3 3 0 N N 0 Controle 13 32 3 3 0 L N 0 Controle 14 37 3 3 0 M P 0 Controle 15 32 6 6 0 N N 0 Doente 1 31 0 0 0 M P 1 Doente 2 32 0 0 0 M N 1 Doente 3 27 0 0 0 I PRO 1 Doente 4 28 1 1 0 L N 1 Doente 5 34 2 1 1 M N 1 Doente 6 38 9 6 4 I 2 1 Doente 7 29 0 0 0 S/ N 1 Doente 8 38 0 0 0 M 2 1 Doente 9 20 0 0 0 M . 1 Doente 10 38 0 0 0 L N 2 Doente 11 34 5 3 2 M 2 2 Doente 12 29 1 1 0 I PRO 2 Doente 13 23 0 0 0 I PRO 2 Doente 14 27 3 2 1 I PRO 2 Doente 15 40 2 2 0 M N 2 Doente 16 25 1 0 1 M P 2 Doente 17 39 0 0 0 I PRO 2 Doente 18 34 3 2 1 I PRO 2 Doente 19 24 2 1 1 I PRO 2 Doente 20 25 1 0 1 I PRO 2 Doente 21 39 0 0 0 I N 3 Doente 22 27 0 0 0 L PRO 3 Doente 23 30 1 0 1 M PRO 3 Doente 24 28 0 0 0 I N 3 Doente 25 20 0 0 0 M . 3 Doente 26 28 2 2 0 I N 3 Doente 27 26 0 0 0 M 2 3 Doente 28 32 1 1 0 I PRO 3 Doente 29 37 0 0 0 M PRO 3

3

Essencialmente estes dados podem ser dispostos na forma de uma tabela (de contingˆencia) s × r onde as s linhas correspondem a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis explicativas (se existirem), e as r colunas a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis respostas. A distin¸ca˜o entre vari´aveis explicativas e respostas ´e conseq¨ uˆencia da defini¸ca˜o das quest˜oes de interesse do estudo e da especifica¸ca˜o do planejamento amostral. Havendo apenas vari´aveis respostas, consideramos s = 1. De uma forma gen´erica, as tabelas de contingˆencia enfocadas neste trabalho podem ser representadas segundo o modelo da Tabela 1, em que nqm , q = 1, . . . , s , m = 1, . . . , r, denota a freq¨ uˆencia observada na P casela correspondente, nq. = rm=1 nqm , q = 1, . . . s ´e o total da q-´esima linha e N ´e o tamanho da amostra. Tabela 2. Forma bidimensional de uma tabela de contingˆencia gen´erica Subpopula¸ca˜o 1 2 · · q · · s Total

Categorias 1 2 ... n11 n12 . . . n21 n22 . . . · · nq1 nq2 . . . · · ns1 ns2 . . .

de resposta m ... r n1m . . . n1r n2m . . . n2r · · nqm . . . nqr · · nsm . . . nsr

Total n1· n2·

nq·

ns· N

Alguns exemplos ilustrativos seguem abaixo. Exemplo 1 (Paulino e Singer (2003)). Os dados da Tabela 3 se referem a um estudo de suscetibilidade a` c´arie dent´aria em crian¸cas. Os dois m´etodos de avalia¸ca˜o dessa suscetibilidade determinam duas vari´aveis respostas, cada uma com 3 n´ıveis (neste caso s = 1 e r = 9).

4

Tabela 3. Freq¨ uˆencias observadas de 97 crian¸cas de 11-13 anos de uma escola p´ ublica.

Risco de c´arie segundo o m´etodo simplificado

Baixo M´edio Alto

Risco de c´arie segundo o m´etodo convencional Baixo M´edio Alto 11 5 0 14 34 7 2 13 11

Exemplo 2 (Paulino e Singer (2003)). Os dados da Tabela 4 s˜ao provenientes de um estudo envolvendo a avalia¸ca˜o pulmonar pr´e-operat´oria de 1162 pacientes (classificados como tendo baixo, m´edio ou alto risco) e a ocorrˆencia de complica¸ca˜o pulmonar no per´ıodo p´os-operat´orio de cirurgia geral (neste caso s = 3 e r = 2). Tabela 4. N´ umero de pacientes. Avalia¸ca˜o pr´e-operat´oria do grau de complica¸ca˜o pulmonar Baixo Moderado Alto

Avalia¸ca˜o pulmonar p´os-operat´oria Sem complica¸ca˜o Com complica¸ca˜o 737 48 243 74 39 21

Exemplo 3 (Paulino e Singer (2003)). Estudo de fertilidade de ovelhas de v´arios rebanhos identificados pela ra¸ca e pela fazenda onde eram criadas, cuja influˆencia no tamanho da ninhada se pretende averiguar (neste caso s = 9 e r = 4).

5

Tabela 5. N´ umero de ovelhas.

Fazenda Ra¸ca A 1 B C

N´ umero de borregos por ninhada 0 1 2 ≥ 3 Total 10 21 96 23 150 4 6 28 8 46 9 7 58 7 81

2

A B C

8 5 1

19 17 5

44 56 20

1 1 2

72 79 28

3

A B C

22 95 103 18 49 62 4 12 16

4 0 2

224 129 34

Exemplo 4 (Koch et al. (1985)). Os dados da Tabela 6 resultaram da avalia¸ca˜o por um conjunto de homens de certos objetos culturalmente masculinos. Cada indiv´ıduo classificava como masculino (M) ou feminino (F) objetos que eram mostrados durante per´ıodos vari´aveis de exposi¸ca˜o. Os indiv´ıduos foram subdivididos em dois grupos conforme o conhecimento (Grupo 2) ou n˜ao (Grupo 1) da finalidade da experiˆencia (neste caso s = 2 e r = 9). Tabela 6. Freq¨ uˆencias observadas da avalia¸ca˜o do simbolismo sexual de objetos. Categorias de resposta nos 3 per´ıodos de exposi¸ca˜o Grupo MMM MMF MFM MFF FMM FMF FFM FFF 1 171 18 6 12 7 7 7 56 2 184 38 10 14 7 7 20 114

Exemplo 5. (Upton and Fingleton, 1985) Em ordem a detectar a eventual existˆencia de intera¸ca˜o positiva (atra¸ca˜o ) ou negativa (repuls˜ao) entre carvalhos e nogueiras, uma dada zona florestal foi dividida em 576 a´reas de tamanho e forma fixos e registrou-se para cada uma delas a ocorrˆencia ou n˜ao de cada tipo 6

de a´rvore (neste caso s = 1 e r = 4) Os resultados obtidos est˜ao descritos na Tabela 7. Tabela 7. N´ umero de a´reas. Carvalho Presente Ausente Total

Nogueira Presente Ausente 261 177 93 45 354 222

Total 438 138 576

Exemplo 6. (Koch et al. (1985)) Pacientes com diagn´ostico complicado ou n˜ao complicado, submetidos a 3 tratamentos (A, B e C) s˜ao observados com rela¸ca˜o a` cura de uma infec¸ca˜o nas vias urin´arias. Os dados s˜ao classificados em 6 subpopula¸co˜es, resultantes da combina¸ca˜o dos n´ıveis das duas vari´aveis explicativas (Tipo de diagn´ostico e Tratamento) com 2 poss´ıveis valores da vari´avel resposta (neste caso s = 6 e r = 2). Tabela 8. N´ umero de pacientes. Tipo de diagn´ostico Complicado

N˜ao Complicado

Tratamento A B C A B C

Status com rela¸ca˜o a` cura Curados N˜ao curados 78 20 101 11 68 46 40 54 34

5 5 6

Exemplo 7. Este exemplo ´e parte de um conjunto de dados tomado de Goodman (1962) e descreve as inten¸co˜es de voto (voto nos partidos A e B ou indecis˜ao) de 445 pessoas registradas em duas entrevistas espa¸cadas de um mˆes (neste caso s = 1 e r = 9). O objetivo ´e saber se as mudan¸cas na inten¸ca˜o de voto s˜ao iguais nos dois sentidos.

7

Tabela 9: Inten¸co˜es de voto em duas sondagens

Primeira sondagem

Segunda sondagem A B I A 192 1 5 B 2 146 5 I 11 12 71

Para a an´alise de dados com essas caracter´ısticas podemos seguir os seguintes passos: i) defini¸ca˜o das quest˜oes de interesse; ii) especifica¸ca˜o do delineamento amostral; iii) descri¸ca˜o dos dados amostrais; iv) escolha de um modelo probabil´ıstico que se afigure adequado (pelo menos, na base do senso comum ...); v) tradu¸ca˜o das quest˜oes de interesse em termos dos parˆametros do modelo probabil´ıstico adotado, ou seja, especifica¸ca˜o de modelos estruturais; vi) ajuste dos modelos especificados atrav´es de alguma metodologia estat´ıstica (e.g., metodologia de m´axima verosimilhan¸ca ou metodologia de m´ınimos quadrados generalizados); vii) compara¸ca˜o do(s) modelo(s) ajustado(s) com outros modelos alternativos; viii) convers˜ao das conclus˜oes em termos das quest˜oes originais.

2

Medidas de associa¸ c˜ ao

Consideramos aqui algumas medidas importantes para a an´alise de dados categorizados. Come¸camos com o seguinte exemplo: Fator de risco N˜ao Sim

Estado do paciente Sem doen¸ca Doente 1 − π0 π0 1 − π1 π1 8

Total 1 1

• π0 : Propor¸ca˜o de pacientes n˜ ao expostos ao fator de risco que apresentaram a doen¸ca. • π1 : Propor¸ca˜o de pacientes expostos ao fator de risco que apresentaram a doen¸ca. • Risco atribu´ıvel (d = π1 −π0 ): aumento na propor¸ca˜o de doentes atribu´ıvel a` exposi¸ca˜o ao fator risco. • Risco relativo (r = π1 /π0 ): propor¸ca˜o de doentes entre indiv´ıduos expostos ao fator de risco ´e r vezes a propo¸ca˜o de doentes entre os n˜ao expostos. • Compara¸ c˜ ao π0 = 0.42 π1 = 0.44

)

d = 0.02 r = 0.44

π0 = 0.02 π1 = 0.04

)

d = 0.02 r = 2.00

• log r = log π1 − log π0 : gˆenese dos modelos log-lineares • Importˆancia do conhecimento de alguma medida de associa¸ca˜o entre fator de risco e doen¸ca mesmo sem conhecimento de π0 e π1 . Em muitos estudos (caso/controle, por exemplo) n˜ao se pode estimar π0 e π1 . • Chances (”odds”): medida de freq¨ uˆencia de ocorrˆencia de eventos • π1 /(1 − π1 ): chance de um indiv´ıduo ser doente vs. n˜ao doente quando exposto ao fator de risco. • π0 /(1 − π0 ): chance de um indiv´ıduo ser doente vs. n˜ao doente quando n˜ ao exposto ao fator de risco. • Raz˜ ao de chances (”odds ratio”): ω=

π1 /(1 − π1 ) π0 /(1 − π0 )

• Estudos caso-controle Estado do paciente Sem doen¸ca (controle) Doente (caso)

Exposi¸ca˜o ao fator de risco N˜ao Sim 1 − p0 p0 1 − p1 p1 9

Total 1 1

• p0 : propor¸ca˜o de controles (n˜ao doentes) que tiveram exposi¸ca˜o ao fator de risco (6= π0 ). • p1 : propor¸ca˜o de casos (doentes) que tiveram exposi¸ca˜o ao fator de risco (6= π1 ). • Utilizando o Teorema de Bayes pode-se demonstrar que π1 /(1 − π1 ) p1 /(1 − p1 ) = =ω p0 /(1 − p0 ) π0 /(1 − π0 )

3

Modelos probabil´ısticos

A escolha de um modelo probabil´ıstico para os dados depende do planejamento e do objetivo do estudo. Vamos considerar trˆes estrat´egias de obten¸ca˜o dos dados de uma pesquisa de inten¸ca˜o de voto, cujo interesse era avaliar a rela¸ca˜o entre a opini˜ao de eleitores sobre um determinado candidato (X1 ) e sua faixa et´aria (X2 ). • Estrat´ egia I: entrevistar tantas pessoas quanto poss´ıvel, por exemplo, em 4 horas. Poder-se-˜ao obter dados como os da Tabela 10. Tabela 10: Frequˆencias hipot´eticas dos resultados de entrevistas realizadas num per´ıodo de tempo fixo.

Opini˜ao Favor´avel Desfavor´avel Total

Faixa et´aria < 40 ≥ 40 Total 43 25 41 70 179

• Suposi¸co˜es sobre o n´ umero de transeuntes com menos de 40 anos favor´aveis ao candidato que passa no s´ıtio em que se vai colher a amostra: i) num determinado intervalo de tempo, o n´ umero desses transeuntes ´e independente do n´ umero de transeuntes com as mesmas caracter´ısticas que passa em qualquer outro intervalo de tempo disjunto daquele; 10

ii) a distribui¸ca˜o daquele n´ umero de transeuntes s´o depende do comprimento do intervalo de tempo considerado e n˜ao do seu instante inicial; iii) a probabilidade de passagem de um daqueles transeuntes num intervalo de tempo suficientemente pequeno (um segundo, por exemplo) ´e aproximadamente proporcional ao comprimento do intervalo, com constante de proporcionalidade λ11 ; iv) a probabilidade de que dois ou mais daqueles transeuntes passem simultaneamente num intervalo de tempo suficientemente pequeno ´e desprez´avel. • Essas suposi¸co˜es permitem demonstrar que o n´ umero n11 de apoiantes com menos de 40 anos que passa num intervalo de tempo de comprimento m = 14400s (= 4 × 3600s) tem uma distribui¸ca˜o de Poisson com m´edia µ11 = mλ11 . • Aplicando o mesmo argumento aos outros nij e admitindo a independˆencia entre todas essas vari´aveis aleat´orias (suposi¸ca˜o que, neste caso, pode gerar alguma controv´ersia), chegamos ao modelo Produto de distribui¸ co ˜es de Poisson: f (n | µ) =

2 Y 2 Y

i=1 j=1

n

e−µij µijij , nij !

(1)

para nij ∈ INo i, j = 1, 2 onde n = (n11 , n12 , n21 , n22 )0 , µ = (µ11 , µ12 , µ21 , µ22 )0 com µij ∈ IR+ , i, j = 1, 2. • Hip´ otese de interesse: a propor¸ca˜o de apoiantes entre os indiv´ıduos mais jovens ´e a mesma que existe entre as pessoas menos jovens, ou seja, µ11 µ12 HI : = µ·1 µ·2 P

P

onde µ·j = i µij , µi· = j µij e µ·· = equivalentemente express´avel por HI : µij = para i, j = 1, 2. 11

P

µ1· = µ·· i,j

!

(2)

µij . Note-se que esta hip´otese ´e

µi· × µ·j , µ··

(3)

• Estrat´ egia II: fixar antecipadamente o n´ umero N de pessoas a entrevistar e selecion´a-las de um modo aleat´orio. Por exemplo, fixando N = 200, poder-se-˜ao obter dados como os da Tabela 11. Tabela 11: Frequˆencias hipot´eticas dos resultados do n´ umero fixado de entrevistas

Opini˜ao Favor´avel Desfavor´avel Total

Faixa et´aria < 40 ≥ 40 50 26 48 76 200

• θij : probabilidade de um indiv´ıduo apresentar a caracter´ıstica (i, j), considerada constante para todo o indiv´ıduo da popula¸ca˜o em estudo, i.e. θij = P (X1k = i, X2k = j), k = 1, . . . , N . • Seja θ = (θ11 , θ12 , θ21 , θ22 )0 tal que 10 θ =

P

i,j

θij = 1.

• Associemos ao indiv´ıduo k da amostra selecionada o vetor Wk (com componentes Wkij ordenadas lexicograficamente) definido de tal forma que Wkij = 1 e Wki0 j 0 = 0, i0 6= i ou j 0 6= j, se para tal indiv´ıduo se tem X1k = i e X2k = j. Isto significa que Wk ´e um vetor aleat´orio cujos valores poss´ıveis s˜ao {(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)}. Deste modo, os vetores Wk , k = 1, . . . , N s˜ao identicamente distribu´ıdos segundo a distribui¸ca˜o de Bernoulli (trivariada) de parˆametro θ. • Assumindo adicionalmente que esses vectores s˜ao independentes, segue-se P que o vetor das frequˆencias observ´aveis n = N k=1 Wk apresenta a distribui¸ca˜o Multinomial 2 Y

n

θijij f (n | N, θ) = N ! , i,j=1 nij ! com 10 n = N, 10 θ = 1. 12

(4)

• Hip´ otese de interesse: independˆencia estoc´astica entre X1 e X2 . HII : θij = θi· × θ·j ,

(5)

para i, j = 1, 2, onde {θi· } e {θ·j } representam as probabilidades marginais de X1 e X2 , respectivamente. • Estrat´ egia III: fixar antecipadamente o n´ umero Nj de indiv´ıduos de cada faixa et´aria. Fixando, por exemplo N1 = N2 = 100, poder-se-˜ao obter dados tais como aqueles dispostos na Tabela 12. Tabela 12: Frequˆencias hipot´eticas dos resultados do n´ umero de entrevistas fixado para cada faixa et´aria. Faixa et´aria < 40 ≥ 40 54 30 46 70 Total 100 100 200

Opini˜ao Favor´avel Desfavor´avel Total

• Note-se que, enquanto na Estrat´egia II s´o o total geral da tabela ´e fixo, aqui, os totais marginais das colunas tamb´em s˜ao fixos. A vari´avel fixa, X2 , serve apenas para indicar as subpopula¸co˜es de onde s˜ao tomadas as observa¸co˜es de X1 . • θi(j) : probabilidade de qualquer indiv´ıduo ser classificado na categoria i de X1 dado que est´a classificado no n´ıvel j de X2 , i.e., θi(j) = P (X1k = i | X2k = j) , para k = 1, . . . , N, j = 1, 2. Ent˜ao

P2

i=1 θi(j)

= 1, j = 1, 2.

• Argumentos similares aos utilizados no caso anterior permitem concluir que um modelo probabil´ıstica adequado ´e o modelo Produto de distribui¸ co ˜es Multinomiais f (n | N, π) =

 2  Y

j=1



Nj !

2 Y

i=1

n



ij  θi(j)

nij ! 

onde N = (N1 , N2 )0 e π = (π 01 , π 02 )0 , com π j = (θ1(j) , θ2(j) )0 , j = 1, 2. 13

(6)

• Hip´ otese de interesse: homogeneidade das distribui¸co˜es Multinomiais HIII : θ1(1) = θ1(2) .

(7)

• Rela¸ c˜ ao entre os modelos: A fun¸ca˜o de probabilidade do modelo Produto de distribui¸co˜es de Poisson admite as seguintes fatoriza¸co˜es : 2 Y e−µ·· µn·· ·· (µij /µ·· )nij f (n | µ) = × n·· ! n·· ! nij ! i,j=1

(8)

(

2 2 2 Y Y Y e−µ·· µn·· ·· (µ·j /µ·· )n·j (µij /µ·j )nij = × n·· ! × n·j ! n·· ! n·j ! nij ! j=1 j=1 i=1

=

2 Y

j=1

(

n

e−µ·j µ·j·j n·j !

)

×

2 Y

j=1

(

(µij /µ·j )nij n·j ! nij ! i=1 2 Y

)

)

(9)

(10)

• Como conseq¨ uˆencia de (8), o modelo Multinomial com parˆametros θij = µij /µ·· pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson por condicionamento no total da tabela, N. • Como conseq¨ uˆencia de (9) ou (10), o modelo Produto de distribui¸co˜es Multinomiais com parˆametros θi(j) = µij /µ·j pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson ou Multinomial por condicionamento nos totais marginais, Nj . • Esses resultados permitem que a classifica¸ca˜o de algumas vari´aveis como fatores seja feita a posteriori, por condicionamento.

4

Modelos estruturais

Em geral estamos interessados na redu¸ca˜o do n´ umero de parˆametros do modelo probabil´ıstico, acarretando uma simplifica¸ca˜o de sua estrutura param´etrica. A express˜ao matem´atica dessa redu¸ca˜o ´e chamada modelo estrutural. Em seguida apresentamos modelos que surgem em diversas situa¸co˜es pr´aticas. Lembramos P P que as restri¸co˜es naturais, j θj = 1 sob o modelo Multinomial ou j θi(j) = 1, i = 1, · · · , s, sob o modelo Produto de distribui¸co˜es Multinomiais devem ser levadas em conta. Essas restri¸co˜es podem ser expressas compactamente como (D0 π = 1s ) em que D ´e uma matriz conveniente. 14

4.1

Modelo linear geral

O chamado modelo linear geral tem formula¸ca˜o dada por Aπ = Xβ ,

(11)

onde A ´e uma matriz u × sr com posto r(A) = u ≤ sr tal que r([A0 , D]) = u + s, X ´e a matriz u × p de constantes conhecidas especificadora do modelo com posto r(X) = p ≤ u e β ´e o vetor dos p parˆametros do modelo estrutural. Modelos de simetria e homogeneidade marginal, por exemplo, se enquadram na express˜ao (11). Em termos de restri¸co˜es, (11) ´e equivalente a C A π = 0(u−p)

(12)

onde C ´e uma matriz (u − p) × u de caracter´ıstica m´axima, com linhas ortogonais a`s colunas de X. Exemplo 1 (continua¸ c˜ ao). A hip´otese de a distribui¸ca˜o do grau de risco ser a mesma para os dois m´etodos em an´alise (homogeneidade marginal), θi· = θ·i , i = 1, · · · 3, ´e express´avel por (11) com β = (θ1· , θ2· )0 ,    

A=

1 0 1 0

1 0 0 1

1 0 0 0

0 1 1 0  

X=  

0 1 0 1 1 0 1 0

0 1 0 0 0 1 0 1

0 0 1 0

0 0 0 1

0 0 0 0



  . 



  , 

(13)

(14)

Sob a formula¸ca˜o (12), a hip´otese de homogeneidade marginal pode ser expressa com A dada por (13) e C=

1 0 −1 0 0 1 0 −1

!

.

(15)

Exemplo 7 (continua¸ c˜ ao). A hip´otese de simetria, i.e. θij = θji , i, j = 1, · · · 3, i < j ´e express´avel por (11) com β = (θ12 , θ13 , θ23 )0 ,

15



A=

        

0 0 0 0 0 0

1 0 0 0 0 0

0 1 0 0 0 0 

X=

        

0 0 1 0 0 0

0 0 0 0 0 0

0 0 0 1 0 0

1 0 1 0 0 0

0 1 0 0 1 0

0 0 0 1 0 1

0 0 0 0 1 0

0 0 0 0 0 1

0 0 0 0 0 0





    ,    

    .    

(16)

(17)

Sob a formula¸ca˜o (12), a hip´otese de simetria pode ser expressa com A dada por (16) e 



1 0 −1 0 0 0   C =  0 1 0 0 −1 0  . 0 0 0 1 0 −1

(18)

Exemplo 3 (continua¸ c˜ ao). A compara¸ca˜o das subpopula¸co˜es determinadas pela combina¸ca˜o dos n´ıveis das vari´aveis definidoras da fazenda e ra¸ca poder´a ser feita em termos do tamanho m´edio da ninhada. Admitimos que as categorias representadas pelos inteiros ≥ 3 s˜ao agrupadas tendo score comum igual a 3. O interesse no modelo de ausˆencia de intera¸ca˜o entre as vari´aveis explicativas (fazenda e ra¸ca) ´e obtido em (11) tomando A e X indicadas abaixo, com β traduzindo a parametriza¸ca˜o da casela de referˆencia na subpopula¸ca˜o (1,1), ou seja correspondente a` ra¸ca A na fazenda 1, i.e., β = (β1A , βB , βC , β2 , β3 )0 . A = I9 ⊗ (0, 1, 2, 3)0  1 1 1 1 1   0 1 0 0 1  X0 =   0 0 1 0 0   0 0 0 1 1 0 0 0 0 0 16

1 0 1 1 0

1 0 0 0 1

1 1 0 0 1

1 0 1 0 1

       

(19)

(20)

4.2

Modelos log-lineares

Entre outras aplica¸co˜es os modelos log-lineares s˜ao u ´ teis na descri¸ca˜o de padr˜oes de associa¸ca˜o entre vari´aveis categorizadas. Exemplos t´ıpicos s˜ao os modelos de independˆ encia. Os modelos log-lineares podem ser expressos na forma logπ q = 1r λq + Xq β , q = 1, . . . , s ou, de uma forma condensada, por logπ = (Is ⊗ 1r )λ + Xβ ,

(21)

onde λ ´e um vetor de s componentes associados a`s restri¸co˜es naturais. A matriz X = (X1 0 , . . . , Xs 0 )0 , de dimens˜ao (sr × p), ´e tal que cada submatriz (r × p) de X, gerando π q a partir de β, satisfaz r([1r , Xq ]) = 1 + r(Xq ) , q = 1, . . . , s e r([Is ⊗ 1r , X]) = s + r(X) = s + p. A formula¸ca˜o (21) equivale a Alogπ = XL β

(22)

onde A ´e uma matriz s(r − 1) × sr tal que r(A) = s(r − 1) e AD = 0s(r−1)×s e XL ´e uma matriz s(r − 1) × p com as rela¸co˜es XL = AX e X = A0 (AA0 )−1 XL . Na express˜ao acima 0s(r−1)×s representa uma matriz s(r − 1) × s de elementos iguais a 0. Tomando A = Is ⊗ [Ir−1 , −1r−1 ] obtemos os chamados logitos de referˆ encia (relativos a` categoria r). Exemplo 5 (continua¸ c˜ ao). O modelo Multinomial correspondente a este problema pode ser reparametrizado fazendo-se Y XY log θij = λ + λX i + λj + λij

com as restri¸co˜es de identificabilidade 2 X i=1

λX i =

2 X

j=1

λYj =

2 X

λXY ij =

i=1

2 X

λXY ij = 0.

j=1

O modelo estrutural de independˆencia corresponde a tomar λXY 11 = 0 e poder ser Y 0 expresso sob a formula¸ca˜o (21) com s = 1, r = 4, λ = λ, β = (λX 1 , λ1 ) e 17

   

X=



1 1 1 −1   . −1 1  −1 −1

(23)

Sob a formula¸ca˜o (22), basta tomar 



1 0 0 −1   A =  0 1 0 −1  0 0 1 −1 

(24)



2 2  XL =  2 0  . 0 2

(25)

Exemplo 6 (continua¸ c˜ ao). Neste caso, que pode ser adequadamente modelado por um produto de distribui¸co˜es Multinomiais, o modelo log-linear saturado correspondente pode ser convenientemente expresso por (22) com A = I6 ⊗ (1, −1) 

XL =

        

(26) 

1 1 1 1 1 1 1 1 −1 0 −1 0    1 1 0 −1 0 −1  . 1 −1 1 1 −1 −1    1 −1 −1 0 1 0  1 −1 0 −1 0 1

(27)

Aqui os elementos de β = (µ, α1 , β1 , β2 , αβ11 , αβ12 )0 tˆem interpreta¸ca˜o similar a`quela dos parˆametros de uma ANOVA com restri¸co˜es de identificabilidade de soma zero. Embora as formula¸co˜es (21) e (22) sejam equivalentes, para efeito de interpreta¸ca˜o e implementa¸ca˜o computacional, a primeira ´e mais adequada para problemas cujo modelo probabil´ıstico ´e Multinomial enquanto a segunda ´e mais adequada para problemas cujo modelo probabil´ıstico ´e um produto de distribui¸co˜es Multinomiais. 18

Ainda em rela¸ca˜o aos modelos log-lineares pode-se considerar uma classe mais ampla express´avel por A∗ logπ = X∗ (28) Lβ , onde A∗ ´e uma matriz u × sr com r(A∗ ) = u ≤ s(r − 1) e a matriz u × p de especifica¸ca˜o X∗ e tal que r(X∗ L ´ L ) = p ≤ u. Nesta classe, mais ampla que aquela descrita acima, podemos ter u < s(r − 1) e A∗ D 6= 0u×s . Tais modelos s˜ao ditos log-lineares generalizados. Quando A∗ D = 0 o modelo (28) pode u×s

ser escrito na forma (21); para detalhes ver Paulino e Singer (2003). Em certas aplica¸co˜es o modelo ´e mais facilmente concretizado via (22) e em outras, via (28). Exemplo 2 (continua¸ c˜ ao). Um dos objetivos do estudo era comparar os riscos relativos de ocorrˆencia de complica¸co˜es pulmonares no per´ıodo p´osoperat´orio, tomando como referˆencia a categoria de baixo risco pr´e-operat´orio. Assim, o modelo (28) reflete a igualdade dos dois riscos relativos ao fazermos β = β,

A∗ =

0 −1 0 1 0 0 0 −1 0 0 0 1

0 X∗ L = (1, 1) .

4.3

!

,

(29) (30)

Modelos funcionais lineares

Os modelos vistos anteriormente constituem casos particulares de modelos funcionais lineares definidos por F(π) = Xβ ,

(31)

onde F(π) ´e um vetor de u ≤ s(r −1) fun¸co˜es param´etricas de interesse e a matriz u × p de especifica¸ca˜o X tem r(X) = p ≤ u. A fun¸ca˜o vetorial F(·) : IR sr → IRu deve satisfazer certas condi¸co˜es de regularidade (ver Paulino e Singer (2003), por exemplo). Aqui, (31) corresponde a` chamada formula¸ c˜ ao em termos de equa¸ co ˜es livres, sendo que (11), (22) e (28) configuram casos particulares. De forma equivalente temos a formula¸ c˜ ao em termos de restri¸ co ˜es

19

CF(π) = 0(u−p) , 0

onde C ´e uma matriz u × (u − p) base do complemento ortogonal do espa¸co imagem de X, e portanto, CX = 0(u−p)×p . Em muitas aplica¸co˜es F(π) pode ser constru´ıda atrav´es da composi¸ca˜o de fun¸co˜es lineares, logar´ıtmicas, exponenciais e adi¸ca˜o de um vetor de constantes. Exemplo 1 (continua¸ c˜ ao). Um dos objetivos do estudo era avaliar o grau de concordˆancia entre os dois m´etodos de avalia¸ca˜o. Para isto pode-se usar a estat´ıstica Kappa, κ=

P

i θii



1−

P

P

i θi· θ·i

i θi· θ·i

que pode ser obtida atrav´es de

P

i θii

= P

i θi·



P

P

i θi· θ·i

j6=i θ·j



.

F(π) = κ = exp[A4 log{A3 exp{A2 log(A1 π)}}] , com 

A1 =

                  



A2 =

A3 =

           

1 1 0 0 1 0 0 1 1 0

0 1 0 0 0 1 0 1 0 1

0 1 0 0 0 0 1 0 1 1

0 0 1 0 1 0 0 1 1 0

1 0 1 0 0 1 0 1 0 1

0 0 1 0 0 0 1 0 1 1

0 0 0 1 1 0 0 1 1 0

0 0 0 1 0 1 0 1 0 1

1 0 0 1 0 0 1 0 1 1

1 0 0 0 0 0 0

0 1 0 0 1 0 0

0 0 1 0 0 1 0

0 0 0 1 0 0 1

0 1 0 0 0 0 0

0 0 1 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 0 0 1

0 0 0 0 0 1 0

1 −1 −1 −1 0 0 0 0 0 0 0 1 1 1 20

                   

!

,

0 0 0 0 1 0 0 ,

(32)

            

,

(33)

(34)

A4 =

5



1 −1



.

(35)

Estima¸ c˜ ao por M´ axima Verossimilhan¸ ca

Para estimar os parˆametros dos modelos estruturais apresentados consideramos um conjunto de dados com o paradigma da Tabela 2, para o qual assumimos um modelo probabil´ıstico Produto de Multinomiais, em que, por raz˜oes de simplicidade notacional definimos πij = θi(j) . Nosso interesse ´e ajustar modelos estruturais da forma π = π(β) = (π 1 (β), . . . , π s (β))0 com π i (β) = (πi1 (β), . . . , πir (β))0 , i = 1, . . . , s em que β ´e um vector p-dimensional de parˆametros desconhecidos. Sob essas condi¸co˜es, o logaritmo da fun¸ca˜o de verossimilhan¸ca correspondente pode ser expresso como ln Ln (β|n) = K +

s X r X

nij ln πij (β)

(36)

i=1 j=1

em que K ´e uma constante que n˜ao depende de β. O estimador de m´axima b das seguintes equa¸ verossimilhan¸ca (MV) de β ´e a solu¸ca˜o β co˜es, obtidas quando n igualamos a zero as derivadas de (36) Un (β) =

s X r X

nij ∂ πij (β) = 0 sujeito a i=1 j=1 πij (β) ∂β

r X

πij (β) = 1, i = 1, . . . , s.

j=1

(37)

Como a matriz hessiana correspondente, ∂2 ln Ln (β|n) ∂β∂β 0 s X r X ∂ nij ∂ = − πij (β) 0 πij (β) 2 [πij (β)] ∂β ∂β i=1 j=1

Vn (β) =

+

s X r X

nij ∂2 0 πij (β) i=1 j=1 πij (β) ∂β∂β

´e negativa negativa, a solu¸ca˜o de (37) corresponde a um ponto de m´aximo. Embora existam solu¸co˜es expl´ıcitas de (37) em alguns casos, geralmente ´e preciso recorrer a m´etodos iterativos para resolver essas equa¸co˜es. Um dos mais comum ´e o m´etodo de Newton-Raphson, que consiste em iterar 21

β (q) = β (q−1) − [Vn (β (q−1) ]−1 Un (β (q−1) ),

q = 1, 2, . . .

(38)

(0)

iniciando o processo por uma aproxima¸ca˜o conveniente β e terminando-o com a satisfa¸ca˜o de um crit´erio de convergˆencia previamente definido. Em situa¸co˜es particulares, outros m´etodos iterativos podem ser mais convenientes.

5.1

Modelo linear geral

Para o modelo de simetria, existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca que s˜ao dados por θˆij =

(

nij /N, i=j (nij + nji )/(2N ), i = 6 j.

(39)

Para outros modelos estruturais, o m´etodo do gradiente, proposto por Paulino e Silva (2000) ´e uma alternativa adequada. O m´etodo ´e desenvolvido com base na formula¸ca˜o (12). Partindo de uma estimativa inicial para π, novas estimativas s˜ao calculadas iterativamente at´e que um crit´erio de convergˆencia seja satisfeito. b (nota¸ Com a estimativa de π assim obtida, denotada por π ca˜o tamb´em usada para o estimador), segue de (11) que b = (X0 X)−1 XA0 π. b β

Para grandes amostras a matriz de covariˆancia aproximada do estimador MV de β ´e dada por −1 V b = { J0 DN D−1 (40) π (β ) J } , β onde N = n∗. ⊗ 1r = (Is ⊗ 1r 10r ) e DN ´e uma matriz diagonal sr × sr tendo os componentes de N na diagonal. A matriz J, de dimens˜ao sr × p, suposta de posto completo, ´e o jacobiano ∂π(β)/∂β 0 , e ´e calculada por 0

J = PA0 (APA )−1 X , com P = Is ⊗ (Ir − r −1 1r 10r ). b ´ A matriz de covariˆancia assint´otica de Aπ e dada por 0 VA π b = X Vβ bX .

(41)

b em (40) e (41) obtemos estimadores consistentes das Substituindo β por β matrizes de covariˆancias correspondentes.

22

5.2

Modelos log-lineares

Um exemplo de situa¸ca˜o em que existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca (37) ´e aquele para qual o modelo de independˆencia pode ser cogitado. Nessas condi¸co˜es, para uma tabela I × J, os estimadores MV de θij s˜ao dados por θˆij = ni· n·j /N,

i = 1, · · · , I, j = 1, · · · , J.

(42)

Para outros casos, podemos adotar o procedimento de Newton-Raphson descrito em Reis (1989), por exemplo. O procedimento iterativo para maximiza¸ca˜o da fun¸ca˜o de verossimilhan¸ca ´e iniciado com uma estimativa β (0) . A partir desta, π e β s˜ao sucessivamente calculados at´e que um crit´erio de convergˆencia seja atendido. As matrizes de covariˆancias assint´oticas de β e A log π s˜ao dadas por

Vb = { β

s X

nq. X0q [Dπ q − π q π 0q ]Xq }−1

(43)

q=1

0 0 −1 −1 0 VAlogπ b = X Vβ b X = X{J DN Dπ (β ) J } X

(44)

b em (43) e (44) obtemos estimadores consistentes para as Substituindo π por π respectivas matrizes de covariˆancias.

6

Estima¸ c˜ ao por M´ınimos Quadrados Generalizados

Nas Se¸co˜es 5.1 e 5.2 o m´etodo MV foi particularizado para os modelos linear geral e log-linear. Aqui nos dedicamos a` t´ecnica MQG, aplic´avel a toda a classe de modelos funcionais lineares da Se¸ca˜o 4.3. Em particular, essa t´ecnica tamb´em ´e aplic´avel aos modelos linear geral e log-linear. Referˆencias importantes sobre esse t´opico s˜ao Grizzle, Starmer and Koch (1969), Landis et al. (1976) e Koch et al. (1985). Seja p = D−1 co˜es amostrais. A matriz de covariˆancia N n o vetor das sr propor¸ de p ´e a matriz sr × sr diagonal em blocos dada por 0 Vp = D−1 N diag(Dπ q − π q π q , q = 1, . . . , s).

(45)

Substituindo π por p em (45) obtemos o seguinte estimador consistente para Vp : 23

d = D−1 diag(D − p p0 , q = 1, . . . , s). V p pq q q N

(46)

d =HV d H0 , V F p

(47)

EA (F) = F(π) = Xβ ,

(48)

Definindo F ≡ [F1 (p), . . . , Fu (p)]0 temos um estimador consistente de F(π). Um estimador consistente da matriz de covariˆancia de F ´e dado por

em que H = ∂F(π)/∂π |π =p ´e a matriz u × sr das derivadas das fun¸co˜es F(·) calculadas em p. Escrevendo

onde EA significa valor esperado assint´otico e X e β tˆem o mesmo significado indicado na Se¸ca˜o 4.3, o estudo das fun¸co˜es de interesse F(π) pode ser feito analisando (48) como um modelo de regress˜ao linear. Minimizando −1

d (F − Xβ) , (F − Xβ)0 V F

obtemos o estimador de MQG

−1

−1

b = (X0 V d X)−1 X0 V d F, β F F

(49)

cuja matriz de covariˆancia pode ser estimada de forma consistente por −1

d X)−1 . d = (X0 V V F βb

(50)

b = Xβ b . F

(51)

Valores preditos de F(π) sob o modelo (48) podem ser calculados como

Um estimador consistente da matriz de covariˆancia correspondente ´e −1

d = X(X0 V d X)−1 X0 V F b F

Um estimador consistente para o vetor de probabilidades π ´e fornecido por d d H0 V b =p − V π F p

24

−1

b (F − F)

(52)

Observa¸ c˜ ao 1. Mesmo quando o modelo Produto de Multinomiais n˜ao ´e adequado a`s freq¨ uˆencias observadas, podemos realizar a an´alise das fun¸co˜es de interesse usando os resultados (49)—(52) se dispusermos de estimativas de F(π) e VF com as propriedades mencionadas. Observa¸ c˜ ao 2. A existˆencia de freq¨ uˆencias observadas nulas (zeros amostrais) merece aten¸ca˜o especial neste caso. Ver Paulino e Singer (2003) para detalhes.

7

Testes de ajustamento dos modelos

b para o vetor de probabilidades, µ b = DN π b fornece Calculada uma estimativa π uma estimativa para as freq¨ uˆencias esperadas nas caselas. O ajustamento dos modelos pode ser avaliado confrontando, por algum meio, as freq¨ uˆencias obserb vadas (n) com as freq¨ uˆencias esperadas sob o modelo (µ). Para os modelos linear geral e log-linear com parˆametros estimados por MV podemos usar a estat´ıstica da raz˜ao de verossimilhan¸cas de Wilks b − logn). QV = −2n0 (logµ

(53)

b b 0 D−1 (n − µ), QP = (n − µ) b µ b 0 D−1 b QN = (n − µ) n (n − µ)

(54)

d (CH)0 ]−1 CF , QW = (CF)0 [CHV p

(56)

As estat´ısticas de Pearson (QP ) e de Neyman (QN ) definidas como

(55)

s˜ao gerais na medida em que se aplicam aos dois m´etodos de estima¸ca˜o (MV e MQG). O c´alculo de QP exige freq¨ uˆ encias estimadas estritamente positivas, enquanto QV e QN exigem freq¨ uˆ encias observadas com esta propriedade. O teste de ajustamento do modelo dispensa a estima¸ca˜o dos parˆametros, se recorrermos a` estat´ıstica de Wald

AD−1 p )

onde F = Ap (F = Alogp), H = A ( H = para o modelo linear geral d ´ (log-linear) e V p e dada em (46). A matriz C exerce o mesmo papel indicado na Se¸ca˜o 4.3, mas em rela¸ca˜o a` matriz X em (11), XL em (22) e X∗ L em (28), consoante o modelo em quest˜ao. No caso do modelo (28), a matriz A usada no c´alculo de H acima ´e substitu´ıda por A∗ . Nos modelos log-lineares, as frequˆencias observadas devem ser estritamente positivas. As estat´ısticas QN e QW s˜ao idˆenticas quando avaliadas com estimativas MQG. 25

Sob a validade do modelo estrutural em teste, a distribui¸ca˜o limite comum das estat´ısticas apresentadas ´e qui-quadrado com u − p graus de liberdade, com u = s(r − 1) nos modelos (21) e (22). Na situa¸ca˜o da nota do final da Se¸ca˜o 6 o ajuste do modelo pode ser testado com a estat´ıstica de Wald.

8

Hip´ oteses redutoras de modelos

Tendo conseguido um modelo satisfatoriamente ajustado aos dados pode haver interesse em testar simplifica¸co˜es adicionais materializadas em hip´oteses do tipo H0 : Wβ = 0t×1 ,

(57)

onde W ´e uma matriz t × p de posto r(W) = t ≤ p. Essas hip´oteses podem ser testadas atrav´es da estat´ıstica generalizada de Wald b 0 (WV b , d W0 )−1 Wβ QW G = (Wβ) b β

(58)

b eV d s˜ onde β oes apropriadas b ao calculados de acordo com o modelo (ver express˜ β nas Se¸co˜es 5.1, 5.2 e 6). Sob H0 a distribui¸ca˜o limite de QW G ´e χ2t .

26

9

Exemplo de an´ alise

Tabela 13: Distribui¸ca˜o de les˜ao obstrutiva coronariana expressiva para pacientes com e sem hipertens˜ao arterial, controlando sexo e idade. Sexo Fem

Idade
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF