ANÁLISE DE DADOS CATEGORIZADOS

August 16, 2017 | Author: Jair Feitoza | Category: Risk Factor, Estimator, Matrix (Mathematics), Euclidean Vector, Mathematical Analysis

Share Embed Donate

Report this link

Short Description

Download ANÁLISE DE DADOS CATEGORIZADOS...

Description

´ ANALISE DE DADOS CATEGORIZADOS Julio da Motta Singer Universidade de São Paulo São Paulo, Brasil

Minicurso apresentado no XIII Simposio de Estadistica ”Estad´ıstica en Ciencias de la Salud” 3 a 7 de agosto de 2003 Armenia, Quindio. Colombia

Pref´ acio Estas notas de aula correspondem ao resumo de um texto sobre análise de dados categorizados em elabora¸caõ por Carlos Daniel Paulino e Julio da Motta Singer. Elas também contém material extra´ıdo de um manual implementa¸caõ computacional das técnicas a´ı desenvolvidas, preparado por Carine Savalli, Carlos Daniel Paulino, Giovani Loiola Silva, Julio da Motta Singer, Maria Paula Chicarino, Mário de Castro e Rodrigo Andrade Tavares.

Julio da Motta Singer São Paulo, julho de 2003.

2

1

Dados categorizados

Dados discretos relativos a uma ou mais variáveis definidas por meio de um n´ umero finito de n´ıveis ou categorias são denominados dados categorizados. Alguns exemplos podem ser encontrados na Tabela 1. As variáveis correspondentes podem ser classificadas como ordinais ou nominais conforme suas categorias sejam ordenadas ou não. Tabela 1. Exemplo de matriz com dados categorizados. Dados de um estudo sobre Endometriose Dr. Maurício Simões Abrão (FMUSP)

Grupo Paciente Idade Gestação Partos Abortos Dismenorréia Dispareunia AFSr Controle 1 26 3 3 0 L N 0 Controle 2 37 4 3 1 N P 0 Controle 3 37 4 4 0 N N 0 Controle 4 35 3 3 0 L N 0 Controle 5 34 4 3 1 N N 0 Controle 6 38 5 5 0 L N 0 Controle 7 30 5 4 1 N N 0 Controle 8 38 11 7 4 N N 0 Controle 9 36 7 6 1 N N 0 Controle 10 41 4 3 1 N N 0 Controle 11 36 7 4 3 N N 0 Controle 12 38 3 3 0 N N 0 Controle 13 32 3 3 0 L N 0 Controle 14 37 3 3 0 M P 0 Controle 15 32 6 6 0 N N 0 Doente 1 31 0 0 0 M P 1 Doente 2 32 0 0 0 M N 1 Doente 3 27 0 0 0 I PRO 1 Doente 4 28 1 1 0 L N 1 Doente 5 34 2 1 1 M N 1 Doente 6 38 9 6 4 I 2 1 Doente 7 29 0 0 0 S/ N 1 Doente 8 38 0 0 0 M 2 1 Doente 9 20 0 0 0 M . 1 Doente 10 38 0 0 0 L N 2 Doente 11 34 5 3 2 M 2 2 Doente 12 29 1 1 0 I PRO 2 Doente 13 23 0 0 0 I PRO 2 Doente 14 27 3 2 1 I PRO 2 Doente 15 40 2 2 0 M N 2 Doente 16 25 1 0 1 M P 2 Doente 17 39 0 0 0 I PRO 2 Doente 18 34 3 2 1 I PRO 2 Doente 19 24 2 1 1 I PRO 2 Doente 20 25 1 0 1 I PRO 2 Doente 21 39 0 0 0 I N 3 Doente 22 27 0 0 0 L PRO 3 Doente 23 30 1 0 1 M PRO 3 Doente 24 28 0 0 0 I N 3 Doente 25 20 0 0 0 M . 3 Doente 26 28 2 2 0 I N 3 Doente 27 26 0 0 0 M 2 3 Doente 28 32 1 1 0 I PRO 3 Doente 29 37 0 0 0 M PRO 3

3

Essencialmente estes dados podem ser dispostos na forma de uma tabela (de contingência) s × r onde as s linhas correspondem a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis explicativas (se existirem), e as r colunas a`s combina¸co˜es dos n´ıveis de uma ou mais vari´ aveis respostas. A distin¸caõ entre variáveis explicativas e respostas é conseq¨ uência da defini¸caõ das questões de interesse do estudo e da especifica¸caõ do planejamento amostral. Havendo apenas variáveis respostas, consideramos s = 1. De uma forma genérica, as tabelas de contingência enfocadas neste trabalho podem ser representadas segundo o modelo da Tabela 1, em que nqm , q = 1, . . . , s , m = 1, . . . , r, denota a freq¨ uência observada na P casela correspondente, nq. = rm=1 nqm , q = 1, . . . s é o total da q-ésima linha e N é o tamanho da amostra. Tabela 2. Forma bidimensional de uma tabela de contingência genérica Subpopula¸caõ 1 2 · · q · · s Total

Categorias 1 2 ... n11 n12 . . . n21 n22 . . . · · nq1 nq2 . . . · · ns1 ns2 . . .

de resposta m ... r n1m . . . n1r n2m . . . n2r · · nqm . . . nqr · · nsm . . . nsr

Total n1· n2·

nq·

ns· N

Alguns exemplos ilustrativos seguem abaixo. Exemplo 1 (Paulino e Singer (2003)). Os dados da Tabela 3 se referem a um estudo de suscetibilidade a` cárie dentária em crian¸cas. Os dois métodos de avalia¸caõ dessa suscetibilidade determinam duas variáveis respostas, cada uma com 3 n´ıveis (neste caso s = 1 e r = 9).

4

Tabela 3. Freq¨ uências observadas de 97 crian¸cas de 11-13 anos de uma escola p´ ublica.

Risco de cárie segundo o método simplificado

Baixo Médio Alto

Risco de cárie segundo o método convencional Baixo Médio Alto 11 5 0 14 34 7 2 13 11

Exemplo 2 (Paulino e Singer (2003)). Os dados da Tabela 4 são provenientes de um estudo envolvendo a avalia¸caõ pulmonar pré-operatória de 1162 pacientes (classificados como tendo baixo, médio ou alto risco) e a ocorrência de complica¸caõ pulmonar no per´ıodo pós-operatório de cirurgia geral (neste caso s = 3 e r = 2). Tabela 4. N´ umero de pacientes. Avalia¸caõ pré-operatória do grau de complica¸caõ pulmonar Baixo Moderado Alto

Avalia¸caõ pulmonar pós-operatória Sem complica¸caõ Com complica¸caõ 737 48 243 74 39 21

Exemplo 3 (Paulino e Singer (2003)). Estudo de fertilidade de ovelhas de vários rebanhos identificados pela ra¸ca e pela fazenda onde eram criadas, cuja influência no tamanho da ninhada se pretende averiguar (neste caso s = 9 e r = 4).

5

Tabela 5. N´ umero de ovelhas.

Fazenda Ra¸ca A 1 B C

N´ umero de borregos por ninhada 0 1 2 ≥ 3 Total 10 21 96 23 150 4 6 28 8 46 9 7 58 7 81

2

A B C

8 5 1

19 17 5

44 56 20

1 1 2

72 79 28

3

A B C

22 95 103 18 49 62 4 12 16

4 0 2

224 129 34

Exemplo 4 (Koch et al. (1985)). Os dados da Tabela 6 resultaram da avalia¸caõ por um conjunto de homens de certos objetos culturalmente masculinos. Cada indiv´ıduo classificava como masculino (M) ou feminino (F) objetos que eram mostrados durante per´ıodos variáveis de exposi¸caõ. Os indiv´ıduos foram subdivididos em dois grupos conforme o conhecimento (Grupo 2) ou não (Grupo 1) da finalidade da experiência (neste caso s = 2 e r = 9). Tabela 6. Freq¨ uências observadas da avalia¸caõ do simbolismo sexual de objetos. Categorias de resposta nos 3 per´ıodos de exposi¸caõ Grupo MMM MMF MFM MFF FMM FMF FFM FFF 1 171 18 6 12 7 7 7 56 2 184 38 10 14 7 7 20 114

Exemplo 5. (Upton and Fingleton, 1985) Em ordem a detectar a eventual existência de intera¸caõ positiva (atra¸caõ ) ou negativa (repulsão) entre carvalhos e nogueiras, uma dada zona florestal foi dividida em 576 a´reas de tamanho e forma fixos e registrou-se para cada uma delas a ocorrência ou não de cada tipo 6

de a´rvore (neste caso s = 1 e r = 4) Os resultados obtidos estão descritos na Tabela 7. Tabela 7. N´ umero de a´reas. Carvalho Presente Ausente Total

Nogueira Presente Ausente 261 177 93 45 354 222

Total 438 138 576

Exemplo 6. (Koch et al. (1985)) Pacientes com diagnóstico complicado ou não complicado, submetidos a 3 tratamentos (A, B e C) são observados com rela¸caõ a` cura de uma infeçcaõ nas vias urinárias. Os dados são classificados em 6 subpopula¸co˜es, resultantes da combina¸caõ dos n´ıveis das duas variáveis explicativas (Tipo de diagnóstico e Tratamento) com 2 poss´ıveis valores da variável resposta (neste caso s = 6 e r = 2). Tabela 8. N´ umero de pacientes. Tipo de diagnóstico Complicado

Não Complicado

Tratamento A B C A B C

Status com rela¸caõ a` cura Curados Não curados 78 20 101 11 68 46 40 54 34

5 5 6

Exemplo 7. Este exemplo é parte de um conjunto de dados tomado de Goodman (1962) e descreve as inten¸co˜es de voto (voto nos partidos A e B ou indecisão) de 445 pessoas registradas em duas entrevistas espa¸cadas de um mês (neste caso s = 1 e r = 9). O objetivo é saber se as mudan¸cas na inten¸caõ de voto são iguais nos dois sentidos.

7

Tabela 9: Inten¸co˜es de voto em duas sondagens

Primeira sondagem

Segunda sondagem A B I A 192 1 5 B 2 146 5 I 11 12 71

Para a análise de dados com essas caracter´ısticas podemos seguir os seguintes passos: i) defini¸caõ das questões de interesse; ii) especifica¸caõ do delineamento amostral; iii) descri¸caõ dos dados amostrais; iv) escolha de um modelo probabil´ıstico que se afigure adequado (pelo menos, na base do senso comum ...); v) tradu¸caõ das questões de interesse em termos dos parâmetros do modelo probabil´ıstico adotado, ou seja, especifica¸caõ de modelos estruturais; vi) ajuste dos modelos especificados através de alguma metodologia estat´ıstica (e.g., metodologia de máxima verosimilhan¸ca ou metodologia de m´ınimos quadrados generalizados); vii) compara¸caõ do(s) modelo(s) ajustado(s) com outros modelos alternativos; viii) conversão das conclusões em termos das questões originais.

2

Medidas de associa¸ c˜ ao

Consideramos aqui algumas medidas importantes para a análise de dados categorizados. Come¸camos com o seguinte exemplo: Fator de risco Não Sim

Estado do paciente Sem doen¸ca Doente 1 − π0 π0 1 − π1 π1 8

Total 1 1

• π0 : Propor¸caõ de pacientes n˜ ao expostos ao fator de risco que apresentaram a doen¸ca. • π1 : Propor¸caõ de pacientes expostos ao fator de risco que apresentaram a doen¸ca. • Risco atribu´ıvel (d = π1 −π0 ): aumento na propor¸caõ de doentes atribu´ıvel a` exposi¸caõ ao fator risco. • Risco relativo (r = π1 /π0 ): propor¸caõ de doentes entre indiv´ıduos expostos ao fator de risco é r vezes a propo¸caõ de doentes entre os não expostos. • Compara¸ c˜ ao π0 = 0.42 π1 = 0.44

)

d = 0.02 r = 0.44

π0 = 0.02 π1 = 0.04

)

d = 0.02 r = 2.00

• log r = log π1 − log π0 : gênese dos modelos log-lineares • Importância do conhecimento de alguma medida de associa¸caõ entre fator de risco e doen¸ca mesmo sem conhecimento de π0 e π1 . Em muitos estudos (caso/controle, por exemplo) não se pode estimar π0 e π1 . • Chances (”odds”): medida de freq¨ uência de ocorrência de eventos • π1 /(1 − π1 ): chance de um indiv´ıduo ser doente vs. não doente quando exposto ao fator de risco. • π0 /(1 − π0 ): chance de um indiv´ıduo ser doente vs. não doente quando n˜ ao exposto ao fator de risco. • Raz˜ ao de chances (”odds ratio”): ω=

π1 /(1 − π1 ) π0 /(1 − π0 )

• Estudos caso-controle Estado do paciente Sem doen¸ca (controle) Doente (caso)

Exposi¸caõ ao fator de risco Não Sim 1 − p0 p0 1 − p1 p1 9

Total 1 1

• p0 : propor¸caõ de controles (não doentes) que tiveram exposi¸caõ ao fator de risco (6= π0 ). • p1 : propor¸caõ de casos (doentes) que tiveram exposi¸caõ ao fator de risco (6= π1 ). • Utilizando o Teorema de Bayes pode-se demonstrar que π1 /(1 − π1 ) p1 /(1 − p1 ) = =ω p0 /(1 − p0 ) π0 /(1 − π0 )

3

Modelos probabil´ısticos

A escolha de um modelo probabil´ıstico para os dados depende do planejamento e do objetivo do estudo. Vamos considerar três estratégias de obten¸caõ dos dados de uma pesquisa de inten¸caõ de voto, cujo interesse era avaliar a rela¸caõ entre a opinião de eleitores sobre um determinado candidato (X1 ) e sua faixa etária (X2 ). • Estrat´ egia I: entrevistar tantas pessoas quanto poss´ıvel, por exemplo, em 4 horas. Poder-se-ão obter dados como os da Tabela 10. Tabela 10: Frequências hipotéticas dos resultados de entrevistas realizadas num per´ıodo de tempo fixo.

Opinião Favorável Desfavorável Total

Faixa etária < 40 ≥ 40 Total 43 25 41 70 179

• Suposi¸co˜es sobre o n´ umero de transeuntes com menos de 40 anos favoráveis ao candidato que passa no s´ıtio em que se vai colher a amostra: i) num determinado intervalo de tempo, o n´ umero desses transeuntes é independente do n´ umero de transeuntes com as mesmas caracter´ısticas que passa em qualquer outro intervalo de tempo disjunto daquele; 10

ii) a distribui¸caõ daquele n´ umero de transeuntes só depende do comprimento do intervalo de tempo considerado e não do seu instante inicial; iii) a probabilidade de passagem de um daqueles transeuntes num intervalo de tempo suficientemente pequeno (um segundo, por exemplo) é aproximadamente proporcional ao comprimento do intervalo, com constante de proporcionalidade λ11 ; iv) a probabilidade de que dois ou mais daqueles transeuntes passem simultaneamente num intervalo de tempo suficientemente pequeno é desprezável. • Essas suposi¸co˜es permitem demonstrar que o n´ umero n11 de apoiantes com menos de 40 anos que passa num intervalo de tempo de comprimento m = 14400s (= 4 × 3600s) tem uma distribui¸caõ de Poisson com média µ11 = mλ11 . • Aplicando o mesmo argumento aos outros nij e admitindo a independência entre todas essas variáveis aleatórias (suposi¸caõ que, neste caso, pode gerar alguma controvérsia), chegamos ao modelo Produto de distribui¸ co ˜es de Poisson: f (n | µ) =

2 Y 2 Y

i=1 j=1

n

e−µij µijij , nij !

(1)

para nij ∈ INo i, j = 1, 2 onde n = (n11 , n12 , n21 , n22 )0 , µ = (µ11 , µ12 , µ21 , µ22 )0 com µij ∈ IR+ , i, j = 1, 2. • Hip´ otese de interesse: a propor¸caõ de apoiantes entre os indiv´ıduos mais jovens é a mesma que existe entre as pessoas menos jovens, ou seja, µ11 µ12 HI : = µ·1 µ·2 P

P

onde µ·j = i µij , µi· = j µij e µ·· = equivalentemente expressável por HI : µij = para i, j = 1, 2. 11

P

µ1· = µ·· i,j

!

(2)

µij . Note-se que esta hipótese é

µi· × µ·j , µ··

(3)

• Estrat´ egia II: fixar antecipadamente o n´ umero N de pessoas a entrevistar e selecioná-las de um modo aleatório. Por exemplo, fixando N = 200, poder-se-ão obter dados como os da Tabela 11. Tabela 11: Frequências hipotéticas dos resultados do n´ umero fixado de entrevistas

Opinião Favorável Desfavorável Total

Faixa etária < 40 ≥ 40 50 26 48 76 200

• θij : probabilidade de um indiv´ıduo apresentar a caracter´ıstica (i, j), considerada constante para todo o indiv´ıduo da popula¸caõ em estudo, i.e. θij = P (X1k = i, X2k = j), k = 1, . . . , N . • Seja θ = (θ11 , θ12 , θ21 , θ22 )0 tal que 10 θ =

P

i,j

θij = 1.

• Associemos ao indiv´ıduo k da amostra selecionada o vetor Wk (com componentes Wkij ordenadas lexicograficamente) definido de tal forma que Wkij = 1 e Wki0 j 0 = 0, i0 6= i ou j 0 6= j, se para tal indiv´ıduo se tem X1k = i e X2k = j. Isto significa que Wk é um vetor aleatório cujos valores poss´ıveis são {(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)}. Deste modo, os vetores Wk , k = 1, . . . , N são identicamente distribu´ıdos segundo a distribui¸caõ de Bernoulli (trivariada) de parâmetro θ. • Assumindo adicionalmente que esses vectores são independentes, segue-se P que o vetor das frequências observáveis n = N k=1 Wk apresenta a distribui¸caõ Multinomial 2 Y

n

θijij f (n | N, θ) = N ! , i,j=1 nij ! com 10 n = N, 10 θ = 1. 12

(4)

• Hip´ otese de interesse: independência estocástica entre X1 e X2 . HII : θij = θi· × θ·j ,

(5)

para i, j = 1, 2, onde {θi· } e {θ·j } representam as probabilidades marginais de X1 e X2 , respectivamente. • Estrat´ egia III: fixar antecipadamente o n´ umero Nj de indiv´ıduos de cada faixa etária. Fixando, por exemplo N1 = N2 = 100, poder-se-ão obter dados tais como aqueles dispostos na Tabela 12. Tabela 12: Frequências hipotéticas dos resultados do n´ umero de entrevistas fixado para cada faixa etária. Faixa etária < 40 ≥ 40 54 30 46 70 Total 100 100 200

Opinião Favorável Desfavorável Total

• Note-se que, enquanto na Estratégia II só o total geral da tabela é fixo, aqui, os totais marginais das colunas também são fixos. A variável fixa, X2 , serve apenas para indicar as subpopula¸co˜es de onde são tomadas as observa¸co˜es de X1 . • θi(j) : probabilidade de qualquer indiv´ıduo ser classificado na categoria i de X1 dado que está classificado no n´ıvel j de X2 , i.e., θi(j) = P (X1k = i | X2k = j) , para k = 1, . . . , N, j = 1, 2. Então

P2

i=1 θi(j)

= 1, j = 1, 2.

• Argumentos similares aos utilizados no caso anterior permitem concluir que um modelo probabil´ıstica adequado é o modelo Produto de distribui¸ co ˜es Multinomiais f (n | N, π) =

 2  Y

j=1



Nj !

2 Y

i=1

n



ij  θi(j)

nij ! 

onde N = (N1 , N2 )0 e π = (π 01 , π 02 )0 , com π j = (θ1(j) , θ2(j) )0 , j = 1, 2. 13

(6)

• Hip´ otese de interesse: homogeneidade das distribui¸co˜es Multinomiais HIII : θ1(1) = θ1(2) .

(7)

• Rela¸ c˜ ao entre os modelos: A fun¸caõ de probabilidade do modelo Produto de distribui¸co˜es de Poisson admite as seguintes fatoriza¸co˜es : 2 Y e−µ·· µn·· ·· (µij /µ·· )nij f (n | µ) = × n·· ! n·· ! nij ! i,j=1

(8)

(

2 2 2 Y Y Y e−µ·· µn·· ·· (µ·j /µ·· )n·j (µij /µ·j )nij = × n·· ! × n·j ! n·· ! n·j ! nij ! j=1 j=1 i=1

=

2 Y

j=1

(

n

e−µ·j µ·j·j n·j !

)

×

2 Y

j=1

(

(µij /µ·j )nij n·j ! nij ! i=1 2 Y

)

)

(9)

(10)

• Como conseq¨ uência de (8), o modelo Multinomial com parâmetros θij = µij /µ·· pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson por condicionamento no total da tabela, N. • Como conseq¨ uência de (9) ou (10), o modelo Produto de distribui¸co˜es Multinomiais com parâmetros θi(j) = µij /µ·j pode ser obtido a partir do Modelo Produto de distribui¸co˜es de Poisson ou Multinomial por condicionamento nos totais marginais, Nj . • Esses resultados permitem que a classifica¸caõ de algumas variáveis como fatores seja feita a posteriori, por condicionamento.

4

Modelos estruturais

Em geral estamos interessados na redu¸caõ do n´ umero de parâmetros do modelo probabil´ıstico, acarretando uma simplifica¸caõ de sua estrutura paramétrica. A expressão matemática dessa redu¸caõ é chamada modelo estrutural. Em seguida apresentamos modelos que surgem em diversas situa¸co˜es práticas. Lembramos P P que as restri¸co˜es naturais, j θj = 1 sob o modelo Multinomial ou j θi(j) = 1, i = 1, · · · , s, sob o modelo Produto de distribui¸co˜es Multinomiais devem ser levadas em conta. Essas restri¸co˜es podem ser expressas compactamente como (D0 π = 1s ) em que D é uma matriz conveniente. 14

4.1

Modelo linear geral

O chamado modelo linear geral tem formula¸caõ dada por Aπ = Xβ ,

(11)

onde A é uma matriz u × sr com posto r(A) = u ≤ sr tal que r([A0 , D]) = u + s, X é a matriz u × p de constantes conhecidas especificadora do modelo com posto r(X) = p ≤ u e β é o vetor dos p parâmetros do modelo estrutural. Modelos de simetria e homogeneidade marginal, por exemplo, se enquadram na expressão (11). Em termos de restri¸co˜es, (11) é equivalente a C A π = 0(u−p)

(12)

onde C é uma matriz (u − p) × u de caracter´ıstica máxima, com linhas ortogonais a`s colunas de X. Exemplo 1 (continua¸ c˜ ao). A hipótese de a distribui¸caõ do grau de risco ser a mesma para os dois métodos em análise (homogeneidade marginal), θi· = θ·i , i = 1, · · · 3, é expressável por (11) com β = (θ1· , θ2· )0 ,    

A=

1 0 1 0

1 0 0 1

1 0 0 0

0 1 1 0  

X=  

0 1 0 1 1 0 1 0

0 1 0 0 0 1 0 1

0 0 1 0

0 0 0 1

0 0 0 0



  . 



  , 

(13)

(14)

Sob a formula¸caõ (12), a hipótese de homogeneidade marginal pode ser expressa com A dada por (13) e C=

1 0 −1 0 0 1 0 −1

!

.

(15)

Exemplo 7 (continua¸ c˜ ao). A hipótese de simetria, i.e. θij = θji , i, j = 1, · · · 3, i < j é expressável por (11) com β = (θ12 , θ13 , θ23 )0 ,

15



A=

        

0 0 0 0 0 0

1 0 0 0 0 0

0 1 0 0 0 0 

X=

        

0 0 1 0 0 0

0 0 0 0 0 0

0 0 0 1 0 0

1 0 1 0 0 0

0 1 0 0 1 0

0 0 0 1 0 1

0 0 0 0 1 0

0 0 0 0 0 1

0 0 0 0 0 0





    ,    

    .    

(16)

(17)

Sob a formula¸caõ (12), a hipótese de simetria pode ser expressa com A dada por (16) e 



1 0 −1 0 0 0   C =  0 1 0 0 −1 0  . 0 0 0 1 0 −1

(18)

Exemplo 3 (continua¸ c˜ ao). A compara¸caõ das subpopula¸co˜es determinadas pela combina¸caõ dos n´ıveis das variáveis definidoras da fazenda e ra¸ca poderá ser feita em termos do tamanho médio da ninhada. Admitimos que as categorias representadas pelos inteiros ≥ 3 são agrupadas tendo score comum igual a 3. O interesse no modelo de ausência de intera¸caõ entre as variáveis explicativas (fazenda e ra¸ca) é obtido em (11) tomando A e X indicadas abaixo, com β traduzindo a parametriza¸caõ da casela de referência na subpopula¸caõ (1,1), ou seja correspondente a` ra¸ca A na fazenda 1, i.e., β = (β1A , βB , βC , β2 , β3 )0 . A = I9 ⊗ (0, 1, 2, 3)0  1 1 1 1 1   0 1 0 0 1  X0 =   0 0 1 0 0   0 0 0 1 1 0 0 0 0 0 16

1 0 1 1 0

1 0 0 0 1

1 1 0 0 1

1 0 1 0 1

       

(19)

(20)

4.2

Modelos log-lineares

Entre outras aplica¸co˜es os modelos log-lineares são u ´ teis na descri¸caõ de padrões de associa¸caõ entre variáveis categorizadas. Exemplos t´ıpicos são os modelos de independˆ encia. Os modelos log-lineares podem ser expressos na forma logπ q = 1r λq + Xq β , q = 1, . . . , s ou, de uma forma condensada, por logπ = (Is ⊗ 1r )λ + Xβ ,

(21)

onde λ é um vetor de s componentes associados a`s restri¸co˜es naturais. A matriz X = (X1 0 , . . . , Xs 0 )0 , de dimensão (sr × p), é tal que cada submatriz (r × p) de X, gerando π q a partir de β, satisfaz r([1r , Xq ]) = 1 + r(Xq ) , q = 1, . . . , s e r([Is ⊗ 1r , X]) = s + r(X) = s + p. A formula¸caõ (21) equivale a Alogπ = XL β

(22)

onde A é uma matriz s(r − 1) × sr tal que r(A) = s(r − 1) e AD = 0s(r−1)×s e XL é uma matriz s(r − 1) × p com as rela¸co˜es XL = AX e X = A0 (AA0 )−1 XL . Na expressão acima 0s(r−1)×s representa uma matriz s(r − 1) × s de elementos iguais a 0. Tomando A = Is ⊗ [Ir−1 , −1r−1 ] obtemos os chamados logitos de referˆ encia (relativos a` categoria r). Exemplo 5 (continua¸ c˜ ao). O modelo Multinomial correspondente a este problema pode ser reparametrizado fazendo-se Y XY log θij = λ + λX i + λj + λij

com as restri¸co˜es de identificabilidade 2 X i=1

λX i =

2 X

j=1

λYj =

2 X

λXY ij =

i=1

2 X

λXY ij = 0.

j=1

O modelo estrutural de independência corresponde a tomar λXY 11 = 0 e poder ser Y 0 expresso sob a formula¸caõ (21) com s = 1, r = 4, λ = λ, β = (λX 1 , λ1 ) e 17

   

X=



1 1 1 −1   . −1 1  −1 −1

(23)

Sob a formula¸caõ (22), basta tomar 



1 0 0 −1   A =  0 1 0 −1  0 0 1 −1 

(24)



2 2  XL =  2 0  . 0 2

(25)

Exemplo 6 (continua¸ c˜ ao). Neste caso, que pode ser adequadamente modelado por um produto de distribui¸co˜es Multinomiais, o modelo log-linear saturado correspondente pode ser convenientemente expresso por (22) com A = I6 ⊗ (1, −1) 

XL =

        

(26) 

1 1 1 1 1 1 1 1 −1 0 −1 0    1 1 0 −1 0 −1  . 1 −1 1 1 −1 −1    1 −1 −1 0 1 0  1 −1 0 −1 0 1

(27)

Aqui os elementos de β = (µ, α1 , β1 , β2 , αβ11 , αβ12 )0 têm interpreta¸caõ similar a`quela dos parâmetros de uma ANOVA com restri¸co˜es de identificabilidade de soma zero. Embora as formula¸co˜es (21) e (22) sejam equivalentes, para efeito de interpreta¸caõ e implementa¸caõ computacional, a primeira é mais adequada para problemas cujo modelo probabil´ıstico é Multinomial enquanto a segunda é mais adequada para problemas cujo modelo probabil´ıstico é um produto de distribui¸co˜es Multinomiais. 18

Ainda em rela¸caõ aos modelos log-lineares pode-se considerar uma classe mais ampla expressável por A∗ logπ = X∗ (28) Lβ , onde A∗ é uma matriz u × sr com r(A∗ ) = u ≤ s(r − 1) e a matriz u × p de especifica¸caõ X∗ e tal que r(X∗ L ´ L ) = p ≤ u. Nesta classe, mais ampla que aquela descrita acima, podemos ter u < s(r − 1) e A∗ D 6= 0u×s . Tais modelos são ditos log-lineares generalizados. Quando A∗ D = 0 o modelo (28) pode u×s

ser escrito na forma (21); para detalhes ver Paulino e Singer (2003). Em certas aplica¸co˜es o modelo é mais facilmente concretizado via (22) e em outras, via (28). Exemplo 2 (continua¸ c˜ ao). Um dos objetivos do estudo era comparar os riscos relativos de ocorrência de complica¸co˜es pulmonares no per´ıodo pósoperatório, tomando como referência a categoria de baixo risco pré-operatório. Assim, o modelo (28) reflete a igualdade dos dois riscos relativos ao fazermos β = β,

A∗ =

0 −1 0 1 0 0 0 −1 0 0 0 1

0 X∗ L = (1, 1) .

4.3

!

,

(29) (30)

Modelos funcionais lineares

Os modelos vistos anteriormente constituem casos particulares de modelos funcionais lineares definidos por F(π) = Xβ ,

(31)

onde F(π) é um vetor de u ≤ s(r −1) fun¸co˜es paramétricas de interesse e a matriz u × p de especifica¸caõ X tem r(X) = p ≤ u. A fun¸caõ vetorial F(·) : IR sr → IRu deve satisfazer certas condi¸co˜es de regularidade (ver Paulino e Singer (2003), por exemplo). Aqui, (31) corresponde a` chamada formula¸ c˜ ao em termos de equa¸ co ˜es livres, sendo que (11), (22) e (28) configuram casos particulares. De forma equivalente temos a formula¸ c˜ ao em termos de restri¸ co ˜es

19

CF(π) = 0(u−p) , 0

onde C é uma matriz u × (u − p) base do complemento ortogonal do espa¸co imagem de X, e portanto, CX = 0(u−p)×p . Em muitas aplica¸co˜es F(π) pode ser constru´ıda através da composi¸caõ de fun¸co˜es lineares, logar´ıtmicas, exponenciais e adi¸caõ de um vetor de constantes. Exemplo 1 (continua¸ c˜ ao). Um dos objetivos do estudo era avaliar o grau de concordância entre os dois métodos de avalia¸caõ. Para isto pode-se usar a estat´ıstica Kappa, κ=

P

i θii

−

1−

P

P

i θi· θ·i

i θi· θ·i

que pode ser obtida através de

P

i θii

= P

i θi·

−

P

P

i θi· θ·i

j6=i θ·j

.

F(π) = κ = exp[A4 log{A3 exp{A2 log(A1 π)}}] , com 

A1 =

                  



A2 =

A3 =

           

1 1 0 0 1 0 0 1 1 0

0 1 0 0 0 1 0 1 0 1

0 1 0 0 0 0 1 0 1 1

0 0 1 0 1 0 0 1 1 0

1 0 1 0 0 1 0 1 0 1

0 0 1 0 0 0 1 0 1 1

0 0 0 1 1 0 0 1 1 0

0 0 0 1 0 1 0 1 0 1

1 0 0 1 0 0 1 0 1 1

1 0 0 0 0 0 0

0 1 0 0 1 0 0

0 0 1 0 0 1 0

0 0 0 1 0 0 1

0 1 0 0 0 0 0

0 0 1 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 0 0 1

0 0 0 0 0 1 0

1 −1 −1 −1 0 0 0 0 0 0 0 1 1 1 20

                   

!

,

0 0 0 0 1 0 0 ,

(32)

            

,

(33)

(34)

A4 =

5

1 −1

.

(35)

Estima¸ c˜ ao por M´ axima Verossimilhan¸ ca

Para estimar os parâmetros dos modelos estruturais apresentados consideramos um conjunto de dados com o paradigma da Tabela 2, para o qual assumimos um modelo probabil´ıstico Produto de Multinomiais, em que, por razões de simplicidade notacional definimos πij = θi(j) . Nosso interesse é ajustar modelos estruturais da forma π = π(β) = (π 1 (β), . . . , π s (β))0 com π i (β) = (πi1 (β), . . . , πir (β))0 , i = 1, . . . , s em que β é um vector p-dimensional de parâmetros desconhecidos. Sob essas condi¸co˜es, o logaritmo da fun¸caõ de verossimilhan¸ca correspondente pode ser expresso como ln Ln (β|n) = K +

s X r X

nij ln πij (β)

(36)

i=1 j=1

em que K é uma constante que não depende de β. O estimador de máxima b das seguintes equa¸ verossimilhan¸ca (MV) de β é a solu¸caõ β co˜es, obtidas quando n igualamos a zero as derivadas de (36) Un (β) =

s X r X

nij ∂ πij (β) = 0 sujeito a i=1 j=1 πij (β) ∂β

r X

πij (β) = 1, i = 1, . . . , s.

j=1

(37)

Como a matriz hessiana correspondente, ∂2 ln Ln (β|n) ∂β∂β 0 s X r X ∂ nij ∂ = − πij (β) 0 πij (β) 2 [πij (β)] ∂β ∂β i=1 j=1

Vn (β) =

+

s X r X

nij ∂2 0 πij (β) i=1 j=1 πij (β) ∂β∂β

é negativa negativa, a solu¸caõ de (37) corresponde a um ponto de máximo. Embora existam solu¸co˜es expl´ıcitas de (37) em alguns casos, geralmente é preciso recorrer a métodos iterativos para resolver essas equa¸co˜es. Um dos mais comum é o método de Newton-Raphson, que consiste em iterar 21

β (q) = β (q−1) − [Vn (β (q−1) ]−1 Un (β (q−1) ),

q = 1, 2, . . .

(38)

(0)

iniciando o processo por uma aproxima¸caõ conveniente β e terminando-o com a satisfa¸caõ de um critério de convergência previamente definido. Em situa¸co˜es particulares, outros métodos iterativos podem ser mais convenientes.

5.1

Modelo linear geral

Para o modelo de simetria, existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca que são dados por θîj =

(

nij /N, i=j (nij + nji )/(2N ), i = 6 j.

(39)

Para outros modelos estruturais, o método do gradiente, proposto por Paulino e Silva (2000) é uma alternativa adequada. O método é desenvolvido com base na formula¸caõ (12). Partindo de uma estimativa inicial para π, novas estimativas são calculadas iterativamente até que um critério de convergência seja satisfeito. b (nota¸ Com a estimativa de π assim obtida, denotada por π caõ também usada para o estimador), segue de (11) que b = (X0 X)−1 XA0 π. b β

Para grandes amostras a matriz de covariância aproximada do estimador MV de β é dada por −1 V b = { J0 DN D−1 (40) π (β ) J } , β onde N = n∗. ⊗ 1r = (Is ⊗ 1r 10r ) e DN é uma matriz diagonal sr × sr tendo os componentes de N na diagonal. A matriz J, de dimensão sr × p, suposta de posto completo, é o jacobiano ∂π(β)/∂β 0 , e é calculada por 0

J = PA0 (APA )−1 X , com P = Is ⊗ (Ir − r −1 1r 10r ). b ´ A matriz de covariância assintótica de Aπ e dada por 0 VA π b = X Vβ bX .

(41)

b em (40) e (41) obtemos estimadores consistentes das Substituindo β por β matrizes de covariâncias correspondentes.

22

5.2

Modelos log-lineares

Um exemplo de situa¸caõ em que existem solu¸co˜es expl´ıcitas para as equa¸co˜es de verossimilhan¸ca (37) é aquele para qual o modelo de independência pode ser cogitado. Nessas condi¸co˜es, para uma tabela I × J, os estimadores MV de θij são dados por θîj = ni· n·j /N,

i = 1, · · · , I, j = 1, · · · , J.

(42)

Para outros casos, podemos adotar o procedimento de Newton-Raphson descrito em Reis (1989), por exemplo. O procedimento iterativo para maximiza¸caõ da fun¸caõ de verossimilhan¸ca é iniciado com uma estimativa β (0) . A partir desta, π e β são sucessivamente calculados até que um critério de convergência seja atendido. As matrizes de covariâncias assintóticas de β e A log π são dadas por

Vb = { β

s X

nq. X0q [Dπ q − π q π 0q ]Xq }−1

(43)

q=1

0 0 −1 −1 0 VAlogπ b = X Vβ b X = X{J DN Dπ (β ) J } X

(44)

b em (43) e (44) obtemos estimadores consistentes para as Substituindo π por π respectivas matrizes de covariâncias.

6

Estima¸ c˜ ao por M´ınimos Quadrados Generalizados

Nas Se¸co˜es 5.1 e 5.2 o método MV foi particularizado para os modelos linear geral e log-linear. Aqui nos dedicamos a` técnica MQG, aplicável a toda a classe de modelos funcionais lineares da Se¸caõ 4.3. Em particular, essa técnica também é aplicável aos modelos linear geral e log-linear. Referências importantes sobre esse tópico são Grizzle, Starmer and Koch (1969), Landis et al. (1976) e Koch et al. (1985). Seja p = D−1 co˜es amostrais. A matriz de covariância N n o vetor das sr propor¸ de p é a matriz sr × sr diagonal em blocos dada por 0 Vp = D−1 N diag(Dπ q − π q π q , q = 1, . . . , s).

(45)

Substituindo π por p em (45) obtemos o seguinte estimador consistente para Vp : 23

d = D−1 diag(D − p p0 , q = 1, . . . , s). V p pq q q N

(46)

d =HV d H0 , V F p

(47)

EA (F) = F(π) = Xβ ,

(48)

Definindo F ≡ [F1 (p), . . . , Fu (p)]0 temos um estimador consistente de F(π). Um estimador consistente da matriz de covariância de F é dado por

em que H = ∂F(π)/∂π |π =p é a matriz u × sr das derivadas das fun¸co˜es F(·) calculadas em p. Escrevendo

onde EA significa valor esperado assintótico e X e β têm o mesmo significado indicado na Se¸caõ 4.3, o estudo das fun¸co˜es de interesse F(π) pode ser feito analisando (48) como um modelo de regressão linear. Minimizando −1

d (F − Xβ) , (F − Xβ)0 V F

obtemos o estimador de MQG

−1

−1

b = (X0 V d X)−1 X0 V d F, β F F

(49)

cuja matriz de covariância pode ser estimada de forma consistente por −1

d X)−1 . d = (X0 V V F βb

(50)

b = Xβ b . F

(51)

Valores preditos de F(π) sob o modelo (48) podem ser calculados como

Um estimador consistente da matriz de covariância correspondente é −1

d = X(X0 V d X)−1 X0 V F b F

Um estimador consistente para o vetor de probabilidades π é fornecido por d d H0 V b =p − V π F p

24

−1

b (F − F)

(52)

Observa¸ c˜ ao 1. Mesmo quando o modelo Produto de Multinomiais não é adequado a`s freq¨ uências observadas, podemos realizar a análise das fun¸co˜es de interesse usando os resultados (49)—(52) se dispusermos de estimativas de F(π) e VF com as propriedades mencionadas. Observa¸ c˜ ao 2. A existência de freq¨ uências observadas nulas (zeros amostrais) merece aten¸caõ especial neste caso. Ver Paulino e Singer (2003) para detalhes.

7

Testes de ajustamento dos modelos

b para o vetor de probabilidades, µ b = DN π b fornece Calculada uma estimativa π uma estimativa para as freq¨ uências esperadas nas caselas. O ajustamento dos modelos pode ser avaliado confrontando, por algum meio, as freq¨ uências obserb vadas (n) com as freq¨ uências esperadas sob o modelo (µ). Para os modelos linear geral e log-linear com parâmetros estimados por MV podemos usar a estat´ıstica da razão de verossimilhan¸cas de Wilks b − logn). QV = −2n0 (logµ

(53)

b b 0 D−1 (n − µ), QP = (n − µ) b µ b 0 D−1 b QN = (n − µ) n (n − µ)

(54)

d (CH)0 ]−1 CF , QW = (CF)0 [CHV p

(56)

As estat´ısticas de Pearson (QP ) e de Neyman (QN ) definidas como

(55)

são gerais na medida em que se aplicam aos dois métodos de estima¸caõ (MV e MQG). O cálculo de QP exige freq¨ uˆ encias estimadas estritamente positivas, enquanto QV e QN exigem freq¨ uˆ encias observadas com esta propriedade. O teste de ajustamento do modelo dispensa a estima¸caõ dos parâmetros, se recorrermos a` estat´ıstica de Wald

AD−1 p )

onde F = Ap (F = Alogp), H = A ( H = para o modelo linear geral d ´ (log-linear) e V p e dada em (46). A matriz C exerce o mesmo papel indicado na Se¸caõ 4.3, mas em rela¸caõ a` matriz X em (11), XL em (22) e X∗ L em (28), consoante o modelo em questão. No caso do modelo (28), a matriz A usada no cálculo de H acima é substitu´ıda por A∗ . Nos modelos log-lineares, as frequências observadas devem ser estritamente positivas. As estat´ısticas QN e QW são idênticas quando avaliadas com estimativas MQG. 25

Sob a validade do modelo estrutural em teste, a distribui¸caõ limite comum das estat´ısticas apresentadas é qui-quadrado com u − p graus de liberdade, com u = s(r − 1) nos modelos (21) e (22). Na situa¸caõ da nota do final da Se¸caõ 6 o ajuste do modelo pode ser testado com a estat´ıstica de Wald.

8

Hip´ oteses redutoras de modelos

Tendo conseguido um modelo satisfatoriamente ajustado aos dados pode haver interesse em testar simplifica¸co˜es adicionais materializadas em hipóteses do tipo H0 : Wβ = 0t×1 ,

(57)

onde W é uma matriz t × p de posto r(W) = t ≤ p. Essas hipóteses podem ser testadas através da estat´ıstica generalizada de Wald b 0 (WV b , d W0 )−1 Wβ QW G = (Wβ) b β

(58)

b eV d s˜ onde β oes apropriadas b ao calculados de acordo com o modelo (ver express˜ β nas Se¸co˜es 5.1, 5.2 e 6). Sob H0 a distribui¸caõ limite de QW G é χ2t .

26

9

Exemplo de an´ alise

Tabela 13: Distribui¸caõ de lesão obstrutiva coronariana expressiva para pacientes com e sem hipertensão arterial, controlando sexo e idade. Sexo Fem

Idade

ANÁLISE DE DADOS CATEGORIZADOS

Short Description

Description

Comments

We need your help!