Análise Multivariada - trabalho
Short Description
Download Análise Multivariada - trabalho...
Description
UNIVERSIDADE FEDERAL DO PARANÁ
Programa de Pós-Graduação em Métodos Numéricos em Engenharia
Trabalho de Análise Multivariada Aplicada à Pesquisa
Prof. D. Jair Mendes Marques
Aluna Marina Vargas R. P. G. Ferreira
Curitiba - PR 2010
Sumário 1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias
3
2 Lista 2 - Distribuição Normal Multivariada
33
3 Lista 3 - Inferência sobre o vetor de médias e MANOVA
48
4 Lista 4: Análise de Componentes Principais
75
5 Lista 5: Análise Fatorial
99
6 Lista 6: Análise Discriminante
121
7 Lista 7: Regressão Logística
135
8 Lista 8: Análise de Agrupamento
146
9 Lista 9: Análise de Correlação Canônica
169
2
1
Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias
Resolver os problemas 1 até 16, com uso do MATLAB 1. Dadas as matrizes
⎡
⎤ −7
0
⎡
5
4
1
5
12
9
2
-6
-5
2
6
8
2
6
3
3
10
3
-13
0
-7
-10
3
0
5
3
3
0
1
-4
-1
3
-2
-9
-40
-25
-35
-25
5
15
15
5
5
-15
10
-25
-5
-5
-15
-30
⎢ ⎢ ⎢ 3 𝐴=⎢ ⎢ ⎢ 7 ⎣ 2
⎤ 8
5
7
5
⎡
⎤ −5
⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 2 −3 −2 3 −1 −3 −3 −1 ⎥, 𝐵 = ⎢ ⎥ e 𝐶=⎢ ⎥ ⎢ ⎥ ⎢ ⎢ −1 3 −2 5 ⎥ ⎢ 2 5 4 1 ⎥ ⎦ ⎣ ⎦ ⎣ 2 7 −3 1 1 3 6 0
calcular: (a) 𝐴 + 𝐵; >> A+B ans =
(b) 𝐶 − 𝐵; >> C-B ans =
(c) −5 ⋅ 𝐵; >> (-5)*B ans =
3
5
0
−5
⎥ ⎥ −3 2 2 ⎥ ⎥, ⎥ 3 −1 1 ⎥ ⎦ 4 1 −3
(d) 𝐴 + 3 ⋅ 𝐵 − 5 ⋅ 𝐶; >> A+3*B-5*C ans = 42
-10
26
44
-10
3
-21
-10
-6
-1
3
11
5
-15
11
30
18
30
93
39
-25
-8
-18
-13
12
-9
16
-12
29
24
57
-8
(e) 𝐵 ⋅ 𝐴; >> B*A ans =
(f) (𝐶 ⋅ 𝐴) ⋅ 𝐵; >> (C*A)*B ans = 425
75
525
-65
-106
15
-195
112
-62
20
-9
75
164
51
246
85
(g) 𝐴 ⋅ (𝐵 − 𝐶); >> A*(B-C) ans = -102
-12
-46
-14
57
-9
44
58
65
-3
22
80
-4
9
-9
15
(h) 𝐴−1 ; >> inv(A) ans = 4
-0.0507
0.0941
0.0404
0.0400
0.0097
-0.2008
0.1365
-0.1423
0.0526
0.0658
-0.0132
0.1316
0.0955
0.0824
0.0872
-0.0945
-0.0568
0.0389
0.0019
0.1170
0.0181
-0.0776
-0.0252
-0.0256
0.0487
-0.1005
0.0613
-0.1177
0.0393
-0.1723
-0.0316
-0.1184
(i) (𝐵 ⋅ 𝐶)−1 >> inv(B*C) ans =
(j) tr(𝐴); >> trace(A) ans = -9 (k) tr(𝐵 + 𝐶); >> trace(B+C) ans = -3 (l) 𝐵 2 ; >> B^2 ans = 57
51
42
100
-3
-6
5
-23
-4
-15
3
12
10
17
16
55
-285
570
-75
-440
114
-257
52
180
(m) 𝐶 3 ; >> C^3 ans =
5
50
-44
-12
66
-84
197
-28
-142
(n) tr(𝐴 + 𝐵)−1 ; >> trace(inv(A+B)) ans = -0.4004 (o) 𝐴′ ; >> A’ ans = -7
3
7
2
0
-3
5
2
5
-2
4
7
4
3
1
-3
(p) (𝐵 + 𝐴 − 𝐶 ′ )′ ; >> (B+A-C’)’ ans = 6
-3
6
8
3
-3
6
1
10
-8
3
9
9
-2
5
6
(q) det(𝐵); >> det(B) ans = 613 (r) det(𝐴 − 𝐵). >> det(A-B) ans = -152 2. Dados os vetores: 𝑢 = [0, 3, −1, 0, 5], 𝑣 = [−5, 1, −5, 1, 4] e 𝑤 = [1, −1, −3, 0, 2], calcular:
6
(a) 𝑢 ∙ 𝑣;
𝑢 ∙ 𝑣 = 28 (b) 𝑤 ∙ 𝑣;
𝑤 ∙ 𝑣 = 17 (c) 𝑢 ∙ (𝑣 + 𝑤);
𝑢 ∙ (𝑣 + 𝑤) = 38 (d) 𝑢 ∙ (𝑣 − 𝑤).
𝑢 ∙ (𝑣 − 𝑤) = 18 3. Dados os vetores: 𝑢1 = [2, −1, 3, 2], 𝑢2 = [−1, 3, 2, 1], 𝑢3 = [−4, 2, −6, −4] e 𝑢4 = [6, −3, 9, 6], verifique se são L.D. ou L.I.: (a) 𝑢1 e 𝑢2 ; Como
⎡
⎤ 2 −1
⎢ ⎢ ⎢ −1 𝑀 =⎢ ⎢ ⎢ 3 ⎣ 2
⎥ ⎥ 3 ⎥ ⎥ ⎥ 2 ⎥ ⎦ 1
e 𝑟𝑎𝑛𝑘(𝑀 𝐴) = 2, então os vetores 𝑢1 e 𝑢2 são Linearmente Independentes. (b) 𝑢1 e 𝑢3 ; Como
⎡
⎤ 2 −4
⎢ ⎥ ⎢ ⎥ ⎢ −1 2 ⎥ ⎢ ⎥ 𝑀𝑀 = ⎢ ⎥ ⎢ 3 −6 ⎥ ⎣ ⎦ 2 −4 e 𝑟𝑎𝑛𝑘(𝑀 𝑀 ) = 1, então os vetores 𝑢1 e 𝑢3 são Linearmente Dependentes. (c) 𝑢1 , 𝑢2 e 𝑢3 ;
7
Como
⎡
⎤ 2 −1 −4
⎢ ⎢ ⎢ −1 𝑇𝑇 = ⎢ ⎢ ⎢ 3 ⎣ 2
⎥ ⎥ 2 ⎥ ⎥ ⎥ 2 −6 ⎥ ⎦ 1 −4 3
e 𝑟𝑎𝑛𝑘(𝑇 𝑇 ) = 2, então os vetores 𝑢1 , 𝑢2 e 𝑢3 são Linearmente Dependentes. (d) 𝑢1 , 𝑢3 e 𝑢4 ; Como
⎡
⎤ 2 −4
6
⎢ ⎥ ⎢ ⎥ ⎢ −1 2 −3 ⎥ ⎢ ⎥ 𝑇𝐻 = ⎢ ⎥ ⎢ 3 −6 9 ⎥ ⎣ ⎦ 2 −4 6 e 𝑟𝑎𝑛𝑘(𝑇 𝐻) = 1, então os vetores 𝑢1 , 𝑢3 e 𝑢4 são Linearmente Dependentes. (e) 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 . Como
⎡
⎤ 2 −1 −4
⎢ ⎢ ⎢ −1 𝐺𝐺 = ⎢ ⎢ ⎢ 3 ⎣ 2
6
⎥ ⎥ 2 −3 ⎥ ⎥ ⎥ 2 −6 9 ⎥ ⎦ 1 −4 6 3
e 𝑟𝑎𝑛𝑘(𝐺𝐺) = 2, então os vetores 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 são Linearmente Dependentes. 4. Calcular a norma ou comprimento de cada um dos vetores do item 2. - ∥𝑢∥ = 5.9161 - ∥𝑣∥ = 8.2462 - ∥𝑤∥ = 3.8730 5. Determinar os autovalores e autovetores normalizados das matrizes: ⎡
⎤ 9
⎢ ⎢ 𝐴 = ⎢ −1 ⎣ 3 Matriz de autovetores
8
−1 3 5 1
⎥ ⎥ 1 ⎥ ⎦ 7
⎡
⎤ 0.441225
0.374359
0.815583
⎢ ⎥ ⎢ ⎥ 𝑒 = ⎢ 0.687013 −0.725619 −0.0386051 ⎥ ⎣ ⎦ −0.57735 −0.57735 0.57735 Matriz de autovalores ⎤
⎡ ⎢ ⎢ 𝐿=⎢ ⎣
3.51739
0
0
⎥ ⎥ 0 6.31158 0 ⎥ ⎦ 0 0 11.171
Assim Autovalores
Autovetores
𝜆1 = 3.51739
𝑒1 = [0.441225 0.687013 -0.57735]’
𝜆2 = 6.31158
𝑒2 = [0.374359 -0.725619 -0.57735]’
𝜆3 = 11.171
𝑒3 = [0.815583 -0.0386051 0.57735]’
e
⎡
⎤
−3 5 1 3 ⎢ ⎥ ⎢ ⎥ ⎢ 5 −3 1 5 ⎥ ⎢ ⎥ 𝐵=⎢ ⎥ ⎢ 1 1 3 −4 ⎥ ⎣ ⎦ 3 5 −4 6 Matriz de autovetores ⎡
⎤ 0.627122 −0.598371
0.408248
0.286361
0 0
0
⎢ ⎥ ⎢ ⎥ ⎢ −0.76064 −0.340226 0.408248 0.372836 ⎥ ⎢ ⎥ 𝑒=⎢ ⎥ ⎢ 0.0667588 0.469299 0.816497 −0.329599 ⎥ ⎣ ⎦ 0.153909 0.553133 1.69362𝑒−017 0.818752 Matriz de autovalores ⎡ ⎢ ⎢ ⎢ 𝐿=⎢ ⎢ ⎢ ⎣
⎤ −8.22181
⎥ ⎥ 0 ⎥ ⎥ ⎥ 0 4 0 ⎥ ⎦ 0 0 10.9364
0 −3.71455 0 0 0
Assim
9
Autovalores
Autovetores
𝜆1 = -8.2218
𝑒1 = [0.627122 -0.76064 0.0667588 0.153909]’
𝜆2 = -3.7146
𝑒2 = [ -0.598371 -0.340226 0.469299 0.553133]’
𝜆3 = 4.0000
𝑒3 = [0.408248 0.408248 0.816497 1.69362𝑒−017 ]’
𝜆4 = 10.9364
𝑒4 = [ 0.286361 0.372836 -0.329599 0.818752 ]’
6. Determine as matrizes 𝐴1/2 e 𝐵 1/2 , se existirem, para as matrizes do item 5. >> A=[9 -1 3; -1 5 1; 3 1 7] A = 9
-1
3
-1
5
1
3
1
7
>> [e,L]=eig(A) e = 0.4412
0.3744
0.8156
0.6870
-0.7256
-0.0386
-0.5774
-0.5774
0.5774
3.5174
0
0
0
6.3116
0
0
0
11.1710
L =
>> AR=e*(sqrt(L))*e’ AR = 2.9404
-0.2192
0.5531
-0.2192
2.2130
0.2341
0.5531
0.2341
2.5767
2.9404
-0.2192
0.5531
-0.2192
2.2130
0.2341
0.5531
0.2341
2.5767
ou >> AR=sqrtm(A) AR =
10
⎡
⎤ 2.94042 −0.21917 0.553062
⎢ ⎢ 𝐴1/2 = ⎢ −0.21917 ⎣ 0.553062
⎥ ⎥ 2.21295 0.234092 ⎥ ⎦ 0.234092 2.57669
>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6] B = -3
5
1
3
5
-3
1
5
1
1
3
-4
3
5
-4
6
>> [e,L]=eig(B) e = 0.6271
-0.5984
0.4082
0.2864
-0.7606
-0.3402
0.4082
0.3728
0.0668
0.4693
0.8165
-0.3296
0.1539
0.5531
0.0000
0.8188
-8.2218
0
0
0
0
-3.7146
0
0
0
0
4.0000
0
0
0
0
10.9364
L =
𝐵 1/2 Não existe, pois 𝐵 1/2 = onde dois deles são negativos.
𝑘 √ ∑ 𝜆𝑖 𝑒𝑖 𝑒′𝑖 = 𝑃 Λ1/2 𝑃 ′ , dependendo assim dos autovalores,
𝑖=1
7. Para a matriz B do item 6 verifique se é possível: (𝐵 1/2 )−1 = 𝑃 Λ−1/2 𝑃 ′ . 𝑘 )−1 ∑ ( √1 𝑒 𝑒′ = 𝑃 Λ−1/2 𝑃 ′ , como existem autovalores negativos, não é = Temos que 𝐴1/2 𝜆 𝑖 𝑖 possível encontrar
𝑖=′ 1/2 (𝐵 )−1 .
𝑖
8. Verificar se existe alguma matriz positiva definida entre as matrizes A e B do item 6. (a) Do item 6, temos
11
Autovalores
A
B
𝜆1
3.5174
-8.2218
𝜆2
6.3116
-3.7146
𝜆3
11.1710
4.0000
𝜆4
10.9364
A matriz 𝐴 é positiva definida, pois seus autovalores são positivos, já a matriz 𝐵 não é positiva definida. 9. Calcular o comprimento ou norma de cada vetor coluna das matrizes A e B do item 6. Matriz A >> A=[9 -1 3; -1 5 1; 3 1 7]; >> u1=[9 -1 -3] u1 = 9
-1
-3
>> u2=[-1 5 1] u2 = -1
5
1
>> u3=[3 1 7] u3 = 3
1
7
>> norm(u1) ans = 9.5394 >> norm(u2) ans = 5.1962 >> norm(u3) ans = 7.6811 >> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6]; >> u1=[-3 5 1 3] u1 = 12
-3
5
1
3
1
5
3
-4
-4
6
>> u2=[5 -3 1 5] u2 = 5
-3
>> u3=[1 1 3 -4] u3 = 1
1
>> u4=[3 5 -4 6] u4 = 3
5
>> norm(u1) ans = 6.6332 >> norm(u2) ans = 7.7460 >> norm(u3) ans = 5.1962 >> norm(u4) ans = 9.2736 Vetores Coluna
A
B
𝑢1
9.5394
6.6332
𝑢2
5.1962
7.7460
𝑢3
7.6811
5.1962
𝑢4
9.2736
10. Considere a matriz de covariância ⎡
⎤ 9
0
0
0
⎢ ⎢ ⎢ 0 16 0 0 Σ=⎢ ⎢ ⎢ 0 0 20 0 ⎣ 0 0 0 25 13
⎥ ⎥ ⎥ ⎥, ⎥ ⎥ ⎦
determine: (a) Σ−1 ; >> sigma=[9 0 0 0;0 16 0 0;0 0 20 0;0 0 0 25] sigma = 9
0
0
0
0
16
0
0
0
0
20
0
0
0
0
25
>> InvSigma=inv(sigma) InvSigma = 0.1111
0
0
0
0
0.0625
0
0
0
0
0.0500
0
0
0
0
0.0400
(b) Os autovalores e autovetores normalizados de Σ; >> [e,L]=eig(sigma) e = 1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
9
0
0
0
0
16
0
0
0
0
20
0
0
0
0
25
L =
Autovalores
Autovetores
𝜆1 = 9
𝑒1 = [1 0 0 0]’
𝜆2 = 16
𝑒2 = [0 1 0 0]’
𝜆3 = 20
𝑒3 = [0 0 1 0]’
𝜆4 = 25
𝑒4 = [0 0 0 1 ]’
14
(c) os autovalores e autovetores normalizados de Σ−1 . >> [einv,Linv]=eig(InvSigma) einv = 0
0
0
1
0
0
1
0
0
1
0
0
1
0
0
0
Linv = 0.0400
0
0
0
0
0.0500
0
0
0
0
0.0625
0
0
0
0
0.1111
Autovalores
Autovetores
𝜆1 = 0.0400
𝑒1 = [0 0 0 1]’
𝜆2 = 0.0500
𝑒2 = [0 0 1 0]’
𝜆3 = 0.0625
𝑒3 = [0 1 0 0]’
𝜆4 = 0.1111
𝑒4 = [1 0 0 0 ]’
11. Dada a matriz covariância
⎡
⎤ 4
⎢ ⎢ ⎢ −1 Σ=⎢ ⎢ ⎢ 3 ⎣ 4
−1 3 4 5 2 1
⎥ ⎥ 2 1 ⎥ ⎥ ⎥ 4 5 ⎥ ⎦ 5 5
determine: (a) A matriz de correlação 𝜌; >> Sigma=[4 -1 3 4;-1 5 2 1;3 2 4 5;4 1 5 5] >> V=diag(diag(Sigma)) V = 4
0
0
0
0
5
0
0
0
0
4
0
0
0
0
5
>> Vraiz=sqrtm(V) 15
Vraiz = 2.0000
0
0
0
0
2.2361
0
0
0
0
2.0000
0
0
0
0
2.2361
>> IVraiz=inv(Vraiz) IVraiz = 0.5000
0
0
0
0
0.4472
0
0
0
0
0.5000
0
0
0
0
0.4472
>> Corre=IVraiz*Sigma*IVraiz Matriz de Correlação = 1.0000
-0.2236
0.7500
0.8944
-0.2236
1.0000
0.4472
0.2000
0.7500
0.4472
1.0000
1.1180
0.8944
0.2000
1.1180
1.0000
(b) Verifique a relação 𝑉 1/2 𝜌𝑉 1/2 = Σ; >> Corre=IVraiz*Sigma*IVraiz Corre = 1.0000
-0.2236
0.7500
0.8944
-0.2236
1.0000
0.4472
0.2000
0.7500
0.4472
1.0000
1.1180
0.8944
0.2000
1.1180
1.0000
>> Sigma=Vraiz*Corre*Vraiz Sigma = 4.0000
-1.0000
3.0000
4.0000
-1.0000
5.0000
2.0000
1.0000
3.0000
2.0000
4.0000
5.0000
4.0000
1.0000
5.0000
5.0000
(c) Efetue a decomposição espectral de Σ Sigma = 4.0000
-1.0000
3.0000
4.0000 16
-1.0000
5.0000
2.0000
1.0000
3.0000
2.0000
4.0000
5.0000
4.0000
1.0000
5.0000
5.0000
>> [e,L]=eig(Sigma) e = 0.0997
-0.7697
0.4143
0.4754
-0.1147
-0.3916
-0.8967
0.1715
0.7156
0.3704
-0.1434
0.5745
-0.6817
0.3421
0.0609
0.6438
-0.6656
0
0
0
0
0.2695
0
0
0
0
5.7140
0
0
0
0
12.6821
4.0000
-1.0000
3.0000
4.0000
-1.0000
5.0000
2.0000
1.0000
3.0000
2.0000
4.0000
5.0000
4.0000
1.0000
5.0000
5.0000
L =
>> Auto=e*L*e’ Auto =
Então, vê-se que 𝐴 = 𝑃 𝐴𝑃 ′ . A= matriz dos Autovalores de sigma P= matriz dos Autovetores de sigma 12. Uma amostra multivariada aleatória 𝑋 (com 12 observações e 6 variáveis) é dada a seguir:
17
⎤
⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 𝑋=⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
39 51 53 42 55 48
⎥ ⎥ 47 51 53 48 53 57 ⎥ ⎥ ⎥ 43 45 46 44 44 51 ⎥ ⎥ ⎥ 49 46 49 45 48 57 ⎥ ⎥ ⎥ 51 55 44 57 49 56 ⎥ ⎥ ⎥ 52 49 39 50 44 47 ⎥ ⎥ ⎥ 57 52 55 44 43 44 ⎥ ⎥ ⎥ 48 50 47 50 55 50 ⎥ ⎥ ⎥ ⎥ 53 47 52 44 50 48 ⎥ ⎥ ⎥ 54 47 51 43 47 46 ⎥ ⎥ ⎥ 55 52 50 49 54 52 ⎥ ⎦ 43 43 45 56 52 56
(a) o vetor de médias; >> X=[39 51 53 42 55 48;47 51 53 48 53 57; 43 45 46 44 44 51; 49 X = 39
51
53
42
55
48
47
51
53
48
53
57
43
45
46
44
44
51
49
46
49
45
48
57
51
55
44
57
49
56
52
49
39
50
44
47
57
52
55
44
43
44
48
50
47
50
55
50
53
47
52
44
50
48
54
47
51
43
47
46
55
52
50
49
54
52
43
43
45
56
52
56
>> mean(X) ans = 49.2500
49.0000
48.6667
47.6667
(b) a matriz covariância estimada 𝑆; S=cov(X)
18
49.5000
51.0000
46
49
45
48
57;51
5
ans = 30.0227
6.4545
3.0000
-0.7273
-9.3182
-9.0909
6.4545
12.0000
2.8182
2.7273
2.7273
-1.3636
3.0000
2.8182
21.3333
-14.4848
4.6364
-4.6364
-0.7273
2.7273
-14.4848
24.6061
4.5455
12.8182
-9.3182
2.7273
4.6364
4.5455
19.1818
7.5455
-9.0909
-1.3636
-4.6364
12.8182
7.5455
21.0909
(c) a matriz de correlação 𝑅; >> M=diag(diag(S)) M = 30.0227
0
0
0
0
0
0
12.0000
0
0
0
0
0
0
21.3333
0
0
0
0
0
0
24.6061
0
0
0
0
0
0
19.1818
0
0
0
0
0
0
21.0909
5.4793
0
0
0
0
0
0
3.4641
0
0
0
0
0
0
4.6188
0
0
0
0
0
0
4.9604
0
0
0
0
0
0
4.3797
0
0
0
0
0
0
4.5925
0.1825
0
0
0
0
0
0
0.2887
0
0
0
0
0
0
0.2165
0
0
0
0
0
0
0.2016
0
0
0
0
0
0
0.2283
0
0
0
0
0
0
0.2177
1.0000
0.3401
0.1185
-0.0268
-0.3883
-0.3613
0.3401
1.0000
0.1761
0.1587
0.1798
-0.0857
0.1185
0.1761
1.0000
-0.6322
0.2292
-0.2186
-0.0268
0.1587
-0.6322
1.0000
0.2092
0.5627
-0.3883
0.1798
0.2292
0.2092
1.0000
0.3751
-0.3613
-0.0857
-0.2186
0.5627
0.3751
1.0000
>> raizM=sqrtm(M) raizM =
>> invRM=inv(raizM) invRM =
>> R=invRM*S*invRM R =
19
(d) a matriz desvio padrão 𝐷1/2 . >> DM=diag(diag(S)) DM = 30.0227
0
0
0
0
0
0
12.0000
0
0
0
0
0
0
21.3333
0
0
0
0
0
0
24.6061
0
0
0
0
0
0
19.1818
0
0
0
0
0
0
21.0909
5.4793
0
0
0
0
0
0
3.4641
0
0
0
0
0
0
4.6188
0
0
0
0
0
0
4.9604
0
0
0
0
0
0
4.3797
0
0
0
0
0
0
4.5925
>> DeM=sqrtm(DM) DeM =
13. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra, situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ... , CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7; COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e b (mg/10g)).
20
Áreas
CTM1
CTM2
CTM3
CTM4
CTM5
CTM7
COB
IAF
CLT
1. T1
4.50
6.75
5.25
71.00
45.50
8.75
97.9
5.12
18.00
2. T2
8.75
9.50
11.50
43.50
53.75
14.50
52.4
1.91
15.22
3. T7
5.75
8.25
8.50
51.25
42.00
9.50
50.6
2.74
15.61
4. T14
7.75
9.75
11.75
50.25
41.25
10.25
49.3
0.89
14.44
5. T15
5.50
6.50
5.0
73.25
40.50
6.50
96.5
6.68
17.90
6. T22
9.50
12.00
28.50
31.50
61.75
31.25
11.1
0.27
12.73
7. T26
9.00
10.25
9.25
61.75
48.00
10.00
90.2
3.71
14.82
8. T28
6.75
7.75
6.25
82.00
44.50
6.75
96.7
5.36
17.32
9. T33
6.25
6.50
5.25
80.25
46.75
6.75
96.0
6.55
15.09
10. T43
8.50
10.00
8.25
74.75
55.50
10.50
97.9
2.05
16.28
11. F3A
9.00
11.50
20.50
43.75
58.00
22.25
19.7
0.81
10.25
12. F9
5.75
7.00
11.0
28.25
31.00
9.00
14.3
0.62
12.35
13. F10
6.25
7.50
17.5
22.00
31.00
13.50
4.2
0.15
8.26
14. F17
7.00
9.75
9.75
61.25
53.75
11.75
55.3
1.96
14.36
15. F18
8.25
10.50
9.0
83.00
60.00
11.75
85.8
6.64
11.39
16. F36
6.75
8.25
8.0
59.00
46.75
9.75
45.5
2.20
12.29
17. F6A
8.00
10.00
11.0
49.25
48.00
14.00
16.9
1.17
13.27
18. F40
6.75
8.00
10.75
43.75
42.00
10.00
38.1
1.58
14.40
19. F41
7.75
10.25
15.50
45.25
58.75
20.50
29.2
0.74
15.62
20. F42
8.25
11.00
16.75
31.25
46.75
18.25
21.5
9.63
10.37
(a) montar a matriz de dados X; >> X=[4.50
6.75
5.25
71.00
45.50
8.75
97.9
5.12
X = 4.50
6.75
5.25
71.00
45.50
8.75
97.90
5.12
18.00
8.75
9.50
11.50
43.50
53.75
14.50
52.40
1.91
15.22
5.75
8.25
8.50
51.25
42.00
9.50
50.60
2.74
15.61
7.75
9.75
11.75
50.25
41.25
10.25
49.30
0.89
14.44
5.50
6.50
5.00
73.25
40.50
6.50
96.50
6.68
17.90
9.50
12.00
28.50
31.50
61.75
31.25
11.10
0.27
12.73
9.00
10.25
9.25
61.75
48.00
10.00
90.20
3.71
14.82
6.75
7.75
6.25
82.00
44.50
6.75
96.70
5.36
17.32
6.25
6.50
5.25
80.25
46.75
6.75
96.00
6.55
15.09
8.50
10.00
8.25
74.75
55.50
10.50
97.90
2.05
16.28
9.00
11.50
20.50
43.75
58.00
22.25
19.70
0.81
10.25
21
18.00; 8.75 9.50
11.50
43.50
5.75
7.00
11.00
28.25
31.00
9.00
14.30
0.62
12.35
6.25
7.50
17.50
22.00
31.00
13.50
4.20
0.15
8.26
7.00
9.75
9.75
61.25
53.75
11.75
55.30
1.96
14.36
8.25
10.50
9.00
83.00
60.00
11.75
85.80
6.64
11.39
6.75
8.25
8.00
59.00
46.75
9.75
45.50
2.20
12.29
8.00
10.00
11.00
49.25
48.00
14.00
16.90
1.17
13.27
6.75
8.00
10.75
43.75
42.00
10.00
38.10
1.58
14.40
7.75
10.25
15.50
45.25
58.75
20.50
29.20
0.74
15.62
8.25
11.00
16.75
31.25
46.75
18.25
21.50
9.63
10.37
(b) estimar o vetor de médias; >> M=mean(X) M = 7.30
9.05
11.46
54.31
47.77
12.77
53.45
3.04
13.99
(c) estimar a matriz de covariâncias; >> S=cov(X) S = 1.89
2.13
4.73
-4.94
8.22
5.53
-11.35
-0.72
-1.22
2.13
2.92
6.72
-8.54
10.94
8.06
-20.95
-0.90
-1.72
4.73
6.72
33.94
-80.04
16.73
33.67
-150.59
-6.78
-9.38
-4.94
-8.54
-80.04
352.20
40.52
-65.53
590.45
26.02
30.46
8.22
10.94
16.73
40.52
76.05
31.28
31.42
0.06
1.18
5.53
8.06
33.67
-65.53
31.28
37.74
-132.46
-5.62
-7.25
-11.35
-20.95
-150.59
590.45
31.42
-132.46
1160.39
51.43
63.90
-0.72
-0.90
-6.78
26.02
0.06
-5.62
51.43
7.30
1.41
-1.22
-1.72
-9.38
30.46
1.18
-7.25
63.90
1.41
6.91
(d) determinar os autovalores e autovetores da matriz de covariâncias; Matriz dos autovetores. Cada coluna é um autovetor. >> [e,L]=eig(S) e = 0.71
0.23
0.58
0.31
-0.07
-0.01
0.05
-0.09
-0.01
-0.50
-0.50
0.64
0.24
-0.11
-0.01
0.04
-0.13
-0.02
-0.31
0.49
0.09
0.15
0.40
0.56
0.28
-0.26
-0.12
0.02
-0.01
0.07
-0.06
0.18
0.25
-0.78
-0.27
0.46
-0.10
0.19
-0.17
0.06
-0.28
-0.42
0.08
-0.81
0.03
0.37
-0.57
-0.09
-0.36
0.22
0.33
0.27
-0.41
-0.10
0.00
-0.03
-0.04
0.07
0.00
-0.00
0.47
0.08
0.87
-0.04
0.17
0.13
-0.42
-0.75
0.45
0.02
0.01
0.04
-0.09
0.23
0.43
-0.72
0.31
-0.37
0.06
0.02
0.05
22
A matriz de autovalores, onde estes se localizam na sua diagonal é: L = 0.15
0
0
0
0
0
0
0
0
0
0.17
0
0
0
0
0
0
0
0
0
0.92
0
0
0
0
0
0
0
0
0
3.12
0
0
0
0
0
0
0
0
0
5.11
0
0
0
0
0
0
0
0
0
7.40
0
0
0
0
0
0
0
0
0
38.16
0
0
0
0
0
0
0
0
0
109.79
0
0
0
0
0
0
0
0
0
1514.51
(e) estimar a matriz de correlações. >> X=[4.50
6.75
5.25
71.00
45.50
8.75
97.9
5.12
18.00; 8.75 9.50
11.50
X = 4.5000
6.7500
5.2500
71.0000
45.5000
8.7500
97.9000
5.1200
18.0000
8.7500
9.5000
11.5000
43.5000
53.7500
14.5000
52.4000
1.9100
15.2200
5.7500
8.2500
8.5000
51.2500
42.0000
9.5000
50.6000
2.7400
15.6100
7.7500
9.7500
11.7500
50.2500
41.2500
10.2500
49.3000
0.8900
14.4400
5.5000
6.5000
5.0000
73.2500
40.5000
6.5000
96.5000
6.6800
17.9000
9.5000
12.0000
28.5000
31.5000
61.7500
31.2500
11.1000
0.2700
12.7300
9.0000
10.2500
9.2500
61.7500
48.0000
10.0000
90.2000
3.7100
14.8200
6.7500
7.7500
6.2500
82.0000
44.5000
6.7500
96.7000
5.3600
17.3200
6.2500
6.5000
5.2500
80.2500
46.7500
6.7500
96.0000
6.5500
15.0900
8.5000
10.0000
8.2500
74.7500
55.5000
10.5000
97.9000
2.0500
16.2800
9.0000
11.5000
20.5000
43.7500
58.0000
22.2500
19.7000
0.8100
10.2500
5.7500
7.0000
11.0000
28.2500
31.0000
9.0000
14.3000
0.6200
12.3500
6.2500
7.5000
17.5000
22.0000
31.0000
13.5000
4.2000
0.1500
8.2600
7.0000
9.7500
9.7500
61.2500
53.7500
11.7500
55.3000
1.9600
14.3600
8.2500
10.5000
9.0000
83.0000
60.0000
11.7500
85.8000
6.6400
11.3900
6.7500
8.2500
8.0000
59.0000
46.7500
9.7500
45.5000
2.2000
12.2900
8.0000
10.0000
11.0000
49.2500
48.0000
14.0000
16.9000
1.1700
13.2700
6.7500
8.0000
10.7500
43.7500
42.0000
10.0000
38.1000
1.5800
14.4000
7.7500
10.2500
15.5000
45.2500
58.7500
20.5000
29.2000
0.7400
15.6200
8.2500
11.0000
16.7500
31.2500
46.7500
18.2500
21.5000
9.6300
10.3700
0.0019
0.0021
0.0047
-0.0049
0.0082
0.0055
-0.0113
-0.0007
-0.0012
0.0021
0.0029
0.0067
-0.0085
0.0109
0.0081
-0.0209
-0.0009
-0.0017
0.0047
0.0067
0.0339
-0.0800
0.0167
0.0337
-0.1506
-0.0068
-0.0094
-0.0049
-0.0085
-0.0800
0.3522
0.0405
-0.0655
0.5905
0.0260
0.0305
0.0082
0.0109
0.0167
0.0405
0.0761
0.0313
0.0314
0.0001
0.0012
>> S=cov(X) S = 1.0e+003 *
0.0055
0.0081
0.0337
-0.0655
0.0313
0.0377
-0.1325
-0.0056
-0.0072
-0.0113
-0.0209
-0.1506
0.5905
0.0314
-0.1325
1.1604
0.0514
0.0639
-0.0007
-0.0009
-0.0068
0.0260
0.0001
-0.0056
0.0514
0.0073
0.0014
23
43.50
53.75
14.50
-0.0012
-0.0017
-0.0094
0.0305
0.0012
-0.0072
0.0639
0.0014
0.0069
>> V=diag(diag(S)) V = 1.0e+003 * 0.0019
0
0
0
0
0
0
0
0
0
0.0029
0
0
0
0
0
0
0
0
0
0.0339
0
0
0
0
0
0
0
0
0
0.3522
0
0
0
0
0
0
0
0
0
0.0761
0
0
0
0
0
0
0
0
0
0.0377
0
0
0
0
0
0
0
0
0
1.1604
0
0
0
0
0
0
0
0
0
0.0073
0
0
0
0
0
0
0
0
0
0.0069
>> RV=sqrtm(V) RV = 1.3755
0
0
0
0
0
0
0
0
0
1.7083
0
0
0
0
0
0
0
0
0
5.8255
0
0
0
0
0
0
0
0
0
18.7671
0
0
0
0
0
0
0
0
0
8.7208
0
0
0
0
0
0
0
0
0
6.1435
0
0
0
0
0
0
0
0
0
34.0645
0
0
0
0
0
0
0
0
0
2.7021
0
0
0
0
0
0
0
0
0
2.6285
>> IRV=inv(RV) IRV = 0.7270
0
0
0
0
0
0
0
0
0
0.5854
0
0
0
0
0
0
0
0
0
0.1717
0
0
0
0
0
0
0
0
0
0.0533
0
0
0
0
0
0
0
0
0
0.1147
0
0
0
0
0
0
0
0
0
0.1628
0
0
0
0
0
0
0
0
0
0.0294
0
0
0
0
0
0
0
0
0
0.3701
0
0
0
0
0
0
0
0
0
0.3804
1.0000
0.9074
0.5897
-0.1913
0.6849
0.6546
-0.2421
-0.1940
-0.3388
0.9074
1.0000
0.6755
-0.2664
0.7343
0.7681
-0.3599
-0.1956
-0.3820
>> R=IRV*S*IRV R =
0.5897
0.6755
1.0000
-0.7321
0.3293
0.9408
-0.7588
-0.4304
-0.6124
-0.1913
-0.2664
-0.7321
1.0000
0.2476
-0.5683
0.9236
0.5131
0.6175
0.6849
0.7343
0.3293
0.2476
1.0000
0.5839
0.1058
0.0025
0.0513
0.6546
0.7681
0.9408
-0.5683
0.5839
1.0000
-0.6329
-0.3383
-0.4488
-0.2421
-0.3599
-0.7588
0.9236
0.1058
-0.6329
1.0000
0.5588
0.7137
-0.1940
-0.1956
-0.4304
0.5131
0.0025
-0.3383
0.5588
1.0000
0.1984
-0.3388
-0.3820
-0.6124
0.6175
0.0513
-0.4488
0.7137
0.1984
1.0000
14. Uma amostra multivariada X de tamanho n = 12 foi obtida de um vetor aleatório p = 24
[alturas pesos], resultando Indivíduo
Altura
Peso
1
165
83
2
180
82
3
178
67
4
167
72
5
190
95
6
175
70
7
178
75
8
183
80
9
169
70
10
177
73
11
184
85
12
170
68
(a) Construir a matriz de dados; >> X=[165 83;180 82; 178 67; 167 72;190 95; 175 70;178 75;183 80;169 70;177 73;184 85;170 68] X = 165
83
180
82
178
67
167
72
190
95
175
70
178
75
183
80
169
70
177
73
184
85
170
68
(b) calcular o vetor de médias; >> EX=mean(X) EX = 176.3333
76.6667
(c) representar graficamente num espaço bidimensional as observações e o vetor de médias. 25
95
90
Peso
85
80
75
70
65 165
170
175
180
185
190
Altura
Resolver os problemas 15 até 21, sem uso do MATLAB. ⎡ 15. Determinar os autovalores e autovetores normalizados da matriz 𝐴 = ⎣
⎤ 9
−3
⎦.
−3 9 Seja 𝐴e = 𝜆e, então (𝐴 − 𝜆𝐼)e = 0, assim ¯ ¯ ¯ ¯ ¯ 9 − 𝜆 −3 ¯ ¯ ¯ = 0 ⇒ (9 − 𝜆)2 − 9 = 0 ⇒ (𝜆 − 6)(𝜆 − 12) = 0 ∣ 𝐴 − 𝜆𝐼 ∣= 0 ⇒ ¯ ¯ ¯ −3 9 − 𝜆 ¯ Para 𝜆1 = 6 ⎞⎛ ⎞ ⎛ ⎞ 3 −3 𝑒11 0 ⎝ ⎠⎝ ⎠=⎝ ⎠ −3 3 𝑒21 0 ⎧ ⎨ 3𝑒11 − 3𝑒21 = 0 ⎩ −3𝑒 + 3𝑒 = 0
Para 𝜆2 = 12 ⎞⎛ ⎞ ⎛ ⎞ −3 −3 𝑓11 0 ⎝ ⎠⎝ ⎠=⎝ ⎠ −3 −3 𝑓21 0 ⎧ ⎨ −3𝑓11 − 3𝑓21 = 0 ⎩ −3𝑓 − 3𝑓 = 0
⎛
11
⎛
21
11
21
3𝑒11 = 3𝑒21 ⇒ 𝑒11 = 𝑒21
−3𝑓11 = 3𝑓21 ⇒ 𝑓11 = −𝑓21
Para autovetores normalizados, tem-se: √ (𝑒11 )2 + (𝑒11 )2 = 1
Para autovetores normalizados, tem-se: √ (𝑓11 )2 + (−𝑓11 )2 = 1
Assim 𝑒11 =
√1 2
√1 2⎞ 1 √ 2 ⎠ 1 √ 2
e 𝑒21 = ⎛
𝜆1 = 6, autovetor e = ⎝
Assim 𝑓11 =
√1 2
e 𝑓21 = − √12 ⎛ ⎞
𝜆2 = 12, autovetor f = ⎝
√1 2 − √12
⎠
16. Pesquisar o que é uma pseudo-inversa. Exemplificar e dar suas propriedades. Definição: Dada a matriz 𝐴 : 𝑚𝑥𝑛, 𝑚 ≥ 𝑛 com 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑟 e sua fatoração em decomposição em valores singulares (SVD), chama-se pseudo-inversa de Moore-Penrose de
26
à 𝐴, a matriz
𝐴+
𝑛𝑥𝑚
∈ IR
,
𝐴+
= 𝑉
Σ+ 𝑈 𝑇 ,
onde
Σ+
= 𝑑𝑖𝑎𝑔
𝑈 = [𝑢1 , ..., 𝑢𝑚 ] e 𝑣 = [𝑣1 , ..., 𝑣𝑛 ]. Se 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑛, então
1
)
∈ IR𝑛𝑥𝑚 , 1 𝜎1 , ... 𝜎𝑟 ,0...,0 𝐴+ = (𝐴𝑇 𝐴)−1 𝐴𝑇 . Se
𝑚 = 𝑛 = 𝑝𝑜𝑠𝑡𝑜(𝐴), então 𝐴+ = 𝐴−1 .
Teorema:(Pseudo-Inversa) Para toda matriz 𝐴 ∈ IR𝑚𝑥𝑛 , existe uma única matriz 𝐴+ ∈ IR𝑛𝑥𝑚 , denominada pseudo-inversa de 𝐴, satisfazendo as condições de MoorePenrose. (a) 𝐴𝐴+ 𝐴 = 𝐴 (b) (𝐴+ 𝐴)𝑇 = 𝐴+ 𝐴 (c) 𝐴+ 𝐴𝐴+ = 𝐴+ (d) (𝐴𝐴+ )𝑇 = 𝐴𝐴+ Demonstração: Seja 𝐴 = 𝑈 Σ𝑉 𝑇 uma SVD da matriz 𝐴. Sabemos que 𝐴+ = 𝑉 Σ+ 𝑈 𝑇 . Assim: (a) 𝐴𝐴+ 𝐴 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 = 𝑈 ΣΣ+ Σ𝑉 𝑇 = 𝑈 Σ𝑉 𝑇 = 𝐴 (b) (𝐴+ 𝐴)𝑇 = (𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 )𝑇 = 𝑉 (Σ+ Σ)𝑇 𝑉 𝑇 = 𝑉 (Σ+ Σ)𝑉 𝑇 = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 = 𝐴+ 𝐴 (c) 𝐴+ 𝐴𝐴+ = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 = 𝑉 Σ+ ΣΣ+ 𝑈 𝑇 = 𝑉 Σ+ 𝑈 𝑇 = 𝐴+ (d) (𝐴𝐴+ )𝑇 = (𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 )𝑇 = 𝑈 (ΣΣ+ )𝑇 𝑈 𝑇 = 𝑈 (ΣΣ+ )𝑈 𝑇 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 = 𝐴𝐴+ 17. Dar um exemplo de uma matriz ortogonal 3 X 3 e calcular o determinante associado. Em Álgebra linear, uma matriz ortogonal é uma matriz real M cuja inversa coincide com a sua transposta, isto é: 𝑀 −1 = 𝑀 𝑇 , isto ⎛ 1 ⎜ ⎜ - A matriz Identidade, 𝐴 = ⎜ 0 ⎝ 0 ⎛ ⎞ ⎜ ⎜ - 𝐵=⎜ ⎝
1 3
2 3
0
√1 2 1 − 3√ 2
4 √ 3 2
é, 𝑀 𝑀 𝑇 = 𝑀 𝑇 𝑀 = 𝐼 Ex: ⎞ 0 0 ⎟ ⎟ 1 0 ⎟, 𝑑𝑒𝑡(𝐴) = 1. ⎠ 0 1
2 3
⎟ ⎟ − √12 ⎟, 𝑑𝑒𝑡(𝐵) = −1 ⎠ 1 − 3√ 2
18. Provar as propriedades da transposta de uma matriz.
27
(a) (𝐴𝑇 )𝑇 = 𝐴 - O elemento (𝑖, 𝑗) da matriz 𝐴 é o elemento 𝑎𝑗𝑖 . - O elemento (𝑖, 𝑗) da matriz 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 . - Portanto, o elemento (𝑖, 𝑗) de (𝐴𝑇 )𝑇 é o elemento 𝛼𝑗𝑖 = 𝑎𝑖𝑗 (b) (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵 𝑇 𝑇 𝑇 Seja 𝐶 = 𝐴 + 𝐵 então 𝑐𝑖𝑗 ⎫ = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 . Logo 𝑐𝑖𝑗 ∈ 𝐶 = (𝐴 + 𝐵) . Por outro lado, 𝑎𝑖𝑗 ∈ 𝐴 ⇒ 𝑎𝑖𝑗 ∈ 𝐴𝑇 ⎬ = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 ∈ 𝐴𝑇 + 𝐵 𝑇 . 𝑏 ∈ 𝐵 ⇒ 𝑏 ∈ 𝐵𝑇 ⎭ 𝑖𝑗
𝑖𝑗
Logo 𝑐𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 . (c) (𝐴𝐵)𝑇 = 𝐵 𝑇 𝐴𝑇 Seja 𝐴 uma matriz 𝑚x𝑝 e 𝐵 uma matriz 𝑝x𝑛. O produto 𝐶 = 𝐴𝐵 𝑝 ∑ é uma matriz 𝑚x𝑛 e o seu elemento (𝑖, 𝑗) é dado por 𝑐𝑖𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑗 . 𝑘=1
a matriz (𝐴𝐵)𝑇 é portanto uma matriz 𝑛x𝑚 e nela, o elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha. Por outro lado, a matriz 𝐵 𝑇 𝐴𝑇 também é de ordem 𝑛x𝑚. O elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 , assim como o elemento (𝑖, 𝑗) de 𝐵 𝑇 é o elemento 𝛽𝑖𝑗 = 𝑏𝑗𝑖 . Logo, o elemento de 𝐵 𝑇 𝐴𝑇 que ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha é dado por 𝑝 ∑
𝛽𝑗𝑘 𝛼𝑘𝑖 =
𝑝 ∑
𝑏𝑘𝑗 𝑎𝑖𝑘 = 𝑐𝑖𝑗
𝑘=1
𝑘=1
(d) (𝑘𝐴)𝑇 = 𝑘𝐴𝑇 Seja 𝐶 = 𝑘𝐴, logo o elemento (𝑖, 𝑗) de 𝐶 é dado por 𝑐𝑖𝑗 = 𝑘𝑎𝑖𝑗 . Na matriz (𝑘𝐴)𝑇 , o elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha. Por outro lado, o elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑖𝑗 . Logo, o elemento de 𝑘𝐴𝑇 que ocupa a 𝑖-ésima coluna e a 𝑗ésima linha é dado por 𝑘𝛼𝑗𝑖 = 𝑘𝑎𝑖𝑗 = 𝑐𝑖𝑗 . 19. Provar as propriedades comutativa e associativa da adição de matrizes. (a) Comutativa ⇒ 𝐴 + 𝐵 = 𝐵 + 𝐴 Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 , tem-se:
28
⎞
⎛ 𝑎11
𝑎12
...
⎞
⎛ 𝑏11
𝑎1𝑛
𝑏12
...
𝑏1𝑛
⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ ⎟ ⎜ , 𝐵 = 𝐴=⎜ . ⎜ .. .. .. ⎟ .. .. .. .. ⎟ ⎜ . ⎜ .. . . . . . . ⎠ ⎝ ⎝ 𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 ⎞ ⎛ 𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛 ⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟ ⎟= 𝐴+𝐵 =⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝
⎟ ⎟ ⎟ ⎟, assim ⎟ ⎟ ⎠
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑏11 + 𝑎11 𝑏12 + 𝑎12 . . . 𝑏1𝑛 + 𝑎1𝑛 ⎟ ⎟ 𝑏21 + 𝑎21 𝑏22 + 𝑎22 . . . 𝑏2𝑛 + 𝑎2𝑛 ⎟ ⎟ = 𝐵 + 𝐴, ⎟ .. .. .. .. ⎟ . . . . ⎠ 𝑏𝑚1 + 𝑎𝑚1 𝑏𝑚2 + 𝑎𝑚2 . . . 𝑏𝑚𝑛 + 𝑎𝑚𝑛
logo 𝐴+𝐵 =𝐵+𝐴 (b) Associativa ⇒ (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶) Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝐶 = [𝑐𝑖𝑗 ]𝑚𝑥𝑛 , tem-se: ⎛ ⎞ ⎛ ⎞ 𝑎11 𝑎12 . . . 𝑎1𝑛 𝑏11 𝑏12 . . . 𝑏1𝑛 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎟ ⎜ ⎟ ⎜ ⎟ 𝐴=⎜ . .. .. ⎟, 𝐵 = ⎜ .. .. .. ⎟ e . . . . . ⎜ . ⎜ . . . . . ⎟ . . ⎟ ⎝ ⎠ ⎝ ⎠ ⎛
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
𝑐11 𝑐12 . . . 𝑐1𝑛 ⎜ ⎜ ⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 𝐶=⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛 ⎛ 𝑎11 + 𝑏11 ⎜ ⎜ ⎜ 𝑎21 + 𝑏21 (𝐴+𝐵)+𝐶 = ⎜ ⎜ .. ⎜ . ⎝ ⎛
𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛
⎞ ⎟ ⎟ ⎟ ⎟, assim: ⎟ ⎟ ⎠
⎞ ⎛ 𝑎12 + 𝑏12
...
𝑎22 + 𝑏22 .. .
... .. .
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . .
𝑎1𝑛 + 𝑏1𝑛
𝑐12
...
𝑐1𝑛
⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 ⎟+⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑎1𝑛 + 𝑏1𝑛 + 𝑐1𝑛 ⎟ ⎟ 𝑎2𝑛 + 𝑏2𝑛 + 𝑐2𝑛 ⎟ ⎟= ⎟ .. ⎟ . ⎠ 𝑎2𝑛 + 𝑏2𝑛 .. .
𝑎11 + 𝑏11 + 𝑐11 𝑎12 + 𝑏12 + 𝑐12 . . . ⎜ ⎜ ⎜ 𝑎21 + 𝑏21 + 𝑐21 𝑎22 + 𝑏22 + 𝑐22 . . . =⎜ ⎜ .. .. .. ⎜ . . . ⎝ 𝑎𝑚1 + 𝑏𝑚1 + 𝑐𝑚1 𝑎𝑚2 + 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 + 𝑐𝑚𝑛
29
⎞ 𝑐11
⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
⎞
⎛ 𝑎11
𝑎12
...
𝑎1𝑛
⎜ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 = 𝐴 + (𝐵 + 𝐶)
⎞
⎛ 𝑏11 + 𝑐11
𝑏12 + 𝑐12
...
𝑏1𝑛 + 𝑐1𝑛
⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑏21 + 𝑐21 𝑏22 + 𝑐22 . . . 𝑏2𝑛 + 𝑐2𝑛 ⎟+⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑏𝑚1 + 𝑐𝑚1 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑏𝑚𝑛 + 𝑐𝑚𝑛
⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
Portanto, (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶) 20. Provar as propriedades comutativa, associativa e distributiva da multiplicação de escalar por matriz. (a) Comutativa ⇒ 𝑘𝐴 = 𝐴𝑘
⎞
⎛ 𝑎11
𝑎12
...
𝑎1𝑛
⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ . .. .. ⎟ .. ⎜ .. . . . ⎟ ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 ⎛ ⎞ ⎛ 𝑎11 𝑎12 . . . 𝑎1𝑛 𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛 ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟ ⎜ 𝑘𝐴 = 𝑘 ⎜ ⎜ .. .. .. ⎟ = ⎜ .. .. .. .. .. ⎜ . ⎟ ⎜ . . . . . . . ⎝ ⎠ ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝
e seja 𝑘 ∈ IR, assim
⎞ ⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛 ⎞ ⎛ ⎞ 𝑎11 𝑘 𝑎12 𝑘 . . . 𝑎1𝑛 𝑘 𝑎11 𝑎12 . . . 𝑎1𝑛 ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ 𝑎21 𝑘 𝑎22 𝑘 . . . 𝑎2𝑛 𝑘 ⎟ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ ⎟ .. .. .. ⎟ = ⎜ .. .. .. ⎟ 𝑘 = 𝐴𝑘 .. .. ⎜ . ⎟ . . . . . ⎟ . . ⎠ ⎝ ⎠ 𝑎𝑚1 𝑘 𝑎𝑚2 𝑘 . . . 𝑎𝑚𝑛 𝑘 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
(b) Associativa ⇒ 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴
⎛
⎞ 𝑎11
𝑎12
...
𝑎1𝑛
⎜ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 assim ⎞ ⎛ ⎛ 𝑘1 𝑘2 𝑎11 𝑘2 𝑎11 𝑘2 𝑎12 . . . 𝑘2 𝑎1𝑛 ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ 𝑘2 𝑎21 𝑘2 𝑎22 . . . 𝑘2 𝑎2𝑛 ⎟ ⎜ 𝑘1 𝑘2 𝑎21 ⎟=⎜ ⎜ 𝑘1 (𝑘2 𝐴) = 𝑘1 ⎜ ⎟ ⎜ .. .. .. .. .. ⎟ ⎜ ⎜ . . . . . ⎠ ⎝ ⎝ 𝑘2 𝑎𝑚1 𝑘2 𝑎𝑚2 . . . 𝑘2 𝑎𝑚𝑛
30
⎟ ⎟ ⎟ ⎟ e seja 𝑘1 , 𝑘2 ∈ IR, ⎟ ⎟ ⎠ ⎞ 𝑘1 𝑘2 𝑎12
...
𝑘1 𝑘2 𝑎1𝑛
𝑘1 𝑘2 𝑎22 .. .
... .. .
𝑘1 𝑘2 𝑎2𝑛 .. .
𝑘1 𝑘2 𝑎𝑚1 𝑘1 𝑘2 𝑎𝑚2 . . . 𝑘1 𝑘2 𝑎𝑚𝑛
⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
⎞
⎛ (𝑘1 𝑘2 ) 𝑎11
(𝑘1 𝑘2 ) 𝑎12
...
(𝑘1 𝑘2 ) 𝑎1𝑛
⎜ ⎜ ⎜ (𝑘1 𝑘2 ) 𝑎21 (𝑘1 𝑘2 ) 𝑎22 . . . (𝑘1 𝑘2 ) 𝑎2𝑛 =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ (𝑘1 𝑘2 ) 𝑎𝑚1 (𝑘1 𝑘2 ) 𝑎𝑚2 . . . (𝑘1 𝑘2 ) 𝑎𝑚𝑛 𝑘1 𝑘2 𝐴
⎞
⎛ 𝑎11
𝑎12
𝑎1𝑛
⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑎 𝑎22 . . . 𝑎2𝑛 ⎟ = (𝑘1 𝑘2 ) ⎜ 21 ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
Logo 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴 (c) Distributiva - 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵 Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘 ∈ IR tem-se: ⎞ ⎛ 𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛 ⎟ ⎜ ⎜ ⎟ ⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟ ⎟= ⎜ 𝑘(𝐴 + 𝐵) = 𝑘 ⎜ ⎟ .. .. .. .. ⎟ ⎜ . . . . ⎝ ⎠ 𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑘 (𝑎11 + 𝑏11 ) 𝑘 (𝑎12 + 𝑏12 ) . . . 𝑘 (𝑎1𝑛 + 𝑏1𝑛 ) ⎜ ⎟ ⎜ ⎟ ⎜ 𝑘 (𝑎21 + 𝑏21 ) 𝑘 (𝑎22 + 𝑏22 ) . . . 𝑘 (𝑎2𝑛 + 𝑏2𝑛 ) ⎟ ⎜ ⎟= ⎜ ⎟ .. .. .. .. ⎜ ⎟ . . . . ⎝ ⎠ 𝑘 (𝑎𝑚1 + 𝑏𝑚1 ) 𝑘 (𝑎𝑚2 + 𝑏𝑚2 ) . . . 𝑘 (𝑎𝑚𝑛 + 𝑏𝑚𝑛 ) ⎛ ⎞ (𝑘𝑎11 + 𝑘𝑏11 ) (𝑘𝑎12 + 𝑘𝑏12 ) . . . (𝑘𝑎1𝑛 + 𝑘𝑏1𝑛 ) ⎜ ⎟ ⎜ ⎟ ⎜ (𝑘𝑎21 + 𝑘𝑏21 ) (𝑘𝑎22 + 𝑘𝑏22 ) . . . (𝑘𝑎2𝑛 + 𝑘𝑏2𝑛 ) ⎟ ⎟= =⎜ ⎜ ⎟ .. .. .. .. ⎜ ⎟ . . . . ⎝ ⎠ (𝑘𝑎𝑚1 + 𝑘𝑏𝑚1 ) (𝑘𝑎𝑚2 + 𝑘𝑏𝑚2 ) . . . (𝑘𝑎𝑚𝑛 + 𝑘𝑏𝑚𝑛 ) ⎛ ⎞ ⎛ ⎞ 𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛 𝑘𝑏11 𝑘𝑏12 . . . 𝑘𝑏1𝑛 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟ ⎜ 𝑘𝑏21 𝑘𝑏22 . . . 𝑘𝑏2𝑛 ⎟ ⎟+⎜ ⎟ =⎜ ⎜ .. .. .. ⎟ ⎜ .. .. .. ⎟ = .. .. ⎜ . ⎟ ⎜ . ⎟ . . . . . . ⎝ ⎠ ⎝ ⎠ 𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛 𝑘𝑏𝑚1 𝑘𝑏𝑚2 . . . 𝑘𝑏𝑚𝑛 = 𝑘𝐴 + 𝑘𝐵. Portanto, 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵 ⎛
- (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴 Dada a matriz 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘1 , 𝑘2 ∈ IR, tem-se: ⎞ ⎛ 𝑎11 𝑎12 . . . 𝑎1𝑛 ⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ (𝑘1 + 𝑘2 )𝐴 = (𝑘1 + 𝑘2 ) ⎜ . .. .. ⎟ = . . . ⎜ . . . . ⎟ ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
31
...
⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
⎞
⎛ (𝑘1 + 𝑘2 )𝑎11
(𝑘1 + 𝑘2 )𝑎12
...
(𝑘1 + 𝑘2 )𝑎1𝑛
⎟ ⎜ ⎟ ⎜ ⎜ (𝑘1 + 𝑘2 )𝑎21 (𝑘1 + 𝑘2 )𝑎22 . . . (𝑘1 + 𝑘2 )𝑎2𝑛 ⎟ ⎟= ⎜ =⎜ ⎟ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ (𝑘1 + 𝑘2 )𝑎𝑚1 (𝑘1 + 𝑘2 )𝑎𝑚2 . . . (𝑘1 + 𝑘2 )𝑎𝑚𝑛 ⎛ (𝑘1 𝑎11 + 𝑘2 𝑎11 ) (𝑘1 𝑎12 + 𝑘2 𝑎12 ) . . . (𝑘1 𝑎1𝑛 + 𝑘2 𝑎1𝑛 ) ⎜ ⎜ ⎜ (𝑘1 𝑎21 + 𝑘2 𝑎21 ) (𝑘1 𝑎22 + 𝑘2 𝑎22 ) . . . (𝑘1 𝑎2𝑛 + 𝑘2 𝑎2𝑛 ) =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝
(𝑘1 𝑎𝑚1 + 𝑘2 𝑎𝑚1 ) (𝑘1 𝑎𝑚2 + 𝑘2 𝑎𝑚2 ) . . . (𝑘1 𝑎𝑚𝑛 + 𝑘2 𝑎𝑚𝑛 ) ⎞ ⎛ (𝑘2 )𝑎11 (𝑘2 )𝑎12 (𝑘1 )𝑎11 (𝑘1 )𝑎12 . . . (𝑘1 )𝑎1𝑛 ⎟ ⎜ ⎟ ⎜ (𝑘1 )𝑎21 (𝑘1 )𝑎22 . . . (𝑘1 )𝑎2𝑛 ⎟ ⎜ (𝑘2 )𝑎21 (𝑘2 )𝑎22 ⎟+⎜ ⎟ ⎜ .. .. .. .. .. .. ⎟ ⎜ . . . . . . ⎠ ⎝ (𝑘2 )𝑎𝑚1 (𝑘2 )𝑎𝑚2 (𝑘1 )𝑎𝑚1 (𝑘1 )𝑎𝑚2 . . . (𝑘1 )𝑎𝑚𝑛
⎞ ⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠ ⎞ ...
(𝑘2 )𝑎1𝑛
... .. .
(𝑘2 )𝑎2𝑛 .. .
⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠
. . . (𝑘2 )𝑎𝑚𝑛
= 𝑘1 𝐴 + 𝑘2 𝐴. Portanto, (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴. 21. Provar todas as propriedades da multiplicação de duas matrizes. (a) Distributividade da soma à direita, (𝐴 + 𝐵)𝐶 = 𝐴𝐶 + 𝐵𝐶 Seja 𝐷 = 𝐴 + 𝐵
- elemento (𝑖, 𝑘) de 𝐷: 𝑑𝑖𝑘 = 𝑎𝑖𝑘 + 𝑏𝑖𝑘
(1)
- elemento (𝑖, 𝑗) da matriz ((𝐴 + 𝐵)𝐶)
((𝐴 + 𝐵)𝐶)𝑖𝑗 = (𝐷𝐶)𝑖𝑗 =
𝑝 ∑
𝑑𝑖𝑘 𝑐𝑘𝑗 =
𝑘=1
𝑝 ∑
𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗
(2)
𝑘=1
- elemento (𝑖, 𝑗) da matriz (𝐴𝐶 + 𝐵𝐶) ≡ soma dos elementos (𝑖, 𝑗) das matrizes 𝐴𝐶 e 𝐵𝐶. Ã ((𝐴𝐶 + 𝐵𝐶))𝑖𝑗 = (𝐴𝐶)𝑖𝑗 + (𝐵𝐶)𝑖𝑗 =
𝑝 ∑ 𝑘=1
𝑝 ∑
𝑎𝑖𝑘 𝑐𝑘𝑗
+
à 𝑝 ∑
) 𝑏𝑖𝑘 𝑐𝑘𝑗
=
𝑘=1
𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗 = ((𝐴 + 𝐵)𝐶)𝑖𝑗
𝑘=1
(b) Associatividade, 𝐴(𝐵𝐶) = (𝐴𝐵)𝐶 Seja 𝐷 = 𝐵𝐶 32
)
(3)
- elemento (𝑘, 𝑗) de 𝐷: 𝑑𝑘𝑗 =
𝑞 ∑
𝑏𝑘𝑙 𝑐𝑙𝑗
(4)
𝑙=1
- elemento (𝑖, 𝑗) de 𝐴𝐷: (𝐴𝐷)𝑖𝑗 =
𝑝 ∑
𝑎𝑖𝑘 𝑑𝑘𝑗
(5)
𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗
(6)
𝑘=1
Substituindo (4) em (5): (𝐴𝐷)𝑖𝑗 =
𝑝 ∑ 𝑝 ∑ 𝑘=1 𝑙=1
Seja 𝑍 = 𝐴𝐵 ≡ elemento (𝑖, 𝑗) de (𝐴𝐵)𝐶:
((𝐴𝐵)𝐶)𝑖𝑗 = (𝑍𝐶)𝑖𝑗 =
𝑞 ∑
𝑧𝑖𝑙 𝑐𝑙𝑗 =
𝑙=1
2
à 𝑝 𝑞 ∑ ∑ 𝑙=1
) 𝑎𝑖𝑘 𝑏𝑘𝑙
𝑐𝑙𝑗 =
𝑘=1
𝑞 ∑ 𝑝 ∑
𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗 = (𝐴(𝐵𝐶))𝑖𝑗
𝑙=1 𝑘=1
Lista 2 - Distribuição Normal Multivariada 1. Utilizando a função Matlab (que gera amostras aleatórias normais multivariadas): 𝑋𝑖 = mvnrnd(𝜇, Σ, 𝑛), 𝑖 = 1, 2, 3, . . . sendo: 𝜇 = [4.5 6.0 8.5 10.0 12.5 15.0] o vetor de médias, ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ Σ=⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
⎤ 15.0000
1.5000
3.0000
2.3000
5.1000
1.5000 13.0000
2.7000
3.6000
4.7000
3.0000
2.7000 13.9000
5.2000
6.2000
2.3000
3.6000
5.2000 25.0000
3.1000
5.1000
4.7000
6.2000
3.1000 36.0000
0.9000
2.8000
3.2000
5.2000
4.8000
0.9000
⎥ ⎥ 2.8000 ⎥ ⎥ ⎥ 3.2000 ⎥ ⎥ ⎥ 5.2000 ⎥ ⎥ ⎥ 4.8000 ⎥ ⎦ 48.0000
a matriz de covariâncias e 𝑛 o tamanho das amostras, gerar as amostras aleatórias normais multivariadas 𝑋1 , 𝑋2 e 𝑋3 do vetor de médias 𝜇 e Σ a matriz de covariâncias com tamanho: (a) 𝑛 = 10, calculando em seguida, para 𝑋1 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> MI=[4.5 6 8.5 10 12.5 15] MI = 4.5000
6.0000
8.5000
10.0000 33
12.5000
15.0000
>> Cov=[15 1.5 3.0
2.3
5.1
0.9;
1.5
13.0
2.7
3.6
Cov = 15.0000
1.5000
3.0000
2.3000
5.1000
0.9000
1.5000
13.0000
2.7000
3.6000
4.7000
2.8000
3.0000
2.7000
13.9000
5.2000
6.2000
3.2000
2.3000
3.6000
5.2000
25.0000
3.1000
5.2000
5.1000
4.7000
6.2000
3.1000
36.0000
4.8000
0.9000
2.8000
3.2000
5.2000
4.8000
48.0000
>> X1=mvnrnd(MI,Cov,10) X1 = 6.5824
1.3693
10.4200
14.0294
11.8459
9.3273
11.6026
17.5895
7.6237
7.1229
15.6737
16.4204
-4.2485
7.7255
9.8072
5.0986
13.0840
6.6432
7.8392
6.1079
14.9699
8.4866
17.3463
8.2866
5.7346
8.6856
10.9781
-2.5282
9.6254
13.2773
-0.5647
4.7588
11.0591
17.0322
11.5824
26.7321
2.8207
5.3871
10.6869
12.0000
11.7389
10.2523
5.8270
11.4728
8.6750
7.6792
17.8671
18.2602
18.3591
12.4369
13.2687
20.2792
25.2909
17.1399
15.2260
12.1528
8.7717
3.9651
23.1206
23.0164
8.7686
10.6260
9.3165
15.7175
14.9356
46.9874
18.2327
1.3555
6.9462
28.3493
12.9910
18.2327
22.2742
-4.3880
-7.6632
13.6887
10.4479
1.3555
-4.3880
4.7934
5.2097
1.4845
-4.0889
6.9462
-7.6632
5.2097
44.8926
9.2218
9.3750
28.3493
13.6887
1.4845
9.2218
27.2998
11.1871
12.9910
10.4479
-4.0889
9.3750
11.1871
43.5201
>> mean(X1) ans = 6.9178 >> S=cov(X1) S =
Para 𝑛 = 10, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆 têm seus valores bem distantes dos valores originais do vetor de médias 𝜇 e da matriz 34
4.7
2.8;
3
de covariâncias Σ, respectivamente. (b) 𝑛 = 100, calculando em seguida, para 𝑋2 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> X2=mvnrnd(MI,Cov,100); >> mean(X2) ans = 4.5417
7.0864
8.6808
10.0058
13.0134
14.8672
14.6431
2.7541
3.6464
3.1158
5.3392
-1.2280
2.7541
13.6900
3.0848
3.5469
6.8503
0.3377
3.6464
3.0848
13.7587
6.0858
4.9247
5.7381
3.1158
3.5469
6.0858
26.5766
6.0904
6.3325
5.3392
6.8503
4.9247
6.0904
33.3137
2.5282
-1.2280
0.3377
5.7381
6.3325
2.5282
41.0911
>> S2=cov(X2) S2 =
Para 𝑛 = 100, o vetor de médias X tem seus valores bem próximos do vetor de médias𝜇, diferindo em apenas algumas unidades. Quanto a matriz de covariâncias amostrais 𝑆 seus valores estão bem distantes dos valores originais da matriz de covariâncias Σ. (c) 𝑛 = 1000, calculando em seguida, para 𝑋3 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> X3=mvnrnd(MI,Cov,1000); >> mean(X3) ans = 4.4758
6.1065
8.5225
9.8296
12.4343
14.8078
14.4039
1.5281
2.7079
2.1403
3.7544
0.6423
1.5281
11.8247
2.6428
2.5697
4.0056
4.2034
2.7079
2.6428
12.7488
4.3487
5.2230
3.1401
>> S3=cov(X3) S3 =
35
2.1403
2.5697
4.3487
24.2446
2.5543
7.5897
3.7544
4.0056
5.2230
2.5543
32.5033
3.3190
0.6423
4.2034
3.1401
7.5897
3.3190
46.9719
Para 𝑛 = 1000, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆 têm seus valores bem próximos dos valores originais do vetor de médias 𝜇 e da matriz de covariâncias Σ, respectivamente. (d) Para os itens (a), (b) e (c) verificar a normalidade de cada amostra. Usar: function [ d2,q2 ] = normult( x ) %d2 = distâncias quadráticas %q2 = qui-quadrado %x= amostra multivariada %função destinada a averiguar a normalidade multivariada %Qual a dimensão de x? [n,p]=size(x); m=mean(x); S=cov(x); % cálculo das distâncias generalizadas, d2 for i=1:n d2(i)=(x(i,:)-m)*inv(S)*(x(i,:)-m)’; end %ordem crescente d2=sort(d2); %calculo dos q2 for i=1:n q2(i)=chi2inv(((i-0.5)/n),p); end q2 %grafico plot(d2,q2,’*K’) xlabel(’d^2’) ylabel(’chi^2’) grid 36
end
Para o item (a) [
Ã
𝑑2𝑗 , 𝜒26
𝑗 − 12 10
)] =
q2 = 1.6354
2.6613
3.4546
4.1973
4.9519
5.7652
6.6948
7.8408
9.4461
12.5916
3.3036
4.4551
4.8674
5.3506
5.6743
6.5874
6.6517
7.2706
7.3091
ans = 2.5302
14
12
10
chi
2
8
6
4
2
0 2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
7.5
2
d
Para o item (b) [
Ã
𝑑2𝑗 , 𝜒26
𝑗 − 12 100
)] =
>> normult(X2); q2 = 0.6757
1.0160
1.2373
1.4140
1.5659 ... 14.4494
0.9080
1.2236
1.6460 ... 13.0529
15.7774
18.5476
16.1014
18.2444
ans = 0.8834
37
14.7759
20 18 16 14
chi
2
12 10 8 6 4 2 0
0
5
10
15
20
2
d
Para o item (c) Ã
[ 𝑑2𝑗 , 𝜒26
𝑗 − 12 1000
)] =
q2 = 0.2994
0.4394
0.5266
0.5940
0.6504 ... 19.4271
20.2494
21.4857
24.1028
0.6709
0.7719
0.7788
0.9040 ... 19.6546
20.1195
20.5514
20.7033
5
10
ans = 0.4914
25
20
chi
2
15
10
5
0
0
15
20
25
2
d
2. Uma amostra aleatória de 𝑛 = 70 indivíduos do vetor aleatório: X = [𝑋1 , 𝑋2 , 𝑋3 ]′ , onde: 𝑋1 = idade (anos), 𝑋2 = peso (kg) e 𝑋3 = altura (cm), é dada a seguir:
38
𝑋1
𝑋2
𝑋3
29
71
170
25
65
158
30
69
170
31
69
175
27
61
155
34
72
172
34
73
176
30
71
174
31
77
177
31
69
165
29
72
172
32
75
178
28
73
174
37
71
173
30
71
170
30
71
170
33
68
169
30
67
171
30
74
174
28
67
161
31
72
175
26
67
161
32
69
170
35
72
173
28
70
171
33
68
171
34
77
180
25
68
159
26
63
159
32
70
176
29
64
165
39
32
62
156
32
76
179
32
70
168
34
75
175
32
73
171
34
73
177
26
63
157
30
66
165
30
68
166
25
61
154
31
66
167
27
74
175
34
74
184
28
63
155
32
71
169
31
66
168
27
62
157
23
63
154
30
74
176
27
68
171
32
74
179
32
66
172
35
72
177
32
70
177
28
63
159
31
65
161
27
72
170
30
70
174
30
67
163
30
73
176
29
70
168
33
68
172
24
71
165
40
31
72
174
33
79
176
32
77
178
32
68
170
30
65
162
32
71
177
Verificar a normalidade do vetor aleatório X. ) Ã 1 𝑗 − 2 2 𝑑2𝑗 𝜒3 70 >> normult(X) d2 = Columns 1 through 11 0.2556
0.3173
0.3326
0.3326
0.4465
1.4144
1.5191
1.6057
1.7103
1.7106
1.7351
2.0073
2.0530
2.1582
2.4649
2.5009
2.5071
3.1679
3.1837
3.1871
3.6705
3.6872
3.7317
5.5681
5.6340
5.9425
7.7218
7.8503
9.3072
0.4606
0.6031
0.6491
0.7674
0.8370
1.0962
1.7416
1.7570
1.8258
1.8387
1.8826
1.9208
2.6760
2.7943
2.8713
2.9153
3.0750
3.0953
3.8597
3.9231
4.0450
4.2108
4.2481
4.5922
Columns 12 through 16 1.1121
1.1979
Columns 17 through 27 1.6646
1.6969
Columns 28 through 32 1.9396
1.9992
Columns 33 through 43 2.3807
2.4055
Columns 44 through 48 3.1039
3.1289
Columns 49 through 59 3.2703
3.6031
Columns 60 through 64 5.0297
5.3688
Columns 65 through 70 6.0255
6.8449
41
10.8191
14
12
10
chi
2
8
6
4
2
0
0
2
4
6
8
10
12
2
d
3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza, 𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 50 bordas de chapas. A primeira medida envolve a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos. >> Y=[1949
1842
1666
1437;1814
1898
1865
1635
1500;1867
2022
1929
1760
1494]
1719 1783
Y = 1949
1842
1666
1437
1814
1719
1647
1388
1901
1893
1668
1527
2084
1916
1808
1489
1991
1894
1753
1481
2030
1919
1640
1491
2076
1934
1666
1586
1830
1816
1605
1444
1948
1855
1661
1436
1944
1782
1632
1415
1919
1799
1667
1523
1985
1903
1671
1571
2122
1912
1701
1592
1997
1881
1682
1447
2098
1913
1724
1517
1944
1807
1654
1457
2001
1849
1715
1500
1937
1842
1683
1450
2047
1937
1660
1482
1980
1882
1714
1474
42
1647 1614
1388;1901 1450;1944
1893 1833
1668 1579
1 1495
2038
1977
1776
1569
2053
1920
1744
1607
1994
1820
1709
1488
2071
1944
1747
1517
2185
2017
1766
1597
2042
1942
1723
1501
1999
1924
1618
1576
2073
2009
1785
1586
2004
1875
1693
1448
1911
1859
1641
1444
2039
1923
1694
1565
2000
1871
1644
1507
1978
1993
1740
1534
2102
1950
1758
1470
2149
1921
1725
1547
1958
1963
1704
1532
2008
1921
1711
1483
1935
1804
1634
1424
2054
1964
1705
1521
1811
1848
1689
1406
2079
1904
1733
1516
2018
1917
1761
1519
2021
1906
1688
1558
2097
1901
1676
1528
1978
1946
1750
1486
1989
1893
1696
1558
1898
1865
1635
1500
1867
1783
1614
1450
1944
1833
1579
1495
2022
1929
1760
1494
Verificar a normalidade do vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 ]′ . Ã ) 1 𝑗 − 2 𝑑2𝑗 𝜒24 50 d2
q2
0.7185
0.2971
1.1178
0.5351
1.1429
0.7107
1.3561
0.8616
1.3988
0.9987
1.5479
1.1268
1.5542
1.2488
1.5869
1.3665
1.6037
1.4810
1.8767
1.5933
1.9487
1.7039
43
1.9792
1.8136
2.1394
1.9226
2.2011
2.0313
2.2267
2.1402
2.2886
2.2494
2.3910
2.3593
2.4764
2.4701
2.5079
2.5821
2.5619
2.6955
2.5626
2.8106
2.5688
2.9277
3.0283
3.0469
3.1915
3.1687
3.4710
3.2933
3.6621
3.4209
3.7459
3.5521
3.8643
3.6871
4.2957
3.8265
4.4187
3.9706
4.5159
4.1201
4.5229
4.2755
4.9482
4.4377
5.0309
4.6074
5.0393
4.7857
5.1432
4.9738
5.2379
5.1730
5.3510
5.3853
5.6204
5.6127
5.8405
5.8581
5.9066
6.1251
5.9812
6.4185
6.0689
6.7449
6.9324
7.1137
7.0571
7.5390
7.3377
8.0434
7.5011
8.6664
7.5174
9.4877
9.1262
10.7119
9.8881
13.2767
44
14
12
10
chi
2
8
6
4
2
0
0
2
4
6
8
10
2
d
4. Representar graficamente uma distribuição ⎡ ⎤ normal bivariada com vetor de médias 𝜇 = 4 0 ⎦. [10 15]′ e matriz covariância Σ = ⎣ 0 9 Como 𝜇1 = 10, 𝜇2 = 15, 𝜎1 = 2 e 𝜎2 = 3, temos
− 1 𝑓 (𝑥1 ) = √ 𝑒 2 2𝜋
e − 1 𝑓 (𝑥2 ) = √ 𝑒 3 2𝜋
(𝑥1 − 10)2 2 ⋅ 22
(𝑥2 − 15)2 2 ⋅ 32
logo a f.d.p. conjunta é dada por:
𝑓 (𝑥1 , 𝑥2 ) = 𝑓 (𝑥1 ) ⋅ 𝑓 (𝑥2 ) (𝑥1 − 10)2 (𝑥2 − 15)2 − − 1 1 2 ⋅ 22 2 ⋅ 32 √ 𝑒 = ⋅ √ 𝑒 2 2𝜋 ⎡ 3 2𝜋 ⎤ (𝑥1 − 10)2 (𝑥2 − 15)2 ⎦ + −⎣ 1 8 18 = 𝑒 12𝜋 >> x1=3:0.1:17; >> x2=10:0.1:24; >> [x1,x2]=meshgrid(x1,x2); >> z=(1/(12*pi))*exp(((-1/8)*(x1-10).^2)+(-(1/18)*(x2-15).^2)); >> mesh(x1,x2,z) 45
0.03 0.025 0.02 0.015 0.01 0.005 0 25 20
20
15 10
15 5 10
0
⎡
⎤ 1
⎢ ⎢ 5. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = [−3, 1, 4]′ e Σ = ⎢ −2 ⎣ 0 iáveis são independentes? Justifique.
−2 0 5 0
⎥ ⎥ 0 ⎥. Quais das seguintes var⎦ 2
Substituir a matriz de covariância pela matriz de correlação >> S=[1 -2 0;-2 5 0;0 0 2] S = 1
-2
0
-2
5
0
0
0
2
>> V=diag(diag(S)) V = 1
0
0
0
5
0
0
0
2
>> RV=sqrtm(V) RV = 1.0000
0
0
0
2.2361
0 46
0
0
1.4142
1.0000
0
0
0
0.4472
0
0
0
0.7071
1.0000
-0.8944
0
-0.8944
1.0000
0
0
0
1.0000
>> IRV=inv(RV) IRV =
>> R=IRV*S*IRV R =
A matriz de correlação nos dá justamente a relação de dependência entre as variáveis, logo (a) 𝑋1 e 𝑋2 são dependestes, pois 𝜌12 = 𝜌21 ∕= 0. (b) 𝑋2 e 𝑋3 são independentes, pois 𝜌23 = 𝜌32 = 0. ⎡
⎤
⎡
𝜇1
𝜎12
⎤ 𝜎12 𝜎13
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ 6. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = ⎢ 𝜇2 ⎥ e Σ = ⎢ 𝜎21 𝜎22 𝜎23 ⎥. Determine a f.d.p. ⎣ ⎦ ⎣ ⎦ 𝜇3 𝜎31 𝜎32 𝜎32 𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) padronizada. 𝜎13 𝜎12 e 𝜌13 = ∴ 𝜎12 = 𝜎21 = 𝜌12 𝜎1 𝜎2 , 𝜎13 = 𝜎31 = 𝜌13 𝜎1 𝜎3 Como 𝜌12 = 𝜎1 𝜎2 𝜎1 𝜎3 ⎡ ⎤ 𝜎12 𝜌12 𝜎1 𝜎2 𝜌13 𝜎1 𝜎3 ⎢ ⎥ ⎢ ⎥ 2 e 𝜎23 = 𝜎32 = 𝜌23 𝜎2 𝜎3 , tem-se a matriz de correlação: 𝑅 = ⎢ 𝜌12 𝜎1 𝜎2 𝜎2 𝜌23 𝜎2 𝜎3 ⎥ ⎣ ⎦ 2 𝜌13 𝜎1 𝜎3 𝜌23 𝜎2 𝜎3 𝜎3 Ã
3
1∑ 𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) = √ exp − 2 (2𝜋)3 𝜎1 𝜎2 𝜎3 𝑖=1 1
(
𝑥𝑖 − 𝑢𝑖 𝜎𝑖
)2 )
ou em notação matricial [ ] 1 1 ′ −1 𝑓 (𝑥) = √ exp − (𝑥 − 𝜇) Σ (𝑥 − 𝜇) 1 2 (2𝜋)3 ∣Σ∣ 2 A fdp normal padronizada pode ser obtida fazendo-se 𝑧𝑖 =
47
𝑥𝑖 − 𝜇𝑖 𝜎𝑖
3
Lista 3 - Inferência sobre o vetor de médias e MANOVA 1. Para o problema 2 da lista 2, testar a hipótese: 𝐻0 : 𝜇 = [30 60 170]′ contra a alternativa 𝐻1: 𝜇 ∕= [30 60 170]′ , aos níveis de significância: (a) de 1%; Temos que 𝐻0 : 𝜇 = [30 60 170]′ , 𝐻1: 𝜇 ∕= [30 60 170]′ , 𝑛 = 70, assim >>
X=[ 29
71
170;
25
65
158;
30
69
170;31
69
175;
27
61
155;
34
72
172;
34
73
176;
30
71
174;
31
77
177;
31
69
165;
29
72
172;
32
75
178;
28
73
174;
37
71
173;
30
71
170;
30
71
170;
33
68
169;
30
67
171;
30
74
174;
28
67
161;
31
72
175;
26
67
161;
32
69
170;
35
72
173;
28
70
171;
33
68
171;
34
77
180;
25
68
159;
26
63
159;
32
70
176;
29
64
165;
32
62
156;
32
76
179;
32
70
168;
34
75
175;
32
73
171;
34
73
177;
26
63
157;
30
66
165;
30
68
166;
25
61
154;
31
66
167;
27
74
175;
34
74
184;
28
63
155;
32
71
169;
31
66
168;
27
62
157;
23
63
154;
30
74
176;
27
68
171;
32
74
179;
32
66
172;
35
72
177;
32
70
177;
28
63
159;
31
65
161;
27
72
170;
30
70
174;
30
67
163;
30
73
176;
29
70
168;
33
68
172;
24
71
165;
31
72
174;
33
79
176;
32
77
178;
32
68
170;
30
65
162;
32
71
177];
>> mi=mean(X) mi = 30.2857
69.5286
169.4000
Sem o uso do computador usaríamos assim: >> S=(1/2)*((X(1,:)-mi)’*(X(1,:)-mi)+(X(2,:)-mi)’*(X(2,:)-mi)+(X(3,:)-mi)’*(X(3,:)-mi))... Com o uso do Matlab, faz-se: >> S=cov(X) S = 8.2070
6.1222
13.9855
6.1222
17.9340
27.0464
13.9855
27.0464
53.6638
>> InvS=inv(S) InvS = 0.2292
0.0494
-0.0846
0.0494
0.2430
-0.1354
-0.0846
-0.1354
0.1089
Logo >> T2=70*((mi-([30 60 170]))*InvS*(mi-([30 60 170]))’) T2 = 1.6779e+003
48
Como >> F=(((70-1)*3)/(70-3))*finv(0.99,3,67) F = 12.6306 Como 𝑇 2 é maior que 𝐹 então, rejeita-se 𝐻0 , portanto 𝜇 é diferente de [30 60 170]′ (b) de 5%. >> F=(((70-1)*3)/(70-3))*finv(0.95,3,67) F = 8.4702
Com 5% de significância, temos que, 𝐹 = 12.6306, logo 𝑇 2 > 𝐹2,1 (0, 05), sendo assim, rejeitamos a hipótese de que 𝜇 = 𝜇0 . 2. A transpiração de 20 mulheres sadias foram analisadas. Três componentes, 𝑋1 = taxa de suor, 𝑋2 = conteúdo de sódio e 𝑋3 = conteúdo de potássio, foram medidos, e os resultados, aos quais chamamos “dados do suor”, são apresentados na tabela seguinte: Identificação
𝑋1
𝑋2
𝑋3
1
3.7
48.5
9.3
2
5.7
65.1
8
3
3.8
47.2
10.9
4
3.2
53.2
12
5
3.1
55.5
9.7
6
4.6
36.1
7.9
7
2.4
24.8
14
8
7.2
33.1
7.6
9
6.7
47.4
8.5
10
5.4
54.1
11.3
11
3.9
36.9
12.7
12
4.5
58.8
12.3
13
3.5
27.8
9.8
14
4.5
40.2
8.4
15
1.5
13.5
10.1
49
16
8.5
56.4
7.1
17
4.5
71.6
8.2
18
6.5
52.8
10.9
19
4.1
44.1
11.2
20
5.5
40.9
9.4
Testar a hipótese: 𝐻0 : 𝜇 = [4 50 10]’ contra a alternativa 𝐻1 : 𝜇 ∕= [4 50 10]’, ao nível de significância de 1%. >> M=[3.7
48.5
9.3;5.7 65.1
4.6 36.1
7.9;2.4 24.8
3.9 36.9
12.7;4.5
8.5
56.4
8.0;3.8 47.2 14.0;7.2
58.8
7.1;4.5 71.6
33.1
12.3;3.5 8.2;6.5 52.8
M = 3.7000
48.5000
9.3000
5.7000
65.1000
8.0000
3.8000
47.2000
10.9000
3.2000
53.2000
12.0000
3.1000
55.5000
9.7000
4.6000
36.1000
7.9000
2.4000
24.8000
14.0000
7.2000
33.1000
7.6000
6.7000
47.4000
8.5000
5.4000
54.1000
11.3000
3.9000
36.9000
12.7000
4.5000
58.8000
12.3000
3.5000
27.8000
9.8000
4.5000
40.2000
8.4000
1.5000
13.5000
10.1000
8.5000
56.4000
7.1000
4.5000
71.6000
8.2000
6.5000
52.8000
10.9000
4.1000
44.1000
11.2000
5.5000
40.9000
9.4000
10.9;3.2
>> Vmi=mean(M) 50
53.2
7.6;6.7 47.4
27.8
12.0;3.1 8.5;5.4 54.1
9.8;4.5 40.2
10.9;4.1
44.1
55.5 11.3;
8.4;1.5 13.5 11.2;5.5
9.7;
40.9
10.1; 9.4];
Vmi = 4.6400
45.4000
9.9650
2.8794
10.0100
-1.8091
10.0100
199.7884
-5.6400
-1.8091
-5.6400
3.6277
>> S=cov(M) S =
>> InvS=inv(S) InvS = 0.5862
-0.0221
0.2580
-0.0221
0.0061
-0.0016
0.2580
-0.0016
0.4018
>> T2=20*((Vmi-H0)*InvS*(Vmi-H0)’) T2 = 9.7388 Sabendo que 𝐻0 : 𝜇 = [4 50 10]′ , 𝐻1: 𝜇 ∕= [4 50 10]′ , 𝑛 = 20,
>> F=(((20-1)*3)/(20-3))*finv(0.99,3,17) F = 17.3850 (𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝 ℱ3,17 (0.01) = 17.3850, logo 𝑇 2 < ℱ3,17 (0.01), sendo assim, 𝑛−𝑝 𝑛−𝑝 aceita-se 𝐻0 , ou seja, com 1% de significância aceitamos a hipótese de que 𝜇 = [4 50 10]′ . Temos que
3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza, 𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 30 bordas de chapas. A primeira medida envolve a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos. Observações
𝑋1
𝑋2
51
𝑋3
𝑋4
1
1874
1722
1420
1371
2
1535
1393
1299
1220
3
1754
1566
1296
1309
4
2211
2069
1742
1599
5
1977
1903
1533
1545
6
2076
1832
1524
1513
7
2189
1972
1633
1620
8
1576
1376
1245
1184
9
1871
1732
1542
1408
10
1859
1520
1436
1382
11
1796
1687
1586
1417
12
1964
1783
1555
1550
13
2304
2083
1668
1651
14
1992
1874
1623
1605
15
2245
1997
1773
1711
16
1861
1669
1531
1339
17
2002
1717
1622
1422
18
1843
1553
1580
1378
19
2117
1856
1612
1542
20
1950
1775
1597
1479
21
2096
1848
1654
1584
22
2134
1829
1606
1519
23
1984
1857
1826
1525
24
2178
1909
1683
1585
25
2462
2203
1783
1758
26
2105
1892
1849
1614
27
1998
1781
1625
1544
28
2183
1986
1626
1622
29
2011
1792
1664
1445
30
1779
1496
1534
1389
Testar a hipótese: 𝐻0 : 𝜇 = [2000 1700 1500 1400]’, ao nível de significância de 5%. Temos que 52
𝐻0 : 𝜇 = [2000 1700 1500 1400]’, 𝐻1: 𝜇 ∕= [2000 1700 1500 1400]′ , 𝑛 = 30, >> Mi_O=mean(O) Media = 1.0e+003 * 1.9975
1.7891
1.5889
1.4943
4.1962
3.8593
2.3421
2.6239
3.8593
3.9383
2.2569
2.5497
2.3421
2.2569
2.0993
1.6417
2.6239
2.5497
1.6417
1.8725
0.2922
-0.1788
-0.0126
-0.1549
-0.1788
0.3241
0.0007
-0.1914
-0.0126
0.0007
0.1523
-0.1169
-0.1549
-0.1914
-0.1169
0.6336
>> S=cov(O) S = 1.0e+004 *
>> IS=inv(S) IS = 1.0e-003 *
>> T2=30*((Media-([2000 1700 1500 1400]))*IS*(Media-([2000 1700 1500 1400]))’) T2 = 132.1786 >> F=(((30-1)*4)/(30-4))*finv(0.95,4,26) F = 12.2362
(𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝 ℱ4,26 (0.05) = 12.2362, logo 𝑇 2 > ℱ4,26 (0.05), sendo assim, 𝑛−𝑝 𝑛−𝑝 rejeita-se 𝐻0 , ou seja, com 5% de significância rejeitamos a hipótese de que 𝜇 = 𝜇0 . Temos que
4. As amostras de tamanhos 𝑛1 = 60 e 𝑛2 = 75 foram obtidas das avaliações de 4 disciplinas (Matemática, História, Geografia e Ciências) das Escolas A e B, resultando nos vetores 53
[ de médias: x ¯1 =
]′ 5.0 7.0 6.5 7.5
[ ex ¯2 =
]′ 6.0 6.5 7.5 6.0
e nas matrizes de
covariâncias: ⎡
⎤ 1.00 0.20 0.30 0.28
⎡
⎤ 1.00 0.18 0.24 0.24
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0.20 0.25 0.27 0.12 ⎥ ⎢ 0.18 0.36 0.19 0.17 ⎥ ⎥ e 𝑆2 = ⎢ ⎥ 𝑆1 = ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ 0.30 0.27 0.36 0.12 ⎥ ⎢ 0.24 0.19 0.16 0.08 ⎥ ⎣ ⎦ ⎣ ⎦ 0.28 0.12 0.12 0.16 0.24 0.17 0.08 0.16 Testar a hipótese: 𝐻0 : 𝜇1 = 𝜇2 contra a alternativa 𝐻1 : 𝜇1 ∕= 𝜇2 , ao nível de significância de 5%, considerando que Σ1 = Σ2 . >> x1=[5 7 6.5 7.5] x1 = 5.0000
7.0000
6.5000
7.5000
7.5000
6.0000
>> x2=[6 6.5 7.5 6] x2 = 6.0000
6.5000
>> S1=[]; >> S2=[]; Calcular a matriz de covariância ponderada >> Sp=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2) Sp = 1.0000
0.1889
0.2666
0.2577
0.1889
0.3112
0.2255
0.1478
0.2666
0.2255
0.2487
0.0977
0.2577
0.1478
0.0977
0.1600
>> T2=(x1-x2)*(inv(9/300*(Sp)))*(x1-x2)’ T2 = 1.4616e+003 >> Fteste=(T2*(120+100-3-1))/((120+100-2)*3) F = 9.6959 >> F=finv(0.95,4,130) 54
F = 2.4414 (𝑛1 + 𝑛2 − 2) ⋅ 𝑝 (𝑛1 + 𝑛2 − 2) ⋅ 𝑝 ℱ4,130 (0.05) = 2.4414, logo 𝐹𝑒𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑜 > ℱ4,130 (0.05), 𝑛1 + 𝑛2 − 𝑝 − 1 𝑛1 + 𝑛2 − 𝑝 − 1 sendo assim, rejeita-se 𝐻0 , ou seja, com 5% de significância a hipótese 𝐻0 : 𝑚𝑢1 = 𝜇2 é
Temos que
rejeitada. 5. Observações com duas respostas (variáveis) foram obtidas para três tratamentos. Os vetores observados foram: ⎤ ⎡
⎡ Tratamento 1:
⎣
6
⎦, ⎣
Tratamento 2:
⎣
⎤ ⎡ 3
⎦, ⎣
3 ⎡ Tratamento 3:
⎣
1
⎦, ⎣
⎦, ⎣
2
⎦, ⎣
⎦, ⎣
⎤ ⎡ 7
⎦, ⎣
9
⎤ 6
⎦;
8
⎤ 1
⎦;
4 ⎤ ⎡
3
⎦, ⎣
9
3
1
⎤ ⎡ 4
⎤ ⎡
⎤ ⎡ 5
⎦, ⎣
6
6
3
⎤ ⎡ 8
⎤ ⎡
⎤ ⎡ 2
⎦, ⎣
9
7 ⎡
⎤ ⎡ 5
⎦, ⎣
1
⎤ ⎡ 2 3
⎦, ⎣
⎤ 4
⎦.
2
Aplicar a MANOVA para testar a igualdade de tratamentos, usando um nível de significância de 5%. Repita o teste usando o qui-quadrado aproximado de Bartlett. Compare os resultados. >> T1=[6 7;5 9;8 6;4 9;7 9;6 8] T1 = 6
7
5
9
8
6
4
9
7
9
6
8
>> T2=[3 3;1 6;2 3;1 4] T2 = 3
3
1
6
2
3
1
4
>> T3=[2 3;5 1;3 1;2 3;4 2] 55
T3 = 2
3
5
1
3
1
2
3
4
2
Calcular a média de cada amostra >> x1=mean(T1) x1 = 6
8
>> x2=mean(T2) x2 = 1.7500
4.0000
>> x3=mean(T3) x3 = 3.2000
2.0000
Calcular a média ponderada global >> xg=(6*x1+4*x2+5*x3)/(15) xg = 3.9333
4.9333
>> B=6*(x1-xg)’*(x1-xg)+4*(x2-xg)’*(x2-xg)+5*(x3-xg)’*(x3-xg) B = 47.3833
56.9333
56.9333
102.9333
>> W=(T1(1,:)-x1)’*(T1(1,:)-x1)+(T1(2,:)-x1)’*(T1(2,:)-x1)+(T1(3,:)-x1)’*(T1(3,:)-x1)+ (T1(4,:)-x1)’*(T1(4,:)-x1)+(T1(5,:)-x1)’*(T1(5,:)-x1)+(T1(6,:)-x1)’*(T1(6,:)-x1)+ (T2(1,:)-x2)’*(T2(1,:)-x2)+(T2(2,:)-x2)’*(T2(2,:)-x2)+(T2(3,:)-x2)’*(T2(3,:)-x2)+ (T2(4,:)-x2)’*(T2(4,:)-x2)+(T3(1,:)-x3)’*(T3(1,:)-x3)+(T3(2,:)-x3)’*(T3(2,:)-x3)+ (T3(3,:)-x3)’*(T3(3,:)-x3)+(T3(4,:)-x3)’*(T3(4,:)-x3)+(T3(5,:)-x3)’*(T3(5,:)-x3) W = 19.5500
-13.0000
-13.0000
18.0000
>> B+W ans = 66.9333
43.9333 56
43.9333
120.9333
Lambda de Wilks >> L=det(W)/(det(B+W)) L = 0.0297 >> Fteste=((15-3-1)/(3-1))*((1-sqrt(L))/(sqrt(L))) Fteste = 26.4300 >> F=finv(0.95,4,22) F = 2.8167 Como 𝐹2(𝑔−1),2(𝑛−𝑔−1) = 𝐹4,22 = 2.8167 < 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 26.4300, então pelo menos um vetor de médias é diferente dos demais. Se fôssemos fazer a comparação por Barlett, teríamos (𝑛 − 1 −
𝑝+𝑔 2 ) ln Λ
𝑋𝑝2 (𝑔 − 1)
>> B=(15-1-(2+3))*log(L) B = -31.6584 >> X=chi2inv(0.95,4) X = 9.4877 6. Um pesquisador deseja testar a igualdade dos vetores médios de duas populações. Os resultados de suas pesquisas para o vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 ]′ forneceu as estatísticas: ⎡
⎤
⎡
44.3
⎤ 22.5
4.4
−3.9
95.7
10.2
−50.7
⎢ ⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ¯1 = ⎢ 𝑛1 = 120, X ⎢ 53.8 ⎥ , 𝑆1 = ⎢ 4.4 122.6 −17.5 ⎥ ⎣ ⎦ ⎣ ⎦ 60.5 −3.9 −17.5 214.7 ⎡
⎤
⎡
49.2
⎤
⎢ ⎥ ⎢ ⎥ ⎢ ¯2 = ⎢ 𝑛2 = 100, X ⎢ 56.5 ⎥ , 𝑆2 = ⎢ 10.2 152.7 ⎣ ⎦ ⎣ 65.2 −50.7 −7.1
⎥ ⎥ −7.1 ⎥ ⎦ 302.3
Qual seria sua conclusão ao nível de significância de 1%? Considerar que Σ1 = Σ2 . 𝐻0 : 𝜇1 = 𝜇2 57
𝐻0 : 𝜇1 ∕= 𝜇2
>> x1=[44.3 53.8 60.5] x1 = 44.3000
53.8000
60.5000
>> x2=[49.2 56.5 65.2] x2 = 49.2000
56.5000
65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7] S1 = s
22.5000
4.4000
-3.9000
4.4000
122.6000
-17.5000
-3.9000
-17.5000
214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3] S2 = 95.7000
10.2000
-50.7000
10.2000
152.7000
-7.1000
-50.7000
-7.1000
302.3000
>> Sp=(((120-1)*S1)+((100-1)*S2))/(120+100-2) Sp = 55.7422
7.0339
-25.1532
7.0339
136.2693
-12.7771
-25.1532
-12.7771
254.4817
>> T2=(x1-x2)*(inv(((1/120)+(1/100))*(Sp)))*(x1-x2)’ T2 = 36.4501 >> Fteste=(T2*(120+100-3-1))/((120+100-2)*3) Fteste = 12.0386 >> F=finv(0.99,3,216) F = 3.8735 Sendo 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 12.0386 maior que 𝐹3,216 (0.01) = 3.8735, então rejeita-se a hipótese 58
𝐻0 : 𝜇1 = 𝜇2 . Considerar que Σ1 ∕= Σ2 . 𝐻0 : 𝜇1 = 𝜇2 𝐻0 : 𝜇1 ∕= 𝜇2
>> x1=[44.3 53.8 60.5] x1 = 44.3000
53.8000
60.5000
>> x2=[49.2 56.5 65.2] x2 = 49.2000
56.5000
65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7] S1 = 22.5000
4.4000
-3.9000
4.4000
122.6000
-17.5000
-3.9000
-17.5000
214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3] S2 = 95.7000
10.2000
-50.7000
10.2000
152.7000
-7.1000
-50.7000
-7.1000
302.3000
>> (x1-x2)*inv(((1/120)*S1)+((1/100)*S2))*(x1-x2)’ ans = 33.9250 >> X=chi2inv(0.99,3) X = 11.3449 Ao nível de significância de 1%, considerando Σ1 ∕= Σ2 , rejeita-se a hipótese 𝐻0 onde considera-se 𝜇1 = 𝜇2 7. Para o problema 1 da lista 2, testar a igualdade dos vetores médios resultantes das amostras aleatórias obtidas (𝑛1 = 10, 𝑛2 = 100 e 𝑛3 = 1000). Qual seria sua conclusão ao nível de significância de 5%? 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 𝐻1 : Algum dos vetores difere dos outros Sigma =
59
15.0000
1.5000
3.0000
2.3000
5.1000
0.9000
1.5000
13.0000
2.7000
3.6000
4.7000
2.8000
3.0000
2.7000
13.9000
5.2000
6.2000
3.2000
2.3000
3.6000
5.2000
25.0000
3.1000
5.2000
5.1000
4.7000
6.2000
3.1000
36.0000
4.8000
0.9000
2.8000
3.2000
5.2000
4.8000
48.0000
>> mi=[4.5
6.0
8.5
10.0
12.5
15.0]
mi = 4.5000
6.0000
8.5000
10.0000
12.5000
15.0000
>> mx1=[6.9178 8.7686 10.6260 9.3165 15.7175 14.9356] mx1 = 6.9178
8.7686
10.6260
9.3165
15.7175
14.9356
>> mx2=[4.5417 7.0864 8.6808 10.0058 13.0134 14.8672] mx2 = 4.5417
7.0864
8.6808
10.0058
13.0134
14.8672
>> mx3=[4.4758 6.1065 8.5225 9.8296 12.4343 14.8078] mx3 = 4.4758
6.1065
8.5225
9.8296
12.4343
14.8078
>> X1=mvnrnd(mi,Sigma,10); >> S1=cov(X1); >> X2=mvnrnd(mi,Sigma,100); >> S2=cov(X2); >> X3=mvnrnd(mi,Sigma,1000); >> S3=cov(X3); >> Sp=((10-1)*S1+(100-1)*S2+(1000-1)*S3)/(10+100+1000-3) Sp = 15.6287
1.9193
3.0319
1.4114
5.1191
-0.5561
1.9193
13.0521
2.6940
3.2722
3.9318
3.3664
3.0319
2.6940
13.2001
4.4627
6.9650
2.0574
1.4114
3.2722
4.4627
24.2386
2.3232
5.1255
5.1191
3.9318
6.9650
2.3232
35.6304
4.9712
-0.5561
3.3664
2.0574
5.1255
4.9712
46.5597
>> X=[X1;X2;X3]; >> n=[10 100 1000] n = 10
100
1000
>> manova(X,n) *********************************** * AMOSTRAS MULTIVARIADAS - GRUPOS * *********************************** *********************************** *
E
MÉDIAS DOS GRUPOS
*
*********************************** X1 = 6.5824
1.3693
10.4200
14.0294
11.8459
9.3273
11.6026
17.5895
7.6237
7.1229
15.6737
16.4204
-4.2485
7.7255
9.8072
5.0986
13.0840
6.6432
7.8392
6.1079
14.9699
8.4866
17.3463
8.2866
60
5.7346
8.6856
10.9781
-2.5282
9.6254
13.2773
-0.5647
4.7588
11.0591
17.0322
11.5824
26.7321
2.8207
5.3871
10.6869
12.0000
11.7389
10.2523
5.8270
11.4728
8.6750
7.6792
17.8671
18.2602
18.3591
12.4369
13.2687
20.2792
25.2909
17.1399
15.2260
12.1528
8.7717
3.9651
23.1206
23.0164
xm1 = 6.9178 8.7686 10.6260 9.3165 15.7175 14.9356 xm2 = 4.1854 5.7971 8.0434 9.6145 12.3953 14.9631 xm3 = 4.5368 6.1124 8.6809 10.1606 12.5119 14.9485 ********************************** * FONTE DE VARIAÇÃO: TRATAMENTOS * ********************************** ********************************** *
MATRIZ B
*
********************************** 68.9232
74.2750
68.2612
-1.5521
80.6297
-0.8068
74.2750
80.4771
71.5727
-5.4796
88.9140
-0.7975
68.2612
71.5727
76.7049
15.8803
70.5974
-1.1282
-1.5521
-5.4796
15.8803
33.3743
-19.5365
-0.6119
80.6297
88.9140
70.5974
-19.5365
103.7436
-0.6089
-0.8068
-0.7975
-1.1282
-0.6119
-0.6089
0.0213
********************************** *
GRAUS DE LIBERDADE
*
********************************** 12
********************************** *
FONTE DE VARIAÇÃO: RESIDUAL
*
********************************** *
MATRIZ W
*
61
********************************** 1.0e+004 * 1.7301
0.2125
0.3356
0.1562
0.5667
-0.0616
0.2125
1.4449
0.2982
0.3622
0.4353
0.3727
0.3356
0.2982
1.4613
0.4940
0.7710
0.2278
0.1562
0.3622
0.4940
2.6832
0.2572
0.5674
0.5667
0.4353
0.7710
0.2572
3.9443
0.5503
-0.0616
0.3727
0.2278
0.5674
0.5503
5.1542
********************************** *
GRAUS DE LIBERDADE
*
********************************** 2204 ********************************** *
FONTE DE VARIAÇÃO: TOTAL
*
********************************** ********************************** *
MATRIZ B + W
*
********************************** 1.0e+004 * 1.7370
0.2199
0.3425
0.1561
0.5747
-0.0616
0.2199
1.4529
0.3054
0.3617
0.4441
0.3726
0.3425
0.3054
1.4689
0.4956
0.7781
0.2276
0.1561
0.3617
0.4956
2.6865
0.2552
0.5673
0.5747
0.4441
0.7781
0.2552
3.9547
0.5503
-0.0616
0.3726
0.2276
0.5673
0.5503
5.1542
********************************** *
GRAUS DE LIBERDADE
*
********************************** 2216 ********************************** *
LÂMBDA DE WILKS
*
********************************** 0.9864 ********************************** *
ESTATÍSTICA DO TESTE
*
********************************** F = 1.2615 ********************************** *
VALOR DE p
*
********************************** 0.2349
Como o teste 𝑝 = 0.2349 > 0.05 então, aceita-se a hipótese 𝐻0 : em que considera-se a igualdade dos vetores médios resultantes das amostras aleatórias. 8. A tabela seguinte mostra 9 variáveis referentes a 5 espécies de cães da Tailândia.
62
Ident.
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋6
𝑋7
𝑋8
𝑋9
Cães Modernos da Tailândia 1
123
10.1
23
23
19
7.8
32
33
5.6
2
137
9.6
19
22
19
7.8
32
40
5.8
3
121
10.2
18
21
21
7.9
35
38
6.2
4
130
10.7
24
22
20
7.9
32
37
5.9
5
149
12
25
25
21
8.4
35
43
6.6
6
125
9.5
23
20
20
7.8
33
37
6.3
7
126
9.1
20
22
19
7.5
32
35
5.5
8
125
9.7
19
19
19
7.5
32
37
6.2
9
121
9.6
22
20
18
7.6
31
35
5.3
10
122
8.9
10
20
19
7.6
31
35
5.7
11
115
9.3
19
19
20
7.8
33
34
6.5
12
112
9.1
19
20
19
6.6
30
33
5.1
13
124
9.3
21
21
18
7.1
30
36
5.5
14
128
9.6
22
21
19
7.5
32
38
5.8
15
130
8.4
23
20
19
7.3
31
40
5.8
16
127
10.5
25
23
20
8.7
32
35
6.1
Chacais Dourados 1
120
8.2
18
17
18
7
32
35
5.2
2
107
7.9
17
17
20
7
32
34
5.3
3
110
8.1
18
16
19
7.1
31
32
4.7
4
116
8.5
20
18
18
7.1
32
33
4.7
5
114
8.2
19
18
19
7.9
32
33
5.1
6
111
8.5
19
16
18
7.1
30
33
5
7
113
8.5
17
18
19
7.1
30
34
4.6
8
117
8.7
20
17
18
7
30
34
5.2
9
114
9.4
21
19
19
7.5
31
35
5.3
10
112
8.2
19
17
19
6.8
30
34
5.1
11
110
8.5
18
17
19
7
31
33
4.9
12
111
7.7
20
18
18
6.7
30
32
4.5
13
107
7.2
17
16
17
6
28
35
4.7
14
108
8.2
18
16
17
6.5
29
33
4.8
63
15
110
7.3
19
15
17
6.1
30
33
4.5
16
105
8.3
19
17
17
6.5
29
32
4.5
17
107
8.4
18
17
18
6.2
29
31
4.3
18
106
7.8
19
18
18
6.2
31
32
4.4
19
111
8.4
17
16
18
7
30
34
4.7
20
111
7.6
19
17
18
6.5
30
35
4.6
Cuons 1
123
9.7
22
21
20
7.8
27
36
6.1
2
135
11.8
25
21
23
8.9
31
38
7.1
3
138
11.4
25
25
22
9
30
38
7.3
4
141
10.8
26
25
21
8.1
29
39
6.6
5
135
11.2
25
25
21
8.5
29
39
6.7
6
136
11
22
24
22
8.1
31
39
6.8
7
131
10.4
23
23
23
8.7
30
36
6.8
8
137
10.6
25
24
21
8.3
28
38
6.5
9
135
10.5
25
25
21
8.4
29
39
6.9
10
131
10.9
25
24
21
8.5
29
35
6.2
11
130
11.3
22
23
21
8.7
29
37
7
12
144
10.8
24
26
22
8.9
30
42
7.1
13
139
10.9
26
23
22
8.7
30
39
6.9
14
123
9.8
23
22
10
8.1
26
34
5.6
15
137
11.3
27
26
23
8.7
30
39
6.5
16
128
10
22
23
22
8.7
29
37
6.6
17
122
9.9
22
22
20
8.2
26
36
5.7
Lobos Indianos 1
167
11.5
29
28
25
9.5
41
45
7.2
2
164
12.3
27
26
25
10
42
47
7.9
3
150
11.5
21
24
25
9.3
41
46
8.5
4
145
11.3
28
24
24
9.2
36
41
7.2
5
177
12.4
31
27
27
10.5
43
50
7.9
6
166
13.4
32
27
26
9.5
40
47
7.3
7
164
12.1
27
24
25
9.9
42
45
8.3
8
165
12.6
30
26
25
7.7
40
43
7.9
64
9
131
11.8
20
24
23
8.8
38
40
6.5
10
163
10.8
27
24
24
9.2
39
48
7
11
164
10.7
24
23
26
9.5
43
47
7.6
12
141
10.4
20
23
23
8.9
38
43
6
13
148
10.6
26
21
24
8.9
39
40
7
14
158
10.7
25
25
24
9.8
41
45
7.4
Cães Pré-históricos Tailandeses 1
112
10.1
17
18
19
7.7
31
33
5.8
2
115
10
18
23
20
7.8
33
36
6
3
136
11.9
22
25
21
8.5
36
39
7
4
111
9.9
19
20
18
7.3
29
34
5.3
5
130
11.2
23
27
20
9.1
35
35
6.6
6
125
10.7
19
26
20
8.4
33
37
6.3
7
132
9.6
19
20
19
9.7
35
38
6.6
8
121
10.7
21
23
19
7.9
32
35
6
9
122
9.8
22
23
18
7.9
32
35
6.1
19
124
9.5
20
24
19
7.6
32
37
6
Nota: As variáveis são 𝑋1 = comprimento da mandíbula; 𝑋2 = largura da mandíbula abaixo do primeiro molar; 𝑋3 = largura do côndilo articular; 𝑋4 = altura da mandíbula abaixo do primeiro molar; 𝑋5 = comprimento do primeiro molar; 𝑋6 = largura do primeiro molar; 𝑋7 = comprimento do primeiro ao terceiro molar, inclusive (primeiro ao segundo para o cuon); 𝑋8 = comprimento do primeiro ao quarto premolar, inclusive; 𝑋9 = largura do canino inferior.
(a) Através da MANOVA, testar a existência de diferenças significativas, ao nível de significância de 5%, entre tratamentos para as cinco raças de cães. >> Y=[Y1;Y2;Y3;Y4;Y5] Y = 123.0000
10.1000
23.0000
23.0000
19.0000
7.8000
32.0000
33.0000
5.6000
137.0000
9.6000
19.0000
22.0000
19.0000
7.8000
32.0000
40.0000
5.8000
121.0000
10.2000
18.0000
21.0000
21.0000
7.9000
35.0000
38.0000
6.2000
130.0000
10.7000
24.0000
22.0000
20.0000
7.9000
32.0000
37.0000
5.9000
149.0000
12.0000
25.0000
25.0000
21.0000
8.4000
35.0000
43.0000
6.6000
125.0000
9.5000
23.0000
20.0000
20.0000
7.8000
33.0000
37.0000
6.3000
126.0000
9.1000
20.0000
22.0000
19.0000
7.5000
32.0000
35.0000
5.5000
125.0000
9.7000
19.0000
19.0000
19.0000
7.5000
32.0000
37.0000
6.2000
121.0000
9.6000
22.0000
20.0000
18.0000
7.6000
31.0000
35.0000
5.3000
122.0000
8.9000
10.0000
20.0000
19.0000
7.6000
31.0000
35.0000
5.7000
65
115.0000
9.3000
19.0000
19.0000
20.0000
7.8000
33.0000
34.0000
6.5000
112.0000
9.1000
19.0000
20.0000
19.0000
6.6000
30.0000
33.0000
5.1000
124.0000
9.3000
21.0000
21.0000
18.0000
7.1000
30.0000
36.0000
5.5000
128.0000
9.6000
22.0000
21.0000
19.0000
7.5000
32.0000
38.0000
5.8000
130.0000
8.4000
23.0000
20.0000
19.0000
7.3000
31.0000
40.0000
5.8000
127.0000
10.5000
25.0000
23.0000
20.0000
8.7000
32.0000
35.0000
6.1000
120.0000
8.2000
18.0000
17.0000
18.0000
7.0000
32.0000
35.0000
5.2000
107.0000
7.9000
17.0000
17.0000
20.0000
7.0000
32.0000
34.0000
5.3000
110.0000
8.1000
18.0000
16.0000
19.0000
7.1000
31.0000
32.0000
4.7000
116.0000
8.5000
20.0000
18.0000
18.0000
7.1000
32.0000
33.0000
4.7000
114.0000
8.2000
19.0000
18.0000
19.0000
7.9000
32.0000
33.0000
5.1000
111.0000
8.5000
19.0000
16.0000
18.0000
7.1000
30.0000
33.0000
5.0000
113.0000
8.5000
17.0000
18.0000
19.0000
7.1000
30.0000
34.0000
4.6000
117.0000
8.7000
20.0000
17.0000
18.0000
7.0000
30.0000
34.0000
5.2000
114.0000
9.4000
21.0000
19.0000
19.0000
7.5000
31.0000
35.0000
5.3000
112.0000
8.2000
19.0000
17.0000
19.0000
6.8000
30.0000
34.0000
5.1000
110.0000
8.5000
18.0000
17.0000
19.0000
7.0000
31.0000
33.0000
4.9000
111.0000
7.7000
20.0000
18.0000
18.0000
6.7000
30.0000
32.0000
4.5000
107.0000
7.2000
17.0000
16.0000
17.0000
6.0000
28.0000
35.0000
4.7000
108.0000
8.2000
18.0000
16.0000
17.0000
6.5000
29.0000
33.0000
4.8000
110.0000
7.3000
19.0000
15.0000
17.0000
6.1000
30.0000
33.0000
4.5000
105.0000
8.3000
19.0000
17.0000
17.0000
6.5000
29.0000
32.0000
4.5000
107.0000
8.4000
18.0000
17.0000
18.0000
6.2000
29.0000
31.0000
4.3000
106.0000
7.8000
19.0000
18.0000
18.0000
6.2000
31.0000
32.0000
4.4000
111.0000
8.4000
17.0000
16.0000
18.0000
7.0000
30.0000
34.0000
4.7000
111.0000
7.6000
19.0000
17.0000
18.0000
6.5000
30.0000
35.0000
4.6000
123.0000
9.7000
22.0000
21.0000
20.0000
7.8000
27.0000
36.0000
6.1000
135.0000
11.8000
25.0000
21.0000
23.0000
8.9000
31.0000
38.0000
7.1000
138.0000
11.4000
25.0000
25.0000
22.0000
9.0000
30.0000
38.0000
7.3000
141.0000
10.8000
26.0000
25.0000
21.0000
8.1000
29.0000
39.0000
6.6000
135.0000
11.2000
25.0000
25.0000
21.0000
8.5000
29.0000
39.0000
6.7000
136.0000
11.0000
22.0000
24.0000
22.0000
8.1000
31.0000
39.0000
6.8000
131.0000
10.4000
23.0000
23.0000
23.0000
8.7000
30.0000
36.0000
6.8000
137.0000
10.6000
25.0000
24.0000
21.0000
8.3000
28.0000
38.0000
6.5000
135.0000
10.5000
25.0000
25.0000
21.0000
8.4000
29.0000
39.0000
6.9000
131.0000
10.9000
25.0000
24.0000
21.0000
8.5000
29.0000
35.0000
6.2000
130.0000
11.3000
22.0000
23.0000
21.0000
8.7000
29.0000
37.0000
7.0000
144.0000
10.8000
24.0000
26.0000
22.0000
8.9000
30.0000
42.0000
7.1000
139.0000
10.9000
26.0000
23.0000
22.0000
8.7000
30.0000
39.0000
6.9000
123.0000
9.8000
23.0000
22.0000
10.0000
8.1000
26.0000
34.0000
5.6000
137.0000
11.3000
27.0000
26.0000
23.0000
8.7000
30.0000
39.0000
6.5000
128.0000
10.0000
22.0000
23.0000
22.0000
8.7000
29.0000
37.0000
6.6000
122.0000
9.9000
22.0000
22.0000
20.0000
8.2000
26.0000
36.0000
5.7000
167.0000
11.5000
29.0000
28.0000
25.0000
9.5000
41.0000
45.0000
7.2000
164.0000
12.3000
27.0000
26.0000
25.0000
10.0000
42.0000
47.0000
7.9000
150.0000
11.5000
21.0000
24.0000
25.0000
9.3000
41.0000
46.0000
8.5000
145.0000
11.3000
28.0000
24.0000
24.0000
9.2000
36.0000
41.0000
7.2000
177.0000
12.4000
31.0000
27.0000
27.0000
10.5000
43.0000
50.0000
7.9000
66
166.0000
13.4000
32.0000
27.0000
26.0000
9.5000
40.0000
47.0000
7.3000
164.0000
12.1000
27.0000
24.0000
25.0000
9.9000
42.0000
45.0000
8.3000
165.0000
12.6000
30.0000
26.0000
25.0000
7.7000
40.0000
43.0000
7.9000
131.0000
11.8000
20.0000
24.0000
23.0000
8.8000
38.0000
40.0000
6.5000
163.0000
10.8000
27.0000
24.0000
24.0000
9.2000
39.0000
48.0000
7.0000
164.0000
10.7000
24.0000
23.0000
26.0000
9.5000
43.0000
47.0000
7.6000
141.0000
10.4000
20.0000
23.0000
23.0000
8.9000
38.0000
43.0000
6.0000
148.0000
10.6000
26.0000
21.0000
24.0000
8.9000
39.0000
40.0000
7.0000
158.0000
10.7000
25.0000
25.0000
24.0000
9.8000
41.0000
45.0000
7.4000
112.0000
10.1000
17.0000
18.0000
19.0000
7.7000
31.0000
33.0000
5.8000
115.0000
10.0000
18.0000
23.0000
20.0000
7.8000
33.0000
36.0000
6.0000
136.0000
11.9000
22.0000
25.0000
21.0000
8.5000
36.0000
39.0000
7.0000
111.0000
9.9000
19.0000
20.0000
18.0000
7.3000
29.0000
34.0000
5.3000
130.0000
11.2000
23.0000
27.0000
20.0000
9.1000
35.0000
35.0000
6.6000
125.0000
10.7000
19.0000
26.0000
20.0000
8.4000
33.0000
37.0000
6.3000
132.0000
9.6000
19.0000
20.0000
19.0000
9.7000
35.0000
38.0000
6.6000
121.0000
10.7000
21.0000
23.0000
19.0000
7.9000
32.0000
35.0000
6.0000
122.0000
9.8000
22.0000
23.0000
18.0000
7.9000
32.0000
35.0000
6.1000
124.0000
9.5000
20.0000
24.0000
19.0000
7.6000
32.0000
37.0000
6.0000
>> n=[16 20 17 14 10] n = 16
20
17
14
10
>> manova(Y,n) *********************************** * AMOSTRAS MULTIVARIADAS - GRUPOS * *********************************** *********************************** *
E
MÉDIAS DOS GRUPOS
*
*********************************** X1 = 123.0000
10.1000
23.0000
23.0000
19.0000
7.8000
32.0000
33.0000
5.6000
137.0000
9.6000
19.0000
22.0000
19.0000
7.8000
32.0000
40.0000
5.8000
121.0000
10.2000
18.0000
21.0000
21.0000
7.9000
35.0000
38.0000
6.2000
130.0000
10.7000
24.0000
22.0000
20.0000
7.9000
32.0000
37.0000
5.9000
149.0000
12.0000
25.0000
25.0000
21.0000
8.4000
35.0000
43.0000
6.6000
125.0000
9.5000
23.0000
20.0000
20.0000
7.8000
33.0000
37.0000
6.3000
126.0000
9.1000
20.0000
22.0000
19.0000
7.5000
32.0000
35.0000
5.5000
125.0000
9.7000
19.0000
19.0000
19.0000
7.5000
32.0000
37.0000
6.2000
121.0000
9.6000
22.0000
20.0000
18.0000
7.6000
31.0000
35.0000
5.3000
122.0000
8.9000
10.0000
20.0000
19.0000
7.6000
31.0000
35.0000
5.7000
115.0000
9.3000
19.0000
19.0000
20.0000
7.8000
33.0000
34.0000
6.5000
112.0000
9.1000
19.0000
20.0000
19.0000
6.6000
30.0000
33.0000
5.1000
124.0000
9.3000
21.0000
21.0000
18.0000
7.1000
30.0000
36.0000
5.5000
128.0000
9.6000
22.0000
21.0000
19.0000
7.5000
32.0000
38.0000
5.8000
130.0000
8.4000
23.0000
20.0000
19.0000
7.3000
31.0000
40.0000
5.8000
127.0000
10.5000
25.0000
23.0000
20.0000
8.7000
32.0000
35.0000
6.1000
xm1 = 125.9375
67
9.7250 20.7500 21.1250 19.3750 7.6750 32.0625 36.6250 5.8687 X2 = 120.0000
8.2000
18.0000
17.0000
18.0000
7.0000
32.0000
35.0000
5.2000
107.0000
7.9000
17.0000
17.0000
20.0000
7.0000
32.0000
34.0000
5.3000
110.0000
8.1000
18.0000
16.0000
19.0000
7.1000
31.0000
32.0000
4.7000
116.0000
8.5000
20.0000
18.0000
18.0000
7.1000
32.0000
33.0000
4.7000
114.0000
8.2000
19.0000
18.0000
19.0000
7.9000
32.0000
33.0000
5.1000
111.0000
8.5000
19.0000
16.0000
18.0000
7.1000
30.0000
33.0000
5.0000
113.0000
8.5000
17.0000
18.0000
19.0000
7.1000
30.0000
34.0000
4.6000
117.0000
8.7000
20.0000
17.0000
18.0000
7.0000
30.0000
34.0000
5.2000
114.0000
9.4000
21.0000
19.0000
19.0000
7.5000
31.0000
35.0000
5.3000
112.0000
8.2000
19.0000
17.0000
19.0000
6.8000
30.0000
34.0000
5.1000
110.0000
8.5000
18.0000
17.0000
19.0000
7.0000
31.0000
33.0000
4.9000
111.0000
7.7000
20.0000
18.0000
18.0000
6.7000
30.0000
32.0000
4.5000
107.0000
7.2000
17.0000
16.0000
17.0000
6.0000
28.0000
35.0000
4.7000
108.0000
8.2000
18.0000
16.0000
17.0000
6.5000
29.0000
33.0000
4.8000
110.0000
7.3000
19.0000
15.0000
17.0000
6.1000
30.0000
33.0000
4.5000
105.0000
8.3000
19.0000
17.0000
17.0000
6.5000
29.0000
32.0000
4.5000
107.0000
8.4000
18.0000
17.0000
18.0000
6.2000
29.0000
31.0000
4.3000
106.0000
7.8000
19.0000
18.0000
18.0000
6.2000
31.0000
32.0000
4.4000
111.0000
8.4000
17.0000
16.0000
18.0000
7.0000
30.0000
34.0000
4.7000
111.0000
7.6000
19.0000
17.0000
18.0000
6.5000
30.0000
35.0000
4.6000
123.0000
9.7000
22.0000
21.0000
20.0000
7.8000
27.0000
36.0000
6.1000
135.0000
11.8000
25.0000
21.0000
23.0000
8.9000
31.0000
38.0000
7.1000
138.0000
11.4000
25.0000
25.0000
22.0000
9.0000
30.0000
38.0000
7.3000
141.0000
10.8000
26.0000
25.0000
21.0000
8.1000
29.0000
39.0000
6.6000
135.0000
11.2000
25.0000
25.0000
21.0000
8.5000
29.0000
39.0000
6.7000
136.0000
11.0000
22.0000
24.0000
22.0000
8.1000
31.0000
39.0000
6.8000
131.0000
10.4000
23.0000
23.0000
23.0000
8.7000
30.0000
36.0000
6.8000
137.0000
10.6000
25.0000
24.0000
21.0000
8.3000
28.0000
38.0000
6.5000
xm2 = 111.0000 8.1800 18.6000 17.0000 18.2000 6.8150 30.3500 33.3500 4.8050 X3 =
68
135.0000
10.5000
25.0000
25.0000
21.0000
8.4000
29.0000
39.0000
6.9000
131.0000
10.9000
25.0000
24.0000
21.0000
8.5000
29.0000
35.0000
6.2000
130.0000
11.3000
22.0000
23.0000
21.0000
8.7000
29.0000
37.0000
7.0000
144.0000
10.8000
24.0000
26.0000
22.0000
8.9000
30.0000
42.0000
7.1000
139.0000
10.9000
26.0000
23.0000
22.0000
8.7000
30.0000
39.0000
6.9000
123.0000
9.8000
23.0000
22.0000
10.0000
8.1000
26.0000
34.0000
5.6000
137.0000
11.3000
27.0000
26.0000
23.0000
8.7000
30.0000
39.0000
6.5000
128.0000
10.0000
22.0000
23.0000
22.0000
8.7000
29.0000
37.0000
6.6000
122.0000
9.9000
22.0000
22.0000
20.0000
8.2000
26.0000
36.0000
5.7000
167.0000
11.5000
29.0000
28.0000
25.0000
9.5000
41.0000
45.0000
7.2000
164.0000
12.3000
27.0000
26.0000
25.0000
10.0000
42.0000
47.0000
7.9000
150.0000
11.5000
21.0000
24.0000
25.0000
9.3000
41.0000
46.0000
8.5000
145.0000
11.3000
28.0000
24.0000
24.0000
9.2000
36.0000
41.0000
7.2000
177.0000
12.4000
31.0000
27.0000
27.0000
10.5000
43.0000
50.0000
7.9000
166.0000
13.4000
32.0000
27.0000
26.0000
9.5000
40.0000
47.0000
7.3000
164.0000
12.1000
27.0000
24.0000
25.0000
9.9000
42.0000
45.0000
8.3000
165.0000
12.6000
30.0000
26.0000
25.0000
7.7000
40.0000
43.0000
7.9000
131.0000
11.8000
20.0000
24.0000
23.0000
8.8000
38.0000
40.0000
6.5000
163.0000
10.8000
27.0000
24.0000
24.0000
9.2000
39.0000
48.0000
7.0000
164.0000
10.7000
24.0000
23.0000
26.0000
9.5000
43.0000
47.0000
7.6000
141.0000
10.4000
20.0000
23.0000
23.0000
8.9000
38.0000
43.0000
6.0000
148.0000
10.6000
26.0000
21.0000
24.0000
8.9000
39.0000
40.0000
7.0000
158.0000
10.7000
25.0000
25.0000
24.0000
9.8000
41.0000
45.0000
7.4000
112.0000
10.1000
17.0000
18.0000
19.0000
7.7000
31.0000
33.0000
5.8000
115.0000
10.0000
18.0000
23.0000
20.0000
7.8000
33.0000
36.0000
6.0000
136.0000
11.9000
22.0000
25.0000
21.0000
8.5000
36.0000
39.0000
7.0000
xm3 = 133.2353 10.7235 24.0588 23.6471 20.8824 8.4882 29.0000 37.7059 6.6118 X4 =
xm4 = 157.3571 11.5786 26.2143 24.7143 24.7143 9.3357 40.2143 44.7857 7.4071 X5 =
69
111.0000
9.9000
19.0000
20.0000
18.0000
7.3000
29.0000
34.0000
5.3000
130.0000
11.2000
23.0000
27.0000
20.0000
9.1000
35.0000
35.0000
6.6000
125.0000
10.7000
19.0000
26.0000
20.0000
8.4000
33.0000
37.0000
6.3000
132.0000
9.6000
19.0000
20.0000
19.0000
9.7000
35.0000
38.0000
6.6000
121.0000
10.7000
21.0000
23.0000
19.0000
7.9000
32.0000
35.0000
6.0000
122.0000
9.8000
22.0000
23.0000
18.0000
7.9000
32.0000
35.0000
6.1000
124.0000
9.5000
20.0000
24.0000
19.0000
7.6000
32.0000
37.0000
6.0000
xm5 = 122.8000 10.3400 20.0000 22.9000 19.3000 8.1900 32.8000 35.9000 6.1700 ********************************** * FONTE DE VARIAÇÃO: TRATAMENTOS * ********************************** ********************************** *
MATRIZ B
*
********************************** 1.0e+004 * 1.8577
0.1326
0.3230
0.2982
0.2658
0.0996
0.3587
0.4543
0.1029
0.1326
0.0112
0.0240
0.0268
0.0182
0.0081
0.0209
0.0313
0.0084
0.3230
0.0240
0.0614
0.0550
0.0463
0.0179
0.0482
0.0767
0.0186
0.2982
0.0268
0.0550
0.0650
0.0400
0.0189
0.0420
0.0692
0.0196
0.2658
0.0182
0.0463
0.0400
0.0390
0.0140
0.0536
0.0656
0.0143
0.0996
0.0081
0.0179
0.0189
0.0140
0.0059
0.0169
0.0238
0.0061
0.3587
0.0209
0.0482
0.0420
0.0536
0.0169
0.1138
0.0955
0.0168
0.4543
0.0313
0.0767
0.0692
0.0656
0.0238
0.0955
0.1125
0.0245
0.1029
0.0084
0.0186
0.0196
0.0143
0.0061
0.0168
0.0245
0.0063
********************************** *
FONTE DE VARIAÇÃO: RESIDUAL
*
********************************** *
MATRIZ W
*
********************************** 1.0e+003 * 4.7028
0.2151
0.9154
0.6018
0.4049
0.1633
0.6246
1.0197
0.1692
0.2151
0.0373
0.0707
0.0528
0.0377
0.0116
0.0404
0.0377
0.0130
0.9154
0.0707
0.4991
0.1717
0.0681
0.0255
0.0764
0.1282
0.0254
0.6018
0.0528
0.1717
0.2174
0.0677
0.0233
0.0845
0.1170
0.0190
0.4049
0.0377
0.0681
0.0677
0.1897
0.0243
0.1157
0.1097
0.0320
0.1633
0.0116
0.0255
0.0233
0.0243
0.0205
0.0406
0.0358
0.0102
0.6246
0.0404
0.0764
0.0845
0.1157
0.0406
0.1854
0.1444
0.0412
1.0197
0.0377
0.1282
0.1170
0.1097
0.0358
0.1444
0.3491
0.0415
0.1692
0.0130
0.0254
0.0190
0.0320
0.0102
0.0412
0.0415
0.0163
70
********************************** *
FONTE DE VARIAÇÃO: TOTAL
*
********************************** ********************************* *
MATRIZ B + W
*
********************************** 1.0e+004 * 2.3280
0.1541
0.4146
0.3584
0.3063
0.1160
0.4212
0.5563
0.1198
0.1541
0.0150
0.0311
0.0320
0.0220
0.0092
0.0249
0.0350
0.0096
0.4146
0.0311
0.1113
0.0722
0.0531
0.0205
0.0558
0.0896
0.0211
0.3584
0.0320
0.0722
0.0867
0.0468
0.0213
0.0504
0.0809
0.0215
0.3063
0.0220
0.0531
0.0468
0.0580
0.0164
0.0651
0.0766
0.0175
0.1160
0.0092
0.0205
0.0213
0.0164
0.0080
0.0210
0.0274
0.0071
0.4212
0.0249
0.0558
0.0504
0.0651
0.0210
0.1323
0.1099
0.0209
0.5563
0.0350
0.0896
0.0809
0.0766
0.0274
0.1099
0.1475
0.0286
0.1198
0.0096
0.0211
0.0215
0.0175
0.0071
0.0209
0.0286
0.0079
********************************** *
LÂMBDA DE WILKS
*
********************************** 0.0049 ********************************** *
ESTATÍSTICA DO TESTE
*
********************************** qui2 = 366.9383 ********************************** *
VALOR DE p
*
********************************** 0
Como o teste 𝑝 = 0 < 0.05 então, rejeita-se a hipótese 𝐻0 : em que considera-se a igualdade dos vetores médios. (b) Testar isoladamente cada raça com os cães pré-históricos tailandeses, ao nível de significância de 5%. >> Y1=[]; >> Y2=[]; >> Y3=[]; >> Y4=[]; >> Y5=[]; >> S1=cov(Y1) S1 = 72.3292
4.3350
12.9167
9.8083
2.4250
2.1450
5.2708
19.9083
1.4979
4.3350
0.7180
1.5467
1.0433
0.4767
0.2893
0.7983
0.9300
0.1828
12.9167
1.5467
13.4000
2.9667
0.6333
0.6333
1.0167
2.7000
0.2983
9.8083
1.0433
2.9667
2.6500
0.5500
0.4633
0.9250
1.6500
0.1108
2.4250
0.4767
0.6333
0.5500
0.7833
0.2700
1.1083
0.9500
0.2925
2.1450
0.2893
0.6333
0.4633
0.2700
0.2313
0.4617
0.4167
0.1385
71
5.2708
0.7983
1.0167
0.9250
1.1083
0.4617
2.0625
1.9583
0.4887
19.9083
0.9300
2.7000
1.6500
0.9500
0.4167
1.9583
7.4500
0.5742
1.4979
0.1828
0.2983
0.1108
0.2925
0.1385
0.4887
0.5742
0.1796
15.0526
0.8000
1.5263
1.1053
0.6842
1.1158
2.2632
2.1579
0.6474
0.8000
0.2533
0.1968
0.2368
0.1568
0.1566
0.1495
0.0284
0.0691
1.5263
0.1968
1.3053
0.5263
-0.0737
0.1221
0.2526
-0.1158
0.0495
1.1053
0.2368
0.5263
0.9474
0.3684
0.2158
0.4737
0.0526
0.0526
0.6842
0.1568
-0.0737
0.3684
0.6947
0.2653
0.6105
0.1368
0.1358
1.1158
0.1566
0.1221
0.2158
0.2653
0.2308
0.3629
0.1208
0.0994
2.2632
0.1495
0.2526
0.4737
0.6105
0.3629
1.2921
0.1342
0.1718
2.1579
0.0284
-0.1158
0.0526
0.1368
0.1208
0.1342
1.3974
0.2192
0.6474
0.0691
0.0495
0.0526
0.1358
0.0994
0.1718
0.2192
0.0973
41.3162
2.6191
7.2978
7.4007
9.9669
1.0404
7.0625
10.6360
2.2783
2.6191
0.3707
0.5610
0.3713
0.9467
0.1309
0.7063
0.5824
0.2103
7.2978
0.5610
2.8088
1.4596
1.2574
0.1882
0.9375
1.3934
0.2368
7.4007
0.3713
1.4596
2.4926
1.4559
0.1643
0.9375
2.0147
0.3044
9.9669
0.9467
1.2574
1.4559
8.7353
0.4923
3.1875
3.1507
0.9577
1.0404
0.1309
0.1882
0.1643
0.4923
0.1174
0.3250
0.2401
0.1151
7.0625
0.7063
0.9375
0.9375
3.1875
0.3250
2.2500
1.7500
0.6125
10.6360
0.5824
1.3934
2.0147
3.1507
0.2401
1.7500
3.7206
0.6287
2.2783
0.2103
0.2368
0.3044
0.9577
0.1151
0.6125
0.6287
0.2286
156.4011
4.8467
37.1484
14.6484
11.9560
3.8016
18.9945
30.5440
4.9203
>> S2=cov(Y2) S2 =
>> S3=cov(Y3) S3 =
>> S4=cov(Y4) S4 =
4.8467
0.8049
2.1203
1.1703
0.5703
0.0585
0.4665
0.7874
0.2717
37.1484
2.1203
14.9505
4.6044
2.8352
0.5225
1.8736
4.5879
0.9060
14.6484
1.1703
4.6044
3.6044
1.1429
0.3648
1.3736
2.9341
0.3637
11.9560
0.5703
2.8352
1.1429
1.2967
0.3725
1.7582
2.5495
0.5176
3.8016
0.0585
0.5225
0.3648
0.3725
0.4455
0.7764
1.3005
0.1459
18.9945
0.4665
1.8736
1.3736
1.7582
0.7764
4.1813
4.5110
0.9214
30.5440
0.7874
4.5879
2.9341
2.5495
1.3005
4.5110
9.2582
0.9786
4.9203
0.2717
0.9060
0.3637
0.5176
0.1459
0.9214
0.9786
0.4607
70.8444
3.3311
10.3333
13.8667
4.5111
4.8756
15.8444
12.5333
3.7822
3.3311
0.5938
0.8000
1.2822
0.5533
0.1571
0.9089
0.4044
0.2269
10.3333
0.8000
3.7778
3.7778
0.3333
0.4333
1.8889
0.8889
0.4889
>> S5=cov(Y5) S5 =
13.8667
1.2822
3.7778
8.1000
1.5889
0.5433
3.2000
2.3222
0.7522
4.5111
0.5533
0.3333
1.5889
0.9000
0.2811
1.5111
1.0333
0.3322
4.8756
0.1571
0.4333
0.5433
0.2811
0.5499
1.2756
0.7211
0.2797
15.8444
0.9089
1.8889
3.2000
1.5111
1.2756
4.4000
2.8667
0.9822
12.5333
0.4044
0.8889
2.3222
1.0333
0.7211
2.8667
3.4333
0.6633
3.7822
0.2269
0.4889
0.7522
0.3322
0.2797
0.9822
0.6633
0.2290
>> X1=mean(Y1)
72
X1 = 125.9375
9.7250
20.7500
21.1250
19.3750
7.6750
32.0625
36.6250
5.8687
18.6000
17.0000
18.2000
6.8150
30.3500
33.3500
4.8050
24.0588
23.6471
20.8824
8.4882
29.0000
37.7059
6.6118
26.2143
24.7143
24.7143
9.3357
40.2143
44.7857
7.4071
20.0000
22.9000
19.3000
8.1900
32.8000
35.9000
6.1700
>> X2=mean(Y2) X2 = 111.0000
8.1800
>> X3=mean(Y3) X3 = 133.2353
10.7235
>> X4=mean(Y4) X4 = 157.3571
11.5786
>> X5=mean(Y5) X5 = 122.8000
10.3400
>> n1=16; >> n2=20; >> n3=17; >> n4=14; >> n5=10; >> Sp1=(((n1-1)*S1)+(n5-1)*S5)/(n1+n5-2) Sp1 = 71.7724
3.9585
11.9479
11.3302
3.2073
3.1690
9.2359
17.1427
2.3545
3.9585
0.6714
1.2667
1.1329
0.5054
0.2398
0.8398
0.7329
0.1994
11.9479
1.2667
9.7917
3.2708
0.5208
0.5583
1.3438
2.0208
0.3698
11.3302
1.1329
3.2708
4.6938
0.9396
0.4933
1.7781
1.9021
0.3514
3.2073
0.5054
0.5208
0.9396
0.8271
0.2742
1.2594
0.9812
0.3074
3.1690
0.2398
0.5583
0.4933
0.2742
0.3508
0.7669
0.5308
0.1914
9.2359
0.8398
1.3438
1.7781
1.2594
0.7669
2.9391
2.2990
0.6738
17.1427
0.7329
2.0208
1.9021
0.9812
0.5308
2.2990
5.9438
0.6076
2.3545
0.1994
0.3698
0.3514
0.3074
0.1914
0.6738
0.6076
0.1981
>> Sp2=(((n2-1)*S2)+(n5-1)*S5)/(n2+n5-2) Sp2 = 32.9857
1.6136
4.3571
5.2071
1.9143
2.3243
6.6286
5.4929
1.6550
1.6136
0.3627
0.3907
0.5729
0.2843
0.1568
0.3936
0.1493
0.1198
4.3571
0.3907
2.1000
1.5714
0.0571
0.2221
0.7786
0.2071
0.1907
5.2071
0.5729
1.5714
3.2464
0.7607
0.3211
1.3500
0.7821
0.2775
1.9143
0.2843
0.0571
0.7607
0.7607
0.2704
0.9000
0.4250
0.1989
2.3243
0.1568
0.2221
0.3211
0.2704
0.3334
0.6562
0.3137
0.1573
6.6286
0.3936
0.7786
1.3500
0.9000
0.6562
2.2911
1.0125
0.4323
5.4929
0.1493
0.2071
0.7821
0.4250
0.3137
1.0125
2.0518
0.3620
1.6550
0.1198
0.1907
0.2775
0.1989
0.1573
0.4323
0.3620
0.1397
>> Sp3=(((n3-1)*S3)+(n5-1)*S5)/(n3+n5-2) Sp3 = 51.9464
2.8754
8.3906
9.7285
8.0028
2.4211
10.2240
11.3191
2.8197
2.8754
0.4510
0.6471
0.6992
0.8051
0.1403
0.7792
0.5183
0.2163
8.3906
0.6471
3.1576
2.2941
0.9247
0.2765
1.2800
1.2118
0.3275
9.7285
0.6992
2.2941
4.5113
1.5038
0.3008
1.7520
2.1254
0.4656
8.0028
0.8051
0.9247
1.5038
5.9146
0.4163
2.5840
2.3885
0.7325
73
2.4211
0.1403
0.2765
0.3008
0.4163
0.2731
0.6672
0.4132
0.1744
10.2240
0.7792
1.2800
1.7520
2.5840
0.6672
3.0240
2.1520
0.7456
11.3191
0.5183
1.2118
2.1254
2.3885
0.4132
2.1520
3.6172
0.6412
2.8197
0.2163
0.3275
0.4656
0.7325
0.1744
0.7456
0.6412
0.2287
>> Sp4=(((n4-1)*S4)+(n5-1)*S5)/(n4+n5-2) Sp4 = 121.4006
4.2267
26.1786
14.3286
8.9104
4.2410
17.7058
23.1760
4.4547
4.2267
0.7185
1.5802
1.2161
0.5634
0.0989
0.6475
0.6307
0.2534
26.1786
1.5802
10.3799
4.2662
1.8117
0.4860
1.8799
3.0747
0.7354
14.3286
1.2161
4.2662
5.4435
1.3253
0.4379
2.1208
2.6838
0.5227
8.9104
0.5634
1.8117
1.3253
1.1344
0.3351
1.6571
1.9292
0.4418
4.2410
0.0989
0.4860
0.4379
0.3351
0.4882
0.9806
1.0635
0.2006
17.7058
0.6475
1.8799
2.1208
1.6571
0.9806
4.2708
3.8383
0.9463
23.1760
0.6307
3.0747
2.6838
1.9292
1.0635
3.8383
6.8753
0.8496
4.4547
0.2534
0.7354
0.5227
0.4418
0.2006
0.9463
0.8496
0.3659
>> T1=(X1-X5)*inv(((1/n1)+(1/n5))*Sp1)*(X1-X5)’ T1 = 110.8603 >> T2=(X2-X5)*inv(((1/n2)+(1/n5))*Sp2)*(X2-X5)’ T2 = 296.4411 >> T3=(X3-X5)*inv(((1/n3)+(1/n5))*Sp3)*(X3-X5)’ T3 = 474.5587 >> T4=(X4-X5)*inv(((1/n4)+(1/n5))*Sp4)*(X4-X5)’ T4 = 243.2363 >> Fteste1=T1*((n1+n5-9-1)/(n1+n5-2)) Fteste1 = 73.9068 >> Fteste2=T2*((n2+n5-9-1)/(n2+n5-2)) Fteste2 = 211.7437 >> Fteste3=T3*((n3+n5-9-1)/(n3+n5-2)) Fteste3 = 322.6999 >> Fteste4=T4*((n4+n5-9-1)/(n4+n5-2)) Fteste4 = 154.7867 >> F1=finv(0.95,9,(n1+n5-9-1)) F1 = 2.5377 >> F2=finv(0.95,9,(n2+n5-9-1)) F2 = 2.3928 >> F3=finv(0.95,9,(n3+n5-9-1)) F3 = 2.4943
74
>> F4=finv(0.95,9,(n4+n5-9-1)) F4 = 2.6458
Comparando as médias dos cães Pré-históricos tailandeses primeiramente com os cães modernos da Tailândia, depois com os Chacais Dourados, em seguida com os Cuons e depois com os lobos indianos, pode-se dizer que rejeita-se a hipótese de que: 𝐻0 : a média 𝜇5 é igual a média 𝜇1 , 𝐻0 : 𝜇5 = 𝜇2 , 𝐻0 : 𝜇5 = 𝜇3 , 𝐻0 : 𝜇5 = 𝜇4 . Ou seja, rejeita-se as 4 hipóteses em que compara-se a média dos cães pré-históricos tailandeses com as demais médias, uma a uma.
4
Lista 4: Análise de Componentes Principais 1. A tabela seguinte mostra as estimativas de consumo médio de proteínas de diferentes fontes de alimentos para os habitantes de 25 países europeus como publicados por Weber (1973). Use a análise de componentes principais para investigar o relacionamento entre os países com base nestas variáveis. Países
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋6
𝑋7
𝑋8
𝑋9
𝑋10
Albânia
10
1
1
9
0
42
1
6
2
72
Austria
9
14
4
20
2
28
4
1
4
86
Bélgica
14
9
4
18
5
27
6
2
4
89
Bulgária
8
6
2
8
1
57
1
4
4
91
Tchecoslováquia
10
11
3
13
2
34
5
1
4
83
Dinamarca
11
11
4
25
10
22
5
1
2
91
Alemanha Ocidental
8
12
4
11
5
25
7
1
4
77
Finlândia
10
5
3
34
6
26
5
1
1
91
França
18
10
3
20
6
28
5
2
7
99
Grécia
10
3
3
18
6
42
2
8
7
99
Hungria
5
12
3
10
0
40
4
5
4
83
Irlanda
14
10
5
26
2
24
6
2
3
92
Itália
9
5
3
14
3
37
2
4
7
84
Países Baixos
10
14
4
23
3
22
4
2
4
86
Noruega
9
5
3
23
10
23
5
2
3
83
Polônia
7
10
3
19
3
36
6
2
7
93
Portugal
6
4
1
5
14
27
6
5
8
76
75
Romênia
6
6
2
11
1
50
3
5
3
87
Espanha
7
3
3
9
7
29
6
6
7
77
Suécia
10
8
4
25
8
20
4
1
2
82
Suíça
13
10
3
24
2
26
3
2
5
88
Reino Unido
17
6
5
21
4
24
5
3
3
88
URSS
9
5
2
17
3
44
6
3
3
92
Alemanha Oriental
11
13
4
19
3
19
5
2
4
80
Iugoslávia
4
5
1
10
1
59
3
6
3
89
Tabela 5: Consumo de proteínas (g por pessoa por dia) em 25 países europeus >> X X = 10
1
1
9
0
42
1
6
2
72
9
14
4
20
2
28
14
9
4
18
5
27
4
1
4
86
6
2
4
89
8
6
2
8
1
57
1
4
4
91
10
11
3
13
2
34
5
1
4
83
11
11
4
25
10
22
5
1
2
91
8
12
4
11
5
25
7
1
4
77
10
5
3
34
6
26
5
1
1
91
18
10
3
20
6
28
5
2
7
99
10
3
3
18
6
42
2
8
7
99
5
12
3
10
0
40
4
5
4
83
14
10
5
26
2
24
6
2
3
92
9
5
3
14
3
37
2
4
7
84
10
14
4
23
3
22
4
2
4
86
9
5
3
23
10
23
5
2
3
83
7
10
3
19
3
36
6
2
7
93
6
4
1
5
14
27
6
5
8
76
6
6
2
11
1
50
3
5
3
87
7
3
3
9
7
29
6
6
7
77
10
8
4
25
8
20
4
1
2
82
13
10
3
24
2
26
3
2
5
88
17
6
5
21
4
24
5
3
3
88
9
5
2
17
3
44
6
3
3
92
11
13
4
19
3
19
5
2
4
80
4
5
1
10
1
59
3
6
3
89
>> comp2(X) *********************** *
VETOR DE MÉDIAS
*
*********************** 9.8000
7.9200
3.0800
17.2800
4.2800
**************************
76
32.4400
4.3600
3.0800
4.2000
86.3200
*
MATRIZ COVARIÂNCIA
*
************************** 11.5833
2.4000
2.1833
13.1417
0.7667
-19.8250
0.8667
-2.8167
-0.4167
8.6083
2.4000
13.9933
2.5067
7.8983
-2.5600
-18.4633
2.0717
-5.0767
-0.5250
2.6100
2.1833
2.5067
1.2433
4.8517
0.1850
-8.8700
0.7617
-1.3400
-0.3500
1.4317
13.1417
7.8983
4.8517
50.3767
4.0017
-47.2117
2.5200
-8.9400
-5.4333
22.1150
0.7667
-2.5600
0.1850
4.0017
12.0433
-20.1700
2.5200
-0.8567
1.5250
-2.1350
-19.8250
-18.4633
-8.8700
-47.2117
-20.1700
127.5067
-10.7067
14.5050
0.7417
14.1867
0.8667
2.0717
0.7617
2.5200
2.5200
-10.7067
2.7400
-1.6550
0.2167
-0.4950
-2.8167
-5.0767
-1.3400
-8.9400
-0.8567
14.5050
-1.6550
4.0767
1.3583
-1.1100
-0.4167
-0.5250
-0.3500
-5.4333
1.5250
0.7417
0.2167
1.3583
3.6667
0.9333
8.6083
2.6100
1.4317
22.1150
-2.1350
14.1867
-0.4950
-1.1100
0.9333
45.8100
************************* *
MATRIZ CORRELAÇÃO
*
************************* 1.0000
0.1885
0.5753
0.5440
0.0649
-0.5159
0.1538
-0.4099
-0.0639
0.3737
0.1885
1.0000
0.6010
0.2975
-0.1972
-0.4371
0.3346
-0.6721
-0.0733
0.1031
0.5753
0.6010
1.0000
0.6130
0.0478
-0.7045
0.4127
-0.5952
-0.1639
0.1897
0.5440
0.2975
0.6130
1.0000
0.1625
-0.5891
0.2145
-0.6238
-0.3998
0.4604
0.0649
-0.1972
0.0478
0.1625
1.0000
-0.5147
0.4387
-0.1223
0.2295
-0.0909
-0.5159
-0.4371
-0.7045
-0.5891
-0.5147
1.0000
-0.5728
0.6362
0.0343
0.1856
0.1538
0.3346
0.4127
0.2145
0.4387
-0.5728
1.0000
-0.4952
0.0684
-0.0442
-0.4099
-0.6721
-0.5952
-0.6238
-0.1223
0.6362
-0.4952
1.0000
0.3513
-0.0812
-0.0639
-0.0733
-0.1639
-0.3998
0.2295
0.0343
0.0684
0.3513
1.0000
0.0720
0.3737
0.1031
0.1897
0.4604
-0.0909
0.1856
-0.0442
-0.0812
0.0720
1.0000
************************************ * AUTOVALORES DA MATRIZ CORRELAÇÃO * ************************************ 4.1288
1.7392
1.3090
1.0425
0.7043
0.4268
0.3409
0.1907
0.1169
0.0009
************************************ * AUTOVETORES DA MATRIZ CORRELAÇÃO * ************************************ -0.3190
-0.1751
0.3820
0.0391
-0.5262
-0.3139
-0.1184
-0.3655
-0.5378
0.0977
-0.4207
-0.0810
-0.0212
-0.1548
-0.2657
-0.3868
-0.2340
0.2010
0.3197
0.1577
-0.1268
0.5741
0.3272
0.3062
0.2066
-0.3962
0.4308
0.1648
-0.1702
0.2112
0.3086
0.0915
0.2980
-0.4639
0.2179
-0.0634
-0.6428
0.2590
0.4803
0.0796
0.3080
-0.1754
-0.5434
-0.1513
0.4294
0.3046
0.0588
0.5195
0.0169
0.2106
0.4175
-0.3131
0.0214
-0.1019
0.2997
-0.1942
0.0663
0.1969
0.2912
0.6792
-0.2875
0.4095
-0.0615
-0.1477
0.4277
-0.6787
-0.1137
-0.1891
-0.1517
0.0934
0.4178
0.0419
0.2492
-0.0104
-0.2241
-0.0942
-0.5757
0.0893
-0.5924
0.1093
0.1188
0.3524
0.4095
-0.6439
-0.1667
0.2210
0.0859
-0.3704
0.2045
0.1280
-0.1065
-0.4155
0.5818
-0.2060
0.4740
-0.0058
-0.0496
0.1791
-0.0364
-0.4177
****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *
AUTOVALORES DA MATRIZ CORRELAÇÃO
*
****************************************** ----------------------------------------ORDEM
AUTOVA-
VAR. EXPL.
VAR. EXPL.
77
LORES
(EM %)
ACUM. (%)
----------------------------------------1
4.1288
41.29
41.29
2
1.7392
17.39
58.68
3
1.3090
13.09
71.77
4
1.0425
10.42
82.20
5
0.7043
7.04
89.24
6
0.4268
4.27
93.51
7
0.3409
3.41
96.92
8
0.1907
1.91
98.82
9
0.1169
1.17
99.99
10
0.0009
0.01
100.00
----------------------------------------*************************************************** * COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) * *************************************************** ----------------------------------------------------------------------------------------------------CP1
CP2
CP3
CP4
CP5
CP6
CP7
CP8
CP9
CP10
-----------------------------------------------------------------------------------------------------0.3190
-0.1751
0.3820
0.0391
-0.5262
-0.3962
0.4308
0.1648
-0.1702
0.2112
-0.3139
-0.1184
-0.3655
-0.5378
0.0977
0.3086
0.0915
0.2980
-0.4639
0.2179
-0.4207
-0.0810
-0.0212
-0.1548
-0.2657
-0.0634
-0.6428
0.2590
0.4803
0.0796
-0.3868
-0.2340
0.2010
0.3197
0.1577
0.3080
-0.1754
-0.5434
-0.1513
0.4294
-0.1268
0.5741
0.3272
0.3062
0.2066
0.3046
0.0588
0.5195
0.0169
0.2106
0.4175
-0.3131
0.0214
-0.1019
0.2997
-0.1942
0.0663
0.1969
0.2912
0.6792
-0.2875
0.4095
-0.0615
-0.1477
0.4277
-0.6787
-0.1137
-0.1891
-0.1517
0.0934
0.4178
0.0419
0.2492
-0.0104
-0.2241
-0.0942
-0.5757
0.0893
-0.5924
0.1093
0.1188
0.3524
0.4095
-0.6439
-0.1667
0.2210
0.0859
-0.3704
0.2045
0.1280
-0.1065
-0.4155
0.5818
-0.2060
0.4740
-0.0058
-0.0496
0.1791
-0.0364
-0.4177
-----------------------------------------------------------------------------------------------------************************************ * ESCORES (VARIÁVEIS PADRONIZADAS) * ************************************ 3.5846
-0.6366
-1.0980
1.9094
-1.9046
-0.3755
0.6478
-0.3053
-0.3526
-0.0195
-1.3867
-0.7113
-1.1613
-0.9297
0.0030
0.7585
-0.0035
0.0116
0.1224
0.0028
-1.6610
0.1110
0.4197
-0.2448
-0.1771
-0.9116
0.1568
0.3353
0.0311
0.0045
2.9589
-1.8221
0.0786
-0.3038
0.1108
0.3073
0.5911
0.7438
0.6695
-0.0256
-0.3746
-0.0991
-1.2188
-0.7155
0.0603
-0.3630
0.7876
0.0356
0.2421
-0.0023
-2.4856
0.1781
0.2057
0.9408
0.8262
0.6554
-0.0422
0.9847
-0.1600
-0.0067
-1.2347
1.5744
-1.9410
-0.7611
0.1491
-0.5881
-0.0637
0.3088
0.3230
0.0059
-1.7694
-0.7613
0.3701
2.2834
1.2175
0.1889
-0.0506
-0.7986
-0.0118
-0.0140
-1.6486
-0.2912
2.4813
-1.2583
-0.2198
-0.3329
1.3674
0.1890
-0.3773
0.0083
2.0780
-0.5979
3.0891
-0.3236
-0.2798
0.6437
-1.1895
0.2496
-0.1912
-0.0190
1.4700
-0.4362
-1.6091
-1.2139
0.1306
0.1162
-0.8172
0.1993
-0.5050
-0.0360
-2.6687
-1.0385
0.2851
-0.1597
-0.1726
-0.8685
-0.7282
-0.1938
-0.0476
0.0036
1.5548
0.0024
0.5927
-0.5451
-1.0798
0.7736
0.0020
-0.4436
0.8068
0.0196
-1.6954
-0.5091
-0.7578
-0.6459
-0.2956
0.9166
-0.2545
-0.0803
-0.4348
0.0003
-0.8764
1.2778
0.1813
1.7222
0.4407
0.4217
0.0080
-0.0127
0.1780
0.0021
78
-0.2370
0.2054
0.3976
-1.6733
1.3304
0.0985
-0.0287
-0.8496
0.3263
-0.0088
2.0934
4.4131
0.6559
0.0422
0.2991
0.3364
0.6442
0.2105
-0.3033
-0.0057
2.5845
-1.0469
-0.5828
0.1458
0.5135
-0.1880
-0.2154
0.1985
-0.0370
-0.0423
1.5699
2.6779
0.2804
-0.2350
-0.5869
-0.6143
-0.9496
-0.4113
0.1588
0.0040
-1.8256
0.3542
-0.5423
1.5654
-0.1584
0.8009
-0.1532
0.2391
0.3407
0.0138
-0.9293
-0.9597
0.3534
-0.2847
-0.7621
0.7048
0.6845
-0.6688
-0.2549
0.0094
-1.9713
-0.5516
0.8763
0.6070
-1.3824
-1.2223
-0.4761
0.3677
0.2345
0.0201
0.7518
-0.4765
0.2702
0.4153
1.4640
-1.2218
0.3177
-0.2993
-0.0508
-0.0385
-1.6774
0.3019
-1.2198
-0.5504
-0.8067
0.1908
-0.0960
-0.1307
-0.4123
0.0083
3.7960
-1.1582
-0.4065
0.2131
1.2807
-0.2274
-0.1388
0.1204
-0.2945
0.1157
*********************************************** * CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS * *
E AS COMPONENTES PRINCIPAIS
*
*********************************************** ----------------------------------------------------------------------------------|
COMPONENTES PRINCIPAIS
------------------------------------------------------------------------------------------------|VAR.|
CP1
CP2
CP3
CP4
CP5
CP6
CP7
CP8
CP9
CP10
|
------------------------------------------------------------------------------------------------1
-0.6482
-0.2310
0.4371
0.0399
-0.4415
-0.2588
0.2515
0.0720
-0.0582
0.0062
2
-0.6379
-0.1561
-0.4182
-0.5491
0.0820
0.2016
0.0534
0.1301
-0.1586
0.0064
3
-0.8549
-0.1069
-0.0243
-0.1580
-0.2230
-0.0414
-0.3753
0.1131
0.1642
0.0024
4
-0.7859
-0.3086
0.2300
0.3264
0.1324
0.2012
-0.1024
-0.2373
-0.0517
0.0127
5
-0.2578
0.7572
0.3744
0.3126
0.1734
0.1990
0.0343
0.2269
0.0058
0.0062
6
0.8482
-0.4129
0.0245
-0.1040
0.2515
-0.1269
0.0387
0.0860
0.0996
0.0201
7
-0.5842
0.5401
-0.0704
-0.1508
0.3589
-0.4434
-0.0664
-0.0826
-0.0519
0.0028
8
0.8490
0.0553
0.2851
-0.0107
-0.1880
-0.0615
-0.3362
0.0390
-0.2026
0.0032
9
0.2414
0.4648
0.4685
-0.6574
-0.1399
0.1444
0.0502
-0.1618
0.0699
0.0038
10
-0.2163
-0.5480
0.6657
-0.2103
0.3978
-0.0038
-0.0290
0.0782
-0.0124
-0.0124
---------------------------------------------------------------------------------------------------ans = FUNÇÃO COMP/UFPR/DEPTO. DE ESTATÍSTICA/JMM
As 4 primeiras componentes principais explicam quase 82.2% das variáveis originais, sendo que as variáveis 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋6, 𝑋7 e 𝑋8 são melhores explicadas pela primeira componente 𝑌 1 nos países: Albânia e Iugoslávia e pior explicadas para Dinamarca e Irlanda; 𝑋5 é melhor explicada pela componente 𝑌 2 nos países Espanha e Suíça e pior explicada para Iugoslávia e Bulgária; 𝑋10 é melhor explicada pela componente 𝑌 3 nos países França e Grécia e pior explicada para Alemanha Oriental e Alemanha Ocidental; 𝑋9 é melhor explicada pela componente 𝑌 4 nos países Albânia e Finlândia e pior explicada por França e Polônia.
79
AUTOVALORES DA MATRIZ CORRELAÇÃO 4.5 4 3.5
AUTOVALOR
3 2.5 2 1.5 1 0.5 0
1
0.6
2
3
4 5 6 7 NÚMERO DO AUTOVALOR
8
9
10
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 5 7 9
0.4
COMPONENTE 2
0.2 8 0
−0.2
3
2 1 4 6
−0.4
10
−0.6
−0.8 −0.5
0 COMPONENTE 1
80
0.5
DISPERSÃO DOS ESCORES: COMP1 versus COMP2 5 17 4
ESCORE − COMP2
3
19
2 7 15 1 6 0
−1
2024 3 9 22 14 8 2
16
13
5 23
11
10
21
12
1 18
25 4
−2 −3
−2
−1
0 1 ESCORE − COMP1
2
3
4
2. Com o título: “Brasil fica mais vulnerável no governo FH” , o jornal “A folha de São Paulo” publicou um artigo mostrando os seguintes indicadores usados pelo Banco Central (vamos reproduzir 5 desses indicadores): Ano
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
1995
46.1
3
31.7
3.4
64.5
1996
56.9
3.5
32.8
3.8
56.8
1997
76.3
5
25.7
3.8
47.4
1998
92.3
6
18.1
3.8
46.2
1999
146.6
13.3
14.7
4.7
46.5
2000
101.7
9.4
14
5
44.6
𝑋1 = parcela das exportações que é comprometida pelos gastos com a dívida externa (em %), 𝑋2 = quanto os gastos da dívida externa representam do PIB (em %), 𝑋3 = parcela da dívida externa bruta que poderia ser paga com as reservas internacionais (em %), 𝑋4 = quantos anos de exportação são necessários para pagar a dívida externa bruta (divisão do saldo da dívida externa bruta pelo saldo das exportações no ano) e 𝑋5 = parcela do governo na dívida externa bruta (em %). (a) Calcular o vetor de médias amostrais. >> Mi=mean(X) Mi = 86.6500
6.7000
22.8333
4.0833
51.0000
(b) Calcular a matriz de covariância amostral. 81
>> S=cov(X) S = 1.0e+003 * 1.2978
0.1390
-0.2666
0.0176
-0.2152
0.1390
0.0156
-0.2666
-0.0288
-0.0288
0.0021
-0.0212
0.0706
-0.0043
0.0566
0.0176
0.0021
-0.2152
-0.0212
-0.0043
0.0004
-0.0034
0.0566
-0.0034
0.0626
(c) Calcular a matriz de correlação amostral. >> comp2(X) *
MATRIZ CORRELAÇÃO
*
************************* 1.0000
0.9762
-0.8811
0.7888
-0.7548
0.9762
1.0000
-0.8811
-0.8660
-0.8660
0.8683
-0.6777
1.0000
-0.8231
0.8517
0.7888
0.8683
-0.7548
-0.6777
-0.8231
1.0000
-0.6971
0.8517
-0.6971
1.0000
(d) Calcular os autovalores da matriz de correlação 𝑅. ************************************ * AUTOVALORES DA MATRIZ CORRELAÇÃO * ************************************ 4.2812
0.3957
0.2297
0.0918
0.0016
(e) Calcular o % de explicação de cada autovalor de 𝑅. ****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *
AUTOVALORES DA MATRIZ CORRELAÇÃO
*
****************************************** ----------------------------------------ORDEM
AUTOVA-
VAR. EXPL.
VAR. EXPL.
LORES
(EM %)
ACUM. (%)
----------------------------------------1
4.2812
85.62
85.62
2
0.3957
7.91
93.54
3
0.2297
4.59
98.13
4
0.0918
1.84
99.97
5
0.0016
0.03
100.00
-----------------------------------------
(f) Determinar as componentes principais de 𝑅. *************************************************** * COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) * *************************************************** -----------------------------------------------CP1
CP2
CP3
CP4
CP5
------------------------------------------------
82
-0.4612
-0.2182
0.5303
-0.2410
-0.6328
-0.4602
-0.4496
0.2184
-0.1285
0.7224
0.4622
-0.2062
-0.0431
-0.8610
0.0260
-0.4365
-0.2694
-0.8179
-0.1356
-0.2226
0.4139
-0.7969
0.0192
0.4071
-0.1657
------------------------------------------------
(g) Determinar as correlações entre as variáveis (indicadores) e as componentes principais. Discutir os resultados. * CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS * *
E AS COMPONENTES PRINCIPAIS
*
*********************************************** ----------------------------------------------|
COMPONENTES PRINCIPAIS
|
---------------------------------------------------|VAR.|
CP1
CP2
CP3
CP4
CP5
|
---------------------------------------------------1
-0.9542
-0.1373
0.2541
-0.0730
-0.0256
2
-0.9522
-0.2828
0.1047
-0.0389
0.0292
3
0.9564
-0.1297
-0.0207
-0.2609
0.0010
4
-0.9032
-0.1695
-0.3920
-0.0411
-0.0090
5
0.8563
-0.5013
0.0092
0.1233
-0.0067
----------------------------------------------------
(h) Calcular os escores correspondentes. ************************************ * ESCORES (VARIÁVEIS PADRONIZADAS) * ************************************ 2.6241
-0.6145
0.0860
0.3264
0.0259
1.8043
-0.1618
0.4990
0.6711
-0.2786
-0.3583
-0.0512
0.1034
-0.2927
0.0570
-0.3032
0.7679
-2.6521
-0.7283
0.4302
0.2851
-0.0397
0.4657
-0.1480
0.0008
-1.9721
0.0655
-0.8068
0.1876
0.0071
Observando o "Acumulado", é possível admitir um ou 2 fatores para explicar a variância do modelo. Com relação aos coeficientes de correlação e seus pesos na componente, pode-se admitir que todas as variáveis são importantes e a componente 1 é de certa forma uma medida entre valores governamentais (reservas e parcela do governo) versus gastos com a dívida, anos para pagar e "exportações". Isto sugere um coeficiente que mensura ações responsáveis pelo governo, contra aspectos econômicos. Se observarmos a tendência que se observa através do score 1, percebe-se que o cenário de comprometimento dos fatores externos foram aumentando, implicando em pouca ação do governo ou influência das reservas. O que permite dar suporte ao título.
83
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 −0.1 3
1 −0.2
4
COMPONENTE 2
−0.3
−0.4
2
−0.5
−0.6
−0.7 5 −0.8 −0.5
0 COMPONENTE 1
0.5
DISPERSÃO DOS ESCORES: COMP1 versus COMP2 4 0.8
3
0.6
ESCORE − COMP2
0.4 0.2
6
0 2 −0.2 −0.4 1 −0.6 −0.8 −3
5
−2
−1
0 1 ESCORE − COMP1
84
2
3
AUTOVALORES DA MATRIZ CORRELAÇÃO 4.5 4 3.5
AUTOVALOR
3 2.5 2 1.5 1 0.5 0
1
1.5
2
2.5 3 3.5 NÚMERO DO AUTOVALOR
4
4.5
5
3. Jolicoer e Mosiman (1960) investigaram as componentes principais do comprimento (𝑋1 ), largura (𝑋2 ) e altura (𝑋3 ) da carapaça de tartarugas pintadas, com o objetivo de dar um significado para o conceito de “tamanho” e “forma”. Foram feitas as medidas (em milímetros) de 24 tartarugas fêmeas e a matriz de covariância é dada por: ⎡ ⎢ ⎢ 𝑆 = ⎢ ⎣
⎤ 451, 39 271, 17 168, 70
⎥ ⎥ 171, 73 103, 29 ⎥ ⎦ 66, 65
(a) Encontre os autovalores e autovetores de 𝑆. >> S=[451.39 271.17 168.7; 271.17 171.73 103.29;168.7 103.29 66.65] S = 451.3900
271.1700
168.7000
271.1700
171.7300
103.2900
168.7000
103.2900
66.6500
>> [e,l]=eig(S) e = 0.2053
0.5454
0.8126
0.2493
-0.8321
0.4955
-0.9464
-0.1009
0.3068
0
0
l = 2.8573
85
0
6.5016
0
0
0
680.4111
(b) Encontre as componentes principais: 𝑌1 , 𝑌2 e 𝑌3 . - 𝑌1 = 0.8126𝑋1 + 0.4955𝑋2 + 0.3068𝑋3 - 𝑌2 = 0.5454𝑋1 − 0.8321𝑋2 − 0.1009𝑋3 - 𝑌3 = 0.2053𝑋1 + 0.2493𝑋2 − 0.9464𝑋3 (c) Qual a % da variância total que é explicada pelas componentes principais? Variável
Nome
𝑒1
𝑒2
𝑒3
comprimento
𝑋1
0.8126
0.5454
0.2053
largura
𝑋2
0.4955
-0.8321
0.2493
altura
𝑋3
0.3068
-0.1009
-0.9464
autovalores
680.41
6.50
2.86
%Explicada
98.64%
0.94%
0.41%
%Acumulado Explicado
98.64%
99, 59%
100%
Total
689.77
(d) Encontre os coeficientes de correlação entre as componentes principais e as variáveis originais. 𝑌1
𝑌2
𝑌3
𝑋1
0.998
0.065
0.016
𝑋2
0.986
−0.162
0.032
𝑋3
0.98
−0.032
−0.196
(e) Interprete os resultados encontrados. O percentual explicado pela 1o componente principal, domina o modelo, sendo responsável por mais que 98% da explicação da variância. Portanto, a análise conduz a apenas um componente principal 𝑌1 . Na primeira componente, observa-se que a variável comprimento tem um peso maior sobre esta componente, sendo as demais variáveis de menor relevância. Porém ao se observar a correlação das variáveis com a primeira componente, infere-se que todos são significativos. Em Johnson há uma análise que sugere que estes valores são os expoentes das variáveis, de forma que este componente dá uma espécie de volume da pinta. Pois, apesar de não ser comentado no enunciado, se estas variáveis estiverem logaritmadas, vem que 𝑦1 = 𝑒1 ln 𝑥1 +𝑒2 ln 𝑥2 +𝑒3 ln 𝑥3 , o que implica em ln 𝑥𝑒11 .𝑥𝑒22 .𝑥𝑒33 , onde o valor 𝑒3 é uma espécie de correlação devido a ovacidade provável da pinta. (f) Verifique que 𝑆 = 𝐶𝐷𝜆 𝐶 ′ onde 𝐶 é a matriz cujas colunas são os autovetores de 𝑆 e 𝐷𝜆 é a matriz diagonal dos autovalores. 86
C
D
0.2053
0.5454
0.8126
2.8573
0
0.2493
-0.8321
0.4955
0
-0.9464
-0.1009
0.3068
0
C
S
0
0.2053
0.2493
-0.9464
451.39
271.17
168.7
6.5016
0
0.5454
-0.8321
-0.1009
271.17
171.73
103.29
0
680.4111
0.8126
0.4955
0.3068
168.7
103.29
66.65
>> e*l*e’;
4. Num estudo da influência do adubo N-P-K em doses crescentes na produção de forragem, a tabela abaixo mostra as produções de forragem (em kg/ha de matéria seca) nos meses de 6/78, 9/78 e 6/79, 9/79, 6/80 e 9/80 (são as nossas variáveis). Determine: Adubo
1978
1979
1980
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋6
N
P
K
Jun
Set
Jun
Set
Jun
Set
0
0
0
3994
2282
3068
1694
4320
1382
0
0
1
5316
1981
4168
3470
5900
2214
0
0
2
5050
1883
4408
3373
6476
1761
0
0
3
5996
2162
3614
3003
5021
1411
1
0
0
6086
5601
4599
3091
6145
2014
1
0
1
5180
2506
5022
2506
8299
2478
1
0
2
5291
1998
5241
2614
7768
2247
1
0
3
6148
2444
6147
2278
7440
2026
2
0
0
7292
2784
5692
2592
7978
2586
2
0
1
6615
3204
7655
3331
9225
3336
(a) o vetor médio amostral; >> comp2(X) *********************** *
VETOR DE MÉDIAS
*
*********************** 1.0e+003 * 5.6968
2.6845
4.9614
2.7952
6.8572
2.1455
(b) a matriz de covariâncias 𝑆 que estima Σ (covariância populacional); ************************** *
MATRIZ COVARIÂNCIA
*
************************** 87
1.0e+006 * 0.8586
0.3721
0.8188
0.1755
0.8017
0.3090
0.3721
1.2132
0.2661
0.0909
0.1335
0.1255
0.8188
0.2661
1.7494
0.1618
1.8596
0.6752
0.1755
0.0909
0.1618
0.3161
0.1659
0.1077
0.8017
0.1335
1.8596
0.1659
2.3876
0.8084
0.3090
0.1255
0.6752
0.1077
0.8084
0.3376
(c) os autovalores e autovetores de 𝑆; >> S=(1.0e+006)*T S = 858600
372100
818800
175500
801700
309000
372100
1213200
266100
90900
133500
125500
818800
266100
1749400
161800
1859600
675200
175500
90900
161800
316100
165900
107700
801700
133500
1859600
165900
2387600
808400
309000
125500
675200
107700
808400
337600
>> [e,l]=eig(S) e = -0.0540
0.2829
-0.3509
0.7876
-0.2823
0.3063
0.0503
0.0357
0.0538
-0.3609
-0.9218
0.1158
0.1239
-0.7773
-0.1606
0.0002
0.0418
0.5940
0.1771
-0.1075
0.8905
0.3897
-0.0864
0.0691
0.2309
0.5503
0.1248
-0.3053
0.2472
0.6884
-0.9458
-0.0018
0.1990
-0.0658
0.0167
0.2475
0.0426
0
0
0
0
0
0
0.1466
0
0
0
0
0
0
0.2706
0
0
0
0
0
0
0.4386
0
0
0
0
0
0
1.2855
0
0
0
0
0
0
4.6786
l = 1.0e+006 *
(d) Escreva as componentes principais da matriz de dados. - 𝑌1 = 0.3063𝑋1 + 0.1158𝑋2 + 0.5940𝑋3 + 0.0691𝑋4 + 0.6884𝑋5 + 0.2475𝑋6 - 𝑌2 = −0.2823𝑋1 − 0.9218𝑋2 + 0418𝑋3 − 0.0864𝑋4 + 0.2472𝑋5 + 0.0167𝑋6 - 𝑌3 = 0.7876𝑋1 − 0.3609𝑋2 + 0.0002𝑋3 + 0.3897𝑋4 − 0.3053𝑋5 − 0.0658𝑋6 - 𝑌4 = −0.3509𝑋1 + 0.0538𝑋2 − 0.1606𝑋3 + 0.8905𝑋4 + 0.1248𝑋5 + 0.1990𝑋6 88
- 𝑌5 = 0.2829𝑋1 + 0.0357𝑋2 − 0.7773𝑋3 − 0.1075𝑋4 + 0.5503𝑋5 − 0.0018𝑋6 - 𝑌6 = −0.0540𝑋1 + 0.0503𝑋2 + 0.1239𝑋3 + 0.1771𝑋4 + 0.2309𝑋5 − 0.9458𝑋6 AUTOVALORES DA MATRIZ CORRELAÇÃO 3.5
3
AUTOVALOR
2.5
2
1.5
1
0.5
0
1
2
3 4 NÚMERO DO AUTOVALOR
5
6
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 0.6
0.4
COMPONENTE 2
0.2
5 3 6
0
−0.2
1
−0.4
4
−0.6 2 −0.8 −0.55
−0.5
−0.45
−0.4 −0.35 −0.3 COMPONENTE 1
89
−0.25
−0.2
−0.15
DISPERSÃO DOS ESCORES: COMP1 versus COMP2 7 6 8
1
1
0.5 10
9
3
0 ESCORE − COMP2
2 −0.5
4
−1 −1.5 −2 5
−2.5 −3 −4
−3
−2
−1 0 1 ESCORE − COMP1
2
3
4
5. Os dados da tabela seguinte pertencem ao censo de 1970, de determinado país desenvolvido. Tabelou-se 5 variáveis sócio-econômicas de 14 comarcas de determinado estado. Considere as 14 comarcas como uma amostra aleatória dos municípios do estado. Comarca
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
1
5.935
14.2
2.265
2.27
2.91
2
1.523
13.1
0.597
0.75
2.62
3
2.599
12.7
1.237
1.11
1.72
4
4.009
15.2
1.649
0.81
3.02
5
4.687
14.7
2.312
2.5
2.22
6
8.044
15.6
3.641
4.51
2.36
7
2.766
13.3
1.244
1.03
1.97
8
6.538
17
2.618
2.39
1.85
9
6.451
12.9
3.147
5.52
2.01
10
3.314
12.2
1.606
2.18
1.82
11
3.777
13
2.119
2.83
1.8
12
1.53
13.8
0.798
0.84
4.25
13
2.768
13.6
1.336
1.75
2.64
14
6.585
14.9
2.763
1.91
3.17
𝑋1 = população total em 1000 hab, 𝑋2 = mediana dos anos de escolaridade da população, 𝑋3 = total de empregos em milhares, 𝑋4 = total de empregos nos serviços de saúde em 90
centenas e 𝑋5 = valor mediano das residências em US$10.000. (a) Construa a matriz de covariância amostral 𝑆. *
MATRIZ COVARIÂNCIA
*
************************** 4.3076
1.6837
1.8028
2.1553
-0.2535
1.6837
1.7675
0.5880
0.1780
0.1755
1.8028
0.5880
0.8007
1.0648
-0.1583
2.1553
0.1780
1.0648
1.9695
-0.3568
-0.2535
0.1755
-0.1583
-0.3568
0.5044
(b) Obtenha os pares de autovalores-autovetores e as 2 primeiras componentes principais amostrais para a matriz de covariância do item (a). * AUTOVALORES DA MATRIZ COVARIÂNCIA * ************************************* 6.9311
1.7851
0.3896
0.2295
0.0142
************************************* * AUTOVETORES DA MATRIZ COVARIÂNCIA * ************************************* -0.7812
0.0709
0.0037
0.5417
-0.3020
-0.3056
0.7639
-0.1618
-0.5448
-0.0093
-0.3344
-0.0829
0.0148
0.0510
0.9373
-0.4260
-0.5795
0.2205
-0.6360
-0.1721
0.0544
0.2624
0.9618
0.0513
0.0246
* COMPONENTES PRINCIPAIS (VARIÁVEIS ORIGINAIS * *********************************************** CP1
CP2
----------------------0.7812
0.0709
-0.3056
0.7639
-0.3344
-0.0829
-0.4260
-0.5795
0.0544
0.2624 91
AUTOVALORES DA MATRIZ COVARIÂNCIA 7
6
AUTOVALOR
5
4
3
2
1
0
1
1.5
2
2.5 3 3.5 NÚMERO DO AUTOVALOR
4
4.5
5
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 2
0.8
0.6
COMPONENTE 2
0.4 5 0.2 1 0
3
−0.2
−0.4 4 −0.6 −0.8
−0.7
−0.6
−0.5
−0.4 −0.3 −0.2 COMPONENTE 1
−0.1
0
0.1
(c) Calcule a proporção da variação total explicada pelas duas primeiras componentes principais. ****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *
AUTOVALORES DA MATRIZ COVARIÂNCIA
*
****************************************** ----------------------------------------ORDEM
AUTOVA-
VAR. EXPL.
VAR. EXPL.
LORES
(EM %)
ACUM. (%)
92
----------------------------------------1
6.9311
74.13
74.13
2
1.7851
19.09
93.23
----------------------------------------Ou seja, as 2 primeiras componentes explicam 93, 23% da variância. (d) Calcule os coeficientes de correlação 𝜌(𝑦𝑖 , 𝑥𝑗 ) = 𝜌𝑖𝑗 e interprete-os se possível. CORRELAÇÕES ENTRE AS VARIÁVEIS ORIGINAIS
*
E AS COMPONENTES PRINCIPAIS
*
***************************************** --------------------COMPONENTES PRINCIPAIS --------------------------|VAR.|
CP1
CP2
------------------------1
-0.9909
0.0456
2
-0.6053
0.7677
3
-0.9840
-0.1238
4
-0.7992
-0.5517
5
0.2015
0.4936
------------------------Na primeira componente principal as variáveis 𝑋1 e 𝑋3 estão muito bem representadas, tendo 𝑋4 como uma variável que também pesa sobre esta componente. A variável 𝑋2 tem maior peso na componente 2. Com isso, verificamos que as duas primeiras componentes fazem uma boa avaliação de todas as variáveis presentes neste problema. (e) Calcule os escores dados pelas duas primeiras componentes principais ou melhor, cada comarca terá duas variáveis ao invés de 5 originais, você deverá determinar o valor de cada componente principal para cada comarca. ********************************* * ESCORES (VARIÁVEIS ORIGINAIS) * ********************************* Score(Y1)
Score(Y2)
----------------------93
-10.5431
10.5279
-5.5705
10.3180
-6.7052
9.5909
-8.5101
12.0812
-9.8722
10.5032
-14.0629
10.1904
-6.9737
10.1724
-12.0968
12.3326
-12.2773
7.3790
-7.6847
8.6352
-8.7405
8.8547
-5.8069
11.2120
-7.3680
10.1526
-11.2639
11.3442 ESCORES: COMP.PRINC.1 X COMP.PRINC.2 3
8
ESCORE COMP. PRINC.2
2
4 14
1
12 1
5
0 6
2
13 7 3
−1 11 10 −2 9 −3 −5
−4
−3
−2 −1 0 1 ESCORE COMP. PRINC.1
2
3
4
6. Suponha que você está com o problema de ajustar o modelo 𝑌 = 𝑋𝛽 + 𝜀 a um conjunto de dados. Mas, ocorre que as linhas da matriz do modelo 𝑋(𝑛×𝑝) são aproximadamente colineares. Esta colinearidade faz com que algumas variáveis independentes contribuam pouco para a regressão. Assim, pode-se descartar algumas das variáveis independentes com o objetivo de: aumentar a precisão das estimativas de regressão com as variáveis retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro. Uma maneira de descartar variáveis (variáveis redundantes) usando componentes principais é a
94
seguinte: - Determine os autovalores e autovetores da matriz de correlação das variáveis independentes; - Considere o autovetor correspondente ao menor autovalor (valor absoluto), descarte, aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o autovetor com menor autovalor é o menos importante no conjunto. - O número de variáveis descartadas deve ser igual ao número de autovalores menores ou iguais a 0.70. Use as informações anteriores para descartar variáveis redundantes no problema seguinte: um estudo de 𝑛 = 180 estacas de pinheiro Corsican foi feito com o objetivo de estudar a dependência da força de compressão máxima (𝑌 ) de 13 outras variáveis independentes (𝑋𝑖 , 𝑖 = 1, 2, . . . , 13). Estas estacas são usadas para escorar tetos de minas. Os autovalores e autovetores da matriz de correlação das 13 variáveis independentes são dados. Responder quais das 13 variáveis independentes devem ser descartadas. 𝑋1 = diâmetro do topo da estaca, 𝑋2 = comprimento da estaca, 𝑋3 = unidade da estaca, 𝑋4 = massa específica da madeira, 𝑋5 = massa específica da madeira seca, 𝑋6 = número de anéis no topo da estaca, 𝑋7 = número de anéis na base, 𝑋8 = curvatura máxima, 𝑋9 = distância da curvatura máxima-topo da estaca, 𝑋10 = número de nós, 𝑋11 = comprimento da base ao topo, 𝑋12 = número médio de nós por estaca e 𝑋13 = diâmetro médio dos nós. Autovalores: 𝜆1 = 4.22, 𝜆2 = 2.38, 𝜆3 = 1.88, 𝜆4 = 1.11, 𝜆5 = 0.91, 𝜆6 = 0.82, 𝜆7 = 0.58, 𝜆8 = 0.54, 𝜆9 = 0.35, 𝜆10 = 0.19, 𝜆11 = 0.05, 𝜆12 = 0.04 e 𝜆13 = 0.04.
95
𝑒1
𝑒2
𝑒3
𝑒4
𝑒5
𝑒6
𝑒7
𝑒8
𝑒9
𝑒10
𝑒11
𝑒12
𝑒13
1
-0,4
0,22
-0,21
-0,09
-0,08
0,12
-0,11
0,014
0,33
-0,31
0
0,39
-0,57
2
-0,41
0,19
-0,24
-0,1
-0,11
0,16
-0,08
0,02
0,32
-0,27
-0,05
-0,41
0,58
3
-0,12
0,54
0,14
0,08
0,35
-0,28
-0,02
0
-0,08
0,06
0,12
0,53
4
-0,17
0,46
0,35
0,05
0,36
-0,05
0,08
-0,02
-0,01
0,1
-0,02
5
-0,06
-0,17
0,48
0,05
0,18
0,63
0,42
-0,01
0,28
0
0,01
0,2
0,12
6
-0,28
-0,01
0,48
-0,06
-0,32
0,05
-0,3
0,15
-0,1
-0,54
0,08
0,06
7
-0,4
-0,19
0,25
-0,07
-0,22
0
-0,23
0,01
-0,13
0,19
0,76
-0,04
0
8
-0,29
-0,19
-0,24
0,29
0,19
-0,06
0,4
0,64
-0,35
-0,08
0,03
-0,05
0,02
9
-0,36
0,02
-0,21
0,1
-0,1
0,03
0,4
-0,7
-0,38
-0,06
-0,05
0,05
-0,06
10
-0,38
-0,25
-0,12
-0,21
0,16
-0,17
0
-0,01
0,27
0,71
-0,32
0,06
0
11
0,01
0,21
-0,07
0,8
-0,34
0,18
-0,14
0,01
0,15
0,34
-0,05
0
-0,01
12
0,12
0,34
0,09
-0,3
-0,6
-0,17
0,54
0,21
0,08
0,19
0,05
0
0
13
0,11
0,31
-0,33
-0,3
0,08
0,63
-0,16
0,11
-0,38
0,33
0,04
0,01
-0,01
𝜆
4,22
2,38
1,88
1,11
0,91
0,82
0,58
0,54
0,35
0,19
0,05
0,04
0,04
-0,41
-0,59
0,41 -0,38
Utilizando a heurística sugerida para eliminação de variáveis e aplicando para a matriz da tabela acima, obtém-se o conjunto de variáveis conforme destacada na própria tabela. As variáveis eliminadas são: - 𝜆13 = 𝑋2 comprimento da estaca - 𝜆12 = 𝑋4 massa específica da madeira - 𝜆11 = 𝑋7 número de anéis na base - 𝜆10 = 𝑋10 número de nós - 𝜆9 = 𝑋6 número de anéis no topo da estaca - 𝜆8 = 𝑋9 distância da curvatura máxima-topo da estaca - 𝜆7 = 𝑋12 número médio de nós por estaca 7. Provar os seguintes resultados: (ver livro: Johnson & Wichern): Resultado 1:
Seja a matriz covariância associada ao vetor aleatório 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ].
Seja Σ com os pares de autovalores e autovetores: (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. A 𝑗-ésima componente principal é dada por:
𝑌𝑗 = 𝑒′𝑗 X = 𝑒1𝑗 𝑋1 + 𝑒2𝑗 𝑋2 + . . . + 𝑒𝑝𝑗 𝑋𝑝 , 𝑖 = 1, 2, . . . , 𝑝 com essa escolha:
𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 = 𝜆𝑗 , 𝑗 = 1, 2, . . . , 𝑝. 96
𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 𝑒′𝑗 X = 0, para todo 𝑖 ∕= 𝑗 Suponha que 𝑥𝑖 = (𝑥𝑖1 , ..., 𝑥𝑖𝑝 )′ sejam 𝑛 vetores de 𝑝 variáveis e definida: ∑ - 𝑧𝑖 = (𝑧𝑖1 , ..., 𝑧𝑖𝑝 )′ tal que 𝑧𝑖𝑗 = 𝑥𝑖𝑗 − 𝑛−1 𝑛𝑖=1 𝑥𝑖𝑗 . 𝑧𝑖𝑗 é igual a 𝑥𝑖𝑗 centrado na média - ℎ = (ℎ1 , ..., ℎ𝑛 )′ tal que: ℎ1
= ⟨𝛽, 𝑧1 ⟩ = 𝛽1 𝑧11 + ... + 𝛽𝑝 𝑧1𝑝
ℎ2 .. .
= ⟨𝛽, 𝑧2 ⟩ = 𝛽1 𝑧21 + ... + 𝛽𝑝 𝑧2𝑝 .. .. .. .. . . . .
ℎ𝑛 = ⟨𝛽, 𝑧𝑛 ⟩ = 𝛽1 𝑧𝑛1 + ... + 𝛽𝑝 𝑧𝑛𝑝 Para encontrar a primeira componente principal temos que resolver: { 𝜉1 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛−1
𝑛 ∑
} ℎ2𝑖
(7)
𝑖=1
𝑠.𝑎.
𝑝 ∑
2 𝜉𝑗1 = ∣∣𝜉1 ∣∣2 = 1
𝑗=1
O vetor 𝜉1 = (𝜉11 , ..., 𝜉1𝑝 )′ é o primeiro componente principal. Se definirmos uma matriz 𝑍𝑛𝑥𝑝 tal que suas linhas são formadas por 𝑛 ocorrências dos vetores 𝑧𝑖 , então: ℎ = 𝛽′𝑍 ′ ⇒
𝑛 ∑
ℎ2𝑖 = 𝛽 ′ 𝑍 ′ 𝑍𝛽
𝑖=1
Substituindo na equação (7) temos 𝜉1 = 𝑚𝑎𝑥𝑛−1 𝛽 ′ 𝑍 ′ 𝑍𝛽 𝑉 𝑎𝑟(𝑧) = 𝑛−1 𝑍 ′ 𝑍 é o estimador da matriz de covariância de 𝑧. Os demais componentes principais podem ser obtidos repetindo o procedimento de maximização da equação (7) e acrescentando a restrição de ortogonalidade com as componentes principais já obtidas. Logo, se 𝜉𝑘 = (𝜉𝑘1 , ..., 𝜉𝑘𝑝 )′ , então: { 𝜉𝑘 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛
−1
𝑛 ∑ 𝑖=1
97
} ℎ2𝑖
(8)
𝑠.𝑎.
𝑝 ∑
2 𝜉𝑗𝑘 = ∣∣𝜉𝑘 ∣∣2 = 1
𝑗=1
𝑒⟨𝛽, 𝜉𝑚 ⟩ = 0 para todo 𝑚 < 𝑘 Chamamos ℎ𝑖𝑘 =
∑𝑝
𝑗=1 𝜉𝑗𝑘 𝑧𝑖𝑘
de Escores de Componentes Principais (ECP) do k-
ésimo componente principal. A restrição de norma unitária para os vetores de componentes principais é necessária para delimitar o problema não permitindo que 𝜉1′ 𝑉 𝑎𝑟(𝑧)𝜉1 possa assumir valores arbitrariamente grandes. A idéia é encontrar a forma mais forte e, portanto, mais importante das variáveis observadas. Na obtenção dos componentes principais subseqüentes acrescentam-se restrições de ortogonalidade (produto interno igual a zero) com os componentes principais já obtidos para garantir que as próximas componentes principais representem inovações. Logicamente, a cada componente principal obtido, o valor maximizado será cada vez menor permitindo aferir o percentual explicado por cada componente. Observe que esta definição de componentes principais não possui solução única. Para ver isto, basta notar que se 𝜉𝑘 é um componente principal, então −𝜉𝑘 também o será. Sabemos que 𝑉 𝑎𝑟(𝑧) é uma matriz simétrica e não negativa definida. Logo, se 𝜆1 ≥ ... ≥ 𝜆𝑝 são os seus autovalores e 𝑒1 , ..., 𝑒𝑝 os respectivos autovetores normalizados, então 𝜉𝑘 ≡ 𝑒𝑘 para todo 𝑘. Além disso, cada autovalor 𝜆𝑘 é um estimador para a variância de 𝑥𝑘 . Logo 𝜆 ∑𝑝 𝑘
𝑖=1 𝜆𝑖
.100
é o percentual da variação explicada pelo componente principal de ordem 𝑘. Prova Variância é dada por 𝑉 (𝑌𝑗 ) =
𝑒′𝑗 Σ𝑒𝑗 , 𝑒′𝑗 𝑒𝑗
como 𝑒′𝑗 𝑒𝑗 = 1, tem-se 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 . Ree-
screvendo 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (Σ𝑒𝑗 ), a parte entre parênteses pode ser substituída por 𝜆𝑗 𝑒𝑗 , pois 𝑒𝑗 é o autovetor do autovalor 𝜆𝑗 . Obtem-se então 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (𝜆𝑗 𝑒𝑗 ). Como 𝜆𝑗 é um escalar é possível reescrever como 𝑉 (𝑌𝑗 ) = 𝜆𝑗 𝑒′𝑗 𝑒𝑗 . Como o vetor 𝑒𝑗 é normalizado, o produto 𝑒′𝑗 𝑒𝑗 = 1. Com isso 𝑉 (𝑌𝑗 ) = 𝜆𝑗 . Resultado 2:
Seja 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ] tendo matriz covariância Σ , com pares de
autovalores e autovetores (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. 98
Sejam 𝑌1 = 𝑒1 X1 , 𝑌2 = 𝑒2 X2 , . . . , 𝑌𝑝 = 𝑒𝑝 X𝑝 as componentes principais. Então
𝜎11 + 𝜎22 + . . . + 𝜎𝑝𝑝 =
𝑝 ∑
𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + . . . + 𝜆𝑝 =
𝑗=1
𝑝 ∑
𝑉 (𝑌𝑗 )
𝑗=1
Prova Traço (Σ) =traço(𝑃 Λ𝑃 ′ ) =traço(Λ𝑃 𝑃 ′ ) =traçoΛ𝐼 =traçoΛ. Donde Λ é a matriz diagonal dos autovalores e 𝑃 é a matriz dos autovetores associados aos autovalores. Assim Traço(Σ) =traço(Λ) ou seja: ∑ ∑ 𝜎11 + 𝜎22 + ... + 𝜎𝑝𝑝 = 𝑝𝑗=1 𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + ... + 𝜆𝑝 = 𝑝𝑗=1 𝑉 (𝑌𝑗 )
5
Lista 5: Análise Fatorial 1. Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de relacionamento de algumas variáveis e como este relacionamento pode interferir na condução de seus negócios. Para isso, resolveu encomendar uma pesquisa com outras empresas do ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte da pesquisa foram: 𝑣1 = automação, 𝑣2 = crescimento do PIB, 𝑣3 = parceria com os fornecedores, 𝑣4 = novos concorrentes 𝑣5 = diversidade de produtos, 𝑣6 = controle de despesas, 𝑣7 = câmbio e 𝑣8 = estabilidade econômica. A pesquisa era respondida por uma escala de concordância: 1 = não interfere, 2 = interfere pouco, 3 = interfere, 4 = interfere muito e 5 = fundamental. Os resultados da pesquisa foram: Empresas
𝑣1
𝑣2
𝑣3
𝑣4
𝑣5
𝑣6
𝑣7
𝑣8
C1
4
1
2
2
2
4
1
3
C2
4
1
2
2
2
4
1
3
C3
2
2
1
3
1
3
2
4
C4
5
4
3
3
3
5
2
4
C5
4
2
3
3
1
3
2
4
C6
4
2
2
3
3
4
2
4
C7
5
3
3
4
5
5
4
5
C8
2
1
1
4
6
3
5
5
99
C9
3
2
1
3
3
5
2
4
C10
4
2
2
3
1
3
2
4
C11
3
2
1
3
1
3
2
4
C12
3
2
1
3
2
4
6
4
C13
3
3
1
4
2
4
3
5
C14
3
3
1
4
2
4
3
5
C15
5
3
3
4
1
3
3
5
C16
3
1
1
2
2
4
1
3
C17
3
3
1
4
2
4
3
5
C18
5
2
3
3
3
5
2
4
C19
3
3
1
4
1
3
3
5
C20
3
2
1
3
3
5
2
4
C21
3
2
1
2
3
5
3
2
C22
4
3
2
3
1
3
2
3
C23
4
5
2
4
1
3
3
5
C24
4
3
2
4
3
5
3
5
C25
4
2
2
3
2
4
2
4
C26
4
3
2
4
3
5
3
5
C27
5
3
3
4
2
4
3
5
C28
5
3
3
4
2
4
3
5
C29
4
3
2
4
2
4
3
5
C30
5
3
3
4
2
4
3
5
(a) Faça uma Análise Fatorial e avalie seu resultado (teste de esfericidade, KMO, total de variância explicada e comunalidades) e comente sobre a aderência técnica à solução deste caso. >> y = kmo(A) Teste de Esfericidade - Estatística de Bartlett
Q2 = 192.5975 pvalor = 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.4467
*************************
100
*
MATRIZ CORRELAÇÃO
*
*************************
1.00
0.40
0.94
0.18
-0.05
0.24
-0.13
0.18
0.40
1.00
0.32
0.66
-0.21
0.02
0.26
0.57
0.94
0.32
1.00
0.20
-0.00
0.10
-0.10
0.21
0.18
0.66
0.20
1.00
0.11
-0.11
0.58
0.96
-0.05
-0.21
-0.00
0.11
1.00
0.55
0.38
0.11
0.24
0.02
0.10 -0.11
0.55
1.00
-0.13
0.26
-0.10
0.58
0.38
-0.02
1.00
0.51
0.18
0.57
0.21
0.96
0.11
-0.09
0.51
1.00
-0.02 -0.09
******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** -------------------------------------------------VAR. | |
PESOS ESTIMADOS F1
F2
| F3
COM.
|
|
VAR.
|
ESP.
-------------------------------------------------1
|
0.5115
0.8285
0.0976
|
0.96
|
0.04
2
|
0.7780
0.0975 -0.2392
|
0.67
|
0.33
3
|
0.5111
0.7862
0.0633
|
0.88
|
0.12
4
|
0.9155 -0.3221 -0.0917
|
0.95
|
0.05
5
|
0.1157 -0.2342
0.8969
|
0.87
|
0.13
6
|
0.0337
0.2295
0.8324
|
0.75
|
0.25
7
|
0.5378 -0.6010
0.2364
|
0.71
|
0.29
8
|
0.8794 -0.3002 -0.0809
|
0.87
|
0.13
-------------------------------------------------AUTO
|
3.04
1.98
1.64
|
---------------------------------PROP. | ACUM. |
| 38.04
62.75
83.24
|
----------------------------------
**************************** *
MATRIZ DOS RESÍDUOS
*
****************************
0
-0.06
0.02
-0.01
0.00
-0.05
0.07
-0.01
-0.06
0
-0.14
-0.04
-0.06
0.17
-0.05
-0.11
101
0.02
-0.14
0
-0.01
0.07
-0.15
0.09
-0.00
-0.01
-0.04
-0.01
0
0.01
0.01
-0.09
0.05
0.00
-0.06
0.07
0.01
0
-0.15
-0.04
0.01
-0.05
0.17
-0.15
0.01
-0.15
0
-0.09
0.01
0.07
-0.05
0.09
-0.09
-0.04
-0.09
0
-0.13
-0.01
-0.11
-0.00
0.05
0.01
0.01
-0.13
0
******************* * ROTAÇÃO VARIMAX * ******************* ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** -------------------------------------------------VAR. | |
PESOS ESTIMADOS F1
F2
| F3
COM.
|
|
VAR.
|
ESP.
-------------------------------------------------1
|
0.0804
0.9741
0.0468
|
0.96
|
0.04
2
|
0.6729
0.4217 -0.2034
|
0.67
|
0.33
3
|
0.1020
0.9342
0.0167
|
0.88
|
0.12
4
|
0.9676
0.1181 -0.0092
|
0.95
|
0.05
5
|
0.1237 -0.1030
0.9201
|
0.87
|
0.13
6
| -0.1487
0.2697
0.8074
|
0.75
|
0.25
7
|
0.7238 -0.2804
0.3224
|
0.71
|
0.29
8
|
0.9247
0.1221 -0.0025
|
0.87
|
0.13
-------------------------------------------------AUTO
|
3.04
1.98
1.64
|
---------------------------------PROP. | ACUM. |
| 35.28
62.66
83.24
|
----------------------------------
Comentários: Pelo teste de esfericidade de Bartlett os dados são apropriados a análise fatorial, o resultado do teste foi um p-value = 0, No entanto no Medida de adequacidade da amostra de Kayser-Meyer-Olkin obtemos 0,44, um valor insatisfatório, pois o MSA deve ser de no mínimo 0,5. Isso indica que a estrutura da matriz de correlação não é apropriada à análise fatorial. Aplicando a análise fatorial ao conjunto de dados (matriz de correlação) e usando o critério de Kayser para determinar o número de fatores, obtemos três fatores que
102
explicam 83,24% da variância total. A análise dos fatores se torna complexa, pois existem com pesos parecidos nos fatores obtidos, sendo assim foi aplicado o critério varimax de rotação com o objetivo de facilitar a interpretação dos fatores. Quanto as comunalidades, existem algumas com valores altos como 𝑣1 , 𝑣4 e outras com valores em torno de 0,7 como 𝑣2 , 𝑣6 e 𝑣7 . No geral, as comunalidades são altas, não sendo necessário excluir variáveis do modelo. Após a rotação observamos o seguinte relação entre variáveis por fator. Fator 1: 𝑣4 , 𝑣8 , 𝑣7 e 𝑣2 Fator 2: 𝑣1 , 𝑣3 Fator 3: 𝑣5 , 𝑣6 (b) Qual a sua conclusão sobre os fatores encontrados para este caso? O Fator 1 é uma junção das variáveis {novos concorrentes, estabilidade econômica, câmbio, crescimento do PIB}, sugerindo assim um fator ligado a parte econômica. Já no Fator 2, temos {automação e parceria com fornecedores } que está ligado a fornecedores, enquanto que no Fator 3 temos {diversidade de produtos e controle de despesa} que está ligado a produtos e despesas das empresas. Dessa maneira a parte econômica é mais importante para as empresas, seguido da relação com os fornecedores e por último as variáveis que envolvem produtos e despesas. 2. Os dados a seguir representam as notas de 88 alunos em cinco matérias onde foram realizadas provas com o livro “aberto” (A) ou o livro fechado (F). As cinco variáveis envolvidas são: 𝑋1 = Mecânica, 𝑋2 = Vetores, 𝑋3 = Álgebra, 𝑋4 = Análise e 𝑋5 = Estatística. Faça uma Análise Fatorial pelo Método das Componentes Principais: utilizar a rotação Varimax. Procurar interpretar os fatores. Utilizar o Matlab. Al.
𝑋1 (𝐹 )
𝑋2 (𝐹 )
𝑋3 (𝐴)
𝑋4 (𝐴)
𝑋5 (𝐴)
Al.
𝑋1 (𝐹 )
𝑋2 (𝐹 )
𝑋3 (𝐴)
𝑋4 (𝐴)
𝑋5 (𝐴)
1
77
82
67
67
81
45
46
61
46
38
41
2
63
78
80
70
81
46
40
57
51
52
31
3
75
73
71
66
81
47
49
49
45
48
39
4
55
72
63
70
68
48
22
58
53
56
41
5
63
63
65
70
63
49
35
60
47
54
33
6
53
61
72
64
73
50
48
56
49
42
32
7
51
67
65
65
68
51
31
57
50
54
34
8
59
70
68
62
56
52
17
53
57
43
51
103
9
62
60
58
62
70
53
49
57
47
39
26
10
64
72
60
62
45
54
59
50
47
15
46
11
52
64
60
63
54
55
37
56
49
28
45
12
55
67
59
62
44
56
40
43
48
21
61
13
50
50
64
55
63
57
35
35
41
51
50
14
65
63
58
56
37
58
38
44
54
47
24
15
31
55
60
57
73
59
43
43
38
34
49
16
60
64
56
54
40
60
39
46
46
32
43
17
44
69
53
53
53
61
62
44
36
22
42
18
42
69
61
55
45
62
48
38
41
44
33
19
62
46
61
57
45
63
34
42
50
47
29
20
31
49
62
63
62
64
18
51
40
56
30
21
44
61
52
62
46
65
35
36
46
48
29
22
49
41
61
49
64
66
59
53
37
22
19
23
12
58
61
63
67
67
41
41
43
30
33
24
49
53
49
62
47
68
31
52
37
27
40
25
54
49
56
47
53
69
17
51
52
35
31
26
54
53
46
59
44
70
34
30
50
47
36
27
44
56
55
61
36
71
46
40
47
29
17
28
18
44
50
57
81
72
10
46
36
47
39
29
46
52
65
50
35
73
46
37
45
15
30
30
32
45
49
57
64
74
30
34
43
46
18
31
30
69
50
52
45
75
13
51
50
25
31
32
46
49
53
59
37
76
49
50
38
23
9
33
40
27
54
61
61
77
18
32
31
45
40
34
31
42
48
54
68
78
8
42
48
26
40
35
36
59
51
45
51
79
23
38
36
48
15
36
56
40
56
54
35
80
30
24
43
33
25
37
46
56
57
49
32
81
3
9
51
47
40
38
45
42
55
56
40
82
7
51
43
17
22
39
42
60
54
49
33
83
15
40
43
23
18
40
40
63
53
54
25
84
15
38
39
28
17
41
23
55
59
53
44
85
5
30
44
36
18
42
48
48
49
51
37
86
12
30
32
35
21
43
41
63
49
46
44
87
5
26
15
20
20
44
46
52
53
41
40
88
0
40
21
9
14
Teste de Esfericidade -Estatística de Bartlett
Q2 = 194.55 pvalor =
0
104
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.78
************************* *
MATRIZ CORRELAÇÃO
*
************************* 1.00
0.55
0.55
0.41
0.39
0.55
1.00
0.61
0.49
0.44
0.55
0.61
1.00
0.71
0.66
0.41
0.49
0.71
1.00
0.61
0.39
0.44
0.66
0.61
1.00
******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** ------------------------------------------VAR. |
PESOS ESTIMADOS
|
F1
F2
|
COM.
|
|
VAR.
|
ESP.
------------------------------------------1
| -0.7126 -0.5587
|
0.82
|
0.18
2
| -0.7709 -0.3737
|
0.73
|
0.27
3
| -0.8970
0.1116
|
0.82
|
0.18
4
| -0.8147
0.3367
|
0.78
|
0.22
5
| -0.7834
0.3980
|
0.77
|
0.23
-----------------------------------------AUTO
|
3.18
0.74
|
--------------------------PROP. | ACUM. |
| 63.68
78.41
|
---------------------------
**************************** *
MATRIZ DOS RESÍDUOS
*
**************************** 0
-0.20
-0.03
0.02
0.05
-0.20
0
-0.04
-0.02
-0.01
-0.03
-0.04
0
-0.06
-0.08
0.02
-0.02
-0.06
0
-0.16
0.05
-0.01
-0.08
-0.16
0
105
******************* * ROTAÇÃO VARIMAX * ******************* ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** ------------------------------------------VAR. |
PESOS ESTIMADOS
|
F1
F2
|
COM.
|
|
VAR.
|
ESP.
------------------------------------------1
| -0.1998 -0.8832
|
0.82
|
0.18
2
| -0.3618 -0.7766
|
0.73
|
0.27
3
| -0.7660 -0.4799
|
0.82
|
0.18
4
| -0.8443 -0.2533
|
0.78
|
0.22
5
| -0.8588 -0.1860
|
0.77
|
0.23
------------------------------------------AUTO
|
3.18
0.74
|
--------------------------PROP. | ACUM. |
| 44.16
78.41
|
---------------------------
Comentários: Pelo teste de esfericidade de Bartlett (p-value = 0) e pela medida de adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.78), a matriz de dados é adequada à análise fatorial. Fazendo a análise fatorial (matriz de correlação), escolheu-se 2 fatores que representam 78.41% da variância total do conjunto de dados original. Quanto as comunalidades, todas as variáveis tem comunalidade acima de 0,7, não sendo necessário eliminar nenhuma delas. A interpretação dos fatores obtidos é complicada, pois todas as variáveis tem alta correlação com primeiro fator, e no segundo as correlações são baixas. Realizou-se então a rotação dos fatores pelo critério varimax, onde podemos identificar claramente os grupos de variáveis em cada fator. Fator 1: Álgebra, Análise e Estatística (livro aberto) Fator 2: Mecânica e vetores (livro fechado) O primeiro fator mais representativo envolve as matérias de Álgebra, Análise e Estatística, todas feitas com o livro aberto, já o segundo fator engloba as matérias Mecânica e Vetores, ambas feitas com o livro fechado. Nesse caso os fatores separou as duas maneiras como as 106
provas foram aplicadas. 3. Os dados seguintes representam os escores de 15 variáveis resultantes da avaliação de 48 candidatos a um certo posto de serviço. As variáveis são: 𝑋1 = forma da letra, 𝑋2 = aparência, 𝑋3 = habilidade acadêmica, 𝑋4 = habilidade para o posto, 𝑋5 = confiança em si mesmo, 𝑋6 = lucidez, 𝑋7 = honestidade, 𝑋8 = aptidão para vendas, 𝑋9 = experiência, 𝑋10 = iniciativa, 𝑋11 = ambição, 𝑋12 = domínio, 𝑋13 = potencial, 𝑋14 = entusiasmo e 𝑋15 = conveniência. Can.
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋6
𝑋7
𝑋8
𝑋9
𝑋10
𝑋11
𝑋12
𝑋13
𝑋14
𝑋15
1
6
7
2
5
8
7
7
8
3
8
9
7
5
7
10
2
9
10
5
8
10
9
9
10
5
9
9
8
8
8
10
3
7
8
3
6
9
8
9
7
4
9
9
8
6
8
10
4
5
6
8
5
6
5
9
2
8
4
5
8
7
6
5
5
6
8
8
8
4
4
9
2
8
4
5
8
7
6
5
6
7
7
7
6
8
7
10
5
9
6
5
8
6
6
6
7
9
9
8
8
8
8
8
8
10
8
10
8
9
8
10
8
9
9
9
8
9
9
8
8
10
9
10
9
9
9
10
9
9
9
7
8
8
8
8
5
9
8
9
8
8
8
10
10
4
7
10
2
10
10
7
10
3
10
10
10
9
3
10
11
4
7
10
0
10
8
3
9
5
9
10
8
10
2
5
12
4
7
10
4
10
10
7
8
2
8
8
10
10
3
7
13
6
9
8
10
5
4
9
4
4
4
5
4
7
6
8
14
8
9
8
9
6
3
8
2
5
2
6
6
7
5
6
15
4
8
8
7
5
4
10
2
7
5
3
6
6
4
6
16
6
9
6
7
8
9
8
9
8
8
7
6
8
6
10
17
8
7
7
7
9
5
8
6
6
7
8
6
6
7
8
18
6
8
8
4
8
8
6
4
3
3
6
7
2
6
4
19
6
7
8
4
7
8
5
4
4
2
6
8
3
5
4
20
4
8
7
8
8
9
10
5
2
6
7
9
8
8
9
21
3
8
6
8
8
8
10
5
3
6
7
8
8
5
8
22
9
8
7
8
9
10
10
10
3
10
8
10
8
10
8
23
7
10
7
9
9
9
10
10
3
9
9
10
9
10
8
24
9
8
7
10
8
10
10
10
2
9
7
9
9
10
8
25
6
9
7
7
4
5
9
3
2
4
4
4
4
5
4
26
7
8
7
8
5
4
8
2
3
4
5
6
5
5
6
27
2
10
7
9
8
9
10
5
3
5
6
7
6
4
5
28
6
3
5
3
5
3
5
0
0
3
3
0
0
5
0
29
4
3
4
3
3
0
0
0
0
4
4
0
0
5
0
30
4
6
5
6
9
4
10
3
1
3
3
2
2
7
3
31
5
5
4
7
8
4
10
3
2
5
5
3
4
8
3
107
32
3
3
5
7
7
9
10
3
2
5
3
7
5
5
2
33
2
3
5
7
7
9
10
3
2
2
3
6
4
5
2
34
3
4
6
4
3
3
8
1
1
3
3
3
2
5
2
35
6
7
4
3
3
0
9
0
1
0
2
3
1
5
3
36
9
8
5
5
6
6
8
2
2
2
4
5
6
6
3
37
4
9
6
4
10
8
8
9
1
3
9
7
5
3
2
38
4
9
6
6
9
9
7
9
1
2
10
8
5
5
2
39
10
6
9
10
9
10
10
10
10
10
8
10
10
10
10
40
10
6
9
10
9
10
10
10
10
10
10
10
10
10
10
41
10
7
8
0
2
1
2
0
10
2
0
3
0
0
10
42
10
3
8
0
1
1
0
0
10
0
0
0
0
0
10
43
3
4
9
8
2
4
5
3
6
2
1
3
3
3
8
44
7
7
7
6
9
8
8
6
8
8
10
8
8
6
5
45
9
6
10
9
7
7
10
2
1
5
5
7
8
4
5
46
9
8
10
10
7
9
10
3
1
5
7
9
9
4
4
47
0
7
10
3
5
0
10
0
0
2
2
0
0
0
0
48
0
6
10
1
5
0
10
0
0
2
2
0
0
0
0
Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais e pelo Método da Máxima Verossimilhança. Utilizar a rotação Varimax. Utilizar o software Statistica. Teste de Esfericidade -Estatística de Bartlett Q2 = 649.25 pvalor = 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.77
Método das Componentes Principais (Matriz Corelação) Varimax Fator 1
Fator 2
Fator 3
Fator 4
Com.
Var. Esp.
Forma da Letra
0.115
0.834
0.114
-0.136
0.740
0.260
Aparência
0.438
0.151
0.399
0.224
0.424
0.576
Habilidade Acadêmica
0.062
0.128
0.018
0.927
0.881
0.119
Habilidade p/ o posto
0.219
0.244
0.871
-0.090
0.875
0.125
Confiança em si mesmo
0.918
-0.103
0.167
-0.064
0.885
0.115
Lucidez
0.863
0.100
0.260
0.001
0.823
0.177
Honestidade
0.210
-0.244
0.866
0.014
0.854
0.146
108
Aptidão p/ vendas
0.917
0.207
0.085
-0.054
0.895
0.105
Experiência
0.082
0.849
-0.048
0.216
0.776
0.224
Iniciativa
0.805
0.343
0.148
-0.057
0.790
0.210
Ambição
0.916
0.160
0.104
-0.039
0.878
0.122
Domínio
0.806
0.253
0.338
0.145
0.848
0.152
Potencial
0.751
0.320
0.414
0.220
0.887
0.113
Entusiasmo
0.445
0.355
0.529
-0.533
0.888
0.112
Conveniência
0.397
0.790
0.058
0.072
0.790
0.210
Expl.Var
5.793
2.696
2.390
1.355
Prp.Totl
0.386
0.180
0.159
0.090
50.023
63.654
73.344
81.554
Prop. Acum.
Comentários: Realizando o teste de esfericidade de Bartlett (p-value = 0) e Medida de Adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.77), concluí-se que a matriz de dados é adequada à análise fatorial. Pelo Método das componentes principais (Software Statistica), obteve-se 4 fatores utilizando o critério de Kayser, que explicam 81.55% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Observando-se as comunalidades, podemos eliminar a variável Aparência do modelo, pois sua comunalidade está abaixo de 0,5. No primeiro fator podemos reunir as variáveis: Confiaça em si mesmo, Lucidez, Aptidão para vendas, Iniciativa, Ambição, Domínio e Potencial. No fator 2 temos: Forma da letra, Experiência e Conveniência. Fator 3: Habilidade para o posto, Honestidade. Fator 4: Habilidade Acadêmica.
109
35
30
χ2
25
20
15
10
5
5
10
15
20
25
30
35
d2
Método da Máxima Verossimilhança(Matriz Corelação) Varimax Factor 1
Factor 2
Factor 3
Com.
Var. Esp.
Forma da Letra
0.120
0.188
0.655
0.479
0.521
Aparência
0.437
0.276
0.176
0.298
0.702
Habilidade Acadêmica
0.055
-0.044
0.217
0.052
0.948
Habilidade p/ o posto
0.202
0.948
0.158
0.965
0.035
Confiança em si mesmo
0.930
0.138
-0.091
0.892
0.108
Lucidez
0.832
0.309
0.125
0.804
0.196
Honestidade
0.263
0.672
-0.257
0.586
0.414
Aptidão p/ vendas
0.882
0.132
0.253
0.860
0.140
Experiência
0.070
0.005
0.788
0.626
0.374
Iniciativa
0.767
0.186
0.374
0.763
0.237
Ambição
0.890
0.143
0.177
0.844
0.156
Domínio
0.780
0.325
0.280
0.793
0.207
Potencial
0.721
0.424
0.349
0.822
0.178
Entusiasmo
0.446
0.579
0.217
0.580
0.420
Conveniência
0.346
0.126
0.813
0.797
0.203
Expl.Var
5.486
2.287
2.388
Prp.Totl
0.366
0.152
0.159
45.758
56.346
67.739
Prop. Acum.
110
Comentários: Para utilizar o Método da Máxima Verossimilhança, testamos primeiro a normalidade da amostra. Pelo gráfico acima, podemos aceitar a hipótese de que os dados sejam normalmente distribuídos. Pelo Método da Máxima Verossimilhança (Software Statistica), obteve-se 3 fatores utilizando o critério de Kayser, que explicam 67.73% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Observando-se as comunalidades, podemos eliminar as variáveis Forma da letra, Habilidade acadêmica e Aparência do modelo, pois suas comunalidades estão abaixo de 0,5. No primeiro fator podemos reunir as variáveis: Confiança em si mesmo, Lucidez, Aptidão para vendas, Iniciativa, Ambição, Domínio e Potencial. No fator 2 temos: Habilidade para o posto, Honestidade. Fator 3: Experiência Comparando as duas análises, podemos concluir que ambas agruparam as mesmas variáveis no primeiro fator e no restante dos fatores as diferenças foram pouco significativas. 4. Os dados seguintes representam as taxas dos crimes ocorridos por 100.000 habitantes nos EUA, em 1986, por estado, segundo as categorias dos crimes: Estado
Ass.
Estupro
Assalto
Ass. c/ viol.
Arromb.
Roubo simp.
Roubo carro
ME
2
14.8
28
102
803
2347
164
NH
2.2
21.5
24
92
755
2208
228
VT
2
21.8
22
103
949
2697
181
MA
3.6
29.7
193
331
1071
2189
906
RI
3.5
21.4
119
192
1294
2568
705
CT
4.6
23.4
192
205
1198
2758
447
NY
10.7
30.5
514
431
1221
2924
637
NJ
5.2
33.2
269
265
1071
2822
776
PA
5.5
25.1
152
176
735
1654
354
OH
5.5
38.6
142
235
988
2574
376
IN
6
25.9
90
186
887
2333
328
IL
8.9
32.4
325
434
1180
2938
628
MI
11.3
67.4
301
424
1509
3378
800
WI
3.1
20.1
73
162
783
2802
254
MN
2.5
31.8
102
148
1004
2785
288
IA
1.8
12.5
42
179
956
2801
158
MO
9.2
29.2
170
370
1136
2500
439
ND
1
11.6
7
32
385
2049
120
111
SD
4
17.7
16
87
554
1939
99
NE
3.1
24.6
51
184
748
2677
168
KS
4.4
32.9
80
252
1188
3008
258
DE
4.9
56.9
124
241
1042
3090
272
MD
9
43.6
304
476
1296
2978
545
DC
31
52.4
754
668
1728
4131
975
VA
7.1
26.5
106
167
813
2522
219
WV
5.9
18.9
41
99
625
1358
169
NC
8.1
26.4
88
354
1225
2423
208
SC
8.6
41.3
99
525
1340
2846
277
GA
11.2
43.9
214
319
1453
2984
430
FL
11.7
52.7
367
605
2221
4373
598
KY
6.7
23.1
83
222
824
1740
193
TN
10.4
47
208
274
1325
2126
544
AL
10.1
28.4
112
408
1159
2304
267
MS
11.2
25.8
65
172
1076
1845
150
AR
8.1
28.9
80
278
1030
2305
195
LA
12.8
40.1
224
482
1461
3417
442
OK
8.1
36.4
107
285
1787
3142
649
TX
13.5
51.6
240
354
2049
3987
714
MT
2.9
17.3
20
118
783
3314
215
ID
3.2
20
21
178
1003
2800
181
WY
5.3
21.9
22
243
817
3078
169
CO
7
42.3
145
329
1792
4231
486
NM
11.5
46.9
130
538
1845
3712
343
AZ
9.3
43
169
437
1908
4337
419
UT
3.2
25.3
59
180
915
4074
223
NV
12.6
64.9
287
354
1604
3489
478
WA
5
53.4
135
244
1861
4267
315
OR
6.6
51.1
206
286
1967
4163
402
CA
11.3
44.9
343
521
1696
3384
762
AK
4.6
72.7
88
401
1162
3910
604
KI
4.8
31
106
103
1339
3759
328
Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais. Mostrar e comentar: os fatores, a matriz de correlação, a matriz de resíduos, as comunalidades, os escores fatoriais. Utiliizar a rotação Varimax. Utilizar o software Statistica. Teste de Esfericidade -Estatística de Bartlett Q2 =
274.37 112
pvalor = 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.80 Método das Componentes Principais (Matriz Corelação) Varimax Fator 1
Fator 2
Com.
Var. Esp.
Assassinato
0.86
0.23
0.80
0.20
Estupro
0.43
0.75
0.74
0.26
Assalto
0.92
0.23
0.90
0.10
Assalto c/ Violência
0.76
0.48
0.80
0.20
Arrombamento
0.43
0.82
0.86
0.14
Roubo Simples
0.13
0.92
0.87
0.13
Roubo de Carro
0.78
0.31
0.70
0.30
Expl.Var
3.15
2.52
Prp.Totl
0.45
0.36
66.69
81.01
Prop. Acum.
Matriz Correlação
Assassinato
1.00
0.53
0.81
0.77
0.58
0.34
0.56
Estupro
0.53
1.00
0.53
0.66
0.72
0.63
0.57
Assalto
0.81
0.53
1.00
0.74
0.55
0.40
0.79
Assalto c/ Violência
0.77
0.66
0.74
1.00
0.71
0.51
0.64
Arrombamento
0.58
0.72
0.55
0.71
1.00
0.76
0.58
Roubo Simples
0.34
0.63
0.40
0.51
0.76
1.00
0.39
Roubo de Carro
0.56
0.57
0.79
0.64
0.58
0.39
1.00
Matriz Resíduos
Assassinato
0.20
-0.01
-0.04
0.00
0.02
0.01
-0.19
Estupro
-0.01
0.26
-0.04
-0.03
-0.08
-0.11
0.00
Assalto
-0.04
-0.04
0.10
-0.06
-0.03
0.07
0.00
Assalto c/ Violência
0.00
-0.03
-0.06
0.20
-0.01
-0.03
-0.10
Arrombamento
0.02
-0.08
-0.03
-0.01
0.14
-0.05
-0.01
Roubo Simples
0.01
-0.11
0.07
-0.03
-0.05
0.13
0.00
Roubo de Carro
-0.19
0.00
0.00
-0.10
-0.01
0.00
0.30
113
Escores Fatoriais ME
-0.97272
-0.83601
NH
-0.86210
-0.85943
VT
-1.15465
-0.27514
MA
0.92052
-0.91994
RI
0.06027
-0.45561
CT
-0.02263
-0.39470
NY
1.90205
-0.81223
NJ
0.74618
-0.49537
PA
0.26503
-1.55250
OH
-0.09568
-0.30010
IN
-0.18792
-0.80005
IL
1.19235
-0.44878
MI
1.15525
0.86828
WI
-0.73038
-0.52244
MN
-0.75178
-0.09742
IA
-1.03247
-0.40273
MO
0.59479
-0.61096
ND
-1.06528
-1.44864
SD
-0.76823
-1.33710
NE
-0.84043
-0.47240
KS
-0.67895
0.26114
DE
-0.60030
0.65133
MD
1.00802
0.01707
DC
4.35648
-0.12070
VA
-0.28687
-0.73616
WV
-0.23685
-1.81118
NC
-0.04473
-0.39898
SC
0.13600
0.34052
GA
0.48788
0.23986
FL
0.91822
1.94079
KY
-0.03453
-1.31962
TN
0.82878
-0.46695
AL
0.39241
-0.62470
MS
0.02771
-1.07690
AR
-0.12453
-0.60846
LA
0.75353
0.43845
OK
0.07215
0.66752
TX
0.64618
1.48818
MT
-1.20159
-0.11200
ID
-0.99452
-0.21698
114
WY
-0.81908
-0.19755
CO
-0.48450
1.68428
NM
0.10974
1.40918
AZ
-0.22861
1.81708
UT
-1.30216
0.70518
NV
0.62783
1.07213
WA
-1.09641
2.17257
OR
-0.55725
1.94986
CA
1.41923
0.49975
AK
-0.43878
1.70137
KI
-1.00664
0.80720
Comentários: Fazendo o teste de esfericidade de Bartlett e da medida de adequacidade da amostra, concluí-se que os dados são apropriados à análise fatorial. Analisando a matriz de correlação, as variáveis Assassinato, Assalto e Assalto com violência formam um grupo, enquanto que estupro, roubo simples e roubo de carro formam outro grupo, com correlações mais baixas que o primeiro grupo. Pelo Método das componentes principais (Software Statistica), obteve-se 2 fatores utilizando o critério de Kayser, que explicam 81.01% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Todas as comunalidades estão acima de 0,7, não sendo necessário eliminar variáveis. E a matriz de resíduos tem valores baixos. No primeiro fator podemos reunir as variáveis: Assassinato, Assalto, Assalto com violência e Roubo de Carro. No fator 2 temos: Estupro, Arrombamento e Roubo Simples. Nos escores fatoriais, conseguimos identificar Nova York que se destaca no primeiro fator e Washington que se destaca no segundo fator. 5. Uma matriz de dados 𝑋(86×4) , resultou na seguinte matriz covariância: ⎡
⎤ 0, 029004
⎢ ⎢ ⎢ −0, 008545 𝑆 = ⎢ ⎢ ⎢ 0, 001143 ⎣ −0, 006594
−0, 008545 0, 001143 −0, 006594 0, 003318
0, 000533
0, 000533
0, 004898
0, 003248
0, 005231
115
⎥ ⎥ 0, 003248 ⎥ ⎥ ⎥ 0, 005231 ⎥ ⎦ 0, 008463
Aqui as variáveis relacionam o número de árvores, altura, área da superfície e o volume de 86 parcelas de terra. Utilizando o MATLAB, calcular: (a) a matriz correlação; ************************* *
MATRIZ CORRELAÇÃO
*
************************* 1.0000
-0.8711
0.0959
-0.4209
-0.8711
1.0000
0.1322
0.6129
0.0959
0.1322
1.0000
0.8125
-0.4209
0.6129
0.8125
1.0000
(b) os autovalores associados à matriz de correlação; >> [e,l]=eig(R) e = 0.1925
0.6792
0.5162
-0.4849
-0.2110
0.7214
-0.3388
0.5660
-0.6129
-0.1169
0.7030
0.3413
0.7368
-0.0682
0.3529
0.5727
0.0386
0
0
0
0
0.1005
0
0
0
0
1.4146
0
0
0
0
2.4463
l =
(c) escolher um número adequado de fatores; Pelo critério de Kayser escolhemos 2 fatores (d) estimar a matriz de pesos; F1
F2
0.7584 -0.6140 -0.8852
0.4029
-0.8958 -0.4197
número de árvores altura -0.5339 -0.8361
área da superfície
volume
(e) estimar as comunalidades; 0.95
número de árvores 0.95
superfície 0.98
altura 0.98
área da
altura 0.02
área da
volume
(f) estimar as variâncias específicas; 0.05
número de árvores 0.05
superfície 0.02
volume
116
(g) construir uma tabela resumindo os resultados; ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ********************************************************
------------------------------------------VAR. | |
PESOS ESTIMADOS F1
|
F2
COM.
|
|
VAR.
|
ESP.
------------------------------------------1
|
0.7584 -0.6140
|
0.95
|
0.05
2
| -0.8852
0.4029
|
0.95
|
0.05
3
| -0.5339 -0.8361
|
0.98
|
0.02
4
| -0.8958 -0.4197
|
0.98
|
0.02
------------------------------------------AUTO
|
2.45
1.41
|
--------------------------PROP. | ACUM. |
| 61.16
96.52
|
---------------------------
(h) Você consegue interpretar os fatores resultantes? O primeiro fator constitui-se principalmente pelas variáveis Altura, Volume e Número de árvores, enquanto que o segundo é dado pela área de superfície. (i) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz. **************************** *
MATRIZ DOS RESÍDUOS
*
**************************** 0.0000
0.0477
-0.0126
0.0008
0.0477
-0.0000
-0.0035
-0.0109
-0.0126
-0.0035
0
-0.0166
0.0008
-0.0109
-0.0166
0
Os resíduos são pequenos, visto que o modelo explica 96.52% da variância total dos dados. 6. Um conjunto de 𝑝 = 10 variáveis psicológicas foram medidas para 𝑛 = 810 crianças normais, gerando as correlações dadas pela tabela seguinte: Testes
1
2
3
4
5
117
6
7
8
9
10
1
1.000
2
0.345
0.594
0.404
0.579
-0.280
-0.449
-0.188
-0.303
-0.200
1.000
0.477
0.338
0.230
-0.159
-0.205
-0.120
-0.168
-0.145
1.000
0.498
0.505
-0.251
-0.377
-0.186
-0.273
-0.154
1.000
0.389
-0.168
-0.249
-0.173
-0.195
-0.055
1.000
-0.151
-0.285
-0.129
-0.159
-0.079
1.000
0.363
0.359
0.227
0.260
1.000
0.448
0.439
0.511
1.000
0.429
0.316
1.000
0.301
3 4 5 6 7 8 9 10
1.000
Determine, utilizando o MATLAB, (a) os autovalores associados à matriz de correlação; >> [v,d] = eig(R) v = 0.73
0.20
0.20
-0.07
-0.26 -0.12
0.12
0.27
0.23 -0.39
-0.08
0.31
-0.09
0.26
-0.24 -0.04
0.12 -0.78
0.24 -0.27
-0.16
-0.80
0.26
-0.05
-0.09 -0.01
0.02 -0.09
0.30 -0.39
0.07
0.16
-0.09
-0.32
0.25 -0.24 -0.11
0.31 -0.30
-0.38
0.13
-0.48
0.35
0.09
-0.03
0.17
0.27
0.16
0.43
-0.33
-0.62
0.04
-0.12
-0.22
0.12
-0.06
-0.66
0.09
-0.02
0.28
0.42
-0.18
0.21
0.40
0.04
0.73
-0.05 -0.07
0.07
0.51
0.34 -0.32
0.63
0.05
0.24
0.26
0.08 -0.23 -0.13
0.29
0.38
0.01
0.41
0.27
0.41 -0.63 -0.04 -0.02
0.29
0.29
0.43
0.24
0.58
-0.14 -0.30
-0.32
0.37
0.31 -0.56
0.11
d = 0.35
0
0
0
0
0
0
0
0
0
0 0.38
0
0
0
0
0
0
0
0
0
0 0.43
0
0
0
0
0
0
0
0
0
0
0.53
0
0
0
0
0
0
0
0
0
0 0.61
0
0
0
0
0
0
0
0
0
0 0.78
0
0
0
0
0
0
0
0
0
0 0.79
0
0
0
0
0
0
0
0
0
0 0.83
0
0
0
0
0
0
0
0
0
0 1.61
0
0
0
0
0
0
0
0
0
(b) escolher um número adequado de fatores; 118
0 3.70
Escolheu-se 4 fatores que representam aproximadamente 70% da variância total (c) estimar a matriz de pesos; -0.7552
0.2870
0.2496
0.1064 -0.5212
0.3086 -0.7112
-0.7469
0.3856 -0.0851
0.0215 -0.5851
0.3988 -0.1015 -0.2168
-0.6065
0.4339
0.4642
0.0591
0.5077
0.3089
0.0422
0.5600
0.7223
0.3701 -0.1183 -0.2051
0.5250
0.5236
0.5657
0.3743 -0.0143 -0.0316
0.4659
0.5395
0.0046
0.3335
0.0990 -0.5009
(d) estimar as comunalidades; 0.73 0.88 0.71 0.56 0.78 0.67 0.71 0.66 0.46 0.77
(e) estimar as variâncias específicas; 0.27 0.12 0.29 0.44 0.22 0.33 0.29 0.34 0.54 0.23
(f) construir uma tabela resumindo os resultados. 119
0.1047
******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ********************************************************
--------------------------------------------------------VAR. |
PESOS ESTIMADOS
|
F1
F2
F3
| F4
COM.
|
VAR.
|
ESP.
|
--------------------------------------------------------1
| -0.7552
0.2870
0.2496
0.1064 |
0.73
|
0.27
2
| -0.5212
0.3086 -0.7112
0.1047 |
0.88
|
0.12
3
| -0.7469
0.3856 -0.0851
0.0215 |
0.71
|
0.29
4
| -0.5851
0.3988 -0.1015 -0.2168 |
0.56
|
0.44
5
| -0.6065
0.4339
0.4642
0.0591 |
0.78
|
0.22
6
|
0.5077
0.3089
0.0422
0.5600 |
0.67
|
0.33
7
|
0.7223
0.3701 -0.1183 -0.2051 |
0.71
|
0.29
8
|
0.5250
0.5236
0.3335 |
0.66
|
0.34
9
|
0.5657
0.3743 -0.0143 -0.0316 |
0.46
|
0.54
10
|
0.4659
0.5395
0.77
|
0.23
0.0046
0.0990 -0.5009 |
--------------------------------------------------------AUTO
|
3.70
1.61
0.83
0.79
|
----------------------------------------PROP. | ACUM. |
| 37.02
53.14
61.41
69.33
|
-----------------------------------------
(g) Você consegue interpretar os fatores resultantes? O primeiro fator é composto principalmente pelas variáveis 1, 3, 5, 7, 9. Já o segundo fator é composto pelas variáveis 8, 9, mas com correlações em torno de 0,5. O terceiro fator é composto pela variável 2 e o último pela variável 6. (h) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz. **************************** *
MATRIZ DOS RESÍDUOS
*
**************************** 0
0.03
-0.06
-0.10 -0.13 -0.06
0.03
0
-0.09
-0.14
-0.06
-0.09
0
-0.10 -0.08
-0.10
-0.14
-0.10
0 -0.08
-0.13
0.10
-0.08
-0.06
-0.02
0.00
0.04
-0.01
0.01
-0.08
0.04
0.02
0.02
0.03
0.10 -0.02 -0.01
-0.04
0.00
0.05
-0.00
0.00
0.01
-0.00 -0.02
-0.10
0.06
-0.06
0.03
-0.05
0
0.00
-0.26 -0.16
0.13
0.00
0
-0.06 -0.12
-0.12
0.06
0.01
0.13 -0.03
0 -0.03
0.13 -0.03 -0.03
0.00
120
0.02
-0.04
-0.00
-0.00 -0.06 -0.26 -0.06
0.02
0.00
0.00
-0.02
0.03
0.05
0.01
-0.10 -0.05
0.03 -0.16 -0.12 0.13 -0.12
0 -0.05 -0.05
-0.04
0
-0.18
-0.04 -0.18
0
Existem algumas variáveis com resíduos altos, em torno 0,1.
6
Lista 6: Análise Discriminante 1. Considere as observações de 𝑝 = 2 variáveis oriundas de 3 populações 𝜋1 , 𝜋2 e 𝜋3 . As matrizes de dados correspondentes às amostras das 3 populações todas com o mesmo tamanho 𝑛𝑖 = 4 estão a seguir. ⎡
⎤ 7, 4
9, 1
⎢ ⎢ ⎢ 7, 2 14, 2 𝑋1 = ⎢ ⎢ ⎢ 6, 7 9, 6 ⎣ 8, 0 10, 7
⎡
⎤ 6, 5
7, 8
⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 5, 1 5, 5 ⎥ , 𝑋2 = ⎢ ⎥ ⎢ ⎥ ⎢ 4, 9 9, 4 ⎦ ⎣ 3, 8 11, 6
⎡
>> pi2 = [ >> pi3 = [
9.1; 7.2
6.5 8.0
7.8;
14.2 ; 6.7 5.1
1.2 ; 10.2
9.6 ; 8.0
5.5 ; 4.9 5.5
; 10.8
4.3;
>> PI = [pi1;pi2;pi3]; >> V = [4 4 4]; >> disc1(PI,V) ********************* * MÉDIAS DOS GRUPOS * ********************* xm1 = 7.3250
10.9000
xm2 = 5.0750
8.5750
xm3 = 8.9250
3.7500
(b) Determine o vetor médio global amostral. ***************** *
MÉDIA GLOBAL *
*****************
121
10.7 ];
9.4 ; 3.8
1, 2
⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ 10, 2 5, 5 ⎥ ⎥ e 𝑋3 = ⎢ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ 10, 8 4, 3 ⎥ ⎦ ⎣ ⎦ 6, 7 4, 0
(a) Determine os vetores médios amostrais 𝑥𝑖 , 𝑖 = 1, 2, 3. >> pi1 =[ 7.4
⎤ 8, 0
11.6 ]; 6.7
4.0 ];
7.1083
7.7417
ˆ0 (c) Calcule matrizes de covariâncias amostrais: 𝑆1 , 𝑆2 , 𝑆3 e também as matrizes: 𝑆𝑝 , 𝐵 e 𝑊. ********************************** * MATRIZES COVARIÂNCIAS - GRUPOS * ********************************** COV1 = 0.2892
0.0433
0.0433
5.2867
COV2 = 1.2292
-1.7275
-1.7275
6.6292
COV3 = 3.6492
1.6883
1.6883
3.3100
************************************ * MATRIZ B - VARIAÇÃO ENTRE GRUPOS * ************************************ 7.4817
-8.2617
-8.2617
26.6029
************************************ * MATRIZ COVARIÂNCIA CONJUNTA - Sp * ************************************ 1.7225
0.0014
0.0014
5.0753
***************************************** * MATRIZ W - VARIAÇÃO DENTRO DOS GRUPOS * ***************************************** 15.5025
0.0125
0.0125
45.6775
ˆ0 . (d) Determine a matriz inversa 𝑊 −1 e 𝑊 −1 𝐵 >> Winv = inv(W) Winv = 0.06
-0.00
-0.00
0.02
>> WinvB0 = inv(Winv*B0) WinvB0 = 3.15
2.89
0.98
2.61
ˆ0 . (e) Determine os autovalores e autovetores de 𝑊 −1 𝐵 122
********************************** * AUTOVALORES DA MATRIZ INV(W)*B * ********************************** 0.8474 0.2180 ****************************** * AUTOVALORES SATISFAZENDO À * *
CONDIÇÃO s=min(g-1,p)
*
****************************** 0.8474 0.2180
(f) Determine os discriminantes para as populações com base nos resultados amostrais. ******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = -0.4944
0.3379
Y2 = 0.5798
0.2878
(g) Faça uma gráfico que represente espaço discriminante nas dimensões que você determinou, represente a amostra no gráfico. ESPAÇO DISCRIMINANTE 8.5
1
8 1 7.5
3
3
1 1
7 Y2
1 6.5
3 2
6
2
5.5 5 4.5 −4
2
2
3
3
2 −3
−2
−1
0
1
2
3
Y1
2. Considere dois grupos de agricultores em uma cidade: 𝜋1 , os possuidores de determinada 123
máquina agrícola e 𝜋2 os não-possuidores da máquina. O fabricante da máquina está interessado em identificar possuidores ou não do equipamento, com a finalidade de promover vendas futuras. Dispõe dos dados da renda e tamanho da fazenda de 24 fazendeiros possuidores ou não do equipamento. Construa uma F.D.L. de Fisher para alocar um novo agricultor em um ou dois grupos, com base nas informações a seguir. Em qual grupo você alocaria o indivíduo 𝑥0 = [18.0 7.51]? 𝜋1
𝜋2
𝑥1 = renda
𝑥2 = área
𝑥1 = renda
𝑥2 = área
20
9.2
25
9.8
28.5
8.4
17.6
10.4
21.6
10.8
21.6
8.6
20.5
10.4
14.4
10.2
29
11.8
28
8.8
36.7
9.6
16.4
8.8
36
8.8
19.8
8
27.6
11.2
22
9.2
23
10
15.8
8.2
31
10.4
11
9.4
17
11
17
7
27
10
21
7.4
********************* * MÉDIAS DOS GRUPOS * ********************* xm1 = 24.8833
11.7417
xm2 = 18.4833
9.4667
************************************ * MATRIZES COVARIÂNCIAS DOS GRUPOS * ************************************ S1 = 63.1761
-7.4965
-7.4965
28.7863
S2 = 29.5452
3.0667
124
3.0667
7.5806
************************ * MATRIZ ESTIMADA - Sp * ************************ Sp = 46.3606
-2.2149
-2.2149
18.1834
***************************************** *
COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
***************************************** 0.1449
0.1428
********************** *
MÉDIA UNIVARIADA
*
********************** 4.6551 >> v = 0.1449*(18) + 0.1428*(7.51) v = 3.6806
Comentários: O indivíduo 𝑥0 será alocado no grupo 𝜋1 3. Pacientes com certa enfermidade são submetidos durante um certo período a um treinamento que envolve, inclusive, uma certa operação. No instante pré-operatório, do período de tratamento, são feitos 9 exames clínicos que formam com a idade e sexo um conjunto de 11 variáveis. As tabelas 1 e 2 mostram os resultados das medidas dessas 11 variáveis para amostras da população de sobreviventes (𝑛1 = 23) e mortos (𝑛2 = 7), respectivamente, ao fim do período de tratamento. Um médico pesquisador quer saber no instante pré-operatório, com base nas medidas das 11 variáveis, se o paciente morrerá ou não ao fim do período de tratamento. Você seria capaz de auxiliar o médico nesta questão? Como faria? 𝑖
idade
sexo
BT
BD
BI
SGPT
SGOT
FOSF
AMI
TAP
ALBU
1
46
1
41.8
21.2
20.6
234
178
58.75
92
14
3.3
2
52
0
21.4
12.95
8.45
55
80
20.87
92
15
3.5
3
73
0
26.2
13.6
12.6
90
97
10.58
104
14
2.7
4
47
0
31.6
16.5
15.4
31
59
15.86
92
13
3
5
66
0
40
20.9
19.1
45
108
33.34
66
11
3.6
6
26
0
22
13.1
8.9
80
29
11.79
158
14
3
7
66
1
25.6
14
11.6
125
129
27.34
100
13
2.7
8
53
1
24.4
15
9.4
43
63
19.4
60
14
2.4
125
9
34
0
19.8
11.6
8.2
24
47
6.41
92
13
3.6
10
50
1
25
14
11
86
149
42.48
10
14
1.5
11
69
1
11.9
7.55
4.35
176
92
21.88
104
13
3.4
12
63
1
15.6
9.1
6.5
21
44
22.1
144
15
3.9
13
43
1
13.7
7.7
6
25
63
26
79
13
3.2
14
76
0
10.4
7.3
3.1
35
50
25.74
104
13
3
15
66
1
19.8
10.7
9.1
48
68
25.74
104
14
3
16
73
0
16.2
9.9
6.3
132
71
22.08
196
15
3
17
46
1
8.6
5.6
3
28
56
25.74
104
15
3
18
45
1
19.4
10.1
9.3
99
87
10.43
158
17
2.6
19
60
1
18.8
10.1
8.7
33
92
24.07
158
17
2.3
20
76
0
19.1
12.2
6.9
60
71
44.31
66
13
4.2
21
33
0
3.8
2.4
1.4
35
61
21.33
60
13
3
22
46
1
3
2.2
0.8
390
400
65.95
132
15
3
23
55
1
13.4
6.85
6.55
45
97
9.85
123
14
2.7
Tabela 18: 1
𝑖
idade
sexo
BT
BD
BI
SGPT
SGOT
FOSF
AMI
TAP
ALBU
1
61
0
18.8
10.45
8.35
21
49
9.45
82
15
3.4
2
71
1
27.2
16.5
10.7
82
87
23.82
88
14
3.1
3
54
1
31.2
16.2
15
37
92
28.82
88
15
2.7
4
64
0
24.4
13.45
10.95
18
63
9.71
82
14
1.9
5
76
0
22
13.45
8.55
53
66
21.86
90
13
3.4
6
69
0
6.4
4.1
2.3
17
47
35.29
121
14
1.5
7
66
1
11.6
6.7
4.9
148
140
24.1
82
15
3.2
Tabela 19: 2 Faria uma análise discriminante para encontrar os coeficientes da função discriminante, onde seria possível, após a realização dos exames de certo paciente classifica-lo em algum grupo. Neste caso, temos os coeficientes da função discriminante dado por: ***************************************** *
COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
***************************************** Columns 1 through 6 -0.0986
1.3059
-3.9929
3.9850
3.9813
0.0364
-1.0364
0.7732
Columns 7 through 11 0.0010
0.0338
**********************
126
-0.0023
*
MÉDIA UNIVARIADA
*
********************** -13.6213
onde a média univariada é -13.6213. Com os dados dos exames do paciente o médico pode enquadrá-lo no grupo 1 caso o valor da função seja menor que a média univariada e no grupo 2 se for maior. 4. Dados sobre petróleo coletados do arenito na região de Elk Hills, California, forneceram os dados a seguir para as três amostras coletadas de 3 unidades estratigráficas: 𝜋1 = arenito Wilhelm, 𝜋2 = arenito Sub-Mulinia e 𝜋3 = arenito Upper. Os dados referem-se às análise químicas das amostras. 𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
3.9
51
0.2
7.06
12.19
2.7
49
0.07
7.14
12.23
2.8
36
0.3
7
11.3
3.1
45
0.08
7.2
13.01
3.5
46
0.1
7.81
12.63
3.9
43
0.07
6.25
10.42
2.7
35
0
5.11
9
Tabela 20: Amostra da População 1
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
5
47
0.07
7.06
6.1
3.4
32
0.2
5.82
4.69
1.2
12
0
5.54
3.15
8.4
17
0.07
6.31
4.55
4.2
36
0.5
9.25
4.95
4.2
35
0.5
5.69
2.22
3.9
41
0.1
5.63
2.94
3.9
36
0.07
6.19
2.27
7.3
32
0.3
8.02
12.92
4.4
46
0.07
7.54
5.76
3
30
0
5.12
10.77
Tabela 21: Amostra da População 2
𝑋1
𝑋2
𝑋3
127
𝑋4
𝑋5
6.3
13
0.5
4.24
8.27
1.7
5.6
1
5.69
4.64
7.3
24
0
4.34
2.99
7.8
18
0.5
3.92
6.09
7.8
25
0.7
5.39
6.2
7.8
26
1
5.02
2.5
9.5
17
0.05
3.52
5.71
7.7
14
0.3
5.65
8.63
11
20
0.5
4.27
8.4
8
14
0.3
4.32
7.87
8.4
18
0.2
4.38
7.98
10
18
0.1
3.06
7.67
7.3
15
0.05
3.76
6.84
9.5
22
0.3
3.98
5.02
8.4
15
0.2
5.02
10.12
8.4
17
0.2
4.42
8.25
9.5
25
0.5
4.44
5.95
7.2
22
1
4.7
3.49
4
12
0.5
5.71
6.32
6.7
52
0.5
4.8
3.2
9
27
0.3
3.69
3.3
7.8
29
1.5
6.72
5.75
4.5
41
0.5
3.33
2.27
4
34
0.7
7.56
6.93
5.6
20
0.5
5.07
6.7
9
17
0.2
4.39
8.33
8.4
20
0.1
3.74
3.77
9.5
19
0.5
3.72
7.37
9
20
0.5
5.97
11.17
6.2
16
0.05
4.23
4.18
7.3
20
0.5
4.39
3.5
3.6
15
0.7
7
4.82
6.2
34
0.07
4.84
2.37
7.3
22
0
4.13
2.7
4.1
29
0.7
5.78
7.76
5.4
29
0.2
4.64
2.65
5
34
0.7
4.21
6.5
6.2
27
0.3
3.97
2.97
Tabela 22: Amostra da População 3
128
(a) Determine os discriminantes para as populações com base nas observações amostrais. ******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = 0.3183
-0.0668
2.1116
-0.2960
-0.2500
-0.0906
0.0287
2.2717
-1.0046
0.3771
Y2 =
******************************************* * MÉDIAS UNIVARIADAS - MÉDIA(Y1)=COLUNA 1 * *
MÉDIA(Y2)=COLUNA 2, ETC.
*
******************************************* -6.5334
-1.2508
-3.7485
-3.5878
-1.1213
-1.5599
(b) Faça um gráfico que represente o “espaço discriminante” nas dimensões que você determinou e represente a amostra no gráfico. ESPAÇO DISCRIMINANTE 1 3 0
3 2
−1
11
1
3
1 1
11
1 −2 Y2
2 3 2
−3 22
2 −4
3
3
3 3
3 3 3 33 3 3 3 3 3 3 3 33 33 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3
2
2
2
2
−5 2 −6 −8
−7
−6
−5
−4
−3
−2
−1
0
1
Y1
(c) Marque no gráfico os centróides de cada população (estimados). Vide gráfico do item anterior. 5. Uma Universidade aplicou 5 testes diferentes ao seus alunos, atribuindo escores que variavam de 0 a 10. Em seguida separou-os em 3 grupos semelhantes, com base nos escores dos testes. Uma amostra de cada grupo com os respectivos escores são dados: 129
Aluno
Teste 1
Teste 2
Teste 3
Teste 4
Teste 5
1
9
6
8
6
8
2
8
7
7
7
9
3
7
6
8
6
10
4
7
8
7
5
9
5
7
7
8
6
10
6
8
6
9
7
9
7
9
7
7
8
8
8
6
8
8
6
9
9
7
9
6
7
7
10
8
8
7
6
9
11
9
7
8
8
10
12
9
6
9
9
8
13
9
8
8
7
9
14
10
9
7
6
9
15
8
8
9
7
7
Tabela 23: Grupo A
Aluno
Teste 1
Teste 2
Teste 3
Teste 4
Teste 5
1
6
7
6
5
8
2
5
7
7
6
7
3
6
6
8
5
8
4
7
7
7
4
7
5
5
7
6
5
6
6
5
8
5
6
8
7
5
7
6
5
8
8
6
6
7
6
7
9
7
5
6
4
9
10
5
4
5
5
6
Tabela 24: Grupo B
Aluno
Teste 1
Teste 2
Teste 3
Teste 4
Teste 5
1
4
6
5
3
7
2
5
6
4
4
6
3
5
5
5
4
6
4
5
6
6
3
7
5
4
7
6
4
5
6
5
4
5
2
6
130
7
6
5
6
3
7
8
5
6
5
3
5
Tabela 25: Grupo C (a) Através da MANOVA, ao nível de significância de 5%, testar se os três grupos diferem significativamente, caso contrário eliminar as variáveis que não discriminam os grupos. ********************************** *
ESTATÍSTICA DO TESTE
*
********************************** F = 12.3047 ********************************** *
VALOR DE p
*
********************************** 1.4032e-010
Pela MANOVA concluímos que os três grupos diferem significativamente. (b) Determine a função discriminante linear de Fisher para os três grupos, com base nas amostras. ********************************** *
MATRIZ B
*
********************************** 64.1523
31.4174
46.3409
61.6985
47.1659
31.4174
16.0280
23.4803
32.0439
24.2553
46.3409
23.4803
34.4364
46.8061
35.4864
61.6985
32.0439
46.8061
64.5455
48.6561
47.1659
24.2553
35.4864
48.6561
36.7614
********************************** *
MATRIZ W
*
********************************** 25.9083
-5.5083
4.4167
2.8167
2.5917
-5.5083
33.6083
-6.1167
0.6833
-3.8917
4.4167
-6.1167
22.5333
3.1333
2.4833
2.8167
0.6833
3.1333
23.3333
-6.7167
2.5917
-3.8917
2.4833
-6.7167
26.2083
2.0452
0.9855
1.4577
1.9212
1.4747
1.7629
0.8906
1.3068
1.7730
1.3452
1.4671
0.7424
1.0891
1.4791
1.1218
>> inv(W)*B ans =
131
2.8544
1.4950
2.1808
3.0219
2.2736
2.4517
1.2731
1.8596
2.5641
1.9330
>> [e,l]=eig(inv(W)*B) e = 0.3980
0.7450
0.2890
-0.0202
0.1123
0.3587
0.0905
-0.3979
0.6831
0.3708
0.2990
0.0583
-0.6784
0.0176
-0.7557
0.6010
-0.5653
0.5252
0.1972
-0.1293
0.5120
-0.3375
-0.1485
-0.7027
0.5120
8.8265
0
0
0
0
0
0.1532
0
0
0
0
0
0.0000
0
0
0
0
0
-0.0000
0
0
0
0
0
0.0000
l =
******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = 0.3980
0.3587
0.2990
0.6010
0.5120
0.7450
0.0905
0.0583
-0.5653
-0.3375
Y2 =
(c) Determine o erro de classificação. Utilizando-se como base: Grupo
Média Y1
Média Y2
1
19,05495
-0,88322
2
15,21688
-0,08769
3
12,12641
-0,9544
Calculando-se os escores Y1 e Y2 para cada amostra e verificando em qual ponto esta amostra esta mais próxima, vem:
132
Distância Grupo
1
2
3
Classificação
Tipo
1
18,06
-2,46
1,87
3,7
6,12
1
11
1
18,99
-0,42
0,47
3,78
6,88
1
11
1
18,38
0,3
1,36
3,18
6,37
1
11
1
17,55
-1
1,51
2,51
5,43
1
11
1
18,78
0,17
1,09
3,58
6,75
1
11
1
19,26
-0,46
0,47
4,06
7,15
1
11
1
19,53
-1,09
0,52
4,43
7,4
1
11
1
18,16
0,59
1,72
3,02
6,23
1
11
1
17,84
-0,46
1,29
2,65
5,73
1
11
1
18,69
-1,25
0,52
3,66
6,57
1
11
1
21,06
-0,33
2,08
5,85
8,95
1
11
1
20,51
-0,42
1,52
5,3
8,4
1
11
1
20,17
-1,59
1,32
5,17
8,07
1
11
1
19,97
-3,3
2,58
5,73
8,18
1
11
1
18,89
-1,54
0,68
3,95
6,78
1
11
2
15,78
-0,25
3,34
0,58
3,72
2
22
2
15,79
0,92
3,73
1,16
4,12
2
22
2
16,05
-0,29
3,06
0,86
3,98
2
22
2
15,25
-2,42
4,1
2,33
3,45
2
22
2
14,15
-0,12
4,96
1,07
2,19
2
22
2
16,11
1,38
3,71
1,72
4,62
2
22
2
15,34
0,72
4,04
0,81
3,62
2
22
2
15,82
0,09
3,38
0,62
3,83
2
22
2
15,29
-1,25
3,78
1,16
3,17
2
22
2
12,59
0,33
6,58
2,66
1,37
3
23
3
12,16
0,05
6,96
3,06
1,01
3
33
3
12,36
-0,54
6,7
2,89
0,48
3
33
3
12,29
-0,5
6,77
2,95
0,49
3
33
3
12,93
-0,99
6,12
2,46
0,81
3
33
3
12,42
-0,29
6,66
2,8
0,73
3
33
3
10,48
-1,79
8,62
5,03
1,85
3
33
3
12,96
-1,83
6,17
2,85
1,21
3
33
3
11,4
-1,75
7,7
4,16
1,07
3
33
O que dá a seguinte matriz confusão:
133
Grupo Classificado Grupo Origem
1
2
3
1
15
0
0
2
0
9
1
Com as probabilidades de classificação das por: Grupo Classificado Grupo Origem
1
2
3
1
0%
0%
0%
2
0%
90%
10%
3
0%
0%
100%
(d) Em qual grupo você classificaria um aluno com escores: 𝑥0 = [6 7 7 8 8]? >> Xm1; >> Xm2; >> Xm3; >> Y11=e(:,1)’*Xm1 Y11 = 16.6730 >> Y12=e(:,1)’*Xm2 Y12 = 13.3031 >> Y13=e(:,1)’*Xm3 Y13 = 10.6180 >> Y21=e(:,2)’*Xm1 Y21 = 0.3705 >> Y22=e(:,2)’*Xm2 Y22 = -0.1874 >> Y23=e(:,2)’*Xm3 Y23 = 0.5427 >> YK=e(:,1)’*K 134
YK = 15.8974 >> YK=e(:,2)’*K YK = -1.7106 Seria classificado no primeiro grupo, como pode ser observado na figura a seguir.
7
Lista 7: Regressão Logística 1. O gerente de uma seguradora de veículos está interessado em aprimorar a sua política de vendas para expandir a base de clientes. Ele acredita que em muitas situações teria condições de realizar contratos a preços mais competitivos se tivesse uma melhor percepção da taxa de risco a que se expõe em cada operação. Recorrendo à sua base de dados, resolveu extrair uma amostra aleatória de 36 elementos para identificar quais são as variáveis que mais contribuem para diferenciá-los quanto à ocorrência de sinistros. Com isso, espera poder estimar de forma mais racional o arisco a que ficará exposto em futuras operações e, conseqüentemente, conceder descontos mais adequados. Os dados são: Sinistro
Idade
Estado Civil
Sexo
0
22
1
1
135
1
24
0
0
0
45
1
1
0
58
0
1
0
27
1
0
1
31
0
1
1
32
0
1
0
30
0
0
0
56
0
1
0
44
0
1
1
21
0
1
1
23
0
1
0
29
1
0
0
20
1
0
0
60
1
1
1
30
0
1
1
22
0
1
0
26
1
0
0
19
0
0
0
18
0
0
0
21
1
1
0
59
0
1
1
24
0
0
0
56
0
1
0
54
0
1
0
47
0
1
0
40
1
0
1
31
1
1
0
43
0
0
0
35
1
0
0
23
1
0
1
22
1
1
0
21
1
1
0
63
0
1
0
22
1
0
0
26
1
0
Como consta no quadro dos dados, verificaram-se 17 ocorrências de sinistro numa amostra de 36 clientes ( 1 = houve sinistro; 0 = não houve sinistro). Em relação a cada indivíduo, foram levantadas as seguintes informações adicionais: o estado civil (1 = solteiro, 0 = casado), a idade e, finalmente, o sexo (1 = feminino; 0 = masculino). Baseando-se nesse 136
histórico pede-se: (a) determine um modelo capaz de descrever o relacionamento existente entre a ocorrência de sinistros e as variáveis sexo, idade e estado civil. Usando o Software Statistica, obteve-se 𝛽ˆ0 = 3.78104, 𝛽ˆ1 = −0.189572, 𝛽ˆ2 = −3.62511 e 𝛽ˆ3 = 3.70268 logo temos 𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3 1 + 𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3 𝑥1 = Idade, 𝑥2 = Estado Civil, 𝑥3 = Sexo. 𝜋 ˆ(𝑥1 , 𝑥2 , 𝑥3 ) =
(b) estime a probabilidade de sinistro associada a um cliente de sexo masculino, casado e com 25 anos de idade. 𝜋 ˆ(25, 0, 0) = 0.2772 (c) para o mesmo cliente do item anterior, qual a probabilidade de sinistro se ele fore solteiro? 𝜋 ˆ(25, 1, 0) = 0.0101 (d) compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias que poderiam ser adotadas pela companhia para atrair novos clientes. 2. Considere a variável idade (AGE) e a variável dicotômica (CHD) que indica a presença (1) ou ausência (0) de evidência de problemas coronários significativos em 100 indivíduos (ID) com os números 1 a 100. A variável (AGRP) indica a faixa etária do indivíduo. ID
AGRP
AGE
CHD
ID
AGRP
AGE
CHD
ID
AGRP
AGE
CHD
1
1
20
0
35
3
38
0
68
6
51
0
2
1
23
0
36
3
39
0
69
6
52
0
3
1
24
0
37
3
39
1
70
6
52
1
4
1
25
0
38
4
40
0
71
6
53
1
5
1
25
1
39
4
40
1
72
6
53
1
6
1
26
0
40
4
41
0
73
6
54
1
7
1
26
0
41
4
41
0
74
7
55
0
8
1
28
0
42
4
42
0
75
7
55
1
9
1
28
0
43
4
42
0
76
7
55
1
10
1
29
0
44
4
42
0
77
7
56
1
11
2
30
0
45
4
42
1
78
7
56
1
12
2
30
0
46
4
43
0
79
7
56
1
13
2
30
0
47
4
43
0
80
7
57
0
14
2
30
0
48
4
43
1
81
7
57
0
137
15
2
30
0
49
4
44
0
82
7
57
1
16
2
30
1
50
4
44
0
83
7
57
1
17
2
32
0
51
4
44
1
84
7
57
1
18
2
32
0
52
4
44
1
85
7
57
1
19
2
33
0
53
5
45
0
86
7
58
0
20
2
33
0
54
5
45
1
87
7
58
1
21
2
34
0
55
5
46
0
88
7
58
1
22
2
34
0
56
5
46
1
89
7
59
1
23
2
34
1
57
5
47
0
90
7
59
1
24
2
34
0
58
5
47
0
91
8
60
0
25
2
34
0
59
5
47
1
92
8
60
1
26
3
35
0
60
5
48
0
93
8
61
1
27
3
35
0
61
5
48
1
94
8
62
1
28
3
36
0
62
5
48
1
95
8
62
1
29
3
36
1
63
5
49
0
96
8
63
1
30
3
36
0
64
5
49
0
97
8
64
0
31
3
37
0
65
5
49
1
98
8
64
1
32
3
37
1
66
6
50
0
99
8
65
1
33
3
37
0
67
6
50
1
100
8
69
1
34
3
38
0
(a) Efetuar uma regressão logística considerando a variável dependente (CHD) e como variável independente as idades (AGE). 𝛽ˆ0 = −5.30945 e 𝛽ˆ1 = 0.1109 Logo, tem-se 𝜋 ˆ(𝐴𝐺𝐸) =
𝑒−5.30945+0.1109𝐴𝐺𝐸 1 + 𝑒−5.30945+0.1109𝐴𝐺𝐸
(b) Determinar os % de classificação correta. Pred.
Pred.
Percent
0
1
Correct
0
45
12
78, 94736
1
14
29
67, 44186
(c) Determinar a variável (CHD) estimada para cada indivíduo.
138
C:1 0,043479
C:34 0,250781
C:68 0,586017
C:2 0,059621
C:35 0,250781
C:69 0,612645
C:3 0,066153
C:36 0,272192
C:70 0,612645
C:4 0,073344
C:37 0,272192
C:71 0,638617
C:5 0,073344
C:38 0,294712
C:72 0,638617
C:6 0,081248
C:39 0,294712
C:73 0,663803
C:7 0,081248
C:40 0,318280
C:74 0,688091
C:8 0,099422
C:41 0,318280
C:75 0,688091
C:9 0,099422
C:42 0,342817
C:76 0,688091
C:10 0,109804
C:43 0,342817
C:77 0,711387
C:11 0,121125
C:44 0,342817
C:78 0,711387
C:12 0,121125
C:45 0,342817
C:79 0,711387
C:13 0,121125
C:46 0,368224
C:80 0,733617
C:14 0,121125
C:47 0,368224
C:81 0,733617
C:15 0,121125
C:48 0,368224
C:82 0,733617
C:16 0,121125
C:49 0,394383
C:83 0,733617
C:17 0,146793
C:50 0,394383
C:84 0,733617
C:18 0,146793
C:51 0,394383
C:85 0,733617
C:19 0,161237
C:52 0,394383
C:86 0,754725
C:20 0,161237
C:53 0,421163
C:87 0,754725
C:21 0,176807
C:54 0,421163
C:88 0,754725
C:22 0,176807
C:55 0,448414
C:89 0,774674
C:23 0,176807
C:56 0,448414
C:90 0,774674
C:24 0,176807
C:57 0,475979
C:91 0,793445
C:25 0,176807
C:58 0,475979
C:92 0,793445
C:26 0,193533
C:59 0,475979
C:93 0,811033
C:27 0,193533
C:60 0,503690
C:94 0,827449
C:28 0,211436
C:61 0,503690
C:95 0,827449
C:29 0,211436
C:62 0,503690
C:96 0,842716
C:30 0,211436
C:63 0,531379
C:97 0,856866
C:31 0,230521
C:64 0,531379
C:98 0,856866
C:32 0,230521
C:65 0,531379
C:99 0,869939
C:33 0,230521
C:66 0,558876
C:100 0,912465
C:67 0,558876
(d) Construir o histograma para os resíduos da regressão.
139
Distr. Frequencia
𝑁 𝑜 de obs.
Normal Esperada
(e) Considere agora uma regressão logística múltipla onde a variável dependente é CHD e as variáveis independentes são ID e AGRP. 𝛽ˆ0 = −5.93116, 𝛽ˆ1 = −0.148642 e 𝛽ˆ0 = 0.1399 logo tem-se 𝜋 ˆ (𝐴𝐺𝑅𝑃, 𝐴𝐺𝐸) =
𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸 1+𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸
(f) Determinar os % de classificação correta. Pred.
Pred.
Percent
0
1
Correct
0
45
12
78,94736
1
14
29
67,44186
(g) Determinar a variável (CHD) estimada para cada indivíduo.
140
C:1 0,036193
C:34 0,257058
C:68 0,577206
C:2 0,054046
C:35 0,257058
C:69 0,610925
C:3 0,061660
C:36 0,284667
C:70 0,610925
C:4 0,070268
C:37 0,284667
C:71 0,643615
C:5 0,070268
C:38 0,282888
C:72 0,643615
C:6 0,079974
C:39 0,282888
C:73 0,675020
C:7 0,079974
C:40 0,312106
C:74 0,673097
C:8 0,103130
C:41 0,312106
C:75 0,673097
C:9 0,103130
C:42 0,342899
C:76 0,673097
C:10 0,116806
C:43 0,342899
C:77 0,703103
C:11 0,115906
C:44 0,342899
C:78 0,703103
C:12 0,115906
C:45 0,342899
C:79 0,703103
C:13 0,115906
C:46 0,375073
C:80 0,731453
C:14 0,115906
C:47 0,375073
C:81 0,731453
C:15 0,115906
C:48 0,375073
C:82 0,731453
C:16 0,115906
C:49 0,408390
C:83 0,731453
C:17 0,147794
C:50 0,408390
C:84 0,731453
C:18 0,147794
C:51 0,408390
C:85 0,731453
C:19 0,166295
C:52 0,408390
C:86 0,758027
C:20 0,166295
C:53 0,406277
C:87 0,758027
C:21 0,186604
C:54 0,406277
C:88 0,758027
C:22 0,186604
C:55 0,440412
C:89 0,782753
C:23 0,186604
C:56 0,440412
C:90 0,782753
C:24 0,186604
C:57 0,475121
C:91 0,781261
C:25 0,186604
C:58 0,475121
C:92 0,781261
C:26 0,185279
C:59 0,475121
C:93 0,804226
C:27 0,185279
C:60 0,510071
C:94 0,825319
C:28 0,207330
C:61 0,510071
C:95 0,825319
C:29 0,207330
C:62 0,510071
C:96 0,844578
C:30 0,207330
C:63 0,544923
C:97 0,862069
C:31 0,231261
C:64 0,544923
C:98 0,862069
C:32 0,231261
C:65 0,544923
C:99 0,877877
C:33 0,231261
C:66 0,542752
C:100 0,926357
C:67 0,542752 141
(h) Construir o histograma para os resíduos da regressão.
3. Uma amostra consiste de 40 empresas clientes de um Banco de Desenvolvimento, sendo 30 classificadas como adimplentes e 10 como inadimplentes. Conhece-se os índices de 8 variáveis econômico-financeiras descritas como: MG = margem de garantia; PCT = participação de capitais de terceiros; IPL = imobilização do patrimônio líquido; LS = liquidez seca; LC = liquidez corrente; LG = liquidez geral; RSV = retorno sobre vendas; RPL = retorno sobre patrimônio líquido. Seja a variável dependente VD onde VD = 1 para as empresas adimplentes e VD = 0 para as empresas inadimplentes. Empresa
VD
MG
PCT
IPL
LS
LC
LG
RVS
RPL
1
1
1.72
1.39
97.87
2.61
2.61
0.61
9.7
32.58
2
1
1.6
1.67
152.17
0.56
0.94
0.69
12.54
26.42
3
1
8.65
0.13
21.24
4.17
7.02
7.02
13.35
21.11
4
1
3.17
0.46
84.57
1
1.6
1.33
5.59
7.75
5
1
1.63
1.58
90.15
1.02
1.25
1.06
-0.45
-3.43
6
1
2.15
0.87
56.5
1.16
1.4
1.5
7.46
7.83
7
1
1.94
1.06
61.38
0.98
1.5
1.36
0.82
3.49
8
1
1.97
1.03
84.46
0.4
0.95
1.14
0.45
2.08
9
1
1.68
1.47
104.91
0.79
1
0.97
-0.02
0.24
10
1
2.89
0.53
59.13
3.86
3.86
1.76
7.75
23.21
11
1
6.66
0.18
90.02
1.11
1.55
1.68
9.03
6.05
12
1
1.43
2.32
51.67
0.53
1.06
1.2
0.29
1.42
142
13
1
3.6
0.38
91.81
1.59
3.22
1.21
15.53
20.52
14
1
1.67
1.49
144.64
0.71
1.76
0.7
19.18
84.12
15
1
1.71
1.4
35.57
1.91
2.13
1.45
3.78
11.15
16
1
13.44
0.09
95.61
2.39
3.57
2.51
17.49
17.98
17
1
3.05
0.49
115.49
0.7
0.79
0.68
2.23
2.64
18
1
21.29
0.05
98.44
1.79
2.07
2.07
21.94
12.84
19
1
2.24
0.81
87.25
1.11
1.49
1.16
-0.06
0.98
20
1
3.18
0.46
76.34
2.17
2.18
1.51
10.03
7.3
21
1
5.71
0.28
125
1.29
1.29
1.29
26.06
56.67
22
1
1.37
2.67
229.32
0.42
0.55
0.52
-0.99
-11.28
23
1
1.6
1.68
78.97
1.21
1.28
1.12
6.69
29.24
24
1
3.54
0.39
35.21
2.27
2.65
2.65
15
32.73
25
1
1.47
2.14
87.65
0.6
1.03
1.03
-2.13
-23.46
26
1
4.37
0.3
84.45
1.59
1.59
1.52
3.79
7.59
27
1
1.64
1.55
25.26
0.16
1.48
1.48
9.01
77.34
28
1
1.23
4.31
187.46
0.31
0.36
0.76
0.52
7.67
29
1
1.25
4.05
86.62
0.36
1.03
1.03
2.07
17.35
30
1
5.3
0.23
94.38
0.54
1.03
1.24
-3.06
-9.83
31
0
1.67
1.59
216.77
0.33
0.39
0.29
-1.05
-10.85
32
0
1.21
4.72
387.18
0.21
0.4
0.39
-23.45
-147.63
33
0
1.25
4.04
102.84
-0.03
1
0.99
2.02
8.06
34
0
1.08
17.52
63
0.24
1.21
1.05
-7.76
-25.24
35
0
1.17
5.88
219.05
0.36
1.29
0.8
1.62
2.2
36
0
1.87
1.15
87.61
0.74
1.28
1.1
-40.36
-135.03
37
0
1.45
2.22
227.74
0.39
0.92
0.42
-50.67
-26.3
38
0
1.19
5.31
475.96
0.3
0.33
0.27
-0.61
-9.55
39
0
2.09
0.92
189.03
0.06
0.06
0.03
-0.08
5.61
40
0
1.31
15.81
154.59
0.75
1.35
1.21
4.72
34.67
(a) Utilizando o Método de Descarte de Variáveis Independentes, visto na Lista 4 (Análise de Componentes Principais) determinar quais variáveis devem permanecer na análise.
143
O método de descarte sugere descartar um número de variáveis igual ao número de autovalores menores que 0.7. Como pode ser observado no screeplot acima, são 5 variáveis. Analisando os coeficientes: Autovalor Var
1
2
3
4
5
6
7
8
9
X1
0.0956
0.4145
-0.2769
-0.5960
-0.0542
0.1745
-0.3204
0.3600
0.3486
X2
0.0333
0.2195
0.1665
0.0467
-0.5641
-0.6898
-0.1216
-0.1850
0.2787
X3
-0.0024
0.2190
0.0172
-0.4346
-0.2761
0.0691
0.7854
-0.1119
-0.2292
X4
0.0160
0.2528
-0.2666
-0.1758
0.6075
-0.5919
-0.0051
-0.1068
-0.3209
X5
-0.4827
0.0551
0.5558
-0.2709
0.3632
0.0502
0.0188
-0.2957
0.3992
X6
0.7739
0.0475
0.0435
0.0678
0.2440
0.0986
0.1680
-0.3653
0.4018
X7
-0.3820
-0.0335
-0.7085
0.1713
-0.0371
0.0707
0.1535
-0.3882
0.3756
X8
0.0421
-0.6759
-0.0757
-0.2437
0.0905
-0.3442
0.2724
0.4059
0.3328
X9
-0.0994
0.4527
0.0758
0.5061
0.1800
-0.0532
0.3733
0.5253
0.2697
As variáveis descartadas foram: 𝑋2 : MG, 𝑋3 : PCT , 𝑋4 : IPL, 𝑋6 : LC, 𝑋9 : RPL (b) Efetuar uma regressão logística múltipla considerando a variável dependente (VD) e como variáveis independente aquelas que permaneceram após o descarte feito no item anterior. Model: Logistic regression (logit) N of 0’s:10 1’s:30 Dep. var: VD Loss: Max likelihood Final loss: 8,953831045 Chi2 (3)=27,079 p=,00001
144
Const.B0
LS
LG
RVS
Estimate
-3,24551
5
2
0,15
Odds ratio (unit ch)
0,03895
126
8
1,16
671741504
1729328
72719,5
Odds ratio (range)
𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆 1 + 𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆 (c) Determinar os % de classificação correta. Classification of Cases (lista7exe2.sta) Odds ratio: 56,000 Pred.
Pred.
Percent
0
1
Correct
0
8
2
80
1
2
28
93,33334
(d) Determinar a variável (VD) estimada para cada empresa. C:1 ,999994
C:11 ,998989
C:21 ,999921
C:31 ,230445
C:2 ,937724
C:12 ,861459
C:22 ,428275
C:32 ,007775
C:3 1,000000
C:13 ,999899
C:23 ,997234
C:33 ,256984
C:4 ,994190
C:14 ,988191
C:24 1,000000
C:34 ,257574
C:5 ,978185
C:15 ,999927
C:25 ,812119
C:35 ,593120
C:6 ,998556
C:16 1,000000
C:26 ,999704
C:36 ,035836
C:7 ,988006
C:17 ,865842
C:27 ,868120
C:37 ,000375
C:8 ,749960
C:18 ,999997
C:28 ,473084
C:38 ,209509
C:9 ,928765
C:19 ,989024
C:29 ,714051
C:39 ,051899
C:10 1,000000
C:20 ,999993
C:30 ,812953
C:40 ,972320
(e) Construir o histograma para os resíduos da regressão.
145
(f) Como você classificaria uma empresa com os seguintes valores para as variáveis (considere somente aquelas variáveis que não foram descartadas) MG = 2,37; PCT = 8,75; IPL = 254,54; LS = 0,97; LC = 1,23; LG = 0,76; RSV = 0,57; RPL = 7,45. Aplicando a fórmula vem: Calculando 𝑔(𝑥) = −3, 24551 − 5𝐿𝑆 + 2𝐿𝐺 + 0, 15𝑅𝑉 𝑆 , vem: 𝑔(𝑥) = 4, 242. Calculando 𝜋 ˆ (𝑥) =
8
𝑒𝑔(𝑥) 1+𝑒𝑔(𝑥)
=
𝑒4,242 1+𝑒4,242
= 0, 9858 Sendo classificado como adimplente.
Lista 8: Análise de Agrupamento 1. As distâncias entre 5 pares de itens são dadas abaixo:
146
⎤
⎡ 0
⎢ ⎢ ⎢ 4 0 ⎢ ⎢ ⎢ 6 9 0 ⎢ ⎢ ⎢ 1 7 10 0 ⎣ 6 3 5 8 0
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦
Faça uma análise de agrupamentos utilizando os métodos: (a) do vizinho mais próximo; A
B
C
A
0
B
4
0
C
6
9
0
D
1
7
10
D
E
A,D
0
B
C
A,D
0
B
4
0
C
6
9
0
E
6
3
5
E
0
A,D
B,E
A,D
0
B,E
4
0
C
6
5
C
0
E 6 3 5 8 0 O passo 3 junta A,D com B,E, sobrando a última ligação, A,D, B,E com C, na distância 5. No matlab >> D=[0 4 6 1 6; 4 0 9 7 3; 6 9 0 10 5; 1 7 10 0 8; 6 3 5 8 0] >> y=squareform(D) >> z=linkage(y) >> dendrogram(z) >> r=cophenet(z,y) D = 0
4
6
1
6
4
0
9
7
3
6
9
0
10
5
1
7
10
0
8
6
3
5
8
0
y = 147
4
6
1
1
4
1
2
5
3
6
7
4
3
8
5
6
9
7
3
10
z =
r = 0.7727 (b) do vizinho mais distante; >> z=linkage(y,’complete’) >> dendrogram(z) >> r=cophenet(z,y) z = 1
4
1
2
5
3
6
7
8
3
8
10
r = 0.7893 (c) construa os dendrogramas.
5
4.5
4
3.5
3
2.5
2
1.5
1 1
4
2
148
5
3
5
8
10 9 8 7 6 5 4 3 2 1 1
4
2
5
3
2. Suponha que temos as medidas de 3 variáveis: 𝑋1 , 𝑋2 e 𝑋3 para 6 itens: A, B, C, D, E e F. Os dados são dados abaixo: Itens
𝑋1
𝑋2
𝑋3
A
2
5
7
B
1
4
5
C
2
6
4
D
3
5
5
E
4
5
6
F
2
6
5
Usando a técnica das k-médias dividir os ítens em K = 2 grupos. Começar com os grupos iniciais (ABC) e (DEF). >> M=[2 5 1
4
7
5 2
6
4 3
5
5 4
5
6 2
6
mx_ABC=mean(M(1:3,:)) mx_DEF=mean(M(4:6,:)) M = 2
5
7
1
4
5
2
6
4
3
5
5
4
5
6
2
6
5
mx_ABC = 149
5]
1.6667
5.0000
5.3333
5.3333
5.3333
mx_DEF = 3.0000
>> %Distancia A >> d_A_ABC=sqrt(sum((M(1,:)-mx_ABC).^2)) >> d_A_DEF=sqrt(sum((M(1,:)-mx_DEF).^2)) >> %Distancia B >> d_B_ABC=sqrt(sum((M(2,:)-mx_ABC).^2)) >> d_B_DEF=sqrt(sum((M(2,:)-mx_DEF).^2)) >> %Distancia C >> d_C_ABC=sqrt(sum((M(3,:)-mx_ABC).^2)) >> d_C_DEF=sqrt(sum((M(3,:)-mx_DEF).^2)) >> %Distancia D >> d_D_ABC=sqrt(sum((M(4,:)-mx_ABC).^2)) >> d_D_DEF=sqrt(sum((M(4,:)-mx_DEF).^2)) >> %Distancia E >> d_E_ABC=sqrt(sum((M(5,:)-mx_ABC).^2)) >> d_E_DEF=sqrt(sum((M(5,:)-mx_DEF).^2)) >> %Distancia F >> d_F_ABC=sqrt(sum((M(6,:)-mx_ABC).^2)) >> d_F_DEF=sqrt(sum((M(6,:)-mx_DEF).^2)) d_A_ABC = 1.6997 d_A_DEF = 1.9720 d_B_ABC = 1.2472 d_B_DEF = 2.4267 d_C_ABC = 1.6997 d_C_DEF = 1.7951
150
d_D_ABC = 1.3744 d_D_DEF = 0.4714 d_E_ABC = 2.4267 d_E_DEF = 1.2472 d_F_ABC = 1.1055 d_F_DEF = 1.2472 >> G_ABCF=[M(1:3,:);M(6,:)] G_DE=M(4:5,:)
mx_ABCF=mean(G_ABCF) mx_DE=mean(G_DE) %Distancia A d_A_ABCF=sqrt(sum((M(1,:)-mx_ABCF).^2)) d_A_DE=sqrt(sum((M(1,:)-mx_DE).^2)) %Distancia B d_B_ABCF=sqrt(sum((M(2,:)-mx_ABCF).^2)) d_B_DE=sqrt(sum((M(2,:)-mx_DE).^2)) %Distancia C d_C_ABCF=sqrt(sum((M(3,:)-mx_ABCF).^2)) d_C_DE=sqrt(sum((M(3,:)-mx_DE).^2)) %Distancia D d_D_ABCF=sqrt(sum((M(4,:)-mx_ABCF).^2)) d_D_DE=sqrt(sum((M(4,:)-mx_DE).^2)) %Distancia E d_E_ABCF=sqrt(sum((M(5,:)-mx_ABCF).^2)) d_E_DE=sqrt(sum((M(5,:)-mx_DE).^2)) %Distancia F d_F_ABCF=sqrt(sum((M(6,:)-mx_ABCF).^2))
151
d_F_DE=sqrt(sum((M(6,:)-mx_DE).^2)) disp(’Grupo1: ABCF’) disp(’Grupo2: DE’) G_ABCF = 2
5
7
1
4
5
2
6
4
2
6
5
3
5
5
4
5
6
G_DE =
mx_ABCF = 1.7500
5.2500
5.2500
5.0000
5.5000
mx_DE = 3.5000 d_A_ABCF = 1.7854 d_A_DE = 2.1213 d_B_ABCF = 1.4790 d_B_DE = 2.7386 d_C_ABCF = 1.4790 d_C_DE = 2.3452 d_D_ABCF = 1.2990 d_D_DE = 0.7071 d_E_ABCF = 2.3848 d_E_DE = 0.7071
152
d_F_ABCF = 0.8292 d_F_DE = 1.8708
Grupo1: ABCF Grupo2: DE 3. Usando os dados do Exercício 4 da LISTA 5 (Análise Fatorial), fazer uma Análise de Agrupamento utilizando os diversos tipos de distâncias e ligações. Construir o dendrograma para a melhor solução. A tabela seguinte mostra as quantidades das 25 espécies de plantas mais abundantes em 17 lotes de um prado de pastagem na Reserva natural em Steneryd na Suécia medidas por Persson (1981) e usadas para um exemplo de Digby e Kempton (1987). Cada valor na tabela é a soma dos valores cobertos em intervalo de 0 a 5 por nove quadrantes de amostra, de modo que um valor de 45 corresponde à completa cobertura pelas espécies sendo consideradas. Note que as espécies estão em ordem das mais abundantes (1) às menos abundantes (25), e os lotes estão na ordem dada por Digby e Kempton , a qual corresponde à variação em certos fatores ambientais tais como luz e umidade. Execute uma análise de agrupamentos para estudar o relacionamento entre (a) os 17 lotes e (b) as 25 espécies. Espécies
Lotes 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
𝐸1
38
43
43
30
10
11
20
0
0
5
4
1
1
0
0
0
0
𝐸2
0
0
0
4
10
7
21
14
13
19
20
19
6
10
12
14
21
𝐸3
0
0
0
0
0
6
8
21
39
31
7
12
0
16
11
6
9
𝐸4
10
12
19
15
16
9
0
9
28
8
0
4
0
0
0
0
0
𝐸5
0
0
0
0
0
0
0
0
0
0
13
0
0
21
20
21
37
𝐸6
0
0
0
0
0
0
0
0
0
0
1
0
0
0
11
45
45
𝐸7
1
0
5
6
2
8
10
15
12
15
4
5
6
7
0
0
0
𝐸8
0
7
0
10
9
9
3
9
8
9
2
5
5
1
7
0
0
𝐸9
0
0
1
4
6
9
9
9
11
11
6
5
4
1
7
0
0
𝐸10
0
0
0
0
0
8
0
14
2
14
3
9
8
7
7
2
1
𝐸11
0
0
0
0
0
8
0
0
6
5
4
7
9
8
8
7
6
153
𝐸12
0
5
3
9
12
9
0
1
7
4
5
1
1
1
3
0
0
𝐸13
0
0
0
0
0
0
30
0
14
3
8
0
3
3
0
0
0
𝐸14
4
10
10
9
7
6
9
0
0
2
1
0
2
0
1
0
0
𝐸15
2
9
7
15
13
8
0
0
0
0
0
0
0
0
0
0
0
𝐸16
0
0
0
0
15
6
0
18
1
9
0
0
2
0
0
0
0
𝐸17
12
7
16
8
1
6
0
0
0
0
0
0
0
0
0
0
0
𝐸18
0
0
0
0
0
7
0
2
2
1
0
7
9
2
3
8
7
𝐸19
0
0
0
0
0
7
9
2
12
6
3
8
0
0
0
0
0
𝐸20
0
0
0
0
2
6
3
0
6
5
3
9
3
2
7
0
0
𝐸21
0
0
0
0
0
4
1
4
2
9
6
8
4
1
6
0
0
𝐸22
0
0
0
0
0
8
0
4
0
6
2
10
6
0
2
7
0
𝐸23
1
9
16
9
5
2
0
0
0
0
0
0
0
0
0
0
0
𝐸24
0
0
0
0
2
7
0
1
0
3
1
6
8
2
0
7
4
𝐸25
0
0
6
14
19
2
0
0
0
0
0
0
0
0
0
0
0
Espécies: 𝐸1 = festuca ovina; 𝐸2 = anemone nemorosa; 𝐸3 = stallaria holostea; 𝐸4 = agrostis tenuis; 𝐸5 = ranunculus ficaria; 𝐸6 = merculrialis perenis; 𝐸7 = poa pratenis; 𝐸8 = rumex acetosa; 𝐸9 = verônica chamaedrys; 𝐸1 0 = dactylis glomerata; 𝐸11 = fraxinus Excelsior; 𝐸12 = saxifraga granulata; 𝐸13 = deschampsia flexuosa; 𝐸14 = luzula campestris; 𝐸15 = plantago lanceolata; 𝐸16 = festuca rubra; 𝐸17 = hieracium pilosella; 𝐸18 = geum urbanum; 𝐸19 = lathyrus montanus; 𝐸20 = campânula persicifolia; 𝐸21 = viola riviniana; 𝐸22 = hepática nobilis; 𝐸23 = achillea millefolium; 𝐸24 = allium sp.; 𝐸25 = trifolim repens. function analisefunc(X) distancia = [ ’euclidean
’
’seuclidean ’ ’mahalanobis’ ’cityblock
’
’minkowski
’
’cosine
’
’correlation’ ’hamming
’
’jaccard
’
’chebychev
’ 154
];
strdist= cellstr(distancia); iTamDist = size(strdist); ligacao = [ ’single
’
’complete’ ’average ’ ’weighted’ ’centroid’ ’median
’
’ward
’ ];
strlink = cellstr(ligacao); iTamLink = size(strlink); fid = fopen(’c:\cophenet.txt’,’w’); for i=1:iTamDist Y = pdist(X,char(strdist(i))); for j=1:iTamLink Z = linkage(Y,char(strlink(j))); c = cophenet(Z,Y); fprintf(fid,’%12s %12s %6.4f\n’,char(strdist(i)), char(strlink(j)), c); end end fclose(fid);
Distância
Link
Cophenet
euclidean
single
0,68
euclidean
complete
0,7
euclidean
average
0,75
euclidean
weighted
0,74
euclidean
centroid
0,75
euclidean
median
0,74
euclidean
ward
0,64
seuclidean
single
0,75
seuclidean
complete
0,7
seuclidean
average
0,83
seuclidean
weighted
0,81
155
seuclidean
centroid
0,83
seuclidean
median
0,43
seuclidean
ward
0,61
mahalanobis
single
0,81
mahalanobis
complete
0,73
mahalanobis
average
0,85
mahalanobis
weighted
0,8
mahalanobis
centroid
0,84
mahalanobis
median
0,72
mahalanobis
ward
0,58
cityblock
single
0,61
cityblock
complete
0,6
cityblock
average
0,66
cityblock
weighted
0,58
cityblock
centroid
0,66
cityblock
median
0,72
cityblock
ward
0,6
minkowski
single
0,68
minkowski
complete
0,7
minkowski
average
0,75
minkowski
weighted
0,74
minkowski
centroid
0,75
minkowski
median
0,74
minkowski
ward
0,64
cosine
single
0,49
cosine
complete
0,55
cosine
average
0,65
cosine
weighted
0,56
cosine
centroid
0,64
cosine
median
0,5
cosine
ward
0,55
correlation
single
0,59
correlation
complete
0,47
correlation
average
0,66
correlation
weighted
0,53
correlation
centroid
0,65
correlation
median
0,62
correlation
ward
0,48
hamming
single
0,56
156
hamming
complete
0,69
hamming
average
0,7973
hamming
weighted
0,7906
hamming
centroid
-0,2757
hamming
median
0,1574
hamming
ward
0,2909
jaccard
single
0,5581
jaccard
complete
0,6883
jaccard
average
0,7973
jaccard
weighted
0,7906
jaccard
centroid
-0,2757
jaccard
median
0,1574
jaccard
ward
0,2909
chebychev
single
0,6429
chebychev
complete
0,7247
chebychev
average
0,7307
chebychev
weighted
0,7254
chebychev
centroid
0,7307
chebychev
median
0,6334
chebychev
ward
0,7161
Ao analisar os dados acima, a melhor solução foi Distância
Link
Cophenet
mahalanobis
average
0,85
4. A tabela abaixo fornece as medidas de 5 variáveis nutricionais para 12 tipos de cereais usados no café da manhã. 157
Cereal
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
Proteínas
Carboidratos
Fat
Calorias
Vitamina A
2. Grape nuts
3
23
0
100
25
3. Super sugar
2
26
0
110
25
4. Special K
6
21
0
110
25
5.Rice Krispies
2
25
0
110
25
6. Raisin Bran
3
28
1
120
25
7. Product 19
2
24
0
110
100
8.Wheaties
3
23
1
110
25
9. Total
3
23
1
110
100
10.Puffed Rice
2
13
0
50
0
11. Sugar Corn Po
2
26
0
110
25
12. Sugar Smacks
1
25
0
110
25
(a) Usando os dados dessa tabela, calcular as distâncias Euclidianas entre pares de cereais. -
27,4
26,29
25,1
26,04
28,55
100,21
25,5
100,12
60,44
26,29
26,21
27,4
-
10,49
10,63
10,25
20,64
75,68
10,05
75,67
56,8
10,49
10,39
26,29
10,49
-
6,4
1
10,3
75,03
3,32
75,07
66,29
-
1,41
25,1
10,63
6,4
-
5,66
12,61
75,17
3,74
75,09
65,61
6,4
6,4
26,04
10,25
1
5,66
-
10,54
75,01
2,45
75,04
66,1
1
1
28,55
20,64
10,3
12,61
10,54
-
75,78
11,18
75,83
75,84
10,3
10,68
100,21
75,68
75,03
75,17
75,01
75,78
-
75,02
1,73
117,14
75,03
75,01
25,5
10,05
3,32
3,74
2,45
11,18
75,02
-
75
65,78
3,32
3
100,12
75,67
75,07
75,09
75,04
75,83
1,73
75
-
117,06
75,07
75,06
60,44
56,8
66,29
65,61
66,1
75,84
117,14
65,78
117,06
-
66,29
66,11
26,29
10,49
-
6,4
1
10,3
75,03
3,32
75,07
66,29
-
1,41
26,21
10,39
1,41
6,4
1
10,68
75,01
3
75,06
66,11
1,41
-
(b) Tratando as distâncias calculadas em (a) como medidas de similaridade, efetuar o procedimento hierárquico do vizinho mais próximo, construindo o dendrograma correspondente. Este procedimento no matlab corresponde ao modelo ’single’, com distância ’euclidean’. Este dá o seguinte dendrogram.
158
70
60
50
40
30
20
10
0
3
11
5
12
8
4
2
6
1
10
7
9
5. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra, situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ... , CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7; COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e b (mg/10g)). Áreas
CTM1
CTM2
CTM3
CTM4
CTM5
CTM7
COB
IAF
CLT
1. T1
4.5
6.75
5.25
71
45.5
8.75
97.9
5.12
18
2. T2
8.75
9.5
11.5
43.5
53.75
14.5
52.4
1.91
15.22
3. T7
5.75
8.25
8.5
51.25
42
9.5
50.6
2.74
15.61
4. T14
7.75
9.75
11.75
50.25
41.25
10.25
49.3
0.89
14.44
5. T15
5.5
6.5
5
73.25
40.5
6.5
96.5
6.68
17.9
6. T22
9.5
12
28.5
31.5
61.75
31.25
11.1
0.27
12.73
7. T26
9
10.25
9.25
61.75
48
10
90.2
3.71
14.82
8. T28
6.75
7.75
6.25
82
44.5
6.75
96.7
5.36
17.32
9. T33
6.25
6.5
5.25
80.25
46.75
6.75
96
6.55
15.09
159
10. T43
8.5
10
8.25
74.75
55.5
10.5
97.9
2.05
16.28
11.F3A
9
11.5
20.5
43.75
58
22.25
19.7
0.81
10.25
12.F9
5.75
7
11
28.25
31
9
14.3
0.62
12.35
13.F10
6.25
7.5
17.5
22
31
13.5
4.2
0.15
8.26
14.F17
7
9.75
9.75
61.25
53.75
11.75
55.3
1.96
14.36
15.F18
8.25
10.5
9
83
60
11.75
85.8
6.64
11.39
16.F36
6.75
8.25
8
59
46.75
9.75
45.5
2.2
12.29
17.F6A
8
10
11
49.25
48
14
16.9
1.17
13.27
18.F40
6.75
8
10.75
43.75
42
10
38.1
1.58
14.4
19.F41
7.75
10.25
15.5
45.25
58.75
20.5
29.2
0.74
15.62
20.F42
8.25
11
16.75
31.25
46.75
18.25
21.5
9.63
10.37
Agrupar as áreas de plantio em 2 grupos, utilizando as distâncias estudadas e as diferentes ligações, calculando o coeficiente cofenético. Construir também o dendrograma e discutir os resultados. Euclidiana
Mahalanobis
160
Cityblock
Minkosk
161
Cosseno
Correlação
162
Hamming
Jaccard
163
Chebychev
Quadrado euclideana
164
Distância
Link
Cophenet
chebychev
average
0,8575
chebychev
centroid
0,8569
chebychev
median
0,8561
chebychev
weighted
0,8549
chebychev
ward
0,8544
chebychev
complete
0,8542
chebychev
single
0,853
euclidean
average
0,8349
minkowski
average
0,8349
euclidean
weighted
0,8347
minkowski
weighted
0,8347
euclidean
median
0,8341
minkowski
median
0,8341
euclidean
centroid
0,8337
minkowski
centroid
0,8337
euclidean
single
0,83
minkowski
single
0,83
euclidean
complete
0,8295
165
minkowski
complete
0,8295
euclidean
ward
0,8288
minkowski
ward
0,8288
seuclidean
centroid
0,7823
seuclidean
average
0,7737
cityblock
average
0,7684
seuclidean
weighted
0,767
cityblock
centroid
0,7668
seuclidean
complete
0,7581
correlation
average
0,7578
correlation
centroid
0,7577
correlation
weighted
0,7575
correlation
median
0,7575
cityblock
ward
0,7571
correlation
complete
0,7565
correlation
ward
0,7551
cosine
average
0,7356
cosine
centroid
0,7355
cosine
weighted
0,7354
cosine
median
0,7353
cosine
complete
0,7349
cosine
ward
0,734
correlation
single
0,7317
seuclidean
median
0,7288
cityblock
weighted
0,7275
cityblock
median
0,726
cityblock
complete
0,7168
mahalanobis
average
0,7059
cosine
single
0,704
mahalanobis
weighted
0,6818
cityblock
single
0,6781
hamming
average
0,6656
166
jaccard
average
0,6656
seuclidean
ward
0,6648
mahalanobis
centroid
0,6543
hamming
weighted
0,6538
jaccard
weighted
0,6538
mahalanobis
median
0,6139
hamming
ward
0,6067
jaccard
ward
0,6067
mahalanobis
complete
0,5812
hamming
complete
0,5791
jaccard
complete
0,5791
seuclidean
single
0,5639
mahalanobis
single
0,5571
mahalanobis
ward
0,4771
hamming
median
0,1378
jaccard
median
0,1378
hamming
single
0,1357
jaccard
single
0,1357
hamming
centroid
-0,3076
jaccard
centroid
-0,3076
As distância que sugerem uma boa classificação são a de chebychev, euclideana e minkowski. Todas elas, possuem o agrupamento similar ao dendrograma abaixo (chebychev, average).
167
Grupo
Áreas
CTM1
CTM2
CTM3
CTM4
CTM5
CTM7
COB
IAF
CLT
1
1. T1
4.50
6.75
5.25
71.00
45.50
8.75
97.9
5.12
18.00
5. T15
5.50
6.50
5.0
73.25
40.50
6.50
96.5
6.68
17.90
7. T26
9.00
10.25
9.25
61.75
48.00
10.00
90.2
3.71
14.82
8. T28
6.75
7.75
6.25
82.00
44.50
6.75
96.7
5.36
17.32
9. T33
6.25
6.50
5.25
80.25
46.75
6.75
96.0
6.55
15.09
10. T43
8.50
10.00
8.25
74.75
55.50
10.50
97.9
2.05
16.28
15.F18
8.25
10.50
9.0
83.00
60.00
11.75
85.8
6.64
11.39
2. T2
8.75
9.50
11.50
43.50
53.75
14.50
52.4
1.91
15.22
3. T7
5.75
8.25
8.50
51.25
42.00
9.50
50.6
2.74
15.61
4. T14
7.75
9.75
11.75
50.25
41.25
10.25
49.3
0.89
14.44
6. T22
9.50
12.00
28.50
31.50
61.75
31.25
11.1
0.27
12.73
11.F3A
9.00
11.50
20.50
43.75
58.00
22.25
19.7
0.81
10.25
12.F9
5.75
7.00
11.0
28.25
31.00
9.00
14.3
0.62
12.35
13.F10
6.25
7.50
17.5
22.00
31.00
13.50
4.2
0.15
8.26
14.F17
7.00
9.75
9.75
61.25
53.75
11.75
55.3
1.96
14.36
16.F36
6.75
8.25
8.0
59.00
46.75
9.75
45.5
2.20
12.29
17.F6A
8.00
10.00
11.0
49.25
48.00
14.00
16.9
1.17
13.27
18.F40
6.75
8.00
10.75
43.75
42.00
10.00
38.1
1.58
14.40
19.F41
7.75
10.25
15.50
45.25
58.75
20.50
29.2
0.74
15.62
20.F42
8.25
11.00
16.75
31.25
46.75
18.25
21.5
9.63
10.37
2
168
9
Lista 9: Análise de Correlação Canônica 1. (Variáveis solo e vegetação em Belize) Para uma exemplo com um grande número de dados, considere parte dos dados coletados por Green (1973) para um estudo dos fatores influenciando a locação de lugares de habitação Maya pré-históricos no distrito de Corozal em Belize na América Central. A Tabela seguinte mostra quatro variáveis do solo e quatro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. Use a análise de correlação canônica para estudar o relacionamento entre estes dois grupos de variáveis. Quadrado
Variáveis de Solo
Variáveis de Vegetação
𝑋1
𝑋2
𝑋3
𝑋4
𝑌1
𝑌2
𝑌3
𝑌4
1
40
30
0
30
0
25
0
0
2
20
0
0
10
10
90
0
0
3
5
0
0
50
20
50
0
0
4
30
0
0
30
0
60
0
0
5
40
20
0
20
0
95
0
0
6
60
0
0
5
0
100
0
0
7
90
0
0
10
0
100
0
0
8
100
0
0
0
20
80
0
0
9
0
0
0
10
40
60
0
0
10
15
0
0
20
25
10
0
0
11
20
0
0
10
5
50
0
0
12
0
0
0
50
5
60
0
0
13
10
0
0
30
30
60
0
0
14
40
0
0
20
50
10
0
0
15
10
0
0
40
80
20
0
0
16
60
0
0
0
100
0
0
0
17
45
0
0
0
5
60
0
0
18
100
0
0
0
100
0
0
0
19
20
0
0
0
20
0
0
0
20
0
0
0
60
0
50
0
0
21
0
0
0
80
0
75
0
0
22
0
0
0
50
0
50
0
0
23
30
10
0
60
0
100
0
0
24
0
0
0
50
0
50
0
0
169
25
50
20
0
30
0
100
0
0
26
5
15
0
80
0
100
0
0
27
60
40
0
0
10
90
0
0
28
60
40
0
0
50
50
0
0
29
94
5
0
0
90
10
0
0
30
80
0
0
20
0
100
0
0
31
50
50
0
0
25
75
0
0
32
10
40
50
0
75
25
0
0
33
12
12
75
0
10
90
0
0
34
50
50
0
0
15
85
0
0
35
50
40
10
0
80
20
0
0
36
0
0
100
0
100
0
0
0
37
0
0
100
0
100
0
0
0
38
70
30
0
0
50
50
0
0
39
40
40
20
0
50
50
0
0
40
0
0
100
0
100
0
0
0
41
25
25
50
0
100
0
0
0
42
40
40
0
20
80
20
0
0
43
90
0
0
10
100
0
0
0
44
100
0
0
0
100
0
0
0
45
100
0
0
0
90
10
0
0
46
10
0
0
90
100
0
0
0
47
80
0
0
20
100
0
0
0
48
60
0
0
30
80
0
0
0
49
40
0
0
0
0
30
0
0
50
50
0
0
50
100
0
0
0
51
50
0
0
0
40
0
0
0
52
30
30
0
20
30
60
0
0
53
20
20
0
40
0
100
0
0
54
20
80
0
0
0
100
0
0
55
0
10
0
60
0
75
0
0
56
0
50
0
30
0
75
0
0
57
50
50
0
0
30
70
0
0
170
58
0
0
0
60
0
60
0
0
59
20
20
0
60
0
100
0
0
60
90
10
0
0
70
30
0
0
61
100
0
0
0
100
0
0
0
62
15
15
0
30
0
40
0
0
63
100
0
0
0
25
75
0
0
64
95
0
0
5
90
10
0
0
65
95
0
0
5
90
10
0
0
66
60
40
0
0
50
50
0
0
67
30
60
10
10
50
10
0
0
68
50
0
50
50
100
0
0
0
69
60
30
0
10
69
40
0
0
70
90
8
0
2
80
20
0
0
71
30
30
30
40
60
40
0
0
72
33
33
33
33
75
25
0
0
73
20
10
0
40
0
100
0
0
74
50
0
0
50
40
60
0
0
75
75
12
0
12
50
50
0
0
76
75
0
0
25
40
60
0
0
77
30
0
0
50
0
100
0
0
78
50
10
0
30
5
95
0
0
79
100
0
0
0
60
40
0
0
80
50
0
0
50
20
80
0
0
81
10
0
0
90
0
100
0
0
82
30
30
0
20
0
85
0
0
83
20
20
0
20
0
75
0
0
84
90
0
0
0
50
25
0
0
85
30
0
0
0
30
5
0
0
86
20
30
0
50
20
80
0
0
87
50
30
0
10
50
50
0
0
88
80
0
0
0
70
10
0
0
89
80
0
0
0
50
0
0
0
90
60
10
0
25
80
15
0
0
171
91
50
0
0
0
75
0
0
0
92
70
0
0
0
75
0
0
0
93
100
0
0
0
85
15
0
0
94
60
30
0
0
40
60
0
0
95
80
20
0
0
50
50
0
0
96
100
0
0
0
100
0
0
0
97
100
0
0
0
95
5
0
0
98
0
0
0
60
0
50
0
0
99
30
20
0
30
0
60
0
40
100
15
0
0
35
20
30
0
0
101
40
0
0
45
70
20
0
0
102
30
0
0
45
20
40
0
20
103
60
10
0
30
10
65
5
20
104
40
20
0
40
0
25
0
75
105
100
0
0
0
70
0
0
30
196
100
0
0
0
40
60
0
0
107
80
10
0
10
40
60
0
0
108
90
0
0
10
10
0
0
90
109
100
0
0
0
20
10
0
70
110
30
50
0
20
10
90
0
0
111
60
40
0
0
50
50
0
0
112
100
0
0
0
80
10
0
10
113
60
0
0
40
60
10
30
0
114
50
50
0
0
0
100
0
0
115
60
30
0
10
25
75
0
0
116
40
0
0
60
30
20
50
0
117
30
0
0
70
0
50
50
0
118
50
20
0
30
0
100
0
0
119
50
50
0
0
25
75
0
0
120
90
10
0
0
50
50
0
0
121
100
0
0
0
60
40
0
0
122
50
0
0
50
70
30
0
0
123
10
10
0
80
0
100
0
0
172
124
50
50
0
0
30
70
0
0
125
75
0
0
25
80
20
0
0
126
40
0
0
60
0
100
0
0
127
90
10
0
10
75
25
0
0
128
45
45
0
55
30
70
0
0
129
20
35
0
80
10
90
0
0
130
80
0
0
20
70
30
0
0
131
100
0
0
0
90
0
0
0
132
75
0
0
25
50
50
0
0
133
60
5
0
40
50
50
0
0
134
40
0
0
60
60
40
0
0
135
60
0
0
40
70
15
0
0
136
90
10
0
10
75
25
0
0
137
50
0
5
0
30
20
0
0
138
70
0
30
0
70
30
0
0
119
60
0
40
0
100
0
0
0
140
50
0
0
0
50
0
0
0
141
30
0
50
0
60
40
0
0
142
5
0
95
0
80
20
0
0
143
10
0
90
0
70
30
0
0
144
50
0
0
0
15
30
0
0
145
20
0
80
0
50
50
0
0
146
0
0
100
0
90
10
0
0
147
0
0
100
0
75
25
0
0
148
90
0
10
0
60
30
10
0
149
0
0
100
0
80
10
10
0
150
0
0
100
0
60
40
0
0
151
0
40
60
40
50
50
0
0
Nota: 𝑋1 = % de solo com enriquecimento constante de calário; 𝑋2 = % de solo de prado com cálcio na água subterrânea; 𝑋3 = % de solo com matriz de coral sob condições de enriquecimento constante de calcário; 𝑋4 = % de solo aluvial e orgânico adjacentes a rios e solo orgânico salino na costa; 𝑌1 = % de floresta decídua estacional com ervas de folhas
173
largas; 𝑌2 = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em lugares úmidos e pântanos; 𝑌3 = % de floresta de palma de cohune; 𝑌4 = % de floresta mista. >> X=[]; >> Y=[]; >> R11=corr(X) R11 = 1.0000
-0.1433
-0.4089
-0.4692
-0.1433
1.0000
-0.0959
-0.0948
-0.4089
-0.0959
1.0000
-0.2387
-0.4692
-0.0948
-0.2387
1.0000
>> R22=corr(Y) R22 = 1.0000
-0.7854
-0.0597
-0.1542
-0.7854
1.0000
-0.0682
-0.1366
-0.0597
-0.0682
1.0000
-0.0235
-0.1542
-0.1366
-0.0235
1.0000
>> R12=corr(X,Y) R12 = 0.3785
-0.2693
-0.0292
0.1414
-0.2270
0.3831
-0.1045
-0.0494
0.3477
-0.2238
-0.0172
-0.0748
-0.3944
0.3475
0.2070
-0.0128
>> R21=corr(Y,X) R21 = 0.3785
-0.2270
0.3477
-0.3944
-0.2693
0.3831
-0.2238
0.3475
-0.0292
-0.1045
-0.0172
0.2070
0.1414
-0.0494
-0.0748
-0.0128
>> R11i=inv(sqrtm(R11)) R11i = 1.3660
0.1922
0.4490
0.4905
0.1922
1.0479
0.1499
0.1574 174
0.4490
0.1499
1.2362
0.3562
0.4905
0.1574
0.3562
1.2748
>> R22i=inv(R22) R22i = 3.3498
2.7827
0.4111
0.9062
2.7827
3.3359
0.4147
0.8944
0.4111
0.4147
1.0562
0.1449
0.9062
0.8944
0.1449
1.2653
>> Rx=R11i*R12*R22i*R21*R11i Rx = 0.3511
0.0271
0.2734
-0.0079
0.0271
0.1835
0.0077
0.1113
0.2734
0.0077
0.2407
-0.0290
-0.0079
0.1113
-0.0290
0.1578
>> [e,l]=eig(Rx) e = -0.7718
-0.0395
-0.6198
0.1361
-0.0531
-0.7421
-0.0333
-0.6673
-0.6321
0.0640
0.7700
-0.0593
0.0441
-0.6660
0.1478
0.7298
0.5773
0
0
0
0
0.2841
0
0
0
0
0.0147
0
0
0
0
0.0569
-1.3267
-0.4945
-0.4349
0.3891
-0.2917
-0.8805
-0.0153
-0.5671
-1.1201
-0.2870
0.7213
0.1478
-0.5559
-0.9624
0.1534
0.8710
l =
>> A=R11i*e A =
>> a1=R11i*e(:,1) a1 =
175
-1.3267 -0.2917 -1.1201 -0.5559 >> a2=R11i*e(:,2) a2 = -0.4945 -0.8805 -0.2870 -0.9624 >> a3=R11i*e(:,3) a3 = -0.4349 -0.0153 0.7213 0.1534 >> a4=R11i*e(:,4) a4 = 0.3891 -0.5671 0.1478 0.8710 >> R22i=inv(sqrtm(R22)) R22i = 1.5975
0.8473
0.1152
0.2583
0.8473
1.5939
0.1176
0.2523
0.1152
0.1176
1.0136
0.0411
0.2583
0.2523
0.0411
1.0645
>> R11i=inv(R11) R11i = 2.3451
0.6084
1.3718
1.4856
0.6084
1.1823
0.4846
0.5133
1.3718
0.4846
1.8791
1.1382
176
1.4856
0.5133
1.1382
2.0175
>> Ry=R22i*R21*R11i*R12*R22i Ry = 0.5463
0.0123
0.0356
0.1177
0.0123
0.2731
0.0486
0.0262
0.0356
0.0486
0.0673
0.0242
0.1177
0.0262
0.0242
0.0464
>> [f,l]=eig(Ry) f = 0.9687
0.1071
0.1898
-0.1193
0.0717
-0.9694
0.0353
-0.2322
0.0849
-0.2079
0.2721
0.9357
0.2222
-0.0747
-0.9427
0.2374
0.5773
0
0
0
0
0.2841
0
0
0
0
0.0147
0
0
0
0
0.0569
1.6753
-0.6936
0.1209
-0.2181
1.0010
-1.4977
0.0112
-0.3012
0.2152
-0.3155
0.2631
0.9171
0.5083
-0.3050
-0.9344
0.2018
l =
>> B=R22i*f B =
>> b1=R22i*f(:,1) b1 = 1.6753 1.0010 0.2152 0.5083 >> b2=R22i*f(:,2) b2 = -0.6936
177
-1.4977 -0.3155 -0.3050 >> b3=R22i*f(:,3) b3 = 0.1209 0.0112 0.2631 -0.9344 >> b4=R22i*f(:,4) b4 = -0.2181 -0.3012 0.9171 0.2018 Primeiro par de variáveis canônicas (1)
(1)
(1)
(1)
𝑈1 = 𝑎′1 𝑍 (1) = −1.3267𝑍1 − 0.2917𝑍2 − 1.1201𝑍3 − 0.5559𝑍4 (2)
(2)
(2)
(2)
𝑉1 = 𝑏′1 𝑍 (2) = 1.6753𝑍1 + 1.0010𝑍2 + 0.2152𝑍3 + 0.5083𝑍4 Correlação Canônica √ √ √ 𝐶𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 )2 = 𝜆1 = 0, 5773 = 0.7598 −0, 76 representa a maior correlação possível entre 𝑍 (1) e 𝑍 (2) . Se fizermos >> (a1’*a1)/4 ans = 0.8522 >> (b1’*b1)/4 ans = 1.0283
[(−1.3267)2 + (−0.2917)2 + (−1.1201)2 + (−0.5559)2 ]/4 = 0.8522 [(1.6753)2 + (1.0010)2 + (0.2152)2 + (0.5083)2 ]/4 = 1.0283 As variáveis do grupo 2 representam melhor o total de variáveis.
178
Correlações amostrais entre as variáveis originais e as variáveis canônicas
(1)
𝑋1 - 𝑈1 com 𝑋 (1) =
(1) 𝑋2 (1) 𝑋3 (1) 𝑋4
−0.5661 0.0585 −0.4170 0.3617
>> Rux1=a1’*R11; (2)
−0.6063
(2)
0.3031
𝑋3
(2)
−0.0266
(2) 𝑋4
−0.0823
𝑋1 - 𝑈1 com
𝑋 (2)
=
𝑋2
>> Rux2=a1’*R12; (1)
0.4301
(1)
−0.0444
(1)
0.3168
(1)
−0.2748
(2)
0.7979
(2)
−0.3989
𝑋1 - 𝑉1 com 𝑋 (1) =
𝑋2 𝑋3 𝑋4
>> Rvx1=b1’*R21; 𝑋1 - 𝑉1 com
𝑋 (2)
=
𝑋2
(2) 𝑋3 (2) 𝑋4
0.0349 0.1083
>> Rvx2=b1’*R22; Segundo par de variáveis canônicas (1)
(1)
(1)
(1)
(2)
(2)
(2)
(2)
𝑈2 = 𝑎′2 𝑍 (1) = −0.4945𝑍1 − 0.8805𝑍2 − 0.2870𝑍3 − 0.9624𝑍4 𝑉2 = 𝑏′2 𝑍 (2) = −0.6936𝑍1 − 1.4977𝑍2 − 0.3155𝑍3 − 0.3050𝑍4
Correlação Canônica √ √ √ 𝐶𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = (𝜌∗2 )2 = 𝜆2 = 0, 2841 = 0.5330 O segundo par de variáveis tem uma correlação menor do que o primeiro, e assim segue se calcularmos o terceiro e o quarto par de variáveis. 2. Considere a matriz de covariância
179
⎤
⎡ ⎡ ⎢ ⎢ 𝐶𝑜𝑣(𝑋) = ⎢ ⎣
100
0
⎢ ⎢ ⎢ 0 1 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ⎦ ⎢ ⎢ ⎢ Σ21 ∣ Σ22 0 0.95 ⎣ 0 0 ⎤
Σ11
∣
Σ12
∣
0
0
∣
0.95
0
⎥ ⎥ ⎥ ⎥ ⎥ ∣ −−− −−− ⎥ ⎥ ⎥ ⎥ ∣ 1 0 ⎦ ∣ 0 100 (1)
(2)
Verifique que o primeiro par de variáveis canônicas são: 𝑈1 = 𝑋2 , 𝑉1 = 𝑋1 correlação canônica 𝜌∗1 = 0, 95. Grupo 1: >> S11=[100 0;0 1] S11 = 100
0
0
1
>> S12=[0 0;0.95 0] S12 = 0
0
0.9500
0
>> S21=S12’ S21 = 0
0.9500
0
0
>> S22=[1 0;0 100] S22 = 1
0
0
100
>> S11i=inv(sqrtm(S11)); >> S22i=inv(S22); >> S=S11i*S12*S22i*S21*S11i; >> [e,l]=eig(S) e = 1
0
0
1
l = 180
com
0
0
0
0.9025
>> a1=S11i*e(:,2) a1 = 0 1 Grupo 2: >> S22i=inv(sqrtm(S22)); >> S11i=inv(S11); >> S=S22i*S21*S11i*S12*S22i; >> [f,l]=eig(S) f = 0
1
1
0
l = 0
0
0
0.9025
>> b1=S22i*f(:,2) b1 = 1 0 Assim, - 𝑈1 = 𝑎′1 𝑋 (1) =
- 𝑉1 = 𝑏′1 𝑋 (2) =
(
) 0 1
(
) 1 0
⎛ ⎝
⎛ ⎝
⎞
(1)
𝑋1
(1) 𝑋2 (2)
𝑋1
(2) 𝑋2
⎠ = 𝑋2(1) ⎞ ⎠ = 𝑋1(2)
- Correlação Canônica 𝑎′1 Σ12 𝑏1 √ = 𝑎′1 Σ11 𝑎1 𝑏′1 Σ22 𝑏1
𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = √
√ (𝜌∗1 )2 = 0, 95
3. Considere os vetores aleatórios (2 × 1): 𝑋 (1) e 𝑋 (2) tendo vetor de médias e matriz covariância conjuntas:
181
⎤
⎡ ⎡ ⎢ ⎢ 𝜇=⎢ ⎣
−3
⎢ ⎢ ⎢ 2 ⎥ ⎢ ⎥ ⎢ −−− ⎥=⎢ −−− ⎦ ⎢ ⎢ ⎢ 𝜇(2) 0 ⎣ 1 𝜇(1)
⎤
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤
⎡ 8
2
⎢ ⎢ ⎢ 2 5 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ⎦ ⎢ ⎢ ⎢ 3 −1 Σ21 ∣ Σ22 ⎣ 1 3 ⎤
⎡
Σ11
⎢ ⎢ Σ=⎢ ⎣
∣
Σ12
(a) Calcule as correlações canônicas: 𝜌∗1 e 𝜌∗2 . Grupo 1: >> S11=[8 2;2 5] S11 = 8
2
2
5
>> S12=[3 1;-1 3] S12 = 3
1
-1
3
>> S21=S12’ S21 = 3
-1
1
3
>> S22=[6 -2;-2 7] S22 = 6
-2
-2
7
>> S11i=inv(sqrtm(S11)) S11i = 0.3667
-0.0667
-0.0667
0.4667 182
∣
3
1
∣
−1
3
⎥ ⎥ ⎥ ⎥ ⎥ ∣ −−− −−− ⎥ ⎥ ⎥ ∣ 6 −2 ⎥ ⎦ ∣ −2 7
>> S22i=inv(S22) S22i = 0.1842
0.0526
0.0526
0.1579
>> S=S11i*S12*S22i*S21*S11i S = 0.2756
-0.0322
-0.0322
0.2690
>> [e,l]=eig(S) e = 0.7422
0.6702
-0.6702
0.7422
l = 0.3046
0
0
0.2400
0.3168
0.1962
-0.3622
0.3017
A =
Grupo 2: >> S22i=inv(sqrtm(S22)) S22i = 0.4243
0.0645
0.0645
0.3921
>> S11i=inv(S11) S11i = 0.1389
-0.0556
-0.0556
0.2222
>> S=S22i*S21*S11i*S12*S22i S = 0.2946
-0.0234
-0.0234
0.2500
>> [f,l]=eig(S) f =
183
0.9193
0.3936
-0.3936
0.9193
l = 0.3046
0
0
0.2400
>> B=S22i*f B = 0.3647
0.2263
-0.0951
0.3858
Correlação Canônica √ 0, 3046 = 0, 5519 √ 1 (𝜌∗2 ) 2 = 0, 24 = 0, 4899 1
𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 ) 2 = 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) =
0,5519 Representa a maior correlação possível entre 𝑋 (1) e 𝑋 (2) . (b) Determine os pares de variáveis canônicas: (𝑈1 , 𝑉1 ) e (𝑈2 , 𝑉2 ). (1)
(1)
𝑉1 = 0, 3647𝑋1 − 0, 0951𝑋2
(1)
(1)
𝑉2 = 0, 2263𝑋1 + 0, 3858𝑋2
𝑈1 = 0, 3168𝑋1 − 0, 3622𝑋2 𝑈2 = 0, 1962𝑋1 + 0, 3017𝑋2
(2)
(2)
(2)
(2)
4. Em um estudo sobre pobreza, crime e repressão. Parker e Smith determinaram certos sumários estatísticos do crime em vários estados americanos para os anos de 1970 e 1973. Uma parte da matriz de correlação amostral é dada abaixo. As variáveis são: (1)
= homicídios não-primários em 1973;
(1)
= homicídios primários (envolvendo familiares ou conhecidos) em 1973;
(2)
= severidade da penalidade (mediana dos meses de pena) em 1970;
𝑋1 𝑋2 𝑋1
(2)
𝑋2 = certeza da penalidade (número de admissões à prisão dividido pelo número de homicídios) em 1970. ⎤
⎡ ⎡ ⎢ ⎢ 𝑅=⎢ ⎣
1.0
0.615
∣ −0.111 −0.266
⎥ ⎢ ⎥ ⎢ ⎢ 0.615 1.0 ∣ −0.195 −0.085 ⎥ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ∣ −−− −−− ⎥ ⎥ ⎢ ⎦ ⎥ ⎢ ⎢ −0.111 −0.195 ∣ 1.0 −0.269 ⎥ 𝑅21 ∣ 𝑅22 ⎦ ⎣ −0.266 −0.085 ∣ −0.269 1.0 ⎤
𝑅11
∣
𝑅12
(a) Calcule as correlações canônicas amostrais. 184
Primeiro Grupo >> R11=[1 0.615; 0.615 1]; >> R12=[-0.111 -0.266;-0.195 -0.085]; >> R22=[1 -0.269;-0.269 1]; >> R21=R12’; >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.9463
-0.3232
0.3232
0.9463
0.1067
0
0
0.0293
l =
>> a1=R11i*e(:,1) a1 = 1.0016 -0.0026 >> A=R11i*e A = 1.0016
-0.7779
-0.0026
1.2682
Segundo Grupo >> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.8861
0.4634
0.4634
0.8861
l =
185
0.0293
0
0
0.1067
>> b1=R22i*f(:,2) b1 = 0.6016 0.9769 >> B=R22i*f B = -0.8462
0.6016
0.3518
0.9769 (1)
(1)
(2)
(2)
𝑈1 = 1.0016𝑍1 − 0.0026𝑍2 𝑉1 = 0.6016𝑍1 + 0.9769𝑍2 (1)
(1)
(2)
(2)
𝑈2 = −0.7779𝑍1 + 1.2682𝑍2 𝑉2 = −0.8462𝑍1 + 0.3518𝑍2 variáveis padronizadas (1)
(1)
𝑧1
variáveis padronizadas (2)
𝜌∗𝑖
𝑧2
𝑧1
(2)
𝑧2
a1
1.0016
-0.7779
0.3266
b1
-0.8462
0.6016
a2
-0.0026
1.2682
0.1712
b2
0.3518
0.9769
ˆ1 , 𝑉ˆ1 e interprete essas (b) Determine o primeiro par de correlação canônica amostral 𝑈 quantidades. (1)
(1)
(2)
(2)
𝑈1 = 1.0016𝑋1 − 0.0026𝑋2 𝑉1 = 0.6016𝑋1 + 0.9769𝑋2
>> Rux1=a1’*R11 Rux1 = 1.0000
0.6134
>> Rvx2=b1’*R22 Rvx2 = 0.3388
0.8150
>> Rux2=a1’*R12 Rux2 = -0.1107
-0.2662
>> Rvx1=b1’*R21 186
Rvx1 = -0.3266
-0.2003
𝑋 (1)
𝑋 (2)
variáveis canônicas 𝑈1
𝑉1
hom. não-primários
1.0000
-0.1107
hom. primários
0.6134
-0.2662
variáveis canônicas 𝑈1
𝑉1
sever. pen.
-0.3266
0.3388
cert. da pen.
-0.2003
0.8150
O valor da correlação entre 𝑈1 e 𝑉1 é baixo, pode-se inferir com isso que não é possível, através de uma combinação linear de 𝑋 (1) com outra combinação linear de 𝑋 (2) , identificar uma relação ou influência ou associação entre estes conjuntos de variáveis. Pode-se dizer que a certeza de penalidade faz com que o número de homicídios primários seja menor do que o número de homicídios não primários. Este, por sua vez, aumenta quando a severidade da pena cai. 5. Uma pesquisa envolvendo uma amostra de 𝑛 = 70 famílias foi utilizada para determinar a associação entre certas variáveis “demográficas” e certas variáveis “consumo”. Sejam: (1)
- Conjunto padrão: 𝑋1
(1)
= freqüência anual de refeições em restaurantes; 𝑋2
= fre-
qüência anual de ida ao cinema. (2)
- Conjunto preditor: 𝑋1 (2)
𝑋3
(2)
= idade do cabeça da família; 𝑋2
= renda anual da família;
= nível educacional do cabeça da família.
Suponha que a amostra forneceu para as variáveis consideradas a seguinte matriz de correlação amostral: ⎡ ⎡ ⎢ ⎢ 𝑅=⎢ ⎣
⎢ ⎢ ⎢ ⎢ 𝑅11 ∣ 𝑅12 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ ⎦ ⎢ ⎢ ⎢ 𝑅21 ∣ 𝑅22 ⎢ ⎢ ⎣ ⎤
⎤ 1.0 0.80
∣ 1.0
∣
−−− −−− ∣ 0.26
0.33
∣
0.67
0.59
∣
0.34
0.34
∣
(a) Determine as correlações canônicas amostrais. >> R11=[1 0.8;0.8 1]; >> R21=[0.26 0.33;0.67 0.59;0.34 0.34]; >> R12=R21’; 187
⎥ ⎥ ⎥ ⎥ ⎥ −−− −−− −−− ⎥ ⎥ ⎥ ⎥ 1.0 ⎥ ⎥ ⎥ 0.37 1.0 ⎦ 0.21 0.35 1.0
>> R22=[1 0.37 0.21;0.37 1 0.35; 0.21 0.35 1]; >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.5872
-0.8094
-0.8094
-0.5872
l = 0.0349
0
0
0.4733
>> a1=R11i*e(:,2) a1 = -0.7689 -0.2721 >> A=R11i*e A = 1.4787
-0.7689
-1.6443
-0.2721
>> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.2288
-0.9001
-0.3708
-0.9105
0.3326
-0.2456
-0.3444
-0.2814
0.8956
0.4733
0
0
0
0.0349
0
0
0
-0.0000
l =
>> B=R22i*f B =
188
-0.0491
-1.0003
-0.4070
-0.8975
0.5837
-0.3561
-0.1900
-0.2956
1.0129
>> b1=R22i*f(:,1) b1 = -0.0491 -0.8975 -0.1900 >> C1=sqrt(0.4733) C1 = 0.6880 >> C2=sqrt(0.0349) C2 = 0.1868 Logo, as correlações canônicas são: - 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0, 688 - 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0, 1868 (b) Calcule as variáveis canônicas e procure interpretá-las. (1)
(1)
- 𝑈1 = −0.8094𝑍1 − 0.5872𝑍2 (1)
(1)
- 𝑈2 = 0.5872𝑍1 − 0.8094𝑍2
(2)
(2)
(1)
−0.9866
(1)
−0.8872
(2)
−0.2897
- 𝑈1 com 𝑋 (2) = 𝑋2(2)
−0.6757
(2)
−0.3539
𝑋1
(1)
−0.6787
(1) 𝑋2
−0.6104
𝑋1
𝑋2 >> Rux1=a1’*R11; 𝑋1
𝑋3 >> Rux2=a1’*R12; - 𝑉1 com
𝑋 (1)
=
>> Rvx1=b1’*R21; (2)
−0.4211
- 𝑉1 com 𝑋 (2) = 𝑋2(2)
−0.9822
(2)
−0.5145
𝑋1
𝑋3
(2)
(2)
(2)
e 𝑉2 = −0.9001𝑍1 + 0.3326𝑍2 − 0.2814𝑍3
Correlações entre as variáveis canônicas e as variáveis amostrais - 𝑈1 com 𝑋 (1) =
(2)
e 𝑉1 = −0.2288𝑍1 − 0.9105𝑍2 − 0.3444𝑍3
189
>> Rvx2=b1’*R22; O grupo 1 tem uma boa correlação com o grupo 2 de quase 70%. O grupo 2 recebe (1)
influência das variáveis do grupo 1 (𝑋1
(2)
e 𝑋1 ), ou seja, idade, renda familiar e nível
educacional demonstram quem são os frequentadores de cinemas e restaurantes, en(2)
quanto no grupo 1, recebe uma influência grande da variável 𝑋2 , ou seja, a frequência em restaurantes e idas ao cinema crescem quando cresce a renda familiar. 6. Uma amostra das medidas do comprimento e da largura da cabeça dos dois primeiros filhos adultos de uma amostra de 25 famílias são fornecidos abaixo (Data from Frets, 1921): Identificação
Primeiro Filho (1)
(1)
Segundo Filho (2)
(2)
𝑋1
𝑋2
𝑋1
𝑋2
1
191
155
179
145
2
195
149
201
152
3
181
148
185
149
4
183
153
188
149
5
176
144
171
142
6
208
157
192
152
7
189
150
190
149
8
197
159
189
152
9
188
152
197
159
10
192
150
187
151
11
179
158
186
148
12
183
147
174
147
13
174
150
185
152
14
190
159
195
157
15
188
151
187
158
16
163
137
161
130
17
195
155
183
158
18
186
153
173
148
19
181
145
182
146
20
175
140
165
137
21
192
154
185
152
22
174
143
178
147
190
23
176
139
176
143
24
197
167
200
158
25
190
163
187
150
Onde: (1)
= comprimento da cabeça (primeiro filho)
(1)
= largura da cabeça (primeiro filho)
𝑋1 𝑋2
(2)
𝑋1 = comprimento da cabeça (segundo filho) (2)
𝑋2 = largura da cabeça (segundo filho) (a) Determinar a matriz de correlação amostral. >> X=[]; >> Y=[]; >> R11=corr(X) R11 = 1.0000
0.7346
0.7346
1.0000
>> R22=corr(Y) R22 = 1.0000
0.8393
0.8393
1.0000
>> R12=corr(X,Y) R12 = 0.7108
0.7040
0.6932
0.7086
>> R21=corr(Y,X) R21 = 0.7108
0.6932
0.7040
0.7086
191
⎛
.. 1.0000 0.7346 . ⎜ ⎜ ⎜ 0.7346 1.0000 ... ⎜ ⎜ 𝑅=⎜ ... ... ⎜ ... ⎜ . ⎜ ⎜ 0.7108 0.6932 .. ⎝ . 0.7040 0.7086 .. (b) Calcule as correlações canônicas amostrais. >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.7150
-0.6992
0.6992
0.7150
0.6217
0
0
0.0029
l =
>> a1=R11i*e(:,1) a1 = 0.5522 0.5215 >> A=R11i*e A = 0.5522
-1.3664
0.5215
1.3784
>> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.7139
-0.7003
0.7003
-0.7139
l = 192
⎞ 0.7108 0.7040 ⎟ ⎟ 0.6932 0.7086 ⎟ ⎟ ⎟ ... ... ⎟ ⎟ ⎟ ⎟ 1.0000 0.8393 ⎟ ⎠ 0.8393 1.0000
0.0029
0
0
0.6217
>> b1=R22i*f(:,2) b1 = -0.5044 -0.5383 >> B=R22i*f B = -1.7686
-0.5044
1.7586
-0.5383
Assim, tem-se que - 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0.7885 - 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0.0539 (c) Calcule as variáveis canônicas amostrais e procure interpretá-las. (1)
(1)
- 𝑈1 = 0.5522𝑍1 + 0.5215𝑍2 (1)
(2)
(1)
- 𝑈2 = −1.3664𝑍1 + 1.3784𝑍2
(2)
Rux1 = 0.9272
>> Rvx2=b1’*R22 Rvx2 = -0.9562
-0.9616
>> Rux2=a1’*R12 Rux2 = 0.7540
0.7583
>> Rvx1=b1’*R21 Rvx1 = -0.7375
-0.7311
Correlações entre as variáveis canônicas e as variáveis originais - 𝑈1 com
𝑋 (1)
=
(1)
0.9353
(1)
0.9272
𝑋1 𝑋2
(2)
e 𝑉2 = −1.7686𝑍1 + 1.7586𝑍2
>> Rux1=a1’*R11
0.9353
(2)
e 𝑉1 = −0.5044𝑍1 − 0.5383𝑍2
193
- 𝑈1 com
𝑋 (2)
- 𝑉1 com
𝑋 (1)
- 𝑉1 com
𝑋 (2)
=
(2)
0.7540
(2)
0.7583
𝑋1
(1)
−0.7375
(1) 𝑋2
−0.7311
𝑋1
(2)
−0.9562
(2) 𝑋2
−0.9616
𝑋1 𝑋2
=
=
O primeiro par de variáveis canônicas tem uma alta correlação de quase 79%. As variáveis do grupo 1 tem uma excelente correlação com 𝑈1 e o mesmo ocorre com as variáveis do grupo 2 (correlação alta com 𝑉1 ). As cabeças dos irmãos mais velhos com seus respectivos irmãos mais novos são bem correlacionadas, o que indica a cabeça de irmãos serão sempre parecidas em relação ao comprimento e largura.
194
View more...
Comments