Análise Multivariada - trabalho

Share Embed Donate


Short Description

Download Análise Multivariada - trabalho...

Description

UNIVERSIDADE FEDERAL DO PARANÁ

Programa de Pós-Graduação em Métodos Numéricos em Engenharia

Trabalho de Análise Multivariada Aplicada à Pesquisa

Prof. D. Jair Mendes Marques

Aluna Marina Vargas R. P. G. Ferreira

Curitiba - PR 2010

Sumário 1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias

3

2 Lista 2 - Distribuição Normal Multivariada

33

3 Lista 3 - Inferência sobre o vetor de médias e MANOVA

48

4 Lista 4: Análise de Componentes Principais

75

5 Lista 5: Análise Fatorial

99

6 Lista 6: Análise Discriminante

121

7 Lista 7: Regressão Logística

135

8 Lista 8: Análise de Agrupamento

146

9 Lista 9: Análise de Correlação Canônica

169

2

1

Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias

Resolver os problemas 1 até 16, com uso do MATLAB 1. Dadas as matrizes



⎤ −7

0



5

4

1

5

12

9

2

-6

-5

2

6

8

2

6

3

3

10

3

-13

0

-7

-10

3

0

5

3

3

0

1

-4

-1

3

-2

-9

-40

-25

-35

-25

5

15

15

5

5

-15

10

-25

-5

-5

-15

-30

⎢ ⎢ ⎢ 3 𝐴=⎢ ⎢ ⎢ 7 ⎣ 2

⎤ 8

5

7

5



⎤ −5

⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 2 −3 −2 3 −1 −3 −3 −1 ⎥, 𝐵 = ⎢ ⎥ e 𝐶=⎢ ⎥ ⎢ ⎥ ⎢ ⎢ −1 3 −2 5 ⎥ ⎢ 2 5 4 1 ⎥ ⎦ ⎣ ⎦ ⎣ 2 7 −3 1 1 3 6 0

calcular: (a) 𝐴 + 𝐵; >> A+B ans =

(b) 𝐶 − 𝐵; >> C-B ans =

(c) −5 ⋅ 𝐵; >> (-5)*B ans =

3

5

0

−5

⎥ ⎥ −3 2 2 ⎥ ⎥, ⎥ 3 −1 1 ⎥ ⎦ 4 1 −3

(d) 𝐴 + 3 ⋅ 𝐵 − 5 ⋅ 𝐶; >> A+3*B-5*C ans = 42

-10

26

44

-10

3

-21

-10

-6

-1

3

11

5

-15

11

30

18

30

93

39

-25

-8

-18

-13

12

-9

16

-12

29

24

57

-8

(e) 𝐵 ⋅ 𝐴; >> B*A ans =

(f) (𝐶 ⋅ 𝐴) ⋅ 𝐵; >> (C*A)*B ans = 425

75

525

-65

-106

15

-195

112

-62

20

-9

75

164

51

246

85

(g) 𝐴 ⋅ (𝐵 − 𝐶); >> A*(B-C) ans = -102

-12

-46

-14

57

-9

44

58

65

-3

22

80

-4

9

-9

15

(h) 𝐴−1 ; >> inv(A) ans = 4

-0.0507

0.0941

0.0404

0.0400

0.0097

-0.2008

0.1365

-0.1423

0.0526

0.0658

-0.0132

0.1316

0.0955

0.0824

0.0872

-0.0945

-0.0568

0.0389

0.0019

0.1170

0.0181

-0.0776

-0.0252

-0.0256

0.0487

-0.1005

0.0613

-0.1177

0.0393

-0.1723

-0.0316

-0.1184

(i) (𝐵 ⋅ 𝐶)−1 >> inv(B*C) ans =

(j) tr(𝐴); >> trace(A) ans = -9 (k) tr(𝐵 + 𝐶); >> trace(B+C) ans = -3 (l) 𝐵 2 ; >> B^2 ans = 57

51

42

100

-3

-6

5

-23

-4

-15

3

12

10

17

16

55

-285

570

-75

-440

114

-257

52

180

(m) 𝐶 3 ; >> C^3 ans =

5

50

-44

-12

66

-84

197

-28

-142

(n) tr(𝐴 + 𝐵)−1 ; >> trace(inv(A+B)) ans = -0.4004 (o) 𝐴′ ; >> A’ ans = -7

3

7

2

0

-3

5

2

5

-2

4

7

4

3

1

-3

(p) (𝐵 + 𝐴 − 𝐶 ′ )′ ; >> (B+A-C’)’ ans = 6

-3

6

8

3

-3

6

1

10

-8

3

9

9

-2

5

6

(q) det(𝐵); >> det(B) ans = 613 (r) det(𝐴 − 𝐵). >> det(A-B) ans = -152 2. Dados os vetores: 𝑢 = [0, 3, −1, 0, 5], 𝑣 = [−5, 1, −5, 1, 4] e 𝑤 = [1, −1, −3, 0, 2], calcular:

6

(a) 𝑢 ∙ 𝑣;

𝑢 ∙ 𝑣 = 28 (b) 𝑤 ∙ 𝑣;

𝑤 ∙ 𝑣 = 17 (c) 𝑢 ∙ (𝑣 + 𝑤);

𝑢 ∙ (𝑣 + 𝑤) = 38 (d) 𝑢 ∙ (𝑣 − 𝑤).

𝑢 ∙ (𝑣 − 𝑤) = 18 3. Dados os vetores: 𝑢1 = [2, −1, 3, 2], 𝑢2 = [−1, 3, 2, 1], 𝑢3 = [−4, 2, −6, −4] e 𝑢4 = [6, −3, 9, 6], verifique se são L.D. ou L.I.: (a) 𝑢1 e 𝑢2 ; Como



⎤ 2 −1

⎢ ⎢ ⎢ −1 𝑀 =⎢ ⎢ ⎢ 3 ⎣ 2

⎥ ⎥ 3 ⎥ ⎥ ⎥ 2 ⎥ ⎦ 1

e 𝑟𝑎𝑛𝑘(𝑀 𝐴) = 2, então os vetores 𝑢1 e 𝑢2 são Linearmente Independentes. (b) 𝑢1 e 𝑢3 ; Como



⎤ 2 −4

⎢ ⎥ ⎢ ⎥ ⎢ −1 2 ⎥ ⎢ ⎥ 𝑀𝑀 = ⎢ ⎥ ⎢ 3 −6 ⎥ ⎣ ⎦ 2 −4 e 𝑟𝑎𝑛𝑘(𝑀 𝑀 ) = 1, então os vetores 𝑢1 e 𝑢3 são Linearmente Dependentes. (c) 𝑢1 , 𝑢2 e 𝑢3 ;

7

Como



⎤ 2 −1 −4

⎢ ⎢ ⎢ −1 𝑇𝑇 = ⎢ ⎢ ⎢ 3 ⎣ 2

⎥ ⎥ 2 ⎥ ⎥ ⎥ 2 −6 ⎥ ⎦ 1 −4 3

e 𝑟𝑎𝑛𝑘(𝑇 𝑇 ) = 2, então os vetores 𝑢1 , 𝑢2 e 𝑢3 são Linearmente Dependentes. (d) 𝑢1 , 𝑢3 e 𝑢4 ; Como



⎤ 2 −4

6

⎢ ⎥ ⎢ ⎥ ⎢ −1 2 −3 ⎥ ⎢ ⎥ 𝑇𝐻 = ⎢ ⎥ ⎢ 3 −6 9 ⎥ ⎣ ⎦ 2 −4 6 e 𝑟𝑎𝑛𝑘(𝑇 𝐻) = 1, então os vetores 𝑢1 , 𝑢3 e 𝑢4 são Linearmente Dependentes. (e) 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 . Como



⎤ 2 −1 −4

⎢ ⎢ ⎢ −1 𝐺𝐺 = ⎢ ⎢ ⎢ 3 ⎣ 2

6

⎥ ⎥ 2 −3 ⎥ ⎥ ⎥ 2 −6 9 ⎥ ⎦ 1 −4 6 3

e 𝑟𝑎𝑛𝑘(𝐺𝐺) = 2, então os vetores 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 são Linearmente Dependentes. 4. Calcular a norma ou comprimento de cada um dos vetores do item 2. - ∥𝑢∥ = 5.9161 - ∥𝑣∥ = 8.2462 - ∥𝑤∥ = 3.8730 5. Determinar os autovalores e autovetores normalizados das matrizes: ⎡

⎤ 9

⎢ ⎢ 𝐴 = ⎢ −1 ⎣ 3 Matriz de autovetores

8

−1 3 5 1

⎥ ⎥ 1 ⎥ ⎦ 7



⎤ 0.441225

0.374359

0.815583

⎢ ⎥ ⎢ ⎥ 𝑒 = ⎢ 0.687013 −0.725619 −0.0386051 ⎥ ⎣ ⎦ −0.57735 −0.57735 0.57735 Matriz de autovalores ⎤

⎡ ⎢ ⎢ 𝐿=⎢ ⎣

3.51739

0

0

⎥ ⎥ 0 6.31158 0 ⎥ ⎦ 0 0 11.171

Assim Autovalores

Autovetores

𝜆1 = 3.51739

𝑒1 = [0.441225 0.687013 -0.57735]’

𝜆2 = 6.31158

𝑒2 = [0.374359 -0.725619 -0.57735]’

𝜆3 = 11.171

𝑒3 = [0.815583 -0.0386051 0.57735]’

e





−3 5 1 3 ⎢ ⎥ ⎢ ⎥ ⎢ 5 −3 1 5 ⎥ ⎢ ⎥ 𝐵=⎢ ⎥ ⎢ 1 1 3 −4 ⎥ ⎣ ⎦ 3 5 −4 6 Matriz de autovetores ⎡

⎤ 0.627122 −0.598371

0.408248

0.286361

0 0

0

⎢ ⎥ ⎢ ⎥ ⎢ −0.76064 −0.340226 0.408248 0.372836 ⎥ ⎢ ⎥ 𝑒=⎢ ⎥ ⎢ 0.0667588 0.469299 0.816497 −0.329599 ⎥ ⎣ ⎦ 0.153909 0.553133 1.69362𝑒−017 0.818752 Matriz de autovalores ⎡ ⎢ ⎢ ⎢ 𝐿=⎢ ⎢ ⎢ ⎣

⎤ −8.22181

⎥ ⎥ 0 ⎥ ⎥ ⎥ 0 4 0 ⎥ ⎦ 0 0 10.9364

0 −3.71455 0 0 0

Assim

9

Autovalores

Autovetores

𝜆1 = -8.2218

𝑒1 = [0.627122 -0.76064 0.0667588 0.153909]’

𝜆2 = -3.7146

𝑒2 = [ -0.598371 -0.340226 0.469299 0.553133]’

𝜆3 = 4.0000

𝑒3 = [0.408248 0.408248 0.816497 1.69362𝑒−017 ]’

𝜆4 = 10.9364

𝑒4 = [ 0.286361 0.372836 -0.329599 0.818752 ]’

6. Determine as matrizes 𝐴1/2 e 𝐵 1/2 , se existirem, para as matrizes do item 5. >> A=[9 -1 3; -1 5 1; 3 1 7] A = 9

-1

3

-1

5

1

3

1

7

>> [e,L]=eig(A) e = 0.4412

0.3744

0.8156

0.6870

-0.7256

-0.0386

-0.5774

-0.5774

0.5774

3.5174

0

0

0

6.3116

0

0

0

11.1710

L =

>> AR=e*(sqrt(L))*e’ AR = 2.9404

-0.2192

0.5531

-0.2192

2.2130

0.2341

0.5531

0.2341

2.5767

2.9404

-0.2192

0.5531

-0.2192

2.2130

0.2341

0.5531

0.2341

2.5767

ou >> AR=sqrtm(A) AR =

10



⎤ 2.94042 −0.21917 0.553062

⎢ ⎢ 𝐴1/2 = ⎢ −0.21917 ⎣ 0.553062

⎥ ⎥ 2.21295 0.234092 ⎥ ⎦ 0.234092 2.57669

>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6] B = -3

5

1

3

5

-3

1

5

1

1

3

-4

3

5

-4

6

>> [e,L]=eig(B) e = 0.6271

-0.5984

0.4082

0.2864

-0.7606

-0.3402

0.4082

0.3728

0.0668

0.4693

0.8165

-0.3296

0.1539

0.5531

0.0000

0.8188

-8.2218

0

0

0

0

-3.7146

0

0

0

0

4.0000

0

0

0

0

10.9364

L =

𝐵 1/2 Não existe, pois 𝐵 1/2 = onde dois deles são negativos.

𝑘 √ ∑ 𝜆𝑖 𝑒𝑖 𝑒′𝑖 = 𝑃 Λ1/2 𝑃 ′ , dependendo assim dos autovalores,

𝑖=1

7. Para a matriz B do item 6 verifique se é possível: (𝐵 1/2 )−1 = 𝑃 Λ−1/2 𝑃 ′ . 𝑘 )−1 ∑ ( √1 𝑒 𝑒′ = 𝑃 Λ−1/2 𝑃 ′ , como existem autovalores negativos, não é = Temos que 𝐴1/2 𝜆 𝑖 𝑖 possível encontrar

𝑖=′ 1/2 (𝐵 )−1 .

𝑖

8. Verificar se existe alguma matriz positiva definida entre as matrizes A e B do item 6. (a) Do item 6, temos

11

Autovalores

A

B

𝜆1

3.5174

-8.2218

𝜆2

6.3116

-3.7146

𝜆3

11.1710

4.0000

𝜆4

10.9364

A matriz 𝐴 é positiva definida, pois seus autovalores são positivos, já a matriz 𝐵 não é positiva definida. 9. Calcular o comprimento ou norma de cada vetor coluna das matrizes A e B do item 6. Matriz A >> A=[9 -1 3; -1 5 1; 3 1 7]; >> u1=[9 -1 -3] u1 = 9

-1

-3

>> u2=[-1 5 1] u2 = -1

5

1

>> u3=[3 1 7] u3 = 3

1

7

>> norm(u1) ans = 9.5394 >> norm(u2) ans = 5.1962 >> norm(u3) ans = 7.6811 >> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6]; >> u1=[-3 5 1 3] u1 = 12

-3

5

1

3

1

5

3

-4

-4

6

>> u2=[5 -3 1 5] u2 = 5

-3

>> u3=[1 1 3 -4] u3 = 1

1

>> u4=[3 5 -4 6] u4 = 3

5

>> norm(u1) ans = 6.6332 >> norm(u2) ans = 7.7460 >> norm(u3) ans = 5.1962 >> norm(u4) ans = 9.2736 Vetores Coluna

A

B

𝑢1

9.5394

6.6332

𝑢2

5.1962

7.7460

𝑢3

7.6811

5.1962

𝑢4

9.2736

10. Considere a matriz de covariância ⎡

⎤ 9

0

0

0

⎢ ⎢ ⎢ 0 16 0 0 Σ=⎢ ⎢ ⎢ 0 0 20 0 ⎣ 0 0 0 25 13

⎥ ⎥ ⎥ ⎥, ⎥ ⎥ ⎦

determine: (a) Σ−1 ; >> sigma=[9 0 0 0;0 16 0 0;0 0 20 0;0 0 0 25] sigma = 9

0

0

0

0

16

0

0

0

0

20

0

0

0

0

25

>> InvSigma=inv(sigma) InvSigma = 0.1111

0

0

0

0

0.0625

0

0

0

0

0.0500

0

0

0

0

0.0400

(b) Os autovalores e autovetores normalizados de Σ; >> [e,L]=eig(sigma) e = 1

0

0

0

0

1

0

0

0

0

1

0

0

0

0

1

9

0

0

0

0

16

0

0

0

0

20

0

0

0

0

25

L =

Autovalores

Autovetores

𝜆1 = 9

𝑒1 = [1 0 0 0]’

𝜆2 = 16

𝑒2 = [0 1 0 0]’

𝜆3 = 20

𝑒3 = [0 0 1 0]’

𝜆4 = 25

𝑒4 = [0 0 0 1 ]’

14

(c) os autovalores e autovetores normalizados de Σ−1 . >> [einv,Linv]=eig(InvSigma) einv = 0

0

0

1

0

0

1

0

0

1

0

0

1

0

0

0

Linv = 0.0400

0

0

0

0

0.0500

0

0

0

0

0.0625

0

0

0

0

0.1111

Autovalores

Autovetores

𝜆1 = 0.0400

𝑒1 = [0 0 0 1]’

𝜆2 = 0.0500

𝑒2 = [0 0 1 0]’

𝜆3 = 0.0625

𝑒3 = [0 1 0 0]’

𝜆4 = 0.1111

𝑒4 = [1 0 0 0 ]’

11. Dada a matriz covariância



⎤ 4

⎢ ⎢ ⎢ −1 Σ=⎢ ⎢ ⎢ 3 ⎣ 4

−1 3 4 5 2 1

⎥ ⎥ 2 1 ⎥ ⎥ ⎥ 4 5 ⎥ ⎦ 5 5

determine: (a) A matriz de correlação 𝜌; >> Sigma=[4 -1 3 4;-1 5 2 1;3 2 4 5;4 1 5 5] >> V=diag(diag(Sigma)) V = 4

0

0

0

0

5

0

0

0

0

4

0

0

0

0

5

>> Vraiz=sqrtm(V) 15

Vraiz = 2.0000

0

0

0

0

2.2361

0

0

0

0

2.0000

0

0

0

0

2.2361

>> IVraiz=inv(Vraiz) IVraiz = 0.5000

0

0

0

0

0.4472

0

0

0

0

0.5000

0

0

0

0

0.4472

>> Corre=IVraiz*Sigma*IVraiz Matriz de Correlação = 1.0000

-0.2236

0.7500

0.8944

-0.2236

1.0000

0.4472

0.2000

0.7500

0.4472

1.0000

1.1180

0.8944

0.2000

1.1180

1.0000

(b) Verifique a relação 𝑉 1/2 𝜌𝑉 1/2 = Σ; >> Corre=IVraiz*Sigma*IVraiz Corre = 1.0000

-0.2236

0.7500

0.8944

-0.2236

1.0000

0.4472

0.2000

0.7500

0.4472

1.0000

1.1180

0.8944

0.2000

1.1180

1.0000

>> Sigma=Vraiz*Corre*Vraiz Sigma = 4.0000

-1.0000

3.0000

4.0000

-1.0000

5.0000

2.0000

1.0000

3.0000

2.0000

4.0000

5.0000

4.0000

1.0000

5.0000

5.0000

(c) Efetue a decomposição espectral de Σ Sigma = 4.0000

-1.0000

3.0000

4.0000 16

-1.0000

5.0000

2.0000

1.0000

3.0000

2.0000

4.0000

5.0000

4.0000

1.0000

5.0000

5.0000

>> [e,L]=eig(Sigma) e = 0.0997

-0.7697

0.4143

0.4754

-0.1147

-0.3916

-0.8967

0.1715

0.7156

0.3704

-0.1434

0.5745

-0.6817

0.3421

0.0609

0.6438

-0.6656

0

0

0

0

0.2695

0

0

0

0

5.7140

0

0

0

0

12.6821

4.0000

-1.0000

3.0000

4.0000

-1.0000

5.0000

2.0000

1.0000

3.0000

2.0000

4.0000

5.0000

4.0000

1.0000

5.0000

5.0000

L =

>> Auto=e*L*e’ Auto =

Então, vê-se que 𝐴 = 𝑃 𝐴𝑃 ′ . A= matriz dos Autovalores de sigma P= matriz dos Autovetores de sigma 12. Uma amostra multivariada aleatória 𝑋 (com 12 observações e 6 variáveis) é dada a seguir:

17



⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 𝑋=⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣

39 51 53 42 55 48

⎥ ⎥ 47 51 53 48 53 57 ⎥ ⎥ ⎥ 43 45 46 44 44 51 ⎥ ⎥ ⎥ 49 46 49 45 48 57 ⎥ ⎥ ⎥ 51 55 44 57 49 56 ⎥ ⎥ ⎥ 52 49 39 50 44 47 ⎥ ⎥ ⎥ 57 52 55 44 43 44 ⎥ ⎥ ⎥ 48 50 47 50 55 50 ⎥ ⎥ ⎥ ⎥ 53 47 52 44 50 48 ⎥ ⎥ ⎥ 54 47 51 43 47 46 ⎥ ⎥ ⎥ 55 52 50 49 54 52 ⎥ ⎦ 43 43 45 56 52 56

(a) o vetor de médias; >> X=[39 51 53 42 55 48;47 51 53 48 53 57; 43 45 46 44 44 51; 49 X = 39

51

53

42

55

48

47

51

53

48

53

57

43

45

46

44

44

51

49

46

49

45

48

57

51

55

44

57

49

56

52

49

39

50

44

47

57

52

55

44

43

44

48

50

47

50

55

50

53

47

52

44

50

48

54

47

51

43

47

46

55

52

50

49

54

52

43

43

45

56

52

56

>> mean(X) ans = 49.2500

49.0000

48.6667

47.6667

(b) a matriz covariância estimada 𝑆; S=cov(X)

18

49.5000

51.0000

46

49

45

48

57;51

5

ans = 30.0227

6.4545

3.0000

-0.7273

-9.3182

-9.0909

6.4545

12.0000

2.8182

2.7273

2.7273

-1.3636

3.0000

2.8182

21.3333

-14.4848

4.6364

-4.6364

-0.7273

2.7273

-14.4848

24.6061

4.5455

12.8182

-9.3182

2.7273

4.6364

4.5455

19.1818

7.5455

-9.0909

-1.3636

-4.6364

12.8182

7.5455

21.0909

(c) a matriz de correlação 𝑅; >> M=diag(diag(S)) M = 30.0227

0

0

0

0

0

0

12.0000

0

0

0

0

0

0

21.3333

0

0

0

0

0

0

24.6061

0

0

0

0

0

0

19.1818

0

0

0

0

0

0

21.0909

5.4793

0

0

0

0

0

0

3.4641

0

0

0

0

0

0

4.6188

0

0

0

0

0

0

4.9604

0

0

0

0

0

0

4.3797

0

0

0

0

0

0

4.5925

0.1825

0

0

0

0

0

0

0.2887

0

0

0

0

0

0

0.2165

0

0

0

0

0

0

0.2016

0

0

0

0

0

0

0.2283

0

0

0

0

0

0

0.2177

1.0000

0.3401

0.1185

-0.0268

-0.3883

-0.3613

0.3401

1.0000

0.1761

0.1587

0.1798

-0.0857

0.1185

0.1761

1.0000

-0.6322

0.2292

-0.2186

-0.0268

0.1587

-0.6322

1.0000

0.2092

0.5627

-0.3883

0.1798

0.2292

0.2092

1.0000

0.3751

-0.3613

-0.0857

-0.2186

0.5627

0.3751

1.0000

>> raizM=sqrtm(M) raizM =

>> invRM=inv(raizM) invRM =

>> R=invRM*S*invRM R =

19

(d) a matriz desvio padrão 𝐷1/2 . >> DM=diag(diag(S)) DM = 30.0227

0

0

0

0

0

0

12.0000

0

0

0

0

0

0

21.3333

0

0

0

0

0

0

24.6061

0

0

0

0

0

0

19.1818

0

0

0

0

0

0

21.0909

5.4793

0

0

0

0

0

0

3.4641

0

0

0

0

0

0

4.6188

0

0

0

0

0

0

4.9604

0

0

0

0

0

0

4.3797

0

0

0

0

0

0

4.5925

>> DeM=sqrtm(DM) DeM =

13. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra, situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ... , CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7; COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e b (mg/10g)).

20

Áreas

CTM1

CTM2

CTM3

CTM4

CTM5

CTM7

COB

IAF

CLT

1. T1

4.50

6.75

5.25

71.00

45.50

8.75

97.9

5.12

18.00

2. T2

8.75

9.50

11.50

43.50

53.75

14.50

52.4

1.91

15.22

3. T7

5.75

8.25

8.50

51.25

42.00

9.50

50.6

2.74

15.61

4. T14

7.75

9.75

11.75

50.25

41.25

10.25

49.3

0.89

14.44

5. T15

5.50

6.50

5.0

73.25

40.50

6.50

96.5

6.68

17.90

6. T22

9.50

12.00

28.50

31.50

61.75

31.25

11.1

0.27

12.73

7. T26

9.00

10.25

9.25

61.75

48.00

10.00

90.2

3.71

14.82

8. T28

6.75

7.75

6.25

82.00

44.50

6.75

96.7

5.36

17.32

9. T33

6.25

6.50

5.25

80.25

46.75

6.75

96.0

6.55

15.09

10. T43

8.50

10.00

8.25

74.75

55.50

10.50

97.9

2.05

16.28

11. F3A

9.00

11.50

20.50

43.75

58.00

22.25

19.7

0.81

10.25

12. F9

5.75

7.00

11.0

28.25

31.00

9.00

14.3

0.62

12.35

13. F10

6.25

7.50

17.5

22.00

31.00

13.50

4.2

0.15

8.26

14. F17

7.00

9.75

9.75

61.25

53.75

11.75

55.3

1.96

14.36

15. F18

8.25

10.50

9.0

83.00

60.00

11.75

85.8

6.64

11.39

16. F36

6.75

8.25

8.0

59.00

46.75

9.75

45.5

2.20

12.29

17. F6A

8.00

10.00

11.0

49.25

48.00

14.00

16.9

1.17

13.27

18. F40

6.75

8.00

10.75

43.75

42.00

10.00

38.1

1.58

14.40

19. F41

7.75

10.25

15.50

45.25

58.75

20.50

29.2

0.74

15.62

20. F42

8.25

11.00

16.75

31.25

46.75

18.25

21.5

9.63

10.37

(a) montar a matriz de dados X; >> X=[4.50

6.75

5.25

71.00

45.50

8.75

97.9

5.12

X = 4.50

6.75

5.25

71.00

45.50

8.75

97.90

5.12

18.00

8.75

9.50

11.50

43.50

53.75

14.50

52.40

1.91

15.22

5.75

8.25

8.50

51.25

42.00

9.50

50.60

2.74

15.61

7.75

9.75

11.75

50.25

41.25

10.25

49.30

0.89

14.44

5.50

6.50

5.00

73.25

40.50

6.50

96.50

6.68

17.90

9.50

12.00

28.50

31.50

61.75

31.25

11.10

0.27

12.73

9.00

10.25

9.25

61.75

48.00

10.00

90.20

3.71

14.82

6.75

7.75

6.25

82.00

44.50

6.75

96.70

5.36

17.32

6.25

6.50

5.25

80.25

46.75

6.75

96.00

6.55

15.09

8.50

10.00

8.25

74.75

55.50

10.50

97.90

2.05

16.28

9.00

11.50

20.50

43.75

58.00

22.25

19.70

0.81

10.25

21

18.00; 8.75 9.50

11.50

43.50

5.75

7.00

11.00

28.25

31.00

9.00

14.30

0.62

12.35

6.25

7.50

17.50

22.00

31.00

13.50

4.20

0.15

8.26

7.00

9.75

9.75

61.25

53.75

11.75

55.30

1.96

14.36

8.25

10.50

9.00

83.00

60.00

11.75

85.80

6.64

11.39

6.75

8.25

8.00

59.00

46.75

9.75

45.50

2.20

12.29

8.00

10.00

11.00

49.25

48.00

14.00

16.90

1.17

13.27

6.75

8.00

10.75

43.75

42.00

10.00

38.10

1.58

14.40

7.75

10.25

15.50

45.25

58.75

20.50

29.20

0.74

15.62

8.25

11.00

16.75

31.25

46.75

18.25

21.50

9.63

10.37

(b) estimar o vetor de médias; >> M=mean(X) M = 7.30

9.05

11.46

54.31

47.77

12.77

53.45

3.04

13.99

(c) estimar a matriz de covariâncias; >> S=cov(X) S = 1.89

2.13

4.73

-4.94

8.22

5.53

-11.35

-0.72

-1.22

2.13

2.92

6.72

-8.54

10.94

8.06

-20.95

-0.90

-1.72

4.73

6.72

33.94

-80.04

16.73

33.67

-150.59

-6.78

-9.38

-4.94

-8.54

-80.04

352.20

40.52

-65.53

590.45

26.02

30.46

8.22

10.94

16.73

40.52

76.05

31.28

31.42

0.06

1.18

5.53

8.06

33.67

-65.53

31.28

37.74

-132.46

-5.62

-7.25

-11.35

-20.95

-150.59

590.45

31.42

-132.46

1160.39

51.43

63.90

-0.72

-0.90

-6.78

26.02

0.06

-5.62

51.43

7.30

1.41

-1.22

-1.72

-9.38

30.46

1.18

-7.25

63.90

1.41

6.91

(d) determinar os autovalores e autovetores da matriz de covariâncias; Matriz dos autovetores. Cada coluna é um autovetor. >> [e,L]=eig(S) e = 0.71

0.23

0.58

0.31

-0.07

-0.01

0.05

-0.09

-0.01

-0.50

-0.50

0.64

0.24

-0.11

-0.01

0.04

-0.13

-0.02

-0.31

0.49

0.09

0.15

0.40

0.56

0.28

-0.26

-0.12

0.02

-0.01

0.07

-0.06

0.18

0.25

-0.78

-0.27

0.46

-0.10

0.19

-0.17

0.06

-0.28

-0.42

0.08

-0.81

0.03

0.37

-0.57

-0.09

-0.36

0.22

0.33

0.27

-0.41

-0.10

0.00

-0.03

-0.04

0.07

0.00

-0.00

0.47

0.08

0.87

-0.04

0.17

0.13

-0.42

-0.75

0.45

0.02

0.01

0.04

-0.09

0.23

0.43

-0.72

0.31

-0.37

0.06

0.02

0.05

22

A matriz de autovalores, onde estes se localizam na sua diagonal é: L = 0.15

0

0

0

0

0

0

0

0

0

0.17

0

0

0

0

0

0

0

0

0

0.92

0

0

0

0

0

0

0

0

0

3.12

0

0

0

0

0

0

0

0

0

5.11

0

0

0

0

0

0

0

0

0

7.40

0

0

0

0

0

0

0

0

0

38.16

0

0

0

0

0

0

0

0

0

109.79

0

0

0

0

0

0

0

0

0

1514.51

(e) estimar a matriz de correlações. >> X=[4.50

6.75

5.25

71.00

45.50

8.75

97.9

5.12

18.00; 8.75 9.50

11.50

X = 4.5000

6.7500

5.2500

71.0000

45.5000

8.7500

97.9000

5.1200

18.0000

8.7500

9.5000

11.5000

43.5000

53.7500

14.5000

52.4000

1.9100

15.2200

5.7500

8.2500

8.5000

51.2500

42.0000

9.5000

50.6000

2.7400

15.6100

7.7500

9.7500

11.7500

50.2500

41.2500

10.2500

49.3000

0.8900

14.4400

5.5000

6.5000

5.0000

73.2500

40.5000

6.5000

96.5000

6.6800

17.9000

9.5000

12.0000

28.5000

31.5000

61.7500

31.2500

11.1000

0.2700

12.7300

9.0000

10.2500

9.2500

61.7500

48.0000

10.0000

90.2000

3.7100

14.8200

6.7500

7.7500

6.2500

82.0000

44.5000

6.7500

96.7000

5.3600

17.3200

6.2500

6.5000

5.2500

80.2500

46.7500

6.7500

96.0000

6.5500

15.0900

8.5000

10.0000

8.2500

74.7500

55.5000

10.5000

97.9000

2.0500

16.2800

9.0000

11.5000

20.5000

43.7500

58.0000

22.2500

19.7000

0.8100

10.2500

5.7500

7.0000

11.0000

28.2500

31.0000

9.0000

14.3000

0.6200

12.3500

6.2500

7.5000

17.5000

22.0000

31.0000

13.5000

4.2000

0.1500

8.2600

7.0000

9.7500

9.7500

61.2500

53.7500

11.7500

55.3000

1.9600

14.3600

8.2500

10.5000

9.0000

83.0000

60.0000

11.7500

85.8000

6.6400

11.3900

6.7500

8.2500

8.0000

59.0000

46.7500

9.7500

45.5000

2.2000

12.2900

8.0000

10.0000

11.0000

49.2500

48.0000

14.0000

16.9000

1.1700

13.2700

6.7500

8.0000

10.7500

43.7500

42.0000

10.0000

38.1000

1.5800

14.4000

7.7500

10.2500

15.5000

45.2500

58.7500

20.5000

29.2000

0.7400

15.6200

8.2500

11.0000

16.7500

31.2500

46.7500

18.2500

21.5000

9.6300

10.3700

0.0019

0.0021

0.0047

-0.0049

0.0082

0.0055

-0.0113

-0.0007

-0.0012

0.0021

0.0029

0.0067

-0.0085

0.0109

0.0081

-0.0209

-0.0009

-0.0017

0.0047

0.0067

0.0339

-0.0800

0.0167

0.0337

-0.1506

-0.0068

-0.0094

-0.0049

-0.0085

-0.0800

0.3522

0.0405

-0.0655

0.5905

0.0260

0.0305

0.0082

0.0109

0.0167

0.0405

0.0761

0.0313

0.0314

0.0001

0.0012

>> S=cov(X) S = 1.0e+003 *

0.0055

0.0081

0.0337

-0.0655

0.0313

0.0377

-0.1325

-0.0056

-0.0072

-0.0113

-0.0209

-0.1506

0.5905

0.0314

-0.1325

1.1604

0.0514

0.0639

-0.0007

-0.0009

-0.0068

0.0260

0.0001

-0.0056

0.0514

0.0073

0.0014

23

43.50

53.75

14.50

-0.0012

-0.0017

-0.0094

0.0305

0.0012

-0.0072

0.0639

0.0014

0.0069

>> V=diag(diag(S)) V = 1.0e+003 * 0.0019

0

0

0

0

0

0

0

0

0

0.0029

0

0

0

0

0

0

0

0

0

0.0339

0

0

0

0

0

0

0

0

0

0.3522

0

0

0

0

0

0

0

0

0

0.0761

0

0

0

0

0

0

0

0

0

0.0377

0

0

0

0

0

0

0

0

0

1.1604

0

0

0

0

0

0

0

0

0

0.0073

0

0

0

0

0

0

0

0

0

0.0069

>> RV=sqrtm(V) RV = 1.3755

0

0

0

0

0

0

0

0

0

1.7083

0

0

0

0

0

0

0

0

0

5.8255

0

0

0

0

0

0

0

0

0

18.7671

0

0

0

0

0

0

0

0

0

8.7208

0

0

0

0

0

0

0

0

0

6.1435

0

0

0

0

0

0

0

0

0

34.0645

0

0

0

0

0

0

0

0

0

2.7021

0

0

0

0

0

0

0

0

0

2.6285

>> IRV=inv(RV) IRV = 0.7270

0

0

0

0

0

0

0

0

0

0.5854

0

0

0

0

0

0

0

0

0

0.1717

0

0

0

0

0

0

0

0

0

0.0533

0

0

0

0

0

0

0

0

0

0.1147

0

0

0

0

0

0

0

0

0

0.1628

0

0

0

0

0

0

0

0

0

0.0294

0

0

0

0

0

0

0

0

0

0.3701

0

0

0

0

0

0

0

0

0

0.3804

1.0000

0.9074

0.5897

-0.1913

0.6849

0.6546

-0.2421

-0.1940

-0.3388

0.9074

1.0000

0.6755

-0.2664

0.7343

0.7681

-0.3599

-0.1956

-0.3820

>> R=IRV*S*IRV R =

0.5897

0.6755

1.0000

-0.7321

0.3293

0.9408

-0.7588

-0.4304

-0.6124

-0.1913

-0.2664

-0.7321

1.0000

0.2476

-0.5683

0.9236

0.5131

0.6175

0.6849

0.7343

0.3293

0.2476

1.0000

0.5839

0.1058

0.0025

0.0513

0.6546

0.7681

0.9408

-0.5683

0.5839

1.0000

-0.6329

-0.3383

-0.4488

-0.2421

-0.3599

-0.7588

0.9236

0.1058

-0.6329

1.0000

0.5588

0.7137

-0.1940

-0.1956

-0.4304

0.5131

0.0025

-0.3383

0.5588

1.0000

0.1984

-0.3388

-0.3820

-0.6124

0.6175

0.0513

-0.4488

0.7137

0.1984

1.0000

14. Uma amostra multivariada X de tamanho n = 12 foi obtida de um vetor aleatório p = 24

[alturas pesos], resultando Indivíduo

Altura

Peso

1

165

83

2

180

82

3

178

67

4

167

72

5

190

95

6

175

70

7

178

75

8

183

80

9

169

70

10

177

73

11

184

85

12

170

68

(a) Construir a matriz de dados; >> X=[165 83;180 82; 178 67; 167 72;190 95; 175 70;178 75;183 80;169 70;177 73;184 85;170 68] X = 165

83

180

82

178

67

167

72

190

95

175

70

178

75

183

80

169

70

177

73

184

85

170

68

(b) calcular o vetor de médias; >> EX=mean(X) EX = 176.3333

76.6667

(c) representar graficamente num espaço bidimensional as observações e o vetor de médias. 25

95

90

Peso

85

80

75

70

65 165

170

175

180

185

190

Altura

Resolver os problemas 15 até 21, sem uso do MATLAB. ⎡ 15. Determinar os autovalores e autovetores normalizados da matriz 𝐴 = ⎣

⎤ 9

−3

⎦.

−3 9 Seja 𝐴e = 𝜆e, então (𝐴 − 𝜆𝐼)e = 0, assim ¯ ¯ ¯ ¯ ¯ 9 − 𝜆 −3 ¯ ¯ ¯ = 0 ⇒ (9 − 𝜆)2 − 9 = 0 ⇒ (𝜆 − 6)(𝜆 − 12) = 0 ∣ 𝐴 − 𝜆𝐼 ∣= 0 ⇒ ¯ ¯ ¯ −3 9 − 𝜆 ¯ Para 𝜆1 = 6 ⎞⎛ ⎞ ⎛ ⎞ 3 −3 𝑒11 0 ⎝ ⎠⎝ ⎠=⎝ ⎠ −3 3 𝑒21 0 ⎧ ⎨ 3𝑒11 − 3𝑒21 = 0 ⎩ −3𝑒 + 3𝑒 = 0

Para 𝜆2 = 12 ⎞⎛ ⎞ ⎛ ⎞ −3 −3 𝑓11 0 ⎝ ⎠⎝ ⎠=⎝ ⎠ −3 −3 𝑓21 0 ⎧ ⎨ −3𝑓11 − 3𝑓21 = 0 ⎩ −3𝑓 − 3𝑓 = 0



11



21

11

21

3𝑒11 = 3𝑒21 ⇒ 𝑒11 = 𝑒21

−3𝑓11 = 3𝑓21 ⇒ 𝑓11 = −𝑓21

Para autovetores normalizados, tem-se: √ (𝑒11 )2 + (𝑒11 )2 = 1

Para autovetores normalizados, tem-se: √ (𝑓11 )2 + (−𝑓11 )2 = 1

Assim 𝑒11 =

√1 2

√1 2⎞ 1 √ 2 ⎠ 1 √ 2

e 𝑒21 = ⎛

𝜆1 = 6, autovetor e = ⎝

Assim 𝑓11 =

√1 2

e 𝑓21 = − √12 ⎛ ⎞

𝜆2 = 12, autovetor f = ⎝

√1 2 − √12



16. Pesquisar o que é uma pseudo-inversa. Exemplificar e dar suas propriedades. Definição: Dada a matriz 𝐴 : 𝑚𝑥𝑛, 𝑚 ≥ 𝑛 com 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑟 e sua fatoração em decomposição em valores singulares (SVD), chama-se pseudo-inversa de Moore-Penrose de

26

à 𝐴, a matriz

𝐴+

𝑛𝑥𝑚

∈ IR

,

𝐴+

= 𝑉

Σ+ 𝑈 𝑇 ,

onde

Σ+

= 𝑑𝑖𝑎𝑔

𝑈 = [𝑢1 , ..., 𝑢𝑚 ] e 𝑣 = [𝑣1 , ..., 𝑣𝑛 ]. Se 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑛, então

1

)

∈ IR𝑛𝑥𝑚 , 1 𝜎1 , ... 𝜎𝑟 ,0...,0 𝐴+ = (𝐴𝑇 𝐴)−1 𝐴𝑇 . Se

𝑚 = 𝑛 = 𝑝𝑜𝑠𝑡𝑜(𝐴), então 𝐴+ = 𝐴−1 .

Teorema:(Pseudo-Inversa) Para toda matriz 𝐴 ∈ IR𝑚𝑥𝑛 , existe uma única matriz 𝐴+ ∈ IR𝑛𝑥𝑚 , denominada pseudo-inversa de 𝐴, satisfazendo as condições de MoorePenrose. (a) 𝐴𝐴+ 𝐴 = 𝐴 (b) (𝐴+ 𝐴)𝑇 = 𝐴+ 𝐴 (c) 𝐴+ 𝐴𝐴+ = 𝐴+ (d) (𝐴𝐴+ )𝑇 = 𝐴𝐴+ Demonstração: Seja 𝐴 = 𝑈 Σ𝑉 𝑇 uma SVD da matriz 𝐴. Sabemos que 𝐴+ = 𝑉 Σ+ 𝑈 𝑇 . Assim: (a) 𝐴𝐴+ 𝐴 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 = 𝑈 ΣΣ+ Σ𝑉 𝑇 = 𝑈 Σ𝑉 𝑇 = 𝐴 (b) (𝐴+ 𝐴)𝑇 = (𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 )𝑇 = 𝑉 (Σ+ Σ)𝑇 𝑉 𝑇 = 𝑉 (Σ+ Σ)𝑉 𝑇 = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 = 𝐴+ 𝐴 (c) 𝐴+ 𝐴𝐴+ = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 = 𝑉 Σ+ ΣΣ+ 𝑈 𝑇 = 𝑉 Σ+ 𝑈 𝑇 = 𝐴+ (d) (𝐴𝐴+ )𝑇 = (𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 )𝑇 = 𝑈 (ΣΣ+ )𝑇 𝑈 𝑇 = 𝑈 (ΣΣ+ )𝑈 𝑇 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 = 𝐴𝐴+ 17. Dar um exemplo de uma matriz ortogonal 3 X 3 e calcular o determinante associado. Em Álgebra linear, uma matriz ortogonal é uma matriz real M cuja inversa coincide com a sua transposta, isto é: 𝑀 −1 = 𝑀 𝑇 , isto ⎛ 1 ⎜ ⎜ - A matriz Identidade, 𝐴 = ⎜ 0 ⎝ 0 ⎛ ⎞ ⎜ ⎜ - 𝐵=⎜ ⎝

1 3

2 3

0

√1 2 1 − 3√ 2

4 √ 3 2

é, 𝑀 𝑀 𝑇 = 𝑀 𝑇 𝑀 = 𝐼 Ex: ⎞ 0 0 ⎟ ⎟ 1 0 ⎟, 𝑑𝑒𝑡(𝐴) = 1. ⎠ 0 1

2 3

⎟ ⎟ − √12 ⎟, 𝑑𝑒𝑡(𝐵) = −1 ⎠ 1 − 3√ 2

18. Provar as propriedades da transposta de uma matriz.

27

(a) (𝐴𝑇 )𝑇 = 𝐴 - O elemento (𝑖, 𝑗) da matriz 𝐴 é o elemento 𝑎𝑗𝑖 . - O elemento (𝑖, 𝑗) da matriz 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 . - Portanto, o elemento (𝑖, 𝑗) de (𝐴𝑇 )𝑇 é o elemento 𝛼𝑗𝑖 = 𝑎𝑖𝑗 (b) (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵 𝑇 𝑇 𝑇 Seja 𝐶 = 𝐴 + 𝐵 então 𝑐𝑖𝑗 ⎫ = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 . Logo 𝑐𝑖𝑗 ∈ 𝐶 = (𝐴 + 𝐵) . Por outro lado, 𝑎𝑖𝑗 ∈ 𝐴 ⇒ 𝑎𝑖𝑗 ∈ 𝐴𝑇 ⎬ = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 ∈ 𝐴𝑇 + 𝐵 𝑇 . 𝑏 ∈ 𝐵 ⇒ 𝑏 ∈ 𝐵𝑇 ⎭ 𝑖𝑗

𝑖𝑗

Logo 𝑐𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 . (c) (𝐴𝐵)𝑇 = 𝐵 𝑇 𝐴𝑇 Seja 𝐴 uma matriz 𝑚x𝑝 e 𝐵 uma matriz 𝑝x𝑛. O produto 𝐶 = 𝐴𝐵 𝑝 ∑ é uma matriz 𝑚x𝑛 e o seu elemento (𝑖, 𝑗) é dado por 𝑐𝑖𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑗 . 𝑘=1

a matriz (𝐴𝐵)𝑇 é portanto uma matriz 𝑛x𝑚 e nela, o elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha. Por outro lado, a matriz 𝐵 𝑇 𝐴𝑇 também é de ordem 𝑛x𝑚. O elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 , assim como o elemento (𝑖, 𝑗) de 𝐵 𝑇 é o elemento 𝛽𝑖𝑗 = 𝑏𝑗𝑖 . Logo, o elemento de 𝐵 𝑇 𝐴𝑇 que ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha é dado por 𝑝 ∑

𝛽𝑗𝑘 𝛼𝑘𝑖 =

𝑝 ∑

𝑏𝑘𝑗 𝑎𝑖𝑘 = 𝑐𝑖𝑗

𝑘=1

𝑘=1

(d) (𝑘𝐴)𝑇 = 𝑘𝐴𝑇 Seja 𝐶 = 𝑘𝐴, logo o elemento (𝑖, 𝑗) de 𝐶 é dado por 𝑐𝑖𝑗 = 𝑘𝑎𝑖𝑗 . Na matriz (𝑘𝐴)𝑇 , o elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha. Por outro lado, o elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑖𝑗 . Logo, o elemento de 𝑘𝐴𝑇 que ocupa a 𝑖-ésima coluna e a 𝑗ésima linha é dado por 𝑘𝛼𝑗𝑖 = 𝑘𝑎𝑖𝑗 = 𝑐𝑖𝑗 . 19. Provar as propriedades comutativa e associativa da adição de matrizes. (a) Comutativa ⇒ 𝐴 + 𝐵 = 𝐵 + 𝐴 Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 , tem-se:

28



⎛ 𝑎11

𝑎12

...



⎛ 𝑏11

𝑎1𝑛

𝑏12

...

𝑏1𝑛

⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ ⎟ ⎜ , 𝐵 = 𝐴=⎜ . ⎜ .. .. .. ⎟ .. .. .. .. ⎟ ⎜ . ⎜ .. . . . . . . ⎠ ⎝ ⎝ 𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 ⎞ ⎛ 𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛 ⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟ ⎟= 𝐴+𝐵 =⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟, assim ⎟ ⎟ ⎠

𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑏11 + 𝑎11 𝑏12 + 𝑎12 . . . 𝑏1𝑛 + 𝑎1𝑛 ⎟ ⎟ 𝑏21 + 𝑎21 𝑏22 + 𝑎22 . . . 𝑏2𝑛 + 𝑎2𝑛 ⎟ ⎟ = 𝐵 + 𝐴, ⎟ .. .. .. .. ⎟ . . . . ⎠ 𝑏𝑚1 + 𝑎𝑚1 𝑏𝑚2 + 𝑎𝑚2 . . . 𝑏𝑚𝑛 + 𝑎𝑚𝑛

logo 𝐴+𝐵 =𝐵+𝐴 (b) Associativa ⇒ (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶) Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝐶 = [𝑐𝑖𝑗 ]𝑚𝑥𝑛 , tem-se: ⎛ ⎞ ⎛ ⎞ 𝑎11 𝑎12 . . . 𝑎1𝑛 𝑏11 𝑏12 . . . 𝑏1𝑛 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎟ ⎜ ⎟ ⎜ ⎟ 𝐴=⎜ . .. .. ⎟, 𝐵 = ⎜ .. .. .. ⎟ e . . . . . ⎜ . ⎜ . . . . . ⎟ . . ⎟ ⎝ ⎠ ⎝ ⎠ ⎛

𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛

𝑐11 𝑐12 . . . 𝑐1𝑛 ⎜ ⎜ ⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 𝐶=⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛 ⎛ 𝑎11 + 𝑏11 ⎜ ⎜ ⎜ 𝑎21 + 𝑏21 (𝐴+𝐵)+𝐶 = ⎜ ⎜ .. ⎜ . ⎝ ⎛

𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛

⎞ ⎟ ⎟ ⎟ ⎟, assim: ⎟ ⎟ ⎠

⎞ ⎛ 𝑎12 + 𝑏12

...

𝑎22 + 𝑏22 .. .

... .. .

𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . .

𝑎1𝑛 + 𝑏1𝑛

𝑐12

...

𝑐1𝑛

⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 ⎟+⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑎1𝑛 + 𝑏1𝑛 + 𝑐1𝑛 ⎟ ⎟ 𝑎2𝑛 + 𝑏2𝑛 + 𝑐2𝑛 ⎟ ⎟= ⎟ .. ⎟ . ⎠ 𝑎2𝑛 + 𝑏2𝑛 .. .

𝑎11 + 𝑏11 + 𝑐11 𝑎12 + 𝑏12 + 𝑐12 . . . ⎜ ⎜ ⎜ 𝑎21 + 𝑏21 + 𝑐21 𝑎22 + 𝑏22 + 𝑐22 . . . =⎜ ⎜ .. .. .. ⎜ . . . ⎝ 𝑎𝑚1 + 𝑏𝑚1 + 𝑐𝑚1 𝑎𝑚2 + 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 + 𝑐𝑚𝑛

29

⎞ 𝑐11

⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠



⎛ 𝑎11

𝑎12

...

𝑎1𝑛

⎜ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 = 𝐴 + (𝐵 + 𝐶)



⎛ 𝑏11 + 𝑐11

𝑏12 + 𝑐12

...

𝑏1𝑛 + 𝑐1𝑛

⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑏21 + 𝑐21 𝑏22 + 𝑐22 . . . 𝑏2𝑛 + 𝑐2𝑛 ⎟+⎜ ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑏𝑚1 + 𝑐𝑚1 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑏𝑚𝑛 + 𝑐𝑚𝑛

⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠

Portanto, (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶) 20. Provar as propriedades comutativa, associativa e distributiva da multiplicação de escalar por matriz. (a) Comutativa ⇒ 𝑘𝐴 = 𝐴𝑘



⎛ 𝑎11

𝑎12

...

𝑎1𝑛

⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ . .. .. ⎟ .. ⎜ .. . . . ⎟ ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 ⎛ ⎞ ⎛ 𝑎11 𝑎12 . . . 𝑎1𝑛 𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛 ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟ ⎜ 𝑘𝐴 = 𝑘 ⎜ ⎜ .. .. .. ⎟ = ⎜ .. .. .. .. .. ⎜ . ⎟ ⎜ . . . . . . . ⎝ ⎠ ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝

e seja 𝑘 ∈ IR, assim

⎞ ⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠

𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛 ⎞ ⎛ ⎞ 𝑎11 𝑘 𝑎12 𝑘 . . . 𝑎1𝑛 𝑘 𝑎11 𝑎12 . . . 𝑎1𝑛 ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ 𝑎21 𝑘 𝑎22 𝑘 . . . 𝑎2𝑛 𝑘 ⎟ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ ⎟ .. .. .. ⎟ = ⎜ .. .. .. ⎟ 𝑘 = 𝐴𝑘 .. .. ⎜ . ⎟ . . . . . ⎟ . . ⎠ ⎝ ⎠ 𝑎𝑚1 𝑘 𝑎𝑚2 𝑘 . . . 𝑎𝑚𝑛 𝑘 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛

(b) Associativa ⇒ 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴



⎞ 𝑎11

𝑎12

...

𝑎1𝑛

⎜ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 assim ⎞ ⎛ ⎛ 𝑘1 𝑘2 𝑎11 𝑘2 𝑎11 𝑘2 𝑎12 . . . 𝑘2 𝑎1𝑛 ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎜ 𝑘2 𝑎21 𝑘2 𝑎22 . . . 𝑘2 𝑎2𝑛 ⎟ ⎜ 𝑘1 𝑘2 𝑎21 ⎟=⎜ ⎜ 𝑘1 (𝑘2 𝐴) = 𝑘1 ⎜ ⎟ ⎜ .. .. .. .. .. ⎟ ⎜ ⎜ . . . . . ⎠ ⎝ ⎝ 𝑘2 𝑎𝑚1 𝑘2 𝑎𝑚2 . . . 𝑘2 𝑎𝑚𝑛

30

⎟ ⎟ ⎟ ⎟ e seja 𝑘1 , 𝑘2 ∈ IR, ⎟ ⎟ ⎠ ⎞ 𝑘1 𝑘2 𝑎12

...

𝑘1 𝑘2 𝑎1𝑛

𝑘1 𝑘2 𝑎22 .. .

... .. .

𝑘1 𝑘2 𝑎2𝑛 .. .

𝑘1 𝑘2 𝑎𝑚1 𝑘1 𝑘2 𝑎𝑚2 . . . 𝑘1 𝑘2 𝑎𝑚𝑛

⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠



⎛ (𝑘1 𝑘2 ) 𝑎11

(𝑘1 𝑘2 ) 𝑎12

...

(𝑘1 𝑘2 ) 𝑎1𝑛

⎜ ⎜ ⎜ (𝑘1 𝑘2 ) 𝑎21 (𝑘1 𝑘2 ) 𝑎22 . . . (𝑘1 𝑘2 ) 𝑎2𝑛 =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ (𝑘1 𝑘2 ) 𝑎𝑚1 (𝑘1 𝑘2 ) 𝑎𝑚2 . . . (𝑘1 𝑘2 ) 𝑎𝑚𝑛 𝑘1 𝑘2 𝐴



⎛ 𝑎11

𝑎12

𝑎1𝑛

⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑎 𝑎22 . . . 𝑎2𝑛 ⎟ = (𝑘1 𝑘2 ) ⎜ 21 ⎟ ⎜ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛

Logo 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴 (c) Distributiva - 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵 Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘 ∈ IR tem-se: ⎞ ⎛ 𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛 ⎟ ⎜ ⎜ ⎟ ⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟ ⎟= ⎜ 𝑘(𝐴 + 𝐵) = 𝑘 ⎜ ⎟ .. .. .. .. ⎟ ⎜ . . . . ⎝ ⎠ 𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 ⎞ 𝑘 (𝑎11 + 𝑏11 ) 𝑘 (𝑎12 + 𝑏12 ) . . . 𝑘 (𝑎1𝑛 + 𝑏1𝑛 ) ⎜ ⎟ ⎜ ⎟ ⎜ 𝑘 (𝑎21 + 𝑏21 ) 𝑘 (𝑎22 + 𝑏22 ) . . . 𝑘 (𝑎2𝑛 + 𝑏2𝑛 ) ⎟ ⎜ ⎟= ⎜ ⎟ .. .. .. .. ⎜ ⎟ . . . . ⎝ ⎠ 𝑘 (𝑎𝑚1 + 𝑏𝑚1 ) 𝑘 (𝑎𝑚2 + 𝑏𝑚2 ) . . . 𝑘 (𝑎𝑚𝑛 + 𝑏𝑚𝑛 ) ⎛ ⎞ (𝑘𝑎11 + 𝑘𝑏11 ) (𝑘𝑎12 + 𝑘𝑏12 ) . . . (𝑘𝑎1𝑛 + 𝑘𝑏1𝑛 ) ⎜ ⎟ ⎜ ⎟ ⎜ (𝑘𝑎21 + 𝑘𝑏21 ) (𝑘𝑎22 + 𝑘𝑏22 ) . . . (𝑘𝑎2𝑛 + 𝑘𝑏2𝑛 ) ⎟ ⎟= =⎜ ⎜ ⎟ .. .. .. .. ⎜ ⎟ . . . . ⎝ ⎠ (𝑘𝑎𝑚1 + 𝑘𝑏𝑚1 ) (𝑘𝑎𝑚2 + 𝑘𝑏𝑚2 ) . . . (𝑘𝑎𝑚𝑛 + 𝑘𝑏𝑚𝑛 ) ⎛ ⎞ ⎛ ⎞ 𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛 𝑘𝑏11 𝑘𝑏12 . . . 𝑘𝑏1𝑛 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟ ⎜ 𝑘𝑏21 𝑘𝑏22 . . . 𝑘𝑏2𝑛 ⎟ ⎟+⎜ ⎟ =⎜ ⎜ .. .. .. ⎟ ⎜ .. .. .. ⎟ = .. .. ⎜ . ⎟ ⎜ . ⎟ . . . . . . ⎝ ⎠ ⎝ ⎠ 𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛 𝑘𝑏𝑚1 𝑘𝑏𝑚2 . . . 𝑘𝑏𝑚𝑛 = 𝑘𝐴 + 𝑘𝐵. Portanto, 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵 ⎛

- (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴 Dada a matriz 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘1 , 𝑘2 ∈ IR, tem-se: ⎞ ⎛ 𝑎11 𝑎12 . . . 𝑎1𝑛 ⎟ ⎜ ⎟ ⎜ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎟ ⎜ (𝑘1 + 𝑘2 )𝐴 = (𝑘1 + 𝑘2 ) ⎜ . .. .. ⎟ = . . . ⎜ . . . . ⎟ ⎠ ⎝ 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛

31

...

⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠



⎛ (𝑘1 + 𝑘2 )𝑎11

(𝑘1 + 𝑘2 )𝑎12

...

(𝑘1 + 𝑘2 )𝑎1𝑛

⎟ ⎜ ⎟ ⎜ ⎜ (𝑘1 + 𝑘2 )𝑎21 (𝑘1 + 𝑘2 )𝑎22 . . . (𝑘1 + 𝑘2 )𝑎2𝑛 ⎟ ⎟= ⎜ =⎜ ⎟ .. .. .. .. ⎟ ⎜ . . . . ⎠ ⎝ (𝑘1 + 𝑘2 )𝑎𝑚1 (𝑘1 + 𝑘2 )𝑎𝑚2 . . . (𝑘1 + 𝑘2 )𝑎𝑚𝑛 ⎛ (𝑘1 𝑎11 + 𝑘2 𝑎11 ) (𝑘1 𝑎12 + 𝑘2 𝑎12 ) . . . (𝑘1 𝑎1𝑛 + 𝑘2 𝑎1𝑛 ) ⎜ ⎜ ⎜ (𝑘1 𝑎21 + 𝑘2 𝑎21 ) (𝑘1 𝑎22 + 𝑘2 𝑎22 ) . . . (𝑘1 𝑎2𝑛 + 𝑘2 𝑎2𝑛 ) =⎜ ⎜ .. .. .. .. ⎜ . . . . ⎝ ⎛ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎝

(𝑘1 𝑎𝑚1 + 𝑘2 𝑎𝑚1 ) (𝑘1 𝑎𝑚2 + 𝑘2 𝑎𝑚2 ) . . . (𝑘1 𝑎𝑚𝑛 + 𝑘2 𝑎𝑚𝑛 ) ⎞ ⎛ (𝑘2 )𝑎11 (𝑘2 )𝑎12 (𝑘1 )𝑎11 (𝑘1 )𝑎12 . . . (𝑘1 )𝑎1𝑛 ⎟ ⎜ ⎟ ⎜ (𝑘1 )𝑎21 (𝑘1 )𝑎22 . . . (𝑘1 )𝑎2𝑛 ⎟ ⎜ (𝑘2 )𝑎21 (𝑘2 )𝑎22 ⎟+⎜ ⎟ ⎜ .. .. .. .. .. .. ⎟ ⎜ . . . . . . ⎠ ⎝ (𝑘2 )𝑎𝑚1 (𝑘2 )𝑎𝑚2 (𝑘1 )𝑎𝑚1 (𝑘1 )𝑎𝑚2 . . . (𝑘1 )𝑎𝑚𝑛

⎞ ⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠ ⎞ ...

(𝑘2 )𝑎1𝑛

... .. .

(𝑘2 )𝑎2𝑛 .. .

⎟ ⎟ ⎟ ⎟= ⎟ ⎟ ⎠

. . . (𝑘2 )𝑎𝑚𝑛

= 𝑘1 𝐴 + 𝑘2 𝐴. Portanto, (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴. 21. Provar todas as propriedades da multiplicação de duas matrizes. (a) Distributividade da soma à direita, (𝐴 + 𝐵)𝐶 = 𝐴𝐶 + 𝐵𝐶 Seja 𝐷 = 𝐴 + 𝐵

- elemento (𝑖, 𝑘) de 𝐷: 𝑑𝑖𝑘 = 𝑎𝑖𝑘 + 𝑏𝑖𝑘

(1)

- elemento (𝑖, 𝑗) da matriz ((𝐴 + 𝐵)𝐶)

((𝐴 + 𝐵)𝐶)𝑖𝑗 = (𝐷𝐶)𝑖𝑗 =

𝑝 ∑

𝑑𝑖𝑘 𝑐𝑘𝑗 =

𝑘=1

𝑝 ∑

𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗

(2)

𝑘=1

- elemento (𝑖, 𝑗) da matriz (𝐴𝐶 + 𝐵𝐶) ≡ soma dos elementos (𝑖, 𝑗) das matrizes 𝐴𝐶 e 𝐵𝐶. Ã ((𝐴𝐶 + 𝐵𝐶))𝑖𝑗 = (𝐴𝐶)𝑖𝑗 + (𝐵𝐶)𝑖𝑗 =

𝑝 ∑ 𝑘=1

𝑝 ∑

𝑎𝑖𝑘 𝑐𝑘𝑗

+

à 𝑝 ∑

) 𝑏𝑖𝑘 𝑐𝑘𝑗

=

𝑘=1

𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗 = ((𝐴 + 𝐵)𝐶)𝑖𝑗

𝑘=1

(b) Associatividade, 𝐴(𝐵𝐶) = (𝐴𝐵)𝐶 Seja 𝐷 = 𝐵𝐶 32

)

(3)

- elemento (𝑘, 𝑗) de 𝐷: 𝑑𝑘𝑗 =

𝑞 ∑

𝑏𝑘𝑙 𝑐𝑙𝑗

(4)

𝑙=1

- elemento (𝑖, 𝑗) de 𝐴𝐷: (𝐴𝐷)𝑖𝑗 =

𝑝 ∑

𝑎𝑖𝑘 𝑑𝑘𝑗

(5)

𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗

(6)

𝑘=1

Substituindo (4) em (5): (𝐴𝐷)𝑖𝑗 =

𝑝 ∑ 𝑝 ∑ 𝑘=1 𝑙=1

Seja 𝑍 = 𝐴𝐵 ≡ elemento (𝑖, 𝑗) de (𝐴𝐵)𝐶:

((𝐴𝐵)𝐶)𝑖𝑗 = (𝑍𝐶)𝑖𝑗 =

𝑞 ∑

𝑧𝑖𝑙 𝑐𝑙𝑗 =

𝑙=1

2

à 𝑝 𝑞 ∑ ∑ 𝑙=1

) 𝑎𝑖𝑘 𝑏𝑘𝑙

𝑐𝑙𝑗 =

𝑘=1

𝑞 ∑ 𝑝 ∑

𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗 = (𝐴(𝐵𝐶))𝑖𝑗

𝑙=1 𝑘=1

Lista 2 - Distribuição Normal Multivariada 1. Utilizando a função Matlab (que gera amostras aleatórias normais multivariadas): 𝑋𝑖 = mvnrnd(𝜇, Σ, 𝑛), 𝑖 = 1, 2, 3, . . . sendo: 𝜇 = [4.5 6.0 8.5 10.0 12.5 15.0] o vetor de médias, ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ Σ=⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣

⎤ 15.0000

1.5000

3.0000

2.3000

5.1000

1.5000 13.0000

2.7000

3.6000

4.7000

3.0000

2.7000 13.9000

5.2000

6.2000

2.3000

3.6000

5.2000 25.0000

3.1000

5.1000

4.7000

6.2000

3.1000 36.0000

0.9000

2.8000

3.2000

5.2000

4.8000

0.9000

⎥ ⎥ 2.8000 ⎥ ⎥ ⎥ 3.2000 ⎥ ⎥ ⎥ 5.2000 ⎥ ⎥ ⎥ 4.8000 ⎥ ⎦ 48.0000

a matriz de covariâncias e 𝑛 o tamanho das amostras, gerar as amostras aleatórias normais multivariadas 𝑋1 , 𝑋2 e 𝑋3 do vetor de médias 𝜇 e Σ a matriz de covariâncias com tamanho: (a) 𝑛 = 10, calculando em seguida, para 𝑋1 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> MI=[4.5 6 8.5 10 12.5 15] MI = 4.5000

6.0000

8.5000

10.0000 33

12.5000

15.0000

>> Cov=[15 1.5 3.0

2.3

5.1

0.9;

1.5

13.0

2.7

3.6

Cov = 15.0000

1.5000

3.0000

2.3000

5.1000

0.9000

1.5000

13.0000

2.7000

3.6000

4.7000

2.8000

3.0000

2.7000

13.9000

5.2000

6.2000

3.2000

2.3000

3.6000

5.2000

25.0000

3.1000

5.2000

5.1000

4.7000

6.2000

3.1000

36.0000

4.8000

0.9000

2.8000

3.2000

5.2000

4.8000

48.0000

>> X1=mvnrnd(MI,Cov,10) X1 = 6.5824

1.3693

10.4200

14.0294

11.8459

9.3273

11.6026

17.5895

7.6237

7.1229

15.6737

16.4204

-4.2485

7.7255

9.8072

5.0986

13.0840

6.6432

7.8392

6.1079

14.9699

8.4866

17.3463

8.2866

5.7346

8.6856

10.9781

-2.5282

9.6254

13.2773

-0.5647

4.7588

11.0591

17.0322

11.5824

26.7321

2.8207

5.3871

10.6869

12.0000

11.7389

10.2523

5.8270

11.4728

8.6750

7.6792

17.8671

18.2602

18.3591

12.4369

13.2687

20.2792

25.2909

17.1399

15.2260

12.1528

8.7717

3.9651

23.1206

23.0164

8.7686

10.6260

9.3165

15.7175

14.9356

46.9874

18.2327

1.3555

6.9462

28.3493

12.9910

18.2327

22.2742

-4.3880

-7.6632

13.6887

10.4479

1.3555

-4.3880

4.7934

5.2097

1.4845

-4.0889

6.9462

-7.6632

5.2097

44.8926

9.2218

9.3750

28.3493

13.6887

1.4845

9.2218

27.2998

11.1871

12.9910

10.4479

-4.0889

9.3750

11.1871

43.5201

>> mean(X1) ans = 6.9178 >> S=cov(X1) S =

Para 𝑛 = 10, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆 têm seus valores bem distantes dos valores originais do vetor de médias 𝜇 e da matriz 34

4.7

2.8;

3

de covariâncias Σ, respectivamente. (b) 𝑛 = 100, calculando em seguida, para 𝑋2 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> X2=mvnrnd(MI,Cov,100); >> mean(X2) ans = 4.5417

7.0864

8.6808

10.0058

13.0134

14.8672

14.6431

2.7541

3.6464

3.1158

5.3392

-1.2280

2.7541

13.6900

3.0848

3.5469

6.8503

0.3377

3.6464

3.0848

13.7587

6.0858

4.9247

5.7381

3.1158

3.5469

6.0858

26.5766

6.0904

6.3325

5.3392

6.8503

4.9247

6.0904

33.3137

2.5282

-1.2280

0.3377

5.7381

6.3325

2.5282

41.0911

>> S2=cov(X2) S2 =

Para 𝑛 = 100, o vetor de médias X tem seus valores bem próximos do vetor de médias𝜇, diferindo em apenas algumas unidades. Quanto a matriz de covariâncias amostrais 𝑆 seus valores estão bem distantes dos valores originais da matriz de covariâncias Σ. (c) 𝑛 = 1000, calculando em seguida, para 𝑋3 , o vetor de médias amostrais (X) e a matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ. Discutir as diferenças. >> X3=mvnrnd(MI,Cov,1000); >> mean(X3) ans = 4.4758

6.1065

8.5225

9.8296

12.4343

14.8078

14.4039

1.5281

2.7079

2.1403

3.7544

0.6423

1.5281

11.8247

2.6428

2.5697

4.0056

4.2034

2.7079

2.6428

12.7488

4.3487

5.2230

3.1401

>> S3=cov(X3) S3 =

35

2.1403

2.5697

4.3487

24.2446

2.5543

7.5897

3.7544

4.0056

5.2230

2.5543

32.5033

3.3190

0.6423

4.2034

3.1401

7.5897

3.3190

46.9719

Para 𝑛 = 1000, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆 têm seus valores bem próximos dos valores originais do vetor de médias 𝜇 e da matriz de covariâncias Σ, respectivamente. (d) Para os itens (a), (b) e (c) verificar a normalidade de cada amostra. Usar: function [ d2,q2 ] = normult( x ) %d2 = distâncias quadráticas %q2 = qui-quadrado %x= amostra multivariada %função destinada a averiguar a normalidade multivariada %Qual a dimensão de x? [n,p]=size(x); m=mean(x); S=cov(x); % cálculo das distâncias generalizadas, d2 for i=1:n d2(i)=(x(i,:)-m)*inv(S)*(x(i,:)-m)’; end %ordem crescente d2=sort(d2); %calculo dos q2 for i=1:n q2(i)=chi2inv(((i-0.5)/n),p); end q2 %grafico plot(d2,q2,’*K’) xlabel(’d^2’) ylabel(’chi^2’) grid 36

end

Para o item (a) [

Ã

𝑑2𝑗 , 𝜒26

𝑗 − 12 10

)] =

q2 = 1.6354

2.6613

3.4546

4.1973

4.9519

5.7652

6.6948

7.8408

9.4461

12.5916

3.3036

4.4551

4.8674

5.3506

5.6743

6.5874

6.6517

7.2706

7.3091

ans = 2.5302

14

12

10

chi

2

8

6

4

2

0 2.5

3

3.5

4

4.5

5

5.5

6

6.5

7

7.5

2

d

Para o item (b) [

Ã

𝑑2𝑗 , 𝜒26

𝑗 − 12 100

)] =

>> normult(X2); q2 = 0.6757

1.0160

1.2373

1.4140

1.5659 ... 14.4494

0.9080

1.2236

1.6460 ... 13.0529

15.7774

18.5476

16.1014

18.2444

ans = 0.8834

37

14.7759

20 18 16 14

chi

2

12 10 8 6 4 2 0

0

5

10

15

20

2

d

Para o item (c) Ã

[ 𝑑2𝑗 , 𝜒26

𝑗 − 12 1000

)] =

q2 = 0.2994

0.4394

0.5266

0.5940

0.6504 ... 19.4271

20.2494

21.4857

24.1028

0.6709

0.7719

0.7788

0.9040 ... 19.6546

20.1195

20.5514

20.7033

5

10

ans = 0.4914

25

20

chi

2

15

10

5

0

0

15

20

25

2

d

2. Uma amostra aleatória de 𝑛 = 70 indivíduos do vetor aleatório: X = [𝑋1 , 𝑋2 , 𝑋3 ]′ , onde: 𝑋1 = idade (anos), 𝑋2 = peso (kg) e 𝑋3 = altura (cm), é dada a seguir:

38

𝑋1

𝑋2

𝑋3

29

71

170

25

65

158

30

69

170

31

69

175

27

61

155

34

72

172

34

73

176

30

71

174

31

77

177

31

69

165

29

72

172

32

75

178

28

73

174

37

71

173

30

71

170

30

71

170

33

68

169

30

67

171

30

74

174

28

67

161

31

72

175

26

67

161

32

69

170

35

72

173

28

70

171

33

68

171

34

77

180

25

68

159

26

63

159

32

70

176

29

64

165

39

32

62

156

32

76

179

32

70

168

34

75

175

32

73

171

34

73

177

26

63

157

30

66

165

30

68

166

25

61

154

31

66

167

27

74

175

34

74

184

28

63

155

32

71

169

31

66

168

27

62

157

23

63

154

30

74

176

27

68

171

32

74

179

32

66

172

35

72

177

32

70

177

28

63

159

31

65

161

27

72

170

30

70

174

30

67

163

30

73

176

29

70

168

33

68

172

24

71

165

40

31

72

174

33

79

176

32

77

178

32

68

170

30

65

162

32

71

177

Verificar a normalidade do vetor aleatório X. ) Ã 1 𝑗 − 2 2 𝑑2𝑗 𝜒3 70 >> normult(X) d2 = Columns 1 through 11 0.2556

0.3173

0.3326

0.3326

0.4465

1.4144

1.5191

1.6057

1.7103

1.7106

1.7351

2.0073

2.0530

2.1582

2.4649

2.5009

2.5071

3.1679

3.1837

3.1871

3.6705

3.6872

3.7317

5.5681

5.6340

5.9425

7.7218

7.8503

9.3072

0.4606

0.6031

0.6491

0.7674

0.8370

1.0962

1.7416

1.7570

1.8258

1.8387

1.8826

1.9208

2.6760

2.7943

2.8713

2.9153

3.0750

3.0953

3.8597

3.9231

4.0450

4.2108

4.2481

4.5922

Columns 12 through 16 1.1121

1.1979

Columns 17 through 27 1.6646

1.6969

Columns 28 through 32 1.9396

1.9992

Columns 33 through 43 2.3807

2.4055

Columns 44 through 48 3.1039

3.1289

Columns 49 through 59 3.2703

3.6031

Columns 60 through 64 5.0297

5.3688

Columns 65 through 70 6.0255

6.8449

41

10.8191

14

12

10

chi

2

8

6

4

2

0

0

2

4

6

8

10

12

2

d

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza, 𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 50 bordas de chapas. A primeira medida envolve a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos. >> Y=[1949

1842

1666

1437;1814

1898

1865

1635

1500;1867

2022

1929

1760

1494]

1719 1783

Y = 1949

1842

1666

1437

1814

1719

1647

1388

1901

1893

1668

1527

2084

1916

1808

1489

1991

1894

1753

1481

2030

1919

1640

1491

2076

1934

1666

1586

1830

1816

1605

1444

1948

1855

1661

1436

1944

1782

1632

1415

1919

1799

1667

1523

1985

1903

1671

1571

2122

1912

1701

1592

1997

1881

1682

1447

2098

1913

1724

1517

1944

1807

1654

1457

2001

1849

1715

1500

1937

1842

1683

1450

2047

1937

1660

1482

1980

1882

1714

1474

42

1647 1614

1388;1901 1450;1944

1893 1833

1668 1579

1 1495

2038

1977

1776

1569

2053

1920

1744

1607

1994

1820

1709

1488

2071

1944

1747

1517

2185

2017

1766

1597

2042

1942

1723

1501

1999

1924

1618

1576

2073

2009

1785

1586

2004

1875

1693

1448

1911

1859

1641

1444

2039

1923

1694

1565

2000

1871

1644

1507

1978

1993

1740

1534

2102

1950

1758

1470

2149

1921

1725

1547

1958

1963

1704

1532

2008

1921

1711

1483

1935

1804

1634

1424

2054

1964

1705

1521

1811

1848

1689

1406

2079

1904

1733

1516

2018

1917

1761

1519

2021

1906

1688

1558

2097

1901

1676

1528

1978

1946

1750

1486

1989

1893

1696

1558

1898

1865

1635

1500

1867

1783

1614

1450

1944

1833

1579

1495

2022

1929

1760

1494

Verificar a normalidade do vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 ]′ . Ã ) 1 𝑗 − 2 𝑑2𝑗 𝜒24 50 d2

q2

0.7185

0.2971

1.1178

0.5351

1.1429

0.7107

1.3561

0.8616

1.3988

0.9987

1.5479

1.1268

1.5542

1.2488

1.5869

1.3665

1.6037

1.4810

1.8767

1.5933

1.9487

1.7039

43

1.9792

1.8136

2.1394

1.9226

2.2011

2.0313

2.2267

2.1402

2.2886

2.2494

2.3910

2.3593

2.4764

2.4701

2.5079

2.5821

2.5619

2.6955

2.5626

2.8106

2.5688

2.9277

3.0283

3.0469

3.1915

3.1687

3.4710

3.2933

3.6621

3.4209

3.7459

3.5521

3.8643

3.6871

4.2957

3.8265

4.4187

3.9706

4.5159

4.1201

4.5229

4.2755

4.9482

4.4377

5.0309

4.6074

5.0393

4.7857

5.1432

4.9738

5.2379

5.1730

5.3510

5.3853

5.6204

5.6127

5.8405

5.8581

5.9066

6.1251

5.9812

6.4185

6.0689

6.7449

6.9324

7.1137

7.0571

7.5390

7.3377

8.0434

7.5011

8.6664

7.5174

9.4877

9.1262

10.7119

9.8881

13.2767

44

14

12

10

chi

2

8

6

4

2

0

0

2

4

6

8

10

2

d

4. Representar graficamente uma distribuição ⎡ ⎤ normal bivariada com vetor de médias 𝜇 = 4 0 ⎦. [10 15]′ e matriz covariância Σ = ⎣ 0 9 Como 𝜇1 = 10, 𝜇2 = 15, 𝜎1 = 2 e 𝜎2 = 3, temos

− 1 𝑓 (𝑥1 ) = √ 𝑒 2 2𝜋

e − 1 𝑓 (𝑥2 ) = √ 𝑒 3 2𝜋

(𝑥1 − 10)2 2 ⋅ 22

(𝑥2 − 15)2 2 ⋅ 32

logo a f.d.p. conjunta é dada por:

𝑓 (𝑥1 , 𝑥2 ) = 𝑓 (𝑥1 ) ⋅ 𝑓 (𝑥2 ) (𝑥1 − 10)2 (𝑥2 − 15)2 − − 1 1 2 ⋅ 22 2 ⋅ 32 √ 𝑒 = ⋅ √ 𝑒 2 2𝜋 ⎡ 3 2𝜋 ⎤ (𝑥1 − 10)2 (𝑥2 − 15)2 ⎦ + −⎣ 1 8 18 = 𝑒 12𝜋 >> x1=3:0.1:17; >> x2=10:0.1:24; >> [x1,x2]=meshgrid(x1,x2); >> z=(1/(12*pi))*exp(((-1/8)*(x1-10).^2)+(-(1/18)*(x2-15).^2)); >> mesh(x1,x2,z) 45

0.03 0.025 0.02 0.015 0.01 0.005 0 25 20

20

15 10

15 5 10

0



⎤ 1

⎢ ⎢ 5. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = [−3, 1, 4]′ e Σ = ⎢ −2 ⎣ 0 iáveis são independentes? Justifique.

−2 0 5 0

⎥ ⎥ 0 ⎥. Quais das seguintes var⎦ 2

Substituir a matriz de covariância pela matriz de correlação >> S=[1 -2 0;-2 5 0;0 0 2] S = 1

-2

0

-2

5

0

0

0

2

>> V=diag(diag(S)) V = 1

0

0

0

5

0

0

0

2

>> RV=sqrtm(V) RV = 1.0000

0

0

0

2.2361

0 46

0

0

1.4142

1.0000

0

0

0

0.4472

0

0

0

0.7071

1.0000

-0.8944

0

-0.8944

1.0000

0

0

0

1.0000

>> IRV=inv(RV) IRV =

>> R=IRV*S*IRV R =

A matriz de correlação nos dá justamente a relação de dependência entre as variáveis, logo (a) 𝑋1 e 𝑋2 são dependestes, pois 𝜌12 = 𝜌21 ∕= 0. (b) 𝑋2 e 𝑋3 são independentes, pois 𝜌23 = 𝜌32 = 0. ⎡





𝜇1

𝜎12

⎤ 𝜎12 𝜎13

⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ 6. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = ⎢ 𝜇2 ⎥ e Σ = ⎢ 𝜎21 𝜎22 𝜎23 ⎥. Determine a f.d.p. ⎣ ⎦ ⎣ ⎦ 𝜇3 𝜎31 𝜎32 𝜎32 𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) padronizada. 𝜎13 𝜎12 e 𝜌13 = ∴ 𝜎12 = 𝜎21 = 𝜌12 𝜎1 𝜎2 , 𝜎13 = 𝜎31 = 𝜌13 𝜎1 𝜎3 Como 𝜌12 = 𝜎1 𝜎2 𝜎1 𝜎3 ⎡ ⎤ 𝜎12 𝜌12 𝜎1 𝜎2 𝜌13 𝜎1 𝜎3 ⎢ ⎥ ⎢ ⎥ 2 e 𝜎23 = 𝜎32 = 𝜌23 𝜎2 𝜎3 , tem-se a matriz de correlação: 𝑅 = ⎢ 𝜌12 𝜎1 𝜎2 𝜎2 𝜌23 𝜎2 𝜎3 ⎥ ⎣ ⎦ 2 𝜌13 𝜎1 𝜎3 𝜌23 𝜎2 𝜎3 𝜎3 Ã

3

1∑ 𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) = √ exp − 2 (2𝜋)3 𝜎1 𝜎2 𝜎3 𝑖=1 1

(

𝑥𝑖 − 𝑢𝑖 𝜎𝑖

)2 )

ou em notação matricial [ ] 1 1 ′ −1 𝑓 (𝑥) = √ exp − (𝑥 − 𝜇) Σ (𝑥 − 𝜇) 1 2 (2𝜋)3 ∣Σ∣ 2 A fdp normal padronizada pode ser obtida fazendo-se 𝑧𝑖 =

47

𝑥𝑖 − 𝜇𝑖 𝜎𝑖

3

Lista 3 - Inferência sobre o vetor de médias e MANOVA 1. Para o problema 2 da lista 2, testar a hipótese: 𝐻0 : 𝜇 = [30 60 170]′ contra a alternativa 𝐻1: 𝜇 ∕= [30 60 170]′ , aos níveis de significância: (a) de 1%; Temos que 𝐻0 : 𝜇 = [30 60 170]′ , 𝐻1: 𝜇 ∕= [30 60 170]′ , 𝑛 = 70, assim >>

X=[ 29

71

170;

25

65

158;

30

69

170;31

69

175;

27

61

155;

34

72

172;

34

73

176;

30

71

174;

31

77

177;

31

69

165;

29

72

172;

32

75

178;

28

73

174;

37

71

173;

30

71

170;

30

71

170;

33

68

169;

30

67

171;

30

74

174;

28

67

161;

31

72

175;

26

67

161;

32

69

170;

35

72

173;

28

70

171;

33

68

171;

34

77

180;

25

68

159;

26

63

159;

32

70

176;

29

64

165;

32

62

156;

32

76

179;

32

70

168;

34

75

175;

32

73

171;

34

73

177;

26

63

157;

30

66

165;

30

68

166;

25

61

154;

31

66

167;

27

74

175;

34

74

184;

28

63

155;

32

71

169;

31

66

168;

27

62

157;

23

63

154;

30

74

176;

27

68

171;

32

74

179;

32

66

172;

35

72

177;

32

70

177;

28

63

159;

31

65

161;

27

72

170;

30

70

174;

30

67

163;

30

73

176;

29

70

168;

33

68

172;

24

71

165;

31

72

174;

33

79

176;

32

77

178;

32

68

170;

30

65

162;

32

71

177];

>> mi=mean(X) mi = 30.2857

69.5286

169.4000

Sem o uso do computador usaríamos assim: >> S=(1/2)*((X(1,:)-mi)’*(X(1,:)-mi)+(X(2,:)-mi)’*(X(2,:)-mi)+(X(3,:)-mi)’*(X(3,:)-mi))... Com o uso do Matlab, faz-se: >> S=cov(X) S = 8.2070

6.1222

13.9855

6.1222

17.9340

27.0464

13.9855

27.0464

53.6638

>> InvS=inv(S) InvS = 0.2292

0.0494

-0.0846

0.0494

0.2430

-0.1354

-0.0846

-0.1354

0.1089

Logo >> T2=70*((mi-([30 60 170]))*InvS*(mi-([30 60 170]))’) T2 = 1.6779e+003

48

Como >> F=(((70-1)*3)/(70-3))*finv(0.99,3,67) F = 12.6306 Como 𝑇 2 é maior que 𝐹 então, rejeita-se 𝐻0 , portanto 𝜇 é diferente de [30 60 170]′ (b) de 5%. >> F=(((70-1)*3)/(70-3))*finv(0.95,3,67) F = 8.4702

Com 5% de significância, temos que, 𝐹 = 12.6306, logo 𝑇 2 > 𝐹2,1 (0, 05), sendo assim, rejeitamos a hipótese de que 𝜇 = 𝜇0 . 2. A transpiração de 20 mulheres sadias foram analisadas. Três componentes, 𝑋1 = taxa de suor, 𝑋2 = conteúdo de sódio e 𝑋3 = conteúdo de potássio, foram medidos, e os resultados, aos quais chamamos “dados do suor”, são apresentados na tabela seguinte: Identificação

𝑋1

𝑋2

𝑋3

1

3.7

48.5

9.3

2

5.7

65.1

8

3

3.8

47.2

10.9

4

3.2

53.2

12

5

3.1

55.5

9.7

6

4.6

36.1

7.9

7

2.4

24.8

14

8

7.2

33.1

7.6

9

6.7

47.4

8.5

10

5.4

54.1

11.3

11

3.9

36.9

12.7

12

4.5

58.8

12.3

13

3.5

27.8

9.8

14

4.5

40.2

8.4

15

1.5

13.5

10.1

49

16

8.5

56.4

7.1

17

4.5

71.6

8.2

18

6.5

52.8

10.9

19

4.1

44.1

11.2

20

5.5

40.9

9.4

Testar a hipótese: 𝐻0 : 𝜇 = [4 50 10]’ contra a alternativa 𝐻1 : 𝜇 ∕= [4 50 10]’, ao nível de significância de 1%. >> M=[3.7

48.5

9.3;5.7 65.1

4.6 36.1

7.9;2.4 24.8

3.9 36.9

12.7;4.5

8.5

56.4

8.0;3.8 47.2 14.0;7.2

58.8

7.1;4.5 71.6

33.1

12.3;3.5 8.2;6.5 52.8

M = 3.7000

48.5000

9.3000

5.7000

65.1000

8.0000

3.8000

47.2000

10.9000

3.2000

53.2000

12.0000

3.1000

55.5000

9.7000

4.6000

36.1000

7.9000

2.4000

24.8000

14.0000

7.2000

33.1000

7.6000

6.7000

47.4000

8.5000

5.4000

54.1000

11.3000

3.9000

36.9000

12.7000

4.5000

58.8000

12.3000

3.5000

27.8000

9.8000

4.5000

40.2000

8.4000

1.5000

13.5000

10.1000

8.5000

56.4000

7.1000

4.5000

71.6000

8.2000

6.5000

52.8000

10.9000

4.1000

44.1000

11.2000

5.5000

40.9000

9.4000

10.9;3.2

>> Vmi=mean(M) 50

53.2

7.6;6.7 47.4

27.8

12.0;3.1 8.5;5.4 54.1

9.8;4.5 40.2

10.9;4.1

44.1

55.5 11.3;

8.4;1.5 13.5 11.2;5.5

9.7;

40.9

10.1; 9.4];

Vmi = 4.6400

45.4000

9.9650

2.8794

10.0100

-1.8091

10.0100

199.7884

-5.6400

-1.8091

-5.6400

3.6277

>> S=cov(M) S =

>> InvS=inv(S) InvS = 0.5862

-0.0221

0.2580

-0.0221

0.0061

-0.0016

0.2580

-0.0016

0.4018

>> T2=20*((Vmi-H0)*InvS*(Vmi-H0)’) T2 = 9.7388 Sabendo que 𝐻0 : 𝜇 = [4 50 10]′ , 𝐻1: 𝜇 ∕= [4 50 10]′ , 𝑛 = 20,

>> F=(((20-1)*3)/(20-3))*finv(0.99,3,17) F = 17.3850 (𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝 ℱ3,17 (0.01) = 17.3850, logo 𝑇 2 < ℱ3,17 (0.01), sendo assim, 𝑛−𝑝 𝑛−𝑝 aceita-se 𝐻0 , ou seja, com 1% de significância aceitamos a hipótese de que 𝜇 = [4 50 10]′ . Temos que

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza, 𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 30 bordas de chapas. A primeira medida envolve a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos. Observações

𝑋1

𝑋2

51

𝑋3

𝑋4

1

1874

1722

1420

1371

2

1535

1393

1299

1220

3

1754

1566

1296

1309

4

2211

2069

1742

1599

5

1977

1903

1533

1545

6

2076

1832

1524

1513

7

2189

1972

1633

1620

8

1576

1376

1245

1184

9

1871

1732

1542

1408

10

1859

1520

1436

1382

11

1796

1687

1586

1417

12

1964

1783

1555

1550

13

2304

2083

1668

1651

14

1992

1874

1623

1605

15

2245

1997

1773

1711

16

1861

1669

1531

1339

17

2002

1717

1622

1422

18

1843

1553

1580

1378

19

2117

1856

1612

1542

20

1950

1775

1597

1479

21

2096

1848

1654

1584

22

2134

1829

1606

1519

23

1984

1857

1826

1525

24

2178

1909

1683

1585

25

2462

2203

1783

1758

26

2105

1892

1849

1614

27

1998

1781

1625

1544

28

2183

1986

1626

1622

29

2011

1792

1664

1445

30

1779

1496

1534

1389

Testar a hipótese: 𝐻0 : 𝜇 = [2000 1700 1500 1400]’, ao nível de significância de 5%. Temos que 52

𝐻0 : 𝜇 = [2000 1700 1500 1400]’, 𝐻1: 𝜇 ∕= [2000 1700 1500 1400]′ , 𝑛 = 30, >> Mi_O=mean(O) Media = 1.0e+003 * 1.9975

1.7891

1.5889

1.4943

4.1962

3.8593

2.3421

2.6239

3.8593

3.9383

2.2569

2.5497

2.3421

2.2569

2.0993

1.6417

2.6239

2.5497

1.6417

1.8725

0.2922

-0.1788

-0.0126

-0.1549

-0.1788

0.3241

0.0007

-0.1914

-0.0126

0.0007

0.1523

-0.1169

-0.1549

-0.1914

-0.1169

0.6336

>> S=cov(O) S = 1.0e+004 *

>> IS=inv(S) IS = 1.0e-003 *

>> T2=30*((Media-([2000 1700 1500 1400]))*IS*(Media-([2000 1700 1500 1400]))’) T2 = 132.1786 >> F=(((30-1)*4)/(30-4))*finv(0.95,4,26) F = 12.2362

(𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝 ℱ4,26 (0.05) = 12.2362, logo 𝑇 2 > ℱ4,26 (0.05), sendo assim, 𝑛−𝑝 𝑛−𝑝 rejeita-se 𝐻0 , ou seja, com 5% de significância rejeitamos a hipótese de que 𝜇 = 𝜇0 . Temos que

4. As amostras de tamanhos 𝑛1 = 60 e 𝑛2 = 75 foram obtidas das avaliações de 4 disciplinas (Matemática, História, Geografia e Ciências) das Escolas A e B, resultando nos vetores 53

[ de médias: x ¯1 =

]′ 5.0 7.0 6.5 7.5

[ ex ¯2 =

]′ 6.0 6.5 7.5 6.0

e nas matrizes de

covariâncias: ⎡

⎤ 1.00 0.20 0.30 0.28



⎤ 1.00 0.18 0.24 0.24

⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0.20 0.25 0.27 0.12 ⎥ ⎢ 0.18 0.36 0.19 0.17 ⎥ ⎥ e 𝑆2 = ⎢ ⎥ 𝑆1 = ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ 0.30 0.27 0.36 0.12 ⎥ ⎢ 0.24 0.19 0.16 0.08 ⎥ ⎣ ⎦ ⎣ ⎦ 0.28 0.12 0.12 0.16 0.24 0.17 0.08 0.16 Testar a hipótese: 𝐻0 : 𝜇1 = 𝜇2 contra a alternativa 𝐻1 : 𝜇1 ∕= 𝜇2 , ao nível de significância de 5%, considerando que Σ1 = Σ2 . >> x1=[5 7 6.5 7.5] x1 = 5.0000

7.0000

6.5000

7.5000

7.5000

6.0000

>> x2=[6 6.5 7.5 6] x2 = 6.0000

6.5000

>> S1=[]; >> S2=[]; Calcular a matriz de covariância ponderada >> Sp=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2) Sp = 1.0000

0.1889

0.2666

0.2577

0.1889

0.3112

0.2255

0.1478

0.2666

0.2255

0.2487

0.0977

0.2577

0.1478

0.0977

0.1600

>> T2=(x1-x2)*(inv(9/300*(Sp)))*(x1-x2)’ T2 = 1.4616e+003 >> Fteste=(T2*(120+100-3-1))/((120+100-2)*3) F = 9.6959 >> F=finv(0.95,4,130) 54

F = 2.4414 (𝑛1 + 𝑛2 − 2) ⋅ 𝑝 (𝑛1 + 𝑛2 − 2) ⋅ 𝑝 ℱ4,130 (0.05) = 2.4414, logo 𝐹𝑒𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑜 > ℱ4,130 (0.05), 𝑛1 + 𝑛2 − 𝑝 − 1 𝑛1 + 𝑛2 − 𝑝 − 1 sendo assim, rejeita-se 𝐻0 , ou seja, com 5% de significância a hipótese 𝐻0 : 𝑚𝑢1 = 𝜇2 é

Temos que

rejeitada. 5. Observações com duas respostas (variáveis) foram obtidas para três tratamentos. Os vetores observados foram: ⎤ ⎡

⎡ Tratamento 1:



6

⎦, ⎣

Tratamento 2:



⎤ ⎡ 3

⎦, ⎣

3 ⎡ Tratamento 3:



1

⎦, ⎣

⎦, ⎣

2

⎦, ⎣

⎦, ⎣

⎤ ⎡ 7

⎦, ⎣

9

⎤ 6

⎦;

8

⎤ 1

⎦;

4 ⎤ ⎡

3

⎦, ⎣

9

3

1

⎤ ⎡ 4

⎤ ⎡

⎤ ⎡ 5

⎦, ⎣

6

6

3

⎤ ⎡ 8

⎤ ⎡

⎤ ⎡ 2

⎦, ⎣

9

7 ⎡

⎤ ⎡ 5

⎦, ⎣

1

⎤ ⎡ 2 3

⎦, ⎣

⎤ 4

⎦.

2

Aplicar a MANOVA para testar a igualdade de tratamentos, usando um nível de significância de 5%. Repita o teste usando o qui-quadrado aproximado de Bartlett. Compare os resultados. >> T1=[6 7;5 9;8 6;4 9;7 9;6 8] T1 = 6

7

5

9

8

6

4

9

7

9

6

8

>> T2=[3 3;1 6;2 3;1 4] T2 = 3

3

1

6

2

3

1

4

>> T3=[2 3;5 1;3 1;2 3;4 2] 55

T3 = 2

3

5

1

3

1

2

3

4

2

Calcular a média de cada amostra >> x1=mean(T1) x1 = 6

8

>> x2=mean(T2) x2 = 1.7500

4.0000

>> x3=mean(T3) x3 = 3.2000

2.0000

Calcular a média ponderada global >> xg=(6*x1+4*x2+5*x3)/(15) xg = 3.9333

4.9333

>> B=6*(x1-xg)’*(x1-xg)+4*(x2-xg)’*(x2-xg)+5*(x3-xg)’*(x3-xg) B = 47.3833

56.9333

56.9333

102.9333

>> W=(T1(1,:)-x1)’*(T1(1,:)-x1)+(T1(2,:)-x1)’*(T1(2,:)-x1)+(T1(3,:)-x1)’*(T1(3,:)-x1)+ (T1(4,:)-x1)’*(T1(4,:)-x1)+(T1(5,:)-x1)’*(T1(5,:)-x1)+(T1(6,:)-x1)’*(T1(6,:)-x1)+ (T2(1,:)-x2)’*(T2(1,:)-x2)+(T2(2,:)-x2)’*(T2(2,:)-x2)+(T2(3,:)-x2)’*(T2(3,:)-x2)+ (T2(4,:)-x2)’*(T2(4,:)-x2)+(T3(1,:)-x3)’*(T3(1,:)-x3)+(T3(2,:)-x3)’*(T3(2,:)-x3)+ (T3(3,:)-x3)’*(T3(3,:)-x3)+(T3(4,:)-x3)’*(T3(4,:)-x3)+(T3(5,:)-x3)’*(T3(5,:)-x3) W = 19.5500

-13.0000

-13.0000

18.0000

>> B+W ans = 66.9333

43.9333 56

43.9333

120.9333

Lambda de Wilks >> L=det(W)/(det(B+W)) L = 0.0297 >> Fteste=((15-3-1)/(3-1))*((1-sqrt(L))/(sqrt(L))) Fteste = 26.4300 >> F=finv(0.95,4,22) F = 2.8167 Como 𝐹2(𝑔−1),2(𝑛−𝑔−1) = 𝐹4,22 = 2.8167 < 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 26.4300, então pelo menos um vetor de médias é diferente dos demais. Se fôssemos fazer a comparação por Barlett, teríamos (𝑛 − 1 −

𝑝+𝑔 2 ) ln Λ

𝑋𝑝2 (𝑔 − 1)

>> B=(15-1-(2+3))*log(L) B = -31.6584 >> X=chi2inv(0.95,4) X = 9.4877 6. Um pesquisador deseja testar a igualdade dos vetores médios de duas populações. Os resultados de suas pesquisas para o vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 ]′ forneceu as estatísticas: ⎡





44.3

⎤ 22.5

4.4

−3.9

95.7

10.2

−50.7

⎢ ⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ¯1 = ⎢ 𝑛1 = 120, X ⎢ 53.8 ⎥ , 𝑆1 = ⎢ 4.4 122.6 −17.5 ⎥ ⎣ ⎦ ⎣ ⎦ 60.5 −3.9 −17.5 214.7 ⎡





49.2



⎢ ⎥ ⎢ ⎥ ⎢ ¯2 = ⎢ 𝑛2 = 100, X ⎢ 56.5 ⎥ , 𝑆2 = ⎢ 10.2 152.7 ⎣ ⎦ ⎣ 65.2 −50.7 −7.1

⎥ ⎥ −7.1 ⎥ ⎦ 302.3

Qual seria sua conclusão ao nível de significância de 1%? Considerar que Σ1 = Σ2 . 𝐻0 : 𝜇1 = 𝜇2 57

𝐻0 : 𝜇1 ∕= 𝜇2

>> x1=[44.3 53.8 60.5] x1 = 44.3000

53.8000

60.5000

>> x2=[49.2 56.5 65.2] x2 = 49.2000

56.5000

65.2000

>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7] S1 = s

22.5000

4.4000

-3.9000

4.4000

122.6000

-17.5000

-3.9000

-17.5000

214.7000

>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3] S2 = 95.7000

10.2000

-50.7000

10.2000

152.7000

-7.1000

-50.7000

-7.1000

302.3000

>> Sp=(((120-1)*S1)+((100-1)*S2))/(120+100-2) Sp = 55.7422

7.0339

-25.1532

7.0339

136.2693

-12.7771

-25.1532

-12.7771

254.4817

>> T2=(x1-x2)*(inv(((1/120)+(1/100))*(Sp)))*(x1-x2)’ T2 = 36.4501 >> Fteste=(T2*(120+100-3-1))/((120+100-2)*3) Fteste = 12.0386 >> F=finv(0.99,3,216) F = 3.8735 Sendo 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 12.0386 maior que 𝐹3,216 (0.01) = 3.8735, então rejeita-se a hipótese 58

𝐻0 : 𝜇1 = 𝜇2 . Considerar que Σ1 ∕= Σ2 . 𝐻0 : 𝜇1 = 𝜇2 𝐻0 : 𝜇1 ∕= 𝜇2

>> x1=[44.3 53.8 60.5] x1 = 44.3000

53.8000

60.5000

>> x2=[49.2 56.5 65.2] x2 = 49.2000

56.5000

65.2000

>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7] S1 = 22.5000

4.4000

-3.9000

4.4000

122.6000

-17.5000

-3.9000

-17.5000

214.7000

>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3] S2 = 95.7000

10.2000

-50.7000

10.2000

152.7000

-7.1000

-50.7000

-7.1000

302.3000

>> (x1-x2)*inv(((1/120)*S1)+((1/100)*S2))*(x1-x2)’ ans = 33.9250 >> X=chi2inv(0.99,3) X = 11.3449 Ao nível de significância de 1%, considerando Σ1 ∕= Σ2 , rejeita-se a hipótese 𝐻0 onde considera-se 𝜇1 = 𝜇2 7. Para o problema 1 da lista 2, testar a igualdade dos vetores médios resultantes das amostras aleatórias obtidas (𝑛1 = 10, 𝑛2 = 100 e 𝑛3 = 1000). Qual seria sua conclusão ao nível de significância de 5%? 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 𝐻1 : Algum dos vetores difere dos outros Sigma =

59

15.0000

1.5000

3.0000

2.3000

5.1000

0.9000

1.5000

13.0000

2.7000

3.6000

4.7000

2.8000

3.0000

2.7000

13.9000

5.2000

6.2000

3.2000

2.3000

3.6000

5.2000

25.0000

3.1000

5.2000

5.1000

4.7000

6.2000

3.1000

36.0000

4.8000

0.9000

2.8000

3.2000

5.2000

4.8000

48.0000

>> mi=[4.5

6.0

8.5

10.0

12.5

15.0]

mi = 4.5000

6.0000

8.5000

10.0000

12.5000

15.0000

>> mx1=[6.9178 8.7686 10.6260 9.3165 15.7175 14.9356] mx1 = 6.9178

8.7686

10.6260

9.3165

15.7175

14.9356

>> mx2=[4.5417 7.0864 8.6808 10.0058 13.0134 14.8672] mx2 = 4.5417

7.0864

8.6808

10.0058

13.0134

14.8672

>> mx3=[4.4758 6.1065 8.5225 9.8296 12.4343 14.8078] mx3 = 4.4758

6.1065

8.5225

9.8296

12.4343

14.8078

>> X1=mvnrnd(mi,Sigma,10); >> S1=cov(X1); >> X2=mvnrnd(mi,Sigma,100); >> S2=cov(X2); >> X3=mvnrnd(mi,Sigma,1000); >> S3=cov(X3); >> Sp=((10-1)*S1+(100-1)*S2+(1000-1)*S3)/(10+100+1000-3) Sp = 15.6287

1.9193

3.0319

1.4114

5.1191

-0.5561

1.9193

13.0521

2.6940

3.2722

3.9318

3.3664

3.0319

2.6940

13.2001

4.4627

6.9650

2.0574

1.4114

3.2722

4.4627

24.2386

2.3232

5.1255

5.1191

3.9318

6.9650

2.3232

35.6304

4.9712

-0.5561

3.3664

2.0574

5.1255

4.9712

46.5597

>> X=[X1;X2;X3]; >> n=[10 100 1000] n = 10

100

1000

>> manova(X,n) *********************************** * AMOSTRAS MULTIVARIADAS - GRUPOS * *********************************** *********************************** *

E

MÉDIAS DOS GRUPOS

*

*********************************** X1 = 6.5824

1.3693

10.4200

14.0294

11.8459

9.3273

11.6026

17.5895

7.6237

7.1229

15.6737

16.4204

-4.2485

7.7255

9.8072

5.0986

13.0840

6.6432

7.8392

6.1079

14.9699

8.4866

17.3463

8.2866

60

5.7346

8.6856

10.9781

-2.5282

9.6254

13.2773

-0.5647

4.7588

11.0591

17.0322

11.5824

26.7321

2.8207

5.3871

10.6869

12.0000

11.7389

10.2523

5.8270

11.4728

8.6750

7.6792

17.8671

18.2602

18.3591

12.4369

13.2687

20.2792

25.2909

17.1399

15.2260

12.1528

8.7717

3.9651

23.1206

23.0164

xm1 = 6.9178 8.7686 10.6260 9.3165 15.7175 14.9356 xm2 = 4.1854 5.7971 8.0434 9.6145 12.3953 14.9631 xm3 = 4.5368 6.1124 8.6809 10.1606 12.5119 14.9485 ********************************** * FONTE DE VARIAÇÃO: TRATAMENTOS * ********************************** ********************************** *

MATRIZ B

*

********************************** 68.9232

74.2750

68.2612

-1.5521

80.6297

-0.8068

74.2750

80.4771

71.5727

-5.4796

88.9140

-0.7975

68.2612

71.5727

76.7049

15.8803

70.5974

-1.1282

-1.5521

-5.4796

15.8803

33.3743

-19.5365

-0.6119

80.6297

88.9140

70.5974

-19.5365

103.7436

-0.6089

-0.8068

-0.7975

-1.1282

-0.6119

-0.6089

0.0213

********************************** *

GRAUS DE LIBERDADE

*

********************************** 12

********************************** *

FONTE DE VARIAÇÃO: RESIDUAL

*

********************************** *

MATRIZ W

*

61

********************************** 1.0e+004 * 1.7301

0.2125

0.3356

0.1562

0.5667

-0.0616

0.2125

1.4449

0.2982

0.3622

0.4353

0.3727

0.3356

0.2982

1.4613

0.4940

0.7710

0.2278

0.1562

0.3622

0.4940

2.6832

0.2572

0.5674

0.5667

0.4353

0.7710

0.2572

3.9443

0.5503

-0.0616

0.3727

0.2278

0.5674

0.5503

5.1542

********************************** *

GRAUS DE LIBERDADE

*

********************************** 2204 ********************************** *

FONTE DE VARIAÇÃO: TOTAL

*

********************************** ********************************** *

MATRIZ B + W

*

********************************** 1.0e+004 * 1.7370

0.2199

0.3425

0.1561

0.5747

-0.0616

0.2199

1.4529

0.3054

0.3617

0.4441

0.3726

0.3425

0.3054

1.4689

0.4956

0.7781

0.2276

0.1561

0.3617

0.4956

2.6865

0.2552

0.5673

0.5747

0.4441

0.7781

0.2552

3.9547

0.5503

-0.0616

0.3726

0.2276

0.5673

0.5503

5.1542

********************************** *

GRAUS DE LIBERDADE

*

********************************** 2216 ********************************** *

LÂMBDA DE WILKS

*

********************************** 0.9864 ********************************** *

ESTATÍSTICA DO TESTE

*

********************************** F = 1.2615 ********************************** *

VALOR DE p

*

********************************** 0.2349

Como o teste 𝑝 = 0.2349 > 0.05 então, aceita-se a hipótese 𝐻0 : em que considera-se a igualdade dos vetores médios resultantes das amostras aleatórias. 8. A tabela seguinte mostra 9 variáveis referentes a 5 espécies de cães da Tailândia.

62

Ident.

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

𝑋6

𝑋7

𝑋8

𝑋9

Cães Modernos da Tailândia 1

123

10.1

23

23

19

7.8

32

33

5.6

2

137

9.6

19

22

19

7.8

32

40

5.8

3

121

10.2

18

21

21

7.9

35

38

6.2

4

130

10.7

24

22

20

7.9

32

37

5.9

5

149

12

25

25

21

8.4

35

43

6.6

6

125

9.5

23

20

20

7.8

33

37

6.3

7

126

9.1

20

22

19

7.5

32

35

5.5

8

125

9.7

19

19

19

7.5

32

37

6.2

9

121

9.6

22

20

18

7.6

31

35

5.3

10

122

8.9

10

20

19

7.6

31

35

5.7

11

115

9.3

19

19

20

7.8

33

34

6.5

12

112

9.1

19

20

19

6.6

30

33

5.1

13

124

9.3

21

21

18

7.1

30

36

5.5

14

128

9.6

22

21

19

7.5

32

38

5.8

15

130

8.4

23

20

19

7.3

31

40

5.8

16

127

10.5

25

23

20

8.7

32

35

6.1

Chacais Dourados 1

120

8.2

18

17

18

7

32

35

5.2

2

107

7.9

17

17

20

7

32

34

5.3

3

110

8.1

18

16

19

7.1

31

32

4.7

4

116

8.5

20

18

18

7.1

32

33

4.7

5

114

8.2

19

18

19

7.9

32

33

5.1

6

111

8.5

19

16

18

7.1

30

33

5

7

113

8.5

17

18

19

7.1

30

34

4.6

8

117

8.7

20

17

18

7

30

34

5.2

9

114

9.4

21

19

19

7.5

31

35

5.3

10

112

8.2

19

17

19

6.8

30

34

5.1

11

110

8.5

18

17

19

7

31

33

4.9

12

111

7.7

20

18

18

6.7

30

32

4.5

13

107

7.2

17

16

17

6

28

35

4.7

14

108

8.2

18

16

17

6.5

29

33

4.8

63

15

110

7.3

19

15

17

6.1

30

33

4.5

16

105

8.3

19

17

17

6.5

29

32

4.5

17

107

8.4

18

17

18

6.2

29

31

4.3

18

106

7.8

19

18

18

6.2

31

32

4.4

19

111

8.4

17

16

18

7

30

34

4.7

20

111

7.6

19

17

18

6.5

30

35

4.6

Cuons 1

123

9.7

22

21

20

7.8

27

36

6.1

2

135

11.8

25

21

23

8.9

31

38

7.1

3

138

11.4

25

25

22

9

30

38

7.3

4

141

10.8

26

25

21

8.1

29

39

6.6

5

135

11.2

25

25

21

8.5

29

39

6.7

6

136

11

22

24

22

8.1

31

39

6.8

7

131

10.4

23

23

23

8.7

30

36

6.8

8

137

10.6

25

24

21

8.3

28

38

6.5

9

135

10.5

25

25

21

8.4

29

39

6.9

10

131

10.9

25

24

21

8.5

29

35

6.2

11

130

11.3

22

23

21

8.7

29

37

7

12

144

10.8

24

26

22

8.9

30

42

7.1

13

139

10.9

26

23

22

8.7

30

39

6.9

14

123

9.8

23

22

10

8.1

26

34

5.6

15

137

11.3

27

26

23

8.7

30

39

6.5

16

128

10

22

23

22

8.7

29

37

6.6

17

122

9.9

22

22

20

8.2

26

36

5.7

Lobos Indianos 1

167

11.5

29

28

25

9.5

41

45

7.2

2

164

12.3

27

26

25

10

42

47

7.9

3

150

11.5

21

24

25

9.3

41

46

8.5

4

145

11.3

28

24

24

9.2

36

41

7.2

5

177

12.4

31

27

27

10.5

43

50

7.9

6

166

13.4

32

27

26

9.5

40

47

7.3

7

164

12.1

27

24

25

9.9

42

45

8.3

8

165

12.6

30

26

25

7.7

40

43

7.9

64

9

131

11.8

20

24

23

8.8

38

40

6.5

10

163

10.8

27

24

24

9.2

39

48

7

11

164

10.7

24

23

26

9.5

43

47

7.6

12

141

10.4

20

23

23

8.9

38

43

6

13

148

10.6

26

21

24

8.9

39

40

7

14

158

10.7

25

25

24

9.8

41

45

7.4

Cães Pré-históricos Tailandeses 1

112

10.1

17

18

19

7.7

31

33

5.8

2

115

10

18

23

20

7.8

33

36

6

3

136

11.9

22

25

21

8.5

36

39

7

4

111

9.9

19

20

18

7.3

29

34

5.3

5

130

11.2

23

27

20

9.1

35

35

6.6

6

125

10.7

19

26

20

8.4

33

37

6.3

7

132

9.6

19

20

19

9.7

35

38

6.6

8

121

10.7

21

23

19

7.9

32

35

6

9

122

9.8

22

23

18

7.9

32

35

6.1

19

124

9.5

20

24

19

7.6

32

37

6

Nota: As variáveis são 𝑋1 = comprimento da mandíbula; 𝑋2 = largura da mandíbula abaixo do primeiro molar; 𝑋3 = largura do côndilo articular; 𝑋4 = altura da mandíbula abaixo do primeiro molar; 𝑋5 = comprimento do primeiro molar; 𝑋6 = largura do primeiro molar; 𝑋7 = comprimento do primeiro ao terceiro molar, inclusive (primeiro ao segundo para o cuon); 𝑋8 = comprimento do primeiro ao quarto premolar, inclusive; 𝑋9 = largura do canino inferior.

(a) Através da MANOVA, testar a existência de diferenças significativas, ao nível de significância de 5%, entre tratamentos para as cinco raças de cães. >> Y=[Y1;Y2;Y3;Y4;Y5] Y = 123.0000

10.1000

23.0000

23.0000

19.0000

7.8000

32.0000

33.0000

5.6000

137.0000

9.6000

19.0000

22.0000

19.0000

7.8000

32.0000

40.0000

5.8000

121.0000

10.2000

18.0000

21.0000

21.0000

7.9000

35.0000

38.0000

6.2000

130.0000

10.7000

24.0000

22.0000

20.0000

7.9000

32.0000

37.0000

5.9000

149.0000

12.0000

25.0000

25.0000

21.0000

8.4000

35.0000

43.0000

6.6000

125.0000

9.5000

23.0000

20.0000

20.0000

7.8000

33.0000

37.0000

6.3000

126.0000

9.1000

20.0000

22.0000

19.0000

7.5000

32.0000

35.0000

5.5000

125.0000

9.7000

19.0000

19.0000

19.0000

7.5000

32.0000

37.0000

6.2000

121.0000

9.6000

22.0000

20.0000

18.0000

7.6000

31.0000

35.0000

5.3000

122.0000

8.9000

10.0000

20.0000

19.0000

7.6000

31.0000

35.0000

5.7000

65

115.0000

9.3000

19.0000

19.0000

20.0000

7.8000

33.0000

34.0000

6.5000

112.0000

9.1000

19.0000

20.0000

19.0000

6.6000

30.0000

33.0000

5.1000

124.0000

9.3000

21.0000

21.0000

18.0000

7.1000

30.0000

36.0000

5.5000

128.0000

9.6000

22.0000

21.0000

19.0000

7.5000

32.0000

38.0000

5.8000

130.0000

8.4000

23.0000

20.0000

19.0000

7.3000

31.0000

40.0000

5.8000

127.0000

10.5000

25.0000

23.0000

20.0000

8.7000

32.0000

35.0000

6.1000

120.0000

8.2000

18.0000

17.0000

18.0000

7.0000

32.0000

35.0000

5.2000

107.0000

7.9000

17.0000

17.0000

20.0000

7.0000

32.0000

34.0000

5.3000

110.0000

8.1000

18.0000

16.0000

19.0000

7.1000

31.0000

32.0000

4.7000

116.0000

8.5000

20.0000

18.0000

18.0000

7.1000

32.0000

33.0000

4.7000

114.0000

8.2000

19.0000

18.0000

19.0000

7.9000

32.0000

33.0000

5.1000

111.0000

8.5000

19.0000

16.0000

18.0000

7.1000

30.0000

33.0000

5.0000

113.0000

8.5000

17.0000

18.0000

19.0000

7.1000

30.0000

34.0000

4.6000

117.0000

8.7000

20.0000

17.0000

18.0000

7.0000

30.0000

34.0000

5.2000

114.0000

9.4000

21.0000

19.0000

19.0000

7.5000

31.0000

35.0000

5.3000

112.0000

8.2000

19.0000

17.0000

19.0000

6.8000

30.0000

34.0000

5.1000

110.0000

8.5000

18.0000

17.0000

19.0000

7.0000

31.0000

33.0000

4.9000

111.0000

7.7000

20.0000

18.0000

18.0000

6.7000

30.0000

32.0000

4.5000

107.0000

7.2000

17.0000

16.0000

17.0000

6.0000

28.0000

35.0000

4.7000

108.0000

8.2000

18.0000

16.0000

17.0000

6.5000

29.0000

33.0000

4.8000

110.0000

7.3000

19.0000

15.0000

17.0000

6.1000

30.0000

33.0000

4.5000

105.0000

8.3000

19.0000

17.0000

17.0000

6.5000

29.0000

32.0000

4.5000

107.0000

8.4000

18.0000

17.0000

18.0000

6.2000

29.0000

31.0000

4.3000

106.0000

7.8000

19.0000

18.0000

18.0000

6.2000

31.0000

32.0000

4.4000

111.0000

8.4000

17.0000

16.0000

18.0000

7.0000

30.0000

34.0000

4.7000

111.0000

7.6000

19.0000

17.0000

18.0000

6.5000

30.0000

35.0000

4.6000

123.0000

9.7000

22.0000

21.0000

20.0000

7.8000

27.0000

36.0000

6.1000

135.0000

11.8000

25.0000

21.0000

23.0000

8.9000

31.0000

38.0000

7.1000

138.0000

11.4000

25.0000

25.0000

22.0000

9.0000

30.0000

38.0000

7.3000

141.0000

10.8000

26.0000

25.0000

21.0000

8.1000

29.0000

39.0000

6.6000

135.0000

11.2000

25.0000

25.0000

21.0000

8.5000

29.0000

39.0000

6.7000

136.0000

11.0000

22.0000

24.0000

22.0000

8.1000

31.0000

39.0000

6.8000

131.0000

10.4000

23.0000

23.0000

23.0000

8.7000

30.0000

36.0000

6.8000

137.0000

10.6000

25.0000

24.0000

21.0000

8.3000

28.0000

38.0000

6.5000

135.0000

10.5000

25.0000

25.0000

21.0000

8.4000

29.0000

39.0000

6.9000

131.0000

10.9000

25.0000

24.0000

21.0000

8.5000

29.0000

35.0000

6.2000

130.0000

11.3000

22.0000

23.0000

21.0000

8.7000

29.0000

37.0000

7.0000

144.0000

10.8000

24.0000

26.0000

22.0000

8.9000

30.0000

42.0000

7.1000

139.0000

10.9000

26.0000

23.0000

22.0000

8.7000

30.0000

39.0000

6.9000

123.0000

9.8000

23.0000

22.0000

10.0000

8.1000

26.0000

34.0000

5.6000

137.0000

11.3000

27.0000

26.0000

23.0000

8.7000

30.0000

39.0000

6.5000

128.0000

10.0000

22.0000

23.0000

22.0000

8.7000

29.0000

37.0000

6.6000

122.0000

9.9000

22.0000

22.0000

20.0000

8.2000

26.0000

36.0000

5.7000

167.0000

11.5000

29.0000

28.0000

25.0000

9.5000

41.0000

45.0000

7.2000

164.0000

12.3000

27.0000

26.0000

25.0000

10.0000

42.0000

47.0000

7.9000

150.0000

11.5000

21.0000

24.0000

25.0000

9.3000

41.0000

46.0000

8.5000

145.0000

11.3000

28.0000

24.0000

24.0000

9.2000

36.0000

41.0000

7.2000

177.0000

12.4000

31.0000

27.0000

27.0000

10.5000

43.0000

50.0000

7.9000

66

166.0000

13.4000

32.0000

27.0000

26.0000

9.5000

40.0000

47.0000

7.3000

164.0000

12.1000

27.0000

24.0000

25.0000

9.9000

42.0000

45.0000

8.3000

165.0000

12.6000

30.0000

26.0000

25.0000

7.7000

40.0000

43.0000

7.9000

131.0000

11.8000

20.0000

24.0000

23.0000

8.8000

38.0000

40.0000

6.5000

163.0000

10.8000

27.0000

24.0000

24.0000

9.2000

39.0000

48.0000

7.0000

164.0000

10.7000

24.0000

23.0000

26.0000

9.5000

43.0000

47.0000

7.6000

141.0000

10.4000

20.0000

23.0000

23.0000

8.9000

38.0000

43.0000

6.0000

148.0000

10.6000

26.0000

21.0000

24.0000

8.9000

39.0000

40.0000

7.0000

158.0000

10.7000

25.0000

25.0000

24.0000

9.8000

41.0000

45.0000

7.4000

112.0000

10.1000

17.0000

18.0000

19.0000

7.7000

31.0000

33.0000

5.8000

115.0000

10.0000

18.0000

23.0000

20.0000

7.8000

33.0000

36.0000

6.0000

136.0000

11.9000

22.0000

25.0000

21.0000

8.5000

36.0000

39.0000

7.0000

111.0000

9.9000

19.0000

20.0000

18.0000

7.3000

29.0000

34.0000

5.3000

130.0000

11.2000

23.0000

27.0000

20.0000

9.1000

35.0000

35.0000

6.6000

125.0000

10.7000

19.0000

26.0000

20.0000

8.4000

33.0000

37.0000

6.3000

132.0000

9.6000

19.0000

20.0000

19.0000

9.7000

35.0000

38.0000

6.6000

121.0000

10.7000

21.0000

23.0000

19.0000

7.9000

32.0000

35.0000

6.0000

122.0000

9.8000

22.0000

23.0000

18.0000

7.9000

32.0000

35.0000

6.1000

124.0000

9.5000

20.0000

24.0000

19.0000

7.6000

32.0000

37.0000

6.0000

>> n=[16 20 17 14 10] n = 16

20

17

14

10

>> manova(Y,n) *********************************** * AMOSTRAS MULTIVARIADAS - GRUPOS * *********************************** *********************************** *

E

MÉDIAS DOS GRUPOS

*

*********************************** X1 = 123.0000

10.1000

23.0000

23.0000

19.0000

7.8000

32.0000

33.0000

5.6000

137.0000

9.6000

19.0000

22.0000

19.0000

7.8000

32.0000

40.0000

5.8000

121.0000

10.2000

18.0000

21.0000

21.0000

7.9000

35.0000

38.0000

6.2000

130.0000

10.7000

24.0000

22.0000

20.0000

7.9000

32.0000

37.0000

5.9000

149.0000

12.0000

25.0000

25.0000

21.0000

8.4000

35.0000

43.0000

6.6000

125.0000

9.5000

23.0000

20.0000

20.0000

7.8000

33.0000

37.0000

6.3000

126.0000

9.1000

20.0000

22.0000

19.0000

7.5000

32.0000

35.0000

5.5000

125.0000

9.7000

19.0000

19.0000

19.0000

7.5000

32.0000

37.0000

6.2000

121.0000

9.6000

22.0000

20.0000

18.0000

7.6000

31.0000

35.0000

5.3000

122.0000

8.9000

10.0000

20.0000

19.0000

7.6000

31.0000

35.0000

5.7000

115.0000

9.3000

19.0000

19.0000

20.0000

7.8000

33.0000

34.0000

6.5000

112.0000

9.1000

19.0000

20.0000

19.0000

6.6000

30.0000

33.0000

5.1000

124.0000

9.3000

21.0000

21.0000

18.0000

7.1000

30.0000

36.0000

5.5000

128.0000

9.6000

22.0000

21.0000

19.0000

7.5000

32.0000

38.0000

5.8000

130.0000

8.4000

23.0000

20.0000

19.0000

7.3000

31.0000

40.0000

5.8000

127.0000

10.5000

25.0000

23.0000

20.0000

8.7000

32.0000

35.0000

6.1000

xm1 = 125.9375

67

9.7250 20.7500 21.1250 19.3750 7.6750 32.0625 36.6250 5.8687 X2 = 120.0000

8.2000

18.0000

17.0000

18.0000

7.0000

32.0000

35.0000

5.2000

107.0000

7.9000

17.0000

17.0000

20.0000

7.0000

32.0000

34.0000

5.3000

110.0000

8.1000

18.0000

16.0000

19.0000

7.1000

31.0000

32.0000

4.7000

116.0000

8.5000

20.0000

18.0000

18.0000

7.1000

32.0000

33.0000

4.7000

114.0000

8.2000

19.0000

18.0000

19.0000

7.9000

32.0000

33.0000

5.1000

111.0000

8.5000

19.0000

16.0000

18.0000

7.1000

30.0000

33.0000

5.0000

113.0000

8.5000

17.0000

18.0000

19.0000

7.1000

30.0000

34.0000

4.6000

117.0000

8.7000

20.0000

17.0000

18.0000

7.0000

30.0000

34.0000

5.2000

114.0000

9.4000

21.0000

19.0000

19.0000

7.5000

31.0000

35.0000

5.3000

112.0000

8.2000

19.0000

17.0000

19.0000

6.8000

30.0000

34.0000

5.1000

110.0000

8.5000

18.0000

17.0000

19.0000

7.0000

31.0000

33.0000

4.9000

111.0000

7.7000

20.0000

18.0000

18.0000

6.7000

30.0000

32.0000

4.5000

107.0000

7.2000

17.0000

16.0000

17.0000

6.0000

28.0000

35.0000

4.7000

108.0000

8.2000

18.0000

16.0000

17.0000

6.5000

29.0000

33.0000

4.8000

110.0000

7.3000

19.0000

15.0000

17.0000

6.1000

30.0000

33.0000

4.5000

105.0000

8.3000

19.0000

17.0000

17.0000

6.5000

29.0000

32.0000

4.5000

107.0000

8.4000

18.0000

17.0000

18.0000

6.2000

29.0000

31.0000

4.3000

106.0000

7.8000

19.0000

18.0000

18.0000

6.2000

31.0000

32.0000

4.4000

111.0000

8.4000

17.0000

16.0000

18.0000

7.0000

30.0000

34.0000

4.7000

111.0000

7.6000

19.0000

17.0000

18.0000

6.5000

30.0000

35.0000

4.6000

123.0000

9.7000

22.0000

21.0000

20.0000

7.8000

27.0000

36.0000

6.1000

135.0000

11.8000

25.0000

21.0000

23.0000

8.9000

31.0000

38.0000

7.1000

138.0000

11.4000

25.0000

25.0000

22.0000

9.0000

30.0000

38.0000

7.3000

141.0000

10.8000

26.0000

25.0000

21.0000

8.1000

29.0000

39.0000

6.6000

135.0000

11.2000

25.0000

25.0000

21.0000

8.5000

29.0000

39.0000

6.7000

136.0000

11.0000

22.0000

24.0000

22.0000

8.1000

31.0000

39.0000

6.8000

131.0000

10.4000

23.0000

23.0000

23.0000

8.7000

30.0000

36.0000

6.8000

137.0000

10.6000

25.0000

24.0000

21.0000

8.3000

28.0000

38.0000

6.5000

xm2 = 111.0000 8.1800 18.6000 17.0000 18.2000 6.8150 30.3500 33.3500 4.8050 X3 =

68

135.0000

10.5000

25.0000

25.0000

21.0000

8.4000

29.0000

39.0000

6.9000

131.0000

10.9000

25.0000

24.0000

21.0000

8.5000

29.0000

35.0000

6.2000

130.0000

11.3000

22.0000

23.0000

21.0000

8.7000

29.0000

37.0000

7.0000

144.0000

10.8000

24.0000

26.0000

22.0000

8.9000

30.0000

42.0000

7.1000

139.0000

10.9000

26.0000

23.0000

22.0000

8.7000

30.0000

39.0000

6.9000

123.0000

9.8000

23.0000

22.0000

10.0000

8.1000

26.0000

34.0000

5.6000

137.0000

11.3000

27.0000

26.0000

23.0000

8.7000

30.0000

39.0000

6.5000

128.0000

10.0000

22.0000

23.0000

22.0000

8.7000

29.0000

37.0000

6.6000

122.0000

9.9000

22.0000

22.0000

20.0000

8.2000

26.0000

36.0000

5.7000

167.0000

11.5000

29.0000

28.0000

25.0000

9.5000

41.0000

45.0000

7.2000

164.0000

12.3000

27.0000

26.0000

25.0000

10.0000

42.0000

47.0000

7.9000

150.0000

11.5000

21.0000

24.0000

25.0000

9.3000

41.0000

46.0000

8.5000

145.0000

11.3000

28.0000

24.0000

24.0000

9.2000

36.0000

41.0000

7.2000

177.0000

12.4000

31.0000

27.0000

27.0000

10.5000

43.0000

50.0000

7.9000

166.0000

13.4000

32.0000

27.0000

26.0000

9.5000

40.0000

47.0000

7.3000

164.0000

12.1000

27.0000

24.0000

25.0000

9.9000

42.0000

45.0000

8.3000

165.0000

12.6000

30.0000

26.0000

25.0000

7.7000

40.0000

43.0000

7.9000

131.0000

11.8000

20.0000

24.0000

23.0000

8.8000

38.0000

40.0000

6.5000

163.0000

10.8000

27.0000

24.0000

24.0000

9.2000

39.0000

48.0000

7.0000

164.0000

10.7000

24.0000

23.0000

26.0000

9.5000

43.0000

47.0000

7.6000

141.0000

10.4000

20.0000

23.0000

23.0000

8.9000

38.0000

43.0000

6.0000

148.0000

10.6000

26.0000

21.0000

24.0000

8.9000

39.0000

40.0000

7.0000

158.0000

10.7000

25.0000

25.0000

24.0000

9.8000

41.0000

45.0000

7.4000

112.0000

10.1000

17.0000

18.0000

19.0000

7.7000

31.0000

33.0000

5.8000

115.0000

10.0000

18.0000

23.0000

20.0000

7.8000

33.0000

36.0000

6.0000

136.0000

11.9000

22.0000

25.0000

21.0000

8.5000

36.0000

39.0000

7.0000

xm3 = 133.2353 10.7235 24.0588 23.6471 20.8824 8.4882 29.0000 37.7059 6.6118 X4 =

xm4 = 157.3571 11.5786 26.2143 24.7143 24.7143 9.3357 40.2143 44.7857 7.4071 X5 =

69

111.0000

9.9000

19.0000

20.0000

18.0000

7.3000

29.0000

34.0000

5.3000

130.0000

11.2000

23.0000

27.0000

20.0000

9.1000

35.0000

35.0000

6.6000

125.0000

10.7000

19.0000

26.0000

20.0000

8.4000

33.0000

37.0000

6.3000

132.0000

9.6000

19.0000

20.0000

19.0000

9.7000

35.0000

38.0000

6.6000

121.0000

10.7000

21.0000

23.0000

19.0000

7.9000

32.0000

35.0000

6.0000

122.0000

9.8000

22.0000

23.0000

18.0000

7.9000

32.0000

35.0000

6.1000

124.0000

9.5000

20.0000

24.0000

19.0000

7.6000

32.0000

37.0000

6.0000

xm5 = 122.8000 10.3400 20.0000 22.9000 19.3000 8.1900 32.8000 35.9000 6.1700 ********************************** * FONTE DE VARIAÇÃO: TRATAMENTOS * ********************************** ********************************** *

MATRIZ B

*

********************************** 1.0e+004 * 1.8577

0.1326

0.3230

0.2982

0.2658

0.0996

0.3587

0.4543

0.1029

0.1326

0.0112

0.0240

0.0268

0.0182

0.0081

0.0209

0.0313

0.0084

0.3230

0.0240

0.0614

0.0550

0.0463

0.0179

0.0482

0.0767

0.0186

0.2982

0.0268

0.0550

0.0650

0.0400

0.0189

0.0420

0.0692

0.0196

0.2658

0.0182

0.0463

0.0400

0.0390

0.0140

0.0536

0.0656

0.0143

0.0996

0.0081

0.0179

0.0189

0.0140

0.0059

0.0169

0.0238

0.0061

0.3587

0.0209

0.0482

0.0420

0.0536

0.0169

0.1138

0.0955

0.0168

0.4543

0.0313

0.0767

0.0692

0.0656

0.0238

0.0955

0.1125

0.0245

0.1029

0.0084

0.0186

0.0196

0.0143

0.0061

0.0168

0.0245

0.0063

********************************** *

FONTE DE VARIAÇÃO: RESIDUAL

*

********************************** *

MATRIZ W

*

********************************** 1.0e+003 * 4.7028

0.2151

0.9154

0.6018

0.4049

0.1633

0.6246

1.0197

0.1692

0.2151

0.0373

0.0707

0.0528

0.0377

0.0116

0.0404

0.0377

0.0130

0.9154

0.0707

0.4991

0.1717

0.0681

0.0255

0.0764

0.1282

0.0254

0.6018

0.0528

0.1717

0.2174

0.0677

0.0233

0.0845

0.1170

0.0190

0.4049

0.0377

0.0681

0.0677

0.1897

0.0243

0.1157

0.1097

0.0320

0.1633

0.0116

0.0255

0.0233

0.0243

0.0205

0.0406

0.0358

0.0102

0.6246

0.0404

0.0764

0.0845

0.1157

0.0406

0.1854

0.1444

0.0412

1.0197

0.0377

0.1282

0.1170

0.1097

0.0358

0.1444

0.3491

0.0415

0.1692

0.0130

0.0254

0.0190

0.0320

0.0102

0.0412

0.0415

0.0163

70

********************************** *

FONTE DE VARIAÇÃO: TOTAL

*

********************************** ********************************* *

MATRIZ B + W

*

********************************** 1.0e+004 * 2.3280

0.1541

0.4146

0.3584

0.3063

0.1160

0.4212

0.5563

0.1198

0.1541

0.0150

0.0311

0.0320

0.0220

0.0092

0.0249

0.0350

0.0096

0.4146

0.0311

0.1113

0.0722

0.0531

0.0205

0.0558

0.0896

0.0211

0.3584

0.0320

0.0722

0.0867

0.0468

0.0213

0.0504

0.0809

0.0215

0.3063

0.0220

0.0531

0.0468

0.0580

0.0164

0.0651

0.0766

0.0175

0.1160

0.0092

0.0205

0.0213

0.0164

0.0080

0.0210

0.0274

0.0071

0.4212

0.0249

0.0558

0.0504

0.0651

0.0210

0.1323

0.1099

0.0209

0.5563

0.0350

0.0896

0.0809

0.0766

0.0274

0.1099

0.1475

0.0286

0.1198

0.0096

0.0211

0.0215

0.0175

0.0071

0.0209

0.0286

0.0079

********************************** *

LÂMBDA DE WILKS

*

********************************** 0.0049 ********************************** *

ESTATÍSTICA DO TESTE

*

********************************** qui2 = 366.9383 ********************************** *

VALOR DE p

*

********************************** 0

Como o teste 𝑝 = 0 < 0.05 então, rejeita-se a hipótese 𝐻0 : em que considera-se a igualdade dos vetores médios. (b) Testar isoladamente cada raça com os cães pré-históricos tailandeses, ao nível de significância de 5%. >> Y1=[]; >> Y2=[]; >> Y3=[]; >> Y4=[]; >> Y5=[]; >> S1=cov(Y1) S1 = 72.3292

4.3350

12.9167

9.8083

2.4250

2.1450

5.2708

19.9083

1.4979

4.3350

0.7180

1.5467

1.0433

0.4767

0.2893

0.7983

0.9300

0.1828

12.9167

1.5467

13.4000

2.9667

0.6333

0.6333

1.0167

2.7000

0.2983

9.8083

1.0433

2.9667

2.6500

0.5500

0.4633

0.9250

1.6500

0.1108

2.4250

0.4767

0.6333

0.5500

0.7833

0.2700

1.1083

0.9500

0.2925

2.1450

0.2893

0.6333

0.4633

0.2700

0.2313

0.4617

0.4167

0.1385

71

5.2708

0.7983

1.0167

0.9250

1.1083

0.4617

2.0625

1.9583

0.4887

19.9083

0.9300

2.7000

1.6500

0.9500

0.4167

1.9583

7.4500

0.5742

1.4979

0.1828

0.2983

0.1108

0.2925

0.1385

0.4887

0.5742

0.1796

15.0526

0.8000

1.5263

1.1053

0.6842

1.1158

2.2632

2.1579

0.6474

0.8000

0.2533

0.1968

0.2368

0.1568

0.1566

0.1495

0.0284

0.0691

1.5263

0.1968

1.3053

0.5263

-0.0737

0.1221

0.2526

-0.1158

0.0495

1.1053

0.2368

0.5263

0.9474

0.3684

0.2158

0.4737

0.0526

0.0526

0.6842

0.1568

-0.0737

0.3684

0.6947

0.2653

0.6105

0.1368

0.1358

1.1158

0.1566

0.1221

0.2158

0.2653

0.2308

0.3629

0.1208

0.0994

2.2632

0.1495

0.2526

0.4737

0.6105

0.3629

1.2921

0.1342

0.1718

2.1579

0.0284

-0.1158

0.0526

0.1368

0.1208

0.1342

1.3974

0.2192

0.6474

0.0691

0.0495

0.0526

0.1358

0.0994

0.1718

0.2192

0.0973

41.3162

2.6191

7.2978

7.4007

9.9669

1.0404

7.0625

10.6360

2.2783

2.6191

0.3707

0.5610

0.3713

0.9467

0.1309

0.7063

0.5824

0.2103

7.2978

0.5610

2.8088

1.4596

1.2574

0.1882

0.9375

1.3934

0.2368

7.4007

0.3713

1.4596

2.4926

1.4559

0.1643

0.9375

2.0147

0.3044

9.9669

0.9467

1.2574

1.4559

8.7353

0.4923

3.1875

3.1507

0.9577

1.0404

0.1309

0.1882

0.1643

0.4923

0.1174

0.3250

0.2401

0.1151

7.0625

0.7063

0.9375

0.9375

3.1875

0.3250

2.2500

1.7500

0.6125

10.6360

0.5824

1.3934

2.0147

3.1507

0.2401

1.7500

3.7206

0.6287

2.2783

0.2103

0.2368

0.3044

0.9577

0.1151

0.6125

0.6287

0.2286

156.4011

4.8467

37.1484

14.6484

11.9560

3.8016

18.9945

30.5440

4.9203

>> S2=cov(Y2) S2 =

>> S3=cov(Y3) S3 =

>> S4=cov(Y4) S4 =

4.8467

0.8049

2.1203

1.1703

0.5703

0.0585

0.4665

0.7874

0.2717

37.1484

2.1203

14.9505

4.6044

2.8352

0.5225

1.8736

4.5879

0.9060

14.6484

1.1703

4.6044

3.6044

1.1429

0.3648

1.3736

2.9341

0.3637

11.9560

0.5703

2.8352

1.1429

1.2967

0.3725

1.7582

2.5495

0.5176

3.8016

0.0585

0.5225

0.3648

0.3725

0.4455

0.7764

1.3005

0.1459

18.9945

0.4665

1.8736

1.3736

1.7582

0.7764

4.1813

4.5110

0.9214

30.5440

0.7874

4.5879

2.9341

2.5495

1.3005

4.5110

9.2582

0.9786

4.9203

0.2717

0.9060

0.3637

0.5176

0.1459

0.9214

0.9786

0.4607

70.8444

3.3311

10.3333

13.8667

4.5111

4.8756

15.8444

12.5333

3.7822

3.3311

0.5938

0.8000

1.2822

0.5533

0.1571

0.9089

0.4044

0.2269

10.3333

0.8000

3.7778

3.7778

0.3333

0.4333

1.8889

0.8889

0.4889

>> S5=cov(Y5) S5 =

13.8667

1.2822

3.7778

8.1000

1.5889

0.5433

3.2000

2.3222

0.7522

4.5111

0.5533

0.3333

1.5889

0.9000

0.2811

1.5111

1.0333

0.3322

4.8756

0.1571

0.4333

0.5433

0.2811

0.5499

1.2756

0.7211

0.2797

15.8444

0.9089

1.8889

3.2000

1.5111

1.2756

4.4000

2.8667

0.9822

12.5333

0.4044

0.8889

2.3222

1.0333

0.7211

2.8667

3.4333

0.6633

3.7822

0.2269

0.4889

0.7522

0.3322

0.2797

0.9822

0.6633

0.2290

>> X1=mean(Y1)

72

X1 = 125.9375

9.7250

20.7500

21.1250

19.3750

7.6750

32.0625

36.6250

5.8687

18.6000

17.0000

18.2000

6.8150

30.3500

33.3500

4.8050

24.0588

23.6471

20.8824

8.4882

29.0000

37.7059

6.6118

26.2143

24.7143

24.7143

9.3357

40.2143

44.7857

7.4071

20.0000

22.9000

19.3000

8.1900

32.8000

35.9000

6.1700

>> X2=mean(Y2) X2 = 111.0000

8.1800

>> X3=mean(Y3) X3 = 133.2353

10.7235

>> X4=mean(Y4) X4 = 157.3571

11.5786

>> X5=mean(Y5) X5 = 122.8000

10.3400

>> n1=16; >> n2=20; >> n3=17; >> n4=14; >> n5=10; >> Sp1=(((n1-1)*S1)+(n5-1)*S5)/(n1+n5-2) Sp1 = 71.7724

3.9585

11.9479

11.3302

3.2073

3.1690

9.2359

17.1427

2.3545

3.9585

0.6714

1.2667

1.1329

0.5054

0.2398

0.8398

0.7329

0.1994

11.9479

1.2667

9.7917

3.2708

0.5208

0.5583

1.3438

2.0208

0.3698

11.3302

1.1329

3.2708

4.6938

0.9396

0.4933

1.7781

1.9021

0.3514

3.2073

0.5054

0.5208

0.9396

0.8271

0.2742

1.2594

0.9812

0.3074

3.1690

0.2398

0.5583

0.4933

0.2742

0.3508

0.7669

0.5308

0.1914

9.2359

0.8398

1.3438

1.7781

1.2594

0.7669

2.9391

2.2990

0.6738

17.1427

0.7329

2.0208

1.9021

0.9812

0.5308

2.2990

5.9438

0.6076

2.3545

0.1994

0.3698

0.3514

0.3074

0.1914

0.6738

0.6076

0.1981

>> Sp2=(((n2-1)*S2)+(n5-1)*S5)/(n2+n5-2) Sp2 = 32.9857

1.6136

4.3571

5.2071

1.9143

2.3243

6.6286

5.4929

1.6550

1.6136

0.3627

0.3907

0.5729

0.2843

0.1568

0.3936

0.1493

0.1198

4.3571

0.3907

2.1000

1.5714

0.0571

0.2221

0.7786

0.2071

0.1907

5.2071

0.5729

1.5714

3.2464

0.7607

0.3211

1.3500

0.7821

0.2775

1.9143

0.2843

0.0571

0.7607

0.7607

0.2704

0.9000

0.4250

0.1989

2.3243

0.1568

0.2221

0.3211

0.2704

0.3334

0.6562

0.3137

0.1573

6.6286

0.3936

0.7786

1.3500

0.9000

0.6562

2.2911

1.0125

0.4323

5.4929

0.1493

0.2071

0.7821

0.4250

0.3137

1.0125

2.0518

0.3620

1.6550

0.1198

0.1907

0.2775

0.1989

0.1573

0.4323

0.3620

0.1397

>> Sp3=(((n3-1)*S3)+(n5-1)*S5)/(n3+n5-2) Sp3 = 51.9464

2.8754

8.3906

9.7285

8.0028

2.4211

10.2240

11.3191

2.8197

2.8754

0.4510

0.6471

0.6992

0.8051

0.1403

0.7792

0.5183

0.2163

8.3906

0.6471

3.1576

2.2941

0.9247

0.2765

1.2800

1.2118

0.3275

9.7285

0.6992

2.2941

4.5113

1.5038

0.3008

1.7520

2.1254

0.4656

8.0028

0.8051

0.9247

1.5038

5.9146

0.4163

2.5840

2.3885

0.7325

73

2.4211

0.1403

0.2765

0.3008

0.4163

0.2731

0.6672

0.4132

0.1744

10.2240

0.7792

1.2800

1.7520

2.5840

0.6672

3.0240

2.1520

0.7456

11.3191

0.5183

1.2118

2.1254

2.3885

0.4132

2.1520

3.6172

0.6412

2.8197

0.2163

0.3275

0.4656

0.7325

0.1744

0.7456

0.6412

0.2287

>> Sp4=(((n4-1)*S4)+(n5-1)*S5)/(n4+n5-2) Sp4 = 121.4006

4.2267

26.1786

14.3286

8.9104

4.2410

17.7058

23.1760

4.4547

4.2267

0.7185

1.5802

1.2161

0.5634

0.0989

0.6475

0.6307

0.2534

26.1786

1.5802

10.3799

4.2662

1.8117

0.4860

1.8799

3.0747

0.7354

14.3286

1.2161

4.2662

5.4435

1.3253

0.4379

2.1208

2.6838

0.5227

8.9104

0.5634

1.8117

1.3253

1.1344

0.3351

1.6571

1.9292

0.4418

4.2410

0.0989

0.4860

0.4379

0.3351

0.4882

0.9806

1.0635

0.2006

17.7058

0.6475

1.8799

2.1208

1.6571

0.9806

4.2708

3.8383

0.9463

23.1760

0.6307

3.0747

2.6838

1.9292

1.0635

3.8383

6.8753

0.8496

4.4547

0.2534

0.7354

0.5227

0.4418

0.2006

0.9463

0.8496

0.3659

>> T1=(X1-X5)*inv(((1/n1)+(1/n5))*Sp1)*(X1-X5)’ T1 = 110.8603 >> T2=(X2-X5)*inv(((1/n2)+(1/n5))*Sp2)*(X2-X5)’ T2 = 296.4411 >> T3=(X3-X5)*inv(((1/n3)+(1/n5))*Sp3)*(X3-X5)’ T3 = 474.5587 >> T4=(X4-X5)*inv(((1/n4)+(1/n5))*Sp4)*(X4-X5)’ T4 = 243.2363 >> Fteste1=T1*((n1+n5-9-1)/(n1+n5-2)) Fteste1 = 73.9068 >> Fteste2=T2*((n2+n5-9-1)/(n2+n5-2)) Fteste2 = 211.7437 >> Fteste3=T3*((n3+n5-9-1)/(n3+n5-2)) Fteste3 = 322.6999 >> Fteste4=T4*((n4+n5-9-1)/(n4+n5-2)) Fteste4 = 154.7867 >> F1=finv(0.95,9,(n1+n5-9-1)) F1 = 2.5377 >> F2=finv(0.95,9,(n2+n5-9-1)) F2 = 2.3928 >> F3=finv(0.95,9,(n3+n5-9-1)) F3 = 2.4943

74

>> F4=finv(0.95,9,(n4+n5-9-1)) F4 = 2.6458

Comparando as médias dos cães Pré-históricos tailandeses primeiramente com os cães modernos da Tailândia, depois com os Chacais Dourados, em seguida com os Cuons e depois com os lobos indianos, pode-se dizer que rejeita-se a hipótese de que: 𝐻0 : a média 𝜇5 é igual a média 𝜇1 , 𝐻0 : 𝜇5 = 𝜇2 , 𝐻0 : 𝜇5 = 𝜇3 , 𝐻0 : 𝜇5 = 𝜇4 . Ou seja, rejeita-se as 4 hipóteses em que compara-se a média dos cães pré-históricos tailandeses com as demais médias, uma a uma.

4

Lista 4: Análise de Componentes Principais 1. A tabela seguinte mostra as estimativas de consumo médio de proteínas de diferentes fontes de alimentos para os habitantes de 25 países europeus como publicados por Weber (1973). Use a análise de componentes principais para investigar o relacionamento entre os países com base nestas variáveis. Países

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

𝑋6

𝑋7

𝑋8

𝑋9

𝑋10

Albânia

10

1

1

9

0

42

1

6

2

72

Austria

9

14

4

20

2

28

4

1

4

86

Bélgica

14

9

4

18

5

27

6

2

4

89

Bulgária

8

6

2

8

1

57

1

4

4

91

Tchecoslováquia

10

11

3

13

2

34

5

1

4

83

Dinamarca

11

11

4

25

10

22

5

1

2

91

Alemanha Ocidental

8

12

4

11

5

25

7

1

4

77

Finlândia

10

5

3

34

6

26

5

1

1

91

França

18

10

3

20

6

28

5

2

7

99

Grécia

10

3

3

18

6

42

2

8

7

99

Hungria

5

12

3

10

0

40

4

5

4

83

Irlanda

14

10

5

26

2

24

6

2

3

92

Itália

9

5

3

14

3

37

2

4

7

84

Países Baixos

10

14

4

23

3

22

4

2

4

86

Noruega

9

5

3

23

10

23

5

2

3

83

Polônia

7

10

3

19

3

36

6

2

7

93

Portugal

6

4

1

5

14

27

6

5

8

76

75

Romênia

6

6

2

11

1

50

3

5

3

87

Espanha

7

3

3

9

7

29

6

6

7

77

Suécia

10

8

4

25

8

20

4

1

2

82

Suíça

13

10

3

24

2

26

3

2

5

88

Reino Unido

17

6

5

21

4

24

5

3

3

88

URSS

9

5

2

17

3

44

6

3

3

92

Alemanha Oriental

11

13

4

19

3

19

5

2

4

80

Iugoslávia

4

5

1

10

1

59

3

6

3

89

Tabela 5: Consumo de proteínas (g por pessoa por dia) em 25 países europeus >> X X = 10

1

1

9

0

42

1

6

2

72

9

14

4

20

2

28

14

9

4

18

5

27

4

1

4

86

6

2

4

89

8

6

2

8

1

57

1

4

4

91

10

11

3

13

2

34

5

1

4

83

11

11

4

25

10

22

5

1

2

91

8

12

4

11

5

25

7

1

4

77

10

5

3

34

6

26

5

1

1

91

18

10

3

20

6

28

5

2

7

99

10

3

3

18

6

42

2

8

7

99

5

12

3

10

0

40

4

5

4

83

14

10

5

26

2

24

6

2

3

92

9

5

3

14

3

37

2

4

7

84

10

14

4

23

3

22

4

2

4

86

9

5

3

23

10

23

5

2

3

83

7

10

3

19

3

36

6

2

7

93

6

4

1

5

14

27

6

5

8

76

6

6

2

11

1

50

3

5

3

87

7

3

3

9

7

29

6

6

7

77

10

8

4

25

8

20

4

1

2

82

13

10

3

24

2

26

3

2

5

88

17

6

5

21

4

24

5

3

3

88

9

5

2

17

3

44

6

3

3

92

11

13

4

19

3

19

5

2

4

80

4

5

1

10

1

59

3

6

3

89

>> comp2(X) *********************** *

VETOR DE MÉDIAS

*

*********************** 9.8000

7.9200

3.0800

17.2800

4.2800

**************************

76

32.4400

4.3600

3.0800

4.2000

86.3200

*

MATRIZ COVARIÂNCIA

*

************************** 11.5833

2.4000

2.1833

13.1417

0.7667

-19.8250

0.8667

-2.8167

-0.4167

8.6083

2.4000

13.9933

2.5067

7.8983

-2.5600

-18.4633

2.0717

-5.0767

-0.5250

2.6100

2.1833

2.5067

1.2433

4.8517

0.1850

-8.8700

0.7617

-1.3400

-0.3500

1.4317

13.1417

7.8983

4.8517

50.3767

4.0017

-47.2117

2.5200

-8.9400

-5.4333

22.1150

0.7667

-2.5600

0.1850

4.0017

12.0433

-20.1700

2.5200

-0.8567

1.5250

-2.1350

-19.8250

-18.4633

-8.8700

-47.2117

-20.1700

127.5067

-10.7067

14.5050

0.7417

14.1867

0.8667

2.0717

0.7617

2.5200

2.5200

-10.7067

2.7400

-1.6550

0.2167

-0.4950

-2.8167

-5.0767

-1.3400

-8.9400

-0.8567

14.5050

-1.6550

4.0767

1.3583

-1.1100

-0.4167

-0.5250

-0.3500

-5.4333

1.5250

0.7417

0.2167

1.3583

3.6667

0.9333

8.6083

2.6100

1.4317

22.1150

-2.1350

14.1867

-0.4950

-1.1100

0.9333

45.8100

************************* *

MATRIZ CORRELAÇÃO

*

************************* 1.0000

0.1885

0.5753

0.5440

0.0649

-0.5159

0.1538

-0.4099

-0.0639

0.3737

0.1885

1.0000

0.6010

0.2975

-0.1972

-0.4371

0.3346

-0.6721

-0.0733

0.1031

0.5753

0.6010

1.0000

0.6130

0.0478

-0.7045

0.4127

-0.5952

-0.1639

0.1897

0.5440

0.2975

0.6130

1.0000

0.1625

-0.5891

0.2145

-0.6238

-0.3998

0.4604

0.0649

-0.1972

0.0478

0.1625

1.0000

-0.5147

0.4387

-0.1223

0.2295

-0.0909

-0.5159

-0.4371

-0.7045

-0.5891

-0.5147

1.0000

-0.5728

0.6362

0.0343

0.1856

0.1538

0.3346

0.4127

0.2145

0.4387

-0.5728

1.0000

-0.4952

0.0684

-0.0442

-0.4099

-0.6721

-0.5952

-0.6238

-0.1223

0.6362

-0.4952

1.0000

0.3513

-0.0812

-0.0639

-0.0733

-0.1639

-0.3998

0.2295

0.0343

0.0684

0.3513

1.0000

0.0720

0.3737

0.1031

0.1897

0.4604

-0.0909

0.1856

-0.0442

-0.0812

0.0720

1.0000

************************************ * AUTOVALORES DA MATRIZ CORRELAÇÃO * ************************************ 4.1288

1.7392

1.3090

1.0425

0.7043

0.4268

0.3409

0.1907

0.1169

0.0009

************************************ * AUTOVETORES DA MATRIZ CORRELAÇÃO * ************************************ -0.3190

-0.1751

0.3820

0.0391

-0.5262

-0.3139

-0.1184

-0.3655

-0.5378

0.0977

-0.4207

-0.0810

-0.0212

-0.1548

-0.2657

-0.3868

-0.2340

0.2010

0.3197

0.1577

-0.1268

0.5741

0.3272

0.3062

0.2066

-0.3962

0.4308

0.1648

-0.1702

0.2112

0.3086

0.0915

0.2980

-0.4639

0.2179

-0.0634

-0.6428

0.2590

0.4803

0.0796

0.3080

-0.1754

-0.5434

-0.1513

0.4294

0.3046

0.0588

0.5195

0.0169

0.2106

0.4175

-0.3131

0.0214

-0.1019

0.2997

-0.1942

0.0663

0.1969

0.2912

0.6792

-0.2875

0.4095

-0.0615

-0.1477

0.4277

-0.6787

-0.1137

-0.1891

-0.1517

0.0934

0.4178

0.0419

0.2492

-0.0104

-0.2241

-0.0942

-0.5757

0.0893

-0.5924

0.1093

0.1188

0.3524

0.4095

-0.6439

-0.1667

0.2210

0.0859

-0.3704

0.2045

0.1280

-0.1065

-0.4155

0.5818

-0.2060

0.4740

-0.0058

-0.0496

0.1791

-0.0364

-0.4177

****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *

AUTOVALORES DA MATRIZ CORRELAÇÃO

*

****************************************** ----------------------------------------ORDEM

AUTOVA-

VAR. EXPL.

VAR. EXPL.

77

LORES

(EM %)

ACUM. (%)

----------------------------------------1

4.1288

41.29

41.29

2

1.7392

17.39

58.68

3

1.3090

13.09

71.77

4

1.0425

10.42

82.20

5

0.7043

7.04

89.24

6

0.4268

4.27

93.51

7

0.3409

3.41

96.92

8

0.1907

1.91

98.82

9

0.1169

1.17

99.99

10

0.0009

0.01

100.00

----------------------------------------*************************************************** * COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) * *************************************************** ----------------------------------------------------------------------------------------------------CP1

CP2

CP3

CP4

CP5

CP6

CP7

CP8

CP9

CP10

-----------------------------------------------------------------------------------------------------0.3190

-0.1751

0.3820

0.0391

-0.5262

-0.3962

0.4308

0.1648

-0.1702

0.2112

-0.3139

-0.1184

-0.3655

-0.5378

0.0977

0.3086

0.0915

0.2980

-0.4639

0.2179

-0.4207

-0.0810

-0.0212

-0.1548

-0.2657

-0.0634

-0.6428

0.2590

0.4803

0.0796

-0.3868

-0.2340

0.2010

0.3197

0.1577

0.3080

-0.1754

-0.5434

-0.1513

0.4294

-0.1268

0.5741

0.3272

0.3062

0.2066

0.3046

0.0588

0.5195

0.0169

0.2106

0.4175

-0.3131

0.0214

-0.1019

0.2997

-0.1942

0.0663

0.1969

0.2912

0.6792

-0.2875

0.4095

-0.0615

-0.1477

0.4277

-0.6787

-0.1137

-0.1891

-0.1517

0.0934

0.4178

0.0419

0.2492

-0.0104

-0.2241

-0.0942

-0.5757

0.0893

-0.5924

0.1093

0.1188

0.3524

0.4095

-0.6439

-0.1667

0.2210

0.0859

-0.3704

0.2045

0.1280

-0.1065

-0.4155

0.5818

-0.2060

0.4740

-0.0058

-0.0496

0.1791

-0.0364

-0.4177

-----------------------------------------------------------------------------------------------------************************************ * ESCORES (VARIÁVEIS PADRONIZADAS) * ************************************ 3.5846

-0.6366

-1.0980

1.9094

-1.9046

-0.3755

0.6478

-0.3053

-0.3526

-0.0195

-1.3867

-0.7113

-1.1613

-0.9297

0.0030

0.7585

-0.0035

0.0116

0.1224

0.0028

-1.6610

0.1110

0.4197

-0.2448

-0.1771

-0.9116

0.1568

0.3353

0.0311

0.0045

2.9589

-1.8221

0.0786

-0.3038

0.1108

0.3073

0.5911

0.7438

0.6695

-0.0256

-0.3746

-0.0991

-1.2188

-0.7155

0.0603

-0.3630

0.7876

0.0356

0.2421

-0.0023

-2.4856

0.1781

0.2057

0.9408

0.8262

0.6554

-0.0422

0.9847

-0.1600

-0.0067

-1.2347

1.5744

-1.9410

-0.7611

0.1491

-0.5881

-0.0637

0.3088

0.3230

0.0059

-1.7694

-0.7613

0.3701

2.2834

1.2175

0.1889

-0.0506

-0.7986

-0.0118

-0.0140

-1.6486

-0.2912

2.4813

-1.2583

-0.2198

-0.3329

1.3674

0.1890

-0.3773

0.0083

2.0780

-0.5979

3.0891

-0.3236

-0.2798

0.6437

-1.1895

0.2496

-0.1912

-0.0190

1.4700

-0.4362

-1.6091

-1.2139

0.1306

0.1162

-0.8172

0.1993

-0.5050

-0.0360

-2.6687

-1.0385

0.2851

-0.1597

-0.1726

-0.8685

-0.7282

-0.1938

-0.0476

0.0036

1.5548

0.0024

0.5927

-0.5451

-1.0798

0.7736

0.0020

-0.4436

0.8068

0.0196

-1.6954

-0.5091

-0.7578

-0.6459

-0.2956

0.9166

-0.2545

-0.0803

-0.4348

0.0003

-0.8764

1.2778

0.1813

1.7222

0.4407

0.4217

0.0080

-0.0127

0.1780

0.0021

78

-0.2370

0.2054

0.3976

-1.6733

1.3304

0.0985

-0.0287

-0.8496

0.3263

-0.0088

2.0934

4.4131

0.6559

0.0422

0.2991

0.3364

0.6442

0.2105

-0.3033

-0.0057

2.5845

-1.0469

-0.5828

0.1458

0.5135

-0.1880

-0.2154

0.1985

-0.0370

-0.0423

1.5699

2.6779

0.2804

-0.2350

-0.5869

-0.6143

-0.9496

-0.4113

0.1588

0.0040

-1.8256

0.3542

-0.5423

1.5654

-0.1584

0.8009

-0.1532

0.2391

0.3407

0.0138

-0.9293

-0.9597

0.3534

-0.2847

-0.7621

0.7048

0.6845

-0.6688

-0.2549

0.0094

-1.9713

-0.5516

0.8763

0.6070

-1.3824

-1.2223

-0.4761

0.3677

0.2345

0.0201

0.7518

-0.4765

0.2702

0.4153

1.4640

-1.2218

0.3177

-0.2993

-0.0508

-0.0385

-1.6774

0.3019

-1.2198

-0.5504

-0.8067

0.1908

-0.0960

-0.1307

-0.4123

0.0083

3.7960

-1.1582

-0.4065

0.2131

1.2807

-0.2274

-0.1388

0.1204

-0.2945

0.1157

*********************************************** * CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS * *

E AS COMPONENTES PRINCIPAIS

*

*********************************************** ----------------------------------------------------------------------------------|

COMPONENTES PRINCIPAIS

------------------------------------------------------------------------------------------------|VAR.|

CP1

CP2

CP3

CP4

CP5

CP6

CP7

CP8

CP9

CP10

|

------------------------------------------------------------------------------------------------1

-0.6482

-0.2310

0.4371

0.0399

-0.4415

-0.2588

0.2515

0.0720

-0.0582

0.0062

2

-0.6379

-0.1561

-0.4182

-0.5491

0.0820

0.2016

0.0534

0.1301

-0.1586

0.0064

3

-0.8549

-0.1069

-0.0243

-0.1580

-0.2230

-0.0414

-0.3753

0.1131

0.1642

0.0024

4

-0.7859

-0.3086

0.2300

0.3264

0.1324

0.2012

-0.1024

-0.2373

-0.0517

0.0127

5

-0.2578

0.7572

0.3744

0.3126

0.1734

0.1990

0.0343

0.2269

0.0058

0.0062

6

0.8482

-0.4129

0.0245

-0.1040

0.2515

-0.1269

0.0387

0.0860

0.0996

0.0201

7

-0.5842

0.5401

-0.0704

-0.1508

0.3589

-0.4434

-0.0664

-0.0826

-0.0519

0.0028

8

0.8490

0.0553

0.2851

-0.0107

-0.1880

-0.0615

-0.3362

0.0390

-0.2026

0.0032

9

0.2414

0.4648

0.4685

-0.6574

-0.1399

0.1444

0.0502

-0.1618

0.0699

0.0038

10

-0.2163

-0.5480

0.6657

-0.2103

0.3978

-0.0038

-0.0290

0.0782

-0.0124

-0.0124

---------------------------------------------------------------------------------------------------ans = FUNÇÃO COMP/UFPR/DEPTO. DE ESTATÍSTICA/JMM

As 4 primeiras componentes principais explicam quase 82.2% das variáveis originais, sendo que as variáveis 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋6, 𝑋7 e 𝑋8 são melhores explicadas pela primeira componente 𝑌 1 nos países: Albânia e Iugoslávia e pior explicadas para Dinamarca e Irlanda; 𝑋5 é melhor explicada pela componente 𝑌 2 nos países Espanha e Suíça e pior explicada para Iugoslávia e Bulgária; 𝑋10 é melhor explicada pela componente 𝑌 3 nos países França e Grécia e pior explicada para Alemanha Oriental e Alemanha Ocidental; 𝑋9 é melhor explicada pela componente 𝑌 4 nos países Albânia e Finlândia e pior explicada por França e Polônia.

79

AUTOVALORES DA MATRIZ CORRELAÇÃO 4.5 4 3.5

AUTOVALOR

3 2.5 2 1.5 1 0.5 0

1

0.6

2

3

4 5 6 7 NÚMERO DO AUTOVALOR

8

9

10

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 5 7 9

0.4

COMPONENTE 2

0.2 8 0

−0.2

3

2 1 4 6

−0.4

10

−0.6

−0.8 −0.5

0 COMPONENTE 1

80

0.5

DISPERSÃO DOS ESCORES: COMP1 versus COMP2 5 17 4

ESCORE − COMP2

3

19

2 7 15 1 6 0

−1

2024 3 9 22 14 8 2

16

13

5 23

11

10

21

12

1 18

25 4

−2 −3

−2

−1

0 1 ESCORE − COMP1

2

3

4

2. Com o título: “Brasil fica mais vulnerável no governo FH” , o jornal “A folha de São Paulo” publicou um artigo mostrando os seguintes indicadores usados pelo Banco Central (vamos reproduzir 5 desses indicadores): Ano

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

1995

46.1

3

31.7

3.4

64.5

1996

56.9

3.5

32.8

3.8

56.8

1997

76.3

5

25.7

3.8

47.4

1998

92.3

6

18.1

3.8

46.2

1999

146.6

13.3

14.7

4.7

46.5

2000

101.7

9.4

14

5

44.6

𝑋1 = parcela das exportações que é comprometida pelos gastos com a dívida externa (em %), 𝑋2 = quanto os gastos da dívida externa representam do PIB (em %), 𝑋3 = parcela da dívida externa bruta que poderia ser paga com as reservas internacionais (em %), 𝑋4 = quantos anos de exportação são necessários para pagar a dívida externa bruta (divisão do saldo da dívida externa bruta pelo saldo das exportações no ano) e 𝑋5 = parcela do governo na dívida externa bruta (em %). (a) Calcular o vetor de médias amostrais. >> Mi=mean(X) Mi = 86.6500

6.7000

22.8333

4.0833

51.0000

(b) Calcular a matriz de covariância amostral. 81

>> S=cov(X) S = 1.0e+003 * 1.2978

0.1390

-0.2666

0.0176

-0.2152

0.1390

0.0156

-0.2666

-0.0288

-0.0288

0.0021

-0.0212

0.0706

-0.0043

0.0566

0.0176

0.0021

-0.2152

-0.0212

-0.0043

0.0004

-0.0034

0.0566

-0.0034

0.0626

(c) Calcular a matriz de correlação amostral. >> comp2(X) *

MATRIZ CORRELAÇÃO

*

************************* 1.0000

0.9762

-0.8811

0.7888

-0.7548

0.9762

1.0000

-0.8811

-0.8660

-0.8660

0.8683

-0.6777

1.0000

-0.8231

0.8517

0.7888

0.8683

-0.7548

-0.6777

-0.8231

1.0000

-0.6971

0.8517

-0.6971

1.0000

(d) Calcular os autovalores da matriz de correlação 𝑅. ************************************ * AUTOVALORES DA MATRIZ CORRELAÇÃO * ************************************ 4.2812

0.3957

0.2297

0.0918

0.0016

(e) Calcular o % de explicação de cada autovalor de 𝑅. ****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *

AUTOVALORES DA MATRIZ CORRELAÇÃO

*

****************************************** ----------------------------------------ORDEM

AUTOVA-

VAR. EXPL.

VAR. EXPL.

LORES

(EM %)

ACUM. (%)

----------------------------------------1

4.2812

85.62

85.62

2

0.3957

7.91

93.54

3

0.2297

4.59

98.13

4

0.0918

1.84

99.97

5

0.0016

0.03

100.00

-----------------------------------------

(f) Determinar as componentes principais de 𝑅. *************************************************** * COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) * *************************************************** -----------------------------------------------CP1

CP2

CP3

CP4

CP5

------------------------------------------------

82

-0.4612

-0.2182

0.5303

-0.2410

-0.6328

-0.4602

-0.4496

0.2184

-0.1285

0.7224

0.4622

-0.2062

-0.0431

-0.8610

0.0260

-0.4365

-0.2694

-0.8179

-0.1356

-0.2226

0.4139

-0.7969

0.0192

0.4071

-0.1657

------------------------------------------------

(g) Determinar as correlações entre as variáveis (indicadores) e as componentes principais. Discutir os resultados. * CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS * *

E AS COMPONENTES PRINCIPAIS

*

*********************************************** ----------------------------------------------|

COMPONENTES PRINCIPAIS

|

---------------------------------------------------|VAR.|

CP1

CP2

CP3

CP4

CP5

|

---------------------------------------------------1

-0.9542

-0.1373

0.2541

-0.0730

-0.0256

2

-0.9522

-0.2828

0.1047

-0.0389

0.0292

3

0.9564

-0.1297

-0.0207

-0.2609

0.0010

4

-0.9032

-0.1695

-0.3920

-0.0411

-0.0090

5

0.8563

-0.5013

0.0092

0.1233

-0.0067

----------------------------------------------------

(h) Calcular os escores correspondentes. ************************************ * ESCORES (VARIÁVEIS PADRONIZADAS) * ************************************ 2.6241

-0.6145

0.0860

0.3264

0.0259

1.8043

-0.1618

0.4990

0.6711

-0.2786

-0.3583

-0.0512

0.1034

-0.2927

0.0570

-0.3032

0.7679

-2.6521

-0.7283

0.4302

0.2851

-0.0397

0.4657

-0.1480

0.0008

-1.9721

0.0655

-0.8068

0.1876

0.0071

Observando o "Acumulado", é possível admitir um ou 2 fatores para explicar a variância do modelo. Com relação aos coeficientes de correlação e seus pesos na componente, pode-se admitir que todas as variáveis são importantes e a componente 1 é de certa forma uma medida entre valores governamentais (reservas e parcela do governo) versus gastos com a dívida, anos para pagar e "exportações". Isto sugere um coeficiente que mensura ações responsáveis pelo governo, contra aspectos econômicos. Se observarmos a tendência que se observa através do score 1, percebe-se que o cenário de comprometimento dos fatores externos foram aumentando, implicando em pouca ação do governo ou influência das reservas. O que permite dar suporte ao título.

83

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 −0.1 3

1 −0.2

4

COMPONENTE 2

−0.3

−0.4

2

−0.5

−0.6

−0.7 5 −0.8 −0.5

0 COMPONENTE 1

0.5

DISPERSÃO DOS ESCORES: COMP1 versus COMP2 4 0.8

3

0.6

ESCORE − COMP2

0.4 0.2

6

0 2 −0.2 −0.4 1 −0.6 −0.8 −3

5

−2

−1

0 1 ESCORE − COMP1

84

2

3

AUTOVALORES DA MATRIZ CORRELAÇÃO 4.5 4 3.5

AUTOVALOR

3 2.5 2 1.5 1 0.5 0

1

1.5

2

2.5 3 3.5 NÚMERO DO AUTOVALOR

4

4.5

5

3. Jolicoer e Mosiman (1960) investigaram as componentes principais do comprimento (𝑋1 ), largura (𝑋2 ) e altura (𝑋3 ) da carapaça de tartarugas pintadas, com o objetivo de dar um significado para o conceito de “tamanho” e “forma”. Foram feitas as medidas (em milímetros) de 24 tartarugas fêmeas e a matriz de covariância é dada por: ⎡ ⎢ ⎢ 𝑆 = ⎢ ⎣

⎤ 451, 39 271, 17 168, 70

⎥ ⎥ 171, 73 103, 29 ⎥ ⎦ 66, 65

(a) Encontre os autovalores e autovetores de 𝑆. >> S=[451.39 271.17 168.7; 271.17 171.73 103.29;168.7 103.29 66.65] S = 451.3900

271.1700

168.7000

271.1700

171.7300

103.2900

168.7000

103.2900

66.6500

>> [e,l]=eig(S) e = 0.2053

0.5454

0.8126

0.2493

-0.8321

0.4955

-0.9464

-0.1009

0.3068

0

0

l = 2.8573

85

0

6.5016

0

0

0

680.4111

(b) Encontre as componentes principais: 𝑌1 , 𝑌2 e 𝑌3 . - 𝑌1 = 0.8126𝑋1 + 0.4955𝑋2 + 0.3068𝑋3 - 𝑌2 = 0.5454𝑋1 − 0.8321𝑋2 − 0.1009𝑋3 - 𝑌3 = 0.2053𝑋1 + 0.2493𝑋2 − 0.9464𝑋3 (c) Qual a % da variância total que é explicada pelas componentes principais? Variável

Nome

𝑒1

𝑒2

𝑒3

comprimento

𝑋1

0.8126

0.5454

0.2053

largura

𝑋2

0.4955

-0.8321

0.2493

altura

𝑋3

0.3068

-0.1009

-0.9464

autovalores

680.41

6.50

2.86

%Explicada

98.64%

0.94%

0.41%

%Acumulado Explicado

98.64%

99, 59%

100%

Total

689.77

(d) Encontre os coeficientes de correlação entre as componentes principais e as variáveis originais. 𝑌1

𝑌2

𝑌3

𝑋1

0.998

0.065

0.016

𝑋2

0.986

−0.162

0.032

𝑋3

0.98

−0.032

−0.196

(e) Interprete os resultados encontrados. O percentual explicado pela 1o componente principal, domina o modelo, sendo responsável por mais que 98% da explicação da variância. Portanto, a análise conduz a apenas um componente principal 𝑌1 . Na primeira componente, observa-se que a variável comprimento tem um peso maior sobre esta componente, sendo as demais variáveis de menor relevância. Porém ao se observar a correlação das variáveis com a primeira componente, infere-se que todos são significativos. Em Johnson há uma análise que sugere que estes valores são os expoentes das variáveis, de forma que este componente dá uma espécie de volume da pinta. Pois, apesar de não ser comentado no enunciado, se estas variáveis estiverem logaritmadas, vem que 𝑦1 = 𝑒1 ln 𝑥1 +𝑒2 ln 𝑥2 +𝑒3 ln 𝑥3 , o que implica em ln 𝑥𝑒11 .𝑥𝑒22 .𝑥𝑒33 , onde o valor 𝑒3 é uma espécie de correlação devido a ovacidade provável da pinta. (f) Verifique que 𝑆 = 𝐶𝐷𝜆 𝐶 ′ onde 𝐶 é a matriz cujas colunas são os autovetores de 𝑆 e 𝐷𝜆 é a matriz diagonal dos autovalores. 86

C

D

0.2053

0.5454

0.8126

2.8573

0

0.2493

-0.8321

0.4955

0

-0.9464

-0.1009

0.3068

0

C

S

0

0.2053

0.2493

-0.9464

451.39

271.17

168.7

6.5016

0

0.5454

-0.8321

-0.1009

271.17

171.73

103.29

0

680.4111

0.8126

0.4955

0.3068

168.7

103.29

66.65

>> e*l*e’;

4. Num estudo da influência do adubo N-P-K em doses crescentes na produção de forragem, a tabela abaixo mostra as produções de forragem (em kg/ha de matéria seca) nos meses de 6/78, 9/78 e 6/79, 9/79, 6/80 e 9/80 (são as nossas variáveis). Determine: Adubo

1978

1979

1980

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

𝑋6

N

P

K

Jun

Set

Jun

Set

Jun

Set

0

0

0

3994

2282

3068

1694

4320

1382

0

0

1

5316

1981

4168

3470

5900

2214

0

0

2

5050

1883

4408

3373

6476

1761

0

0

3

5996

2162

3614

3003

5021

1411

1

0

0

6086

5601

4599

3091

6145

2014

1

0

1

5180

2506

5022

2506

8299

2478

1

0

2

5291

1998

5241

2614

7768

2247

1

0

3

6148

2444

6147

2278

7440

2026

2

0

0

7292

2784

5692

2592

7978

2586

2

0

1

6615

3204

7655

3331

9225

3336

(a) o vetor médio amostral; >> comp2(X) *********************** *

VETOR DE MÉDIAS

*

*********************** 1.0e+003 * 5.6968

2.6845

4.9614

2.7952

6.8572

2.1455

(b) a matriz de covariâncias 𝑆 que estima Σ (covariância populacional); ************************** *

MATRIZ COVARIÂNCIA

*

************************** 87

1.0e+006 * 0.8586

0.3721

0.8188

0.1755

0.8017

0.3090

0.3721

1.2132

0.2661

0.0909

0.1335

0.1255

0.8188

0.2661

1.7494

0.1618

1.8596

0.6752

0.1755

0.0909

0.1618

0.3161

0.1659

0.1077

0.8017

0.1335

1.8596

0.1659

2.3876

0.8084

0.3090

0.1255

0.6752

0.1077

0.8084

0.3376

(c) os autovalores e autovetores de 𝑆; >> S=(1.0e+006)*T S = 858600

372100

818800

175500

801700

309000

372100

1213200

266100

90900

133500

125500

818800

266100

1749400

161800

1859600

675200

175500

90900

161800

316100

165900

107700

801700

133500

1859600

165900

2387600

808400

309000

125500

675200

107700

808400

337600

>> [e,l]=eig(S) e = -0.0540

0.2829

-0.3509

0.7876

-0.2823

0.3063

0.0503

0.0357

0.0538

-0.3609

-0.9218

0.1158

0.1239

-0.7773

-0.1606

0.0002

0.0418

0.5940

0.1771

-0.1075

0.8905

0.3897

-0.0864

0.0691

0.2309

0.5503

0.1248

-0.3053

0.2472

0.6884

-0.9458

-0.0018

0.1990

-0.0658

0.0167

0.2475

0.0426

0

0

0

0

0

0

0.1466

0

0

0

0

0

0

0.2706

0

0

0

0

0

0

0.4386

0

0

0

0

0

0

1.2855

0

0

0

0

0

0

4.6786

l = 1.0e+006 *

(d) Escreva as componentes principais da matriz de dados. - 𝑌1 = 0.3063𝑋1 + 0.1158𝑋2 + 0.5940𝑋3 + 0.0691𝑋4 + 0.6884𝑋5 + 0.2475𝑋6 - 𝑌2 = −0.2823𝑋1 − 0.9218𝑋2 + 0418𝑋3 − 0.0864𝑋4 + 0.2472𝑋5 + 0.0167𝑋6 - 𝑌3 = 0.7876𝑋1 − 0.3609𝑋2 + 0.0002𝑋3 + 0.3897𝑋4 − 0.3053𝑋5 − 0.0658𝑋6 - 𝑌4 = −0.3509𝑋1 + 0.0538𝑋2 − 0.1606𝑋3 + 0.8905𝑋4 + 0.1248𝑋5 + 0.1990𝑋6 88

- 𝑌5 = 0.2829𝑋1 + 0.0357𝑋2 − 0.7773𝑋3 − 0.1075𝑋4 + 0.5503𝑋5 − 0.0018𝑋6 - 𝑌6 = −0.0540𝑋1 + 0.0503𝑋2 + 0.1239𝑋3 + 0.1771𝑋4 + 0.2309𝑋5 − 0.9458𝑋6 AUTOVALORES DA MATRIZ CORRELAÇÃO 3.5

3

AUTOVALOR

2.5

2

1.5

1

0.5

0

1

2

3 4 NÚMERO DO AUTOVALOR

5

6

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 0.6

0.4

COMPONENTE 2

0.2

5 3 6

0

−0.2

1

−0.4

4

−0.6 2 −0.8 −0.55

−0.5

−0.45

−0.4 −0.35 −0.3 COMPONENTE 1

89

−0.25

−0.2

−0.15

DISPERSÃO DOS ESCORES: COMP1 versus COMP2 7 6 8

1

1

0.5 10

9

3

0 ESCORE − COMP2

2 −0.5

4

−1 −1.5 −2 5

−2.5 −3 −4

−3

−2

−1 0 1 ESCORE − COMP1

2

3

4

5. Os dados da tabela seguinte pertencem ao censo de 1970, de determinado país desenvolvido. Tabelou-se 5 variáveis sócio-econômicas de 14 comarcas de determinado estado. Considere as 14 comarcas como uma amostra aleatória dos municípios do estado. Comarca

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

1

5.935

14.2

2.265

2.27

2.91

2

1.523

13.1

0.597

0.75

2.62

3

2.599

12.7

1.237

1.11

1.72

4

4.009

15.2

1.649

0.81

3.02

5

4.687

14.7

2.312

2.5

2.22

6

8.044

15.6

3.641

4.51

2.36

7

2.766

13.3

1.244

1.03

1.97

8

6.538

17

2.618

2.39

1.85

9

6.451

12.9

3.147

5.52

2.01

10

3.314

12.2

1.606

2.18

1.82

11

3.777

13

2.119

2.83

1.8

12

1.53

13.8

0.798

0.84

4.25

13

2.768

13.6

1.336

1.75

2.64

14

6.585

14.9

2.763

1.91

3.17

𝑋1 = população total em 1000 hab, 𝑋2 = mediana dos anos de escolaridade da população, 𝑋3 = total de empregos em milhares, 𝑋4 = total de empregos nos serviços de saúde em 90

centenas e 𝑋5 = valor mediano das residências em US$10.000. (a) Construa a matriz de covariância amostral 𝑆. *

MATRIZ COVARIÂNCIA

*

************************** 4.3076

1.6837

1.8028

2.1553

-0.2535

1.6837

1.7675

0.5880

0.1780

0.1755

1.8028

0.5880

0.8007

1.0648

-0.1583

2.1553

0.1780

1.0648

1.9695

-0.3568

-0.2535

0.1755

-0.1583

-0.3568

0.5044

(b) Obtenha os pares de autovalores-autovetores e as 2 primeiras componentes principais amostrais para a matriz de covariância do item (a). * AUTOVALORES DA MATRIZ COVARIÂNCIA * ************************************* 6.9311

1.7851

0.3896

0.2295

0.0142

************************************* * AUTOVETORES DA MATRIZ COVARIÂNCIA * ************************************* -0.7812

0.0709

0.0037

0.5417

-0.3020

-0.3056

0.7639

-0.1618

-0.5448

-0.0093

-0.3344

-0.0829

0.0148

0.0510

0.9373

-0.4260

-0.5795

0.2205

-0.6360

-0.1721

0.0544

0.2624

0.9618

0.0513

0.0246

* COMPONENTES PRINCIPAIS (VARIÁVEIS ORIGINAIS * *********************************************** CP1

CP2

----------------------0.7812

0.0709

-0.3056

0.7639

-0.3344

-0.0829

-0.4260

-0.5795

0.0544

0.2624 91

AUTOVALORES DA MATRIZ COVARIÂNCIA 7

6

AUTOVALOR

5

4

3

2

1

0

1

1.5

2

2.5 3 3.5 NÚMERO DO AUTOVALOR

4

4.5

5

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2 2

0.8

0.6

COMPONENTE 2

0.4 5 0.2 1 0

3

−0.2

−0.4 4 −0.6 −0.8

−0.7

−0.6

−0.5

−0.4 −0.3 −0.2 COMPONENTE 1

−0.1

0

0.1

(c) Calcule a proporção da variação total explicada pelas duas primeiras componentes principais. ****************************************** * PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS * *

AUTOVALORES DA MATRIZ COVARIÂNCIA

*

****************************************** ----------------------------------------ORDEM

AUTOVA-

VAR. EXPL.

VAR. EXPL.

LORES

(EM %)

ACUM. (%)

92

----------------------------------------1

6.9311

74.13

74.13

2

1.7851

19.09

93.23

----------------------------------------Ou seja, as 2 primeiras componentes explicam 93, 23% da variância. (d) Calcule os coeficientes de correlação 𝜌(𝑦𝑖 , 𝑥𝑗 ) = 𝜌𝑖𝑗 e interprete-os se possível. CORRELAÇÕES ENTRE AS VARIÁVEIS ORIGINAIS

*

E AS COMPONENTES PRINCIPAIS

*

***************************************** --------------------COMPONENTES PRINCIPAIS --------------------------|VAR.|

CP1

CP2

------------------------1

-0.9909

0.0456

2

-0.6053

0.7677

3

-0.9840

-0.1238

4

-0.7992

-0.5517

5

0.2015

0.4936

------------------------Na primeira componente principal as variáveis 𝑋1 e 𝑋3 estão muito bem representadas, tendo 𝑋4 como uma variável que também pesa sobre esta componente. A variável 𝑋2 tem maior peso na componente 2. Com isso, verificamos que as duas primeiras componentes fazem uma boa avaliação de todas as variáveis presentes neste problema. (e) Calcule os escores dados pelas duas primeiras componentes principais ou melhor, cada comarca terá duas variáveis ao invés de 5 originais, você deverá determinar o valor de cada componente principal para cada comarca. ********************************* * ESCORES (VARIÁVEIS ORIGINAIS) * ********************************* Score(Y1)

Score(Y2)

----------------------93

-10.5431

10.5279

-5.5705

10.3180

-6.7052

9.5909

-8.5101

12.0812

-9.8722

10.5032

-14.0629

10.1904

-6.9737

10.1724

-12.0968

12.3326

-12.2773

7.3790

-7.6847

8.6352

-8.7405

8.8547

-5.8069

11.2120

-7.3680

10.1526

-11.2639

11.3442 ESCORES: COMP.PRINC.1 X COMP.PRINC.2 3

8

ESCORE COMP. PRINC.2

2

4 14

1

12 1

5

0 6

2

13 7 3

−1 11 10 −2 9 −3 −5

−4

−3

−2 −1 0 1 ESCORE COMP. PRINC.1

2

3

4

6. Suponha que você está com o problema de ajustar o modelo 𝑌 = 𝑋𝛽 + 𝜀 a um conjunto de dados. Mas, ocorre que as linhas da matriz do modelo 𝑋(𝑛×𝑝) são aproximadamente colineares. Esta colinearidade faz com que algumas variáveis independentes contribuam pouco para a regressão. Assim, pode-se descartar algumas das variáveis independentes com o objetivo de: aumentar a precisão das estimativas de regressão com as variáveis retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro. Uma maneira de descartar variáveis (variáveis redundantes) usando componentes principais é a

94

seguinte: - Determine os autovalores e autovetores da matriz de correlação das variáveis independentes; - Considere o autovetor correspondente ao menor autovalor (valor absoluto), descarte, aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o autovetor com menor autovalor é o menos importante no conjunto. - O número de variáveis descartadas deve ser igual ao número de autovalores menores ou iguais a 0.70. Use as informações anteriores para descartar variáveis redundantes no problema seguinte: um estudo de 𝑛 = 180 estacas de pinheiro Corsican foi feito com o objetivo de estudar a dependência da força de compressão máxima (𝑌 ) de 13 outras variáveis independentes (𝑋𝑖 , 𝑖 = 1, 2, . . . , 13). Estas estacas são usadas para escorar tetos de minas. Os autovalores e autovetores da matriz de correlação das 13 variáveis independentes são dados. Responder quais das 13 variáveis independentes devem ser descartadas. 𝑋1 = diâmetro do topo da estaca, 𝑋2 = comprimento da estaca, 𝑋3 = unidade da estaca, 𝑋4 = massa específica da madeira, 𝑋5 = massa específica da madeira seca, 𝑋6 = número de anéis no topo da estaca, 𝑋7 = número de anéis na base, 𝑋8 = curvatura máxima, 𝑋9 = distância da curvatura máxima-topo da estaca, 𝑋10 = número de nós, 𝑋11 = comprimento da base ao topo, 𝑋12 = número médio de nós por estaca e 𝑋13 = diâmetro médio dos nós. Autovalores: 𝜆1 = 4.22, 𝜆2 = 2.38, 𝜆3 = 1.88, 𝜆4 = 1.11, 𝜆5 = 0.91, 𝜆6 = 0.82, 𝜆7 = 0.58, 𝜆8 = 0.54, 𝜆9 = 0.35, 𝜆10 = 0.19, 𝜆11 = 0.05, 𝜆12 = 0.04 e 𝜆13 = 0.04.

95

𝑒1

𝑒2

𝑒3

𝑒4

𝑒5

𝑒6

𝑒7

𝑒8

𝑒9

𝑒10

𝑒11

𝑒12

𝑒13

1

-0,4

0,22

-0,21

-0,09

-0,08

0,12

-0,11

0,014

0,33

-0,31

0

0,39

-0,57

2

-0,41

0,19

-0,24

-0,1

-0,11

0,16

-0,08

0,02

0,32

-0,27

-0,05

-0,41

0,58

3

-0,12

0,54

0,14

0,08

0,35

-0,28

-0,02

0

-0,08

0,06

0,12

0,53

4

-0,17

0,46

0,35

0,05

0,36

-0,05

0,08

-0,02

-0,01

0,1

-0,02

5

-0,06

-0,17

0,48

0,05

0,18

0,63

0,42

-0,01

0,28

0

0,01

0,2

0,12

6

-0,28

-0,01

0,48

-0,06

-0,32

0,05

-0,3

0,15

-0,1

-0,54

0,08

0,06

7

-0,4

-0,19

0,25

-0,07

-0,22

0

-0,23

0,01

-0,13

0,19

0,76

-0,04

0

8

-0,29

-0,19

-0,24

0,29

0,19

-0,06

0,4

0,64

-0,35

-0,08

0,03

-0,05

0,02

9

-0,36

0,02

-0,21

0,1

-0,1

0,03

0,4

-0,7

-0,38

-0,06

-0,05

0,05

-0,06

10

-0,38

-0,25

-0,12

-0,21

0,16

-0,17

0

-0,01

0,27

0,71

-0,32

0,06

0

11

0,01

0,21

-0,07

0,8

-0,34

0,18

-0,14

0,01

0,15

0,34

-0,05

0

-0,01

12

0,12

0,34

0,09

-0,3

-0,6

-0,17

0,54

0,21

0,08

0,19

0,05

0

0

13

0,11

0,31

-0,33

-0,3

0,08

0,63

-0,16

0,11

-0,38

0,33

0,04

0,01

-0,01

𝜆

4,22

2,38

1,88

1,11

0,91

0,82

0,58

0,54

0,35

0,19

0,05

0,04

0,04

-0,41

-0,59

0,41 -0,38

Utilizando a heurística sugerida para eliminação de variáveis e aplicando para a matriz da tabela acima, obtém-se o conjunto de variáveis conforme destacada na própria tabela. As variáveis eliminadas são: - 𝜆13 = 𝑋2 comprimento da estaca - 𝜆12 = 𝑋4 massa específica da madeira - 𝜆11 = 𝑋7 número de anéis na base - 𝜆10 = 𝑋10 número de nós - 𝜆9 = 𝑋6 número de anéis no topo da estaca - 𝜆8 = 𝑋9 distância da curvatura máxima-topo da estaca - 𝜆7 = 𝑋12 número médio de nós por estaca 7. Provar os seguintes resultados: (ver livro: Johnson & Wichern): Resultado 1:

Seja a matriz covariância associada ao vetor aleatório 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ].

Seja Σ com os pares de autovalores e autovetores: (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. A 𝑗-ésima componente principal é dada por:

𝑌𝑗 = 𝑒′𝑗 X = 𝑒1𝑗 𝑋1 + 𝑒2𝑗 𝑋2 + . . . + 𝑒𝑝𝑗 𝑋𝑝 , 𝑖 = 1, 2, . . . , 𝑝 com essa escolha:

𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 = 𝜆𝑗 , 𝑗 = 1, 2, . . . , 𝑝. 96

𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 𝑒′𝑗 X = 0, para todo 𝑖 ∕= 𝑗 Suponha que 𝑥𝑖 = (𝑥𝑖1 , ..., 𝑥𝑖𝑝 )′ sejam 𝑛 vetores de 𝑝 variáveis e definida: ∑ - 𝑧𝑖 = (𝑧𝑖1 , ..., 𝑧𝑖𝑝 )′ tal que 𝑧𝑖𝑗 = 𝑥𝑖𝑗 − 𝑛−1 𝑛𝑖=1 𝑥𝑖𝑗 . 𝑧𝑖𝑗 é igual a 𝑥𝑖𝑗 centrado na média - ℎ = (ℎ1 , ..., ℎ𝑛 )′ tal que: ℎ1

= ⟨𝛽, 𝑧1 ⟩ = 𝛽1 𝑧11 + ... + 𝛽𝑝 𝑧1𝑝

ℎ2 .. .

= ⟨𝛽, 𝑧2 ⟩ = 𝛽1 𝑧21 + ... + 𝛽𝑝 𝑧2𝑝 .. .. .. .. . . . .

ℎ𝑛 = ⟨𝛽, 𝑧𝑛 ⟩ = 𝛽1 𝑧𝑛1 + ... + 𝛽𝑝 𝑧𝑛𝑝 Para encontrar a primeira componente principal temos que resolver: { 𝜉1 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛−1

𝑛 ∑

} ℎ2𝑖

(7)

𝑖=1

𝑠.𝑎.

𝑝 ∑

2 𝜉𝑗1 = ∣∣𝜉1 ∣∣2 = 1

𝑗=1

O vetor 𝜉1 = (𝜉11 , ..., 𝜉1𝑝 )′ é o primeiro componente principal. Se definirmos uma matriz 𝑍𝑛𝑥𝑝 tal que suas linhas são formadas por 𝑛 ocorrências dos vetores 𝑧𝑖 , então: ℎ = 𝛽′𝑍 ′ ⇒

𝑛 ∑

ℎ2𝑖 = 𝛽 ′ 𝑍 ′ 𝑍𝛽

𝑖=1

Substituindo na equação (7) temos 𝜉1 = 𝑚𝑎𝑥𝑛−1 𝛽 ′ 𝑍 ′ 𝑍𝛽 𝑉 𝑎𝑟(𝑧) = 𝑛−1 𝑍 ′ 𝑍 é o estimador da matriz de covariância de 𝑧. Os demais componentes principais podem ser obtidos repetindo o procedimento de maximização da equação (7) e acrescentando a restrição de ortogonalidade com as componentes principais já obtidas. Logo, se 𝜉𝑘 = (𝜉𝑘1 , ..., 𝜉𝑘𝑝 )′ , então: { 𝜉𝑘 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛

−1

𝑛 ∑ 𝑖=1

97

} ℎ2𝑖

(8)

𝑠.𝑎.

𝑝 ∑

2 𝜉𝑗𝑘 = ∣∣𝜉𝑘 ∣∣2 = 1

𝑗=1

𝑒⟨𝛽, 𝜉𝑚 ⟩ = 0 para todo 𝑚 < 𝑘 Chamamos ℎ𝑖𝑘 =

∑𝑝

𝑗=1 𝜉𝑗𝑘 𝑧𝑖𝑘

de Escores de Componentes Principais (ECP) do k-

ésimo componente principal. A restrição de norma unitária para os vetores de componentes principais é necessária para delimitar o problema não permitindo que 𝜉1′ 𝑉 𝑎𝑟(𝑧)𝜉1 possa assumir valores arbitrariamente grandes. A idéia é encontrar a forma mais forte e, portanto, mais importante das variáveis observadas. Na obtenção dos componentes principais subseqüentes acrescentam-se restrições de ortogonalidade (produto interno igual a zero) com os componentes principais já obtidos para garantir que as próximas componentes principais representem inovações. Logicamente, a cada componente principal obtido, o valor maximizado será cada vez menor permitindo aferir o percentual explicado por cada componente. Observe que esta definição de componentes principais não possui solução única. Para ver isto, basta notar que se 𝜉𝑘 é um componente principal, então −𝜉𝑘 também o será. Sabemos que 𝑉 𝑎𝑟(𝑧) é uma matriz simétrica e não negativa definida. Logo, se 𝜆1 ≥ ... ≥ 𝜆𝑝 são os seus autovalores e 𝑒1 , ..., 𝑒𝑝 os respectivos autovetores normalizados, então 𝜉𝑘 ≡ 𝑒𝑘 para todo 𝑘. Além disso, cada autovalor 𝜆𝑘 é um estimador para a variância de 𝑥𝑘 . Logo 𝜆 ∑𝑝 𝑘

𝑖=1 𝜆𝑖

.100

é o percentual da variação explicada pelo componente principal de ordem 𝑘. Prova Variância é dada por 𝑉 (𝑌𝑗 ) =

𝑒′𝑗 Σ𝑒𝑗 , 𝑒′𝑗 𝑒𝑗

como 𝑒′𝑗 𝑒𝑗 = 1, tem-se 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 . Ree-

screvendo 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (Σ𝑒𝑗 ), a parte entre parênteses pode ser substituída por 𝜆𝑗 𝑒𝑗 , pois 𝑒𝑗 é o autovetor do autovalor 𝜆𝑗 . Obtem-se então 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (𝜆𝑗 𝑒𝑗 ). Como 𝜆𝑗 é um escalar é possível reescrever como 𝑉 (𝑌𝑗 ) = 𝜆𝑗 𝑒′𝑗 𝑒𝑗 . Como o vetor 𝑒𝑗 é normalizado, o produto 𝑒′𝑗 𝑒𝑗 = 1. Com isso 𝑉 (𝑌𝑗 ) = 𝜆𝑗 . Resultado 2:

Seja 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ] tendo matriz covariância Σ , com pares de

autovalores e autovetores (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. 98

Sejam 𝑌1 = 𝑒1 X1 , 𝑌2 = 𝑒2 X2 , . . . , 𝑌𝑝 = 𝑒𝑝 X𝑝 as componentes principais. Então

𝜎11 + 𝜎22 + . . . + 𝜎𝑝𝑝 =

𝑝 ∑

𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + . . . + 𝜆𝑝 =

𝑗=1

𝑝 ∑

𝑉 (𝑌𝑗 )

𝑗=1

Prova Traço (Σ) =traço(𝑃 Λ𝑃 ′ ) =traço(Λ𝑃 𝑃 ′ ) =traçoΛ𝐼 =traçoΛ. Donde Λ é a matriz diagonal dos autovalores e 𝑃 é a matriz dos autovetores associados aos autovalores. Assim Traço(Σ) =traço(Λ) ou seja: ∑ ∑ 𝜎11 + 𝜎22 + ... + 𝜎𝑝𝑝 = 𝑝𝑗=1 𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + ... + 𝜆𝑝 = 𝑝𝑗=1 𝑉 (𝑌𝑗 )

5

Lista 5: Análise Fatorial 1. Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de relacionamento de algumas variáveis e como este relacionamento pode interferir na condução de seus negócios. Para isso, resolveu encomendar uma pesquisa com outras empresas do ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte da pesquisa foram: 𝑣1 = automação, 𝑣2 = crescimento do PIB, 𝑣3 = parceria com os fornecedores, 𝑣4 = novos concorrentes 𝑣5 = diversidade de produtos, 𝑣6 = controle de despesas, 𝑣7 = câmbio e 𝑣8 = estabilidade econômica. A pesquisa era respondida por uma escala de concordância: 1 = não interfere, 2 = interfere pouco, 3 = interfere, 4 = interfere muito e 5 = fundamental. Os resultados da pesquisa foram: Empresas

𝑣1

𝑣2

𝑣3

𝑣4

𝑣5

𝑣6

𝑣7

𝑣8

C1

4

1

2

2

2

4

1

3

C2

4

1

2

2

2

4

1

3

C3

2

2

1

3

1

3

2

4

C4

5

4

3

3

3

5

2

4

C5

4

2

3

3

1

3

2

4

C6

4

2

2

3

3

4

2

4

C7

5

3

3

4

5

5

4

5

C8

2

1

1

4

6

3

5

5

99

C9

3

2

1

3

3

5

2

4

C10

4

2

2

3

1

3

2

4

C11

3

2

1

3

1

3

2

4

C12

3

2

1

3

2

4

6

4

C13

3

3

1

4

2

4

3

5

C14

3

3

1

4

2

4

3

5

C15

5

3

3

4

1

3

3

5

C16

3

1

1

2

2

4

1

3

C17

3

3

1

4

2

4

3

5

C18

5

2

3

3

3

5

2

4

C19

3

3

1

4

1

3

3

5

C20

3

2

1

3

3

5

2

4

C21

3

2

1

2

3

5

3

2

C22

4

3

2

3

1

3

2

3

C23

4

5

2

4

1

3

3

5

C24

4

3

2

4

3

5

3

5

C25

4

2

2

3

2

4

2

4

C26

4

3

2

4

3

5

3

5

C27

5

3

3

4

2

4

3

5

C28

5

3

3

4

2

4

3

5

C29

4

3

2

4

2

4

3

5

C30

5

3

3

4

2

4

3

5

(a) Faça uma Análise Fatorial e avalie seu resultado (teste de esfericidade, KMO, total de variância explicada e comunalidades) e comente sobre a aderência técnica à solução deste caso. >> y = kmo(A) Teste de Esfericidade - Estatística de Bartlett

Q2 = 192.5975 pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.4467

*************************

100

*

MATRIZ CORRELAÇÃO

*

*************************

1.00

0.40

0.94

0.18

-0.05

0.24

-0.13

0.18

0.40

1.00

0.32

0.66

-0.21

0.02

0.26

0.57

0.94

0.32

1.00

0.20

-0.00

0.10

-0.10

0.21

0.18

0.66

0.20

1.00

0.11

-0.11

0.58

0.96

-0.05

-0.21

-0.00

0.11

1.00

0.55

0.38

0.11

0.24

0.02

0.10 -0.11

0.55

1.00

-0.13

0.26

-0.10

0.58

0.38

-0.02

1.00

0.51

0.18

0.57

0.21

0.96

0.11

-0.09

0.51

1.00

-0.02 -0.09

******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** -------------------------------------------------VAR. | |

PESOS ESTIMADOS F1

F2

| F3

COM.

|

|

VAR.

|

ESP.

-------------------------------------------------1

|

0.5115

0.8285

0.0976

|

0.96

|

0.04

2

|

0.7780

0.0975 -0.2392

|

0.67

|

0.33

3

|

0.5111

0.7862

0.0633

|

0.88

|

0.12

4

|

0.9155 -0.3221 -0.0917

|

0.95

|

0.05

5

|

0.1157 -0.2342

0.8969

|

0.87

|

0.13

6

|

0.0337

0.2295

0.8324

|

0.75

|

0.25

7

|

0.5378 -0.6010

0.2364

|

0.71

|

0.29

8

|

0.8794 -0.3002 -0.0809

|

0.87

|

0.13

-------------------------------------------------AUTO

|

3.04

1.98

1.64

|

---------------------------------PROP. | ACUM. |

| 38.04

62.75

83.24

|

----------------------------------

**************************** *

MATRIZ DOS RESÍDUOS

*

****************************

0

-0.06

0.02

-0.01

0.00

-0.05

0.07

-0.01

-0.06

0

-0.14

-0.04

-0.06

0.17

-0.05

-0.11

101

0.02

-0.14

0

-0.01

0.07

-0.15

0.09

-0.00

-0.01

-0.04

-0.01

0

0.01

0.01

-0.09

0.05

0.00

-0.06

0.07

0.01

0

-0.15

-0.04

0.01

-0.05

0.17

-0.15

0.01

-0.15

0

-0.09

0.01

0.07

-0.05

0.09

-0.09

-0.04

-0.09

0

-0.13

-0.01

-0.11

-0.00

0.05

0.01

0.01

-0.13

0

******************* * ROTAÇÃO VARIMAX * ******************* ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** -------------------------------------------------VAR. | |

PESOS ESTIMADOS F1

F2

| F3

COM.

|

|

VAR.

|

ESP.

-------------------------------------------------1

|

0.0804

0.9741

0.0468

|

0.96

|

0.04

2

|

0.6729

0.4217 -0.2034

|

0.67

|

0.33

3

|

0.1020

0.9342

0.0167

|

0.88

|

0.12

4

|

0.9676

0.1181 -0.0092

|

0.95

|

0.05

5

|

0.1237 -0.1030

0.9201

|

0.87

|

0.13

6

| -0.1487

0.2697

0.8074

|

0.75

|

0.25

7

|

0.7238 -0.2804

0.3224

|

0.71

|

0.29

8

|

0.9247

0.1221 -0.0025

|

0.87

|

0.13

-------------------------------------------------AUTO

|

3.04

1.98

1.64

|

---------------------------------PROP. | ACUM. |

| 35.28

62.66

83.24

|

----------------------------------

Comentários: Pelo teste de esfericidade de Bartlett os dados são apropriados a análise fatorial, o resultado do teste foi um p-value = 0, No entanto no Medida de adequacidade da amostra de Kayser-Meyer-Olkin obtemos 0,44, um valor insatisfatório, pois o MSA deve ser de no mínimo 0,5. Isso indica que a estrutura da matriz de correlação não é apropriada à análise fatorial. Aplicando a análise fatorial ao conjunto de dados (matriz de correlação) e usando o critério de Kayser para determinar o número de fatores, obtemos três fatores que

102

explicam 83,24% da variância total. A análise dos fatores se torna complexa, pois existem com pesos parecidos nos fatores obtidos, sendo assim foi aplicado o critério varimax de rotação com o objetivo de facilitar a interpretação dos fatores. Quanto as comunalidades, existem algumas com valores altos como 𝑣1 , 𝑣4 e outras com valores em torno de 0,7 como 𝑣2 , 𝑣6 e 𝑣7 . No geral, as comunalidades são altas, não sendo necessário excluir variáveis do modelo. Após a rotação observamos o seguinte relação entre variáveis por fator. Fator 1: 𝑣4 , 𝑣8 , 𝑣7 e 𝑣2 Fator 2: 𝑣1 , 𝑣3 Fator 3: 𝑣5 , 𝑣6 (b) Qual a sua conclusão sobre os fatores encontrados para este caso? O Fator 1 é uma junção das variáveis {novos concorrentes, estabilidade econômica, câmbio, crescimento do PIB}, sugerindo assim um fator ligado a parte econômica. Já no Fator 2, temos {automação e parceria com fornecedores } que está ligado a fornecedores, enquanto que no Fator 3 temos {diversidade de produtos e controle de despesa} que está ligado a produtos e despesas das empresas. Dessa maneira a parte econômica é mais importante para as empresas, seguido da relação com os fornecedores e por último as variáveis que envolvem produtos e despesas. 2. Os dados a seguir representam as notas de 88 alunos em cinco matérias onde foram realizadas provas com o livro “aberto” (A) ou o livro fechado (F). As cinco variáveis envolvidas são: 𝑋1 = Mecânica, 𝑋2 = Vetores, 𝑋3 = Álgebra, 𝑋4 = Análise e 𝑋5 = Estatística. Faça uma Análise Fatorial pelo Método das Componentes Principais: utilizar a rotação Varimax. Procurar interpretar os fatores. Utilizar o Matlab. Al.

𝑋1 (𝐹 )

𝑋2 (𝐹 )

𝑋3 (𝐴)

𝑋4 (𝐴)

𝑋5 (𝐴)

Al.

𝑋1 (𝐹 )

𝑋2 (𝐹 )

𝑋3 (𝐴)

𝑋4 (𝐴)

𝑋5 (𝐴)

1

77

82

67

67

81

45

46

61

46

38

41

2

63

78

80

70

81

46

40

57

51

52

31

3

75

73

71

66

81

47

49

49

45

48

39

4

55

72

63

70

68

48

22

58

53

56

41

5

63

63

65

70

63

49

35

60

47

54

33

6

53

61

72

64

73

50

48

56

49

42

32

7

51

67

65

65

68

51

31

57

50

54

34

8

59

70

68

62

56

52

17

53

57

43

51

103

9

62

60

58

62

70

53

49

57

47

39

26

10

64

72

60

62

45

54

59

50

47

15

46

11

52

64

60

63

54

55

37

56

49

28

45

12

55

67

59

62

44

56

40

43

48

21

61

13

50

50

64

55

63

57

35

35

41

51

50

14

65

63

58

56

37

58

38

44

54

47

24

15

31

55

60

57

73

59

43

43

38

34

49

16

60

64

56

54

40

60

39

46

46

32

43

17

44

69

53

53

53

61

62

44

36

22

42

18

42

69

61

55

45

62

48

38

41

44

33

19

62

46

61

57

45

63

34

42

50

47

29

20

31

49

62

63

62

64

18

51

40

56

30

21

44

61

52

62

46

65

35

36

46

48

29

22

49

41

61

49

64

66

59

53

37

22

19

23

12

58

61

63

67

67

41

41

43

30

33

24

49

53

49

62

47

68

31

52

37

27

40

25

54

49

56

47

53

69

17

51

52

35

31

26

54

53

46

59

44

70

34

30

50

47

36

27

44

56

55

61

36

71

46

40

47

29

17

28

18

44

50

57

81

72

10

46

36

47

39

29

46

52

65

50

35

73

46

37

45

15

30

30

32

45

49

57

64

74

30

34

43

46

18

31

30

69

50

52

45

75

13

51

50

25

31

32

46

49

53

59

37

76

49

50

38

23

9

33

40

27

54

61

61

77

18

32

31

45

40

34

31

42

48

54

68

78

8

42

48

26

40

35

36

59

51

45

51

79

23

38

36

48

15

36

56

40

56

54

35

80

30

24

43

33

25

37

46

56

57

49

32

81

3

9

51

47

40

38

45

42

55

56

40

82

7

51

43

17

22

39

42

60

54

49

33

83

15

40

43

23

18

40

40

63

53

54

25

84

15

38

39

28

17

41

23

55

59

53

44

85

5

30

44

36

18

42

48

48

49

51

37

86

12

30

32

35

21

43

41

63

49

46

44

87

5

26

15

20

20

44

46

52

53

41

40

88

0

40

21

9

14

Teste de Esfericidade -Estatística de Bartlett

Q2 = 194.55 pvalor =

0

104

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.78

************************* *

MATRIZ CORRELAÇÃO

*

************************* 1.00

0.55

0.55

0.41

0.39

0.55

1.00

0.61

0.49

0.44

0.55

0.61

1.00

0.71

0.66

0.41

0.49

0.71

1.00

0.61

0.39

0.44

0.66

0.61

1.00

******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** ------------------------------------------VAR. |

PESOS ESTIMADOS

|

F1

F2

|

COM.

|

|

VAR.

|

ESP.

------------------------------------------1

| -0.7126 -0.5587

|

0.82

|

0.18

2

| -0.7709 -0.3737

|

0.73

|

0.27

3

| -0.8970

0.1116

|

0.82

|

0.18

4

| -0.8147

0.3367

|

0.78

|

0.22

5

| -0.7834

0.3980

|

0.77

|

0.23

-----------------------------------------AUTO

|

3.18

0.74

|

--------------------------PROP. | ACUM. |

| 63.68

78.41

|

---------------------------

**************************** *

MATRIZ DOS RESÍDUOS

*

**************************** 0

-0.20

-0.03

0.02

0.05

-0.20

0

-0.04

-0.02

-0.01

-0.03

-0.04

0

-0.06

-0.08

0.02

-0.02

-0.06

0

-0.16

0.05

-0.01

-0.08

-0.16

0

105

******************* * ROTAÇÃO VARIMAX * ******************* ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ******************************************************** ------------------------------------------VAR. |

PESOS ESTIMADOS

|

F1

F2

|

COM.

|

|

VAR.

|

ESP.

------------------------------------------1

| -0.1998 -0.8832

|

0.82

|

0.18

2

| -0.3618 -0.7766

|

0.73

|

0.27

3

| -0.7660 -0.4799

|

0.82

|

0.18

4

| -0.8443 -0.2533

|

0.78

|

0.22

5

| -0.8588 -0.1860

|

0.77

|

0.23

------------------------------------------AUTO

|

3.18

0.74

|

--------------------------PROP. | ACUM. |

| 44.16

78.41

|

---------------------------

Comentários: Pelo teste de esfericidade de Bartlett (p-value = 0) e pela medida de adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.78), a matriz de dados é adequada à análise fatorial. Fazendo a análise fatorial (matriz de correlação), escolheu-se 2 fatores que representam 78.41% da variância total do conjunto de dados original. Quanto as comunalidades, todas as variáveis tem comunalidade acima de 0,7, não sendo necessário eliminar nenhuma delas. A interpretação dos fatores obtidos é complicada, pois todas as variáveis tem alta correlação com primeiro fator, e no segundo as correlações são baixas. Realizou-se então a rotação dos fatores pelo critério varimax, onde podemos identificar claramente os grupos de variáveis em cada fator. Fator 1: Álgebra, Análise e Estatística (livro aberto) Fator 2: Mecânica e vetores (livro fechado) O primeiro fator mais representativo envolve as matérias de Álgebra, Análise e Estatística, todas feitas com o livro aberto, já o segundo fator engloba as matérias Mecânica e Vetores, ambas feitas com o livro fechado. Nesse caso os fatores separou as duas maneiras como as 106

provas foram aplicadas. 3. Os dados seguintes representam os escores de 15 variáveis resultantes da avaliação de 48 candidatos a um certo posto de serviço. As variáveis são: 𝑋1 = forma da letra, 𝑋2 = aparência, 𝑋3 = habilidade acadêmica, 𝑋4 = habilidade para o posto, 𝑋5 = confiança em si mesmo, 𝑋6 = lucidez, 𝑋7 = honestidade, 𝑋8 = aptidão para vendas, 𝑋9 = experiência, 𝑋10 = iniciativa, 𝑋11 = ambição, 𝑋12 = domínio, 𝑋13 = potencial, 𝑋14 = entusiasmo e 𝑋15 = conveniência. Can.

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

𝑋6

𝑋7

𝑋8

𝑋9

𝑋10

𝑋11

𝑋12

𝑋13

𝑋14

𝑋15

1

6

7

2

5

8

7

7

8

3

8

9

7

5

7

10

2

9

10

5

8

10

9

9

10

5

9

9

8

8

8

10

3

7

8

3

6

9

8

9

7

4

9

9

8

6

8

10

4

5

6

8

5

6

5

9

2

8

4

5

8

7

6

5

5

6

8

8

8

4

4

9

2

8

4

5

8

7

6

5

6

7

7

7

6

8

7

10

5

9

6

5

8

6

6

6

7

9

9

8

8

8

8

8

8

10

8

10

8

9

8

10

8

9

9

9

8

9

9

8

8

10

9

10

9

9

9

10

9

9

9

7

8

8

8

8

5

9

8

9

8

8

8

10

10

4

7

10

2

10

10

7

10

3

10

10

10

9

3

10

11

4

7

10

0

10

8

3

9

5

9

10

8

10

2

5

12

4

7

10

4

10

10

7

8

2

8

8

10

10

3

7

13

6

9

8

10

5

4

9

4

4

4

5

4

7

6

8

14

8

9

8

9

6

3

8

2

5

2

6

6

7

5

6

15

4

8

8

7

5

4

10

2

7

5

3

6

6

4

6

16

6

9

6

7

8

9

8

9

8

8

7

6

8

6

10

17

8

7

7

7

9

5

8

6

6

7

8

6

6

7

8

18

6

8

8

4

8

8

6

4

3

3

6

7

2

6

4

19

6

7

8

4

7

8

5

4

4

2

6

8

3

5

4

20

4

8

7

8

8

9

10

5

2

6

7

9

8

8

9

21

3

8

6

8

8

8

10

5

3

6

7

8

8

5

8

22

9

8

7

8

9

10

10

10

3

10

8

10

8

10

8

23

7

10

7

9

9

9

10

10

3

9

9

10

9

10

8

24

9

8

7

10

8

10

10

10

2

9

7

9

9

10

8

25

6

9

7

7

4

5

9

3

2

4

4

4

4

5

4

26

7

8

7

8

5

4

8

2

3

4

5

6

5

5

6

27

2

10

7

9

8

9

10

5

3

5

6

7

6

4

5

28

6

3

5

3

5

3

5

0

0

3

3

0

0

5

0

29

4

3

4

3

3

0

0

0

0

4

4

0

0

5

0

30

4

6

5

6

9

4

10

3

1

3

3

2

2

7

3

31

5

5

4

7

8

4

10

3

2

5

5

3

4

8

3

107

32

3

3

5

7

7

9

10

3

2

5

3

7

5

5

2

33

2

3

5

7

7

9

10

3

2

2

3

6

4

5

2

34

3

4

6

4

3

3

8

1

1

3

3

3

2

5

2

35

6

7

4

3

3

0

9

0

1

0

2

3

1

5

3

36

9

8

5

5

6

6

8

2

2

2

4

5

6

6

3

37

4

9

6

4

10

8

8

9

1

3

9

7

5

3

2

38

4

9

6

6

9

9

7

9

1

2

10

8

5

5

2

39

10

6

9

10

9

10

10

10

10

10

8

10

10

10

10

40

10

6

9

10

9

10

10

10

10

10

10

10

10

10

10

41

10

7

8

0

2

1

2

0

10

2

0

3

0

0

10

42

10

3

8

0

1

1

0

0

10

0

0

0

0

0

10

43

3

4

9

8

2

4

5

3

6

2

1

3

3

3

8

44

7

7

7

6

9

8

8

6

8

8

10

8

8

6

5

45

9

6

10

9

7

7

10

2

1

5

5

7

8

4

5

46

9

8

10

10

7

9

10

3

1

5

7

9

9

4

4

47

0

7

10

3

5

0

10

0

0

2

2

0

0

0

0

48

0

6

10

1

5

0

10

0

0

2

2

0

0

0

0

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais e pelo Método da Máxima Verossimilhança. Utilizar a rotação Varimax. Utilizar o software Statistica. Teste de Esfericidade -Estatística de Bartlett Q2 = 649.25 pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.77

Método das Componentes Principais (Matriz Corelação) Varimax Fator 1

Fator 2

Fator 3

Fator 4

Com.

Var. Esp.

Forma da Letra

0.115

0.834

0.114

-0.136

0.740

0.260

Aparência

0.438

0.151

0.399

0.224

0.424

0.576

Habilidade Acadêmica

0.062

0.128

0.018

0.927

0.881

0.119

Habilidade p/ o posto

0.219

0.244

0.871

-0.090

0.875

0.125

Confiança em si mesmo

0.918

-0.103

0.167

-0.064

0.885

0.115

Lucidez

0.863

0.100

0.260

0.001

0.823

0.177

Honestidade

0.210

-0.244

0.866

0.014

0.854

0.146

108

Aptidão p/ vendas

0.917

0.207

0.085

-0.054

0.895

0.105

Experiência

0.082

0.849

-0.048

0.216

0.776

0.224

Iniciativa

0.805

0.343

0.148

-0.057

0.790

0.210

Ambição

0.916

0.160

0.104

-0.039

0.878

0.122

Domínio

0.806

0.253

0.338

0.145

0.848

0.152

Potencial

0.751

0.320

0.414

0.220

0.887

0.113

Entusiasmo

0.445

0.355

0.529

-0.533

0.888

0.112

Conveniência

0.397

0.790

0.058

0.072

0.790

0.210

Expl.Var

5.793

2.696

2.390

1.355

Prp.Totl

0.386

0.180

0.159

0.090

50.023

63.654

73.344

81.554

Prop. Acum.

Comentários: Realizando o teste de esfericidade de Bartlett (p-value = 0) e Medida de Adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.77), concluí-se que a matriz de dados é adequada à análise fatorial. Pelo Método das componentes principais (Software Statistica), obteve-se 4 fatores utilizando o critério de Kayser, que explicam 81.55% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Observando-se as comunalidades, podemos eliminar a variável Aparência do modelo, pois sua comunalidade está abaixo de 0,5. No primeiro fator podemos reunir as variáveis: Confiaça em si mesmo, Lucidez, Aptidão para vendas, Iniciativa, Ambição, Domínio e Potencial. No fator 2 temos: Forma da letra, Experiência e Conveniência. Fator 3: Habilidade para o posto, Honestidade. Fator 4: Habilidade Acadêmica.

109

35

30

χ2

25

20

15

10

5

5

10

15

20

25

30

35

d2

Método da Máxima Verossimilhança(Matriz Corelação) Varimax Factor 1

Factor 2

Factor 3

Com.

Var. Esp.

Forma da Letra

0.120

0.188

0.655

0.479

0.521

Aparência

0.437

0.276

0.176

0.298

0.702

Habilidade Acadêmica

0.055

-0.044

0.217

0.052

0.948

Habilidade p/ o posto

0.202

0.948

0.158

0.965

0.035

Confiança em si mesmo

0.930

0.138

-0.091

0.892

0.108

Lucidez

0.832

0.309

0.125

0.804

0.196

Honestidade

0.263

0.672

-0.257

0.586

0.414

Aptidão p/ vendas

0.882

0.132

0.253

0.860

0.140

Experiência

0.070

0.005

0.788

0.626

0.374

Iniciativa

0.767

0.186

0.374

0.763

0.237

Ambição

0.890

0.143

0.177

0.844

0.156

Domínio

0.780

0.325

0.280

0.793

0.207

Potencial

0.721

0.424

0.349

0.822

0.178

Entusiasmo

0.446

0.579

0.217

0.580

0.420

Conveniência

0.346

0.126

0.813

0.797

0.203

Expl.Var

5.486

2.287

2.388

Prp.Totl

0.366

0.152

0.159

45.758

56.346

67.739

Prop. Acum.

110

Comentários: Para utilizar o Método da Máxima Verossimilhança, testamos primeiro a normalidade da amostra. Pelo gráfico acima, podemos aceitar a hipótese de que os dados sejam normalmente distribuídos. Pelo Método da Máxima Verossimilhança (Software Statistica), obteve-se 3 fatores utilizando o critério de Kayser, que explicam 67.73% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Observando-se as comunalidades, podemos eliminar as variáveis Forma da letra, Habilidade acadêmica e Aparência do modelo, pois suas comunalidades estão abaixo de 0,5. No primeiro fator podemos reunir as variáveis: Confiança em si mesmo, Lucidez, Aptidão para vendas, Iniciativa, Ambição, Domínio e Potencial. No fator 2 temos: Habilidade para o posto, Honestidade. Fator 3: Experiência Comparando as duas análises, podemos concluir que ambas agruparam as mesmas variáveis no primeiro fator e no restante dos fatores as diferenças foram pouco significativas. 4. Os dados seguintes representam as taxas dos crimes ocorridos por 100.000 habitantes nos EUA, em 1986, por estado, segundo as categorias dos crimes: Estado

Ass.

Estupro

Assalto

Ass. c/ viol.

Arromb.

Roubo simp.

Roubo carro

ME

2

14.8

28

102

803

2347

164

NH

2.2

21.5

24

92

755

2208

228

VT

2

21.8

22

103

949

2697

181

MA

3.6

29.7

193

331

1071

2189

906

RI

3.5

21.4

119

192

1294

2568

705

CT

4.6

23.4

192

205

1198

2758

447

NY

10.7

30.5

514

431

1221

2924

637

NJ

5.2

33.2

269

265

1071

2822

776

PA

5.5

25.1

152

176

735

1654

354

OH

5.5

38.6

142

235

988

2574

376

IN

6

25.9

90

186

887

2333

328

IL

8.9

32.4

325

434

1180

2938

628

MI

11.3

67.4

301

424

1509

3378

800

WI

3.1

20.1

73

162

783

2802

254

MN

2.5

31.8

102

148

1004

2785

288

IA

1.8

12.5

42

179

956

2801

158

MO

9.2

29.2

170

370

1136

2500

439

ND

1

11.6

7

32

385

2049

120

111

SD

4

17.7

16

87

554

1939

99

NE

3.1

24.6

51

184

748

2677

168

KS

4.4

32.9

80

252

1188

3008

258

DE

4.9

56.9

124

241

1042

3090

272

MD

9

43.6

304

476

1296

2978

545

DC

31

52.4

754

668

1728

4131

975

VA

7.1

26.5

106

167

813

2522

219

WV

5.9

18.9

41

99

625

1358

169

NC

8.1

26.4

88

354

1225

2423

208

SC

8.6

41.3

99

525

1340

2846

277

GA

11.2

43.9

214

319

1453

2984

430

FL

11.7

52.7

367

605

2221

4373

598

KY

6.7

23.1

83

222

824

1740

193

TN

10.4

47

208

274

1325

2126

544

AL

10.1

28.4

112

408

1159

2304

267

MS

11.2

25.8

65

172

1076

1845

150

AR

8.1

28.9

80

278

1030

2305

195

LA

12.8

40.1

224

482

1461

3417

442

OK

8.1

36.4

107

285

1787

3142

649

TX

13.5

51.6

240

354

2049

3987

714

MT

2.9

17.3

20

118

783

3314

215

ID

3.2

20

21

178

1003

2800

181

WY

5.3

21.9

22

243

817

3078

169

CO

7

42.3

145

329

1792

4231

486

NM

11.5

46.9

130

538

1845

3712

343

AZ

9.3

43

169

437

1908

4337

419

UT

3.2

25.3

59

180

915

4074

223

NV

12.6

64.9

287

354

1604

3489

478

WA

5

53.4

135

244

1861

4267

315

OR

6.6

51.1

206

286

1967

4163

402

CA

11.3

44.9

343

521

1696

3384

762

AK

4.6

72.7

88

401

1162

3910

604

KI

4.8

31

106

103

1339

3759

328

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais. Mostrar e comentar: os fatores, a matriz de correlação, a matriz de resíduos, as comunalidades, os escores fatoriais. Utiliizar a rotação Varimax. Utilizar o software Statistica. Teste de Esfericidade -Estatística de Bartlett Q2 =

274.37 112

pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.80 Método das Componentes Principais (Matriz Corelação) Varimax Fator 1

Fator 2

Com.

Var. Esp.

Assassinato

0.86

0.23

0.80

0.20

Estupro

0.43

0.75

0.74

0.26

Assalto

0.92

0.23

0.90

0.10

Assalto c/ Violência

0.76

0.48

0.80

0.20

Arrombamento

0.43

0.82

0.86

0.14

Roubo Simples

0.13

0.92

0.87

0.13

Roubo de Carro

0.78

0.31

0.70

0.30

Expl.Var

3.15

2.52

Prp.Totl

0.45

0.36

66.69

81.01

Prop. Acum.

Matriz Correlação

Assassinato

1.00

0.53

0.81

0.77

0.58

0.34

0.56

Estupro

0.53

1.00

0.53

0.66

0.72

0.63

0.57

Assalto

0.81

0.53

1.00

0.74

0.55

0.40

0.79

Assalto c/ Violência

0.77

0.66

0.74

1.00

0.71

0.51

0.64

Arrombamento

0.58

0.72

0.55

0.71

1.00

0.76

0.58

Roubo Simples

0.34

0.63

0.40

0.51

0.76

1.00

0.39

Roubo de Carro

0.56

0.57

0.79

0.64

0.58

0.39

1.00

Matriz Resíduos

Assassinato

0.20

-0.01

-0.04

0.00

0.02

0.01

-0.19

Estupro

-0.01

0.26

-0.04

-0.03

-0.08

-0.11

0.00

Assalto

-0.04

-0.04

0.10

-0.06

-0.03

0.07

0.00

Assalto c/ Violência

0.00

-0.03

-0.06

0.20

-0.01

-0.03

-0.10

Arrombamento

0.02

-0.08

-0.03

-0.01

0.14

-0.05

-0.01

Roubo Simples

0.01

-0.11

0.07

-0.03

-0.05

0.13

0.00

Roubo de Carro

-0.19

0.00

0.00

-0.10

-0.01

0.00

0.30

113

Escores Fatoriais ME

-0.97272

-0.83601

NH

-0.86210

-0.85943

VT

-1.15465

-0.27514

MA

0.92052

-0.91994

RI

0.06027

-0.45561

CT

-0.02263

-0.39470

NY

1.90205

-0.81223

NJ

0.74618

-0.49537

PA

0.26503

-1.55250

OH

-0.09568

-0.30010

IN

-0.18792

-0.80005

IL

1.19235

-0.44878

MI

1.15525

0.86828

WI

-0.73038

-0.52244

MN

-0.75178

-0.09742

IA

-1.03247

-0.40273

MO

0.59479

-0.61096

ND

-1.06528

-1.44864

SD

-0.76823

-1.33710

NE

-0.84043

-0.47240

KS

-0.67895

0.26114

DE

-0.60030

0.65133

MD

1.00802

0.01707

DC

4.35648

-0.12070

VA

-0.28687

-0.73616

WV

-0.23685

-1.81118

NC

-0.04473

-0.39898

SC

0.13600

0.34052

GA

0.48788

0.23986

FL

0.91822

1.94079

KY

-0.03453

-1.31962

TN

0.82878

-0.46695

AL

0.39241

-0.62470

MS

0.02771

-1.07690

AR

-0.12453

-0.60846

LA

0.75353

0.43845

OK

0.07215

0.66752

TX

0.64618

1.48818

MT

-1.20159

-0.11200

ID

-0.99452

-0.21698

114

WY

-0.81908

-0.19755

CO

-0.48450

1.68428

NM

0.10974

1.40918

AZ

-0.22861

1.81708

UT

-1.30216

0.70518

NV

0.62783

1.07213

WA

-1.09641

2.17257

OR

-0.55725

1.94986

CA

1.41923

0.49975

AK

-0.43878

1.70137

KI

-1.00664

0.80720

Comentários: Fazendo o teste de esfericidade de Bartlett e da medida de adequacidade da amostra, concluí-se que os dados são apropriados à análise fatorial. Analisando a matriz de correlação, as variáveis Assassinato, Assalto e Assalto com violência formam um grupo, enquanto que estupro, roubo simples e roubo de carro formam outro grupo, com correlações mais baixas que o primeiro grupo. Pelo Método das componentes principais (Software Statistica), obteve-se 2 fatores utilizando o critério de Kayser, que explicam 81.01% da variância dos dados originais. Foi Aplicada a rotação pelo critério Varimax. Todas as comunalidades estão acima de 0,7, não sendo necessário eliminar variáveis. E a matriz de resíduos tem valores baixos. No primeiro fator podemos reunir as variáveis: Assassinato, Assalto, Assalto com violência e Roubo de Carro. No fator 2 temos: Estupro, Arrombamento e Roubo Simples. Nos escores fatoriais, conseguimos identificar Nova York que se destaca no primeiro fator e Washington que se destaca no segundo fator. 5. Uma matriz de dados 𝑋(86×4) , resultou na seguinte matriz covariância: ⎡

⎤ 0, 029004

⎢ ⎢ ⎢ −0, 008545 𝑆 = ⎢ ⎢ ⎢ 0, 001143 ⎣ −0, 006594

−0, 008545 0, 001143 −0, 006594 0, 003318

0, 000533

0, 000533

0, 004898

0, 003248

0, 005231

115

⎥ ⎥ 0, 003248 ⎥ ⎥ ⎥ 0, 005231 ⎥ ⎦ 0, 008463

Aqui as variáveis relacionam o número de árvores, altura, área da superfície e o volume de 86 parcelas de terra. Utilizando o MATLAB, calcular: (a) a matriz correlação; ************************* *

MATRIZ CORRELAÇÃO

*

************************* 1.0000

-0.8711

0.0959

-0.4209

-0.8711

1.0000

0.1322

0.6129

0.0959

0.1322

1.0000

0.8125

-0.4209

0.6129

0.8125

1.0000

(b) os autovalores associados à matriz de correlação; >> [e,l]=eig(R) e = 0.1925

0.6792

0.5162

-0.4849

-0.2110

0.7214

-0.3388

0.5660

-0.6129

-0.1169

0.7030

0.3413

0.7368

-0.0682

0.3529

0.5727

0.0386

0

0

0

0

0.1005

0

0

0

0

1.4146

0

0

0

0

2.4463

l =

(c) escolher um número adequado de fatores; Pelo critério de Kayser escolhemos 2 fatores (d) estimar a matriz de pesos; F1

F2

0.7584 -0.6140 -0.8852

0.4029

-0.8958 -0.4197

número de árvores altura -0.5339 -0.8361

área da superfície

volume

(e) estimar as comunalidades; 0.95

número de árvores 0.95

superfície 0.98

altura 0.98

área da

altura 0.02

área da

volume

(f) estimar as variâncias específicas; 0.05

número de árvores 0.05

superfície 0.02

volume

116

(g) construir uma tabela resumindo os resultados; ******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ********************************************************

------------------------------------------VAR. | |

PESOS ESTIMADOS F1

|

F2

COM.

|

|

VAR.

|

ESP.

------------------------------------------1

|

0.7584 -0.6140

|

0.95

|

0.05

2

| -0.8852

0.4029

|

0.95

|

0.05

3

| -0.5339 -0.8361

|

0.98

|

0.02

4

| -0.8958 -0.4197

|

0.98

|

0.02

------------------------------------------AUTO

|

2.45

1.41

|

--------------------------PROP. | ACUM. |

| 61.16

96.52

|

---------------------------

(h) Você consegue interpretar os fatores resultantes? O primeiro fator constitui-se principalmente pelas variáveis Altura, Volume e Número de árvores, enquanto que o segundo é dado pela área de superfície. (i) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz. **************************** *

MATRIZ DOS RESÍDUOS

*

**************************** 0.0000

0.0477

-0.0126

0.0008

0.0477

-0.0000

-0.0035

-0.0109

-0.0126

-0.0035

0

-0.0166

0.0008

-0.0109

-0.0166

0

Os resíduos são pequenos, visto que o modelo explica 96.52% da variância total dos dados. 6. Um conjunto de 𝑝 = 10 variáveis psicológicas foram medidas para 𝑛 = 810 crianças normais, gerando as correlações dadas pela tabela seguinte: Testes

1

2

3

4

5

117

6

7

8

9

10

1

1.000

2

0.345

0.594

0.404

0.579

-0.280

-0.449

-0.188

-0.303

-0.200

1.000

0.477

0.338

0.230

-0.159

-0.205

-0.120

-0.168

-0.145

1.000

0.498

0.505

-0.251

-0.377

-0.186

-0.273

-0.154

1.000

0.389

-0.168

-0.249

-0.173

-0.195

-0.055

1.000

-0.151

-0.285

-0.129

-0.159

-0.079

1.000

0.363

0.359

0.227

0.260

1.000

0.448

0.439

0.511

1.000

0.429

0.316

1.000

0.301

3 4 5 6 7 8 9 10

1.000

Determine, utilizando o MATLAB, (a) os autovalores associados à matriz de correlação; >> [v,d] = eig(R) v = 0.73

0.20

0.20

-0.07

-0.26 -0.12

0.12

0.27

0.23 -0.39

-0.08

0.31

-0.09

0.26

-0.24 -0.04

0.12 -0.78

0.24 -0.27

-0.16

-0.80

0.26

-0.05

-0.09 -0.01

0.02 -0.09

0.30 -0.39

0.07

0.16

-0.09

-0.32

0.25 -0.24 -0.11

0.31 -0.30

-0.38

0.13

-0.48

0.35

0.09

-0.03

0.17

0.27

0.16

0.43

-0.33

-0.62

0.04

-0.12

-0.22

0.12

-0.06

-0.66

0.09

-0.02

0.28

0.42

-0.18

0.21

0.40

0.04

0.73

-0.05 -0.07

0.07

0.51

0.34 -0.32

0.63

0.05

0.24

0.26

0.08 -0.23 -0.13

0.29

0.38

0.01

0.41

0.27

0.41 -0.63 -0.04 -0.02

0.29

0.29

0.43

0.24

0.58

-0.14 -0.30

-0.32

0.37

0.31 -0.56

0.11

d = 0.35

0

0

0

0

0

0

0

0

0

0 0.38

0

0

0

0

0

0

0

0

0

0 0.43

0

0

0

0

0

0

0

0

0

0

0.53

0

0

0

0

0

0

0

0

0

0 0.61

0

0

0

0

0

0

0

0

0

0 0.78

0

0

0

0

0

0

0

0

0

0 0.79

0

0

0

0

0

0

0

0

0

0 0.83

0

0

0

0

0

0

0

0

0

0 1.61

0

0

0

0

0

0

0

0

0

(b) escolher um número adequado de fatores; 118

0 3.70

Escolheu-se 4 fatores que representam aproximadamente 70% da variância total (c) estimar a matriz de pesos; -0.7552

0.2870

0.2496

0.1064 -0.5212

0.3086 -0.7112

-0.7469

0.3856 -0.0851

0.0215 -0.5851

0.3988 -0.1015 -0.2168

-0.6065

0.4339

0.4642

0.0591

0.5077

0.3089

0.0422

0.5600

0.7223

0.3701 -0.1183 -0.2051

0.5250

0.5236

0.5657

0.3743 -0.0143 -0.0316

0.4659

0.5395

0.0046

0.3335

0.0990 -0.5009

(d) estimar as comunalidades; 0.73 0.88 0.71 0.56 0.78 0.67 0.71 0.66 0.46 0.77

(e) estimar as variâncias específicas; 0.27 0.12 0.29 0.44 0.22 0.33 0.29 0.34 0.54 0.23

(f) construir uma tabela resumindo os resultados. 119

0.1047

******************************************************** * ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS * ********************************************************

--------------------------------------------------------VAR. |

PESOS ESTIMADOS

|

F1

F2

F3

| F4

COM.

|

VAR.

|

ESP.

|

--------------------------------------------------------1

| -0.7552

0.2870

0.2496

0.1064 |

0.73

|

0.27

2

| -0.5212

0.3086 -0.7112

0.1047 |

0.88

|

0.12

3

| -0.7469

0.3856 -0.0851

0.0215 |

0.71

|

0.29

4

| -0.5851

0.3988 -0.1015 -0.2168 |

0.56

|

0.44

5

| -0.6065

0.4339

0.4642

0.0591 |

0.78

|

0.22

6

|

0.5077

0.3089

0.0422

0.5600 |

0.67

|

0.33

7

|

0.7223

0.3701 -0.1183 -0.2051 |

0.71

|

0.29

8

|

0.5250

0.5236

0.3335 |

0.66

|

0.34

9

|

0.5657

0.3743 -0.0143 -0.0316 |

0.46

|

0.54

10

|

0.4659

0.5395

0.77

|

0.23

0.0046

0.0990 -0.5009 |

--------------------------------------------------------AUTO

|

3.70

1.61

0.83

0.79

|

----------------------------------------PROP. | ACUM. |

| 37.02

53.14

61.41

69.33

|

-----------------------------------------

(g) Você consegue interpretar os fatores resultantes? O primeiro fator é composto principalmente pelas variáveis 1, 3, 5, 7, 9. Já o segundo fator é composto pelas variáveis 8, 9, mas com correlações em torno de 0,5. O terceiro fator é composto pela variável 2 e o último pela variável 6. (h) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz. **************************** *

MATRIZ DOS RESÍDUOS

*

**************************** 0

0.03

-0.06

-0.10 -0.13 -0.06

0.03

0

-0.09

-0.14

-0.06

-0.09

0

-0.10 -0.08

-0.10

-0.14

-0.10

0 -0.08

-0.13

0.10

-0.08

-0.06

-0.02

0.00

0.04

-0.01

0.01

-0.08

0.04

0.02

0.02

0.03

0.10 -0.02 -0.01

-0.04

0.00

0.05

-0.00

0.00

0.01

-0.00 -0.02

-0.10

0.06

-0.06

0.03

-0.05

0

0.00

-0.26 -0.16

0.13

0.00

0

-0.06 -0.12

-0.12

0.06

0.01

0.13 -0.03

0 -0.03

0.13 -0.03 -0.03

0.00

120

0.02

-0.04

-0.00

-0.00 -0.06 -0.26 -0.06

0.02

0.00

0.00

-0.02

0.03

0.05

0.01

-0.10 -0.05

0.03 -0.16 -0.12 0.13 -0.12

0 -0.05 -0.05

-0.04

0

-0.18

-0.04 -0.18

0

Existem algumas variáveis com resíduos altos, em torno 0,1.

6

Lista 6: Análise Discriminante 1. Considere as observações de 𝑝 = 2 variáveis oriundas de 3 populações 𝜋1 , 𝜋2 e 𝜋3 . As matrizes de dados correspondentes às amostras das 3 populações todas com o mesmo tamanho 𝑛𝑖 = 4 estão a seguir. ⎡

⎤ 7, 4

9, 1

⎢ ⎢ ⎢ 7, 2 14, 2 𝑋1 = ⎢ ⎢ ⎢ 6, 7 9, 6 ⎣ 8, 0 10, 7



⎤ 6, 5

7, 8

⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 5, 1 5, 5 ⎥ , 𝑋2 = ⎢ ⎥ ⎢ ⎥ ⎢ 4, 9 9, 4 ⎦ ⎣ 3, 8 11, 6



>> pi2 = [ >> pi3 = [

9.1; 7.2

6.5 8.0

7.8;

14.2 ; 6.7 5.1

1.2 ; 10.2

9.6 ; 8.0

5.5 ; 4.9 5.5

; 10.8

4.3;

>> PI = [pi1;pi2;pi3]; >> V = [4 4 4]; >> disc1(PI,V) ********************* * MÉDIAS DOS GRUPOS * ********************* xm1 = 7.3250

10.9000

xm2 = 5.0750

8.5750

xm3 = 8.9250

3.7500

(b) Determine o vetor médio global amostral. ***************** *

MÉDIA GLOBAL *

*****************

121

10.7 ];

9.4 ; 3.8

1, 2

⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ 10, 2 5, 5 ⎥ ⎥ e 𝑋3 = ⎢ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ 10, 8 4, 3 ⎥ ⎦ ⎣ ⎦ 6, 7 4, 0

(a) Determine os vetores médios amostrais 𝑥𝑖 , 𝑖 = 1, 2, 3. >> pi1 =[ 7.4

⎤ 8, 0

11.6 ]; 6.7

4.0 ];

7.1083

7.7417

ˆ0 (c) Calcule matrizes de covariâncias amostrais: 𝑆1 , 𝑆2 , 𝑆3 e também as matrizes: 𝑆𝑝 , 𝐵 e 𝑊. ********************************** * MATRIZES COVARIÂNCIAS - GRUPOS * ********************************** COV1 = 0.2892

0.0433

0.0433

5.2867

COV2 = 1.2292

-1.7275

-1.7275

6.6292

COV3 = 3.6492

1.6883

1.6883

3.3100

************************************ * MATRIZ B - VARIAÇÃO ENTRE GRUPOS * ************************************ 7.4817

-8.2617

-8.2617

26.6029

************************************ * MATRIZ COVARIÂNCIA CONJUNTA - Sp * ************************************ 1.7225

0.0014

0.0014

5.0753

***************************************** * MATRIZ W - VARIAÇÃO DENTRO DOS GRUPOS * ***************************************** 15.5025

0.0125

0.0125

45.6775

ˆ0 . (d) Determine a matriz inversa 𝑊 −1 e 𝑊 −1 𝐵 >> Winv = inv(W) Winv = 0.06

-0.00

-0.00

0.02

>> WinvB0 = inv(Winv*B0) WinvB0 = 3.15

2.89

0.98

2.61

ˆ0 . (e) Determine os autovalores e autovetores de 𝑊 −1 𝐵 122

********************************** * AUTOVALORES DA MATRIZ INV(W)*B * ********************************** 0.8474 0.2180 ****************************** * AUTOVALORES SATISFAZENDO À * *

CONDIÇÃO s=min(g-1,p)

*

****************************** 0.8474 0.2180

(f) Determine os discriminantes para as populações com base nos resultados amostrais. ******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = -0.4944

0.3379

Y2 = 0.5798

0.2878

(g) Faça uma gráfico que represente espaço discriminante nas dimensões que você determinou, represente a amostra no gráfico. ESPAÇO DISCRIMINANTE 8.5

1

8 1 7.5

3

3

1 1

7 Y2

1 6.5

3 2

6

2

5.5 5 4.5 −4

2

2

3

3

2 −3

−2

−1

0

1

2

3

Y1

2. Considere dois grupos de agricultores em uma cidade: 𝜋1 , os possuidores de determinada 123

máquina agrícola e 𝜋2 os não-possuidores da máquina. O fabricante da máquina está interessado em identificar possuidores ou não do equipamento, com a finalidade de promover vendas futuras. Dispõe dos dados da renda e tamanho da fazenda de 24 fazendeiros possuidores ou não do equipamento. Construa uma F.D.L. de Fisher para alocar um novo agricultor em um ou dois grupos, com base nas informações a seguir. Em qual grupo você alocaria o indivíduo 𝑥0 = [18.0 7.51]? 𝜋1

𝜋2

𝑥1 = renda

𝑥2 = área

𝑥1 = renda

𝑥2 = área

20

9.2

25

9.8

28.5

8.4

17.6

10.4

21.6

10.8

21.6

8.6

20.5

10.4

14.4

10.2

29

11.8

28

8.8

36.7

9.6

16.4

8.8

36

8.8

19.8

8

27.6

11.2

22

9.2

23

10

15.8

8.2

31

10.4

11

9.4

17

11

17

7

27

10

21

7.4

********************* * MÉDIAS DOS GRUPOS * ********************* xm1 = 24.8833

11.7417

xm2 = 18.4833

9.4667

************************************ * MATRIZES COVARIÂNCIAS DOS GRUPOS * ************************************ S1 = 63.1761

-7.4965

-7.4965

28.7863

S2 = 29.5452

3.0667

124

3.0667

7.5806

************************ * MATRIZ ESTIMADA - Sp * ************************ Sp = 46.3606

-2.2149

-2.2149

18.1834

***************************************** *

COEFICIENTES DA FUNÇÃO DISCRIMINANTE *

***************************************** 0.1449

0.1428

********************** *

MÉDIA UNIVARIADA

*

********************** 4.6551 >> v = 0.1449*(18) + 0.1428*(7.51) v = 3.6806

Comentários: O indivíduo 𝑥0 será alocado no grupo 𝜋1 3. Pacientes com certa enfermidade são submetidos durante um certo período a um treinamento que envolve, inclusive, uma certa operação. No instante pré-operatório, do período de tratamento, são feitos 9 exames clínicos que formam com a idade e sexo um conjunto de 11 variáveis. As tabelas 1 e 2 mostram os resultados das medidas dessas 11 variáveis para amostras da população de sobreviventes (𝑛1 = 23) e mortos (𝑛2 = 7), respectivamente, ao fim do período de tratamento. Um médico pesquisador quer saber no instante pré-operatório, com base nas medidas das 11 variáveis, se o paciente morrerá ou não ao fim do período de tratamento. Você seria capaz de auxiliar o médico nesta questão? Como faria? 𝑖

idade

sexo

BT

BD

BI

SGPT

SGOT

FOSF

AMI

TAP

ALBU

1

46

1

41.8

21.2

20.6

234

178

58.75

92

14

3.3

2

52

0

21.4

12.95

8.45

55

80

20.87

92

15

3.5

3

73

0

26.2

13.6

12.6

90

97

10.58

104

14

2.7

4

47

0

31.6

16.5

15.4

31

59

15.86

92

13

3

5

66

0

40

20.9

19.1

45

108

33.34

66

11

3.6

6

26

0

22

13.1

8.9

80

29

11.79

158

14

3

7

66

1

25.6

14

11.6

125

129

27.34

100

13

2.7

8

53

1

24.4

15

9.4

43

63

19.4

60

14

2.4

125

9

34

0

19.8

11.6

8.2

24

47

6.41

92

13

3.6

10

50

1

25

14

11

86

149

42.48

10

14

1.5

11

69

1

11.9

7.55

4.35

176

92

21.88

104

13

3.4

12

63

1

15.6

9.1

6.5

21

44

22.1

144

15

3.9

13

43

1

13.7

7.7

6

25

63

26

79

13

3.2

14

76

0

10.4

7.3

3.1

35

50

25.74

104

13

3

15

66

1

19.8

10.7

9.1

48

68

25.74

104

14

3

16

73

0

16.2

9.9

6.3

132

71

22.08

196

15

3

17

46

1

8.6

5.6

3

28

56

25.74

104

15

3

18

45

1

19.4

10.1

9.3

99

87

10.43

158

17

2.6

19

60

1

18.8

10.1

8.7

33

92

24.07

158

17

2.3

20

76

0

19.1

12.2

6.9

60

71

44.31

66

13

4.2

21

33

0

3.8

2.4

1.4

35

61

21.33

60

13

3

22

46

1

3

2.2

0.8

390

400

65.95

132

15

3

23

55

1

13.4

6.85

6.55

45

97

9.85

123

14

2.7

Tabela 18: 1

𝑖

idade

sexo

BT

BD

BI

SGPT

SGOT

FOSF

AMI

TAP

ALBU

1

61

0

18.8

10.45

8.35

21

49

9.45

82

15

3.4

2

71

1

27.2

16.5

10.7

82

87

23.82

88

14

3.1

3

54

1

31.2

16.2

15

37

92

28.82

88

15

2.7

4

64

0

24.4

13.45

10.95

18

63

9.71

82

14

1.9

5

76

0

22

13.45

8.55

53

66

21.86

90

13

3.4

6

69

0

6.4

4.1

2.3

17

47

35.29

121

14

1.5

7

66

1

11.6

6.7

4.9

148

140

24.1

82

15

3.2

Tabela 19: 2 Faria uma análise discriminante para encontrar os coeficientes da função discriminante, onde seria possível, após a realização dos exames de certo paciente classifica-lo em algum grupo. Neste caso, temos os coeficientes da função discriminante dado por: ***************************************** *

COEFICIENTES DA FUNÇÃO DISCRIMINANTE *

***************************************** Columns 1 through 6 -0.0986

1.3059

-3.9929

3.9850

3.9813

0.0364

-1.0364

0.7732

Columns 7 through 11 0.0010

0.0338

**********************

126

-0.0023

*

MÉDIA UNIVARIADA

*

********************** -13.6213

onde a média univariada é -13.6213. Com os dados dos exames do paciente o médico pode enquadrá-lo no grupo 1 caso o valor da função seja menor que a média univariada e no grupo 2 se for maior. 4. Dados sobre petróleo coletados do arenito na região de Elk Hills, California, forneceram os dados a seguir para as três amostras coletadas de 3 unidades estratigráficas: 𝜋1 = arenito Wilhelm, 𝜋2 = arenito Sub-Mulinia e 𝜋3 = arenito Upper. Os dados referem-se às análise químicas das amostras. 𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

3.9

51

0.2

7.06

12.19

2.7

49

0.07

7.14

12.23

2.8

36

0.3

7

11.3

3.1

45

0.08

7.2

13.01

3.5

46

0.1

7.81

12.63

3.9

43

0.07

6.25

10.42

2.7

35

0

5.11

9

Tabela 20: Amostra da População 1

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

5

47

0.07

7.06

6.1

3.4

32

0.2

5.82

4.69

1.2

12

0

5.54

3.15

8.4

17

0.07

6.31

4.55

4.2

36

0.5

9.25

4.95

4.2

35

0.5

5.69

2.22

3.9

41

0.1

5.63

2.94

3.9

36

0.07

6.19

2.27

7.3

32

0.3

8.02

12.92

4.4

46

0.07

7.54

5.76

3

30

0

5.12

10.77

Tabela 21: Amostra da População 2

𝑋1

𝑋2

𝑋3

127

𝑋4

𝑋5

6.3

13

0.5

4.24

8.27

1.7

5.6

1

5.69

4.64

7.3

24

0

4.34

2.99

7.8

18

0.5

3.92

6.09

7.8

25

0.7

5.39

6.2

7.8

26

1

5.02

2.5

9.5

17

0.05

3.52

5.71

7.7

14

0.3

5.65

8.63

11

20

0.5

4.27

8.4

8

14

0.3

4.32

7.87

8.4

18

0.2

4.38

7.98

10

18

0.1

3.06

7.67

7.3

15

0.05

3.76

6.84

9.5

22

0.3

3.98

5.02

8.4

15

0.2

5.02

10.12

8.4

17

0.2

4.42

8.25

9.5

25

0.5

4.44

5.95

7.2

22

1

4.7

3.49

4

12

0.5

5.71

6.32

6.7

52

0.5

4.8

3.2

9

27

0.3

3.69

3.3

7.8

29

1.5

6.72

5.75

4.5

41

0.5

3.33

2.27

4

34

0.7

7.56

6.93

5.6

20

0.5

5.07

6.7

9

17

0.2

4.39

8.33

8.4

20

0.1

3.74

3.77

9.5

19

0.5

3.72

7.37

9

20

0.5

5.97

11.17

6.2

16

0.05

4.23

4.18

7.3

20

0.5

4.39

3.5

3.6

15

0.7

7

4.82

6.2

34

0.07

4.84

2.37

7.3

22

0

4.13

2.7

4.1

29

0.7

5.78

7.76

5.4

29

0.2

4.64

2.65

5

34

0.7

4.21

6.5

6.2

27

0.3

3.97

2.97

Tabela 22: Amostra da População 3

128

(a) Determine os discriminantes para as populações com base nas observações amostrais. ******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = 0.3183

-0.0668

2.1116

-0.2960

-0.2500

-0.0906

0.0287

2.2717

-1.0046

0.3771

Y2 =

******************************************* * MÉDIAS UNIVARIADAS - MÉDIA(Y1)=COLUNA 1 * *

MÉDIA(Y2)=COLUNA 2, ETC.

*

******************************************* -6.5334

-1.2508

-3.7485

-3.5878

-1.1213

-1.5599

(b) Faça um gráfico que represente o “espaço discriminante” nas dimensões que você determinou e represente a amostra no gráfico. ESPAÇO DISCRIMINANTE 1 3 0

3 2

−1

11

1

3

1 1

11

1 −2 Y2

2 3 2

−3 22

2 −4

3

3

3 3

3 3 3 33 3 3 3 3 3 3 3 33 33 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3

2

2

2

2

−5 2 −6 −8

−7

−6

−5

−4

−3

−2

−1

0

1

Y1

(c) Marque no gráfico os centróides de cada população (estimados). Vide gráfico do item anterior. 5. Uma Universidade aplicou 5 testes diferentes ao seus alunos, atribuindo escores que variavam de 0 a 10. Em seguida separou-os em 3 grupos semelhantes, com base nos escores dos testes. Uma amostra de cada grupo com os respectivos escores são dados: 129

Aluno

Teste 1

Teste 2

Teste 3

Teste 4

Teste 5

1

9

6

8

6

8

2

8

7

7

7

9

3

7

6

8

6

10

4

7

8

7

5

9

5

7

7

8

6

10

6

8

6

9

7

9

7

9

7

7

8

8

8

6

8

8

6

9

9

7

9

6

7

7

10

8

8

7

6

9

11

9

7

8

8

10

12

9

6

9

9

8

13

9

8

8

7

9

14

10

9

7

6

9

15

8

8

9

7

7

Tabela 23: Grupo A

Aluno

Teste 1

Teste 2

Teste 3

Teste 4

Teste 5

1

6

7

6

5

8

2

5

7

7

6

7

3

6

6

8

5

8

4

7

7

7

4

7

5

5

7

6

5

6

6

5

8

5

6

8

7

5

7

6

5

8

8

6

6

7

6

7

9

7

5

6

4

9

10

5

4

5

5

6

Tabela 24: Grupo B

Aluno

Teste 1

Teste 2

Teste 3

Teste 4

Teste 5

1

4

6

5

3

7

2

5

6

4

4

6

3

5

5

5

4

6

4

5

6

6

3

7

5

4

7

6

4

5

6

5

4

5

2

6

130

7

6

5

6

3

7

8

5

6

5

3

5

Tabela 25: Grupo C (a) Através da MANOVA, ao nível de significância de 5%, testar se os três grupos diferem significativamente, caso contrário eliminar as variáveis que não discriminam os grupos. ********************************** *

ESTATÍSTICA DO TESTE

*

********************************** F = 12.3047 ********************************** *

VALOR DE p

*

********************************** 1.4032e-010

Pela MANOVA concluímos que os três grupos diferem significativamente. (b) Determine a função discriminante linear de Fisher para os três grupos, com base nas amostras. ********************************** *

MATRIZ B

*

********************************** 64.1523

31.4174

46.3409

61.6985

47.1659

31.4174

16.0280

23.4803

32.0439

24.2553

46.3409

23.4803

34.4364

46.8061

35.4864

61.6985

32.0439

46.8061

64.5455

48.6561

47.1659

24.2553

35.4864

48.6561

36.7614

********************************** *

MATRIZ W

*

********************************** 25.9083

-5.5083

4.4167

2.8167

2.5917

-5.5083

33.6083

-6.1167

0.6833

-3.8917

4.4167

-6.1167

22.5333

3.1333

2.4833

2.8167

0.6833

3.1333

23.3333

-6.7167

2.5917

-3.8917

2.4833

-6.7167

26.2083

2.0452

0.9855

1.4577

1.9212

1.4747

1.7629

0.8906

1.3068

1.7730

1.3452

1.4671

0.7424

1.0891

1.4791

1.1218

>> inv(W)*B ans =

131

2.8544

1.4950

2.1808

3.0219

2.2736

2.4517

1.2731

1.8596

2.5641

1.9330

>> [e,l]=eig(inv(W)*B) e = 0.3980

0.7450

0.2890

-0.0202

0.1123

0.3587

0.0905

-0.3979

0.6831

0.3708

0.2990

0.0583

-0.6784

0.0176

-0.7557

0.6010

-0.5653

0.5252

0.1972

-0.1293

0.5120

-0.3375

-0.1485

-0.7027

0.5120

8.8265

0

0

0

0

0

0.1532

0

0

0

0

0

0.0000

0

0

0

0

0

-0.0000

0

0

0

0

0

0.0000

l =

******************************************* * COEFICIENTES DAS FUNÇÕES DISCRIMINANTES * ******************************************* Y1 = 0.3980

0.3587

0.2990

0.6010

0.5120

0.7450

0.0905

0.0583

-0.5653

-0.3375

Y2 =

(c) Determine o erro de classificação. Utilizando-se como base: Grupo

Média Y1

Média Y2

1

19,05495

-0,88322

2

15,21688

-0,08769

3

12,12641

-0,9544

Calculando-se os escores Y1 e Y2 para cada amostra e verificando em qual ponto esta amostra esta mais próxima, vem:

132

Distância Grupo

1

2

3

Classificação

Tipo

1

18,06

-2,46

1,87

3,7

6,12

1

11

1

18,99

-0,42

0,47

3,78

6,88

1

11

1

18,38

0,3

1,36

3,18

6,37

1

11

1

17,55

-1

1,51

2,51

5,43

1

11

1

18,78

0,17

1,09

3,58

6,75

1

11

1

19,26

-0,46

0,47

4,06

7,15

1

11

1

19,53

-1,09

0,52

4,43

7,4

1

11

1

18,16

0,59

1,72

3,02

6,23

1

11

1

17,84

-0,46

1,29

2,65

5,73

1

11

1

18,69

-1,25

0,52

3,66

6,57

1

11

1

21,06

-0,33

2,08

5,85

8,95

1

11

1

20,51

-0,42

1,52

5,3

8,4

1

11

1

20,17

-1,59

1,32

5,17

8,07

1

11

1

19,97

-3,3

2,58

5,73

8,18

1

11

1

18,89

-1,54

0,68

3,95

6,78

1

11

2

15,78

-0,25

3,34

0,58

3,72

2

22

2

15,79

0,92

3,73

1,16

4,12

2

22

2

16,05

-0,29

3,06

0,86

3,98

2

22

2

15,25

-2,42

4,1

2,33

3,45

2

22

2

14,15

-0,12

4,96

1,07

2,19

2

22

2

16,11

1,38

3,71

1,72

4,62

2

22

2

15,34

0,72

4,04

0,81

3,62

2

22

2

15,82

0,09

3,38

0,62

3,83

2

22

2

15,29

-1,25

3,78

1,16

3,17

2

22

2

12,59

0,33

6,58

2,66

1,37

3

23

3

12,16

0,05

6,96

3,06

1,01

3

33

3

12,36

-0,54

6,7

2,89

0,48

3

33

3

12,29

-0,5

6,77

2,95

0,49

3

33

3

12,93

-0,99

6,12

2,46

0,81

3

33

3

12,42

-0,29

6,66

2,8

0,73

3

33

3

10,48

-1,79

8,62

5,03

1,85

3

33

3

12,96

-1,83

6,17

2,85

1,21

3

33

3

11,4

-1,75

7,7

4,16

1,07

3

33

O que dá a seguinte matriz confusão:

133

Grupo Classificado Grupo Origem

1

2

3

1

15

0

0

2

0

9

1

Com as probabilidades de classificação das por: Grupo Classificado Grupo Origem

1

2

3

1

0%

0%

0%

2

0%

90%

10%

3

0%

0%

100%

(d) Em qual grupo você classificaria um aluno com escores: 𝑥0 = [6 7 7 8 8]? >> Xm1; >> Xm2; >> Xm3; >> Y11=e(:,1)’*Xm1 Y11 = 16.6730 >> Y12=e(:,1)’*Xm2 Y12 = 13.3031 >> Y13=e(:,1)’*Xm3 Y13 = 10.6180 >> Y21=e(:,2)’*Xm1 Y21 = 0.3705 >> Y22=e(:,2)’*Xm2 Y22 = -0.1874 >> Y23=e(:,2)’*Xm3 Y23 = 0.5427 >> YK=e(:,1)’*K 134

YK = 15.8974 >> YK=e(:,2)’*K YK = -1.7106 Seria classificado no primeiro grupo, como pode ser observado na figura a seguir.

7

Lista 7: Regressão Logística 1. O gerente de uma seguradora de veículos está interessado em aprimorar a sua política de vendas para expandir a base de clientes. Ele acredita que em muitas situações teria condições de realizar contratos a preços mais competitivos se tivesse uma melhor percepção da taxa de risco a que se expõe em cada operação. Recorrendo à sua base de dados, resolveu extrair uma amostra aleatória de 36 elementos para identificar quais são as variáveis que mais contribuem para diferenciá-los quanto à ocorrência de sinistros. Com isso, espera poder estimar de forma mais racional o arisco a que ficará exposto em futuras operações e, conseqüentemente, conceder descontos mais adequados. Os dados são: Sinistro

Idade

Estado Civil

Sexo

0

22

1

1

135

1

24

0

0

0

45

1

1

0

58

0

1

0

27

1

0

1

31

0

1

1

32

0

1

0

30

0

0

0

56

0

1

0

44

0

1

1

21

0

1

1

23

0

1

0

29

1

0

0

20

1

0

0

60

1

1

1

30

0

1

1

22

0

1

0

26

1

0

0

19

0

0

0

18

0

0

0

21

1

1

0

59

0

1

1

24

0

0

0

56

0

1

0

54

0

1

0

47

0

1

0

40

1

0

1

31

1

1

0

43

0

0

0

35

1

0

0

23

1

0

1

22

1

1

0

21

1

1

0

63

0

1

0

22

1

0

0

26

1

0

Como consta no quadro dos dados, verificaram-se 17 ocorrências de sinistro numa amostra de 36 clientes ( 1 = houve sinistro; 0 = não houve sinistro). Em relação a cada indivíduo, foram levantadas as seguintes informações adicionais: o estado civil (1 = solteiro, 0 = casado), a idade e, finalmente, o sexo (1 = feminino; 0 = masculino). Baseando-se nesse 136

histórico pede-se: (a) determine um modelo capaz de descrever o relacionamento existente entre a ocorrência de sinistros e as variáveis sexo, idade e estado civil. Usando o Software Statistica, obteve-se 𝛽ˆ0 = 3.78104, 𝛽ˆ1 = −0.189572, 𝛽ˆ2 = −3.62511 e 𝛽ˆ3 = 3.70268 logo temos 𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3 1 + 𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3 𝑥1 = Idade, 𝑥2 = Estado Civil, 𝑥3 = Sexo. 𝜋 ˆ(𝑥1 , 𝑥2 , 𝑥3 ) =

(b) estime a probabilidade de sinistro associada a um cliente de sexo masculino, casado e com 25 anos de idade. 𝜋 ˆ(25, 0, 0) = 0.2772 (c) para o mesmo cliente do item anterior, qual a probabilidade de sinistro se ele fore solteiro? 𝜋 ˆ(25, 1, 0) = 0.0101 (d) compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias que poderiam ser adotadas pela companhia para atrair novos clientes. 2. Considere a variável idade (AGE) e a variável dicotômica (CHD) que indica a presença (1) ou ausência (0) de evidência de problemas coronários significativos em 100 indivíduos (ID) com os números 1 a 100. A variável (AGRP) indica a faixa etária do indivíduo. ID

AGRP

AGE

CHD

ID

AGRP

AGE

CHD

ID

AGRP

AGE

CHD

1

1

20

0

35

3

38

0

68

6

51

0

2

1

23

0

36

3

39

0

69

6

52

0

3

1

24

0

37

3

39

1

70

6

52

1

4

1

25

0

38

4

40

0

71

6

53

1

5

1

25

1

39

4

40

1

72

6

53

1

6

1

26

0

40

4

41

0

73

6

54

1

7

1

26

0

41

4

41

0

74

7

55

0

8

1

28

0

42

4

42

0

75

7

55

1

9

1

28

0

43

4

42

0

76

7

55

1

10

1

29

0

44

4

42

0

77

7

56

1

11

2

30

0

45

4

42

1

78

7

56

1

12

2

30

0

46

4

43

0

79

7

56

1

13

2

30

0

47

4

43

0

80

7

57

0

14

2

30

0

48

4

43

1

81

7

57

0

137

15

2

30

0

49

4

44

0

82

7

57

1

16

2

30

1

50

4

44

0

83

7

57

1

17

2

32

0

51

4

44

1

84

7

57

1

18

2

32

0

52

4

44

1

85

7

57

1

19

2

33

0

53

5

45

0

86

7

58

0

20

2

33

0

54

5

45

1

87

7

58

1

21

2

34

0

55

5

46

0

88

7

58

1

22

2

34

0

56

5

46

1

89

7

59

1

23

2

34

1

57

5

47

0

90

7

59

1

24

2

34

0

58

5

47

0

91

8

60

0

25

2

34

0

59

5

47

1

92

8

60

1

26

3

35

0

60

5

48

0

93

8

61

1

27

3

35

0

61

5

48

1

94

8

62

1

28

3

36

0

62

5

48

1

95

8

62

1

29

3

36

1

63

5

49

0

96

8

63

1

30

3

36

0

64

5

49

0

97

8

64

0

31

3

37

0

65

5

49

1

98

8

64

1

32

3

37

1

66

6

50

0

99

8

65

1

33

3

37

0

67

6

50

1

100

8

69

1

34

3

38

0

(a) Efetuar uma regressão logística considerando a variável dependente (CHD) e como variável independente as idades (AGE). 𝛽ˆ0 = −5.30945 e 𝛽ˆ1 = 0.1109 Logo, tem-se 𝜋 ˆ(𝐴𝐺𝐸) =

𝑒−5.30945+0.1109𝐴𝐺𝐸 1 + 𝑒−5.30945+0.1109𝐴𝐺𝐸

(b) Determinar os % de classificação correta. Pred.

Pred.

Percent

0

1

Correct

0

45

12

78, 94736

1

14

29

67, 44186

(c) Determinar a variável (CHD) estimada para cada indivíduo.

138

C:1 0,043479

C:34 0,250781

C:68 0,586017

C:2 0,059621

C:35 0,250781

C:69 0,612645

C:3 0,066153

C:36 0,272192

C:70 0,612645

C:4 0,073344

C:37 0,272192

C:71 0,638617

C:5 0,073344

C:38 0,294712

C:72 0,638617

C:6 0,081248

C:39 0,294712

C:73 0,663803

C:7 0,081248

C:40 0,318280

C:74 0,688091

C:8 0,099422

C:41 0,318280

C:75 0,688091

C:9 0,099422

C:42 0,342817

C:76 0,688091

C:10 0,109804

C:43 0,342817

C:77 0,711387

C:11 0,121125

C:44 0,342817

C:78 0,711387

C:12 0,121125

C:45 0,342817

C:79 0,711387

C:13 0,121125

C:46 0,368224

C:80 0,733617

C:14 0,121125

C:47 0,368224

C:81 0,733617

C:15 0,121125

C:48 0,368224

C:82 0,733617

C:16 0,121125

C:49 0,394383

C:83 0,733617

C:17 0,146793

C:50 0,394383

C:84 0,733617

C:18 0,146793

C:51 0,394383

C:85 0,733617

C:19 0,161237

C:52 0,394383

C:86 0,754725

C:20 0,161237

C:53 0,421163

C:87 0,754725

C:21 0,176807

C:54 0,421163

C:88 0,754725

C:22 0,176807

C:55 0,448414

C:89 0,774674

C:23 0,176807

C:56 0,448414

C:90 0,774674

C:24 0,176807

C:57 0,475979

C:91 0,793445

C:25 0,176807

C:58 0,475979

C:92 0,793445

C:26 0,193533

C:59 0,475979

C:93 0,811033

C:27 0,193533

C:60 0,503690

C:94 0,827449

C:28 0,211436

C:61 0,503690

C:95 0,827449

C:29 0,211436

C:62 0,503690

C:96 0,842716

C:30 0,211436

C:63 0,531379

C:97 0,856866

C:31 0,230521

C:64 0,531379

C:98 0,856866

C:32 0,230521

C:65 0,531379

C:99 0,869939

C:33 0,230521

C:66 0,558876

C:100 0,912465

C:67 0,558876

(d) Construir o histograma para os resíduos da regressão.

139

Distr. Frequencia

𝑁 𝑜 de obs.

Normal Esperada

(e) Considere agora uma regressão logística múltipla onde a variável dependente é CHD e as variáveis independentes são ID e AGRP. 𝛽ˆ0 = −5.93116, 𝛽ˆ1 = −0.148642 e 𝛽ˆ0 = 0.1399 logo tem-se 𝜋 ˆ (𝐴𝐺𝑅𝑃, 𝐴𝐺𝐸) =

𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸 1+𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸

(f) Determinar os % de classificação correta. Pred.

Pred.

Percent

0

1

Correct

0

45

12

78,94736

1

14

29

67,44186

(g) Determinar a variável (CHD) estimada para cada indivíduo.

140

C:1 0,036193

C:34 0,257058

C:68 0,577206

C:2 0,054046

C:35 0,257058

C:69 0,610925

C:3 0,061660

C:36 0,284667

C:70 0,610925

C:4 0,070268

C:37 0,284667

C:71 0,643615

C:5 0,070268

C:38 0,282888

C:72 0,643615

C:6 0,079974

C:39 0,282888

C:73 0,675020

C:7 0,079974

C:40 0,312106

C:74 0,673097

C:8 0,103130

C:41 0,312106

C:75 0,673097

C:9 0,103130

C:42 0,342899

C:76 0,673097

C:10 0,116806

C:43 0,342899

C:77 0,703103

C:11 0,115906

C:44 0,342899

C:78 0,703103

C:12 0,115906

C:45 0,342899

C:79 0,703103

C:13 0,115906

C:46 0,375073

C:80 0,731453

C:14 0,115906

C:47 0,375073

C:81 0,731453

C:15 0,115906

C:48 0,375073

C:82 0,731453

C:16 0,115906

C:49 0,408390

C:83 0,731453

C:17 0,147794

C:50 0,408390

C:84 0,731453

C:18 0,147794

C:51 0,408390

C:85 0,731453

C:19 0,166295

C:52 0,408390

C:86 0,758027

C:20 0,166295

C:53 0,406277

C:87 0,758027

C:21 0,186604

C:54 0,406277

C:88 0,758027

C:22 0,186604

C:55 0,440412

C:89 0,782753

C:23 0,186604

C:56 0,440412

C:90 0,782753

C:24 0,186604

C:57 0,475121

C:91 0,781261

C:25 0,186604

C:58 0,475121

C:92 0,781261

C:26 0,185279

C:59 0,475121

C:93 0,804226

C:27 0,185279

C:60 0,510071

C:94 0,825319

C:28 0,207330

C:61 0,510071

C:95 0,825319

C:29 0,207330

C:62 0,510071

C:96 0,844578

C:30 0,207330

C:63 0,544923

C:97 0,862069

C:31 0,231261

C:64 0,544923

C:98 0,862069

C:32 0,231261

C:65 0,544923

C:99 0,877877

C:33 0,231261

C:66 0,542752

C:100 0,926357

C:67 0,542752 141

(h) Construir o histograma para os resíduos da regressão.

3. Uma amostra consiste de 40 empresas clientes de um Banco de Desenvolvimento, sendo 30 classificadas como adimplentes e 10 como inadimplentes. Conhece-se os índices de 8 variáveis econômico-financeiras descritas como: MG = margem de garantia; PCT = participação de capitais de terceiros; IPL = imobilização do patrimônio líquido; LS = liquidez seca; LC = liquidez corrente; LG = liquidez geral; RSV = retorno sobre vendas; RPL = retorno sobre patrimônio líquido. Seja a variável dependente VD onde VD = 1 para as empresas adimplentes e VD = 0 para as empresas inadimplentes. Empresa

VD

MG

PCT

IPL

LS

LC

LG

RVS

RPL

1

1

1.72

1.39

97.87

2.61

2.61

0.61

9.7

32.58

2

1

1.6

1.67

152.17

0.56

0.94

0.69

12.54

26.42

3

1

8.65

0.13

21.24

4.17

7.02

7.02

13.35

21.11

4

1

3.17

0.46

84.57

1

1.6

1.33

5.59

7.75

5

1

1.63

1.58

90.15

1.02

1.25

1.06

-0.45

-3.43

6

1

2.15

0.87

56.5

1.16

1.4

1.5

7.46

7.83

7

1

1.94

1.06

61.38

0.98

1.5

1.36

0.82

3.49

8

1

1.97

1.03

84.46

0.4

0.95

1.14

0.45

2.08

9

1

1.68

1.47

104.91

0.79

1

0.97

-0.02

0.24

10

1

2.89

0.53

59.13

3.86

3.86

1.76

7.75

23.21

11

1

6.66

0.18

90.02

1.11

1.55

1.68

9.03

6.05

12

1

1.43

2.32

51.67

0.53

1.06

1.2

0.29

1.42

142

13

1

3.6

0.38

91.81

1.59

3.22

1.21

15.53

20.52

14

1

1.67

1.49

144.64

0.71

1.76

0.7

19.18

84.12

15

1

1.71

1.4

35.57

1.91

2.13

1.45

3.78

11.15

16

1

13.44

0.09

95.61

2.39

3.57

2.51

17.49

17.98

17

1

3.05

0.49

115.49

0.7

0.79

0.68

2.23

2.64

18

1

21.29

0.05

98.44

1.79

2.07

2.07

21.94

12.84

19

1

2.24

0.81

87.25

1.11

1.49

1.16

-0.06

0.98

20

1

3.18

0.46

76.34

2.17

2.18

1.51

10.03

7.3

21

1

5.71

0.28

125

1.29

1.29

1.29

26.06

56.67

22

1

1.37

2.67

229.32

0.42

0.55

0.52

-0.99

-11.28

23

1

1.6

1.68

78.97

1.21

1.28

1.12

6.69

29.24

24

1

3.54

0.39

35.21

2.27

2.65

2.65

15

32.73

25

1

1.47

2.14

87.65

0.6

1.03

1.03

-2.13

-23.46

26

1

4.37

0.3

84.45

1.59

1.59

1.52

3.79

7.59

27

1

1.64

1.55

25.26

0.16

1.48

1.48

9.01

77.34

28

1

1.23

4.31

187.46

0.31

0.36

0.76

0.52

7.67

29

1

1.25

4.05

86.62

0.36

1.03

1.03

2.07

17.35

30

1

5.3

0.23

94.38

0.54

1.03

1.24

-3.06

-9.83

31

0

1.67

1.59

216.77

0.33

0.39

0.29

-1.05

-10.85

32

0

1.21

4.72

387.18

0.21

0.4

0.39

-23.45

-147.63

33

0

1.25

4.04

102.84

-0.03

1

0.99

2.02

8.06

34

0

1.08

17.52

63

0.24

1.21

1.05

-7.76

-25.24

35

0

1.17

5.88

219.05

0.36

1.29

0.8

1.62

2.2

36

0

1.87

1.15

87.61

0.74

1.28

1.1

-40.36

-135.03

37

0

1.45

2.22

227.74

0.39

0.92

0.42

-50.67

-26.3

38

0

1.19

5.31

475.96

0.3

0.33

0.27

-0.61

-9.55

39

0

2.09

0.92

189.03

0.06

0.06

0.03

-0.08

5.61

40

0

1.31

15.81

154.59

0.75

1.35

1.21

4.72

34.67

(a) Utilizando o Método de Descarte de Variáveis Independentes, visto na Lista 4 (Análise de Componentes Principais) determinar quais variáveis devem permanecer na análise.

143

O método de descarte sugere descartar um número de variáveis igual ao número de autovalores menores que 0.7. Como pode ser observado no screeplot acima, são 5 variáveis. Analisando os coeficientes: Autovalor Var

1

2

3

4

5

6

7

8

9

X1

0.0956

0.4145

-0.2769

-0.5960

-0.0542

0.1745

-0.3204

0.3600

0.3486

X2

0.0333

0.2195

0.1665

0.0467

-0.5641

-0.6898

-0.1216

-0.1850

0.2787

X3

-0.0024

0.2190

0.0172

-0.4346

-0.2761

0.0691

0.7854

-0.1119

-0.2292

X4

0.0160

0.2528

-0.2666

-0.1758

0.6075

-0.5919

-0.0051

-0.1068

-0.3209

X5

-0.4827

0.0551

0.5558

-0.2709

0.3632

0.0502

0.0188

-0.2957

0.3992

X6

0.7739

0.0475

0.0435

0.0678

0.2440

0.0986

0.1680

-0.3653

0.4018

X7

-0.3820

-0.0335

-0.7085

0.1713

-0.0371

0.0707

0.1535

-0.3882

0.3756

X8

0.0421

-0.6759

-0.0757

-0.2437

0.0905

-0.3442

0.2724

0.4059

0.3328

X9

-0.0994

0.4527

0.0758

0.5061

0.1800

-0.0532

0.3733

0.5253

0.2697

As variáveis descartadas foram: 𝑋2 : MG, 𝑋3 : PCT , 𝑋4 : IPL, 𝑋6 : LC, 𝑋9 : RPL (b) Efetuar uma regressão logística múltipla considerando a variável dependente (VD) e como variáveis independente aquelas que permaneceram após o descarte feito no item anterior. Model: Logistic regression (logit) N of 0’s:10 1’s:30 Dep. var: VD Loss: Max likelihood Final loss: 8,953831045 Chi2 (3)=27,079 p=,00001

144

Const.B0

LS

LG

RVS

Estimate

-3,24551

5

2

0,15

Odds ratio (unit ch)

0,03895

126

8

1,16

671741504

1729328

72719,5

Odds ratio (range)

𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆 1 + 𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆 (c) Determinar os % de classificação correta. Classification of Cases (lista7exe2.sta) Odds ratio: 56,000 Pred.

Pred.

Percent

0

1

Correct

0

8

2

80

1

2

28

93,33334

(d) Determinar a variável (VD) estimada para cada empresa. C:1 ,999994

C:11 ,998989

C:21 ,999921

C:31 ,230445

C:2 ,937724

C:12 ,861459

C:22 ,428275

C:32 ,007775

C:3 1,000000

C:13 ,999899

C:23 ,997234

C:33 ,256984

C:4 ,994190

C:14 ,988191

C:24 1,000000

C:34 ,257574

C:5 ,978185

C:15 ,999927

C:25 ,812119

C:35 ,593120

C:6 ,998556

C:16 1,000000

C:26 ,999704

C:36 ,035836

C:7 ,988006

C:17 ,865842

C:27 ,868120

C:37 ,000375

C:8 ,749960

C:18 ,999997

C:28 ,473084

C:38 ,209509

C:9 ,928765

C:19 ,989024

C:29 ,714051

C:39 ,051899

C:10 1,000000

C:20 ,999993

C:30 ,812953

C:40 ,972320

(e) Construir o histograma para os resíduos da regressão.

145

(f) Como você classificaria uma empresa com os seguintes valores para as variáveis (considere somente aquelas variáveis que não foram descartadas) MG = 2,37; PCT = 8,75; IPL = 254,54; LS = 0,97; LC = 1,23; LG = 0,76; RSV = 0,57; RPL = 7,45. Aplicando a fórmula vem: Calculando 𝑔(𝑥) = −3, 24551 − 5𝐿𝑆 + 2𝐿𝐺 + 0, 15𝑅𝑉 𝑆 , vem: 𝑔(𝑥) = 4, 242. Calculando 𝜋 ˆ (𝑥) =

8

𝑒𝑔(𝑥) 1+𝑒𝑔(𝑥)

=

𝑒4,242 1+𝑒4,242

= 0, 9858 Sendo classificado como adimplente.

Lista 8: Análise de Agrupamento 1. As distâncias entre 5 pares de itens são dadas abaixo:

146



⎡ 0

⎢ ⎢ ⎢ 4 0 ⎢ ⎢ ⎢ 6 9 0 ⎢ ⎢ ⎢ 1 7 10 0 ⎣ 6 3 5 8 0

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦

Faça uma análise de agrupamentos utilizando os métodos: (a) do vizinho mais próximo; A

B

C

A

0

B

4

0

C

6

9

0

D

1

7

10

D

E

A,D

0

B

C

A,D

0

B

4

0

C

6

9

0

E

6

3

5

E

0

A,D

B,E

A,D

0

B,E

4

0

C

6

5

C

0

E 6 3 5 8 0 O passo 3 junta A,D com B,E, sobrando a última ligação, A,D, B,E com C, na distância 5. No matlab >> D=[0 4 6 1 6; 4 0 9 7 3; 6 9 0 10 5; 1 7 10 0 8; 6 3 5 8 0] >> y=squareform(D) >> z=linkage(y) >> dendrogram(z) >> r=cophenet(z,y) D = 0

4

6

1

6

4

0

9

7

3

6

9

0

10

5

1

7

10

0

8

6

3

5

8

0

y = 147

4

6

1

1

4

1

2

5

3

6

7

4

3

8

5

6

9

7

3

10

z =

r = 0.7727 (b) do vizinho mais distante; >> z=linkage(y,’complete’) >> dendrogram(z) >> r=cophenet(z,y) z = 1

4

1

2

5

3

6

7

8

3

8

10

r = 0.7893 (c) construa os dendrogramas.

5

4.5

4

3.5

3

2.5

2

1.5

1 1

4

2

148

5

3

5

8

10 9 8 7 6 5 4 3 2 1 1

4

2

5

3

2. Suponha que temos as medidas de 3 variáveis: 𝑋1 , 𝑋2 e 𝑋3 para 6 itens: A, B, C, D, E e F. Os dados são dados abaixo: Itens

𝑋1

𝑋2

𝑋3

A

2

5

7

B

1

4

5

C

2

6

4

D

3

5

5

E

4

5

6

F

2

6

5

Usando a técnica das k-médias dividir os ítens em K = 2 grupos. Começar com os grupos iniciais (ABC) e (DEF). >> M=[2 5 1

4

7

5 2

6

4 3

5

5 4

5

6 2

6

mx_ABC=mean(M(1:3,:)) mx_DEF=mean(M(4:6,:)) M = 2

5

7

1

4

5

2

6

4

3

5

5

4

5

6

2

6

5

mx_ABC = 149

5]

1.6667

5.0000

5.3333

5.3333

5.3333

mx_DEF = 3.0000

>> %Distancia A >> d_A_ABC=sqrt(sum((M(1,:)-mx_ABC).^2)) >> d_A_DEF=sqrt(sum((M(1,:)-mx_DEF).^2)) >> %Distancia B >> d_B_ABC=sqrt(sum((M(2,:)-mx_ABC).^2)) >> d_B_DEF=sqrt(sum((M(2,:)-mx_DEF).^2)) >> %Distancia C >> d_C_ABC=sqrt(sum((M(3,:)-mx_ABC).^2)) >> d_C_DEF=sqrt(sum((M(3,:)-mx_DEF).^2)) >> %Distancia D >> d_D_ABC=sqrt(sum((M(4,:)-mx_ABC).^2)) >> d_D_DEF=sqrt(sum((M(4,:)-mx_DEF).^2)) >> %Distancia E >> d_E_ABC=sqrt(sum((M(5,:)-mx_ABC).^2)) >> d_E_DEF=sqrt(sum((M(5,:)-mx_DEF).^2)) >> %Distancia F >> d_F_ABC=sqrt(sum((M(6,:)-mx_ABC).^2)) >> d_F_DEF=sqrt(sum((M(6,:)-mx_DEF).^2)) d_A_ABC = 1.6997 d_A_DEF = 1.9720 d_B_ABC = 1.2472 d_B_DEF = 2.4267 d_C_ABC = 1.6997 d_C_DEF = 1.7951

150

d_D_ABC = 1.3744 d_D_DEF = 0.4714 d_E_ABC = 2.4267 d_E_DEF = 1.2472 d_F_ABC = 1.1055 d_F_DEF = 1.2472 >> G_ABCF=[M(1:3,:);M(6,:)] G_DE=M(4:5,:)

mx_ABCF=mean(G_ABCF) mx_DE=mean(G_DE) %Distancia A d_A_ABCF=sqrt(sum((M(1,:)-mx_ABCF).^2)) d_A_DE=sqrt(sum((M(1,:)-mx_DE).^2)) %Distancia B d_B_ABCF=sqrt(sum((M(2,:)-mx_ABCF).^2)) d_B_DE=sqrt(sum((M(2,:)-mx_DE).^2)) %Distancia C d_C_ABCF=sqrt(sum((M(3,:)-mx_ABCF).^2)) d_C_DE=sqrt(sum((M(3,:)-mx_DE).^2)) %Distancia D d_D_ABCF=sqrt(sum((M(4,:)-mx_ABCF).^2)) d_D_DE=sqrt(sum((M(4,:)-mx_DE).^2)) %Distancia E d_E_ABCF=sqrt(sum((M(5,:)-mx_ABCF).^2)) d_E_DE=sqrt(sum((M(5,:)-mx_DE).^2)) %Distancia F d_F_ABCF=sqrt(sum((M(6,:)-mx_ABCF).^2))

151

d_F_DE=sqrt(sum((M(6,:)-mx_DE).^2)) disp(’Grupo1: ABCF’) disp(’Grupo2: DE’) G_ABCF = 2

5

7

1

4

5

2

6

4

2

6

5

3

5

5

4

5

6

G_DE =

mx_ABCF = 1.7500

5.2500

5.2500

5.0000

5.5000

mx_DE = 3.5000 d_A_ABCF = 1.7854 d_A_DE = 2.1213 d_B_ABCF = 1.4790 d_B_DE = 2.7386 d_C_ABCF = 1.4790 d_C_DE = 2.3452 d_D_ABCF = 1.2990 d_D_DE = 0.7071 d_E_ABCF = 2.3848 d_E_DE = 0.7071

152

d_F_ABCF = 0.8292 d_F_DE = 1.8708

Grupo1: ABCF Grupo2: DE 3. Usando os dados do Exercício 4 da LISTA 5 (Análise Fatorial), fazer uma Análise de Agrupamento utilizando os diversos tipos de distâncias e ligações. Construir o dendrograma para a melhor solução. A tabela seguinte mostra as quantidades das 25 espécies de plantas mais abundantes em 17 lotes de um prado de pastagem na Reserva natural em Steneryd na Suécia medidas por Persson (1981) e usadas para um exemplo de Digby e Kempton (1987). Cada valor na tabela é a soma dos valores cobertos em intervalo de 0 a 5 por nove quadrantes de amostra, de modo que um valor de 45 corresponde à completa cobertura pelas espécies sendo consideradas. Note que as espécies estão em ordem das mais abundantes (1) às menos abundantes (25), e os lotes estão na ordem dada por Digby e Kempton , a qual corresponde à variação em certos fatores ambientais tais como luz e umidade. Execute uma análise de agrupamentos para estudar o relacionamento entre (a) os 17 lotes e (b) as 25 espécies. Espécies

Lotes 1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

𝐸1

38

43

43

30

10

11

20

0

0

5

4

1

1

0

0

0

0

𝐸2

0

0

0

4

10

7

21

14

13

19

20

19

6

10

12

14

21

𝐸3

0

0

0

0

0

6

8

21

39

31

7

12

0

16

11

6

9

𝐸4

10

12

19

15

16

9

0

9

28

8

0

4

0

0

0

0

0

𝐸5

0

0

0

0

0

0

0

0

0

0

13

0

0

21

20

21

37

𝐸6

0

0

0

0

0

0

0

0

0

0

1

0

0

0

11

45

45

𝐸7

1

0

5

6

2

8

10

15

12

15

4

5

6

7

0

0

0

𝐸8

0

7

0

10

9

9

3

9

8

9

2

5

5

1

7

0

0

𝐸9

0

0

1

4

6

9

9

9

11

11

6

5

4

1

7

0

0

𝐸10

0

0

0

0

0

8

0

14

2

14

3

9

8

7

7

2

1

𝐸11

0

0

0

0

0

8

0

0

6

5

4

7

9

8

8

7

6

153

𝐸12

0

5

3

9

12

9

0

1

7

4

5

1

1

1

3

0

0

𝐸13

0

0

0

0

0

0

30

0

14

3

8

0

3

3

0

0

0

𝐸14

4

10

10

9

7

6

9

0

0

2

1

0

2

0

1

0

0

𝐸15

2

9

7

15

13

8

0

0

0

0

0

0

0

0

0

0

0

𝐸16

0

0

0

0

15

6

0

18

1

9

0

0

2

0

0

0

0

𝐸17

12

7

16

8

1

6

0

0

0

0

0

0

0

0

0

0

0

𝐸18

0

0

0

0

0

7

0

2

2

1

0

7

9

2

3

8

7

𝐸19

0

0

0

0

0

7

9

2

12

6

3

8

0

0

0

0

0

𝐸20

0

0

0

0

2

6

3

0

6

5

3

9

3

2

7

0

0

𝐸21

0

0

0

0

0

4

1

4

2

9

6

8

4

1

6

0

0

𝐸22

0

0

0

0

0

8

0

4

0

6

2

10

6

0

2

7

0

𝐸23

1

9

16

9

5

2

0

0

0

0

0

0

0

0

0

0

0

𝐸24

0

0

0

0

2

7

0

1

0

3

1

6

8

2

0

7

4

𝐸25

0

0

6

14

19

2

0

0

0

0

0

0

0

0

0

0

0

Espécies: 𝐸1 = festuca ovina; 𝐸2 = anemone nemorosa; 𝐸3 = stallaria holostea; 𝐸4 = agrostis tenuis; 𝐸5 = ranunculus ficaria; 𝐸6 = merculrialis perenis; 𝐸7 = poa pratenis; 𝐸8 = rumex acetosa; 𝐸9 = verônica chamaedrys; 𝐸1 0 = dactylis glomerata; 𝐸11 = fraxinus Excelsior; 𝐸12 = saxifraga granulata; 𝐸13 = deschampsia flexuosa; 𝐸14 = luzula campestris; 𝐸15 = plantago lanceolata; 𝐸16 = festuca rubra; 𝐸17 = hieracium pilosella; 𝐸18 = geum urbanum; 𝐸19 = lathyrus montanus; 𝐸20 = campânula persicifolia; 𝐸21 = viola riviniana; 𝐸22 = hepática nobilis; 𝐸23 = achillea millefolium; 𝐸24 = allium sp.; 𝐸25 = trifolim repens. function analisefunc(X) distancia = [ ’euclidean



’seuclidean ’ ’mahalanobis’ ’cityblock



’minkowski



’cosine



’correlation’ ’hamming



’jaccard



’chebychev

’ 154

];

strdist= cellstr(distancia); iTamDist = size(strdist); ligacao = [ ’single



’complete’ ’average ’ ’weighted’ ’centroid’ ’median



’ward

’ ];

strlink = cellstr(ligacao); iTamLink = size(strlink); fid = fopen(’c:\cophenet.txt’,’w’); for i=1:iTamDist Y = pdist(X,char(strdist(i))); for j=1:iTamLink Z = linkage(Y,char(strlink(j))); c = cophenet(Z,Y); fprintf(fid,’%12s %12s %6.4f\n’,char(strdist(i)), char(strlink(j)), c); end end fclose(fid);

Distância

Link

Cophenet

euclidean

single

0,68

euclidean

complete

0,7

euclidean

average

0,75

euclidean

weighted

0,74

euclidean

centroid

0,75

euclidean

median

0,74

euclidean

ward

0,64

seuclidean

single

0,75

seuclidean

complete

0,7

seuclidean

average

0,83

seuclidean

weighted

0,81

155

seuclidean

centroid

0,83

seuclidean

median

0,43

seuclidean

ward

0,61

mahalanobis

single

0,81

mahalanobis

complete

0,73

mahalanobis

average

0,85

mahalanobis

weighted

0,8

mahalanobis

centroid

0,84

mahalanobis

median

0,72

mahalanobis

ward

0,58

cityblock

single

0,61

cityblock

complete

0,6

cityblock

average

0,66

cityblock

weighted

0,58

cityblock

centroid

0,66

cityblock

median

0,72

cityblock

ward

0,6

minkowski

single

0,68

minkowski

complete

0,7

minkowski

average

0,75

minkowski

weighted

0,74

minkowski

centroid

0,75

minkowski

median

0,74

minkowski

ward

0,64

cosine

single

0,49

cosine

complete

0,55

cosine

average

0,65

cosine

weighted

0,56

cosine

centroid

0,64

cosine

median

0,5

cosine

ward

0,55

correlation

single

0,59

correlation

complete

0,47

correlation

average

0,66

correlation

weighted

0,53

correlation

centroid

0,65

correlation

median

0,62

correlation

ward

0,48

hamming

single

0,56

156

hamming

complete

0,69

hamming

average

0,7973

hamming

weighted

0,7906

hamming

centroid

-0,2757

hamming

median

0,1574

hamming

ward

0,2909

jaccard

single

0,5581

jaccard

complete

0,6883

jaccard

average

0,7973

jaccard

weighted

0,7906

jaccard

centroid

-0,2757

jaccard

median

0,1574

jaccard

ward

0,2909

chebychev

single

0,6429

chebychev

complete

0,7247

chebychev

average

0,7307

chebychev

weighted

0,7254

chebychev

centroid

0,7307

chebychev

median

0,6334

chebychev

ward

0,7161

Ao analisar os dados acima, a melhor solução foi Distância

Link

Cophenet

mahalanobis

average

0,85

4. A tabela abaixo fornece as medidas de 5 variáveis nutricionais para 12 tipos de cereais usados no café da manhã. 157

Cereal

𝑋1

𝑋2

𝑋3

𝑋4

𝑋5

Proteínas

Carboidratos

Fat

Calorias

Vitamina A

2. Grape nuts

3

23

0

100

25

3. Super sugar

2

26

0

110

25

4. Special K

6

21

0

110

25

5.Rice Krispies

2

25

0

110

25

6. Raisin Bran

3

28

1

120

25

7. Product 19

2

24

0

110

100

8.Wheaties

3

23

1

110

25

9. Total

3

23

1

110

100

10.Puffed Rice

2

13

0

50

0

11. Sugar Corn Po

2

26

0

110

25

12. Sugar Smacks

1

25

0

110

25

(a) Usando os dados dessa tabela, calcular as distâncias Euclidianas entre pares de cereais. -

27,4

26,29

25,1

26,04

28,55

100,21

25,5

100,12

60,44

26,29

26,21

27,4

-

10,49

10,63

10,25

20,64

75,68

10,05

75,67

56,8

10,49

10,39

26,29

10,49

-

6,4

1

10,3

75,03

3,32

75,07

66,29

-

1,41

25,1

10,63

6,4

-

5,66

12,61

75,17

3,74

75,09

65,61

6,4

6,4

26,04

10,25

1

5,66

-

10,54

75,01

2,45

75,04

66,1

1

1

28,55

20,64

10,3

12,61

10,54

-

75,78

11,18

75,83

75,84

10,3

10,68

100,21

75,68

75,03

75,17

75,01

75,78

-

75,02

1,73

117,14

75,03

75,01

25,5

10,05

3,32

3,74

2,45

11,18

75,02

-

75

65,78

3,32

3

100,12

75,67

75,07

75,09

75,04

75,83

1,73

75

-

117,06

75,07

75,06

60,44

56,8

66,29

65,61

66,1

75,84

117,14

65,78

117,06

-

66,29

66,11

26,29

10,49

-

6,4

1

10,3

75,03

3,32

75,07

66,29

-

1,41

26,21

10,39

1,41

6,4

1

10,68

75,01

3

75,06

66,11

1,41

-

(b) Tratando as distâncias calculadas em (a) como medidas de similaridade, efetuar o procedimento hierárquico do vizinho mais próximo, construindo o dendrograma correspondente. Este procedimento no matlab corresponde ao modelo ’single’, com distância ’euclidean’. Este dá o seguinte dendrogram.

158

70

60

50

40

30

20

10

0

3

11

5

12

8

4

2

6

1

10

7

9

5. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra, situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ... , CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7; COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e b (mg/10g)). Áreas

CTM1

CTM2

CTM3

CTM4

CTM5

CTM7

COB

IAF

CLT

1. T1

4.5

6.75

5.25

71

45.5

8.75

97.9

5.12

18

2. T2

8.75

9.5

11.5

43.5

53.75

14.5

52.4

1.91

15.22

3. T7

5.75

8.25

8.5

51.25

42

9.5

50.6

2.74

15.61

4. T14

7.75

9.75

11.75

50.25

41.25

10.25

49.3

0.89

14.44

5. T15

5.5

6.5

5

73.25

40.5

6.5

96.5

6.68

17.9

6. T22

9.5

12

28.5

31.5

61.75

31.25

11.1

0.27

12.73

7. T26

9

10.25

9.25

61.75

48

10

90.2

3.71

14.82

8. T28

6.75

7.75

6.25

82

44.5

6.75

96.7

5.36

17.32

9. T33

6.25

6.5

5.25

80.25

46.75

6.75

96

6.55

15.09

159

10. T43

8.5

10

8.25

74.75

55.5

10.5

97.9

2.05

16.28

11.F3A

9

11.5

20.5

43.75

58

22.25

19.7

0.81

10.25

12.F9

5.75

7

11

28.25

31

9

14.3

0.62

12.35

13.F10

6.25

7.5

17.5

22

31

13.5

4.2

0.15

8.26

14.F17

7

9.75

9.75

61.25

53.75

11.75

55.3

1.96

14.36

15.F18

8.25

10.5

9

83

60

11.75

85.8

6.64

11.39

16.F36

6.75

8.25

8

59

46.75

9.75

45.5

2.2

12.29

17.F6A

8

10

11

49.25

48

14

16.9

1.17

13.27

18.F40

6.75

8

10.75

43.75

42

10

38.1

1.58

14.4

19.F41

7.75

10.25

15.5

45.25

58.75

20.5

29.2

0.74

15.62

20.F42

8.25

11

16.75

31.25

46.75

18.25

21.5

9.63

10.37

Agrupar as áreas de plantio em 2 grupos, utilizando as distâncias estudadas e as diferentes ligações, calculando o coeficiente cofenético. Construir também o dendrograma e discutir os resultados. Euclidiana

Mahalanobis

160

Cityblock

Minkosk

161

Cosseno

Correlação

162

Hamming

Jaccard

163

Chebychev

Quadrado euclideana

164

Distância

Link

Cophenet

chebychev

average

0,8575

chebychev

centroid

0,8569

chebychev

median

0,8561

chebychev

weighted

0,8549

chebychev

ward

0,8544

chebychev

complete

0,8542

chebychev

single

0,853

euclidean

average

0,8349

minkowski

average

0,8349

euclidean

weighted

0,8347

minkowski

weighted

0,8347

euclidean

median

0,8341

minkowski

median

0,8341

euclidean

centroid

0,8337

minkowski

centroid

0,8337

euclidean

single

0,83

minkowski

single

0,83

euclidean

complete

0,8295

165

minkowski

complete

0,8295

euclidean

ward

0,8288

minkowski

ward

0,8288

seuclidean

centroid

0,7823

seuclidean

average

0,7737

cityblock

average

0,7684

seuclidean

weighted

0,767

cityblock

centroid

0,7668

seuclidean

complete

0,7581

correlation

average

0,7578

correlation

centroid

0,7577

correlation

weighted

0,7575

correlation

median

0,7575

cityblock

ward

0,7571

correlation

complete

0,7565

correlation

ward

0,7551

cosine

average

0,7356

cosine

centroid

0,7355

cosine

weighted

0,7354

cosine

median

0,7353

cosine

complete

0,7349

cosine

ward

0,734

correlation

single

0,7317

seuclidean

median

0,7288

cityblock

weighted

0,7275

cityblock

median

0,726

cityblock

complete

0,7168

mahalanobis

average

0,7059

cosine

single

0,704

mahalanobis

weighted

0,6818

cityblock

single

0,6781

hamming

average

0,6656

166

jaccard

average

0,6656

seuclidean

ward

0,6648

mahalanobis

centroid

0,6543

hamming

weighted

0,6538

jaccard

weighted

0,6538

mahalanobis

median

0,6139

hamming

ward

0,6067

jaccard

ward

0,6067

mahalanobis

complete

0,5812

hamming

complete

0,5791

jaccard

complete

0,5791

seuclidean

single

0,5639

mahalanobis

single

0,5571

mahalanobis

ward

0,4771

hamming

median

0,1378

jaccard

median

0,1378

hamming

single

0,1357

jaccard

single

0,1357

hamming

centroid

-0,3076

jaccard

centroid

-0,3076

As distância que sugerem uma boa classificação são a de chebychev, euclideana e minkowski. Todas elas, possuem o agrupamento similar ao dendrograma abaixo (chebychev, average).

167

Grupo

Áreas

CTM1

CTM2

CTM3

CTM4

CTM5

CTM7

COB

IAF

CLT

1

1. T1

4.50

6.75

5.25

71.00

45.50

8.75

97.9

5.12

18.00

5. T15

5.50

6.50

5.0

73.25

40.50

6.50

96.5

6.68

17.90

7. T26

9.00

10.25

9.25

61.75

48.00

10.00

90.2

3.71

14.82

8. T28

6.75

7.75

6.25

82.00

44.50

6.75

96.7

5.36

17.32

9. T33

6.25

6.50

5.25

80.25

46.75

6.75

96.0

6.55

15.09

10. T43

8.50

10.00

8.25

74.75

55.50

10.50

97.9

2.05

16.28

15.F18

8.25

10.50

9.0

83.00

60.00

11.75

85.8

6.64

11.39

2. T2

8.75

9.50

11.50

43.50

53.75

14.50

52.4

1.91

15.22

3. T7

5.75

8.25

8.50

51.25

42.00

9.50

50.6

2.74

15.61

4. T14

7.75

9.75

11.75

50.25

41.25

10.25

49.3

0.89

14.44

6. T22

9.50

12.00

28.50

31.50

61.75

31.25

11.1

0.27

12.73

11.F3A

9.00

11.50

20.50

43.75

58.00

22.25

19.7

0.81

10.25

12.F9

5.75

7.00

11.0

28.25

31.00

9.00

14.3

0.62

12.35

13.F10

6.25

7.50

17.5

22.00

31.00

13.50

4.2

0.15

8.26

14.F17

7.00

9.75

9.75

61.25

53.75

11.75

55.3

1.96

14.36

16.F36

6.75

8.25

8.0

59.00

46.75

9.75

45.5

2.20

12.29

17.F6A

8.00

10.00

11.0

49.25

48.00

14.00

16.9

1.17

13.27

18.F40

6.75

8.00

10.75

43.75

42.00

10.00

38.1

1.58

14.40

19.F41

7.75

10.25

15.50

45.25

58.75

20.50

29.2

0.74

15.62

20.F42

8.25

11.00

16.75

31.25

46.75

18.25

21.5

9.63

10.37

2

168

9

Lista 9: Análise de Correlação Canônica 1. (Variáveis solo e vegetação em Belize) Para uma exemplo com um grande número de dados, considere parte dos dados coletados por Green (1973) para um estudo dos fatores influenciando a locação de lugares de habitação Maya pré-históricos no distrito de Corozal em Belize na América Central. A Tabela seguinte mostra quatro variáveis do solo e quatro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. Use a análise de correlação canônica para estudar o relacionamento entre estes dois grupos de variáveis. Quadrado

Variáveis de Solo

Variáveis de Vegetação

𝑋1

𝑋2

𝑋3

𝑋4

𝑌1

𝑌2

𝑌3

𝑌4

1

40

30

0

30

0

25

0

0

2

20

0

0

10

10

90

0

0

3

5

0

0

50

20

50

0

0

4

30

0

0

30

0

60

0

0

5

40

20

0

20

0

95

0

0

6

60

0

0

5

0

100

0

0

7

90

0

0

10

0

100

0

0

8

100

0

0

0

20

80

0

0

9

0

0

0

10

40

60

0

0

10

15

0

0

20

25

10

0

0

11

20

0

0

10

5

50

0

0

12

0

0

0

50

5

60

0

0

13

10

0

0

30

30

60

0

0

14

40

0

0

20

50

10

0

0

15

10

0

0

40

80

20

0

0

16

60

0

0

0

100

0

0

0

17

45

0

0

0

5

60

0

0

18

100

0

0

0

100

0

0

0

19

20

0

0

0

20

0

0

0

20

0

0

0

60

0

50

0

0

21

0

0

0

80

0

75

0

0

22

0

0

0

50

0

50

0

0

23

30

10

0

60

0

100

0

0

24

0

0

0

50

0

50

0

0

169

25

50

20

0

30

0

100

0

0

26

5

15

0

80

0

100

0

0

27

60

40

0

0

10

90

0

0

28

60

40

0

0

50

50

0

0

29

94

5

0

0

90

10

0

0

30

80

0

0

20

0

100

0

0

31

50

50

0

0

25

75

0

0

32

10

40

50

0

75

25

0

0

33

12

12

75

0

10

90

0

0

34

50

50

0

0

15

85

0

0

35

50

40

10

0

80

20

0

0

36

0

0

100

0

100

0

0

0

37

0

0

100

0

100

0

0

0

38

70

30

0

0

50

50

0

0

39

40

40

20

0

50

50

0

0

40

0

0

100

0

100

0

0

0

41

25

25

50

0

100

0

0

0

42

40

40

0

20

80

20

0

0

43

90

0

0

10

100

0

0

0

44

100

0

0

0

100

0

0

0

45

100

0

0

0

90

10

0

0

46

10

0

0

90

100

0

0

0

47

80

0

0

20

100

0

0

0

48

60

0

0

30

80

0

0

0

49

40

0

0

0

0

30

0

0

50

50

0

0

50

100

0

0

0

51

50

0

0

0

40

0

0

0

52

30

30

0

20

30

60

0

0

53

20

20

0

40

0

100

0

0

54

20

80

0

0

0

100

0

0

55

0

10

0

60

0

75

0

0

56

0

50

0

30

0

75

0

0

57

50

50

0

0

30

70

0

0

170

58

0

0

0

60

0

60

0

0

59

20

20

0

60

0

100

0

0

60

90

10

0

0

70

30

0

0

61

100

0

0

0

100

0

0

0

62

15

15

0

30

0

40

0

0

63

100

0

0

0

25

75

0

0

64

95

0

0

5

90

10

0

0

65

95

0

0

5

90

10

0

0

66

60

40

0

0

50

50

0

0

67

30

60

10

10

50

10

0

0

68

50

0

50

50

100

0

0

0

69

60

30

0

10

69

40

0

0

70

90

8

0

2

80

20

0

0

71

30

30

30

40

60

40

0

0

72

33

33

33

33

75

25

0

0

73

20

10

0

40

0

100

0

0

74

50

0

0

50

40

60

0

0

75

75

12

0

12

50

50

0

0

76

75

0

0

25

40

60

0

0

77

30

0

0

50

0

100

0

0

78

50

10

0

30

5

95

0

0

79

100

0

0

0

60

40

0

0

80

50

0

0

50

20

80

0

0

81

10

0

0

90

0

100

0

0

82

30

30

0

20

0

85

0

0

83

20

20

0

20

0

75

0

0

84

90

0

0

0

50

25

0

0

85

30

0

0

0

30

5

0

0

86

20

30

0

50

20

80

0

0

87

50

30

0

10

50

50

0

0

88

80

0

0

0

70

10

0

0

89

80

0

0

0

50

0

0

0

90

60

10

0

25

80

15

0

0

171

91

50

0

0

0

75

0

0

0

92

70

0

0

0

75

0

0

0

93

100

0

0

0

85

15

0

0

94

60

30

0

0

40

60

0

0

95

80

20

0

0

50

50

0

0

96

100

0

0

0

100

0

0

0

97

100

0

0

0

95

5

0

0

98

0

0

0

60

0

50

0

0

99

30

20

0

30

0

60

0

40

100

15

0

0

35

20

30

0

0

101

40

0

0

45

70

20

0

0

102

30

0

0

45

20

40

0

20

103

60

10

0

30

10

65

5

20

104

40

20

0

40

0

25

0

75

105

100

0

0

0

70

0

0

30

196

100

0

0

0

40

60

0

0

107

80

10

0

10

40

60

0

0

108

90

0

0

10

10

0

0

90

109

100

0

0

0

20

10

0

70

110

30

50

0

20

10

90

0

0

111

60

40

0

0

50

50

0

0

112

100

0

0

0

80

10

0

10

113

60

0

0

40

60

10

30

0

114

50

50

0

0

0

100

0

0

115

60

30

0

10

25

75

0

0

116

40

0

0

60

30

20

50

0

117

30

0

0

70

0

50

50

0

118

50

20

0

30

0

100

0

0

119

50

50

0

0

25

75

0

0

120

90

10

0

0

50

50

0

0

121

100

0

0

0

60

40

0

0

122

50

0

0

50

70

30

0

0

123

10

10

0

80

0

100

0

0

172

124

50

50

0

0

30

70

0

0

125

75

0

0

25

80

20

0

0

126

40

0

0

60

0

100

0

0

127

90

10

0

10

75

25

0

0

128

45

45

0

55

30

70

0

0

129

20

35

0

80

10

90

0

0

130

80

0

0

20

70

30

0

0

131

100

0

0

0

90

0

0

0

132

75

0

0

25

50

50

0

0

133

60

5

0

40

50

50

0

0

134

40

0

0

60

60

40

0

0

135

60

0

0

40

70

15

0

0

136

90

10

0

10

75

25

0

0

137

50

0

5

0

30

20

0

0

138

70

0

30

0

70

30

0

0

119

60

0

40

0

100

0

0

0

140

50

0

0

0

50

0

0

0

141

30

0

50

0

60

40

0

0

142

5

0

95

0

80

20

0

0

143

10

0

90

0

70

30

0

0

144

50

0

0

0

15

30

0

0

145

20

0

80

0

50

50

0

0

146

0

0

100

0

90

10

0

0

147

0

0

100

0

75

25

0

0

148

90

0

10

0

60

30

10

0

149

0

0

100

0

80

10

10

0

150

0

0

100

0

60

40

0

0

151

0

40

60

40

50

50

0

0

Nota: 𝑋1 = % de solo com enriquecimento constante de calário; 𝑋2 = % de solo de prado com cálcio na água subterrânea; 𝑋3 = % de solo com matriz de coral sob condições de enriquecimento constante de calcário; 𝑋4 = % de solo aluvial e orgânico adjacentes a rios e solo orgânico salino na costa; 𝑌1 = % de floresta decídua estacional com ervas de folhas

173

largas; 𝑌2 = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em lugares úmidos e pântanos; 𝑌3 = % de floresta de palma de cohune; 𝑌4 = % de floresta mista. >> X=[]; >> Y=[]; >> R11=corr(X) R11 = 1.0000

-0.1433

-0.4089

-0.4692

-0.1433

1.0000

-0.0959

-0.0948

-0.4089

-0.0959

1.0000

-0.2387

-0.4692

-0.0948

-0.2387

1.0000

>> R22=corr(Y) R22 = 1.0000

-0.7854

-0.0597

-0.1542

-0.7854

1.0000

-0.0682

-0.1366

-0.0597

-0.0682

1.0000

-0.0235

-0.1542

-0.1366

-0.0235

1.0000

>> R12=corr(X,Y) R12 = 0.3785

-0.2693

-0.0292

0.1414

-0.2270

0.3831

-0.1045

-0.0494

0.3477

-0.2238

-0.0172

-0.0748

-0.3944

0.3475

0.2070

-0.0128

>> R21=corr(Y,X) R21 = 0.3785

-0.2270

0.3477

-0.3944

-0.2693

0.3831

-0.2238

0.3475

-0.0292

-0.1045

-0.0172

0.2070

0.1414

-0.0494

-0.0748

-0.0128

>> R11i=inv(sqrtm(R11)) R11i = 1.3660

0.1922

0.4490

0.4905

0.1922

1.0479

0.1499

0.1574 174

0.4490

0.1499

1.2362

0.3562

0.4905

0.1574

0.3562

1.2748

>> R22i=inv(R22) R22i = 3.3498

2.7827

0.4111

0.9062

2.7827

3.3359

0.4147

0.8944

0.4111

0.4147

1.0562

0.1449

0.9062

0.8944

0.1449

1.2653

>> Rx=R11i*R12*R22i*R21*R11i Rx = 0.3511

0.0271

0.2734

-0.0079

0.0271

0.1835

0.0077

0.1113

0.2734

0.0077

0.2407

-0.0290

-0.0079

0.1113

-0.0290

0.1578

>> [e,l]=eig(Rx) e = -0.7718

-0.0395

-0.6198

0.1361

-0.0531

-0.7421

-0.0333

-0.6673

-0.6321

0.0640

0.7700

-0.0593

0.0441

-0.6660

0.1478

0.7298

0.5773

0

0

0

0

0.2841

0

0

0

0

0.0147

0

0

0

0

0.0569

-1.3267

-0.4945

-0.4349

0.3891

-0.2917

-0.8805

-0.0153

-0.5671

-1.1201

-0.2870

0.7213

0.1478

-0.5559

-0.9624

0.1534

0.8710

l =

>> A=R11i*e A =

>> a1=R11i*e(:,1) a1 =

175

-1.3267 -0.2917 -1.1201 -0.5559 >> a2=R11i*e(:,2) a2 = -0.4945 -0.8805 -0.2870 -0.9624 >> a3=R11i*e(:,3) a3 = -0.4349 -0.0153 0.7213 0.1534 >> a4=R11i*e(:,4) a4 = 0.3891 -0.5671 0.1478 0.8710 >> R22i=inv(sqrtm(R22)) R22i = 1.5975

0.8473

0.1152

0.2583

0.8473

1.5939

0.1176

0.2523

0.1152

0.1176

1.0136

0.0411

0.2583

0.2523

0.0411

1.0645

>> R11i=inv(R11) R11i = 2.3451

0.6084

1.3718

1.4856

0.6084

1.1823

0.4846

0.5133

1.3718

0.4846

1.8791

1.1382

176

1.4856

0.5133

1.1382

2.0175

>> Ry=R22i*R21*R11i*R12*R22i Ry = 0.5463

0.0123

0.0356

0.1177

0.0123

0.2731

0.0486

0.0262

0.0356

0.0486

0.0673

0.0242

0.1177

0.0262

0.0242

0.0464

>> [f,l]=eig(Ry) f = 0.9687

0.1071

0.1898

-0.1193

0.0717

-0.9694

0.0353

-0.2322

0.0849

-0.2079

0.2721

0.9357

0.2222

-0.0747

-0.9427

0.2374

0.5773

0

0

0

0

0.2841

0

0

0

0

0.0147

0

0

0

0

0.0569

1.6753

-0.6936

0.1209

-0.2181

1.0010

-1.4977

0.0112

-0.3012

0.2152

-0.3155

0.2631

0.9171

0.5083

-0.3050

-0.9344

0.2018

l =

>> B=R22i*f B =

>> b1=R22i*f(:,1) b1 = 1.6753 1.0010 0.2152 0.5083 >> b2=R22i*f(:,2) b2 = -0.6936

177

-1.4977 -0.3155 -0.3050 >> b3=R22i*f(:,3) b3 = 0.1209 0.0112 0.2631 -0.9344 >> b4=R22i*f(:,4) b4 = -0.2181 -0.3012 0.9171 0.2018 Primeiro par de variáveis canônicas (1)

(1)

(1)

(1)

𝑈1 = 𝑎′1 𝑍 (1) = −1.3267𝑍1 − 0.2917𝑍2 − 1.1201𝑍3 − 0.5559𝑍4 (2)

(2)

(2)

(2)

𝑉1 = 𝑏′1 𝑍 (2) = 1.6753𝑍1 + 1.0010𝑍2 + 0.2152𝑍3 + 0.5083𝑍4 Correlação Canônica √ √ √ 𝐶𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 )2 = 𝜆1 = 0, 5773 = 0.7598 −0, 76 representa a maior correlação possível entre 𝑍 (1) e 𝑍 (2) . Se fizermos >> (a1’*a1)/4 ans = 0.8522 >> (b1’*b1)/4 ans = 1.0283

[(−1.3267)2 + (−0.2917)2 + (−1.1201)2 + (−0.5559)2 ]/4 = 0.8522 [(1.6753)2 + (1.0010)2 + (0.2152)2 + (0.5083)2 ]/4 = 1.0283 As variáveis do grupo 2 representam melhor o total de variáveis.

178

Correlações amostrais entre as variáveis originais e as variáveis canônicas

(1)

𝑋1 - 𝑈1 com 𝑋 (1) =

(1) 𝑋2 (1) 𝑋3 (1) 𝑋4

−0.5661 0.0585 −0.4170 0.3617

>> Rux1=a1’*R11; (2)

−0.6063

(2)

0.3031

𝑋3

(2)

−0.0266

(2) 𝑋4

−0.0823

𝑋1 - 𝑈1 com

𝑋 (2)

=

𝑋2

>> Rux2=a1’*R12; (1)

0.4301

(1)

−0.0444

(1)

0.3168

(1)

−0.2748

(2)

0.7979

(2)

−0.3989

𝑋1 - 𝑉1 com 𝑋 (1) =

𝑋2 𝑋3 𝑋4

>> Rvx1=b1’*R21; 𝑋1 - 𝑉1 com

𝑋 (2)

=

𝑋2

(2) 𝑋3 (2) 𝑋4

0.0349 0.1083

>> Rvx2=b1’*R22; Segundo par de variáveis canônicas (1)

(1)

(1)

(1)

(2)

(2)

(2)

(2)

𝑈2 = 𝑎′2 𝑍 (1) = −0.4945𝑍1 − 0.8805𝑍2 − 0.2870𝑍3 − 0.9624𝑍4 𝑉2 = 𝑏′2 𝑍 (2) = −0.6936𝑍1 − 1.4977𝑍2 − 0.3155𝑍3 − 0.3050𝑍4

Correlação Canônica √ √ √ 𝐶𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = (𝜌∗2 )2 = 𝜆2 = 0, 2841 = 0.5330 O segundo par de variáveis tem uma correlação menor do que o primeiro, e assim segue se calcularmos o terceiro e o quarto par de variáveis. 2. Considere a matriz de covariância

179



⎡ ⎡ ⎢ ⎢ 𝐶𝑜𝑣(𝑋) = ⎢ ⎣

100

0

⎢ ⎢ ⎢ 0 1 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ⎦ ⎢ ⎢ ⎢ Σ21 ∣ Σ22 0 0.95 ⎣ 0 0 ⎤

Σ11



Σ12



0

0



0.95

0

⎥ ⎥ ⎥ ⎥ ⎥ ∣ −−− −−− ⎥ ⎥ ⎥ ⎥ ∣ 1 0 ⎦ ∣ 0 100 (1)

(2)

Verifique que o primeiro par de variáveis canônicas são: 𝑈1 = 𝑋2 , 𝑉1 = 𝑋1 correlação canônica 𝜌∗1 = 0, 95. Grupo 1: >> S11=[100 0;0 1] S11 = 100

0

0

1

>> S12=[0 0;0.95 0] S12 = 0

0

0.9500

0

>> S21=S12’ S21 = 0

0.9500

0

0

>> S22=[1 0;0 100] S22 = 1

0

0

100

>> S11i=inv(sqrtm(S11)); >> S22i=inv(S22); >> S=S11i*S12*S22i*S21*S11i; >> [e,l]=eig(S) e = 1

0

0

1

l = 180

com

0

0

0

0.9025

>> a1=S11i*e(:,2) a1 = 0 1 Grupo 2: >> S22i=inv(sqrtm(S22)); >> S11i=inv(S11); >> S=S22i*S21*S11i*S12*S22i; >> [f,l]=eig(S) f = 0

1

1

0

l = 0

0

0

0.9025

>> b1=S22i*f(:,2) b1 = 1 0 Assim, - 𝑈1 = 𝑎′1 𝑋 (1) =

- 𝑉1 = 𝑏′1 𝑋 (2) =

(

) 0 1

(

) 1 0

⎛ ⎝

⎛ ⎝



(1)

𝑋1

(1) 𝑋2 (2)

𝑋1

(2) 𝑋2

⎠ = 𝑋2(1) ⎞ ⎠ = 𝑋1(2)

- Correlação Canônica 𝑎′1 Σ12 𝑏1 √ = 𝑎′1 Σ11 𝑎1 𝑏′1 Σ22 𝑏1

𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = √

√ (𝜌∗1 )2 = 0, 95

3. Considere os vetores aleatórios (2 × 1): 𝑋 (1) e 𝑋 (2) tendo vetor de médias e matriz covariância conjuntas:

181



⎡ ⎡ ⎢ ⎢ 𝜇=⎢ ⎣

−3

⎢ ⎢ ⎢ 2 ⎥ ⎢ ⎥ ⎢ −−− ⎥=⎢ −−− ⎦ ⎢ ⎢ ⎢ 𝜇(2) 0 ⎣ 1 𝜇(1)



⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤

⎡ 8

2

⎢ ⎢ ⎢ 2 5 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ⎦ ⎢ ⎢ ⎢ 3 −1 Σ21 ∣ Σ22 ⎣ 1 3 ⎤



Σ11

⎢ ⎢ Σ=⎢ ⎣



Σ12

(a) Calcule as correlações canônicas: 𝜌∗1 e 𝜌∗2 . Grupo 1: >> S11=[8 2;2 5] S11 = 8

2

2

5

>> S12=[3 1;-1 3] S12 = 3

1

-1

3

>> S21=S12’ S21 = 3

-1

1

3

>> S22=[6 -2;-2 7] S22 = 6

-2

-2

7

>> S11i=inv(sqrtm(S11)) S11i = 0.3667

-0.0667

-0.0667

0.4667 182



3

1



−1

3

⎥ ⎥ ⎥ ⎥ ⎥ ∣ −−− −−− ⎥ ⎥ ⎥ ∣ 6 −2 ⎥ ⎦ ∣ −2 7

>> S22i=inv(S22) S22i = 0.1842

0.0526

0.0526

0.1579

>> S=S11i*S12*S22i*S21*S11i S = 0.2756

-0.0322

-0.0322

0.2690

>> [e,l]=eig(S) e = 0.7422

0.6702

-0.6702

0.7422

l = 0.3046

0

0

0.2400

0.3168

0.1962

-0.3622

0.3017

A =

Grupo 2: >> S22i=inv(sqrtm(S22)) S22i = 0.4243

0.0645

0.0645

0.3921

>> S11i=inv(S11) S11i = 0.1389

-0.0556

-0.0556

0.2222

>> S=S22i*S21*S11i*S12*S22i S = 0.2946

-0.0234

-0.0234

0.2500

>> [f,l]=eig(S) f =

183

0.9193

0.3936

-0.3936

0.9193

l = 0.3046

0

0

0.2400

>> B=S22i*f B = 0.3647

0.2263

-0.0951

0.3858

Correlação Canônica √ 0, 3046 = 0, 5519 √ 1 (𝜌∗2 ) 2 = 0, 24 = 0, 4899 1

𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 ) 2 = 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) =

0,5519 Representa a maior correlação possível entre 𝑋 (1) e 𝑋 (2) . (b) Determine os pares de variáveis canônicas: (𝑈1 , 𝑉1 ) e (𝑈2 , 𝑉2 ). (1)

(1)

𝑉1 = 0, 3647𝑋1 − 0, 0951𝑋2

(1)

(1)

𝑉2 = 0, 2263𝑋1 + 0, 3858𝑋2

𝑈1 = 0, 3168𝑋1 − 0, 3622𝑋2 𝑈2 = 0, 1962𝑋1 + 0, 3017𝑋2

(2)

(2)

(2)

(2)

4. Em um estudo sobre pobreza, crime e repressão. Parker e Smith determinaram certos sumários estatísticos do crime em vários estados americanos para os anos de 1970 e 1973. Uma parte da matriz de correlação amostral é dada abaixo. As variáveis são: (1)

= homicídios não-primários em 1973;

(1)

= homicídios primários (envolvendo familiares ou conhecidos) em 1973;

(2)

= severidade da penalidade (mediana dos meses de pena) em 1970;

𝑋1 𝑋2 𝑋1

(2)

𝑋2 = certeza da penalidade (número de admissões à prisão dividido pelo número de homicídios) em 1970. ⎤

⎡ ⎡ ⎢ ⎢ 𝑅=⎢ ⎣

1.0

0.615

∣ −0.111 −0.266

⎥ ⎢ ⎥ ⎢ ⎢ 0.615 1.0 ∣ −0.195 −0.085 ⎥ ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ∣ −−− −−− ⎥ ⎥ ⎢ ⎦ ⎥ ⎢ ⎢ −0.111 −0.195 ∣ 1.0 −0.269 ⎥ 𝑅21 ∣ 𝑅22 ⎦ ⎣ −0.266 −0.085 ∣ −0.269 1.0 ⎤

𝑅11



𝑅12

(a) Calcule as correlações canônicas amostrais. 184

Primeiro Grupo >> R11=[1 0.615; 0.615 1]; >> R12=[-0.111 -0.266;-0.195 -0.085]; >> R22=[1 -0.269;-0.269 1]; >> R21=R12’; >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.9463

-0.3232

0.3232

0.9463

0.1067

0

0

0.0293

l =

>> a1=R11i*e(:,1) a1 = 1.0016 -0.0026 >> A=R11i*e A = 1.0016

-0.7779

-0.0026

1.2682

Segundo Grupo >> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.8861

0.4634

0.4634

0.8861

l =

185

0.0293

0

0

0.1067

>> b1=R22i*f(:,2) b1 = 0.6016 0.9769 >> B=R22i*f B = -0.8462

0.6016

0.3518

0.9769 (1)

(1)

(2)

(2)

𝑈1 = 1.0016𝑍1 − 0.0026𝑍2 𝑉1 = 0.6016𝑍1 + 0.9769𝑍2 (1)

(1)

(2)

(2)

𝑈2 = −0.7779𝑍1 + 1.2682𝑍2 𝑉2 = −0.8462𝑍1 + 0.3518𝑍2 variáveis padronizadas (1)

(1)

𝑧1

variáveis padronizadas (2)

𝜌∗𝑖

𝑧2

𝑧1

(2)

𝑧2

a1

1.0016

-0.7779

0.3266

b1

-0.8462

0.6016

a2

-0.0026

1.2682

0.1712

b2

0.3518

0.9769

ˆ1 , 𝑉ˆ1 e interprete essas (b) Determine o primeiro par de correlação canônica amostral 𝑈 quantidades. (1)

(1)

(2)

(2)

𝑈1 = 1.0016𝑋1 − 0.0026𝑋2 𝑉1 = 0.6016𝑋1 + 0.9769𝑋2

>> Rux1=a1’*R11 Rux1 = 1.0000

0.6134

>> Rvx2=b1’*R22 Rvx2 = 0.3388

0.8150

>> Rux2=a1’*R12 Rux2 = -0.1107

-0.2662

>> Rvx1=b1’*R21 186

Rvx1 = -0.3266

-0.2003

𝑋 (1)

𝑋 (2)

variáveis canônicas 𝑈1

𝑉1

hom. não-primários

1.0000

-0.1107

hom. primários

0.6134

-0.2662

variáveis canônicas 𝑈1

𝑉1

sever. pen.

-0.3266

0.3388

cert. da pen.

-0.2003

0.8150

O valor da correlação entre 𝑈1 e 𝑉1 é baixo, pode-se inferir com isso que não é possível, através de uma combinação linear de 𝑋 (1) com outra combinação linear de 𝑋 (2) , identificar uma relação ou influência ou associação entre estes conjuntos de variáveis. Pode-se dizer que a certeza de penalidade faz com que o número de homicídios primários seja menor do que o número de homicídios não primários. Este, por sua vez, aumenta quando a severidade da pena cai. 5. Uma pesquisa envolvendo uma amostra de 𝑛 = 70 famílias foi utilizada para determinar a associação entre certas variáveis “demográficas” e certas variáveis “consumo”. Sejam: (1)

- Conjunto padrão: 𝑋1

(1)

= freqüência anual de refeições em restaurantes; 𝑋2

= fre-

qüência anual de ida ao cinema. (2)

- Conjunto preditor: 𝑋1 (2)

𝑋3

(2)

= idade do cabeça da família; 𝑋2

= renda anual da família;

= nível educacional do cabeça da família.

Suponha que a amostra forneceu para as variáveis consideradas a seguinte matriz de correlação amostral: ⎡ ⎡ ⎢ ⎢ 𝑅=⎢ ⎣

⎢ ⎢ ⎢ ⎢ 𝑅11 ∣ 𝑅12 ⎥ ⎢ ⎥ ⎢ −−− ∣ −−− ⎥=⎢ ⎦ ⎢ ⎢ ⎢ 𝑅21 ∣ 𝑅22 ⎢ ⎢ ⎣ ⎤

⎤ 1.0 0.80

∣ 1.0



−−− −−− ∣ 0.26

0.33



0.67

0.59



0.34

0.34



(a) Determine as correlações canônicas amostrais. >> R11=[1 0.8;0.8 1]; >> R21=[0.26 0.33;0.67 0.59;0.34 0.34]; >> R12=R21’; 187

⎥ ⎥ ⎥ ⎥ ⎥ −−− −−− −−− ⎥ ⎥ ⎥ ⎥ 1.0 ⎥ ⎥ ⎥ 0.37 1.0 ⎦ 0.21 0.35 1.0

>> R22=[1 0.37 0.21;0.37 1 0.35; 0.21 0.35 1]; >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.5872

-0.8094

-0.8094

-0.5872

l = 0.0349

0

0

0.4733

>> a1=R11i*e(:,2) a1 = -0.7689 -0.2721 >> A=R11i*e A = 1.4787

-0.7689

-1.6443

-0.2721

>> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.2288

-0.9001

-0.3708

-0.9105

0.3326

-0.2456

-0.3444

-0.2814

0.8956

0.4733

0

0

0

0.0349

0

0

0

-0.0000

l =

>> B=R22i*f B =

188

-0.0491

-1.0003

-0.4070

-0.8975

0.5837

-0.3561

-0.1900

-0.2956

1.0129

>> b1=R22i*f(:,1) b1 = -0.0491 -0.8975 -0.1900 >> C1=sqrt(0.4733) C1 = 0.6880 >> C2=sqrt(0.0349) C2 = 0.1868 Logo, as correlações canônicas são: - 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0, 688 - 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0, 1868 (b) Calcule as variáveis canônicas e procure interpretá-las. (1)

(1)

- 𝑈1 = −0.8094𝑍1 − 0.5872𝑍2 (1)

(1)

- 𝑈2 = 0.5872𝑍1 − 0.8094𝑍2

(2)

(2)

(1)

−0.9866

(1)

−0.8872

(2)

−0.2897

- 𝑈1 com 𝑋 (2) = 𝑋2(2)

−0.6757

(2)

−0.3539

𝑋1

(1)

−0.6787

(1) 𝑋2

−0.6104

𝑋1

𝑋2 >> Rux1=a1’*R11; 𝑋1

𝑋3 >> Rux2=a1’*R12; - 𝑉1 com

𝑋 (1)

=

>> Rvx1=b1’*R21; (2)

−0.4211

- 𝑉1 com 𝑋 (2) = 𝑋2(2)

−0.9822

(2)

−0.5145

𝑋1

𝑋3

(2)

(2)

(2)

e 𝑉2 = −0.9001𝑍1 + 0.3326𝑍2 − 0.2814𝑍3

Correlações entre as variáveis canônicas e as variáveis amostrais - 𝑈1 com 𝑋 (1) =

(2)

e 𝑉1 = −0.2288𝑍1 − 0.9105𝑍2 − 0.3444𝑍3

189

>> Rvx2=b1’*R22; O grupo 1 tem uma boa correlação com o grupo 2 de quase 70%. O grupo 2 recebe (1)

influência das variáveis do grupo 1 (𝑋1

(2)

e 𝑋1 ), ou seja, idade, renda familiar e nível

educacional demonstram quem são os frequentadores de cinemas e restaurantes, en(2)

quanto no grupo 1, recebe uma influência grande da variável 𝑋2 , ou seja, a frequência em restaurantes e idas ao cinema crescem quando cresce a renda familiar. 6. Uma amostra das medidas do comprimento e da largura da cabeça dos dois primeiros filhos adultos de uma amostra de 25 famílias são fornecidos abaixo (Data from Frets, 1921): Identificação

Primeiro Filho (1)

(1)

Segundo Filho (2)

(2)

𝑋1

𝑋2

𝑋1

𝑋2

1

191

155

179

145

2

195

149

201

152

3

181

148

185

149

4

183

153

188

149

5

176

144

171

142

6

208

157

192

152

7

189

150

190

149

8

197

159

189

152

9

188

152

197

159

10

192

150

187

151

11

179

158

186

148

12

183

147

174

147

13

174

150

185

152

14

190

159

195

157

15

188

151

187

158

16

163

137

161

130

17

195

155

183

158

18

186

153

173

148

19

181

145

182

146

20

175

140

165

137

21

192

154

185

152

22

174

143

178

147

190

23

176

139

176

143

24

197

167

200

158

25

190

163

187

150

Onde: (1)

= comprimento da cabeça (primeiro filho)

(1)

= largura da cabeça (primeiro filho)

𝑋1 𝑋2

(2)

𝑋1 = comprimento da cabeça (segundo filho) (2)

𝑋2 = largura da cabeça (segundo filho) (a) Determinar a matriz de correlação amostral. >> X=[]; >> Y=[]; >> R11=corr(X) R11 = 1.0000

0.7346

0.7346

1.0000

>> R22=corr(Y) R22 = 1.0000

0.8393

0.8393

1.0000

>> R12=corr(X,Y) R12 = 0.7108

0.7040

0.6932

0.7086

>> R21=corr(Y,X) R21 = 0.7108

0.6932

0.7040

0.7086

191



.. 1.0000 0.7346 . ⎜ ⎜ ⎜ 0.7346 1.0000 ... ⎜ ⎜ 𝑅=⎜ ... ... ⎜ ... ⎜ . ⎜ ⎜ 0.7108 0.6932 .. ⎝ . 0.7040 0.7086 .. (b) Calcule as correlações canônicas amostrais. >> R11i=inv(sqrtm(R11)); >> R22i=inv(R22); >> Rx=R11i*R12*R22i*R21*R11i; >> [e,l]=eig(Rx) e = 0.7150

-0.6992

0.6992

0.7150

0.6217

0

0

0.0029

l =

>> a1=R11i*e(:,1) a1 = 0.5522 0.5215 >> A=R11i*e A = 0.5522

-1.3664

0.5215

1.3784

>> R22i=inv(sqrtm(R22)); >> R11i=inv(R11); >> Ry=R22i*R21*R11i*R12*R22i; >> [f,l]=eig(Ry) f = -0.7139

-0.7003

0.7003

-0.7139

l = 192

⎞ 0.7108 0.7040 ⎟ ⎟ 0.6932 0.7086 ⎟ ⎟ ⎟ ... ... ⎟ ⎟ ⎟ ⎟ 1.0000 0.8393 ⎟ ⎠ 0.8393 1.0000

0.0029

0

0

0.6217

>> b1=R22i*f(:,2) b1 = -0.5044 -0.5383 >> B=R22i*f B = -1.7686

-0.5044

1.7586

-0.5383

Assim, tem-se que - 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0.7885 - 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0.0539 (c) Calcule as variáveis canônicas amostrais e procure interpretá-las. (1)

(1)

- 𝑈1 = 0.5522𝑍1 + 0.5215𝑍2 (1)

(2)

(1)

- 𝑈2 = −1.3664𝑍1 + 1.3784𝑍2

(2)

Rux1 = 0.9272

>> Rvx2=b1’*R22 Rvx2 = -0.9562

-0.9616

>> Rux2=a1’*R12 Rux2 = 0.7540

0.7583

>> Rvx1=b1’*R21 Rvx1 = -0.7375

-0.7311

Correlações entre as variáveis canônicas e as variáveis originais - 𝑈1 com

𝑋 (1)

=

(1)

0.9353

(1)

0.9272

𝑋1 𝑋2

(2)

e 𝑉2 = −1.7686𝑍1 + 1.7586𝑍2

>> Rux1=a1’*R11

0.9353

(2)

e 𝑉1 = −0.5044𝑍1 − 0.5383𝑍2

193

- 𝑈1 com

𝑋 (2)

- 𝑉1 com

𝑋 (1)

- 𝑉1 com

𝑋 (2)

=

(2)

0.7540

(2)

0.7583

𝑋1

(1)

−0.7375

(1) 𝑋2

−0.7311

𝑋1

(2)

−0.9562

(2) 𝑋2

−0.9616

𝑋1 𝑋2

=

=

O primeiro par de variáveis canônicas tem uma alta correlação de quase 79%. As variáveis do grupo 1 tem uma excelente correlação com 𝑈1 e o mesmo ocorre com as variáveis do grupo 2 (correlação alta com 𝑉1 ). As cabeças dos irmãos mais velhos com seus respectivos irmãos mais novos são bem correlacionadas, o que indica a cabeça de irmãos serão sempre parecidas em relação ao comprimento e largura.

194

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF