Correlação Regreção vs Correlação

June 5, 2019 | Author: Luiz Fernando Sena | Category: Correlation And Dependence, Variance, Statistical Analysis, Física e matemática, Mathematics
Share Embed Donate


Short Description

Análise estatística...

Description

Regressão e Correlação linear

1. Introdução: regressão versus correlação

Em experimentos que procuram determinar a relação existente entre duas variáveis, por exemplo, a dose de uma droga e a reação, concentração e densidade ótica, peso e altura, idade da vaca e a produção de leite, etc., dois tipos de situações podem ocorrer: (a) uma variável (X) pode ser medida acuradamente e seu valor escolido  pelo experimentador. experimentador. !or exemplo, a dose de uma droga a ser ministrada no animal. animal. Esta variável " a variável independente. # outra variável ($), dita variável variável dependente dependente ou resposta resposta, está su%eita a erro experimental, e seu valor depende do valor escolido para a variável independente. #ssim, a resposta (reação, $) " uma variável dependente da variável independente dose (X). Este " o caso da Regressão. (&) as duas variáveis quando medidas estão su%eitas a erros experimentais, isto ", erros erros de nature'a nature'a aleatória inerentes inerentes ao experimento. !or exemplo,  produção de leite e produção de gordura medidas em vacas em lactação,  peso do pai e peso do ilo, comprimento e a largura do crnio de animais, etc. Este tipo de associação entre duas variáveis constitui o pro&lema da Correlação. #tualmente, se dá * t"cnica de correlação uma importncia menor do que a da regressão. +e duas variáveis estão correlacionadas, " muito mais til estudar as posições de uma ou de am&as por meio de curvas de regressão, as quais permitem, por exemplo, a predição de uma variável em unção de outra, do que estudá-las por meio de um simples coeiciente de correlação. 2. Regressão linear simples

 termo regressão " usado para designar a expressão de uma variável dependente ($) em unção de outra outra (X), considerada independente. /i'-se regressão de $ em (so&re) X. +e a relação uncional entre elas " expressa  por uma equação do 01 grau, cu%a representação geom"trica " uma lina reta, a regressão " dita linear. linear.

!ara introdu'ir a id"ia de regressão linear simples, consideremos o seguinte exemplo: 2a&ela 0. 2empo, em minutos, e quantidade de procaina0  idroli'ada, em 03-4 moles5litro, no plasma canino. $7

6uantidade 2empo (X) idroli'ada ($) 7 8,4 8 4,9 4 ;,; < 0=,8 03 0;,8 07 74,9 0 7(  x ,  ) G o que eqPivale di'er que as m"dias das distri&uições de ?5x estão so&re a verdadeira reta   x  ou se%a, E(?i) Q E() R E(xi) R E(i) Q  R xi, onde E(i) Q 3, e que  para um dado valor de x, a varincia do erro " sempre 7, denominada varincia residual, isto ", ED?i   E(?i5xi)F7 Q E(i)7 Q 7  (propriedade omocedástica). Estes conceitos estão ilustrados na @igura 7. S parte do ato que 7 " desconecido, a reta na qual as m"dias estão locali'adas " tam&"m desconecida. #ssim, um o&%etivo importante da análise estatTstica " estimar os parmetros K e L para que se coneça totalmente a unção de regressão Ey!x". # teoria mostra que a melor maneira de estimá-los " por  meio do m%todo dos &uadrados m'nimos, que consiste em minimi'ar a soma dos quadrados das distncias y y( , onde y( a )x representa a equação de regressão estimada, tal que a (  e ) (  são os estimadores de K e L, respectivamente. +endo, então, ? i  ?U i  a dierença entre o valor o&servado e o estimado pela equação de regressão para cada o&servação, a qual " rotulada por ei,  procura-se estimar  e , de modo que  e i7   ( ? i  ?U i ) 7   se%a o menor   possTvel. #s dierenças ei Q ? i  ?U i  são camadas Vdesvios da regressãoW ou Verros de estimativasW. +e todos os desvios (e i) são iguais a 'ero, implica que cada ponto (xi, ?i) se encontra diretamente so&re a lina a%ustadaG os  pontos estão tão próximos quanto possTveis da lina. H s

i

7

i

i

i

i

i

Estimadores. /ado um con%unto de n pares de o&servações (x0, ?0),

(x 7, ?7), ... , (x n, ?n), pode-se mostrar, usando m"todos de cálculo ininitesimal não utili'ado aqui, que os estimadores de quadrados mTnimos são: )

x i

(

x " y i x i

x"

y"

a

(

y

)x

2

/ividindo-se o numerador e o denominador de & por (n − 0), vB-se que )

+

Cov  - , " s 2

x i

x " y i

y "* ! n

x" 2 * ! n

+ x i

1

1

" denominado coeiciente de regressão de $ em XG sim&oli'a-se por &$.X @órmulas de cálculo:

 &

 (x i  (x i

 x )( ? i  ?)   x i ? i 

7

 x)  

7 xi



( x i )

(  x i )( ? i ) n

7

n

 >ote-se que, al"m da suposição da normalidade do ?, outras ipóteses usadas pelo m"todo de mTnimos quadrados são: (a) para qualquer valor especTico de x, , o desvio padrão dos resultados ?, não se modiica. Esta ipótese de varia&ilidade constante em todos os valores de x " conecida como homoscedasticidade, e ? 5 x

(&) a relação (verdadeira) entre ? e x " suposta linearG mais claramente, E(?5x) Q K R Lx. e%amos agora o cálculo da equação de regressão usando como exemplo os dados apresentados na 2a&ela 0:  x ?

 x?   & $.X 

 x7 a  ?   & x 



n  ( x ) 7

0:0,7 <

04as @iguras (a) e (e) á correlação pereita: o valor de $ " determinado exatamente por uma reta linear em X, ou se%a, os  pontos estão dispostos de orma tal, que as retas de regressão de $ so&re X e de X so&re $ coincidem. Em (c), caso em que r Q 3, o qual " interpretado como ausBncia de relação linear, os dois coeicientes de regressão &$.X ($ em X) e & X.$ (X em $) são tam&"m 'ero e, portanto, as retas de regressão são perpendiculares. A importante assinalar que r Q 3 não implica em ausBncia de relação entre duas variáveis. $Nsto " mostrado na @igura 9, onde apesar de r Q 3, " evidente que existe uma relação para&ólica entre X e $. !ortanto, r Q 3 somente implica ausBncia de relação linear entre as duas variáveis.

X

@igura 9. Zelação para&ólica entre X e $, onde: r Q 3. (7) r2 " igual ao coe#iciente de determinação da regressão linear simples ( ?U i  a  &x i ). >ote que 3  r 7  0.  coeiciente de determinação pode ser interpretado como a proporção da varia&ilidade total o&servada entre os valores de $, explicada pela regressão linear de $ so&re X ou se%a, 7

7

r  

7

s$  s$ 5 X 7

s$ n

onde:

 ( ? i  ?U i )

7 s $ 5 X  i 0

7

" a variação dos valores de $ que ainda

n7

 permanece, depois de se levar em conta a relação linear entre $ e X (devido ao ato que nem todos os pontos estão so&re a reta de regressão), que "  parte não explicada pela regressãoG e (s 7$   s 7$ 5 X )   " a variação em $ explicada pela regressão. >ote que s7$ 5 X   envolve a soma dos desvios elevados ao quadrado das o&servações reais (?i) dos valores a%ustados ( U i ), ?

n

isto ",  e i7 , a qual " a quantidade minimi'ada ao se a%ustar a lina de i 0

mTnimos quadrados (ve%a @igura
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF