Correlação Regreção vs Correlação
Short Description
Análise estatística...
Description
Regressão e Correlação linear
1. Introdução: regressão versus correlação
Em experimentos que procuram determinar a relação existente entre duas variáveis, por exemplo, a dose de uma droga e a reação, concentração e densidade ótica, peso e altura, idade da vaca e a produção de leite, etc., dois tipos de situações podem ocorrer: (a) uma variável (X) pode ser medida acuradamente e seu valor escolido pelo experimentador. experimentador. !or exemplo, a dose de uma droga a ser ministrada no animal. animal. Esta variável " a variável independente. # outra variável ($), dita variável variável dependente dependente ou resposta resposta, está su%eita a erro experimental, e seu valor depende do valor escolido para a variável independente. #ssim, a resposta (reação, $) " uma variável dependente da variável independente dose (X). Este " o caso da Regressão. (&) as duas variáveis quando medidas estão su%eitas a erros experimentais, isto ", erros erros de nature'a nature'a aleatória inerentes inerentes ao experimento. !or exemplo, produção de leite e produção de gordura medidas em vacas em lactação, peso do pai e peso do ilo, comprimento e a largura do crnio de animais, etc. Este tipo de associação entre duas variáveis constitui o pro&lema da Correlação. #tualmente, se dá * t"cnica de correlação uma importncia menor do que a da regressão. +e duas variáveis estão correlacionadas, " muito mais til estudar as posições de uma ou de am&as por meio de curvas de regressão, as quais permitem, por exemplo, a predição de uma variável em unção de outra, do que estudá-las por meio de um simples coeiciente de correlação. 2. Regressão linear simples
termo regressão " usado para designar a expressão de uma variável dependente ($) em unção de outra outra (X), considerada independente. /i'-se regressão de $ em (so&re) X. +e a relação uncional entre elas " expressa por uma equação do 01 grau, cu%a representação geom"trica " uma lina reta, a regressão " dita linear. linear.
!ara introdu'ir a id"ia de regressão linear simples, consideremos o seguinte exemplo: 2a&ela 0. 2empo, em minutos, e quantidade de procaina0 idroli'ada, em 03-4 moles5litro, no plasma canino. $7
6uantidade 2empo (X) idroli'ada ($) 7 8,4 8 4,9 4 ;,; < 0=,8 03 0;,8 07 74,9 0 7( x , ) G o que eqPivale di'er que as m"dias das distri&uições de ?5x estão so&re a verdadeira reta x ou se%a, E(?i) Q E() R E(xi) R E(i) Q R xi, onde E(i) Q 3, e que para um dado valor de x, a varincia do erro " sempre 7, denominada varincia residual, isto ", ED?i E(?i5xi)F7 Q E(i)7 Q 7 (propriedade omocedástica). Estes conceitos estão ilustrados na @igura 7. S parte do ato que 7 " desconecido, a reta na qual as m"dias estão locali'adas " tam&"m desconecida. #ssim, um o&%etivo importante da análise estatTstica " estimar os parmetros K e L para que se coneça totalmente a unção de regressão Ey!x". # teoria mostra que a melor maneira de estimá-los " por meio do m%todo dos &uadrados m'nimos, que consiste em minimi'ar a soma dos quadrados das distncias y y( , onde y( a )x representa a equação de regressão estimada, tal que a ( e ) ( são os estimadores de K e L, respectivamente. +endo, então, ? i ?U i a dierença entre o valor o&servado e o estimado pela equação de regressão para cada o&servação, a qual " rotulada por ei, procura-se estimar e , de modo que e i7 ( ? i ?U i ) 7 se%a o menor possTvel. #s dierenças ei Q ? i ?U i são camadas Vdesvios da regressãoW ou Verros de estimativasW. +e todos os desvios (e i) são iguais a 'ero, implica que cada ponto (xi, ?i) se encontra diretamente so&re a lina a%ustadaG os pontos estão tão próximos quanto possTveis da lina. H s
i
7
i
i
i
i
i
Estimadores. /ado um con%unto de n pares de o&servações (x0, ?0),
(x 7, ?7), ... , (x n, ?n), pode-se mostrar, usando m"todos de cálculo ininitesimal não utili'ado aqui, que os estimadores de quadrados mTnimos são: )
x i
(
x " y i x i
x"
y"
a
(
y
)x
2
/ividindo-se o numerador e o denominador de & por (n − 0), vB-se que )
+
Cov - , " s 2
x i
x " y i
y "* ! n
x" 2 * ! n
+ x i
1
1
" denominado coeiciente de regressão de $ em XG sim&oli'a-se por &$.X @órmulas de cálculo:
&
(x i (x i
x )( ? i ?) x i ? i
7
x)
7 xi
( x i )
( x i )( ? i ) n
7
n
>ote-se que, al"m da suposição da normalidade do ?, outras ipóteses usadas pelo m"todo de mTnimos quadrados são: (a) para qualquer valor especTico de x, , o desvio padrão dos resultados ?, não se modiica. Esta ipótese de varia&ilidade constante em todos os valores de x " conecida como homoscedasticidade, e ? 5 x
(&) a relação (verdadeira) entre ? e x " suposta linearG mais claramente, E(?5x) Q K R Lx. e%amos agora o cálculo da equação de regressão usando como exemplo os dados apresentados na 2a&ela 0: x ?
x? & $.X
x7 a ? & x
n ( x ) 7
0:0,7 <
04as @iguras (a) e (e) á correlação pereita: o valor de $ " determinado exatamente por uma reta linear em X, ou se%a, os pontos estão dispostos de orma tal, que as retas de regressão de $ so&re X e de X so&re $ coincidem. Em (c), caso em que r Q 3, o qual " interpretado como ausBncia de relação linear, os dois coeicientes de regressão &$.X ($ em X) e & X.$ (X em $) são tam&"m 'ero e, portanto, as retas de regressão são perpendiculares. A importante assinalar que r Q 3 não implica em ausBncia de relação entre duas variáveis. $Nsto " mostrado na @igura 9, onde apesar de r Q 3, " evidente que existe uma relação para&ólica entre X e $. !ortanto, r Q 3 somente implica ausBncia de relação linear entre as duas variáveis.
X
@igura 9. Zelação para&ólica entre X e $, onde: r Q 3. (7) r2 " igual ao coe#iciente de determinação da regressão linear simples ( ?U i a &x i ). >ote que 3 r 7 0. coeiciente de determinação pode ser interpretado como a proporção da varia&ilidade total o&servada entre os valores de $, explicada pela regressão linear de $ so&re X ou se%a, 7
7
r
7
s$ s$ 5 X 7
s$ n
onde:
( ? i ?U i )
7 s $ 5 X i 0
7
" a variação dos valores de $ que ainda
n7
permanece, depois de se levar em conta a relação linear entre $ e X (devido ao ato que nem todos os pontos estão so&re a reta de regressão), que " parte não explicada pela regressãoG e (s 7$ s 7$ 5 X ) " a variação em $ explicada pela regressão. >ote que s7$ 5 X envolve a soma dos desvios elevados ao quadrado das o&servações reais (?i) dos valores a%ustados ( U i ), ?
n
isto ", e i7 , a qual " a quantidade minimi'ada ao se a%ustar a lina de i 0
mTnimos quadrados (ve%a @igura
View more...
Comments