Apostila Econometria 2013
Short Description
econometria...
Description
(3) Residuos (ri) calculados com base na função de regressão já obtida. r1= y i - y ˆi (diferença entre os dados conhecidos e os dados ajustados pela função ˆ = 40,3+ 2,64xi y (4) ordenação dos resíduos de forma crescente (r2) (5) enumeração dos resíduos já ordenados na posição em que se encontrava primitivamente (P i). Exemplo: o valor -5,6 estava posicionado posicionado em 2000, ou seja, na posição 7 ; -4,1 na posição posição 4 e assim sucessivamente. sucessivamente. (6) refere-se ao número de elementos da série com valores superiores a cada P i. Por exemplo: valores superiores a P 1=7 encontramos : (11,10,8 e 9), 9 ), ou seja, 4 elementos. Etc.... (P i) Na sequencia , calculamos o valor de S pela expressão: n(n − 1) S = 2⋅ ∑ω i − 2
S = 2⋅ 25−
11(11− 1) 2
S = 50− 55 = −5
Para amostras superiores superiores a 10 (n>10), partimos da hipótese hipótese de que a distribuição dos resíduos (S) é assintóticamente normal com média zero: E(S) = 0 e desvio padrão n(n − 1) ⋅ (2n + 5) n(n − 1) ⋅ (2n + 5) ou variância σ 2(s) = 18 18 Nesses casos recomenda-se ainda aplicar a correção de continuidade, adicionando-se uma unidade ao resultado de S , quando esta for negativa e subtraindo-se 1 quando for positiva. No exemplo : S = - 5 + 1= - 4 . σ (s) =
A seguir calculamos o desvio padrão pela expressão acima citada σ (S) =
n⋅ (n − 1) ⋅ (2n + 5)) 18
σ (S) =
11⋅ (11− 1) ⋅ (2⋅11+ 5) = 12,84 18
Conhecido o valor de σ (S), o próximo passo é determinar o valor de t calculado (t c)pela expressão: tc =
S −5 = = −0,39 σ (S) 12,84
Este valor é comparado com o valor tabelado de t com nivel de confiança desejado. No presente estudo foi adotado 95% (1,96). Vale lembrar que a estatistica t pode ser aproximada a distribuição 102
normal quando o tamanho da amostra n for relativamente grande. Assim, se o valor de t c estiver compreendido no intervalo ±1,96, aceitamos a hipótese H 0 de que a série é estacionária. -1,96 ≤ t c ≤ 1,96 (série é estacionária) No exemplo em estudo, nota-se que t c = - 0,39, portanto menor do que 1,96 estando compreendido no intervalo citado, o que sugere que a série é estacionária. A formulação das hipóteses no teste de Mann é: H0: a série de resíduos é estacionária H1: a série de resíduos apresenta tendência tendência Pelo resultado acima obtido, concluímos pela aceitação da hipótese nula ,.H 0 Para amostras inferiores ou iguais a 10 (4 ≤ n ≤ 1 0), pode-se recorrer a tabela de Kendall. Devido a exiguidade da carga horária, exercícios contendo aplicações dessa tabela não serão aqui abordados. Conforme comentado inicialmente, este tópico mostra de forma apenas superficial o problema envolvendo séries temporais. A matéria sobre este assunto é muito mais abrangente, razão pela qual, deixaremos de abordar uma série de tópicos inerentes a análise das séries temporais, tais como: Modelos Autorregressivos (AR), Modelos de Média Móvel (MA); Modelo Autorregressivo e Média Móvel (ARMA), que é a combinação de Média Móvel e Autorregressivo, Processo de Periodicidades Ocultas, etc.
103
104
105
106
−
dificuldades na classificação de variáveis em endógenas e exógenas o que tornaria tendencioso o efeito das mesmas;
−
dificuldade de incorporar nos modelos os fatores de natureza qualitativa e subjetiva como opiniões; expectativas; intenções; etc.
−
problemas de especificação da teoria e dos erros, etc.
Os problemas citados já vêm sendo analisados há algum tempo por econometristas, entretanto alguns pontos não foram totalmente solucionados como o problema da multicolinearidade (intercorrelação entre variáveis explicativas) e mensuração de variáveis subjetivas. Para o aprendizado suave da matéria pressupõe-se que o alunado tenha algum conhecimento de estatística básica e de inferência estatística. Apresentamos abaixo, os assuntos abordados nesta apostila, acompanhados de exercícios ao fim de cada capitulo, procurando, na medida do possível, alinhar-se com o programa de econometria instituído pela Faculdade. −
Conceito de econometria e o seu objetivo;
−
Conceito de modelo (classificação, estrutura, pressupostos básicos, etc.);
−
Análise da regressão linear simples de duas variáveis (estimação e interpretação dos parâmetros; o método dos mínimos quadrados ordinários; conceito de regressão; previsão de valores; erro padrão da estimativa; erro máximo de estimação; intervalo de predição; erro padrão dos estimadores; qualidade do ajuste e sua interpretação; teste de hipóteses aplicados à regressão pela distribuição “ t ” de Student e pela distribuição “ F ” de Fisher/Snedecor com a elaboração do quadro ANOVA (Analysis of Variance);
−
Análise da regressão linear múltipla, onde serão abordados todos os itens já comentados na análise de regressão simples;
−
Covariância e correlação (determinação, interpretação e verificação da sua existência);
−
Violação dos pressupostos básicos (heteroscedasticidade e homoscedasticidade; natureza, consequência e detecção da heteroscedasticidade); autocorrelação serial (causas, consequências e diagnóstico da autocorrelação);
−
Utilização de variáveis especiais como extensão dos modelos de regressão (variáveis dummy, binária, artificial ou dicotômica); utilização da variável tempo como variável explicativa numa série temporal de informações numéricas;
−
Modelos não lineares;
−
Análise de séries temporais. 2
107
108
xi = variável independente e = termo aleatório
β 2 = parâmetro angular
O que são regressores?
O conjunto de variáveis exógenas ou explicativas mais o termo constante ou linear ou intercepto são denominados de regressores. Assim, na equação acima, os regressores seriam: β 1 e
β 2 .xi
Cabe lembrar que o comportamento da economia resulta da interdependência de diversos fatores e ao explicá-lo os economistas evitam a complexidade do mundo real através da construção de modelos que apesar de retratarem de forma aproximada a realidade, destacando apenas os elementos ou variáveis consideradas relevantes, permitem alcançar a essência do fenômeno em questão. Apesar do avançado estágio em que se encontra a teoria econômica, ocorrem situações onde a formulação das hipóteses do modelo e a identificação dos elementos relevantes é um tanto arbitrária, não havendo garantias de que elas sejam realistas, portanto, é preciso verificar se o modelo proposto é capaz de explicar o fenômeno a que se propõe. Através do confronto do modelo com as observações do mundo real é que se pode concluir ou não a validade do modelo. Um poderoso instrumento neste sentido são os modelos econométricos analisados pela econometria, uma técnica que agrega a estatística, a matemática e a teoria econômica. Conforme indicado na figura 1 a seguir, um modelo econométrico resulta de um processo que se inicia com uma análise econômica que envolve a consulta da teoria econômica e percepção da realidade para auxiliar na identificação das variáveis dependentes e independentes a serem incluídas no modelo, bem como na especificação da forma funcional que relaciona estas variáveis. Uma característica dos modelos econométricos é a consideração de um termo estocástico, com uma distribuição de probabilidade hipotética, para representar a incerteza inerente ao comportamento da economia e também outras variáveis, omitidas na formulação do modelo, mas que explicam a realidade. Uma vez especificado o modelo econométrico e estabelecidas às hipóteses pertinentes, são coletadas observações das variáveis dependentes e independentes, para em seguida, através da aplicação da inferência estatística, estimar e testar a validade do modelo econométrico. A validade de um modelo econométrico não será apenas julgada por técnicas de inferência estatística, mas também pela coerência com a teoria econômica. Caso o modelo especificado não seja o aceito deve ser corrigido, seja retirando ou incluindo variáveis independentes ou ainda modificando a forma funcional que relaciona as variáveis. Quanto à aplicação, os modelos econométricos podem ser utilizados na obtenção de evidências empíricas que modifiquem, refinem ou refutem as conclusões contidas na teoria econômica ou novas proposições teóricas e também na avaliação de políticas econômicas, sendo uma ferramenta muito útil para fazer previsões de alguma variável econômica ou ainda estimar 5
parâmetros como elasticidades, multiplicadores, coeficientes técnicos e custos marginais, portanto trata-se de uma valiosa ferramenta em um processo de tomada de decisão.
Figura 1 – sugestão de roteiro para construção de modelos econométricos
Capítulo 3: ANÁLISE DE REGRESSÃO LINEAR SIMPLES DE DUAS VARIÁVEIS O gerente de vendas de uma empresa varejista do ramo de calçados está interessado em obter uma equação que sintetize a relação existente entre o investimento em propaganda e o volume de vendas da empresa, com a finalidade de realizar projeções do volume de vendas.
6
Tabela 3.1 Dados de investimento em propaganda e vendas em milhares de reais da empreza Z. Investimento em Propaganda milhares de Reais (x) 30 20 35 40 38 18 10 15 35 24
Venda em milhares de Reais (y) 40 34 52 49 47 21 20 27 41 48
60
s i a 50 e r e d s 40 e r a h 30 l i m m20 e a d 10 n e V 0 0
10
20
30
40
50
Investimento em propraganda m ilhares de Reais
Figura 3.1 Dados de investimento em propaganda e vendas em milhares de reais da empreza Z. A figura 3.1 apresenta um gráfico com os valores de uma amostra levantada pelo departamento de vendas da empresa Z. O gráfico revela uma tendência de crescimento entre o volume de vendas e o investimento em propaganda, ou seja, um incremento no investimento em propaganda resulta em um aumento no volume de vendas.
7
60
s i a 50 e r e d s 40 e r a h 30 l i m m20 e a d 10 n e V 0 0
10
20
30
40
50
Investimento em propraganda m ilhares de Reais
Figura 3.2 Reta ajustada entre Volume de vendas e investimento com propaganda em milhares de reais. O exemplo anterior constitui uma aplicação de regressão linear simples, onde a relação existente entre a variável dependente ou endógena (volume de vendas) e a variável independente ou exógena (investimento em propaganda) é modelada através de uma reta ajustada aos dados amostrais, conforme mostra a Figura 3.2
3.1. EXPRESSÃO DO MODELO: y = β 1 + β 2.xi + e (3)
O modelo é chamado de regressão linear simples porque há apenas uma variável econômica (x) , no lado direito da equação. Quando houver mais de uma variável explicativa (x) é chamada de regressão múltipla. É chamado de linear porque a expectativa condicional de y é uma função linear de x , ou seja: E ( y x) = β 1 + β 2.x + e
3.2. PRESSUPOSTOS BÁSICOS: O termo regressão mostra o efeito da variável explicativa x sobre a variável explicada y , através das estimativas dos parâmetros β i . Num modelo de regressão linear deverão ser considerados alguns pressupostos conforme abaixo: a) O valor de y para cada valor de x é definido pela expressão acima (3), onde “ e” é o erro ou termo aleatório. 8
b) A esperança matemática do erro aleatório é igual a zero, pois admite-se que E( y) = β 1 + β 2.xi , donde se conclui que: E(e) = 0. c)
A variância do erro aleatório é igual à variância de y , pois y e “ e” diferem apenas pelo intercepto, que é um fator constante que não altera a variância, V (e) = V ( y) . Portanto, a variância do erro aleatório é finita e constante.
d) A covariância entre qualquer par de erros aleatórios e1 e e2 é igual à covariância do par y1 e y2 que é igual à zero, ou seja: cov(e1;e2 ) = cov( y1; y2) = 0. Assim, temos que os termos aleatórios são independentes. e) O Erro aleatório ( e) segue distribuição normal com média igual a zero e variância constante; OBS: Significado do termo erro aleatório ou perturbação estocástica (e) : resumidamente podemos conceituar como sendo o substituto ou representante de todas as variáveis omitidas ou desconsideradas que podem afetar a variável dependente y , mas que não estão no modelo de regressão ou que não puderam ser incluídos no citados modelo.
3.3. ESTIMAÇÃO DOS PARÂMETROS O problema de regressão consiste em, dado o modelo teórico (como o linear, por exemplo), estimar os parâmetros desconhecidos β 1 e β 2 que são respectivamente os parâmetros intercepto e o angular, com base nas informações amostrais de um dado fenômeno como, por exemplo, despesas com alimentação e renda (no caso de uma regressão linear simples). Apesar de existirem vários métodos para sua obtenção (polinômios ortogonais, máxima verossimilhança, mínimos quadrados ordinários, etc.), o mais recomendado, por ser não tendencioso, consistente, eficiente, de fácil obtenção e de maior confiabilidade, é o método dos mínimos quadrados ordinários, que sugere como princípio que devemos obter uma reta tal que a soma dos quadrados das distancias verticais de cada ponto à reta seja o menor possível ou em outras palavras, que a soma dos quadrados das diferenças entre cada valor conhecido e ajustado ˆ) seja o menor possível, isto é: pela função ( y n
∑ ( y− yˆ)
2
= mínimo (4)
i =1
O valor do intercepto ( β 1) e o valor do parâmetro angular ( β 2 ) dessa reta que melhor se ajusta aos dados conhecidos ( y) , pelo método dos mínimos quadrados ordinários (m.q.o.) são b1 e b2 que são as estimativas de β 1 e β 2 do modelo linear simples: y = b1 + b2.xi .
9
3.4. EQUAÇÕES NORMAIS (Equações simultâneas) Para obtermos os valores de b1 e b2 , utilizamos a forma recursiva, denominada de equações normais que são obtidas derivando-se parcialmente a igualdade (4) acima e igualando-a a zero, obtendo-se: - Forma geral
∑ y = bi .n + b2.∑ x (5) 2 ∑ xy = bi .∑ x + b2.∑ x - Forma reduzida b2 =
n.(∑ xy) − (∑ x)( . ∑ y) n.(∑ x ) − (∑ x) 2
2
(6)
b1 = y − b2.x (7) As fórmulas (4), (5) e (6) e (7) são denominadas de estimadores de mínimos quadrados e são utilizadas para estimar os parâmetros b1 e b2 da função. Na sequência daremos um exemplo com várias perguntas. O desenvolvimento, a interpretação e a natureza das mesmas estão explicitados no decurso das resoluções das questões. Exemplo 1: A tabela abaixo mostra a evolução da poupança pessoal ( y) e renda pessoal (x) em unidades monetárias (U.M.) por um período de 12 anos (Colunas (1), (2) e (3)). Pressupõe-se que a trajetória das variáveis assume um comportamento linear.
(1) Anos 1 2 3 4 5 6 7 8 9 10 11 12 ∑
(2) Poupança
(3) Renda
( y)
(x)
6 7 6 8 9 10 9 9 11 12 15 18 120
8 8 9 11 12 13 14 16 18 20 11 29 180
(4)
(5)
(6)
x.y
x2
ˆ y
48 56 54 88 108 130 126 144 198 240 165 522 2044
64 64 81 121 144 169 196 256 324 400 121 841 3144
6,15 6,15 6,70 7,80 8,35 8,90 9,45 10,55 11,65 12,75 13,85 17,70 -
(7)
(8)
(9)
(10)
( y − yˆ)2 (x− x)2 ( y − y)2 ( yˆ − y)2 0,023 0,723 0,490 0,040 0,422 1,210 0,202 2,402 0,422 0,002 1,322 0,090 7,911
49 49 36 16 9 4 1 1 9 25 49 196 444
16 9 16 4 1 0 1 1 1 4 25 64 142
14,82 14,82 10,89 4,84 2,72 1,21 0,30 0,30 2,72 7,56 14,82 59,29 134,29
10
Nota: as colunas (1) a (3) são dados informados e as colunas (4) a (10) são colunas auxiliares para desenvolvimento das questões. Com base nas informações pede-se: 1) Estimar pelo método dos mínimos quadrados ordinários a equação da poupança em função da renda; 2) Calcular e interpretar o resultado dos estimadores obtidos; 3) Estimar a poupança provável, se a renda pessoal num determinado ano for de 35 U.M. 4) Avaliar o erro padrão de estimativa 5) Obter o intervalo de predição para a poupança estimada em (3) 6) Determinar o erro padrão dos estimadores; 7) Obter o intervalo de confiança dos estimadores com α = 0,05 e interpretá-los; 8) Verificar a qualidade do ajuste e interpretá-lo; 9) Determinar o intervalo de predição em função do erro máximo do valor estimado e o intervalo de predição dela decorrente. 10) Testar a hipótese da existência de regressão entre o par x e y (por Student e por Fische
Desenvolvimento:
1) Equação de regressão do modelo ( y = β 1 + β 2.x) n.(∑ xy) − (∑ x)( . ∑ y) bˆ2 = 2 n.(∑ x2 ) − (∑ x) 12× 2044 − 180× 120 ∴ bˆ2 = 0,55 bˆ2 = 2 12× 3144− (180)
bˆ1 = y − bˆ2.x = 10 − 0,55× 15 ∴ bˆ1 = 1,75
-
Equação de regressão da poupança: ˆ = 1,75+ 0,55x y
2) Interpretação de bˆ1 e bˆ2 11
No contexto econômico, o valor bˆ1 = 1,75, significa que mesmo que a renda x seja zero, a poupança pessoal y teria um crescimento de 1,75 U.M. Quanto ao estimador bˆ2 , significa aumento de 0,55 na poupança pessoal pessoal (x) (parâmetro angular) aumentar de uma unidade monetária.
( y) ,
quando a renda
3) Valor estimado da poupança quando a renda for de 35 U.M. ˆ = 1,75+ 0,55x, podemos estimar o Com a ajuda da equação obtida na questão (1), ou seja, y provável valor da poupança pessoal ( y) , bastando para tanto substituir a variável explicativa (x) por 35 U.M. que é a renda conhecida, ou seja: ˆ = 1,75+ 0,55x y yest = 1,75+ 0,55× 35 ∴ yest = 21U.M.
4) Erro padrão de estimativa O erro padrão da estimativa tem como uma de suas finalidades estabelecer o intervalo de predição (margem de desvio) para mais ou para menos do valor estimado de ( y) em função de (x) . Portanto, nada mais é do que a dispersão em termos absolutos dos valores residuais. Como se sabe, os valores residuais são aqueles valores resultantes da diferença entre os dados conhecidos e os ajustados por uma função qualquer. O erro padrão da estimativa, geralmente representado por Sˆy:x é calculado pela expressão:
∑ ( y − yˆ)
2
Sˆy:x =
(8)
n− k
Sendo: y = dados conhecidos (coluna 2 da tabela) ˆ = dados ajustados pela equação (coluna 6) y n = tamanho da amostra ( n = 12 ) k = número de parâmetros (intercepto + angular)
∑ ( y − yˆ)
2
Sˆy:x =
n− k
=
7,911 ∴ Sˆy:x = 0,89 12 − 2
5) Intervalo de Predição (IP) para o valor estimado da poupança de 21 U.M. O Intervalo de Predição (IP) nada mais é do que a margem de erro do valor estimado, o que sugere diminuir e posteriormente somar ao valor estimado o erro padrão da estimativa, calculado na questão anterior, ou seja, quanto menor o seu valor, menor é a margem de erro. IP = valor estimado (VE) ± erro padrão da estimativa 12
IP = VE ± Sˆy:x IP = (VE - Sˆy:x ; VE + Sˆy:x ) (9) IP = 21 + 0,89 IP = (21 - 0,89 ; 21 + 0,89) IP = (20,11 ; 21,89) 6) Erro padrão dos estimadores bˆ1 e bˆ2 No estudo da regressão, a determinação do erro padrão dos estimadores Sˆb tem como uma de suas finalidades básicas auxiliar na obtenção do intervalo de confiança dos estimadores, pois é de fundamental importância que os estimadores sejam não tendenciosos. 1
No caso da regressão linear simples, vimos que os estimadores são bˆ1 e bˆ2 , assim, temos:
Cálculo do erro padrão do estimador bˆ1: Sˆb1 = Sˆy:x.
2
2
(10)
Cálculo do erro padrão do estimador bˆ2 : Sˆb2 =
∑x n.∑ ( x − x)
Sˆy:x
∑ (x − x)
2
(11)
No exemplo em questão temos:
6.1) Erro padrão do estimador b1 Sˆb
1
Sˆb1 = Sˆy:x.
∑x n.∑ ( x − x)
Sˆb1 = 0,89.
3144 ∴ Sˆb1 = 0,68 12× 444
2
2
(12)
6.2) Erro padrão do estimador b2 Sˆb Sˆy:x ˆ Sb2 = (13) 2 ∑ (x − x)
2
0,89 ∴ Sˆb2 = 0,042 Sˆb1 = 444 13
7) Intervalo de confiança dos estimadores A construção de um intervalo de confiança (IC) para um estimador tem como finalidade, principalmente em econometria, medir o nível de precisão do citado estimador, ou seja, se há sintomas de tendenciosidade. Para a construção do IC, o pesquisador deverá levar em consideração algumas informações relevantes como, por exemplo: − − −
Valor do erro padrão dos estimadores Sˆb , conforme mencionado no item anterior; 1
O nível de confiança α desejado na pesquisa, com base na distribuição t de Student ; O número de graus de liberdade (g.l. = n − k) . n = tamanho da amostra e k = número de parâmetros
Assim, observadas as condições acima, o intervalo de confiança de um dado estimador poderá ser construído com base no modelo genérico a seguir: bi − tα (n − k).Sˆbi < β i < bi + tα (n − k).Sˆbi (14)
7.1) Intervalo para bˆ1
1,75− t0,05(12 − 2).0,68 < β 1 < 1,75+ t0,05(12 − 2).0,68
0,23 Fα (n − k − 1) , rejeitamos H 0 Fc < Fα (n − k − 1) , aceitamos H 0
No exemplo em questão, Fc > F0,05 (10 − 2 − 1)
31
F0,05 (7) = 4,74 (na distribuição F , deve-se observar que o g.l. é igual a 2 no numerador e 7 no
denominador. Como Fc = 38,73 > F0,05 = 4,74, devemos rejeitar a hipótese H 0 , o que sugere que pelo menos uma das variáveis explicativas x1 ou x2 exerce influência significativa sobre a variável dependente y , com probabilidade de erro 5%. 6) Estatística t com relação aos parâmetros β 2 e β 3 Sabe-se que: tc =
bi − β i Sˆ bi
6.1) Estatística t para β 2 = 0 O teste de significância para o efeito da variável explicativa x1 (tarifa real) pode ser: H 0 : β 2= 0 (ausência de efeito) H1 : β 2< 0 (presença de efeito negativo) Sˆb2 = 0,093
Sabemos que: b2= −0,243; Sˆy = 4,66 ;
Sˆy
Sˆb2 =
∑ x12 − tc =
(∑ x1.x2 )
2
− 0,243− 0 0,093
t0,05 (n − k) = 2,3646 4,66
=
2
3388 −
∑x
2 2
(− 880)
= 0,093
906
= −2,62
tc = 2,62
Como tc > tα (2,62 > 2,3646) , rejeitamos H 0 , o que sugere a presença de efeito negativo da variável x sobre y . 6.2) Estatística t para β 3 O teste t para o efeito da variável explicativa x2 (produto real) pode ser: H 0 : β 3= 0 (ausência de efeito) H1 : β 3> 0 (presença de efeito positivo)
Sabemos que: b3= 1,249 ;
Sˆb3 = 0,179 32
Sˆy = 4,66 ;
Sˆy
Sˆb3 =
(∑ x1.x2 )
2
∑x
2 2
tc =
−
t0,05 (7) = 2,3646 4,66
=
2
906−
∑x
2 1
(− 880)
= 0,179
3388
1,249− 0 = 6,977 0,179
Verifica-se que tc > tα
(6,977 > 2,3646) ,
o que sugere rejeitar a hipótese H 0 , significando a
presença de efeito positivo da variável explicativa x2 (produto real) sobre a demanda y . Pelo teste t , nota-se que os parâmetros β 2 e β 3 exercem influência sobre y , primeira negativamente e a segunda positivamente.
Exemplo 7:
Considere o quadro abaixo com informações sobre investimentos ( Y ) , lucro esperado ( X1) e o estoque de capital desejado ( X2 ) durante 15 anos (valores em R$ milhões). ti
Yi
X1
X2
yi
x1
x2
x1.y
x1.x2
x2.y
x12
x22
ˆ y
( y − yˆ)2
( yˆ − y)2
( y − y)2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 2 4 6 4 3 5 6 5 3 4 5 6 8 12 75
60 62 65 68 65 62 66 70 68 65 69 72 78 80 85 1035
3 3 4 5 5 4 6 7 6 4 5 6 8 10 14 90
-3 -3 -1 1 -1 -2 0 1 0 -2 -1 0 1 3 7 0
-9 -7 -4 -1 -4 -7 -3 1 -1 -4 0 3 9 11 16 0
-3 -3 -2 -1 -1 -2 0 1 0 -2 -1 0 2 4 8 0
27 21 4 -1 4 14 0 1 0 8 0 0 9 33 112 232
27 21 8 1 4 14 0 1 0 8 0 0 18 44 128 274
9 9 2 -1 1 4 0 1 0 4 1 0 2 12 56 100
81 49 16 1 16 49 9 1 1 16 0 9 81 121 256 706
9 9 4 1 1 4 0 1 0 4 1 0 4 16 64 118
2,48 2,47 3,32 4,16 4,17 3,32 5,01 5,85 5,86 3,32 4,15 4,99 6,68 8,37 11,76 -
0,23 0,22 0,46 3,39 0,03 0,10 0,01 0,02 0,74 0,10 0,02 0,00 0,46 0,14 0,06 5,98
6,35 6,40 2,82
9 9 1 1 1 4 0 1 0 4 1 0 1 9 49 90
∑
...
11,36 45,70 84,67
Pedidos: 1) Obter a função de regressão do investimento; 2) Interpretar os resultados dos parâmetros, pelo MQO; 3) Estimar o investimento esperado quando o lucro esperado for 90 e o estoque de capital for 12; 33
4) Obter o intervalo de predição ou previsão do valor estimado em (3), com base no erro padrão da estimativa; 5) Obter o intervalo de confiança dos estimadores β 2 e β 3 ; 6) Obter e interpretar o resultado da qualidade do ajuste (poder explicativo da regressão); 7) Verificar pelo teste F se as variáveis X1 e X 2 exercem conjuntamente efeito significativo sobre Y (dependente); 8) Verificar pelo teste t se as variáveis X1 e X 2 exercem separadamente efeito sobre Y .
Desenvolvimento:
1) Função Investimento ˆ = β 1 + β 2.x1 + β 3.x2 + e, cujos estimadores são b1, b2 e b3 . O modelo é: y
As estatísticas calculadas com base no quadro auxiliar são: Y = 5
X1 = 69
X2 = 6
∑ x .y = 232 ∑ x .y = 100 ∑ x .x = 2747
∑ x = 706 ∑ x = 118 ∑ (x .x ) = 75076 2 1
1
2 2
2
1
2
2
1
yi = Y − Y
b2
2
xi = X1 − X1
x2 = X 2,i − X 2
(∑ x .y). ∑ x − (∑ x .x )(. ∑ x .y) = (∑ x )(. ∑ x ) − (∑ x .x ) 2 2
1
2 1
b2 =
1
2
2
2
2 2
1
2
(232×118) − (274×100) − 24 = = −0,003 (706×118) − 75076 8232
b2 = −0,003
b3
(∑ x .y). ∑ x − (∑ x .x )(. ∑ x .y) = (∑ x )(. ∑ x ) − (∑ x .x ) 2 1
2
2 1
1
2 2
2
1
2
1
2
34
b3 =
(100× 706) − (274× 232) 7032 = = 0,85 ; 8232 (706× 118) − 75076
b3 = 0,85
b1 = y − b2.x1 − b3.x2
b1 = 5− (− 0,003× 69) − 0,85× 6 b1 = 5− (− 0,21) − 5,10 b1 = 0,11
ˆ = 0,11− 0,003.x1 + 0,85.x2 y 2) Interpretação dos parâmetros 2.1) O valor 0,11 do intercepto significa que se o lucro esperado desejado ( X2 ) forem zero, o investimento seria de R$0,11.
( X1)
e o estoque de capital
2.2) A variável explicativa X1 (lucro esperado) sendo negativa, um aumento de R$1,00 no lucro esperado acarreta um decréscimo de R$0,003 no investimento. 2.3) A variável explicativa X 2 (estoque de capital desejado) sendo positiva, significa que um aumento de R$1,00 nessa variável acarreta um aumento de R$0,85 no investimento. 3) Investimento esperado ˆ(esperado) = 0,11− 0,003.x1 + 0,85.x2 y ˆ(esperado) = 0,11− 0,27 + 10,20 y ˆ(esperado) = R$10,04 y
4 ) Intervalo de predição do valor estimado
∑ ( y − yˆ)
2
Sˆy =
n− k
∑ ( y − yˆ)
2
Sˆy =
IP = VE ± Sˆy
= 5,98 ;
n = 15;
k= 3
5,98 = 0,71 15 − 3 35
Sˆy = 0,71 IP = VE − Sˆy < IP < VE + Sˆy 10,04− 0,71< IP < 10,04 + 0,71 9,33< IP < 10,75
5) Intervalo de confiança dos estimadores 5.1) Intervalo de β 2 = b2 Calculamos inicialmente o erro padrão de β 2 Sˆy ˆ S β 2 = 2 ( ) x . x ∑ x12 − ∑ 1x22 ∑ 2 Sˆ β 2 =
0,71 2
706 −
(274)
∑x
2 1
= 706 ;
∑x
2 2
= 118
= 0,085
118
Sˆ β 2 = 0,085
O intervalo de confiança de Sˆ β baseia-se na igualdade probabilística. 2
1− P = P bi − tα (n − k).Sˆ β i ≤ β i ≤ bi + tα (n − k).Sˆβ i 1− P = −0,003− t0,05 (15− 3).0,085 ≤ β 2 ≤ −0,003+ t0,05(15− 3).0,085
1− P = −0,003− 2,1788× 0,085≤ β 2 ≤ −0,003+ 2,1788× 0,085
0,95 = −0,1882 ≤ β 2 ≤ 0,1822 O resultado significa que existe uma probabilidade de 0,95 de que o estimador β 2 esteja entre − 0,1882 e 0,1822. 5.2) Intervalo de β 3 . Cálculo inicial de erro padrão de β 3
36
Sˆy
Sˆb3 =
∑x
2 2
−
(∑ x1.x2 )2
∑x
2 1
Estatísticas: ∑ x22 = 118
(∑ x1.x2 )2 = 2742 = 75.076
Sˆy = 0,71
∑x
Sˆb3 =
2 1
= 706
0,71 0,71 = 75.076 11,66 118− 706
Sˆb3 = 0,21
Calculado o erro padrão de Sˆb3 , o intervalo de confiança baseia-se na igualdade probabilística
)
1− P = P b3 − tα (n − k).Sˆ β 3 ≤ β 3 ≤ b3 + tα (n − k).Sˆβ 3
Sabemos que: β 3 = 0,85, S β 3 = 0,21 e t0,05(12) = 2,1788 , então teremos:
0,95 = 0,85 − 0,21× 2,1788 ≤ β 3 ≤ 0,85 + 0,21× 2,1788 0,95 = 0,39 ≤ β 3 ≤ 1,31 O intervalo encontrado de β 3 sugere que existe uma probabilidade de 0,95 de que β 3 esteja entre 0,39 e 1,31. 6) Qualidade do ajuste O poder explicativo da regressão ou coeficiente de determinação tem por objetivo avaliar a qualidade do ajuste e é medido pela expressão R2 .
∑ ( yˆ − y) = ∑ ( y− y)
2
2
R
2
Onde: 0 ≤ R2 ≤ 1 ou 0 ≤ R2 ≤ 100% Da tabela extraímos as estatísticas: 37
∑ ( yˆ − y)
2
R2 =
= 84,67;
∑ ( y − y)
2
=90
84,67 ∴ R2 = 0,94 ou 94% 90
O resultado obtido sugere uma boa qualidade de ajuste na função de regressão.
7) Verificação pelo teste F se as variáveis explicativas X1 e X 2 exercem influência conjunta sobre a variável dependente Y . Do quadro auxiliar de cálculos retiramos as estatísticas:
∑ ( yˆ − y) ∑ ( y − yˆ)
2
= 84,67;
n = 15 (amostra)
2
= 5,98 ;
k = 2 (variáveis explicativas)
Utilizando ANOVA para obter Fc : Fonte de Variação Regressão Resíduos
∑ dos quadrados
g.l.
84,67
2
5,98
15− 2− 1
Média quadrática 42,34 0,25
Fc Fc =
42,34 = 170,48 0,25
Hipóteses: H 0 :b2= b3 = 0 (ausência de efeito) H1 :b2≠ b3 ≠ 0 (presença de efeito)
Conclusão: Fc = 170,48 ; F0,05(13) = 3,89 Fc > Fα
Como Fc > Fα rejeitamos a hipótese H 0 , o que sugere que pelo menos uma das variáveis explicativas exerce efeito sobre a variável Y . Com a probabilidade de 95% de que a assertiva esteja correta. 8) Avaliação da influência pelo teste t (Student ) - Formulação das hipóteses:
38
H 0 : b2 = 0 (ausência de influência)
H1 : b2 ≠ 0 (presença de influência) tc =
bi − β i (Geral) ˆ S bi
- Teste para o estimador b2 (estimativa de β 2 ) tc =
b2 − β 2 0,003− 0 = = 0,035 ˆ 0 , 085 Sb 2
tc = 0,035
Tabela (t ) = t0,05(12) = 2,1788 Verifica-se que tc < tα , o que sugere aceitar H 0 , ou seja, ausência de influência. - Teste para o estimador b3 (estimativa de β 3 ) tc =
0,85− 0 = 4,04 0,21
tc = 4,04 t0,05(12) = 2,1788
Verifica-se que tc > tα , o que sugere rejeitar a hipótese H 0 , ou seja, a variável estoque de capital
( X2 ) exerce influência positiva sobre os investimentos. Nota-se pelo teste t que apenas β 3 exerce influência sobre a variável y .
39
Exemplo 8:
A tabela abaixo representa as observações semanais sobre receitas ( Yi ) , em R$1000,00, sobre preço de venda ( X1) , em R$1,00, e gastos com propaganda ( X2 ) , em R$1000,00, durante 12 semanas para uma cadeia de lanchonetes. ti
Yi
X1
X2
1 2 3 4 5 6 7 8 9 10 11 12
120 122 90 123 122 108 150 90 140 125 110 116 1416
2,0 2,0 1,5 2,0 2,0 2,5 2,5 1,8 2,5 1,2 1,8 2,2 24
10 8 23 11 10 6 18 19 21 18 16 20 180
∑
- Desenvolver: ˆi ) ; 1) Obter a equação de regressão múltipla estimada da receita ( y
2) Obter a previsão da receita quando x1 = 2,30 e x2 = 22, em t13; 3) Obter o intervalo de predição da receita prevista no item anterior; 4) Determinar o erro padrão de estimativa; 5) Calcular o erro padrão dos estimadores β 2 e β 3 ; 6) Obter o intervalo de confiança dos estimadores β 2 e β 3 ; 7) Avaliar a qualidade do ajuste; 8) Verificar pelo teste F se as variáveis explicativas x1 e x2 exercem influência conjunta sobre a variável receita ( Yi ) .
Exemplo 9:
Dez pessoas sadias entre 20 e 40 anos, do sexo masculino, foram submetidas a um teste de avaliação física, quanto ao peso total ( Yi ) , peso magro ( X1) e as calorias diárias ingeridas ( X 2 ) , como se segue: 40
Yi
X1
X2
77 62 65 76 74 61 64 61 67 63
52 42 45 51 45 41 42 41 47 44
2.000 1.600 1.800 2.000 1.800 1.600 1.700 1.500 1.600 1.400
- Considerando que a série de valores apresenta comportamento linear, obter: a) A equação de regressão múltipla; b) O peso total estimado, quando X1 = 50 e X 2 = 1.450; c) O erro padrão da estimativa; d) O erro padrão dos estimadores β 2 e β 3 ; e) Analisar pelo teste F se as variáveis explicativas x1 e x2 exercem, conjuntamente, influência sobre o peso total y ;
Exemplo 10:
Considere as assertivas abaixo: A) A função consumo: C= a+bx+e, onde C= consumo agregado; x= renda e e= erro aleatório, é um exemplo clássico de modelo teórico; B) O conjunto de variáveis exófenas mais o termo constante é denominado de regressor; C) Com relação a regressão linear múltipla, a variável dependente y deve variar linearmente com o conjunto de variáveis x i e não com cada uma destas; D) Se comparamos a regressão linear múltipla com a regressão linear simples, os resíduos daquele são sempre menores; E) Numa análise de regressão, o termo erro aleatório ou perturbação estocástica (e), nada mais é do que o representante de todas as variáveis omitidas que podem eventualmente afetar a variável endógena, mas que não puderam ser incluídas no modelo. 41
Estão corretas as afirmativas: a) A e B
b) C e D
c)A e E
d) B eE
e) A,B e E
Exemplo 11: Com relação à regressão linear múltipla, assinale a afirmativa correta: A) A representação geométrica é sempre de um plano: y = β 1 + β 2x1 + β 3x2 + ..... + β n xn−1 + e B) Quando comparados com a regressão linear simples, os resíduos são sempre menores; C) A variável y dependente deve variar linearmente com o conjunto de variáveis x i e não com cada uma delas; x
x
x
D) Funções como y = a⋅ b1 1 ⋅ b2 2 .....bk k são sempre linearizáveis ; E) Na aplicação de logaritmos sempre permite a lenearização, culminando na representação geométrica por hiperplano.
Exemplo 12: Considerando o modelo de regressão linear simples, tendo x como variável aleatória e independente e y como variável dependente, é correto afirmar que:
a) A variável x não é isenta de erro; b) A função de regressão fornece a média de x para cada y considerado; c) A variável não é isenta de erro; d) A variação residual de y é distribuída normalmente com desvio padrão constante e média diferente de zero; e) A variação residual de y é constante com x.
42
Exemplo 13:
Dentre as afirmativas abaixo, assinale a(s) correta(s) a) Quando o pesquisador encontra dificuldades para incorporar a um dado modelo e fatos de natureza não quantitativa, podemos dizer que está diante de umalimitação de natureza estatística; b) A função consumo do tipo β 1 + β 2.x+ e, onde y= consumo agregado; x= renda e e = erro aleatório , pode ser considerado um modelo econométrico, dada a necessidade de aplicar tratamento estatístico na sua análise; c) O conjunto de variáveis exógenas mais o termo entercepto são denominados de regressores; d) Num modelo de regressão linear deverão ser levados em consideração alguns pressupostos básicos, como por exemplo: “A covariância entre qualquer par de erros aleatórios e 1 e e 2 é sempre diferente da covariância do par y e y 2 que é igual a unidade”
Exemplo 14:
Uma série temporal de 15 termos foi ajustada a uma função do tipo y = β 1 + β 2.x+ µ , tendo sido encontradas as seguintes estatísticas de avaliação: ˆ = 4,5+ 1,8x a) y b) Sˆb2 = 0,696 c)
∑ ( yˆ − y)
2
= 113,4
d)
∑ ( y − y)
2
= 300
e)
∑ ( y − yˆ)
2
= 186,6
14.1. Determinando o intervalo de confiança com o estimador β 2 , com α = 0,05, encontramos ... a) 0,316 ≤ β 2 ≤ 3,283 b) 0,307 ≤ β 2 ≤ 3,292 c) 0,302 ≤ β 2 ≤ 5,983 43
d) 2,996 ≤ β 2 ≤ 6,003 e) 0,296 ≤ β 2 ≤ 3,303
14.2. Determinando o valor do poder explicativo da regressão (R2) obtemos: a) 0,608
b)0,622
c)0,378
d)0,806
e)2,645
ˆ = 4,5+ 1,8x 14.3. Testando a hipótese quanto a ausencia ou a presença de regressão da função y pelo teste F, com base em ANOVA, obtemos para F 0 (calculado) o valor de .......; e assim podemos concluir que .....
a) 7,9 ; sugere sugere ausência ausência de regressão regressão entre x e y; b) 7,9 ; os dados são insuficientes para aplicação aplicação do teste; c) 9,1 ; sugere ausência ausência de linearidade linearidade da função; função; d) 7,9 ; sugere presença de regressão entre x e y; y; e) N.R.A
Exemplo 15:
Qual das afirmações abaixo abaixo faz referencia correta correta ao modelo de regressão linear simples? a) Toda regressão apresenta heterocedasticidade. heterocedasticidade. b) Se a variância é constante, os dados são homocedásticos. c) O intercepto α representa a inclinação da reta de regressão. d) Os erros do modelo não são aleatórios, com a esperança igual a 1. e) A constante α é sempre positiva.
Exemplo 16 :
Com relação à Regressão Linear Múltipla, assinale a afirmativa correta: a) A variável Y dependente deve variar linearmente com o conjunto de variáveis X 1 e não com cada uma destas. b) A representação geométrica é sempre de um plano: y=a 1 +b 2 x 1 +b 3 x 2 +.......bn x n-1 n-1 +e 1 . c) Funções como y = ab1x1b2x2.....bkxk são sempre linearizáveis. d) A aplicação de logaritmos sempre permite a linearização, culminando na representação geométrica por hiperplano. e) Quando comparados com a Regressão Linear Simples, os resíduos são sempre menores. 44
Exemplo 17: Suponha que o custo de produção de energia por kilowatt/hora(Y) seja uma função linear do fator de carga (X1), em % e do custo do carvão (XZ) em centavos de dólar por milhão de Btu. Assumindo normalidade dos dados, um modelo de regressão linear múltipla foi adotado para uma amostra de tamanho 12. O modelo estimado foi: Y= 6,14 – 0,04X1 + 0,09X2 (0,91) (0,01) (0,01) Sendo os erros padrões indicados entre parênteses. A tabela da análise de variância, incompleta, encontra-se encontra-se a seguir
FV Regressão Residuo Total
Graus de liberdade
TABELA ANOVA Soma dos Média dos quadrados quadrados
F
F de significação
31,15
9,02E-05
0,6
Com base nesses dados, considere as afirmações a seguir: I. Para cada aumento de uma unidade na variável X1 corresponderá um decréscimo de 0,04 na variável Y, permanecendo inalterada a variável X2. II. A variância residual do modelo considerado é 0,6 (Kilowatt/hora)2. III. O intervalo bilateral de 95% de confiança para o custo do carvão é, aproximadamente, aproximadamente, (0,07; 0,11) Está correto o que se afirma em: a) II apenas
b) III apenas
c) I e II apenas
d) I e III apenas
e ) I,II e III .
Capítulo 5: CORRELAÇÃO 5.1. OBJETIVO PARA A ECONOMIA É de grande importância para a Economia explorar e verificar os inter-relacionamentos existentes entre as variáveis econômicas. Essa avaliação, bem como seu grau de de intensidade, pode ser ser medida através do coeficiente de correlação que veremos a seguir. 5.2. CONCEITO DE CORRELAÇÃO Correlacionar é verificar com base em técnicas especiais se existe inter-relacionamento entre variáveis (econômicas ou não). 45
Quando esta avaliação é feita entre duas variáveis como, por exemplo, consumo médio e renda média, é denominada correlação simples. Quando a avaliação é feita entre três ou mais variáveis é chamada de múltipla como, por exemplo, temperatura, umidade, índice pluviométrico, patrimônio, faturamento, vendas, etc...Os princípios básicos que regem os problemas da correlação múltipla são semelhantes aos da correlação simples. Quando é feita entre três ou mais variáveis permanecendo fixa (constante), as demais variáveis do conjunto observado é chamada de parcial. Dessa forma, a correlação parcial estima a relação funcional entre a variável dependente e outras variáveis independentes. No nosso curso, serão detalhadas apenas a avaliação e interpretação da correlação simples. 5.3. MEDIDA DE CORRELAÇÃO O instrumento de medida de correlação é dado pelo coeficiente de correlação de Pearson, representado por r , e as expressões para o cálculo geralmente utilizadas são:
r=
( x).( y) ∑ xy − ∑ n∑
x2 − (∑ x) . y2 − (∑ y) ∑ ∑ n n Outra forma de cálculo: r=
2
∑ [(x− x).( y − y)] n× σ x × σ y
2
(30)
(31)
Onde: x e y = variáveis sob análise σ x e σ y = desvios padrão das variáveis x e y n = tamanho amostral
5.4. O COEFICIENTE DE CORRELAÇÃO r E SUA INTERPRETAÇÃO INTERPRETAÇÃO O valor de r pode apresentar-se de forma positiva ou negativa. Quando r é positivo significa que as duas variáveis em estudo ( x e y ), por exemplo, crescem ou decrescem no mesmo sentido. Quando r é negativo significa que as duas variáveis em análise seguem sentidos inversos, ou seja, quando os valores de x evoluem crescentemente, os de y tendem a evoluir decrescentemente decrescentemente e vice-versa. 46
Genericamente, a interpretação do valor de r pode ser obtida com base na tabela seguinte:
r (± ) 0 0,00 0,30 0,60 0,90
Correlação Nula Fraca Média Forte Fortíssima Máxima
0,30 0,60 0,90 0,99 1
O domínio de r é portanto: − 1≤ r ≤ +1 Depreende-se pela tabela de avaliação que quanto mais próximo for o valor de r de 1 ou -1, mais acentuado é o inter-relacionamento entre as variáveis ( x e y ). Ressalve-se que tais valores são arbitrários , razão pela qual deverão ser usados apenas para se ter uma idéia da magnitude da correlação e não como medida decisória.
5.5. IMAGENS DE r NO PLANO CARTESIANO EM FUNÇÃO DO SEU VALOR y
y
0< r < 1
− 1< r < 0
x
(correlação negativa)
(correlação
y
x
y
r
=
0
(correlação nula)
x
x
(circular)
47
r = −1
r = +1
( r =máxima negativa)
( r =máxima positiva) 5.6. DIFERENÇA ENTRE CORRELAÇÃO E REGRESSÃO
Vale deixar registrado que existe uma diferença entre correlação e regressão. Como já vimos, a correlação mede o grau de inter-relacionamento ou associação entre variáveis, ao passo que a regressão mostra o efeito da variável explicativa xi sobre a variável explicada yi . Se analisarmos os dois procedimentos, podemos sugerir que a análise de regressão apresenta algumas vantagens em relação à análise de correlação, quais sejam: - A regressão indica o sentido da relação de dependência entre x e y ; - Os parâmetros intercepto e angular podem ser estimados e utilizados para fins de previsão.
Exemplo 18:
O par y e x se refere a demanda de energia elétrica ( y) e tarifa (x) . ti
1 2 3 4 5 6 7 8 9 10 ∑
y(1000kw) 30 28 24 23 22 22 20 18 18 15 220
x
x.y
y2
4 4 3 5 5 5 6 8 9 11 60
120 112
900 784
x2 16 16
...
...
...
165 1230
225 5030
121 418
(x− x) ( y− y) -2 -2 -3 -1 -1 -1 0 2 3 5 0
8 6 2 1 0 0 -2 -4 -4 -7 0
a× b
-16 -12 -6 -1 0 0 0 -8 -12 -35 -90
a2 4 4 9 1 1 1 0 4 9 25 58
b2 64 36 4 1 0 0 4 16 16 49 190
48
Perguntas: 1) Calcular o coeficiente de correlação (r ) pelos dois procedimentos, interpretando o resultado; 2) Traçar o diagrama de dispersão e verificar se o citado diagrama corresponde ao valor encontrado de r ; 3) Testar a hipótese da existência de correlação entre y e x por Student , com α = 0,05.
Desenvolvimento:
1) Cálculo de r 1.1) Pela expressão (30) r=
( x)(. y) ∑ xy − ∑ n∑
2 2 x y ( ) ( ) ∑ ∑ x2 − . y2 − ∑ ∑ n n
60× 220 10 r= 3600 48400 418− . 5030 − 10 10 1230−
r = −0,86
Pela expressão (31) r=
r=
∑ [(x− x)(. y − y)] n× σ x × σ y
− 90 10× 4,359× 2,408
r = −0,86
. Interpretação: É fácil verificar que os resultados obtidos pelos dois critérios são os mesmos, sugerindo uma forte correlação inversa, o que significa que, à medida que o consumo de energia elétrica decresce, aumenta o valor da tarifa. 49
2) Diagrama de dispersão O diagrama de dispersão nada mais é do que a colocação de pontos coordenados de y e x no plano cartesiano, o que nos permite visualizar a relação entre essas variáveis. Além disso, ajudanos a identificar a presença de outliers que, se ocorrer, pode distorcer acentuadamente o resultado da correlação. Outliers são dados atípicios que diferem significativamente do conjunto sob análise. A imagem gráfica abaixo sugere que as duas variáveis nela consideradas (consumo de energia elétrica x tarifa) são negativamente relacionadas, sem presença de outliers y 30
25 20 15 10 5 2
4
6
8
10
12
x
3) Teste de hipótese da existência de (r ) Nem sempre o valor de (r ) garante a existência de correlação devido a fatores diversos, tais como número insuficiente de dados amostrais, variáveis com informações distorcidas, etc. Uma forma para se verificar a existência de correlação é a aplicação do teste de hipóteses, como a distribuição t de Student , por exemplo. Recomenda-se aplicar o teste para variáveis com tamanho da amostra igual ou superior a 30 informações, pois se deve atender a hipótese que as mesma apresentam tendência de normalidade. Para testar a hipótese por Student , devemos inicialmente determinar o valor de t calculado (tc ) pela expressão: 50
tc =
r. n− k
1− r
2
(32)
Onde: r = resultado do coeficiente de correlação n = tamanho da amostra K = número de variáveis O valor de tc deve ser comparado com o valor de tα (n − k) tabelado. Se tc > tα (n − k) ou tc < −tα (n− k) Em contra partida se:
− tα (n − k) ≤ tc ≤ tα (n − k) , aceita a hipótese H 0 A formulação das hipóteses deverá acompanhar o seguinte esquema: H 0 : ρ = 0, ausência de correlação
H1 : ρ ≠ 0, presença de correlação No exemplo em questão temos: tc =
tc =
r. n− k
1− r 2
− 0,86. 10− 2 2
1− (0,86)
Consultando a tabela para t0,05 (10− 2) = 2,31, nota-se que tc = −4,7 é maior que tα (8) = 2,31, o que sugere rejeitar a hipótese H 0 e aceitar H1, que indica presença de correlação, conforme hipóteses abaixo formuladas. H 0 : ρ = 0, ausência de correlação H1 : ρ ≠ 0, presença de correlação 4) Formas alternativas para o cálculo de r (coeficiente de correlação) e de R 2 (coeficiente de determinação) Conhecendo-se o valor de r , pode-se rapidamente estimar o valor de R 2, bastanto para tanto elevar ao quadrado o valor de r , ou seja: se r = 0,75, R2=0,56. Da mesma forma, como decorrência, se R2 =0,56, r = 0,56 = ±0,75 51
Exemplo 19: Considere o par abaixo referente a taxa efetiva de inflação ( y%) e a taxa de desemprego (x%) .
(ti )
yi
xi
t1 t2 t3 t4 t5 t6 t7 t8 t9 t 10
6 11 9 6 6 8 11 13 10 10
5 6 8 8 7 6 6 7 8 9
1)
Calcular o coeficiente de correlação pelos modelos conhecidos, interpretando o resultado;
2)
Traçar o diagrama de dispersão no plano cartesiano. Verificar se há coerência com o valor de r encontrado;
3)
Testar a hipótese da existência de correlação entre inflação e taxa de desemprego. Utilize Student com α = 0,05.
Exemplo 20:
Com base nos dados do índice de quantidade demandada e tarifa real do exemplo 3, obter: a)
O coeficiente de correlação, interpretando o seu resultado;
b)
Traçar o diagrama de dispersão;
c)
Testar a hipótese da existência de correlação, utilizando Student , com α = 0,05.
Exemplo 21:
Sobre a avaliação da correlação linear, analise as assertivas: A) O coeficiente de correlação deverá ser testado quanto à diferença para nulidade, através do teste t de Student; B) A correlação parcial estima a relação funcional entre a variável dependente e outras variáveis independentes; 52
C) Na correlação linear múltipla, R 2 indica a parcela de variação total de y explicada pelo hiperplano de regressão. D) A presença de outliers suaviza o efeito da correlação. Está (ão) correta (s) apenas a(s) afirmativa (s) : 1) A
2) B e C
3) A, B e C
4) A,C e D
5) A e B
Exemplo 22: Utilizou-se um modelo de regressão linear para avaliar a relação entre o preço do litro da gasolina e o do petróleo Brent, ambos em reais, compreendendo o período de janeiro de 2002 a dezembro de 2006. Os resultados obtidos foram: 60
∑ ( Y − Y )
2
i
= 18;
i =1
1
60
Y − Yˆ) ( ∑ 58
2
i
i
= 0,052 e Fsig. = 2,7E − 4
i =1
Considere o quadro a seguir. ANOVA FV
Soma dos quadrados
Graus de liberdade
Média dos quadrados
Modelo (regressão) Residual
F
Fsig
z x
Y
Total
Os valores de X , Y e Z, no quadro acima, respectivamente, são: a) 3,016; 0,052 e 2,78E-4; b) 3,016; 0,052 e 288,154; c) 14,98; 3,016 e 288,154; d) 18; 0,052 e 2,78E-4 e) 18; 0,052 e 288,154.
53
Exemplo 23:
As estatísticas a seguir foram obtidas de observações realizadas em 100 individuos com relação a duas características X e Y. 100
100
∑ Y = −58; ∑ X i
i =1
100
∑ (X
= 248;
i
100
− X ) = 25;∑ ( Yi − Y ) = 144; 2
i =1
2
i =1
100
∑ (X
i
i =1
i
− X )( Yi − Y ) = 43,2;
i =1
O coeficiente de correlação amostral entre X e Y é igual a : a) -0,36 b) -0,18 c) 0,44
d) 0,72
e) 0,80
Exemplo 24:
A partir de uma amostra aleatória (X 1 , Y 1 ), (X 2 , Y2 ) ........., (X 20 , Y 20 ) foram obtidas as estatísticas: 2 médias X = 12,5 e Y = 19 , variâncias amostrais Sx2 = 30 e Sy2 = 54 e covariância Sxy = 36 Qual a reta de regressão estimada de Y em X? a) Yˆi = 19+ 0,667Xi ; b) Yˆi = 12,5+ 1,2Xi ; c) Yˆ = 4+ 1,2X ; d) Yˆ = 19+ 1,2X ; i
i
i
i
e) Yˆi = 80+ 22,8Xi ;
Capítulo 6: VIOLAÇÃO DOS PRESSUPOSTOS BÁSICOS Neste capítulo serão abordados alguns aspectos relacionados com a estimação de modelos quando os resíduos (ei ) não são constantes, ou seja, quando tais resíduos associados com observações em um dado período de tempo se mantiverem, por transferência, nos períodos subsequentes. Na ocorrência desses casos, estamos diante de uma violação aos pressupostos básicos já comentados. Assim, nos itens 6.1 a 6.5 deste capítulo falaremos sobre heteroscedasticidade e no capítulo 7 sobre autocorrelação que é uma outra forma de violação.
54
6.1. HETEROSCEDASTICIDADE E HOMOSCEDASTICIDADE Já vimos que na análise de regressão era necessário levar em consideração algumas hipóteses, tais como: - o valor de y para cada valor de x é dado por: y = β 1 + β 2.x1 + e; - a esperança do erro aleatório deverá ser igual a zero → E(e) = 0; - a variância do erro aleatório deverá ser igual a variância de y (variável explicada) → V (e) = V ( y) ; - as variáveis explicativas (xi ) são fixas e não estocásticas; - a variância do erro aleatório deverá ser constante → V (e) = constante; - além de outros.
Quando os pressupostos citados ou hipóteses básicas não se verificam, estamos diante de uma violação ou transgressão. Na ocorrência desses casos algumas indagações vêm à mente do pesquisador, tais como: o que provoca tais distorções? Quais as consequências para as estimações dos parâmetros? O que fazer para minimizar tais problemas? Quais os procedimentos para diagnosticá-los? Para melhor entender a matéria é necessário conhecer o significado de alguns termos, como heteroscedasticidade e homoscedasticidade.
6.2. NATUREZA DA HETEROSCEDASTICIDADE Conforme comentado acima, uma importante hipótese no modelo de regressão é que a variância de cada erro aleatório V (e) seja um número constante igual a σ 2 . Essa é a hipótese do princípio da homoscedasticidade. Quando isso não se verifica, ou seja, quando a variância do erro aleatório V(e) é algum número não constante, para todas as informações numéricas dizemos que o modelo de regressão é heteroscedástico e, nesse caso, estaremos diante de uma série numérica que apresenta problemas heteroscedásticos. Para melhor esclarecer a diferença entre homoscedasticidade e heteroscedasticidade suponha ˆ = β 1 + β 2.x1 + e, y represente poupança e x a renda. que no modelo y Na prática, à medida que a renda aumenta a poupança também tende a aumentar, em média. Quando a variância, em relação à média da poupança, permanece a mesma em todos os níveis de renda, ou seja, mesmo que a renda aumente, a variância da poupança permanece constante, dizemos que este comportamento é homoscedástico. 55
Diagramaticamente, um comportamento homoscedástico de pontuações aleatórias pode ser observado no diagrama 1. Por esse diagrama, mesmo quando o nível (ni ) de renda aumenta, a variância condicional da poupança permanece a mesma.
Diagrama 1 (homoscedástico)
Função densidade de probabilidade Poupança ( y)
n1
ˆ = β 1 + β 2.xi y
n2 n3
n i = nível de renda
Renda ( x)
Nota-se que a variância da poupança permanece constante, mesmo com o aumento da renda. Quando a variância condicional de y (poupança) aumenta, quando a renda (ni ) aumenta, ou seja, quando as variâncias não são mais as mesmas, quando os níveis de renda aumentam, como se pode verificar no diagrama 2, dizemos que existe heteroscedasticidade.
56
Diagrama 2 (heteroscedástico) Função densidade de probabilidade Poupança ( y)
n1
ˆ = β 1 + β 2.xi y
n2 n3
n i = nível de renda
Renda ( x)
OBS: Nota-se que a variância da poupança vai se modificando à medida que o nível de renda aumenta. Alguns autores definem heteroscedasticidade como sendo a existência de não-imutabilidade nos resultados da variância dos erros, ou também, quando os desvios-padrão dos resíduos não são constantes. Como o desvio padrão é a raiz quadrada da variancia, procede a definição.
6.3. CONSEQUÊNCIAS DA HETEROSCEDASTICIDADE Uma das consequências de maior relevância é que os estimadores (bi ) obtidos (principalmente pelo M.Q.O.) não são eficientes ou não apresentam variância mínima, o que significa violar um dos princípios do método dos mínimos quadrados, tendo como consequências: -
erros padrão viesados; incorreção nos testes t e F ; intervalos de confiança não confiável; etc.
6.4. DETECÇÃO DA HETEROSCEDASTICIDADE Para verificação da existência de heteroscedasticidade existem dois métodos (formais e informais) 57
Detecção pelo método informal ou por observação visual:
Os métodos informais podem ser utilizados quando se desconhece a natureza da heteroscedasticidade e, nesse caso, efetuamos a análise de regressão partindo-se da hipótese de que não há nenhuma violação aos pressupostos. Procedimentos operacionais:
1) 2) 3) 4)
Obter a equação de regressão; Determinar os resíduos (eˆi ) ; Representar graficamente os valores residuais no plano cartesiano; Comparar o diagrama assim obtido com os diagramas padronizados de resíduos reconhecidamente heteroscedásticos, cujos formatos são os diagramas d 1 , d 2 , d 3 e d 4 adiante; 5) Se o diagrama obtido assemelhar-se ao da figura (d 1 , d 2 e d 3 ) é provável que a série seja heteroscedástica; caso se assemelhe ao da figura d 4 é provável que a série seja homoscedástica. Diagramas padrão de resíduos heteroscedásticos ˆi e
ˆi e
d1
d2
xi
ˆi e
ˆi e
d3
xi
xi
d4
xi
d 1 , d 2 e d 3 são resíduos heteroscedásticos. d 4 é um resíduo homoscedástico.
58
Exemplo 25:
ˆ = −0,22 + 0,77x. O par xi ; yi apresenta a seguinte equação de regressão: y Verificar, com base em análise visual dos resíduos (e ˆi ) , se a série apresenta tendência heteroscedástica. x
y
ˆi e
6 9 11 15 16 22 23 102
4 6 10 14 9 13 21 77
-0,4 -0,7 1,5 2,5 -3,3 -3,9 3,3
Desenvolvimento:
Pelo método informal, calculamos os resíduos (eˆi ) com base na equação de regressão já ˆi do quadro. Na sequência plotamos esses ˆ = −0,22 + 0,77x , resultando na coluna e informada, y valores no plano cartesiano, cuja imagem é a que se segue. ˆi e 4,0 3,5 3,0 2,5
x
2,0 1,5 1,0 0,5 -0,5
5
10
15
20
25
-1,0 -1,5 -2,0 -2,5 -3,0 -3,5 -4,0
59
Conclusão: Fazendo a comparação gráfica nota-se que o diagrama residual e ˆi do par de valores ( x e y ) assemelha-se ao da figura d 1 que é um padrão de resíduo heteroscedástico. Dessa forma, com base em análise visual dos resíduos, conclui-se que a série em questão é heteroscedástica.
Exemplo 26:
ˆ = −0,1342+ 77,94xi . Verificar, com O par xi ; yi de tendência linear tem equação de regressão y base em análise visual dos resíduos se a mesma é heteroscedástica.
xi
yi
0,060 0,086 0,107 0,146 0,156 0,215 0,230 1,00
4 6 10 14 9 13 21 77
Detecção da heteroscedasticidade pelo método formal
Existem inúmero testes para verificar a presença de heteroscedasticidade pelo método formal, tais como os métodos de: -
Goldfeld e Quandt ; Pesaran e Pesaran; Gledjiser ;
Etc.
Apesar desses métodos apresentarem fundamentos teóricos assemelhados, o mais recomendado é o teste de Goldfeld e Quandt . Neste método, conhecido um dado par de valores de yi e xi , os procedimentos operacionais para sua verificação sãos os seguintes:
Teste de Goldfeld e Quandt
1) Ordenar os valores da variável explicativa xi , de forma crescente, ou seja, segundo a sua magnitude; 2) Os valores de y deverão acompanhar o deslocamento de x ; 3) Eliminar alguns dados centrais da série após a ordenação. Geralmente é da ordem de, no máximo, ⅓ do tamanho amostral ( c = dados eliminados); 60
4) As observações restantes, ou seja, aquelas correspondentes a (n− c) observações deverão ser divididas em dois subgrupos de igual tamanho. Por exemplo, se n = 30 e tendo sido desconsiderado c = 10 (⅓ de 30), restando n = 20, formando dois subgrupos de 10 informações cada; 5) Obter a função de regressão dos dois subgrupos; 6) Obter a soma dos quadrados dos resíduos dos dois subgrupos, respectivamente SQR 1 e SQR2, ou seja: ˆ1 )2 (33) SQR1 = ∑ ( y1 − y ˆ2 )2 (34) SQR2 = ∑ ( y2 − y
7) Obter F calculado (Fc ) , que é a relação entre SQR 2 e SQR1, dividido pelo número de graus de liberdade. ∑ ( y2 − yˆ2 )2 Fc =
0,5.(n − c − 2k) ∑ ( y1 − yˆ1)2 0,5.(n − c − 2k)
(35)
O número de graus de liberdade (g.l.) é dado pela expressão: g.l. =
(n− c − 2k) 2
= 0,5.(n− c − 2k) (36)
Onde: n = tamanho da amostra inicial c = número de itens amostrais desprezados k = número de parâmetros (intercepto + angulares) 8) Comparar o valor de Fc com o valor tabelado de F de Fisher , com o g.l. obtido em (36), ou seja: Fα (n − c − 2k).0,5 9) Se Fc > Fα rejeitamos a hipótese de que a série de resíduos é homoscedástica, o que significa sugerir que, provavelmente, a série é heteroscedástica. Em caso contrário, se Fc < Fα a série é homoscedástica. OBSERVAÇÃO: A finalidade de se desprezar alguns dados centrais da série é acentuar a diferença entre o subgrupo de variância maior. A omissão de dados deverá ser feita em função do tamanho da amostra. Via de regra costuma-se desprezar: - para n = 30 → ±8 dados - para n = 60 → ±16 dados, etc. 61
Exemplo 27:
Verificar, com base no teste de Goldfeld e Quandt , se o par de valores abaixo apresenta sintomas de heteroscedasticidade. Dados originais
y1
x1
33 37 41 46 51 57 65 72 81 91 100 103 114 122 136 141 150 155 163 170 172
44 49 54 62 68 71 78 82 86 92 100 97 98 95 101 109 117 121 121 125 119
Desenvolvimento:
1) Dados ordenados y2
x2
y2
x2
y2
x2
33 37 41 46 51 57 65 72 81 91
44 49 54 62 68 71 78 82 86 92
122 103 114 100 136 141 150 172 155 163
95 97 98 100 101 109 117 119 121 121
170
125
62
OBS: Os dados foram ordenados em função da magnitude de xi
2) Obtenção da função de regressão e do número de graus de liberdade da série 1 (S 1) y1
x1
ˆ1 y
( y1 − yˆ1)2 = (eˆ1)2
33 37 41 46 51 57 65 72 402
44 49 54 62 68 71 78 82 508
31,90 36,83 41,76 49,65 55,57 58,52 65,43 69,37 -
1,20 0,03 0,58 13,32 20,88 2,31 0,18 6,91 45,42 (SQR1)
- Estatísticas obtidas para a série 1: a) Função de regressão: yˆ = −11,48+ 0,986.x1 b) Número de graus de liberdade: (n− c − 2k) 21− 5− 2× 2 g.l.(S1) = = =6 2
2
c) Soma dos quadrados dos resíduos: SQR1 = 45,42
3) Obtenção da função de regressão e do número de graus de liberdade da série 2. y2
x2
y2.x2
x22
100 136 141 150 172 155 163 170 1.187
100 101 109 117 119 121 121 125 796
10.000
10.000 10.201
ˆ2 y
148,74 149,47 155,31 161,15 ... ... 162,61 164,07 164,07 21.250 15.625 166,99 136.851 104.839 -
( y2 − yˆ2 )2 = (eˆ22 ) 2.375,59 181,44 204,78 124,32 88,17 82,26 1,15 9,06 3.066,77 (SQR2)
63
b2 =
n.(∑ x2.y2 ) − (∑ x2 )( . ∑ y2 ) n.(∑ x ) − (∑ x) 2
2
=
8× 136.851− 796×1.187 2
8×104.839− (796)
= 0,73
b1 = y2 − b2.x2 = 148,38− 0,73× 99,5 = 75,74 −
Estatísticas obtidas para a série 2:
ˆ2 = 75,74+ 0,73.x2 a) Função de regressão: y b) Graus de liberdade da S 2 g.l.(S2 ) = 0,5.(21− 5− 4) = 6 c) SQR2 = 3.066,77 (Soma do quadrado dos resíduos)
4) Cálculo do Fc SQR2 3.066,72 g.l.(S2 ) 6 Fc = = = 67,52 SQR1 45,42 6 g.l.(S1 ) Fc = 67,52
5) Fc (tabelado). Consultando a tabela obtemos: Fα
(n− c − 2k) 2
∴ F0,05 (6) = 4,28
6) Conclusão: Fc = 67,52 > F0,05 (6) = 4,28 Constata-se que Fc > Fα o que sugere que a série sob estudo é heteroscedástica.
Exemplo 28:
Verificar se o par de valores abaixo, referentes às despesas com alimentação y e renda mensal x , apresenta violação aos pressupostos básicos pelo método de Goldfeld e Quandt . Faça α = 0,05.
64
Dados informados y1
x1
y1
x1
58 82 120 126 100 122 100 128 105 107 98 181
343 425 467 483 480 496 519 543 540 560 555 591
122 129 93 118 82 182 139 98 124 126
607 611 605 659 664 704 700 720 722 722
n = 22
Desenvolvimento:
1) Dados ordenados y1
x1
58 82 120 100 126 122 100 105 128 98 107 181 93 122 129 118 82 139 182 98 124 126
343 425 467 480 483 496 519 540 543 555 560 591 605 607 611 659 664 700 704 720 722 722
Dados eliminados c =6
n = 22 65
2) Determinação da equação de regressão da amostra 1 yi
xi
58 82 120 100 126 122 100 105 813 b2 =
y.x
x2 117.649
343 19.894 425 467 480 ... ... 483 496 519 540 56.700 291.600 3.753 388.754 1.787.029 n.(∑ x.y) − (∑ x)( . ∑ y) n.(∑ x2 ) − (∑ x)
2
=
ˆ y
( y − yˆ)2 = (eˆ12 )
66,4 89,3 101,0 104,7 105,5 109,1 115,5 121,4 -
71,18 53,51 359,75 21,71 420,37 165,79 241,52 268,96 1.602,79 (SQR1)
8× 388.754− 813× 3.753 58.843 = = 0,279 8× 1.787.029− 14.085.009 211.223
bˆ2 = 0,279 bˆ1 = 101,63− 0,279× 469,13 = −29,26
ˆ = −29,26 + 0,279.xi (Função de regressão da série 1) y
3) Determinação da equação de regressão da amostra 2 y2
129 118 82 139 182 98 124 126 998
x2
y2.x2
x2
611 78.819 373.321 659 664 700 ... ... 704 720 722 722 90.972 521.284 5.502 687.517 3.795.082
ˆ y
( y − yˆ)2 = (eˆ22 )
116,8 121,8
147,79 14,34 1.624,25 168,74 3.088,91 904,20 18,28 5,18 5.067,49 (SQR2)
...
128,3 -
8× 687.517 − 998× 5.502 9.140 bˆ2 = = = 0,103 8× 3.795.082 − 30.272.004 88.652 bˆ1 = y − b2.x = 124,75− 0,103× 687,75 = 53,91 66
ˆ2 = 53,91+ 0,103.xi (Regressão da amostra 2) y
4) Determinação dos graus de liberdade das amostras 1 e 2 g.l1 = 0,5.(n − c − 2k) g.l1 = 0,5.(22 − 6 − 2× 2) = 6
5) Determinação do F calculado: SQR2
5.067,49 6 = 3,16 Fc = = SQR1 1.602,79 6 g.l g.l
Fc = 3,16
6) Comparação com o Fα (tabelado) F0,05(6) = 4,28
. Conclusão: Nota-se que Fc < Fα , o que sugere aceitar a hipótese H 0 , ou seja, a série de resíduos é homoscedástica. Hipóteses: H 0 : a série de resíduos é homoscedástica H1: tal não ocorre
Exemplo 29: O par de valores abaixo mostra o consumo (Y) e renda (X). Aplicar o teste de Goldfeld-Quandt e verificar se há presença de violação aos pressupostos básicos (heteroscedasticidade). Faça α = 0,05.
67
ti t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 t13 t14 t15 t16 t17 t18 t19 t20
Yi
Xi
6 7 7 8 8 9 10 10 9 8 8 11 11 13 11 12 14 12 15 18
8 10 9 11 12 12 13 14 13 9 11 16 15 17 15 18 23 22 24 19
Exemplo 30: Dentre os itens abaixo, identifique as premissas básicas para o modelo de regressão. I. Linearidade do fenômeno medido. II. Variancia não constante dos termos de erro (heteroscedasticidade). III. Normalidade dos erros. IV. Erros correlacionados. V. Presença de colinearidade. a) I e III; b) II e III; c) I,III e IV; d) I,III e V; e) I,II, III e V.
Exemplo 31: Heterocedasticidade refere-se à situação onde a variância dos erros é: a) constante e igual a 1; b) constante; c) variável; d) variável entre 0 e 1; e) infinita sempre. 68
Exemplo 32: Após a estimativa de um modelo de regressão linear, foi constata a presença de heterocedasticidade. Isto significa que os (as): a) resíduos são auto-correlacionados; b) resíduos somados não dão um resultado nulo; c) desvios padrões dos resíduos não são constantes; d) dados usados são transversais (cross-section); e) variáveis independentes são fortemente correlacionadas.
Exemplo 33: Na estimativa de uma regressão linear, o problema da heterocedasticidade ocorre quando: a) os dados são transversais; b) há autorrelação dos resíduos; c) há correlação positiva entre as variáveis independentes; d) a variância dos erros não é constante; e) as variáveis independentes são negativas.
Capítulo 7: AUTOCORRELAÇÃO OU CORRELAÇÃO SERIAL 7.1. NATUREZA DA AUTOCORRELAÇÃO O termo autocorrelação numa série histórica de informações pode ser interpretado como sendo a presença de correlação entre resíduos (eˆi ) de uma dada série temporal. Por exemplo, se uma variável xt é sistematicamente correlacionada com a variável da época imediatamente anterior xt−1, dizemos que xt é uma variável autocorrelacionada e, nesse caso, pode-se concluir que o valor da correlação entre as variáveis xt e xt−1 é diferente de zero.
7.2. PADRÕES GRÁFICOS DE AUTOCORRELAÇÃO ˆi e
Fig. 1
ˆi e
Fig. 2
xt
xt
Ausência de autocorrelação
Presença de autocorrelação
69
Autocorrelação Positiva
ˆi e
Fig. 3
ˆi e
Fig. 4
xt
xt
Autocorrelação Negativa ˆi e
Fig. 5
ˆi e
Fig. 6
xt
xt
Geralmente uma autocorrelação costuma ser positiva, dado que a maioria das séries temporais econômicas se move mais para cima do que para baixo por um período relativamente longo (como o da fig. 3) e não de forma sistemática de curta duração (como o da fig. 5).
7.3. CAUSAS DA AUTOCORRELAÇÃO a)
Omissão de variáveis relevantes na especificação do modelo;
b)
Escolha inadequada do modelo funcional, ou seja, as informações a serem analisadas podem sugerir, a título de exemplo, a aplicação de um modelo exponencial ao invés de um modelo quadrático.
7.4. CONSEQUÊNCIAS DA AUTOCORRELAÇÃO a)
Os parâmetros estimados ( β 1; β 2; etc.) podem não ser eficientes; 70
b)
A estimativa do erro padrão pode apresentar-se viezada, ou seja, um valor que não reflete a realidade, conduzindo os resultados dos testes e intervalos de confiança incoerentes.
7.5. DIAGNÓSTICO (IDENTIFICAÇÃO) DA AUTOCORRELAÇÃO Para verificar a existência da autocorrelação, podemos recorrer ao teste de Durbin & Watson mediante aplicação da equação abaixo: n
∑ (eˆ − eˆ
t−1
t
dc =
t=1 n
∑e
)2 (37)
2 t
t=1
ˆt = valor do resíduo na época t ; e
ˆt−1 = valor do resíduo na época imediatamente anterior e
Devendo-se ressaltar que, quando a análise é feita com esta concepção, ou seja, considerando a época imediatamente anterior, a autocorrelação é chamada de 1ª ordem (maioria dos casos). Quando a análise da época não é a imediatamente anterior, diz-se que a autocorrelação é de ordem superior. O valor de dc é compreendido no intervalo 0 a 4, ou seja, (0 ≤ dc ≤ 4) . - se dc = 0 indica ausência de autocorrelação - se dc > 2 indica a presença de autocorrelação negativa - se dc < 2 indica a presença de autocorrelação positiva Para fazer o diagnóstico, o valor de dc (d calculado) é comparado com o valor tabelado de Durbin & Watson, levando sempre em consideração o nível de significância α desejado e o número de variáveis explicativas. A tabela de Durbin/Watson apresenta suas limitações, pois não foi desenvolvida com base em modelos funcionais, como é o caso da distribuição normal, razão pela qual existe um intervalo de valores em que o teste de Durbin/Watson (d ) é inconclusivo. Nestes casos outros meios poderão ser usados, como veremos mais à frente. Na tabela de Durbin/Watson, os limites Di (inferior) e Du (superior), que passaremos a chamar de di e dS , respectivamente, são utilizados para testar a autocorrelação positiva (d < 2) , enquanto que os limites (4− ds ) e (4− di ) para testar a autocorrelação negativa (d > 2) . Assim, di e ds são valores críticos da estatística de Durbin/Watson (tabelados).
71
Realização do teste:
1) Quando a autocorrelação é positiva (dc < 2) . 1.1) Se dc < di → sugere presença de autocorrelação positiva (Região I do gráfico). 1.2) Se di < dc < ds → o teste é não conclusivo, ou seja, não podemos afirmar se a série é ou não autocorrelacionada (Região II do gráfico). 1.3) Se dc > ds → ausência de autocorrelação (Região III).
2) Quando a autocorrelação é negativa (dc > 2) . 2.1) Se dc < (4− ds ) → ausência de autocorrelação (Região III) 2.2) Se (4 − ds ) < dc < (4 − di ) → o teste é inconclusivo (Região IV) 2.3) Se dc > (4 − di ) → sugere presença de autocorrelação negativa (Região V).
(dc < 2)
Autocorrelação positiva
(dc > 2)
Autocorrelação negativa
Pres. AC (+)
Não Conc.
Ausência AC
Não Conc.
Pres. AC (-)
Região I
Região II
Região III
Região IV
Região V
(dc < 2) sugere presença de autocorrelação positiva
(dc < 2) sugere presença de autocorrelação negativa
0
di
ds
2 (4− ds )
(4− di )
4
72
Exemplo 34: Verificar a existência de autocorrelação no par de valores referente a dados de consumo ( Yi ) e renda Xi . O modelo funcional é linear. Faça α = 0,05 .
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
ti
Yi
Xi
ˆi y
ˆt e
ˆt − e ˆt−1 e
(eˆt − eˆt−1)2
(eˆt )2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
745 652 709 692 668 671 698 661 685 675 673 693 748 740 715 10.425
988 812 892 911 904 920 934 956 959 966 989 997 1.011 997 999 14.235
708,11 648,97 675,85 682,24
36,89 3,03 33,15 9,76
-33,86 30,12 -23,38
1.146,50 907,21 547,09
1.360,87 9,18 1.098,92 95,26
...
...
...
...
...
711,80 -
3,20 -
-25,67 -
658,95 10.288,95
10,24 8.663,40
∑
Procedimentos operacionais: a) Equação de regressão do consumo em função da renda. ˆ = 376,14 + 0,336.xi y b) Valores ajustados com base na equação anterior. ˆi Ver coluna (4) → y c) Valores residuais (eˆt ) → coluna (5) d) Cálculo das diferenças sucessivas residuais da época t em relação à época imediatamente anterior (t − 1) → eˆt − eˆt−1 . Coluna (6) e) Soma dos quadrados das diferenças residuais. Coluna (7) ∑ (eˆt − eˆt−1)2 = 10.288,95 f) Soma dos quadrados dos resíduos eˆi2 . Coluna (8). 15
∑ eˆ
2 i
= 8.663,40
i =1
g) Cálculo de d . 73
dc =
10.288,95 = 1,1876 = 1,19 8.663,40
h) Comparar o valor de dc = 1,19 com o valor tabelado de Durbin/Watson, com α = 0,05 e com o tamanho da amostra n = 15 para o exercício em questão e ainda considerando uma variável explicativa, dado que a forma funcional é linear simples. Daí obtemos para di = 1,08 e ds = 1,36 . Como o valor calculado de d (dc = 1,19) está entre os dois valores tabelados, ou seja, 1,08 < 1,19 < 1,36, conclui-se que o resultado do teste é inconclusivo, o que significa que não podemos afirmar se há ou não autocorrelação.
Exemplo 35:
Uma amostra de 10 observações de um dado fenômeno foi ajustado a um modelo econométrico contendo 2 variáveis explicativas. O valor obtido de dc = 1,17 . Verificar pelo teste DW se a série é autocorrelacionada. Faça α = 0,05 . Solução: n = 10; dc = 1,17; k = 2; α = 0,05
Verifica-se que dc < 2, o que significa que a autocorrelação, se existir, será positiva. Como di < dc < ds (0,697 < 1,17 < 1,641) autocorrelacionada ou não.
sugere inconclusão, não se podendo afirmar se é
Exemplo 36:
Com uma amostra de 80 observações foi estimada uma equação com três variáveis explicativas. Considerando que o valor obtido para dc = 2,92, testar a presença de autocorrelação pelo teste de DW com α = 0,05 . Solução: n = 80 ; dc = 2,92; k = 3; α = 0,05
Considerando a tabela, obtemos: di = 1,56 ; ds = 1,715 . Como dc > 2, a autocorrelação é negativa. 4 − ds = 4 − 1,715 = 2,285 74
4 − di = 4 − 1,56 = 2,44 Como dc = 2,92 é maior do que 4 − di = 2,44 (dc > 4 − di ) , pertence a região de aceitação da hipótese da existência de autocorrelação (Região V) no gráfico ilustrativo, o que sugere a presença de autocorrelação negativa.
Exemplo 37:
São conhecidas as estatísticas: a) Tamanho da amostra n = 50 observações; b) Número de variáveis explicativas: k = 4 variáveis; c) Nível de significância desejado α = 0,05 . Testar a presença de autocorrelação para os valores de dc a seguir: 1) dc = 1,40 2) dc = 2,50 3) dc = 3,97 4) dc = 2,115
Exemplo 38:
Verificar a existência de autocorrelação no par de valores abaixo. linear.Faça α = 0,05 ti t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 ∑
Yi
Xi
20 26 30 28 32 30 35 48 41 50 330
12 13 15 18 24 30 40 64 88 96 400
O modelo funcional é
75
7.6. MEDIDAS CORRETIVAS VISANDO A REMOÇÃO DA AUTOCORRELAÇÃO Detectada a presença de autocorrelação é possível removê-la. Entretanto, a operação de remoção deverá ser precedida de algum tipo de análise com o objetivo de verificar a sua causa. Por exemplo, poderá ser ocasionada pela má especificação na formatação do modelo. Uma vez detectada a causa, poderá ser corrigida com a inclusão de variáveis adicionais ou com a substituição do modelo funcional. Se a causa é parte integrante do modelo estimado pelo pesquisador, ela deverá ser removida. Para melhor entendimento do problema, mostraremos, inicialmente, o desenvolvimento da equação de Durbin/Watson (DW ) para a obtenção do valor de dc . Desenvolvimento da equação de Durbin/Watson para obtenção do valor de dc . Já vimos que: n
∑ (eˆ − eˆ
t−1
t
dc =
)2
i =1 n
∑ (eˆ ) 2 t
i =1
Desenvolvendo o numerador da equação, obtemos: dc
(eˆ =∑
ˆt × e ˆt−1 + e ˆt2−1) − 2.e ∑ eˆt2
dc
∑ eˆ =
− 2.∑ eˆt × eˆt−1 + ∑ eˆt2−1 (38) 2 ˆ e ∑t
2 t
2 t
Se o tamanho da amostra da série sob estudo for relativamente grande, a diferença entre eˆt2 e ˆt2−1 , segundo leis estatísticas, é muito pequena, podendo considerá-las como sendo iguais. e
Aplicando esse princípio em (38), obtemos: dc
∑ eˆ =
2 t
ˆt × eˆt−1 − 2.∑ e ∑ eˆt2
Dividindo os dois membros do numerador por eˆt2 , obtemos:
∑ e ˆt2 ∑ e ˆt × e ˆt−1 dc = 2× − 2 2 ∑e ∑ eˆt ˆt
76
dc = 2× 1−
∑ eˆ × eˆ ∑ eˆ
(39)
t−1
t
2 t
Sabe-se que a relação
∑ eˆt × eˆt 1 2 ∑ eˆt −
é um estimador do coeficiente de correlação de erros, podendo
assim ser denominado de r . Assim, a equação (39) transformar-se-á em: dc = 2× (1− r ) (40)
Esta equação também poderá ser usada para verificar a presença de autocorrelação. Por exemplo: Se o valor de r = 0, dc terá um valor próximo de 2, o que sugere ausência de autocorrelação. Se r = (± 1), ou no entorno desse valor, dc terá um valor próximo de zero, o que indica presença de autocorrelação positiva. Se r = (− 1) , ou próximo desse valor, dc terá um valor próximo de quatro, o que indica presença de autocorrelação negativa, pois, conforme já foi visto, valores acima de 2 indicam autocorrelação negativa e inferiores a 2 autocorrelação positiva. Contudo, para verificação da existência de autocorrelação, DW desenvolveu uma tabela contendo os valores críticos dos limites inferiores e limites superiores em função do número de observações (n) , número de variáveis explicativas (k) e do nível de significância desejado (α ) , já do nosso conhecimento e utilizados em exemplos anteriores. Para a remoção da autocorrelação, tomaremos como base a equação (40) para estimar o valor de r que nada mais é do que o estimador do coeficiente de correlação de erros, ou seja: n
∑ eˆ × eˆ
t−1
t
r=
i =1 n
∑ eˆ
2 t
i =1
Efetuando-se os desenvolvimentos, obteremos o valor de dc = 2.(1− r ) , colocando r em evidência obtemos dc = 2 − 2r , dividindo ambos os membros por 2 obtemos: dc 2 2r = − 2 2 2
dc d = 1− r ∴ r = 1− c 2 2
(41)
77
Assim, conhecido o valor de dc , pode-se estimar o valor de r através da igualdade (41) acima e, uma vez estimado r , podemos efetuar a correlação dos valores conhecidos das variáveis, obtendo-se as variáveis transformadas. Por exemplo: Se y é a variável dependente e x a variável explicativa e chamando yc e xc de variáveis transformadas em função de r , temos: yc,t = yt − r × yt−1 (42) xc,t = xt − r × xt−1 (43)
Exemplo: Suponhamos que: dc = 1,188; yt = 745; y = 652 1
O valor de y corrigido em t2 será: r = 1−
dc 1,188 = 1− = 0,4060 2 2
yc,2 = y2 − 0,4060× 745 yc,2 = 652 − 302,47 yc,2 = 349,53
Procedimento idêntico deverá ser observado para as variáveis explicativas x .
Exemplo 39:
No exemplo 34 da página 73 verificamos que o par de valores y e x eram autocorrelacionados e concluímos, pelo teste de Durbin/Watson, que não podemos afirmar se há ou não autocorrelação pois, segundo o teste, caiu na região de inconclusão.
78
Com base nos dados do mesmo exemplo 34, aplicar medidas corretivas junto às variáveis yi e xi e verificar se a nova série permanece inconclusiva. (1) (2) (3) (4) (5) (6) (7) (8) (9) ˆc,t ˆc,t yc,t xc,t y e yi xt ti (3) × (5) (5)2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ∑
745 652 709 692 668 671 698 661 685 675 673 693 748 740 715 10.425
349,53 444,29 404,15 387,05 399,79 425,57 377,61 416,63 396,89 398,95 419,76 466,64 436,31 414,56 5.737,73
988 812 892 911 904 920 934 956 959 966 989 997 1.011 997 999 -
410,87 562,33 548,85 534,13 552,97 560,48 576,79 570,86 576,65 596,80 595,47 606,22 586,53 594,22 7.873,17
143.611,39
168.814,16
...
...
246.339,84 3.239.285,87
353.097,41 4.457.939,38
347,04 409,82 404,23 398,13 405,06 409,06 415,81 413,36 415,76 424,11 423,56 428,01 419,85 423,04 -
2,48 34,47 -0,08 -11,08 -6,15 16,51 -38,20 3,97 -18,87 -25,16 -3,80 38,63 16,46 -8,48 -
. Continuação da tabela: (1) ti 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ∑
ˆc,ti e
(10) = eˆc,t − eˆc,t−1 31,99 -34,55 -11,00 4,93 22,66 -54,71 41,47 -22,14 -6,29 21,36 42,43 -22,17 -24,94 -
(11)
(12)
(10)2
(9)2
1.023,36 1.193,70 121,00 24,30
6,15 1.188,18 0,006 122,77 37,82
...
...
622,00 11.488,60
71,91 5.936,10
Desenvolvimento: 1) Valor de d já obtido anteriormente d = 1,188 ≅ 1,19
79
2) Cálculo do valor de r r = 1−
d 1,1876 ⇒ r = 1− = 0,4060 2 2
3) Transformação da variável yt em yc,t yc,t = y − r × yt−1 (coluna 3 da tabela) yc,t1 = 652 − 0,4060× 745 = 349,53
...
yc,t15 = 715 − 0,4060× 740 = 414,56
4) Transformação da variável xt em xc,t xc,t = xt − r × xt−1 (coluna 5 da tabela) xc,t1 = 812 − 0,4060× 988 = 410,87
...
xc,t15 = 999 − 0,4060× 997 = 594,22
5) Determinação da função consumo, tendo por base os dados transformados (colunas 3 e 5) β 2 =
n.∑ ( yc,t × xc,t ) − (∑ yc,t )( . ∑ xc,t ) n.∑ (xc,t ) − (∑ xc,t ) 2
2
β 2 = 0,4145
β 1 = yc,t − xc,t × β 2 β 1 = 176,74
∴ yˆc,t = 176,74 + 0,4145.xc,t
6) Ajustamento dos valores de yc,t com base na função encontrada na questão anterior (coluna 8 da tabela)
ˆc,t2 = 176,74 + 0,4145× 410,87 = 347,04 y 80
ˆc,t1 desaparece, pois t1 não existe mais. OBS: reparar que a y ˆc,t15 = 176,74 + 0,4145× 594,22 = 423,04 y
7) Determinação dos resíduos, efetuando-se a diferença entre os dados de yt (conhecido) e os ˆc,t (ajustados), ou seja y
ˆc,t = yc,t − y ˆc,t e ˆc2 ,t2 = yc,t2 − y ˆc,t2 ⇒ 349,52 − 347,04 = 2,48 e
...
ˆc15 ,t15 = yc,t15 − y ˆc,t15 ⇒ 414,56 − 423,04 = −8,48 e
8) Determinação das diferenças sucessivas dos resíduos, ou seja, entre os resíduos da época t pelas da época imediatamente anterior (t − 1) .
ˆc,t = e ˆc,t − e ˆc,t−1 (coluna 10) e Observar que os resíduos da época t1 e t2 não existirão mais, iniciando-se pela época t3 .
ˆc,t3 = e ˆc,t3 − e ˆc,t2 ⇒ 34,47 − 2,48 = 31,98 e
...
ˆc,t15 = e ˆc,t15 − eˆc,t14 ⇒ −8,48 − 16,46 = −24,94 e
9) Determinação da soma dos quadrados das diferenças sucessivas residuais n
∑ (eˆ
c,t
− eˆc,t−1) = 11.488,60 (coluna 11) 2
i =1
10) Determinação da soma dos quadrados dos resíduos
∑ eˆ
2 c,t
= 5.936,10 (coluna 12)
81
11) Determinação do novo valor de d
(eˆ − eˆ ) =∑ ∑ eˆ
2
dc
c,t
c,t −1
2 c,t
=
11.488,60 = 1,94 5.936,10
12) Consulta ao valor tabelado de d com: n = 14; α = 0,05 e k = 1 Encontramos di = 1,045 e ds = 1,350 que são os intervalos críticos.
13) Comparação com o valor de dc = 1,94 Verifica-se que o valor calculado de d (dc = 1,94) é exterior aos intervalos críticos da tabela de Durbin/Watson, cujos valores são, respectivamente, di = 1,045 e ds = 1,350. Verifica-se também que o valor de d é menor que 2 (d < 2) , o que sugere, em princípio, que a série é autocorrelacionada positivamente. Contudo, como dc = 1,94, ou seja, maior do que o ds = 1,350, cai na Região III da ilustração gráfica, o que sugere ausência de autocorrelação, significando que a autocorrelação foi removida.
Capítulo 8: UTILIZAÇÃO DE VARIÁVEIS ESPECIAIS 8.1. VARIÁVEIS DUMMY (DUMMIES, BINÁRIAS, ARTIFICIAIS, DICOTÔMICAS, ETC.) Nos capítulos anteriores lidamos exclusivamente com variáveis que podíamos medir, denominadas variáveis quantitativas como, por exemplo: nível de renda, variação salarial, taxa de desemprego, etc. Entretanto, algumas variáveis consideradas relevantes para fins de pesquisas não são numéricas, elas são de natureza qualitativa, tais como: sexo, religião, nível de instrução, etc. Em certos estudos, é fundamental o uso das variáveis qualitativas denominadas dummy (d) na análise de regressão, pois permite expandir os objetivos da mesma, de forma a levar em consideração variáveis relevantes que não podem ser avaliadas em termos quantitativos. Com a aplicação da variável (d) é possível considerar os efeitos de natureza qualitativa que influenciam os valores da variável dependente ( y) . A variável (d) , para fins operacionais, assume dois valores: 1 (um), indicando uma situação e 0 (zero), a outra situação como, por exemplo: 82
1 = ocorrência de um evento e 0 = não ocorrência Por ser uma variável qualitativa, tem como alguns de seus objetivos, na análise de regressão, absorver os efeitos temporais, tais como: mudança nas políticas econômicas, efeitos decorrentes de sexo, religião, nacionalidade, etc. conforme acima comentado.
8.2. INCORPORAÇÃO DA VARIÁVEL (d) AO MODELO DE REGRESSÃO LINEAR Pode ser incorporada de forma aditiva, multiplicativa ou mista (conjugação dos dois primeiros). Abordaremos nesse módulo as formas aditiva e multiplicativa.
A) INCORPORAÇÃO DA VARIÁVEL d PELA FORMA ADITIVA Quando os efeitos citados anteriormente alteram apenas o termo constante (intercepto), a variável é incorporada aditivamente. Assim, incorporando ao modelo de regressão uma variável qualitativa e chamando de d = 1 um determinado período da série e d = 0 o outro período, cuja condição é normal, teremos na equação geral de regressão a seguinte expressão: y = β 1 + β 2.x1 + β 3.x2 + e
Fazendo x2 = d , temos: y = β 1 + β 2.x1 + β 3.d + e Fazendo d = 0, obtemos: y = β 1 + β 2.x1 + e Fazendo d = 1 temos: y = β 1 + β 2.x1 + β 3 + e Sabemos que β 1 e β 3 são constantes e nessa condição temos: y = ( β 1 + β 3) + β 2.x1 + e Assim, chegamos a duas equações de regressão. A primeira com base na condição d = 0, obtendo-se y = β 1 + β 2.x1 + e e a segunda na condição d = 1, obtendo-se y = ( β 1 + β 3) + β 2.x1 + e. Verifica-se que quando d = 1 o valor do intercepto se modifica, passando a ser ( β 1 + β 3) e quando d = 0 o intercepto não se altera.
83
Com a incorporação da variável (d) ao modelo, criamos um deslocamento paralelo de (d) que pode ser para cima (forma aditiva) ou para baixo (forma subtrativa), conforme o valor de β 3 resulte de forma positiva ou negativa, respectivamente. Um exemplo numérico poderá explicitar melhor.
Exemplo 40:
Considere a série de valores, em milhões de dólares, referente ao gasto de um dado país com esforço de guerra ( Y ) e a renda nacional ( X ) . Introduzir a variável (d) no período de t 8 a t13, considerado período de convulsão. Mostrar o efeito causado pela interação da variável (d) , pela forma aditiva, bem como a imagem gráfica das duas equações de regressão.
ti
Y
X1
X2 = D
y
x1
d
x.y
d2
x.d
y.d
x2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
2,6 3,0 3,6 3,7 3,8 4,1 4,4 7,1 8,0 8,9 9,7 10,2 10,1 7,9 8,7 9,1 10,1 115
2,4 2,8 3,1 3,4 3,9 4,0 4,2 5,1 6,3 8,1 8,8 9,6 9,7 9,6 10,4 12,0 12,9 116,3
0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 6
-4,16 -3,76 -3,16 -3,06 -2,96 -2,66 -2,36 0,34 1,24 2,14 2,94 3,44 3,34 1,14 1,94 2,34 3,34
-4,44 -4,04 -3,74 -3,44 -2,94 -2,84 -2,64 -1,74 -0,54 1,26 1,96 2,76 2,86 2,76 3,56 5,16 6,06
-0,35 -0,35 -0,35 -0,35 -0,35 -0,35 -0,35 0,65 0,65 0,65 0,65 0,65 0,65 -0,35 -0,35 -0,35 -0,35
18,47 15,19 11,82 10,53 8,70 7,55 6,23 -0,59 -0,67 2,70 5,76 9,49 9,55 3,15 6,91 12,07 20,24 147,10
0,1225 0,1225 0,1225 0,1225 0,1225 0,1225 0,1225 0,4225 0,4225 0,4225 0,4225 0,4225 0,4225 0,1225 0,1225 0,1225 0,1225 3,8825
1,554 1,41 1,31 1,20 1,03 0,99 0,92 -1,13 -0,35 0,82 1,27 1,79 1,86 -0,97 -1,25 -1,81 -2,12 6,52
1,456
19,714
-1,169 13,425
36,724 193,76
∑
OBS: Para a determinação dos parâmetros β 1, β 2 e β 3 , recomendamos inicialmente efetuar a transformação das variáveis Υ , Χ1 e D em y , x1 e d , calculando-se os afastamentos em torno da média de cada variável, ou seja: y = Y − Y x1 = X1 − X1 d = D− D No exemplo: Y = 6,76 ; X1 = 6,84 ; D = 0,35
84
Cálculo dos parâmetros:
(∑ x .y).(∑ d ) − (∑ x.d)(. ∑ y.d) = (∑ x ).(∑ d ) − (∑ x .d) 2
b2
b2 =
1
2 1
2
2
1
147,10× 3,885 − 6,52× 13,425 483,585 = 2 709,763 193,76× 3,885 − (6,52)
b2 = 0,68
(∑ y.d).(∑ x2 ) − (∑ x.d)(. ∑ x.y) b3 = (∑ x2 )(. ∑ d2) − (∑ x.d)2 b3 =
13,425× 193,76 − 6,52× 13,425 1642,14 = 2 709,763 193,76× 3,8825 − (6,52)
b3 = 2,31 b1 = y − b2.x1 − b3.D b1 = 6,76 − 0,68× 6,84 − 2,31× 0,35
b1 = 1,3
∴ yˆ = 1,3+ 0,68.x + 2,31.d - Fazendo d = 0, encontramos: ˆ1 = 1,3+ 0,68.x (1) y
- Para d = 1 ˆ2 = 1,3+ 0,68.x + 2,31 y ˆ2 = (1,3+ 2,31) + 0,68.x y ˆ2 = 3,61+ 0,68.x (2) y
- Conclusão: ˆ1 = 1,3+ 0,68.x . Para a época normal de paz, a equação de regressão é a (1), ou seja, y ˆ1 = 3,61+ 0,68.x . Para a época de guerra a equação de regressão é a (2), ou seja, y 85
O efeito aditivo da interação é a diferença entre os interceptos de 3,61− 1,30 ⇒ 2,31(milhões).
ˆ1 , ou seja, ˆ2 e y y
- Imagem gráfica: 12 ˆ2 = 3,61+ 0,68.x y
10
Efeito da interação (3,61− 1,30) = 2,31
8 6 4 ˆ1 = 1,3+ 0,68.x y
2 2
4
6
8
Na regressão (1) para
ˆ1 = 1,3 x = 0→ y ˆ1 = 8,1 x = 10 → y
Na regressão (2) para
ˆ2 = 3,61 x = 0→ y ˆ2 = 10,41 x = 10 → y
10
12
Exemplo 41:
Considere o par de valores X e Y levantados durante 10 períodos. Introduzir a variável dummy no período de t1 a t 5 pela forma aditiva e avaliar o efeito da interação, retratando inclusive a sua imagem no plano cartesiano.
ti
Yi
Xi
1 2 3 4 5 6 7 8 9 10
6 13 15 12 9 14 16 18 15 22 140
2 1 5 4 3 13 18 20 25 29 120
∑
86
B) INCORPORAÇÃO DA VARIÁVEL (d) PELA FORMA MULTIPLICATIVA Geralmente, a incorporação da variável (d) pela forma multiplicativa é utilizada quando ocorre alguma mudança na capacidade de gerar efeito de uma ou mais variáveis explicativas do modelo. Ex: Produção de um determinado bem agrícola em função da área plantada e da aplicação de fertilizante ao solo. Sabemos que a aplicação de fertilizante intensifica o efeito da área plantada, o que sugere a introdução da variável (d) multiplicativa para captar o efeito interativo das duas variáveis (área plantada e aplicação de fertilizante). O modelo de regressão poderá ser especificado da forma a seguir: y = β 1 + β 2.x1 + β 3.(x1.d)
Onde: d = dummy
d = 1 = se for utilizado fertilizante e d = 0= em caso contrário
O termo ( x1.d) indica a mudança provocada pela influência de x1 após a aplicação de fertilizante. Assim, se for aplicado fertilizante, temos d = 1 e teremos: y = β 1 + β 2.x1 + β 3.(x1.1) , o que implica em: y = β 1 + x1.( β 2 + β 3)
Em caso contrário, ou seja, área não fertilizada, temos d = 0. y = β 1 + β 2.x1 + β 3.(x1.0) , o que implica em: y = β 1 + β 2.x1
Pode-se observar que o coeficiente angular β 2 se altera caso d = 1, significando que o efeito sobre a área plantada se intensifica com o emprego do fertilizante. Resumindo: ( x1.d) é uma variável interativa e ( β 2 + β 3) é o efeito da interação. O exemplo a seguir explicitará melhor.
87
Exemplo 42:
Os dados a seguir referem-se a produção agrícola ( Y ) , em milhões de toneladas, e a quantidade de fertilizantes aplicados ( X ) , em toneladas, durante dez períodos consecutivos. Verificar o efeito da aplicação de fertilizantes na produção agrícola com a introdução da variável dummy pela forma multiplicativa, sabendo-se que o período da aplicação de fertilizantes foi durante a época t 5 a t10. Traçar a equação no plano cartesiano, ilustrando a imagem gráfica do efeito.
ti
Y
X
D
y
x
X .D = D'
x.y
d2
x.d
y.d
x2
1 2 3 4 5 6 7 8 9 10
9 8 11 13 10 14 15 18 20 22 140
8 7 8 10 7 6 12 11 10 11 90
0 0 0 0 1 1 1 1 1 1 6
-5 -6 -3 -1 -4 0 1 4 6 8 0
-1 -2 -1 1 -2 -3 3 2 1 2 0
0 0 0 0 7 6 12 11 10 11 57
5 12 3 -1 8 0 3 8 6 16 60
32,49 32,49 32,49 32,49 1,69 0,09 39,69 28,09 18,49 28,09 246,1
5,7 11,4 5,7 -5,7 -2,6 -0,9 18,9 10,6 4,3 10,6 58
28,5 34,2 17,1 5,7 -5,2 0 6,3 21,2 25,8 42,4 176
1 4 1 1 4 9 9 4 1 2 36
∑
y = 14
X =9
D '=
57 = 5,7 10
D'= X .D
d = D'− D '
(∑ x1.y).(∑ d2 ) − (∑ x1.d)(. ∑ y.d) b2 = (∑ x2)(. ∑ d2) − (∑ x.d)2 b2 =
(60× 246,1) − (58× 176) 4558 = = 0,83 5495,6 (36× 246,1) − (58)2
(∑ y.d).(∑ x2 ) − (∑ x.d)(. ∑ x.y) b3 = (∑ x2 )(. ∑ d2) − (∑ x.d)2 b3 =
2856 = 0,52 5495,6
b1 = y − b2.x − b3.5,7 b1 = 14 − 0,83× 9 − 0,52× 5,7 b1 = 3,57
∴ yˆ = 3,57 + 0,83x + 0,52x.d (geral) variável de interação ˆ = 3,57 + 0,83.x d=0 → y 88
ˆ = 3,57 + (0,83 + 0,52).x = 3,57 + 1,35.x d = 1→ y efeito da interação - Imagem Gráfica
Com fertilizante
25
ˆ1 = 3,57 + 1,35.x y ˆ1 = 1,3+ 0,68.x y
Semfertilizante
20 15
Efeito da interação
10 ˆ1 = 3,57 + 0,83.x y
5 5
10
15
20
25
ˆ1 = 3,57 + 0,83.x y
Para
x = 0 → y1 = 3,57 x = 10 → y1 = 11,87
ˆ2 = 3,57 + 1,35.x y
Para
x = 0 → y2 = 3,57 x = 10 → y2 = 17,1
89
Exemplo 43:
Dado o par de valores xi e yi de tendência linear, aplicar a variável binária pela forma multiplicativa. Introduzir a variável d nos 6 primeiros períodos da série.
ti
Y
X1
D′
D = X .D′
y
x1
d
x1.y
x12
d2
x1.d
y.d
1 2 3 4 5 6 7 8 9 10
5 6 7 12 14 10 15 18 13 20 120
12 15 22 20 15 16 19 20 12 9 160
1 1 1 1 1 1 0 0 0 0 -
12 15 22 20 15 16 0 0 0 0 100
-7 -6 -5 0 2 -2 3 6 1 8 0
-4 -1 6 4 -1 0 3 4 -4 -7 0
2 5 12 10 5 6 -10 -10 -10 -10 0
28 6 -30 0 -2 0 9 24 -4 -56 -25
16 1 36 16 1 0 9 16 16 49 160
4 25 144 100 25 36 100 100 100 100 734
-8 -5 72 40 -5 0 -30 -40 40 70 134
-14 -30 -60 0 10 -12 -30 -60 -10 -80 -286
∑
Y = 12
−
y = Y − 12
X1 = 16
x1 = X1 − 16
D = 10
d = D − 10
Estatísticas:
∑ x .y = −25
∑ x .d = 134
∑x
= 160
∑ y.d = −286
∑d
= 734
1
2 1
2
1
(∑ x1.y).(∑ d2 ) − (∑ x1.d)(. ∑ y.d) b2 = (∑ x12 )(. ∑ d2) − (∑ x1.d)2 b2 =
(− 25× 734) − 134× (− 286) 19.974 = = 0,2 (160× 734) − 1342 99.484
(∑ y.d).(∑ x12 ) − (∑ x.d)(. ∑ x.y) b3 = (∑ x12 )(. ∑ d2) − (∑ x1.d)2 90
b3 =
− 45.760− 3.350 − 42.410 = = −0,43 99.484 99.484
bˆ1 = 12 − 0,2× 16 − (− 0,43× 10) = 13,1 ˆ = 13,1+ 0,2x1 − 0,43x1.d y −
Para d = 0 ˆ1 = 13,1+ 0,2x1 ( 1 ) y
−
Para d = 1 ˆ2 = 13,1+ 0,2x1 − 0,43x1 y ˆ2 = 13,1+ x1.(0,2 − 0,43) y ˆ2 = 13,1− 0,23x1 ( 2 ) y
- Imagem gráfica:
(1)
20 15
α = efeito da interação
(efeito subtrativo)
10 (2)
5
5
10
15
20
−
Regressão (1) ˆ1 = 13,1+ 0,2x1 x = 0 → y1 = 13,1 y x = 20 → y1 = 4,0 + 13,1= 17,1
−
Regressão (2) 91
ˆ2 = 13,1− 0,23x1 x = 0 → y2 = 13,1 y x = 20 → y2 = 8,5
Exemplo 44:
Os dados abaixo referem-se a consumo de energia elétrica ( Y ) , produção real ( Xi ) e variável dummy (D) , levantados no horário de verão durante 10 anos (dados hipotéticos). Verificar o efeito da variável (D) pela forma multiplicativa.
ti
Y
Xi
(D)
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
7 8 8 9 9 10 10 11 12 16 100
8 9 8 9 9 10 12 13 15 17 110
0 0 0 0 0 1 1 1 1 1 5
∑
Capítulo 9: ANÁLISE DAS SÉRIES TEMPORAIS 9.1. INTRODUÇÃO O objetivo deste módulo é fazer uma abordagem superficial sobre análise de uma série temporal, não tendo como objetivo o aprofundamento teórico e operacional deste importante segmento da estatística, em função da reduzida carga horária disponível.
9.2. CONCEITO DE SÉRIES TEMPORAIS Uma série temporal é um conjunto de observações de um determinado fenômeno variável com o tempo. Por exemplo, constituem séries temporais, os índices de preços mensais de um bem, exportação brasileira de manufaturados no período de t 1 a tn , etc. Se representarmos os termos da série em um plano cartesiano, representado pelo eixo de ordenadas (y) pelo eixo das abscissas (x), acompanhando os dados da série, obter-se-á uma configuração como o da figura abaixo: y Figura 1
x
92
Onde y é uma variável função do tempo ∴ y = f(x) Numa série temporal costumamos distinguir quatro componentes (tendência, variações sazonais; variações cíclicas e variações aleatórias ou irregulares), cuja análise é importante para o perfeito conhecimento do fenômeno representado pelos mesmos. Os componentes citados podem ser definidos conforme abaixo: a) Tendência Também chamada de tendência secular ou movimento a longo prazo, pode ser conceituada como sendo a função média de seu processo gerador, entendendo-se por processo gerador, ou processo estocástico, uma família infinita de variáveis Xi (i = 0; ±1; ±2; ±3;......) tal que os diversos termos da série são considerados como observações das variáveis aleatórias x1; x2; ......xn, , o que significa dizer que X1 é uma observação de x1; X2 é uma observação de x2; Xn de xn......etc. Em outras palavras, é a tendência provável do comportamento da série num intervalo de tempo razoavelmente longo em relação a unidade de tempo considerada. Nota-se na figura 1 a provável tendência crescente da série.
b) Variações sazonais ou estacionais São flutuações que se verificam aproximadamente nas mesmas épocas de cada ano resultantes de fenômenos cíclicos exteriores ao conjunto principal de causas que atuam sobre os termos da série. São exemplos de variações sazonais: a venda de artigos para crianças na época natalina; índice de precipitação pluviométrica acompanhada mensalmente numa determinada cidade num período de cinco anos.
c) Variações cíclicas Os movimentos cíclicos são formados por ciclos. Basicamente um ciclo consiste de um período de expansão das atividades econômicas, seguidas de recessão, contração e recuperação que se confunde com a fase de expansão do novo ciclo. Na componente cíclica, o mais importante é o denominado ciclo de negócios que são tipos de flutuações encontradas nas atividades econômicas agregada de nações que organizam seu trabalho principalmente em empresas comerciais. Os ciclos econômicos são tipos de flutuações que perduram por mais de um ano e tendem a se repetir com certa regularidade. O ciclo de negócios, por exemplo, costuma ter duração superior a um ano podendo alcançar até 10 a 12 anos. Em média, um ciclo costuma oscilar em torno de 4 anos.
93
d) Variações irregulares São flutuações esporádicas da série ocasionadas por eventos inesperados. São exemplos de variações irregulares: enchentes; greves; terremotos; incêndios, etc.. que afetam a maioria das atividades produtivas dependendo da sua intensidade. Este componente, face as suas características imprevisíveis, é de difícil análise. Sob o ponto de vista econômico, é comum afirmar-se que a componente tendência , comentado em a) e a componente sazonal comentado em (b) são as de maior relevância, ou seja, aquelas que mais se sobressaem se comparadas com as outras componentes.
9.3. ANÁLISE DE UMA SÉRIE TEMPORAL Já vimos que os principais componentes de uma série temporal podem ser: Tendência (T); Variações estacionais (E); Variações cíclicas (C) e Variações irregulares (I). Analisar uma série temporal consiste em investigar, utilizando-se de técnicas especiais, as componentes T; E; C e I, podendo ser feito duas formas: por soma Y= T + E + C + I , ou por multiplicação Y= T x E x C x I. Na prática, o método a ser considerado depende da significância do sucesso alcançado com a aplicação da hipótese. Para melhor compreensão, daremos a sequencia normal dos procedimentos operacionais que deverão ser adotados para analisar uma série temporal: a. Preparar a série quando se tratar de valores monetários, deflacionando-a convenientemente em relação a um ano ou período básico adequado, com vistas a eliminar as distorções inflacionárias; b. Traçar o gráfico conveniente (linhas ou curvas) , no plano cartesiano, dos valores deflacionados para examinar a tendência provável da série; c.
Analisar a tendência da série baseado no exame anterior, utilizando-se dos procedimentos explicitados na sequência
c.1. Processo gráfico, geométrico ou a mão livre: Consiste em traçar sobre o gráfico da série estudada, curva que melhor representa a sua tendência. A interpretação deste método é estritamente pessoal e não apresenta uma justificativa teórica onde possa apoiar-se, portanto este método apresenta as suas falhas, razão pela não será exemplificada.
94
c.2. Processo das semi-médias: Consiste em dividir a série em duas partes aproximadamente iguais, determinando a média aritmética de ambas. A seguir marcamos sobre o gráfico as duas médias obtidas. Ligando-a convenientemente teremos a reta ajustada. (ver figura 2)
Exemplo 45: Considere a série de valores abaixo, já deflacionados. Avaliar a sua tendência pelo método das semi-médias TABELA 1 ANOS t1 t2 t3 t4 t5 t6 t7 t8
VALOR 30 36 40 27 46 42 40 42
VALOR MÉDIO 33,3 ( x1)
42,5 ( x2 )
Procedimentos: - Dividir a série em dois subgrupos de tamanhos iguais; - Tirar a Média do 1º grupo (t1 a t4) : x1 = 33,3 - Tirar a Média do 2ºgrupo (t 5 a t8) : x2 = 42,5 - Traçar o gráfico no plano cartesiano - Unir os dois pontos x1 e x2 obtendo-se assim a reta de tendência T. (Figura 2) R$
50
T x2
45 40
x1
35 30 t1
t2
t3
t4
t5
t6
t7
t8
(ti ) 95
O ponto xi poderá ser colocado entre o período t2 e t3 e o ponto x2 entre t6 e t7. T= linha de tendência sugerida pelo método das semi-médias.
c.3) Processo das médias móveis Consiste em calcular as médias sucessivas de igual número de termos denominado de “período”. A série assim constituída caracteriza-se pela regularização ou suavização dos valores originais da série eliminando em alguns casos a influencia das componentes cíclica e estacional. Uma das inconveniências deste processo é a perda dos valores extremos da série de acordo com a periodicidade adotada.
Exemplo 46: Construção de uma média móvel de ordem ou períiodicidade 2 e 3 do exemplo anterior. TABELA 2
1 ANOS t1 t2 t3 t4 t5 t6 t7 t8
2 VALOR (R$) y1 30 36 40 37 46 42 41 42
3 MÉDIA MÓVEL DE 2 ANOS y2 (N=2)
4 MÉDIA MÓVEL DE 3 ANOS y3 (N=3)
33,0 38,0 38,5 41,6 44,0 41,5 41,5
35,7 38,3 41,1 41,9 42,9 41,4
Figura 3
96
Nota-se pela figura 3 que, com a aplicação das médias móveis, os dados originais sofrem processo de suavização. A linha 1 (contínua), refere-se a dados originais e a linha 2 (tracejada) é o resultado da aplicação da média móvel de periodicidade 2 (y 2). d. Determinação da equação de tendência pelo processo analitico Consiste em analisar a série utilizando-se de conceitos matemáticos, sendo por esta razão apresentar um bom índice de confiabilidade no estudo da tendência. Basicamente neste processo poderá recorrer-se a três métodos para a caracterização da função ajustante: método dos mínimos quadrados; método dos momentos e método da máxima verossimilhança. Para o presente caso, será adotado o método dos mínimos quadrados por ser de fácil compreensão e de largo emprego na prática. e. Ajuste da série Consiste em promover o ajustamento da série observada, através de uma função que melhor represente aqueles dados. f. Obtenção do coeficiente de determinação (R2) ou poder explicativo da regressão Tem por objetivo avaliar o nível de representatividade da variável explicativa x sobre a explicada y. g. Estacionariedade da série Significa verificar se a função valor médio e a função covariância são constantes ao longo do tempo, ou seja: se E ( yt ) e v( yt ) são constantes para todo t, além de cov yt ; yt− j ) = cov yt ; yt+ j )
Exemplo 47:
Considere a série temporal de valores investidos em ativos fixos, em milhões de reais, no período de 2000 a 2010 Tabela 3 (1) ANOS 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
(2) INVESTIMENTOS (a preços correntes) 28 30 32 34 49 54 56 91 99 117 140
(3) INFLAÇÃO 96 99 100 110 128 136 150 180 185 228 286
(4) INVESTIMENTOS (deflacionados) 29,2 30,3 32,0 30,9 38,3 39,7 37,3 50,6 53,5 51,3 50,0 97
Obter: a) Equação de tendência pelo método analitico b) O poder explicativo da regressão c) Efetuar o teste de estacionariedade Solução: Inicialmente devemos deflacionar os dados de investimentos, escolhendo-se um indicador inflacionário e um ano base adequado, à escolha do pesquisador. Os dados inflacionários hipotéticos são os que estão relacionados na coluna (3) da tabela 3. Tomando-se como base o ano de 2002, obtemos na coluna (4) da tabela 3, os investimentos deflacionados que servirão de base para o desenvolvimento das questões solicitadas. Dando sequencia aos procedimentos, traçamos no plano cartesiano o gráfico evolutivo da série deflacionada para verificar se sugere uma tendência linear (figura 4). Figura 4
98
Nota-se pela figura 4, que a série de investimentos deflacionados sugere aplicação do modelo linear, o que nos permite dar sequencia para obtenção da equação de tendência, com a utlização de variáveis explicativas especiais, como representada na coluna 3 da tabela 4. Tabela 4 (1) ANOS 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 TOTAL
(2) INVEST (Y) 29,2 30,3 32,0 30,9 38,3 39,7 37,3 50,6 53,5 51,3 50,0 443,1
(3) (x1)
(4) X2
(5) y.x
-5 -4 -3 -2 -1 0 1 2 3 4 5 =
25 16 9 4 1 = 1 4 9 16 25 110
-146 -121,2 -96 -61,8 -38,3 = 37,3 101,2 160,5 205,2 250,0 290,0
(6) ˆ y
(7) ( yˆ − y)2
(8) ( y − y)2
(9) ( y − yˆ)2
27,1 29,7 32,4 35,0 37,7 40,3 42,9 45,6 48,2 50,9 53,5 =
174,2 112,4 62,4 28,1 6,8 0 6,3 28,1 7,9 62,4 174,2 662,8
123,2 100,0 68,9 88,4 4,0 0,4 9,0 106,1 174,2 121,0 94,1 889,3
4,4 0,4 0,2 16,8 0,4 0,4 31,3 25 28 0,2 12,3 119,4
Desenvolvimento: a) Determinação dos parâmetros intercepto (â) e angular (bˆ) com auxílio das equações normais, pelo método dos minimos quadrados ordinários: n(∑ xy) − (∑ x)⋅ (∑ y) bˆ = 2 b(∑ x2 ) − (∑ x) aˆ = y − bˆ⋅ x
(11⋅ 290) − 0⋅ 443,1 bˆ = = 2,64 11⋅110− 02 aˆ = 40,3− 2,64⋅ 0∴ aˆ = 40,3
b) Equação de tendência: ˆ = 40,3+ 2,64xi y
99
Para verificar o posicionamento da equação de tendencia no plano, basta substituir na função ˆ = 40,3+ 2,64xi atribuindo a x os valores -5 e 5 para os anos de 2000 e 2010 respectivamente, y obtendo-se assim, os extremos da função. (ver a representação na figura 4) ˆ1 = 40,3+ 2,64⋅ (− 5) = 27,1 y ˆ2 = 40,3+ 2,64⋅ 5 = 53,5 y Com base nessa equação, podemos efetuar previsões. No exemplo em questão, trata-se de estimar os investimentos em ativos fixos para épocas futuras, bastando para tanto, multiplicar o parâmetro angular da função pelo valor sequencial da variável especial x i, constante na coluna (3) da tabela 4. Por exemplo, se quisermos estimar o investimento esperado para 2011, basta atribuir a x o valor 6: ˆ(2011) = 40,3+ 2,64⋅ xi y
ˆ(2011) = 40,3+ 2,64⋅ 6 y ˆ(2011) = 56,1 y c) Determinação do poder explicativo da regressão (R 2) Essa medida, também denominada de coeficiente de determinação, tem como finalidade avaliar o grau de dependência da variável endógena y em relação a variável independente x . Quanto maior o valor de R2 melhor é a qualidade do ajuste. Por exemplo, se R 2=0,75 indica que 75% da variável y é explicada pela variável x , sugerindo portanto, uma boa qualidade do ajuste . Expressão para cálculo:
∑ ( yˆ − y) = ∑ ( y− y)
2
R2
2
ˆ = dados ajustados pela função; Onde: y y = média aritmética da variável y; Y = dados observados ou conhecidos de y.
R2 =
662,8 = 0,75 ou 75% 889,3
O valor de R2 obtido sugere que a equação de tendência explica algo em torno de 75% o comportamento da série.
100
d) Teste de estacionariedade estacionariedade Ao analisar uma série temporal devemos verificar ainda se a mesma não apresenta sintomas de tendenciosidade. tendenciosidade. Diz-se que uma série é estacionária quando não apresenta esse sintoma, ou seja, quando sua média e sua variância são constantes ao longo do tempo, então: E( yi ) = constante para todo i V ( yi ) = constante para todo i cov( y) = cov( y) , significa que a covariância só depende do afastamento (distância) no tempo que separa os dois valores e não do momento em que estamos estamos no tempo. Assim como existem séries estacionárias, vale lembrar que também existem séries não estacionárias. Estes Estes tipos de série são são denominadas de “passeios aleatórios” aleatórios” (random walks), walks), dado que os pontos na linha do tempo passeiam vagarosamente para cima e para baixo, sem um padrão definido. Para avaliar a estacionariedade estacionariedade de uma série existem existem vários caminhos, tais tais como o teste de raiz unitária. O teste da raiz unitária mais utilizado é o de Dickey-Fuller, que não será explicitado explicitado nessa apostila. Um outro teste comumente utilizado utilizado é o teste de Mann, objeto do nosso estudo. Assim, na tabela 5, a seguir, será aplicado esse teste. Observar, com cuidado, o significado de cada coluna. Tabela 5 (1) ANOS 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
∑
(2) ti 1 2 3 4 5 6 7 8 9 10 11 -
(3) r1 2,1 0,6 -0,4 -4,1 0,6 -0,6 -5,6 5,0 5,3 0,4 -3,5 -
(4) r2 -5,6 -4,1 -3,5 -0,6 -0,4 0,4 0,6 0,6 2,1 5,0 5,3 -
(5) Pi 7 4 11 6 3 10 2 5 1 8 9 -
(6) ωi
4 6 0 3 4 0 3 2 2 1 0 25
Significado das colunas: (2) ordenação unitária dos anos (t i)
101
Sumário . Capítulo 1: Introdução ..............................................................................................................................
1
. Capítulo 2: Conceitos iniciais .................................................................................................................... 3 2.1. Objetivo da econometria ................................................................... ..................................................................................................................... .................................................. 3 2.2. Definição de modelo .............................................................. ............................................................................................................................ .............................................................. 3 2.3. Estrutura de um modelo econométrico ................................................................. ............................................................................................... .............................. 4 . Capítulo 3: Análise Análise de regressão linear simples simples de duas variáveis variáveis ............................................................ 6 3.1. Expressão do modelo ........................................................... ........................................................................................................................... ................................................................ 8 3.2. Pressupostos básicos............................................................ básicos............................................................................................................................ ................................................................ 8 3.3. Estimação dos parâmetros .............................................................. ................................................................................................................... ..................................................... 9 3.4. Equações normais (equações simultâneas) .......................................................... ......................................................................................... ............................... 10 . Capítulo 4: Regressão linear linear múltipla ....................................................................................................... 22 4.1. Introdução .................................................................. .................................................................................................................................... .......................................................................... ........ 22 4.2. Pressupostos do modelo .................................................................. ...................................................................................................................... .................................................... 23 4.2.1. Teorema Teorema de Gauss-Markov ............................................................. ....................................................................................................... .......................................... 23 4.3. Estimação Estimação dos parâmetros ............................................................... ................................................................................................................... .................................................... 24 4.4. Estimação da equação de regressão regressão múltipla ........................................................ ...................................................................................... .............................. 25 4.5. Previsão de valores com base na equação de regressão ............................................................. ..................................................................... ........ 25 4.6. Erro padrão da estimativa ................................................................ .................................................................................................................... .................................................... 26 4.7. Intervalos de predição (IP) ................................................................ ................................................................................................................... ................................................... 26 4.8. Erro padrão dos estimadores ............................................................. ............................................................................................................... .................................................. 26 4.9. Intervalo de confiança dos estimadores .................................................................. .............................................................................................. ............................ 27 4.10. Coeficiente de determinação (poder explicativo da regressão) ........................................................ 27 4.11. Teste de hipóteses ................................................................ ............................................................................................................................. ............................................................. 28 . Capítulo 5: Correlação Correlação .............................................................................................................................. 45 5.1. Objetivo para economia .......................................................... ....................................................................................................................... ............................................................. 45 5.2. Conceito de correlação ........................................................... ........................................................................................................................ ............................................................. 45 5.3. Medida de correlação ............................................................. .......................................................................................................................... ............................................................. 46 5.4. O coeficiente de correlação r e sua interpretação ............................................................. ............................................................................. ................ 46 5.5. Imagens de r no plano cartesiano em função do seu valor .......................................................... ............................................................... ..... 47 5.6. Diferença entre correlação e regressão ......................................................... ............................................................................................... ...................................... 48 . Capítulo 6: Violação dos pressupostos básicos ......................................................................................... 54 6.1. Heteroscedasticidade Heteroscedasticidade e homoscedasticidade ............................................................ ...................................................................................... .......................... 54 6.2. Natureza da heteroscedasticidade.................................................................. ....................................................................................................... ..................................... 55 6.3. Consequências da heteroscedasticidade ........................................................ ............................................................................................. ..................................... 57 6.4. Detecção da heteroscedasticidade ................................................................. ...................................................................................................... ..................................... 57 . Capítulo 7: Autocorrelação ou Correlação Serial ....................................................................................... 69 7.1. Natureza da autocorrelação ................................................................. ................................................................................................................. ................................................ 69 7.2. Padrões gráficos de autocorrelação ................................................................. ..................................................................................................... .................................... 69 7.3. Causa da autocorrelação ............................................................. ...................................................................................................................... ......................................................... 70 7.4. Consequências da autocorrelação ......................................................... ....................................................................................................... .............................................. 70 7.5. Diagnóstico (identificação) da autocorrelação .................................................................................... 71 7.6. Medidas corretivas visando a remoção da autocorrelação ............................................................... ................................................................. .. 76
. Capítulo 8: Utilização de variáveis variáveis especiais ............................................................................................. ............................................................................................. 82 8.1. Variáveis dummy (dummies, (dummies, binárias, artificiais, dicotômicas, etc.) ................................................... 82 8.2. Incorporação da variável (d) ao modelo modelo de regressão linear ......................................................... ............................................................. .... 83
( ) B) Incorporação da variável (d) pela forma multiplicativa .......................................................... ............................................................... .....
A) Incorporação da variável d pela forma aditiva .......................................................... .......................................................................... ................ 83 87
. Capítulo 9: Análise das séries temporais................................................................................................... 92 9.1. Introdução .......................................................... ............................................................................................................................. .................................................................................. ............... 92 92. Conceito de séries séries temporais temporais ............................................................... ................................................................................................................ ................................................. 92 9.3. Análise Análise de uma série temporal ........................................................................................................ .... 94 . Tabelas ..................................................................................................................................................... 104 104 Tabela normal ............................................................................................................................................. 104 Distribuição t de Student ............................................................................................................................ ............................................................................................................................ 105 Tabela da distribuição F (nível de significância 1%) .................................................................................... 106 Tabela da distribuição F (nível de significância 5%) .................................................................................... 107 Tabela de Durbin-Watson ........................................................................................................................... 108 . Bibliografia ............................................................................................................................................... 109
ECONOMETRIA (Noções Básicas)
Capítulo 1: INTRODUÇÃO Uma imensa gama de relações teóricas existentes entre variáveis de natureza econômica podem ser expressas e formuladas através de modelos matemáticos. Assim, nota-se que cada vez mais estudiosos em economia se valem de metodologias estatísticas para estimar parâmetros desconhecidos, testar hipóteses, efetuar simulações sobre as mais diversas relações entre variáveis econômicas, visando efetuar previsões de caráter quantitativo de inúmeros eventos. É exatamente nesse contexto que se torna imprescindível a efetiva participação da econometria como ferramenta necessária na verificação, por exemplo, de teorias e políticas econômicas, previsão de valores de variáveis de natureza econômica, influenciando sobremaneira na tomada de decisões. O objetivo dessa apostila é procurar transmitir aos estudantes de economia, de forma clara e resumida, os principais conceitos que entendemos serem relevantes para a sua formação. Dado o número exíguo de horas/aulas disponíveis, procuramos abranger o máximo do nosso conteúdo programático, dando ênfase à parte prática/operacional de cada capítulo com aplicação de exercícios já desenvolvidos com a consequente interpretação dos seus resultados, deixando a parte teórica de maior profundidade, como trabalho de consulta, análise e interpretação por parte do aluno junto a bibliografia recomendada. Contem ainda exercícios complementares que deverão ser desenvolvidos no decurso das aulas Assim, entendemos que o conteúdo programático apresentado na sequencia será suficiente para dar uma ideia da importância do conhecimento de econometria como base na formação dos futuros profissionais em economia. Vale deixar aqui registrado, contudo, que a econometria, como também ocorre em outras ciências, apresenta suas limitações, principalmente de natureza estatística e econômica. Poderíamos citar algumas de natureza estatística, como por exemplo: −
utilização de amostras pequenas, não representativas;
−
falhas nas observações das variáveis;
−
dificuldade de dar tratamento adequado a alguns modelos não lineares;
−
o problema da multicolinearidade, etc.
Entre os de natureza econômica temos: 1
Para finalizar, gostaríamos de lembrá-los de que a presente apostila não é uma receita de bolo, onde o estudante pensa que aprendendo o que está nela contida, já sabe tudo sobre econometria. Muito pelo contrário. O nosso objetivo, ao preparar a matéria dessa forma, foi com a intenção de facilitar e maximizar o processo de aprendizado, dando ênfase aos itens de maior relevância dentro do conteúdo programático adotado pela Faculdade, contendo aplicações práticas de fácil entendimento. Certamente um dos mais poderosos instrumentos utilizados na análise de problemas econômicos são as aplicações de técnicas estatísticas à economia, denominada de econometria. A econometria em si, é muito mais abrangente com uma diversidade de tópicos que não estão aqui comentados.
Capítulo 2: CONCEITOS INICIAIS 2.1. OBJETIVO DA ECONOMETRIA A econometria trata da mensuração das relações entre variáveis de natureza econômica com base em ferramental estatístico e tem como alguns de seus objetivos a verificação empírica das leis e das teorias econômicas, a avaliação das políticas econômicas, a previsão dos valores das variáveis de natureza econômica, etc. Alguns autores como Artur S. Goldberger, em seu livro “Econometric Theory”, define econometria como a ciência social no qual o ferramental estatístico, tais como inferência estatística e a estatística matemática, são aplicadas à análise dos fenômenos econômicos.
2.2. DEFINIÇÃO DE MODELO Entende-se como modelo em econometria a um conjunto de hipóteses estabelecidas à priori, acerca do comportamento de um dado fenômeno, com base numa teoria já existente e podem ser classificados em teóricos e econométricos. Um modelo é teórico quando expressam leis de natureza econômica sem conter necessariamente tratamento estatístico; já os econométricos, contém necessariamente tratamento estatístico com as devidas especificações como, por exemplo: a definição das variáveis, a forma funcional, o nº de equações, etc. como veremos a seguir.
Exemplo de modelo teórico: Função liquidez: M= L (i;x) , onde M= meios de pagamento; L=liquidez; i=taxa de juro; x = renda Exemplo de modelo econométrico: Função consumo: C= a+bx+e, onde C= consumo agregado; a e b = parâmetros linear e angular; x= renda; e= erro aleatório 3
Os modelos podem ainda ser classificados quanto a sua forma funcional e quanto ao número de equações:
Quanto a forma funcional
-
Lineares: quando é expressa por uma função linear
y = β 1 + β 2.xi
-
Não lineares: quando é expressa por uma função não linear
y = β 1 ⋅ β 2xi , que é uma função exponencial simples
Quanto ao número de equações:
-
Uniequacionais: quando contêm apenas uma equação
y = a + bx + cxx
-
Pluriequacionais: quando contêm pelo menos duas equações como, por exemplo, uma função linear (1) e a função (2) onde x representa o resultado da diferença entre a função (1) e o resultado dos investimentos (w)
y = β 1 + β 2.xi (1) x = y − w (2)
Onde y = despesa em função da renda, x = renda e w = resultado dos investimentos
2.3.
ESTRUTURA DE UM MODELO ECONOMÉTRICO
Estruturalmente um modelo econométrico envolve quatro elementos básicos que são: Variáveis (dependente e independente), Equações, Parâmetros ou Coeficientes (intercepto e o parâmetro responsável pela declividade, além do termo aleatório ou perturbações). Por exemplo: na estrutura de um modelo linear encontramos a variável dependente (ou endógena ou explicada), a variável independente x (ou exógena ou explicativa), os parâmetros linear ou intercepto β 1 e o angular β 2 , conforme esquema a seguir, além do termo aleatório e. y = β 1 + β 2.xi + e Onde: y = variável dependente
β 1 = parâmetro intercepto 4
xi = variável independente e = termo aleatório
β 2 = parâmetro angular
O que são regressores?
O conjunto de variáveis exógenas ou explicativas mais o termo constante ou linear ou intercepto são denominados de regressores. Assim, na equação acima, os regressores seriam: β 1 e
β 2 .xi
Cabe lembrar que o comportamento da economia resulta da interdependência de diversos fatores e ao explicá-lo os economistas evitam a complexidade do mundo real através da construção de modelos que apesar de retratarem de forma aproximada a realidade, destacando apenas os elementos ou variáveis consideradas relevantes, permitem alcançar a essência do fenômeno em questão. Apesar do avançado estágio em que se encontra a teoria econômica, ocorrem situações onde a formulação das hipóteses do modelo e a identificação dos elementos relevantes é um tanto arbitrária, não havendo garantias de que elas sejam realistas, portanto, é preciso verificar se o modelo proposto é capaz de explicar o fenômeno a que se propõe. Através do confronto do modelo com as observações do mundo real é que se pode concluir ou não a validade do modelo. Um poderoso instrumento neste sentido são os modelos econométricos analisados pela econometria, uma técnica que agrega a estatística, a matemática e a teoria econômica. Conforme indicado na figura 1 a seguir, um modelo econométrico resulta de um processo que se inicia com uma análise econômica que envolve a consulta da teoria econômica e percepção da realidade para auxiliar na identificação das variáveis dependentes e independentes a serem incluídas no modelo, bem como na especificação da forma funcional que relaciona estas variáveis. Uma característica dos modelos econométricos é a consideração de um termo estocástico, com uma distribuição de probabilidade hipotética, para representar a incerteza inerente ao comportamento da economia e também outras variáveis, omitidas na formulação do modelo, mas que explicam a realidade. Uma vez especificado o modelo econométrico e estabelecidas às hipóteses pertinentes, são coletadas observações das variáveis dependentes e independentes, para em seguida, através da aplicação da inferência estatística, estimar e testar a validade do modelo econométrico. A validade de um modelo econométrico não será apenas julgada por técnicas de inferência estatística, mas também pela coerência com a teoria econômica. Caso o modelo especificado não seja o aceito deve ser corrigido, seja retirando ou incluindo variáveis independentes ou ainda modificando a forma funcional que relaciona as variáveis. Quanto à aplicação, os modelos econométricos podem ser utilizados na obtenção de evidências empíricas que modifiquem, refinem ou refutem as conclusões contidas na teoria econômica ou novas proposições teóricas e também na avaliação de políticas econômicas, sendo uma ferramenta muito útil para fazer previsões de alguma variável econômica ou ainda estimar 5
View more...
Comments