Conceptos básicos de geoestadistica, Eloy Colell [2009]
Short Description
Download Conceptos básicos de geoestadistica, Eloy Colell [2009]...
Description
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #1
i
i
Conceptos B´asicos de Geoestad´ıstica
Eloy Colell
Juan Uribe
Pablo Chale
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #2
i
i
2
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #3
i
i
Conceptos B´asicos de Geoestad´ıstica Editado por Lucas Capalbo Lavezzo.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #4
i
i
2
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #5
i
i
c Copyright 2009 de los editores y contribuyentes Algunos derechos reservados. Este trabajo es distribuido bajo la licencia Creative Commons Attribution–Noncommercial–NoDerivs 3.0 License. http://creativecommons.org/licenses/by-nc-nd/3.0 Impreso el d´ıa 15 de agosto de 2010.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #6
i
i
2
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 3 — #7
i
i
´ Indice general I
Estad´ıstica
11
1. Estad´ıstica Descriptiva
15
1.1. Propiedades de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.1. Posici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.1.2. Centralizaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.1.3. Dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.1.4. Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.2. Estad´ıstica Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.2. Coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2. Estad´ıstica Inferencial
23
2.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.4. Distribuci´on de probabilidad / Funci´on de densidad . . . . . . . . . . . . . . . . . . . . . .
24
2.5. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.6. Esperanza Matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 4 — #8
i
i
´ INDICE GENERAL
4
2.7. Varianza y Desviaci´on T´ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.8. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.9. Distribuciones de Probabilidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.9.1. Distribuci´on Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.9.2. Distribuci´on de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.9.3. Distribuci´on Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.9.4. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.9.5. Distribuci´on Hipergeom´etrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.9.6. Distribuci´on Geom´etrica o de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.9.7. Distribuci´on Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.10. Funciones de Densidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.10.1. Distribuci´on Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.10.2. Distribuci´on Normal o de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . .
35
2.10.3. Distribuci´on Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.10.4. Distribuci´on Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.10.5. Distribuci´on χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.10.6. Distribuci´on Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.10.7. Distribuci´on t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.10.8. Distribuci´on F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.11. Teor´ıa de Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.11.1. Inferencia Estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.11.2. Contraste de Hip´otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
II Series Temporales
43
3. Enfoque cl´asico
47
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 5 — #9
i
i
´ INDICE GENERAL
5
3.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.1.1. An´alisis gr´afico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.1.2. Medias m´oviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.1.3. M´etodo anal´ıtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.1.4. Alisado exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.2. Variaci´on Estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.3. Variaci´on C´ıclica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.4. Variaci´on Residual (o Indeterminada) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4. Enfoque Causal 4.1. Tasas de variaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61 62
III Geoestad´ıstica
65
5. Variables regionalizadas
69
6. Hip´otesis estad´ıstica
71
6.1. Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.2. Hip´otesis Intr´ınseca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.3. Comparaci´on de las dos hip´otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.4. Selecci´on de la variable regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
7. Variograma
75
7.1. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
7.2. Variograma Te´orico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
7.2.1. Modelos con un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
7.2.2. Modelos sin un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 6 — #10
i
i
´ INDICE GENERAL
6
7.3. Ajuste a un modelo te´orico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
7.3.1. A ojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
7.3.2. M´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
7.3.3. Probabilidad m´axima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
7.4. Isotrop´ıa y anisotrop´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7.4.1. Anisotrop´ıa geom´etrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7.4.2. Anisotrop´ıa zonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
8. Kriging
87
8.1. Kriging Ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
8.1.1. Kriging Ordinario Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
8.1.2. Kriging Ordinario por Bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
8.1.3. El variograma y el kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
8.1.4. El Kriging en la pr´actica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
8.1.5. Kriging con un variograma “falso” . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.6. Validaci´on cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.7. Kriging con datos inciertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.8. Kriging Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
8.2. M´etodos no estacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
8.2.1. Kriging Universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
8.2.2. Kriging con Deriva Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.3. Actualizaci´on Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.4. Kriging sobre Series Temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.4.1. Intr´ınsecas en el espacio-tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.4.2. Intr´ınsecas en el espacio e independientes del tiempo . . . . . . . . . . . . . . . . . 102 8.4.3. Intr´ınsecas en el espacio y dependientes del tiempo . . . . . . . . . . . . . . . . . . 103
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 7 — #11
i
i
´ INDICE GENERAL
7
8.4.4. Series temporales interpretadas como diferentes realizaciones . . . . . . . . . . . . 103
Referencias Bibliogr´aficas
104
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 8 — #12
i
i
8
´ INDICE GENERAL
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 9 — #13
i
i
´ Indice de figuras 1.1. Coeficiente de Asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.2. Coeficiente de Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.3. Coeficiente de Correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.1. Distribuci´on de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.2. Funci´on de Distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.2. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.3. Medias M´oviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.4. M´etodo Anal´ıtico Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.5. M´etodo Anal´ıtico Polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
3.6. M´etodo Anal´ıtico Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.7. Alisado Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.8. IGVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.9. Desestacionalizaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.10. Ciclicidad por Medias M´oviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.1. Serie temporal de diferenciales anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.2. Serie temporal de diferenciales mensuales . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
9
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 10 — #14
i
i
10
´ INDICE DE FIGURAS
4.3. Ejemplo de mapa 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.1. La Hip´otesis Intr´ınseca y la Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . .
73
6.2. El variograma y la covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
7.1. Nube de puntos de un variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
7.2. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
7.3. Variograma te´orico con efecto pepita puro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
7.4. Variograma te´orico del modelo esf´erico. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
7.5. Variograma te´orico del modelo exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . .
81
7.6. Variograma te´orico del modelo Gaussiano. . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
7.7. Variograma te´orico del modelo potencial. . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 11 — #15
i
i
Parte I
Estad´ıstica
11
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 12 — #16
i
i
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 13 — #17
i
i
13
Es la rama de la matem´atica que se ocupa del estudio, an´alisis y clasificaci´on de datos aleatorios. Se pueden clasificar dos tipos de estad´ısticas: la descriptiva[Ber, Men, Cap, Fer04a] y la inferencial.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 14 — #18
i
i
14
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 15 — #19
i
i
Cap´ıtulo 1
Estad´ıstica Descriptiva Se encarga de la organizaci´on, presentaci´on y s´ıntesis de datos. Para esto es necesario clasificar cada uno de los datos xi (valores de la variable X medida) en clases o intervalos de clases C j , donde j representa la j − esima clase o intervalo de clase. Esa disposici´on de datos clasificados en forma tabular permite construir la distribuci´on de frecuencias ( f ), la cual puede ser mostrada de forma:
Absoluta Cantidad de elementos xi pertenecientes a una clase o intervalo de clase C j . Se llama frecuencia absoluta, o simplemente frecuencia y se representa mediante la funci´on f j . Relativa Porci´on de los elementos totales que pertenecen a una clase o intervalo de clase. Se calcula a partir f de la formula fR j = nj , siendo n la cantidad de elementos de la muestra y cumplir´a con la ecuaci´on ∑ fR j = 1. Acumulada N´umero de veces que ha aparecido en la muestra un elemento (xi ) de una clase o intervalo de clase menor o igual. Implica cierto orden entre las clases, y se representa mediante la funci´on fA j =
j
j
t=1
t=1
∑ ft para las absolutas y fAR j = ∑ fRt para las relativas.
1.1. Propiedades de los Datos En el an´alisis o interpretaci´on de datos num´ericos, se pueden utilizar medidas descriptivas que representan las propiedades de posici´on, centralizaci´on, dispersi´on y forma, para resumir las caracter´ısticas sobresalientes del conjunto de datos. Si estas medidas se calculan con una muestra de datos se denominan estad´ısticos, mientras que si se calculan con la poblaci´on de datos, se denominan par´ametros. 15
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 16 — #20
i
i
´ ´ CAPITULO 1. ESTADISTICA DESCRIPTIVA
16
1.1.1. Posici´on Las propiedades de posici´on est´an representadas por los Percentiles, Quartiles y Deciles, detallados a continuaci´on.
Percentiles Son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 (P15 (X)) deja por debajo al 15 % de las observaciones, y por encima queda el 85 %.
Quartiles Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles: El primer cuartil Q1 (X), es el menor valor xi que es mayor que una cuarta parte de los datos. El segundo cuartil Q2 (X), es el menor valor xi que es mayor que la mitad de los datos. El tercer cuartil Q3 (X), es el menor valor xi que es mayor que tres cuartas partes de los datos.
Deciles Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambi´en un caso particular de los percentiles. Ejemplo, D1 (X) = P10 (X).
1.1.2. Centralizaci´on Las propiedades de centralizaci´on est´an representadas por la Media Aritm´etica, Mediana y Moda, detalladas a continuaci´on.
Mediana Aparece en el medio de una sucesi´on ordenada de valores. ˜ de la muestra (n) es un numero Si el tamano ´ impar, se representa por el valor num´erico de la observaci´on ordenada (coincidiendo en este caso con el percentil 50): X˜ = x( n+1 ) 2
(1.1)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 17 — #21
i
i
1.1. PROPIEDADES DE LOS DATOS
17
Por otro lado, si el numero ´ de la muestra es par, se representa con la media de los dos valores intermedios en el arreglo ordenado: x( n ) + x( 2n +1) X˜ = 2 (1.2) 2 Media Aritm´etica Se encuentra al sumar todos los valores en la muestra y luego, al dividir el total por n (el numero ´ de observaciones en la muestra). 1 n (1.3) X¯ = ∑ xi n i=1
Adem´as se podr´ıa calcular mediante las frecuencias absolutas, donde k representa a la cantidad de clasificaciones de los datos realizadas. 1 k X¯ = ∑ C˜ j f j (1.4) n j=1
Siendo C˜ j la mediana entre los valores posibles dentro de una clase o intervalo de clase. Si hay valores extremos, la Media Aritm´etica no es una buena medida de tendencia central. En estos casos se preferir´a la Mediana.
Moda Es el valor m´as t´ıpico o m´as observado. Es la clase con mayor frecuencia. Cuando se trabaja con tablas de frecuencias para variables continuas existir´a un intervalo modal. Xˆ = Ci ; (∀ j, fi ≥ f j )
(1.5)
1.1.3. Dispersi´on Las propiedades de dispersi´on est´an representadas por el Rango, Varianza, Desv´ıo Est´andar y Coeficiente de variaci´on, detallados a continuaci´on.
Rango Definido como recorrido o amplitud, es la diferencia entre el mayor y el menor valor de los xi . Rango(X) = Max(X) − Min(X)
(1.6)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 18 — #22
i
i
´ ´ CAPITULO 1. ESTADISTICA DESCRIPTIVA
18
Varianza Es el promedio de los cuadrados de las diferencias entre cada elemento de la muestra y la media obtenida. n ¯ 2 ∑ (xi − X) S2 (X) =
i=1
n−1
(1.7)
Si se utiliza n en el divisor se calcula un par´ametro, mientras que con n − 1 se obtiene el estad´ıstico (ya que se tiene en cuenta la propiedad de los grados de libertad).
Desviaci´on Est´andar La varianza est´a compuesta de las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersi´on la desviaci´on t´ıpica que se define como la ra´ız cuadrada positiva de la varianza. v u n u ¯ 2 u ∑ (xi − X) q t i=1 (1.8) S(X) = S2 (X) = n−1 Coeficiente de variaci´on Es una medida relativa propuesta por Pearson que se utiliza para comparar la dispersi´on de dos o m´as series de datos que est´an expresados en unidades diferentes. A menor diferencia entre los CV m´as homog´eneas son las variables. S(X) (1.9) CV (X) = ¯ |X|
1.1.4. Forma Las propiedades de forma est´an representadas por el Coeficiente de Asimetr´ıa y Kurtosis, detalladas a continuaci´on.
Coeficiente de asimetr´ıa Cuantifican el grado de asimetr´ıa de la distribuci´on en torno a una medida de centralizaci´on. Una distribuci´on es asim´etrica a la derecha si las frecuencias (absolutas o relativas) descienden m´as lentamente por la derecha que por la izquierda (valor positivo). Si las frecuencias descienden m´as
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 19 — #23
i
i
1.1. PROPIEDADES DE LOS DATOS
19
lentamente por la izquierda que por la derecha diremos que la distribuci´on es asim´etrica a la izquierda (valor negativo). Es normal cuando la distribuci´on es sim´etrica (valor nulo). Ver el ejemplo de la Figura 1.1.
Existen varias medidas de la asimetr´ıa de una distribuci´on de frecuencias. Segun ´ Pearson: CAP (X) =
X¯ − Xˆ S(X)
(1.10)
Segun ´ Fisher: n
CAF (X) =
¯ 3 fRi ] ∑ [(xi − X)
i=1
(1.11)
S(X)3
Segun ´ Bowley: CAB (X) =
Q3 (X) + Q1(X) − 2X˜ Q1 (X) − X˜ = 1+2 Q3 (X) − Q1(X) Q3(X) − Q1(X)
(1.12)
1.6 Asimetrica a la derecha Normal Asimetrica a la izquierda 1.4
1.2
1
0.8
0.6
0.4
0.2
0 0
0.2
0.4
0.6
0.8
1
Figura 1.1: Disposici´on gr´afica de acuerdo al Coeficiente de Asimetr´ıa
Coeficiente de Kurtosis Describe el grado de esbeltez de una distribuci´on con respecto a la distribuci´on normal. Se calcula por: n
CK(X) =
¯ 4 fRi ] ∑ [(xi − X)
i=1
S(X)4
(1.13)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 20 — #24
i
i
´ ´ CAPITULO 1. ESTADISTICA DESCRIPTIVA
20
Platicurtica Mesocurtica (Normal) Leptocurtica
2.5
2
1.5
1
0.5
0 0
0.2
0.4
0.6
0.8
1
Figura 1.2: Disposici´on gr´afica de acuerdo al Coeficiente de Kurtosis. La distribuci´on normal tiene kurtosis igual a tres, es llamada mesocurtica. ´ A las distribuciones m´as agudas, con colas relativamente anchas, se las llama leptocurtica, ´ tienen valores de kurtosis mayores que tres, y las distribuciones achatadas en el centro se llaman platicurticas, ´ tienen valores menores que tres. En ocasiones se acostumbra a definir la kurtosis como CK(X) − 3. Ver el ejemplo de la Figura 1.2.
1.2. Estad´ıstica Bivariable Al analizar modelos complejos que dependen de dos o m´as variables, se comienzan a buscar metodolog´ıas que comiencen a analizar relaciones entre las diferentes distribuciones de frecuencias (representadas por variables), en un intento por resumir los resultados. Las m´as importantes son: la Covarianza y el Coeficiente de correlaci´on.
1.2.1. Covarianza Determina si existe una relaci´on lineal entre dos variables. Se calcula promediando las puntuacio˜ muestral. El resultado fluctua nes diferenciales por su tamano ´ entre +∞ y −∞, por lo que la magnitud del resultado carece de significado, y lo unico ´ importante es el signo que adopte. Cov(X,Y ) =
1 n ¯ i − Y¯ ) ∑ (xi − X)(y n i=1
(1.14)
Si Cov(X,Y ) > 0 pendiente de la recta de regresi´on positiva. Indica que hay dependencia directa, es decir las variaciones de las variables tienen el mismo sentido.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 21 — #25
i
i
´ 1.2. ESTADISTICA BIVARIABLE
21
Si Cov(X,Y ) < 0 pendiente de la recta de regresi´on negativa. Indica que hay dependencia inversa o negativa, es decir las variaciones de las variables tienen sentido opuesto. Si Cov(X,Y ) ≈ 0 no es posible determinar la pendiente de la recta de regresi´on, por lo que no existe relaci´on lineal entre las 2 variables. Podr´ıa existir otro tipo de relaci´on.
1.2.2. Coeficiente de correlaci´on Evalua ´ la relaci´on lineal entre dos variables. Permite saber si el ajuste de la nube de puntos a la recta de regresi´on obtenida es satisfactorio. Ver el ejemplo de la Figura 1.3. Segun ´ Pearson: Cov(X,Y ) CCP (X,Y ) = (1.15) S(X)S(Y )
El coeficiente de correlaci´on, CCP (X,Y ), presenta valores entre –1 y +1. Cuando r ≈ 0 no hay correlaci´on lineal entre las variables. La nube de puntos est´a muy dispersa y no se puede trazar una recta de regresi´on. Cuando r ≈ +1 hay una buena correlaci´on positiva entre las variables seg´un un modelo lineal y la recta de regresi´on que se determine tendr´a pendiente positiva. Cuando r ≈ −1 hay una buena correlaci´on negativa entre las variables seg´un un modelo lineal y la recta de regresi´on que se determine tendr´a pendiente negativa.
CCP(X,Y)≈ +1
CCP(X,Y)≈ 0
CCP(X,Y)≈ -1
20 20
140 18
0
16
120
14
-20
100 12
-40 80
10 -60 8
60
-80
6 40 4 20
-100
2 -120 0
20 40 60 80 100 120
0
20 40 60 80 100 120
0
20 40 60 80 100 120
Figura 1.3: Disposici´on gr´afica de acuerdo al Coeficiente de Correlaci´on.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 22 — #26
i
i
22
´ ´ CAPITULO 1. ESTADISTICA DESCRIPTIVA
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 23 — #27
i
i
Cap´ıtulo 2
Estad´ıstica Inferencial Trata de generalizar la informaci´on obtenida en una muestra a una poblaci´on. La bondad de ˜ de su estas deducciones se mide en t´erminos probabil´ısticos, es decir, toda inferencia se acompana probabilidad de acierto. Por esto se utilizan las probabilidades en las estimaciones, ya que permitir´an el avance sobre el Contraste de hip´otesis y la Inferencia Bayesiana[P´e03].
2.1. Probabilidad Mide la frecuencia con la que ocurre un suceso en un experimento bajo condiciones suficientemente estables[Wik]. La notaci´on utilizada es: P(A) = l´ım
nc →∞
nA nc
(2.1)
Donde A es el suceso estudiado, nA el numero ´ de veces que el evento A ha ocurrido y nc el numero ´ de veces que el experimento fue realizado. La tendencia de nc a infinito determina la estabilidad de las condiciones del experimento.
Los resultados de la funci´on se encuentran dentro del intervalo [0, 1] de tal forma que: Al suceso imposible le corresponde el valor 0. Al suceso seguro le corresponde el valor 1. El resto de sucesos tendr´an una probabilidad comprendida entre 0 y 1. 23
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 24 — #28
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
24
2.2. Probabilidad Condicional Esta determinada por la posibilidad de que ocurra un suceso dado, como consecuencia de otro. Esta se representa mediante: P(A ∩ B) (2.2) P(A|B) = P(B) A Suceso condicionado por B. B Suceso independiente.
Si se cambia la forma de representar la ecuaci´on P(A|B)P(B) = P(A ∩ B) = P(B|A)P(A) P(A|B) =
P(B|A)P(A) P(B)
(2.3) (2.4)
2.3. Variable Aleatoria Se encuentra definida por una funci´on real que asocia un resultado num´erico a cada experimento aleatorio. Por ejemplo, si el experimento aleatorio consiste en lanzar 4 veces un dado, y el objetivo es determinar el numero ´ de veces que sale el 6 y se define una funci´on X que asigna un valor num´erico (cantidad de 6 obtenidos) a cada resultado del experimento. De esta manera tenemos por ejemplo que X(1632) = 1 o que X(1234) = 0, ya que en el primer experimento sale un 6 en el segundo lanzamiento, mientras que en el ultimo ´ experimento no sale ninguna vez.
Las variables aleatorias y sus distribuciones de probabilidad pueden considerarse una generalizaci´on del concepto de frecuencia. Se introducen como el modelo matem´atico ideal al que se aproximan las distribuciones de frecuencias que se obtendr´ıan en una repetici´on indefinida de pruebas de este experimento.
Usualmente se clasifican de acuerdo al numero ´ de valores que pueden asumir: las variables aleatorias discretas (solo pueden adoptar un numero ´ finito o contable de valores) y las variables aleatorias continuas (surgen cuando tratamos con cantidades de una escala continua).
2.4. Distribuci´on de probabilidad / Funci´on de densidad Dependiendo si la variable aleatoria es discreta (v.a.d) o continua (v.a.c.), se mencionar´a Distribuci´on de Probabilidad o Funci´on de Densidad respectivamente.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 25 — #29
i
i
´ DE DISTRIBUCION ´ 2.5. FUNCION
25
Sea X una v.a.d. que toma los valores x1 , x2 , x3 , .... Se define P(X = xi ) como la probabilidad siguiente: P(X = xi ) = P(xi ) = P{ω ∈ E/X(ω) = xi }
(2.5)
A la tabla formada por los valores que toma la variable junto con sus probabilidades recibe el nombre de distribuci´on de probabilidad de la variable: X x1 x2 ... xn ... P(X = x) P(X = x1 ) P(X = x2 ) . . . P(X = xn ) . . .
1.6 f(x) P(ei) 1.4
1.2
1
0.8
0.6
0.4
0.2 -0.4
-0.2
0
0.2
0.4
Figura 2.1: Ejemplo de una Distribuci´on de Probabilidad. Ver el ejemplo de la Figura 2.1.
Por otra parte, dada una v.a.c. X, se dice que una funci´on real f (x) no negativa es la funci´on de densidad de probabilidad (o simplemente funci´on de densidad) de la variable aleatoria X si el a´ rea encerrada entre la curva y el eje 0X es igual a la unidad y, adem´as, la probabilidad de que X se encuentre entre dos valores x1 y x2 con x1 < x2 es igual al a´ rea comprendida entre estos dos valores, es decir, Z ∞
−∞
f (x)dx = 1
P(x1 < X < x2 ) =
Z x2
(2.6) f (x)dx
(2.7)
x1
2.5. Funci´on de distribuci´on Sea X una v.a., asociada a ella se define la funci´on de distribucin F : R → [0, 1] de la siguiente manera: F(x) = P{ω ∈ E/X(ω) ≤ x} = P(X ≤ x)∀x ∈ R
(2.8)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 26 — #30
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
26
Las propiedades de la funci´on de distribuci´on son: 1. 0 ≤ F(x) ≤ 1∀x ∈ R por representar F(x) la probabilidad de un suceso. / = 0. 2. F(−∞) = l´ımx→−∞ F(x) = 0; pues F(−∞) = P[X ≤ −∞] = P[0] 3. F(∞) = l´ımx→∞ F(x) = 1; pues F(∞) = P[X ≤ ∞] = P[E] = 1. 4. F es mon´otona creciente (no estrictamente), es decir, si x1 < x2 ⇒ F(x1 ) ≤ F(x2 ). 5. F es continua por la derecha, es decir, l´ımh→0+ F(x + h) = F(x).
La funci´on de distribuci´on puede ser especialmente util ´ para calcular probabilidades ya que: P(X ≤ x) = F(x) (por definici´on). P(X > x) = 1 − P(X ≤ x) = 1 − F(x). P(x1 < X ≤ x2 ) = P(X ≤ x2 ) − P(X ≤ x1 ) = F(x2 ) − F(x1 ).
(a) Distribucion de probabilidad
1.6 f(x) FX(a)-FX(b) FX(a) P(a)
1.4 1.2 1 0.8 0.6 0.4 0.2 0 0
0.2
0.4
0.6
0.8
1
(b) Funcion de distribucion
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
FX b a
0
0.2
0.4
0.6
0.8
1
Figura 2.2: Ejemplo de una Funci´on de Distribuci´on. Ver el ejemplo de la Figura 2.2.
En el caso particular que dado X una v.a.d., representa a la funci´on acumulativa F(X) = P(X ≤ x) =
∑ P(X = xi )
(2.9)
xi ≤x
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 27 — #31
i
i
´ 2.6. ESPERANZA MATEMATICA
27
Mientras que si X es una v.a.c. se encuentra representado por F(X) = P(X ≤ x) =
Z x
−∞
f (t)dt
(2.10)
siendo f (t) = P(X = t); ∀t ∈ [−∞, ∞]. Luego se puede expresar f (x) = densidad.
dF(x) , que es la relaci´on entre la funci´on de distribuci´on y la de dx
Adem´as, si X toma valores en el intervalo (a, b), entonces las integrales infinitas anteriores se reducen a integrales finitas, como se muestra a continuaci´on. Z b
f (x)dx = 1
(2.11)
a
F(x) =
0 si x ≤ a Z x
f (t)dt si a < x < b
(2.12)
a
0 si x ≥ b
2.6. Esperanza Matem´atica Sea X una v.a.d., la media o esperanza matem´atica se encuentra determinada por la expresi´on: n
µX = E[X] = ∑ xi .P(X = xi )
(2.13)
i=1
A diferencia de la media definida en la estad´ıstica descriptiva, los datos est´an probabilizados, por lo que no son exactos.
Por otra parte si X es una v.a.c. quedar´ıa determinada por la siguiente expresi´on: µX = E[X] =
Z ∞
−∞
x. f (x)dx
(2.14)
El comportamiento de la esperanza matem´atica respecto de las transformaciones lineales es el siguiente: Y = aX + b ⇒ E[Y ] = aE[X] + b
(2.15)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 28 — #32
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
28
2.7. Varianza y Desviaci´on T´ıpica Dada una v.a.d. X, la varianza viene dada por: n
σ2X = V [X] = E[(X − µX )2 ] = ∑ (xi − µX )2 .P(X = xi )
(2.16)
i=1
y si se desarrolla el cuadrado y se aplican las propiedades de la esperanza, se obtiene: n
σ2X = ∑ (x2i − 2xiµX + µ2X ).P(X = xi )
(2.17)
i=1
n
n
n
i=1
i=1
i=1
σ2X = ∑ x2i .P(X = xi ) − 2µX ∑ xi .P(X = xi ) + µ2X ∑ P(X = xi )
(2.18)
n
σ2X = ∑ x2i .P(X = xi ) − 2µX .µX + 1.µ2X
(2.19)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − 2µ2X + µ2X
(2.20)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − µ2X
(2.21)
V [X] = E[X 2 ] − (E[X])2
(2.22)
i=1
Por otra parte, para una v.a.c. X la varianza se define como: σ2X = V [X] = E[(X − µX )2 ] =
Z ∞
−∞
(xi − µX )2 . f (x)dx
(2.23)
Pudiendo simplificarse al igual que la v.a.d. mediante la siguiente formula: V [X] = E[X 2 ] − (E[X])2
(2.24)
Por ultimo, ´ ya sea una v.a.d o una v.a.c, la desviaci´on t´ıpica se define como: σX = +
q σ2X
(2.25)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 29 — #33
i
i
2.8. MOMENTOS
29
2.8. Momentos Dada una v.a.d. X, se llama momento de orden k respecto del par´ametro c a la esperanza matem´atica de la variable (X − c)k , es decir: n
Mk (c) = ∑ (xi − c)k .P(X = xi )
(2.26)
i=1
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk . n
mk = E[X k ] = ∑ xki .P(X = xi )
(2.27)
i=1
Si c = µX se obtienen los momentos centrales que se representan por µk . n
µk = E[(X − µX )k ] = ∑ (xi − µX )k .P(X = xi )
(2.28)
i=1
Mientras que para una v.a.c. X, se llama momento de orden k respecto del par´ametro c a la esperanza matem´atica de la variable (X − c)k , es decir: Mk (c) =
Z ∞
−∞
(x − c)k . f (x)dx
(2.29)
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk . mk = E[X k ] =
Z ∞
−∞
xk . f (x)dx
(2.30)
Si c = µX se obtienen los momentos centrales que se representan por µk . µk = E[(X − µX )k ] =
Z ∞
−∞
(x − µX )k . f (x)dx
(2.31)
Por ultimo, ´ ya sea una v.a.d. o una v.a.c., se cumplen las propiedades de los momentos: m0 = 1 m1 = µ X m2 = σ2 + µ2X µ0 = 1
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 30 — #34
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
30
µ1 = 0 µ2 = σ2 = m2 − µ2X
2.9. Distribuciones de Probabilidad conocidas La ley de probabilidades de una v.a.d. X se define si se conoce su distribuci´on de probabilidad P(xi ) = P(X = xi ) con i = 1, 2, .., o´ bien si se conoce su funci´on de distribuci´on F(x), cumpli´endose:
∑ P(X = xi ) = 1
i≥1
F(x) = P(X ≤ x) =
∑ P(X = xi )
xi ≤x
A continuaci´on se listan algunas de las principales distribuciones de la v.a.d..
2.9.1. Distribuci´on Uniforme Una v.a.d. X que toma los valores enteros x1 , x2 , x3 , ..., xn con probabilidades P[X = xk ] =
1 con k = 1, 2, ..., n n
(2.32)
recibe el nombre de variable uniforme discreta, su distribuci´on de probabilidad distribuci´on uniforme discreta y se denota por X U(x1 , x2 , ..., xn ).
En el caso particular de que la variable tomo como valores los primeros numeros ´ naturales: P[X = k] =
1 con k = 1, 2, ..., n n
(2.33)
Luego, su media, varianza y desviaci´on t´ıpica son: µx =
n+1 2
n2 − 1 12 r n2 − 1 σx = 12 σ2x =
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 31 — #35
i
i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS
31
2.9.2. Distribuci´on de Bernoulli Recibe el nombre de prueba de Bernoulli, aquel experimento que s´olo admite 2 resultados posibles excluyentes: Suceso A (representa el e´ xito) con probabilidad P(A) = p. Suceso Ac (representa el fracaso) con probabilidad P(Ac ) = 1 − p = q.
Dada la v.a.d. X asociada al experimento que asocia el valor 1 al suceso A con probabilidad p y el valor 0 al suceso Ac con probabilidad q. Esta variable recibe el nombre de variable de Bernoulli y se denota por X Ber(p).
La distribuci´on de probabilidad es: P(X = 1) = p y P(X = 0) = 1 − p = q con p + q = 1
(2.34)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = p σ2x = p.q σx =
√
p.q
2.9.3. Distribuci´on Binomial Si se supone que se realizan n pruebas de Bernoulli sucesivas e independientes. Entonces, a la v.a.d. X, que representa el numero ´ de veces que ocurre el suceso A (´exito) en las n pruebas, se la denomina variable binomial de par´ametro n y p, y se denota por X B(n, p), siendo p la probabilidad de e´ xito de cada prueba de Bernoulli.
La variable binomial X se la puede considerar como la suma de n variables independientes de Bernoulli, es decir: X = X1 + X2 + ... + Xn con Xi
Ber(p)∀i = 1, 2, ..., n
(2.35)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 32 — #36
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
32
La v.a. definida toma los valores 0, 1, 2, ..., n con la siguiente probabilidad: n = 1, 2, 3, ... n P(X = k) = .pk .qn−k con k = 1, 2, ..., n k 0< p0
P(λ),
(2.37)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = λ σ2x = λ √ σx = λ
2.9.5. Distribuci´on Hipergeom´etrica Si se considera una poblaci´on de N elementos de dos clases distintas de los cuales D elementos son de la clase A y N − D elementos son de la clase Ac . Al tomar un elemento de esta poblaci´on, la probabilidad de que proceda de una u otra clase es: D = p → D = p.N N
(2.38)
N −D = q = 1 − p → N − D = q.N N
(2.39)
P(A) = P(Ac ) =
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 33 — #37
i
i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS
33
Si se considera el experimento consistente en tomar n elementos consecutivos de una poblaci´on sin ˜ n, se la reemplazamiento. A la v.a.d. X, numero ´ de elementos de la clase A en una muestra de tamano denomina variable hipergeom´etrica.
Entonces, se denomina distribuci´on hipergeom´etrica de par´ametros N, D y n, y se denota con la expresi´on X H(N, D, n), a la distribuci´on de probabilidad que se detalla a continuaci´on:
P[X = k] =
D k
N−D
n−k N n
=
p.N k
q.N
n−k N n
N = 1, 2, 3, ... con n = 1, 2, ..., N p = 0, N1 , N2 , ..., 1
(2.40)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = n.p σ2x = n.p.q.
N−n N−1
r N−n σx = n.p.q. N−1
2.9.6. Distribuci´on Geom´etrica o de Pascal Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X, numero ´ de pruebas necesarias para obtener el primer e´ xito, se la denomina variable geom´etrica.
Entonces, se denomina distribuci´on geom´etrica o de Pascal de par´ametro p y se denota por X a la distribuci´on de probabilidad que se detalla a continuaci´on: P[X = k] = p.q
k−1
con
( k = 1, 2, 3, ...
Ge(p),
(2.41)
0 < p < 1; q = 1 − p
Luego, su media, varianza y desviaci´on t´ıpica son:
µx =
1 p
σ2x =
q p2
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 34 — #38
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
34
σ=
√ q p
2.9.7. Distribuci´on Binomial negativa Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X, numero ´ de fracasos antes de obtener el n-´esimo e´ xito, se la denomina binomial negativa.
Entonces, se denomina distribuci´on binomial negativa de par´ametros n y p, y se denota por X BN(n, p), a la distribuci´on de probabilidad que se detalla a continuaci´on: k = 0, 1, 2, 3, ... n+k−1 P[X = k] = .pn .qk con n = 1, 2, ... k 0< p0
N(µ, σ)
(2.46)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = µ σ2x = σ2 σx = σ
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 36 — #40
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
36
Variable normal tipificada Si la v.a.c. X es N(µ, σ), la variable normal tipificada tambi´en ser´a una distribuci´on normal de media µz = 0 y desviaci´on t´ıpica σz = 1: X −µ Z= (2.47) σ Entonces, Z
N(0, 1) y su funci´on de densidad es: 1 2 1 f (z) = √ e− 2 z con − ∞ < z < ∞ 2π
(2.48)
2.10.3. Distribuci´on Gamma Una v.a.c. X sigue una distribuci´on gamma y se denota por X G(α, p) cuando su funci´on de densidad es: α p −αx p−1 e x con x > 0 (2.49) f (x) = Γ(p)
Se define la funci´on gamma Euler como Γ(p) = p > 0. Entre sus propiedades se destaca:
Z ∞ 0
e−x x p−1 dx que resulta continua y convergente para
p.1) Γ(1) = 1 p.2) Γ(p) = (p − 1)Γ(p − 1) p.3) Si p ∈ Z∗ entonces Γ(p) = (p − 1)!
2.10.4. Distribuci´on Exponencial Es un caso particular de la distribuci´on gamma con p = 1. ( −αx αe si x > 0 X Exp(α) si f (x) = 0 en el resto
(2.50)
Luego, su media, varianza y desviaci´on t´ıpica son:
µx =
1 α
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 37 — #41
i
i
2.10. FUNCIONES DE DENSIDAD CONOCIDAS
σ2x =
1 α2
σx =
1 α
37
2.10.5. Distribuci´on χ2 de Pearson Es un caso particular de la distribuci´on gamma con α = 1/2 y p = n/2 que se genera mediante la suma de los cuadrados de n v.a.c. N(0, 1) independientes entre si, es decir, si X1 , X2 , ..., Xn son n v.a.c. N(0, 1) independientes entre si, entonces la v.a.c. positiva χ2n recibe el nombre χ2 de Pearson con n grados de libertad. χ2n = X12 + X22 + ... + Xn2 (2.51)
Entonces, su funci´on de densidad es: f (x) =
1 e−x/2 x(n/2)−1 con x > 0 2n/2 Γ(n/2)
(2.52)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = n σ2x = 2n σx =
√ 2n
2.10.6. Distribuci´on Beta Una v.a.c. X sigue una distribuci´on beta y se denota por X β(p, q) si sigue la siguiente funci´on de distribuci´on: x p−1 (1 − x)q−1 con x ∈ [0, 1] (2.53) f (x) = β(p, q)
Luego, se define la funci´on beta como: β(p, q) =
Γ(p).Γ(q) = Γ(p + q)
Z 1 0
x p−1 (1 − x)q−1dx
(2.54)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 38 — #42
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
38
2.10.7. Distribuci´on t de Student Se denomina t de Student con n grados de libertad, si las n + 1 v.a.c. X, X1 , X2 , ..., Xn se distribuyen segun ´ una N(0, σ). X Z (2.55) tn = s =p n Xn2 /n 1 2 ∑ Xi n i=1
Entonces, su funci´on de densidad es: ( n+1 n = 1, 2, ... 1 x2 − 2 f (x) = 1+ con √ 1 n n n.β , −∞ < x < ∞ 2 2
(2.56)
Luego, su media, varianza y desviaci´on t´ıpica son: µx = 0 n si n > 2 n−2 r n si n > 2 σx = n−2
σ2x =
2.10.8. Distribuci´on F de Fisher-Snedecor Sean χ2n1 y χ2n2 dos v.a.c. χ2 de Pearson con n1 y n2 grados de libertad respectivamente, independientes entre si. Entonces se denomina F de Fisher-Snedecor con n1 y n2 grados de libertad a la variable: χ2n1 /n1 χ2n2 /n2
(2.57)
Γ((n1 + n2)/2) n1 /2 n2 /2 x(n1 /2)−1 con x > 0 n1 n2 Γ(n1 /2)Γ(n2/2) (n1 x + n2)(n1 +n2 )/2
(2.58)
Fn1 ,n2 =
Luego, su funci´on de densidad es: f (x) =
2.11. Teor´ıa de Muestras La Estad´ıstica tiene como objeto el estudio de un conjunto de personas, cosas o, en general, elementos con alguna caracter´ıstica comun ´ a todos ellos. Sin embargo, si se quiere obtener informaci´on sobre una
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 39 — #43
i
i
´ DE MUESTRAS 2.11. TEORIA
39
poblaci´on, se puede obtener datos de la totalidad (censo) o bien de una parte (muestra). La parte de la estad´ıstica que estudia la relaci´on entre las muestras de una poblaci´on y la poblaci´on misma recibe el nombre de Teor´ıa de Muestras.
En la pr´actica, suele ocurrir que no es posible estudiar los datos de toda la poblaci´on, ya que: el n´umero de la poblaci´on es muy elevado, el estudio llevar´ıa tanto tiempo que ser´ıa impracticable o econ´omicamente inviable. el estudio puede implicar la destrucci´on del elemento estudiado. Por ejemplo, vida u´ til de una l´ampara. los elementos pueden existir conceptualmente, pero no en la realidad. Por ejemplo, la proporci´on de piezas defectuosas que producir´a una m´aquina.
En estos casos se seleccionan muestras, que permiten obtener el comportamiento promedio para formular leyes generales.
Los m´etodos mas destacados para obtener muestras son: Muestreo aleatorio simple Se elige al azar con reemplazamiento (un elemento no puede ser elegido 2 veces). Muestreo estratificado Los elementos de la poblaci´on se dividen en clases o estratos. La muestra se toma asignando un n´umero o cuota de miembros a cada estrato (proporcional a su tama˜no relativo o a su variabilidad) y escogiendo los elementos por muestreo aleatorio simple dentro del estrato. Muestreo sistem´atico Los elementos de la poblaci´on est´an ordenados en listas. Se divide la poblaci´on en tantas partes como el tama˜no muestral y se elige al azar un n´umero de orden en cada parte de la poblaci´on.
En la teor´ıa de muestras se distinguen dos tipos de objetivos: 1 Deducir caracter´ısticas (par´ametros) de la poblaci´on (Inferencia Estad´ıstica). 2 Analizar la concordancia o no de los resultados muestrales con determinadas hip´otesis (Contraste de Hip´otesis). Censo ( Estimaci´on Puntual Poblaci´on Inferencia estad´ıstica Muestra Estimaci´on por intervalos Contraste de hip´otesis
(2.59)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 40 — #44
i
i
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
40
2.11.1. Inferencia Estad´ıstica Es evidente el hecho de que las medidas o caracter´ısticas de una muestra son variables aleatorias, ya que dependen de los valores de la variable aleatoria de la poblaci´on.
Por tanto, una muestra es un vector de valores x1 , x2 , ..., xn ∈ E n , teniendo asociado cada valor una probabilidad de ser elegido.
Se llamar´a estad´ıstico a una funci´on F : E n → R, es decir, una formula de las variables que transforma los valores tomados de la muestra en un numero ´ real. Adem´as, a la distribuci´on de F se la llama distribuci´on del estad´ıstico en el muestreo.
Cuando se realiza una afirmaci´on acerca de los par´ametros de la poblaci´on en estudio, bas´andose en ˜ la informaci´on contenida en la muestra se realiza una estimaci´on puntual, pero si se senala un intervalo de valores dentro del cual se tiene confianza que est´e el valor del par´ametro, se realiza una estimaci´on por intervalos.
Estimaci´on Puntual El proceso de estimaci´on puntual utiliza un estad´ıstico para obtener algun ´ par´ametro de la poblaci´on. Como tal, el estad´ıstico utiliza una variable aleatoria que tiene cierta distribuci´on que depende, en general, del par´ametro en cuesti´on. Adem´as, se utilizar´an dos criterios esenciales para medir la bondad del estimador: que sea centrado o insesgado, es decir, que su media coincida con el par´ametro a estimar. que sea de m´ınima varianza o que tenga la menor varianza entre todos los estimadores del par´ametro.
Estimaci´on por Intervalos En la pr´actica, no s´olo interesa dar una estimaci´on puntual de un par´ametro X sino un intervalo de valores dentro del cual se tiene confianza de que est´e el par´ametro. Por tanto, lo que se busca es un estimador denominado estimador por intervalo compuesto de una pareja de estad´ısticos Li (l´ımite inferior) y Ls (l´ımite superior), y siendo 1 − α el nivel de confianza, mientras que α es el nivel de significaci´on, tales que: P(Li ≤ X ≤ Ls ) = 1 − α con 0 < α < 1
(2.60)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 41 — #45
i
i
´ DE MUESTRAS 2.11. TEORIA
41
Es decir, se llama intervalo de confianza para el par´ametro X con nivel de confianza 1 − α, a una expresi´on del tipo Li ≤ X ≤ Ls donde los l´ımites Li y Ls dependen de la muestra y se calculan de manera tal que si se construyen muchos intervalos, cada vez con distintos valores muestrales, el 100(1 − α) % de ellos contendr´an el verdadero valor del par´ametro.
La amplitud del intervalo est´a ´ıntimamente relacionada con los niveles de confianza y significaci´on. Si ˜ entonces la afirmaci´on de que el par´ametro pertenece al intervalo la amplitud del intervalo es pequena ˜ Pero si la amplitud tiene gran significaci´on (α es grande) pero ofrece poca confianza (1 − α es pequena). del intervalo es grande entonces la afirmaci´on de que el par´ametro pertenece al intervalo tiene menor ˜ aunque ofrece mucha confianza (1 − α es grande). significaci´on (α es pequeno) Por ejemplo, la afirmaci´on “la altura media de una poblaci´on est´a entre 1, 68 y 1, 72 metros” con α = 0, 25 es m´as significativa que la afirmaci´on “la altura media de una poblaci´on est´a entre 1, 60 y 1, 82 metros” con α = 0, 01, aunque esta ultima ´ afirmaci´on ofrece m´as confianza 1 − α = 0, 99 que la primera 1 − α = 0, 75.
2.11.2. Contraste de Hip´otesis Otro objetivo fundamental de la teor´ıa de muestras, es confirmar o rechazar hip´otesis sobre un par´ametro poblacional, mediante el empleo de muestras. Es decir, contrastar una hip´otesis estad´ısticamente es juzgar si cierta propiedad supuesta para cierta poblaci´on es compatible con lo observado en una muestra de ella.
A continuaci´on se pasan a definir algunos conceptos importantes: Contraste de hip´otesis Procedimiento estad´ıstico mediante el cual se investiga la aceptaci´on o rechazo de una afirmaci´on acerca de una o varias caracter´ısticas de una poblaci´on. Hip´otesis nula, H0 Es la hip´otesis que se quiere contrastar y es, por tanto, la que se acepta o rechaza como conclusi´on del contraste. Hip´otesis alternativa, Ha Es la hip´otesis que se opone a la H0 , de forma que si se acepta la Ha se descarta la H0 , y rec´ıprocamente, si se rechaza Ha se acepta H0 . Estad´ıstico de contraste Es una funci´on de la muestra aleatoria simple, que aplica la muestra (x1 , x2 , ..., x3 ) en un punto de la recta real. Regi´on de aceptaci´on Conjunto de valores del estad´ıstico de contraste que lleva a la decisi´on de aceptar la hip´otesis nula H0 . Regi´on cr´ıtica o de rechazo Conjunto de valores del estad´ıstico de contraste que lleva a la decisi´on de rechazar la hip´otesis nula H0 .
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 42 — #46
i
i
42
´ ´ CAPITULO 2. ESTADISTICA INFERENCIAL
Error tipo I, α Error que se comete en la decisi´on del contraste cuando se rechaza la hip´otesis nula H0 , siendo cierta. Error tipo II, β Error que se comete en la decisi´on del contraste cuando se acepta la hip´otesis nula H0 , siendo falsa. Nivel de significaci´on Es la probabilidad de cometer el error de tipo I, y se denota por α. Tambi´en se suele denominar tama˜no del contraste. Potencia de un contraste, 1 − α Es la probabilidad de rechazar la hip´otesis nula H0 , siendo falsa. Se utilizar´a siempre contrastes de m´axima potencia (o m´aximo nivel de confianza), dentro de los que tienen un determinado nivel de significaci´on. Contraste unilateral Es aqu´el cuya regi´on cr´ıtica est´a formada por un solo intervalo de la recta real. Contraste bilateral Es aqu´el cuya regi´on cr´ıtica est´a formada por dos intervalos disjuntos de la recta real.
Por ultimo, ´ para realizar un contraste de hip´otesis es conveniente seguir las siguientes fases: 1 Enunciado y determinaci´on de las hip´otesis H0 y Ha . 2 Elecci´on del nivel de significaci´on α. 3 Especificaci´on del tama˜no muestral. 4 Selecci´on de estad´ıstico o funci´on de decisi´on. 5 Determinaci´on de la regi´on cr´ıtica. 6 C´alculo del valor del estad´ıstico de contraste o funci´on de decisi´on para la muestra particular. 7 Aceptar o rechazar la hip´otesis H0 .
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 43 — #47
i
i
Parte II
Series Temporales
43
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 44 — #48
i
i
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 45 — #49
i
i
45
Hasta ahora las muestras se han analizado con el objetivo de ser comparadas contra una poblaci´on en un momento determinado, sin tener en cuenta la evoluci´on de la variable en el tiempo.
Si se tuviese en cuenta la evoluci´on de la variable, mediante una sucesi´on de muestras ordenadas en el tiempo, al conjunto de datos resultante se lo denomina Serie Temporal, Hist´orica, Cronol´ogica o de Tiempo[Fer04b].
Luego, el an´alisis de una serie temporal implica el manejo conjunto de dos variables, la variable en estudio y la variable temporal, que determina cuando se han realizado las observaciones.
Las observaciones de la variable en estudio pueden estar referidas a un: Instante de tiempo: Se denominan magnitudes stock o niveles. Por ejemplo, cantidad de empleados de una empresa al final de cada mes. Intervalo de tiempo: Se denominan flujos. Por ejemplo, ventas de una empresa a lo largo de cada mes.
La diferencia entre una y otra es que la primera no es sumable, pues se incurrir´ıa en duplicaciones, mientras que la segunda es acumulable. Las ventas de un mes se pueden sumar con la del anterior y as´ı se podr´ıan obtener las ventas de los 2 ultimos ´ meses. Mientras que la observaci´on de los empleados de un mes, no se puede sumar a los empleados del mes anterior, porque se podr´ıan estar sumando dos veces los mismos empleados.
Esto ultimo ´ destaca la importancia de la Homogeneidad, ya que si la amplitud temporal variase ser´ıa dif´ıcil hacer comparaciones entre las diferentes observaciones de una Serie Temporal. Por otra parte esta homogeneidad se pierde de forma natural, con el transcurso del tiempo, de manera que cuando las series son muy largas no hay garant´ıa de que los datos iniciales y finales sean comparables.
Pero la necesidad de que las series temporales no sean muy largas, para que sus datos no pierdan la homogeneidad, entra en contradicci´on con el objetivo m´as elemental de la Estad´ıstica que es el de detectar regularidades en los fen´omenos de masas.
Lo que se pretende con una serie temporal es describir y predecir el comportamiento de un fen´omeno que cambia en el tiempo. Esas variaciones que experimenta una serie temporal pueden ser: Evolutivas: El valor medio de la serie cambia, no permanece fijo en el tiempo. Estacionales: El valor medio de la serie y su variabilidad no cambian, aunque sufra oscilaciones en torno a ese valor medio fijo o constante.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 46 — #50
i
i
46
Esta clasificaci´on permite hablar de Series Temporales Evolutivas o Series Temporales Estacionales, de acuerdo al resultado del an´alisis realizado.
Por otra parte, existen dos tipos de enfoques para analizar una Serie Temporal: el Enfoque Cl´asico y el Enfoque Causal.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 47 — #51
i
i
Cap´ıtulo 3
Enfoque cl´asico Una forma de comenzar el an´alisis de una serie temporal, es mediante su representaci´on gr´afica. Para ello se har´a uso de un sistema cartesiano en el que los per´ıodos de tiempo se ubican en el eje de las abscisas y los valores de la variable aleatoria (yt ) se llevan al eje de ordenadas. El resultado es un diagrama de dispersi´on, con la particularidad de que el eje de abscisas se reserva siempre a la misma variable: el tiempo.
40
20
0
-20
-40
-60
-80
-100 0
0.2
0.4
0.6
0.8
1
Figura 3.1: Ejemplo de una serie temporal. En este tipo de representaci´on se pueden detectar las caracter´ısticas mas sobresalientes de una serie temporal, tales como el movimiento a largo plazo de la variable aleatoria, la amplitud de las oscilaciones, la posible existencia de ciclos, la presencia de valores at´ıpicos o an´omalos, etc. Ver el ejemplo de la Figura 3.1. 47
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 48 — #52
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
48
El enfoque cl´asico asume que el comportamiento de la serie temporal se puede explicar en funci´on del tiempo: yt = f (t). Bajo este esquema, la serie ser´ıa una variable dependiente y el tiempo una independiente o explicativa. Sin embargo, es necesario dejar bien claro que el tiempo, en si, no es una variable explicativa, es simplemente el “soporte” o escenario en el que se realiza o tiene lugar la serie temporal.
Desde este enfoque, cualquier serie temporal se supone que es el resultado de cuatro componentes: tendencia (T), variaciones estacionales (E), variaciones c´ıclicas (C) y variaciones residuales o accidentales ˜ (R). Pero esta descomposici´on de la serie no deja de ser un procedimiento disenado para que el estudio de la misma resulte m´as f´acil, pues esas componentes no siempre existen.
3.1. Tendencia La tendencia se define como aquella componente que recoge el comportamiento de la serie a largo plazo, prescindiendo de las variaciones a corto y mediano plazo. Para poder detectarla es necesario que ˜ la serie conste de un numero ´ de observaciones elevado, a lo largo de muchos anos, para que se pueda determinar si la serie muestra un movimiento a largo plazo que responda a una determinada ley de crecimiento, decrecimiento (series evolutivas) o estabilidad (series estacionarias). Ese comportamiento tendencial puede responder a distintos perfiles: lineal, exponencial, parab´olico, log´ıstico, etc.
A B C
200
150
100
50
0 0
0.2
0.4
0.6
0.8
1
Figura 3.2: Identificaci´on de la tendencia. Ver en el ejemplo de la Figura 3.2 como cambia la forma de percibir la tendencia si es que se toma el intervalo de tiempo inadecuado.
Si se intenta establecer la tendencia teniendo en cuenta solo el intervalo comprendido entre A y B, la tendencia pareciera descender, aunque como se ve claramente en la gr´afica, cuando se toma un rango
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 49 — #53
i
i
3.1. TENDENCIA
49
mayor (por ejemplo desde A hasta C) la tendencia asciende.
El problema es que el concepto de largo plazo va ´ıntimamente relacionado a la naturaleza de la variable, por lo que la longitud utilizada para determinar una tendencia no es comparable entre variables.
Los m´etodos m´as habituales en la determinaci´on de la tendencia son: el an´alisis gr´afico, las medias m´oviles, los m´etodos anal´ıticos y los de alisado exponencial.
3.1.1. An´alisis gr´afico Es el procedimiento mas simple, ya que no utiliza ningun ´ procedimiento anal´ıtico que garantice la objetividad del resultado, y deja la posibilidad que dos analistas distintos lleguen a distintos resultados.
Todo depende del conocimiento que tenga el investigador de la serie temporal estudiada. Ya que en una primera instancia se realiza la representaci´on gr´afica, para luego trazar la tendencia a mano alzada.
Aunque no es aconsejable confiar en los resultados que pueda arrojar este tipo de an´alisis de tendencia, suele utilizarse como un paso previo para cualquier tipo de an´alisis a realizarse en una serie.
3.1.2. Medias m´oviles Consiste en promediar los valores de la variable aleatoria para per´ıodos de tiempo fijos a lo largo de todo el horizonte de la serie temporal.
El resultado de este proceso mec´anico es la eliminaci´on de los movimientos a corto y mediano plazo, as´ı como las irregularidades debidas a factores no controlables ni predecibles. Es decir, a la serie se le quitan dos de sus componentes, quedando con la tendencia y la ciclicidad1 .
La idea que subyace detr´as de este m´etodo es que la media de cualquier conjunto de valores sirve para eliminar la dispersi´on o variabilidad de la serie motivada por factores coyunturales o espor´adicos.
Estos promedios ser´an las medias aritm´eticas de un conjunto k de valores consecutivos, con el requisito de que k sea inferior al total de observaciones. El procedimiento espec´ıfico var´ıa si k es par o impar. 1 En
el caso de existir la ciclicidad, ver la secci´on 3.3 (p´agina 58).
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 50 — #54
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
50
Si k es entero impar, entonces las sucesivas medias se obtendr´ıan de la siguiente forma: k−1 2
∑
yt∗ = yt∗ =
yt+i
i=− k−1 2
(3.1)
k
yt− k−1 + yt− k−1 +1 + yt− k−1 +2 + ... + yt + ... + yt+ k−2 −1 + yt+ k−1 −1 + yt+ k−1 2
2
2
2
2
k
2
(3.2)
A la media yt∗ se la denomina centrada y se la hace corresponder con la observaci´on del momento t, que es el valor central de la suma.
Si k es entero par, no se podr´ıa determinar el valor central de k, por lo que no se corresponder´ıa con ninguno de los observados en la serie original. Esto se supera al aplicar nuevamente el m´etodo de medias m´oviles con k = 2, quedando ahora si los valores centrales relacionados con los valores observados originalmente.
La f´ormula que se utiliza para ambos casos, cuando k es un entero par, es la siguiente: k 2 −1
∑
∗ yt−0,5 =
i=− 2k
k
yt+i (3.3)
˜ o´ ptimo que suavice la serie Luego, sea k entero par o impar, es importante determinar el tamano temporal y que deje expuesta la tendencia. Si k es muy grande entonces el proceso de suavizado puede ˜ llegar a ser tan fuerte que se pierda m´as informaci´on de la deseada. Por otro lado, si k es muy pequeno no se conseguir´an eliminar todas las perturbaciones ajenas a la tendencia.
Si la serie demuestra estacionalidad, o algun ´ tipo de ciclicidad, el valor de k deber´ıa ser mayor o igual al intervalo de tiempo necesario para que se produzca un ciclo. En caso de ser estacionalidad, k deber´ıa ˜ Para cualquier otro caso, en donde exista incertidumbre se recomienda que k ser mayor o igual al ano. sea igual a 3 o 5.
En el ejemplo de la Figura 3.3, se muestra una serie temporal y su tendencia calculada por medias m´oviles. Adem´as se muestra la serie original sin la tendencia calculada (filtrada por el m´etodo aditivo2 ). 2 La
uni´on de los componentes de una serie se realiza a partir de dos m´etodos, en el aditivo yt = Tt +Ct + Et + Rt , mientras que en el multiplicativo yt = Tt ∗Ct ∗ Et ∗ Rt .
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 51 — #55
i
i
3.1. TENDENCIA
51
(a) Serie temporal original
50
tendencia (k=21) serie temporal
0 -50 -100 -150 0
0.2
0.4
0.6
0.8
1
(b) Serie temporal original sin la tendencia
30 20 10 0 -10 -20 -30 -40 -50 -60 0.1
serie temporal sin tendencia
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Figura 3.3: Obtenci´on de la tendencia por Medias M´oviles.
Al igual que en el an´alisis gr´afico se introduce subjetividad en la selecci´on del valor de k. Adem´as, no se puede alcanzar el objetivo de la predicci´on en el an´alisis de las series temporales, pues la tendencia obtenida mediante medias m´oviles no permite la proyecci´on hacia el futuro.
3.1.3. M´etodo anal´ıtico Selecciona una funci´on matem´atica que modelice de forma adecuada la tendencia de la serie temporal. El procedimiento de ajuste suele ser el de los m´ınimos cuadrados, aunque para comenzar el an´alisis se recurre a la representaci´on gr´afica que informa de manera aproximada el tipo de funci´on. Otra alternativa es hacer uso del conocimiento previo de la naturaleza de una serie temporal.
La utilizaci´on de este m´etodo con respecto a los anteriores tiene dos ventajas:
Se mide la bondad del ajuste, dejando de lado la subjetividad del analista.
Se determina una funci´on expl´ıcita, que permite realizar predicciones.
A continuaci´on se detalla: el modelo lineal, el polinomial y el exponencial.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 52 — #56
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
52
Lineal Modelo en el que la variable aleatoria se hace depender linealmente del tiempo, y en donde se presentan variaciones constantes para periodos sucesivos de tiempo. La forma general del mismo es: yt = yt∗ + Rt = a + bt + Rt
(3.4)
Donde: t Tiempo cronol´ogico. b Variaci´on media entre periodos. yt Serie temporal original. yt∗ Estimaci´on de la Tendencia. Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
160 140 120 100 80 60 40 20 0 -20
serie temporal
0
0.2
0.4
0.6
0.8
1
(b) Tendencia con el modelo lineal
160 140 120 100 80 60 40 20 0 -20
tendencia lineal (y = 110.55x+-5.0624) serie temporal
0
0.2
0.4
0.6
0.8
1
(c) Serie temporal original sin la tendencia calculada
60 40 20 0 -20 -40 -60
serie temporal sin tendencia
0
0.2
0.4
0.6
0.8
1
Figura 3.4: Obtenci´on de la tendencia por el M´etodo Anal´ıtico Lineal. Ver el ejemplo de la Figura 3.4.
Polinomial Modelo en el que la relaci´on de la variable aleatoria con el tiempo se expresa a partir de un polinomio. Las variaciones no son constantes, ni en t´erminos absolutos ni relativos.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 53 — #57
i
i
3.1. TENDENCIA
53
El grado del polinomio va a decidir la familia de funciones que se utilice en el modelo, aunque el mas comun ´ de todos es el modelo de funci´on parab´olica. La forma general del mismo es: yt = yt∗ + Rt = a + bt + ct 2 + Rt
(3.5)
Donde: t Tiempo cronol´ogico. yt Serie temporal original. yt∗ Estimaci´on de la Tendencia. Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
35 30 25 20 15 10 5 0
serie temporal
0
0.5
1
1.5
2
(b) Tendencia con el modelo polinomial
35 30 25 20 15 10 5 0
2
tendencia polinomial 24.713x -48.907x+30.135 serie temporal
0
0.5
1
1.5
2
(c) Serie temporal original sin la tendencia
10 5 0 -5 -10
serie temporal sin tendencia
0
0.5
1
1.5
2
Figura 3.5: Obtenci´on de la tendencia por el M´etodo Anal´ıtico Polinomial. Ver el ejemplo de la Figura 3.5.
Exponencial Modelo en el que la relaci´on de la variable aleatoria con el tiempo se expresa a partir de una funci´on exponencial, por lo que la serie temporal cambia a raz´on de una tasa constante. El ajuste por m´ınimos cuadrados es f´acilmente realizable, debido a que la funci´on es linealizable. La forma general del modelo es: yt = yt∗ + Rt = aebt + Rt (3.6)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 54 — #58
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
54
Donde: t Tiempo cronol´ogico. yt Serie temporal original. yt∗ Estimaci´on de la Tendencia. a Tasa de variaci´on inicial. b Tasa de variaci´on instant´anea. Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
2 1.5 1 0.5 0
serie temporal
0
0.5
1
1.5
2
(b) Tendencia con el modelo exponencial
2.5 2 1.5 1 0.5 0
2
tendencia polinomial (-0.00371635+0.0421471i) e
0
0.5
(1.30309-0.0485662i)x +(-0.538773-0.859227i)x
serie temporal
1
1.5
2
(c) Serie temporal original sin la tendencia
0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8
serie temporal sin tendencia
0
0.5
1
1.5
2
Figura 3.6: Obtenci´on de la tendencia por el M´etodo Anal´ıtico Exponencial Ver el ejemplo de la Figura 3.6.
3.1.4. Alisado exponencial Los m´etodos para calcular la tendencia explicados hasta aqu´ı, ya sea el de medias m´oviles o alguno de los m´etodos anal´ıticos, se agrupan dentro del conjunto de t´ecnicas para el alisado proporcional.
El alisado exponencial consiste, al igual que los m´etodos anteriores, en medias ponderadas; pero con la particularidad que la ponderaci´on decrece conforme nos alejamos del origen. Esto es util ´ para la predicci´on de series no estacionales y con una tendencia no definida.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 55 — #59
i
i
´ ESTACIONAL 3.2. VARIACION
55
Para el instante t, el valor medio de la serie (yt∗ ) se puede obtener de la siguiente forma: ∗ yt∗ = αyt + (1 − α)yt−1
(3.7)
∗ yt∗ = αyt + (1 − α)[αyt−1 + (1 − α)yt−2 ]
(3.8)
∗ yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2yt−2
∗ yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2[αyt−2 + (1 − α)yt−3 ] ∗ yt∗ = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + (1 − α)3yt−3
yt∗ = αyt + α(1 − α)yt−1 + ... + α(1 − α)t−1y1 + (1 − α)t y∗0 yt∗
∗ + α(yt = yt−1
∗ + yt−1 )
tal que (0 < α < 1)
(3.9) (3.10) (3.11) (3.12) (3.13)
Donde: t Instante de tiempo. yt Valor de la serie temporal en t. yt∗ Estimaci´on de la Tendencia para t. y∗0 La estimaci´on de la tendencia en el origen es igual al valor de la serie temporal en ese punto (y0 ). α Constante de suavizado. Cuanto mas estable es la serie, α se acerca a la unidad; mientras que si la serie presenta gran volatilidad, α tiende a cero. En cualquier caso, implica introducir cierta subjetividad en el an´alisis de la serie, lo que no deja de ser un inconveniente.
En el ejemplo de la Figura 3.7 (a) se muestra una serie temporal y 2 tendencias calculadas por alisado exponencial. Luego se muestra la serie original sin la tendencia calculada (a partir del m´etodo aditivo), por cada una de las tendencias calculadas.
Por ultimo, ´ cuando la serie temporal tiene una tendencia definida y es estacional, el m´etodo que se acaba de exponer se sustituye por otros procedimientos como el de Holt-Winters [Kal04, Cai08].
3.2. Variaci´on Estacional La variaci´on estacional se define por aquella componente de la serie que contiene movimientos que se repiten de forma peri´odica, siendo la periodicidad inferior al ano, ˜ el mes, la semana o el d´ıa.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 56 — #60
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
56
(a) Serie temporal original
60 40 20 0 -20 -40 -60 -80 -100 -120
serie temporal tendencia (alpha0=0.1) tendencia (alpha1=0.7)
0
0.2
0.4
0.6
0.8
1
(b) Serie temporal original sin la tendencia para alpha0
60 40 20 0 -20 -40 -60
serie temporal sin tendencia (alpha0)
0
0.2
0.4
0.6
0.8
1
(c) Serie temporal original sin la tendencia para alpha1
15 10 5 0 -5 -10 -15 -20
serie temporal sin tendencia (alpha1)
0
0.2
0.4
0.6
0.8
1
Figura 3.7: Obtenci´on de la tendencia por Alisado Exponencial La raz´on de estas variaciones se basa en causas de tipo climatol´ogico (producci´on, turismo, etc.) o de ordenaci´on del tiempo (los d´ıas de la semana condicionan el comportamiento de ciertas series temporales).
Estos movimientos que se repiten de forma sistem´atica, dificultan la posibilidad de hacer comparaciones entre los valores sucesivos de una misma serie temporal, pues el nivel medio de la misma se ve alterado por la estacionalidad.
Para evitar esas distorsiones en los valores medios se recurre a lo que se conoce como desestacionalizaci´on de la serie o correcci´on estacional. Para realizar esta operaci´on es necesario aislar en primer lugar la componente estacional, lo que posibilita su posterior eliminaci´on.
Los distintos m´etodos de obtenci´on de la componente estacional, asumen como precondici´on la eliminaci´on3 de la tendencia (T). Ver el ejemplo de la Figura 3.5 (p´agina 53).
A partir de la serie temporal sin tendencia, se determina el lapso de tiempo m´ınimo en el cual el comportamiento parece repetirse.
˜ Con el lapso de tiempo m´ınimo, se divide la serie temporal sin tendencia en series temporales del tamano del lapso mencionado. Por ejemplo, para una serie temporal sin tendencia de 48 meses, si el lapso m´ınimo son 12 meses, entonces se tendr´an 4 series temporales; tal que su comportamiento parece repetirse para cada una de las series resultantes. 3 Se
deber´a tener en cuenta si el m´etodo de composici´on es aditivo o multiplicativo.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 57 — #61
i
i
´ ESTACIONAL 3.2. VARIACION
57
Se definen como ´ındices generales de variaci´on estacional (IGVE) al promedio de las series temporales obtenidas. La f´ormula es: ∑ xi IGV E(e) =
i∈e;e∈l
(3.14)
ne
Siendo: e Estaci´on dentro de l. l Lapso de tiempo m´ınimo en que se repite el ciclo. nl Cantidad de elementos pertenecientes al conjunto e.
6 Ciclo de estacionalidad de 0.15
4
2
0
-2
-4
-6 0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
Figura 3.8: Ejemplo de IGVE de la Figura 3.5 (c). Si la estacionalidad es anual (12 meses de lapso m´ınimo), el resultado del promedio ser´a una serie temporal de 12 meses de longitud, mientras que para la Figura 3.5 (c) los resultados se muestran en la Figura 3.8.
Luego, como se detalla en la Figura 3.9, la eliminaci´on de la variaci´on estacional4 calculada se realiza de forma semejante a lo hecho con la tendencia.
La serie temporal resultante en la Figura 3.9, se encuentra determinada por: yt∗ = yt − (Ct + Rt ); Tt 6∈ yt 4 Repetici´ on
(3.15)
sucesivas de IGVE hasta cubrir la longitud de la serie temporal sin tendencia.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 58 — #62
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
58
Donde: yt Serie temporal original sin tendencia. yt∗ Estimaci´on de la Estacionalidad. Ct Estimaci´on de la Ciclicidad. Rt Estimaci´on de la Residualidad.
Una vez eliminada la estacionalidad, la serie temporal queda homogeneizada y los valores sucesivos podr´an ser comparados en lo que a niveles medios se refiere.
Por ultimo, ´ es importante destacar que si se elimina la tendencia y la ciclicidad por medias m´oviles, solo queda por aislar la estacionalidad del resto. En esta idea se basan los m´etodos de desestacionalizaci´on5 ampliamente utilizados como el X-9 y su posterior desarrollo el X-11[Mus67].
3.3. Variaci´on C´ıclica La variaci´on c´ıclica se define por aquella componente de la serie que contiene movimientos a mediano ˜ que se repiten de forma casi peri´odica, aunque no son tan regulares plazo, periodos superiores al ano, como las variaciones estacionales.
Esta componente resulta dif´ıcil de aislar, por tres posibles razones: el periodo de la serie es pequeno, ˜ los ciclos de la serie se superponen o simplemente no existe la componente. Esto, con frecuencia, conduce a un an´alisis de las series temporales en el que se prescinde del estudio separado de los ciclos y, en su lugar, se trabaja con la componente mixta ciclo-tendencia.
Por otra parte, se puede intentar aislar la componente mediante un proceso semejante al de las medias m´oviles sobre una serie temporal sin tendencia ni estacionalidad. En la Figura 3.10 se continua con el ejemplo de la Figura 3.9 (p´agina 60).
3.4. Variaci´on Residual (o Indeterminada) La variaci´on residual se define por aquella componente de la serie que no responde a ningun ´ patr´on de comportamiento, sino que es el resultado de factores fortuitos o aleatorios que inciden de forma aislada (inundaciones, huelgas, etc.). Ver la Figura 3.10 (c). 5 Desarrollados
por el Boreau of the Census de Estados Unidos.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 59 — #63
i
i
´ RESIDUAL (O INDETERMINADA) 3.4. VARIACION
59
La utilidad de esta componente se basa en poder verificar si satisface ciertos supuestos o hip´otesis; por ejemplo, que sea realmente aleatoria.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 60 — #64
i
i
´ ´ CAPITULO 3. ENFOQUE CLASICO
60
(a) Serie temporal original sin la tendencia
10 5 0 -5 -10
serie temporal sin tendencia
0
0.5
1
1.5
2
(b) Estacionalidad mediante IGVE
10 5 0 -5 -10
estacionalidad serie temporal sin tendencia
0
0.5
1
1.5
2
(c) Serie temporal original sin la tendencia y desestacionalizada
6 4 2 0 -2 -4 -6
serie temporal sin tendencia ni estacionalidad
0
0.5
1
1.5
2
Figura 3.9: Ejemplo de una Desestacionalizaci´on de la Figura 3.5 (c)
(a) Serie temporal original sin la tendencia ni la estacionalidad
6 4 2 0 -2 -4 -6
serie temporal con ciclicidad
0
0.5
1
1.5
2
(b) Ciclicidad con el modelo de medias moviles
6 4 2 0 -2 -4 -6
ciclicidad (k=3) serie temporal filtrada con ciclicidad
0
0.5
1
1.5
2
(c) Variacion Residual de una serie temporal
2 1 0 -1 -2
residualidad
0
0.5
1
1.5
2
Figura 3.10: Obtenci´on de la variaci´on c´ıclica por Medias M´oviles
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 61 — #65
i
i
Cap´ıtulo 4
Enfoque Causal Otra forma de estudiar el comportamiento de una serie temporal es tratar de explicar sus variaciones como consecuencia de las variaciones de otra u otras series temporales temporales. Esto impulsa la busqueda ´ de una funci´on que ligue esas variables para despu´es poder cuantificarlas mediante el an´alisis de regresi´on.
La cuantificaci´on de la variaci´on que experimenta la serie al pasar de un periodo de tiempo a otro, se obtiene mediante: ∆yt = yt − yt−1 (4.1) Esta relaci´on determina si la serie est´a creciendo o decreciendo, dependiendo si el ∆yt es positivo o negativo, respectivamente.
Por otra parte, la escala de medici´on se encuentra expresada en la misma unidad que la serie temporal, impidiendo comparaciones con otras series temporales de distinta escala.
Al conjunto de todas las variaciones se lo considera a su vez una serie temporal. Si se obtienen estas variaciones para datos anuales y tendencia lineal, se habla de una serie filtrada de tendencia (quedando ˜ si solo las componentes c´ıclica y residual). Mientras que para datos con periodicidad inferior al ano, ˜ pasado, se obtiene una serie filtrada en la diferencia se realiza con respecto al mismo mes del ano estacionalidad y tendencia. Ver los ejemplos de las Figuras 4.1 y 4.2.
6 Medir
las variaciones en forma adimensional.
61
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 62 — #66
i
i
´ CAPITULO 4. ENFOQUE CAUSAL
62
(a) Serie temporal original
45 40 35 30 25 20 15 10 5 0
serie temporal (valores anuales) tendencia lineal (y = 1.0606x+-0.019774)
0
5
10
15
20
25
30
35
(b) Serie temporal de diferenciales
8
serie temporal de los diferenciales (∆ yt = yt - yt-1) tendencia lineal (y = 0.037278x+0.48359)
6 4 2 0 -2 -4 -6 5
10
15
20
25
30
35
Figura 4.1: Serie temporal de diferenciales de valores anuales. Para lograr que las series temporales de diferenciales sean homog´eneas (o comparables), es necesario cuantificar las variaciones en t´erminos relativos6 , mediante las tasas de variaci´on.
4.1. Tasas de variaci´on Las tasas de variaci´on surgen al comparar la variaci´on intertemporal de la variable aleatoria, y se obtienen mediante: n−1
T (h, n) = Thn
∑ yt−i
=
i=0 n−1
∑ yt−h− j
−1
(4.2)
j=0
Donde: h N´umero de periodos que hay entre las observaciones comparadas7. n N´umero de pares de observaciones (comparaciones) utilizadas para el c´alculo.
Luego, si n = 1: T (h, 1) = Th1 = 7 Cantidad
yt yt−h
−1 =
yt − yt−h ∆yt = yt−h yt−h
(4.3)
de datos tomados hacia atr´as.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 63 — #67
i
i
´ 4.1. TASAS DE VARIACION
63
Serie temporal original
serie temporal (valores mensuales) tendencia lineal (y = 1.0655x+0.087934)
45 40 35 30 25 20 15 10 5 0 0
5
10
15
20
25
30
35
Serie temporal de diferenciales
serie temporal de los diferenciales (∆ yt = yt - yt-12) tendencia lineal (y = 0.21641x+7.3899)
25 20 15 10 5 0 15
20
25
30
35
Figura 4.2: Serie temporal de diferenciales de valores mensuales. Las tasas se pueden expresar en tantos por uno, aunque lo mas habitual es que se multipliquen por cien, o cualquier otra potencia de diez, cuyo caso se hablar´ıa de porcentajes o lo que corresponda.
Por ultimo, ´ en funci´on de h y n, las tasas m´as habituales que suelen calcularse son: T11 =
yt
− 1 ∗ 100
yt−1 Se utiliza para datos anuales. Una periodicidad inferior al a˜no, podr´ıa conducir a que la serie resultante se encuentre distorsionada por la estacionalidad. yt 1 T12 = − 1 ∗ 100 yt−12 Se utiliza para datos mensuales, y una tasa de variaci´on anual. La estacionalidad no lo afecta. yt T61 = − 1 ∗ 100 yt−6 Se utiliza para datos mensuales, y una tasa de variaci´on semestral. La estacionalidad lo afecta, debido a que no es homog´enea (enero-julio, febrero-agosto, etc.). yt + yt−1 + ... + yt−11 12 = − 1 ∗ 100 T12 yt−12 + yt−13 + ... + yt−23 Se utiliza para datos mensuales, y se obtiene una tasa de variaci´on anual. Solo se puede aplicar a las variables que se miden por intervalos de tiempo8 . yt + yt−1 + ... + yt−11 − 1 ∗ 100 T112 = yt−1 + yt−2 + ... + yt−12 Se utiliza para datos mensuales, y se obtiene una tasa de variaci´on mensual basada en medias m´oviles anuales. yt + yt−1 + yt−2 − 1 ∗ 100 T13 = yt−1 + yt−2 + yt−3 Se utiliza para datos mensuales, y se obtienen tasas mensuales basada en medias m´oviles trimestrales.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 64 — #68
i
i
´ CAPITULO 4. ENFOQUE CAUSAL
64
8 Variables
que representan un flujo de datos.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 65 — #69
i
i
Parte III
Geoestad´ıstica
65
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 66 — #70
i
i
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 67 — #71
i
i
67
Las series temporales a diferencia de las distribuciones de frecuencias (Ver 2.4) relacionan los datos con el tiempo.
Si en lugar del tiempo en que se realiza la medici´on, se contempla la ubicaci´on en donde se realiza, se podr´ıa conformar un mapa a partir de los valores medidos y sus posiciones9 .
6
5
2
4
1
3
2
2
3
3
2
2
2
2
1
2
2
1
3
1
1
1
2
3
2
1
1
0 0
4
5
6
Figura 4.3: Ejemplo de mapa 2D. Ver en la Figura 4.3, el ejemplo de mapa de dos dimensiones con los valores muestreados para cada posici´on10 . La poblaci´on de esta muestra estar´ıa representada por una variable regionalizada.
9 Las 10 En
posiciones (o ubicaciones) pueden ser ticks de tiempo, puntos georeferenciados, o una mezcla de ambos. las posiciones (1,2), (2,4), (3,3), (4,1), (4,2), (4,4) y (5,4) no se ha podido medir el valor, o es desconocido.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 68 — #72
i
i
68
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 69 — #73
i
i
Cap´ıtulo 5
Variables regionalizadas En la teor´ıa de variables regionalizadas el concepto de funci´on aleatoria juega un papel central. Una funci´on aleatoria es un conjunto de variables aleatorias que se corresponden con los puntos del dominio D bajo estudio. Esto significa que para cada punto u en D existe una variable aleatoria correspondiente Z(u)[B´a].
Una variable regionalizada es la realizaci´on de una funci´on aleatoria. Esto significa que para cada punto u en el espacio d-dimensional el valor del par´ametro z(u) es una realizaci´on de la funci´on aleatoria Z(u). V R = {z(u)|u ∈ D}
(5.1)
Esta interpretaci´on de los par´ametros reconoce el hecho de que no es posible describirlos completamente usando solo m´etodos determin´ısticos. Es mas, en la mayor´ıa de los casos es imposible verificar la suposici´on que indica que el par´ametro es una realizaci´on de la funci´on aleatoria, debido a que solo se trabaja con una unica ´ realizaci´on de la funci´on.
Se puede describir a la funci´on aleatoria a partir de sus funciones de probabilidad multidimensional. Esto significa que para cada conjunto de puntos u1 , ..., un en el dominio D, una funci´on de distribuci´on Fu1 ,...,un es asignada. Si se usa esta funci´on para cada conjunto posible de valores w1 , ..., wn se podr´ıa encontrar la probabilidad P utilizando: P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = Fu1 ,...,un (w1 , ..., wn )
(5.2)
Esto significa que las probabilidades condicionales se podr´ıan usar para estimar promedios locales o globales. Por otra parte, hay infinitos subconjuntos en el dominio D, y para cada punto en D usualmente 69
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 70 — #74
i
i
70
´ CAPITULO 5. VARIABLES REGIONALIZADAS
un valor z(u) a evaluar. Aunque existan varias mediciones del par´ametro para un punto, no ser´a posible realizar la evaluaci´on de la funci´on de distribuci´on mencionada por la complejidad del calculo.
La alternativa es afirmarse en una hip´otesis que reduzca la complejidad del problema.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 71 — #75
i
i
Cap´ıtulo 6
Hip´otesis estad´ıstica Si se plantea como hip´otesis a la estacionalidad fuerte de la funci´on aleatoria Z(u), tal que para cada conjunto de puntos u1 , ..., un en el dominio D, para cada conjunto de valores posibles w1 , ..., wn y para cada h se cumple: P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = P(Z(u1 + h) < w1 , ..., Z(un + h) < wn )
(6.1)
Esta ecuaci´on determina que la distribuci´on de la funci´on aleatoria depende de la configuraci´on de los puntos (a partir de la distancia h) y no de la localizaci´on de los mismos. En otras palabras la “naturaleza” se repite a si misma para una misma configuraci´on (o esquema).
La suposici´on de la hip´otesis general basada en la estacionalidad fuerte es util, ´ pero aun ´ demasiado compleja para ser apropiada. Para tratar este problema de forma efectiva se deben agregar algunas suposiciones que simplifiquen los c´alculos. Existen b´asicamente dos hip´otesis simplificadoras: la estacionalidad de segundo orden y la hip´otesis intr´ınseca.
6.1. Estacionalidad de Segundo Orden La estacionalidad es un concepto que se utiliz´o en el an´alisis de series temporales. En este caso la estacionalidad de segundo orden se formula para espacios multidimensionales, consistiendo de dos condiciones: El valor esperado de la funci´on aleatoria Z(u) es constante sobre todo el dominio D. E[Z(u)] = m
(6.2)
71
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 72 — #76
i
i
´ ´ ´ CAPITULO 6. HIPOTESIS ESTADISTICA
72
La covarianza de dos variables aleatorias correspondientes a dos localizaciones depende s´olo del vector h que separa a los dos puntos. E[(Z(u + h) − m)(Z(u) − m))] = Cov(h)
(6.3)
Cov(0) = E[(Z(u) − m)(Z(u) − m)] = V [Z(u)]
(6.4)
Para el caso particular de h = 0:
La ecuaci´on 6.4 muestra que las variables aleatorias correspondientes a los diferentes puntos en el dominio no s´olo tienen la misma esperanza, sino que tambi´en tienen que tener la misma varianza finita. Esta segunda condici´on no siempre es conocida, pero se pueden formular hip´otesis m´as d´ebiles como la que se describe a continuaci´on.
6.2. Hip´otesis Intr´ınseca La hip´otesis intr´ınseca es mas d´ebil que la estacionalidad de segundo orden, consistiendo de las dos condiciones siguientes: El valor esperado de la funci´on aleatoria Z(u) es constante sobre todo el dominio D. E[Z(u)] = m
(6.5)
La varianza del incremento correspondiente a dos localizaciones diferentes depende s´olo del vector que las separa. A esta funci´on dependiente del vector h se la denomina semivariograma11. 1 1 V [Z(u + h) − Z(u)] = E[(Z(u + h) − Z(u))2] = γ(h) 2 2
(6.6)
En la ecuaci´on 6.3 se puede apreciar el parecido con la 6.6, pero la suposici´on de una varianza finita no est´a expl´ıcita en la 6.3. Adem´as se puede demostrar que la estacionalidad de segundo orden implica a la hip´otesis intr´ınseca, pero lo opuesto no es verdad (Ver Figura 6.1).
6.3. Comparaci´on de las dos hip´otesis La diferencia entre la hip´otesis intr´ınseca y la estacionalidad de segundo orden, no es s´olo el hecho de que la primera es m´as general que la segunda (Ver Figura 6.1). La funci´on de covarianza ( 6.3) est´a definida usando el valor esperado m, mientras que el semivariograma ( 6.6) no depende de este valor. Esto es una ventaja, porque las tendencias leves no influenciar´an al semivariograma, mientras que una mala estimaci´on de la esperanza afectar´ıa aun ´ mas a la funci´on de covarianza. 11 Suele
ser confundido con el variograma, que ser´ıa dos veces el semivariograma.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 73 — #77
i
i
´ DE LAS DOS HIPOTESIS ´ 6.3. COMPARACION
73
Hipotesis Intrinseca Estacionalidad de Segundo Orden
Figura 6.1: Diagrama de Venn de la Hip´otesis Intr´ınseca y la Estacionalidad de Segundo Orden. La relaci´on entre el variograma y la funci´on de covarianza es: 2γ(h) = E[(Z(u + h) − Z(u))2] = E[((Z(u + h) − m) − (Z(u) − m))2]
(6.7)
2γ(h) = V [Z(u)] + V [Z(u + h)] − 2E[Z(u + h) − m)(Z(u) − m)]
(6.8)
2γ(h) = 2Cov(0) − 2Cov(h)
(6.9)
γ(h) = Cov(0) − Cov(h)
(6.10)
12 C(0) f(h) = C(0) γ(h) C(h) 10
8
6
4
2
0 0
5
10
15
20
25
30
h
Figura 6.2: El variograma y la funci´on de covarianza. La Figura 6.2 muestra la relaci´on desarrollada.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 74 — #78
i
i
74
´ ´ ´ CAPITULO 6. HIPOTESIS ESTADISTICA
6.4. Selecci´on de la variable regionalizada La variable regionalizada bajo estudio debe cumplir ciertas condiciones para poder utilizar los m´etodos de an´alisis geoestad´ısticos: Homogeneidad de los datos Los datos deber´an reflejar un solo par´ametro (Z(u)), medido por un m´etodo de medici´on y si es posible con la misma tecnolog´ıa. Aditividad de conjuntos El par´ametro deber´a tener la propiedad12 que 1n ∑ni=1 Z(ui ) tiene el mismo significado que E[Z(u)].
12 Algunos
par´ametros naturales son claramente no aditivos, pero mediante transformaciones pueden ser llevados a par´ametros aditi-
vos.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 75 — #79
i
i
Cap´ıtulo 7
Variograma El variograma se define como la varianza del incremento, es por eso que debe cumplir ciertas condiciones. Estas ser´an explicadas en la secci´on 7.2. Naturalmente hay propiedades del variograma que pueden ser explicadas sin una descripci´on matem´atica precisa. γ(0) = 0 γ(h) ≥ 0; ∀0 < h < rango γ(h) = tope; ∀h ≥ rango γ(h) = γ(−h); ∀h Z(u) es continuo ∴ hi+1 > hi =⇒ γ(hi+1 ) > γ(hi ) A menudo es discontinua con respecto al origen (l´ımh→0 γ(h) 6= 0), cumpliendo con el efecto pepita13.
La hip´otesis acerca de la existencia de un variograma es el punto clave de la geoestad´ıstica. La primera pregunta a responder ser´a si el par´ametro bajo estudio cumple con la hip´otesis intr´ınseca.
Si se supone que las mediciones Z(ui ) de un par´ametro Z(u) son tomadas para las localizaciones ui , siendo i = 1, ..., n.
Como primer paso se puede calcular los valores (Z(ui ) − Z(u j ))2 para todos los pares formados, para los puntos ui u u j . Luego se deber´a graficar teniendo en cuenta la distancia (y tal vez la direcci´on) entre las ubicaciones. 75
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 76 — #80
i
i
´ CAPITULO 7. VARIOGRAMA
76
35
30
(Z(u+h)-Z(u))2
25
20
15
10
5
0 0
1
2
3
4
5
6
7
8
h
Figura 7.1: Ejemplo de nube de puntos de un variograma.
La Figura 7.1 muestra un ejemplo de una nube de puntos de donde luego se obtendr´a un variograma.
10
8
(Z(u+h)-Z(u))2
6
4
2
0 0
1
2
3
4
5
6
7
8
h
Figura 7.2: Ejemplo de un variograma experimenal. Aunque la condici´on de la hip´otesis intr´ınseca representada por la ecuaci´on 6.6, no garantice que los valores obtenidos se acerquen a cierta l´ınea, si se utiliza el valor esperado (calculado como la media aritm´etica) para el ejemplo de la Figura 7.1, se obtendr´a la Figura 7.2, la cual es posible aproximarla a una funci´on mediante m´ınimos cuadrados. 13 Causado
por un error de medici´on, o una componente aleatoria que no depende de la ubicaci´on.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 77 — #81
i
i
7.1. VARIOGRAMA EXPERIMENTAL
77
7.1. Variograma Experimental La funci´on variograma tiene que ser estimada sobre la base de la informaci´on disponible. En el caso de un conjunto finito de datos la estimaci´on del variograma puede ser hecha s´olo para un conjunto finito de vectores. 1 γ∗ (h) = (7.1) ∑ (Z(ui ) − Z(u j ))2 2N(h) ui −u j =h Donde: ui Ubicaci´on de una medici´on. u j Ubicaci´on de una medici´on. h Distancia entre las ubicaciones ui y u j . Z(ui ) Valor de la medici´on en la ubicaci´on ui . Z(u j ) Valor de la medici´on en la ubicaci´on u j . N(h) Cantidad de pares de ubicaciones para la distancia h. γ∗ (h) Estimaci´on del variograma para h.
Si los puntos se encuentren espaciados irregularmente la condici´on para la sumatoria ui − u j = h tiene que ser debilitada, para poder obtener m´as pares por cada h. Esto significa que la sumatoria deber´ıa ser hecha sobre los pares que cumplen las siguientes condiciones14 : |ui − u j | − |h| ≤ ε
(7.2)
Angulo(ui − u j , h) ≤ δ
(7.3)
La condici´on 7.3 es utilizada en el variograma direccional, cuando la muestra es grande y es dif´ıcil encontrar un modelo te´orico representativo del variograma experimental.
7.2. Variograma Te´orico Los variogramas experimentales son calculados para un numero ´ finito de vectores h. Si los valores para el resto de los vectores h debe ser definido, se podr´ıa realizar con una simple interpolaci´on lineal. La desventaja de esto es que el resultado de la funci´on lineal no necesariamente satisface la ecuaci´on 6.6. 14 En
− → donde |a − b| denota el tama˜no del vector ab.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 78 — #82
i
i
´ CAPITULO 7. VARIOGRAMA
78
Luego, para cualquier combinaci´on lineal ∑ni=1 θi Z(ui ), tal que ∑ni=1 θi = 0; la varianza es finita15 y puede calcularse como: n
n
n
V [ ∑ θi Z(ui )] = − ∑ ∑ θ j θi γ(ui − u j )
(7.4)
j=1 i=1
i=1
Como el variograma no puede ser negativo, la ecuaci´on 7.4 cumple con la condici´on necesaria: n
n
− ∑ ∑ θ j θi γ(ui − u j ) ≥ 0
(7.5)
j=1 i=1
Para relacionar los variogramas experimentales con las funciones matem´aticas adecuadas, diferentes modelos te´oricos son desarrollados. Estos pueden ser clasificados en dos grupos: modelos con un tope y modelos sin un tope.
7.2.1. Modelos con un tope Si la estacionalidad de segundo orden es conocida16, se obtendr´an variogramas que son constantes despu´es de cierta distancia (o rango). Esto se produce porque Z(u) y Z(u + h) son independientes, luego si Cov(h) = 0 y por la ecuaci´on 6.10 resulta: γ(h) = Cov(0); h > rango
(7.6)
Si adem´as se tiene en cuenta la ecuaci´on 6.4, entonces: γ(h) = V [Z(u)]; h > rango
(7.7)
A continuaci´on se mencionan algunos modelos que cumplen con esta propiedad17 :
Efecto pepita puro Se cumple cuando no existe correlaci´on entre las variables aleatorias de diferentes localizaciones. ( 0 si h = 0 γ(h) = (7.8) C si h > 0 15
Puede ser probado a partir de la hip´otesis intr´ınseca. que para puntos muy distantes las variables aleatorias correspondientes son independientes. 17 Cualquier combinaci´ on lineal entre los modelos con tope, producir´a nuevamente un modelo con tope. 16 Supone
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 79 — #83
i
i
´ 7.2. VARIOGRAMA TEORICO
79
Donde: h Distancia entre dos localizaciones. C Tope igual a la varianza V [Z(u)]. γ(h) Variograma te´orico.
5 γ(h)
4
3
2
1
0 0
2
4
6
8
10
h
Figura 7.3: Variograma te´orico que modela el efecto pepita puro. En la Figura 7.3 se muestra un modelo de variograma te´orico con efecto pepita puro.
Esf´erico Se encuentra descripto por dos par´ametros: el rango y el tope. El rango determina a partir de que distancia h las variables aleatorias de las distintas localizaciones no contienen relaci´on. C 3 h − 1 h33 si h ≤ a 2a 2a γ(h) = (7.9) C si h > a Donde: h Distancia entre dos localizaciones. a Rango. C Tope igual a la varianza V [Z(u)]. γ(h) Variograma te´orico.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 80 — #84
i
i
´ CAPITULO 7. VARIOGRAMA
80
5 γ(h) tope rango 4
3
2
1
0 0
2
4
6
8
10
h
Figura 7.4: Variograma te´orico del modelo esf´erico.
En la Figura 7.4 se muestra un modelo esf´erico de variograma te´orico.
Exponencial A diferencia del modelo esf´erico todas las variables aleatorias se encuentran relacionadas en el a´ mbito te´orico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no te´orico de 3a. h
γ(h) = C(1 − e− a )
(7.10)
Donde: h Distancia entre dos localizaciones. a Par´ametro que determina el rango (no te´orico). C Tope aproximado a V [Z(u)] (asint´otica horizontalmente). e Base de los logaritmos naturales. γ(h) Variograma te´orico.
En la Figura 7.5 se muestra un modelo exponencial de variograma te´orico.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 81 — #85
i
i
´ 7.2. VARIOGRAMA TEORICO
81
5 γ(h) tope rango 4
3
2
1
0 0
2
4
6
8
10
h
Figura 7.5: Variograma te´orico del modelo exponencial. Gaussiano A diferencia del modelo esf´erico todas las variables aleatorias se encuentran relacionadas en el ambito √ te´orico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no te´orico de 3a. A diferencia del modelo exponencial muestra un comportamiento cuadr´atico conforme tiende a 0. γ(h) = C(1 − e
2
− h2 a
)
(7.11)
Donde: h Distancia entre dos localizaciones. a Par´ametro que determina el rango (no te´orico). C Tope aproximado a V [Z(u)] (asint´otica horizontalmente). e Base de los logaritmos naturales. γ(h) Variograma te´orico.
En la Figura 7.6 se muestra un modelo gaussiano de variograma te´orico.
7.2.2. Modelos sin un tope Si la estacionalidad de segundo orden no es conocida (por ejemplo, la varianza V [Z(u)] no es finita), pero la hip´otesis intr´ınseca es verdadera, se obtendr´an variogramas que no son constantes, ni se acercan a una as´ıntota, despu´es de cierta distancia.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 82 — #86
i
i
´ CAPITULO 7. VARIOGRAMA
82
5 γ(h) tope rango 4
3
2
1
0 0
2
4
6
8
10
h
Figura 7.6: Variograma te´orico del modelo Gaussiano. A continuaci´on se mencionan algunos modelos que cumplen con esta propiedad:
Potencial Se cumple cuando el modelo se puede representar mediante la potencia de un numero ´ λ. γ(h) = Chλ
(7.12)
Donde: h Distancia entre dos localizaciones. λ Definida en el intervalo (0, 2). C Constante. γ(h) Variograma te´orico.
En la Figura 7.7 se muestra un modelo potencial de variograma te´orico.
Complejos Los modelos listados previamente satisfacen la condici´on 7.5. Desafortunadamente estos modelos no siempre describen la variabilidad de las variables regionalizadas bajo estudio. La combinaci´on de los modelos anteriores ampl´ıa el conjunto de los variogramas te´oricos.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 83 — #87
i
i
´ 7.3. AJUSTE A UN MODELO TEORICO
83
5 γ(h),λ=1 γ(h),λ=0.5
4
3
2
1
0 0
2
4
6
8
10
h
Figura 7.7: Variograma te´orico del modelo potencial. Si γ1 (h), ..., γK (h) son modelos de variogramas que cumplen la condici´on 7.5 y c1 , ..., cK son numeros ´ no negativos, luego la ecuaci´on 7.13 satisface 7.5. γ(h) =
K
∑ ck γk (h)
(7.13)
k=1
7.3. Ajuste a un modelo te´orico Dado que los variogramas experimentales no cumplen con las propiedades estad´ısticas detalladas, es necesario ajustarlos a un variograma te´orico.
Existen varias aproximaciones: a ojo, m´ınimos cuadrados y probabilidad m´axima.
7.3.1. A ojo En este m´etodo se intenta calcular “a ojo” el ajuste del variograma emp´ırico a un modelo te´orico de variograma.
Al igual que en 3.1.1, es subjetivo al experto que lo lleva a cabo. Aunque se lo suele usar para detectar valores extremos, errores de medici´on, etc.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 84 — #88
i
i
´ CAPITULO 7. VARIOGRAMA
84
7.3.2. M´ınimos cuadrados Este m´etodo a diferencia del anterior, es autom´atico. Aunque, por otra parte, los errores de medici´on y valores extremos no pueden ser detectados.
Otra desventaja es que el m´etodo asume que los errores18 son independientes de la curva de ajuste (o variograma te´orico), y esto ultimo ´ no es cierto.
7.3.3. Probabilidad m´axima Este m´etodo postula para cada distancia hi una distribuci´on fhi . Esta distribuci´on describe la desviaci´on entre el conjunto de valores obtenidos para un hi y el valor del modelo te´orico.
A cada distribuci´on se asocia una probabilidad que puede ser calculada a partir de la comparaci´on de la esperanza y el valor del modelo te´orico. P(hi ) =
E[ fhi (u)] γ∗ (hi )
(7.14)
La combinaci´on de probabilidades que produce el mayor producto es la probabilidad m´axima (PM): n
PM = ∏ P(hi )
(7.15)
i=1
Dado que se desea maximizar la probabilidad m´axima y minimizar el error (calculado por la diferencia al cuadrado) al mismo instante, se puede minimizar la ecuaci´on 7.16 para obtener el ajuste deseado. n
ε = ∑ (γ∗ (hi ) − γ(hi ))2 (1 − P(hi))
(7.16)
i=1
Al igual que 7.3.2 es un estimador autom´atico. Adem´as supone independencia entre los diferentes puntos, lo cual no es determinable en la mayor´ıa de los casos. 18 Desviaci´ on
entre el variograma experimental y el variograma te´orico.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 85 — #89
i
i
´ Y ANISOTROPIA ´ 7.4. ISOTROPIA
85
7.4. Isotrop´ıa y anisotrop´ıa ˜ del vector h. En La variable regionalizada es isotr´opica si su variograma depende s´olo de el tamano este caso el variograma experimental puede ser calculado con la condici´on limitante: |ui − u j | = |h|
(7.17)
La isotrop´ıa puede ser probada si hay una cantidad suficiente de datos “bien espaciados”19 . En este caso los variogramas experimentales correspondientes a diferentes direcciones pueden ser calculados y comparados.
˜ se debe asumir que el variogr´ama Aunque en muchos casos, cuando el conjunto de datos es pequeno, es istotr´opico para mejorar la calidad del c´alculo (del variograma) para cada distancia h.
Si una funci´on no es isotr´opica, entonces esta puede mostrar diferentes tipos de anisotrop´ıas, como la geom´etrica o la zonal.
7.4.1. Anisotrop´ıa geom´etrica La variable regionalizada tiene una anisotrop´ıa geom´etrica si hay una transformaci´on de coordenadas T tal que Z(u′ ) = Z(T (u)) es isotr´opica. Esto significa que para la anisotrop´ıa geom´etrica una simple transformaci´on de coordenadas conduce a un caso donde s´olo las distancias20 (del nuevo sistema de coordenadas) juegan un rol.
Esta transformaci´on debe ser aplicada cuando el valor del tope sea el mismo para cada direcci´on, pero el rango var´ıa en cada una de ellas.
Si se dibuja el rango para cada direcci´on y se obtiene una elipse21 , primero se deber´a rotar y luego se realizar´a la transformaci´on T (a partir de las ecuaciones 7.18 y 7.19) para que se logre una circunferencia. x′ = λ(x cos ϕ + y sin ϕ) (7.18) y′ = −x sin ϕ + y cosϕ
(7.19)
19
No necesariamente alineados. de depender del a´ ngulo de la direcci´on en la cual se realiza el variograma. 21 En la tridimensi´ on se utiliza una elipsoide. 20 Dejando
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 86 — #90
i
i
86
´ CAPITULO 7. VARIOGRAMA
Donde: (x, y) Coordenada original. λ Proporci´on de transformaci´on. ´ ϕ Angulo entre el eje de coordenadas x y el eje principal de la anisotrop´ıa (elipse). (x′ , y′ ) Coordenada resultante de la transformaci´on.
Una vez realizada la transformaci´on se continua ´ con un an´alisis isom´etrico, y por ultimo ´ se deber´a volver a realizar una transformaci´on inversa, para obtener los resultados con el sistema de coordenadas originales.
7.4.2. Anisotrop´ıa zonal La variable regionalizada tiene una anisotrop´ıa zonal si los rangos no convergen a una elipse, o si los valores de tope son diferentes.
En este caso se deber´a utilizar un modelo de anisotrop´ıa complejo, para el que cada termino del modelo puede mostrar diferentes anisotrop´ıas geom´etricas.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 87 — #91
i
i
Cap´ıtulo 8
Kriging El variograma es la herramienta principal para algunos c´alculos geoestad´ısticos, como estimar el valor del par´ametro en lugares no muestreados o el valor promedio de un par´ametro en un a´ rea determinada.
Estos tipos de c´alculos pueden ser llevados a cabo a partir de procedimientos como el Kriging Ordinario o los m´etodos no estacionales.
8.1. Kriging Ordinario Es el m´as simple de todos los procedimientos. La estimaci´on puede ser realizada para un punto particular o se podr´ıa calcular un valor promedio para un bloque determinado.
8.1.1. Kriging Ordinario Puntual El problema de la interpolaci´on (y la extrapolaci´on) es la estimaci´on de un par´ametro en una posici´on no muestreada.
Un estimador lineal que combine los valores muestreados de las variables regionalizadas deber´a ser encontrado. Esto significa que el estimador es de la forma: n
Z ∗ (u) = ∑ λi Z(ui )
(8.1)
i=1
87
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 88 — #92
i
i
´ CAPITULO 8. KRIGING
88
Donde: Z ∗ (u) Estimaci´on para cualquier localizaci´on u. Z(ui ) Valor del par´ametro muestreado en la localizaci´on ui . λi Coeficientes de ajuste de la estimaci´on al par´ametro. Existen infinitos valores para los coeficientes λi y es deseable seleccionarlos manteniendo insesgado al estimador, generando la varianza de la estimaci´on m´as baja posible.
Usando la estacionalidad de segundo orden o la hip´otesis intr´ınseca se tiene: E[Z(u)] = m∀u ∈ D
(8.2)
Luego el estimador lineal queda como: n
E[Z ∗ (u)] = ∑ λi E[Z(ui )] = m
(8.3)
i=1
La condici´on que tienen que cumplir los coeficientes para que la estimaci´on sea insesgada es: n
∑ λi = 1
(8.4)
i=1
Luego, si se utiliza la hip´otesis de estacionalidad de segundo orden la varianza de la estimaci´on est´a dada por la funci´on cuadr´atica: n
σ2 (u) = V [Z(u) − Z ∗ (u)] = E[(Z(u) − ∑ λi Z(ui ))2 ]
(8.5)
i=1
n
n
n
σ2 (u) = E[Z(u)2 + ∑ ∑ λi λ j Z(ui )Z(u j ) − 2 ∑ λi Z(ui )Z(u)] i=1 j=1
i=1
n
n
n
σ2 (u) = Cov(0) + ∑ ∑ λi λ jCov(ui − u j ) − 2 ∑ λiCov(ui − u) i=1 j=1
(8.6)
(8.7)
i=1
El mejor estimador lineal insesgado (en ingl´es BLUE22 ) es aquel que hace m´ınima a la varianza de la estimaci´on, teniendo en cuenta la condici´on 8.4. 22 Best
Linear Unbiased Estimator.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 89 — #93
i
i
8.1. KRIGING ORDINARIO
89
Este problema de estimaci´on restringida puede ser resuelto mediante el multiplicador de Lagrange µ [Hoa84]. n
K(λ, µ) = σ2 (u) − 2µ( ∑ λi − 1))
(8.8)
i=1
Si se realizan las derivadas parciales para cada λi y con respecto a µ, y se iguala a cero se encontrar´a la varianza m´ınima de la estimaci´on. dK(λi , µ) = 0∀i; ui ∈ D (8.9) dλi dK(λ, µ) =0 (8.10) dµ
El sistema de kriging23 en t´erminos de covarianzas queda compuesto por: n
∑ λ jCov(ui − u j ) − µ = Cov(ui − u)∀i = 1, ..., n
(8.11)
j=1
n
∑ λj = 1
(8.12)
j=1
Si en lugar de la estacionalidad de segundo orden se utiliza la hip´otesis intr´ınseca, la varianza de la estimaci´on queda dada por: n
n
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u) j=1 i=1
(8.13)
i=1
Y al minimizarla, el sistema de kriging en t´erminos de variogramas es: n
∑ λ j γ(ui − u j ) + µ = γ(ui − u)∀i = 1, ..., n
(8.14)
j=1
n
∑ λj = 1
(8.15)
j=1
8.1.2. Kriging Ordinario por Bloques Con frecuencia lo que se necesita es un promedio de los valores del par´ametro sobre cierta a´ rea, en lugar de un valor espec´ıfico de una ubicaci´on. Esto podr´ıa ser realizado estimando una gran cantidad de puntos en el a´ rea y tomando el promedio de los valores. 23 Es
λi .
un sistema de ecuaciones resultante de la minimizaci´on teniendo en cuenta al Multiplicador de Lagrange µ y a los coeficientes
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 90 — #94
i
i
´ CAPITULO 8. KRIGING
90
Una forma m´as simple de hacerlo, es suponer que el promedio del par´ametro sobre cierto volumen B (o bloque) perteneciente al dominio D va a ser estimado. 1 Z(B) = |B|
Z
Z(u)du
(8.16)
B
Nuevamente, se debe encontrar un estimador de la forma: n
Z ∗ (B) = ∑ λi Z(ui )
(8.17)
i=1
La condici´on que mantendr´a a la estimaci´on insesgada ser´a: n
∑ λi = 1
(8.18)
i=1
La varianza de la estimaci´on ser´a: n
n
n
σ2 (B) = V [Z(B) − Z ∗ (B)] = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B) j=1 i=1
(8.19)
i=1
Donde: B Bloque, volumen. γ(h) Variograma para una distancia h dada. γ(B, B) Variograma promedio entre dos bloques. γ(ui , B) Variograma promedio entre un punto y un bloque.
Si γ(ui , B) y γ(B, B) se calculan mediante: γ(ui , B) =
γ(B, B) =
1 |B|
1 |B|
Z
B
Z Z
B B
γ(ui − u)du
(8.20)
γ(u − v)dudv
(8.21)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 91 — #95
i
i
8.1. KRIGING ORDINARIO
91
Luego, la minimizaci´on de σ2 (B) manteniendo la estimaci´on insesgada produce el siguiente sistema de ecuaciones: n
∑ λ j γ(ui − u j ) + µ = γ(ui , B)∀i = 1, ..., n
(8.22)
j=1
n
∑ λj = 1
(8.23)
j=1
8.1.3. El variograma y el kriging Como la varianza de la estimaci´on y las ecuaciones del kriging est´an calculadas con la ayuda del variograma, es evidente que este ultimo ´ cumple un rol importante.
Utilizar el variograma en el kriging no s´olo produce el valor esperado, sino que adem´as calcula la varianza de la estimaci´on correspondiente. Esto ultimo ´ determina la calidad de la estimaci´on, ya que una varianza alta significa poca certeza en la estimaci´on. Por otro lado, la varianza de la estimaci´on ser´a cero para las estimaciones de las posiciones muestreadas.
Comparando las varianzas de las estimaciones que se obtienen al usar el kriging puntual y el kriging por bloques, se puede ver que la varianza del ultimo ´ es notablemente menor.
Esto se debe al t´ermino adicional γ(B, B) de la varianza de la estimaci´on por bloques. A medida que γ(B, B) aumenta con el tamano ˜ del bloque, la varianza de la estimaci´on decrece, dando mayor exactitud que una estimaci´on puntual.
8.1.4. El Kriging en la pr´actica Usualmente los puntos utilizados para el kriging puntual o por bloques son seleccionados dentro de cierta distancia (o rango) teniendo en cuenta la anisotrop´ıa.
Si aun ´ as´ı continuan ´ quedando demasiados puntos, se selecciona un vecindario con los n puntos m´as cercanos, donde n es un l´ımite preestablecido.
Es importante destacar que la selecci´on de un vecindario falla si los puntos se encuentran esparcidos irregularmente. En este ultimo ´ caso es necesario utilizar una busqueda ´ direccional.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 92 — #96
i
i
´ CAPITULO 8. KRIGING
92
8.1.5. Kriging con un variograma “falso” Algunas veces, el kriging es obtenido mediante la utilizaci´on de variogramas te´oricos en lugar de los variogramas experimentales. En este caso al realizar la selecci´on de los par´ametros del variograma, se debe tener en cuenta que se afecta directamente a los resultados del kriging.
Usualmente se suele utilizar un modelo complejo con dos elementos: un efecto pepita y un modelo simple (esf´erico, exponencial, gaussiano o lineal).
8.1.6. Validaci´on cruzada Dado que la peculiaridad de las observaciones complica la utilizaci´on de pruebas estad´ısticas, y que la subjetividad del ajuste “a ojo” en los variogramas te´oricos deber´ıa ser controlada para reducir su error, la validaci´on cruzada es un procedimiento que prueba al variograma te´orico estimado.
Para cada localizaci´on de muestreo ui los valores son estimados (usando kriging) como si fueran desconocidos. Este estimador es representado por Z v (ui ) y su correspondiente desv´ıo est´andar σv (ui ).
Luego, los valores de la estimaci´on son comparados con los valores verdaderos Z(ui ). Si la desviaci´on est´andar del kriging es interpretada como un error de estimaci´on con distribuci´on normal (N(0, 1)), entonces: Z v (ui ) − Z(ui ) ; S(u) N(0, 1) (8.24) S(ui ) = σv (ui )
En caso de diferir de N(0, 1) significa que el ajuste puede ser mejorado. Por otra parte, este procedimiento suele utilizarse para detectar valores extremos o at´ıpicos.
8.1.7. Kriging con datos inciertos Frecuentemente un mismo par´ametro es medido o estimado mediante diferentes m´etodos. Si estos m´etodos producen resultados con diferentes precisiones, las mediciones deber´ıan ser manejadas teniendo en cuenta estas diferencias. Para cada ui existe un t´ermino de error ε(ui ) que cumple con las siguientes propiedades: Insesgada E[ε(ui )] = 0
(8.25)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 93 — #97
i
i
8.1. KRIGING ORDINARIO
93
Sin correlaci´on E[ε(ui )ε(u j )] = 0∀i 6= j
(8.26)
Sin correlaci´on con los valores del par´ametro E[ε(ui )Z(ui )] = 0
(8.27)
Por conveniencia se desarrolla s´olo la estimaci´on para un bloque B, que est´a dada por: n
Z ∗ (B) = ∑ λi (Z(ui ) + ε(ui ))
(8.28)
i=1
La condici´on que mantendr´a insesgados a la variable aleatoria de la estimaci´on seguir´a siendo: n
∑ λi = 1
(8.29)
σ2 (B) = V [Z(B) − Z ∗ (B)]
(8.30)
i=1
Y la varianza de la estimaci´on es: n
n
n
n
i=1
i=1
σ2 (B) = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B) + ∑ λ2i E[ε(ui )2 ] j=1 i=1
(8.31)
Al minimizar la varianza de la estimaci´on se obtiene un sistema de ecuaciones similar al sistema del kriging ordinario: n
∑ λ j γ(ui − u j ) + λiE[ε(ui )2 ] + µ = γ(ui , B)∀i = 1, ..., n
(8.32)
j=1
n
∑ λj = 1
(8.33)
j=1
8.1.8. Kriging Simple El kriging ordinario supone que el valor esperado es el mismo para cualquier posici´on del dominio D, descartando la existencia de variables regionalizadas que posean una variabilidad en su valor esperado para distintas posiciones del dominio.
El kriging simple es una alternativa al kriging ordinario que tiene en cuenta al valor medio esperado m(u) (no necesariamente constante) en todo el dominio D.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 94 — #98
i
i
´ CAPITULO 8. KRIGING
94
La funci´on de estimaci´on queda expresada como: n
Z ∗ (u) = m(u) + ∑ λi (Z(ui ) − m(ui ))
(8.34)
i=1
La condici´on que mantendr´a insesgados a la variable aleatoria de la estimaci´on es: n
E[Z ∗ (u) − Z(u)] = m(u) + ∑ λi E[Z(ui ) − m(ui)] − m(u) = 0
(8.35)
i=1
La varianza del estimador es: V [Z ∗ (u) − Z(u)] = E[Z ∗ (u)2 + Z(u)2 − 2Z ∗ (u)Z(u)]
(8.36)
V [Z ∗ (u) − Z(u)] = ∑ ∑ λi λ jCov(ui − u j ) + Cov(0) − 2 ∑ λiCov(ui − u)
(8.37)
n
n
n
i=1
i=1 j=1
La varianza de la estimaci´on es m´ınima si: dV [Z ∗ (u) − Z(u)] = 0∀i; ui ∈ D dλi
(8.38)
Por ultimo ´ el sistema de ecuaciones para el kriging simple tiene la siguiente forma: n
∑ λ jCov(ui − u j ) = Cov(ui − u)∀i = 1, ..., n
(8.39)
j=1
8.2. M´etodos no estacionales Desafortunadamente, muchos par´ametros naturales no cumplen con la hip´otesis intr´ınseca por causa de cambios sistem´aticos en el valor del par´ametro medido.
Los cambios sistem´aticos contaminan el variograma experimental y conducen a resultados inaceptables.
Si se supone que la primera condici´on ( 6.5) de la hip´otesis intr´ınseca no es constante y en su lugar se tiene una deriva sistem´atica no conocida. Y por otra parte, la diferencia entre la variable regionalizada y la deriva es intr´ınseca, entonces: Z(u) = f (u) + Y (u) (8.40) Z(u) − f (u) = Y (u)
(8.41)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 95 — #99
i
i
´ 8.2. METODOS NO ESTACIONALES
95
Donde: Z(u) Valor del par´ametro (variable regionalizada). Y (u) Funci´on intr´ınseca, tal que E[Y (u)] = 0. f (u) Funci´on que representa la deriva.
El m´etodo de ajuste que se suele utilizar para estimar la deriva es el ajuste por m´ınimos cuadrados. Esto requiere que no exista relaci´on entre los residuos, quedando independientes entre si. Pero contradice la ecuaci´on mas general, dado que la variable regionalizada es la suma de una deriva f (u) y un residuo intr´ınseco Y (u). Solo ser´a verdadero si los residuos tienen variogramas con efecto pepita puro.
Para tratar con la deriva se presentar´an dos m´etodos diferentes: el kriging universal y el kriging con deriva externo.
8.2.1. Kriging Universal El problema principal en los casos no estacionales es que la estimaci´on de la deriva requiere del variograma, pero la estimaci´on del variograma requiere del conocimiento de la deriva.
El kriging universal es un m´etodo donde la deriva se obtiene de forma iterativa con el fin de estimar el variograma, esto es posible porque en el kriging la deriva no se utiliza, y su efecto es filtrado.
El agregado de constantes a la variable regionalizada no afecta al variograma. Por lo que la deriva f (u) debe ser contemplada como una constante aditiva: S
f (u) =
∑ bs fs (u)
(8.42)
s=0
Donde: f0 (u) es igual a 1. bs deben ser averiguados para s > 0.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 96 — #100
i
i
´ CAPITULO 8. KRIGING
96
La funci´on anterior es cierta en un a´ mbito “local”, dentro de un vecindario. Los coeficientes bs son estimados a partir de una combinaci´on lineal de los valores medidos: n
b∗s = ∑ di,s Z(ui )
(8.43)
i=1
Donde: b∗s Estimaci´on del los coeficientes bs . di,s Coeficiente que determina la relaci´on lineal con cada Z(ui ). Z(ui ) Valor medido en la posici´on ui .
Estos estimadores deber´ıan ser insesgados, por lo que deber´an cumplir la condici´on: n
E[b∗s ] = bs = ∑ di,s E[Z(ui )]
(8.44)
!
(8.45)
!
(8.46)
i=1
Usando la ecuaci´on 8.42 se tiene: S
n
∑ bq fq (ui )
bs = ∑ di,s
q=1
i=1
A partir de la ecuaci´on anterior se obtiene: bs =
S
n
q=1
i=1
∑ bq ∑ di,s fq (ui )
Si las funciones fs (u) son linealmente independientes, de la ecuaci´on anterior se deduce que: n
∑ di,s fq (ui )
i=1
(1 0
La varianza para cada coeficiente estimado b∗s es: " V [b∗s ]
=V
n
si q = s (8.47) si q 6= s
#
∑ di,s Z(ui )
i=1
(8.48)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 97 — #101
i
i
´ 8.2. METODOS NO ESTACIONALES
97
Y dado que la varianza de la estimaci´on ser´a finita, se cumple la condici´on: n
∑ di,s = 0
(8.49)
i=0
Usando la ecuaci´on 8.48 se calcula: n
n
V [b∗s ] = ∑ ∑ di,s d j,s γ(ui − u j )
(8.50)
i=1 j=1
Si se utiliza el multiplicador de Lagrange para agregar las condiciones 8.49 y 8.47; y luego se minimiza la funci´on, se obtiene un sistema de kriging semejante a los anteriores. n
S
j=1
q=1
∑ γ(ui − u j ) + µ0,s + ∑ µq,s fs (u) = 0∀i = 1, ..., n
(8.51)
n
∑ di,s = 0
(8.52)
i=1 n
∑ di,s fq (ui )
i=1
(1 0
si q = s (8.53) si q 6= s
Al resolver el sistema de ecuaciones anterior para s = 1, ..., S se obtienen los coeficientes di,s y utilizando a estos ultimos ´ los bs . Esta aproximaci´on tiene el problema que el c´alculo de los coeficientes necesita de los variogramas. El procedimiento iterativo siguiente realiza una estimaci´on del variograma te´orico para resolver el conflicto. 1 Determinar el tipo de la deriva (usualmente el orden del polinomio). 2 Desarrollar un variograma te´orico γ y calcular los coeficientes de la deriva. 3 Calcular el variograma experimental de los residuos Y (u). 4 Comparar los variogramas te´orico y experimentales desarrollados en los pasos 2 y 3. Parar si la correspondencia entre las dos curvas es buena. Sino repetir el paso 2 con un nuevo variograma te´orico reajustado al variograma experimental.
Una vez que los variogramas hayan sido calculados se procede con la estimaci´on para un punto o un bloque de forma semejante a como se lleva a cabo el kriging ordinario: n
Z ∗ (u) = ∑ λi Z(ui )
(8.54)
i=1
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 98 — #102
i
i
´ CAPITULO 8. KRIGING
98
La condici´on de imparcialidad que mantiene a la variable aleatoria insesgada es: " # n
E
∑ λi Z(ui ) − Z(u)
=0
(8.55)
i=1
Al usar las ecuaciones 8.40 y 8.42 se tiene: n
S
S
i=1
s=0
s=0
∑ λi ∑ bs fs (ui ) − ∑ bs fs (u)
(8.56)
Al sacar factor comun ´ se tiene: S
"
#
n
∑ bs ∑ λi fs (ui ) − fs(u)
s=0
i=1
=0
(8.57)
La ecuaci´on anterior se deber´ıa mantener para cualquier bs . Entonces se cumplir´a si: n
∑ λi fs (ui ) − fs (u) = 0∀s = 0, ..., S
(8.58)
i=1
La varianza de la estimaci´on es: n
n
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u) j=1 i=1
(8.59)
i=1
Si se aplican los multiplicadores de Lagrange correspondientes y se minimiza la ecuaci´on resultante se obtiene el sistema de kriging: n
S
j=1
s=0
∑ λ j γ(ui − u j ) + ∑ µs fs (ui ) = γ(ui − u) ∀i = 1, ..., n
(8.60)
n
∑ λi fs (ui ) = fs (u) ∀s = 0, ..., S
(8.61)
i=1
El kriging universal fue el primer m´etodo geoestad´ıstico para las funciones aleatorias no estacionarias. La estimaci´on iterativa del variograma consume una gran cantidad de tiempo y no hay garant´ıas de que los resultados converjan.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 99 — #103
i
i
´ SIMPLE 8.3. ACTUALIZACION
99
8.2.2. Kriging con Deriva Externa Si se supone que existe la variable aleatoria regionalizada Y (u) que est´a relacionada linealmente con Z(u). La hip´otesis del valor esperado constante es reemplazado por: E[Z(u)|Y (u)] = a + bY(u)
(8.62)
Dado que a y b son constantes desconocidas, el estimador lineal deber´ıa ser insesgado para cualquier valor de a y b: n
Z ∗ (u) = ∑ λi Z(ui )
(8.63)
i=1
Minimizando la varianza de la estimaci´on bajo las precondiciones que se mencionaron se tiene: I
∑ λ j γ(ui − u j ) + µ1 + µ2Y (ui ) = γ(ui − u)∀i = 1, ..., I
(8.64)
j=1
I
∑ λj = 1
(8.65)
∑ λ jY (u j ) = Y (u)
(8.66)
j=1 I
j=1
Es deseable aplicar kriging con deriva externa24 si la informaci´on secundaria existe en una alta resoluci´on espacial con respecto a la variable principal y se encuentra distribuida dentro de una grilla.
8.3. Actualizaci´on Simple La actualizaci´on simple es un m´etodo de kriging que utiliza informaci´on adicional para mejorar sus resultados.
Si se tiene en cuenta que la variable secundaria L(u) complementa a la variable primaria Z(u), dado que L(u) est´a disponible para cada punto del dominio y se encuentra relacionada con Z(u) mediante la esperanza condicional: E[Z(u)|L(u) = l] = ml (8.67) 24 O
External Drift Kriging (EDK) en ingl´es.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 100 — #104
i
i
´ CAPITULO 8. KRIGING
100
Y mediante la varianza condicional: V [Z(u)|L(u) = l] = σ2l
(8.68)
Una primera estimaci´on de Z(u) basada solamente en L(u): Z ′ (u) = ml + εl
(8.69)
Donde: εl Error aleatorio. Tal que E[εl ] = 0 y su varianza es σ2l . Si se usa Z ′ (u) combinadas con las observaciones Z(ui ) para la estimaci´on de Z(u), se tiene: n
Z ∗ (u) = λ0 Z ′ (u) + ∑ λi Z(ui )
(8.70)
i=1
Luego, la varianza de la estimaci´on estar´ıa dada por: V [Z(u) − Z ∗ (u)]
(8.71)
− ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi (1 − λ0)γ(ui − u) + λ20E[ε2l ]
(8.72)
n
n
n
i=1
j=1 i=1
Y al minimizar la varianza de la estimaci´on de forma que sea insesgada mediante el multiplicador de Lagrange se tiene: n
∑ λ j γ(ui − u j ) + µ = (1 − λ0)γ(ui − u)∀i = 1, ..., n
(8.73)
j=1
n
∑ λ j γ(u − u j ) + µ = λ0σ2l
(8.74)
j=1
n
∑ λj = 1
(8.75)
j=0
El la pr´actica la informaci´on adicional es de forma discreta y existe para cada localizaci´on. Para cada clase l la media y la varianza pueden ser calculadas por: ∑ni=1 Z(ui ) ; L(ui ) = l ∑ni=1 1
(8.76)
∑ni=1 (Z(ui ) − ml )2 ; L(ui ) = l (∑ni=1 1) − 1
(8.77)
ml = σ2l =
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 101 — #105
i
i
8.4. KRIGING SOBRE SERIES TEMPORALES
101
8.4. Kriging sobre Series Temporales Los m´etodos geoestad´ısticos fueron pensados para problemas mineros y geol´ogicos, donde para cada localizaci´on se realizaba una medici´on. Aunque en muchas otras aplicaciones la misma localizaci´on puede ser usada para varias mediciones. Por ejemplo, las precipitaciones o la calidad del agua subterr´anea son medidas regularmente en el tiempo. La cuesti´on es como modelar y utilizar de forma geoestad´ıstica estas mediciones.
Una forma posible de incluir el tiempo es extendiendo la hip´otesis intr´ınseca con la dimensi´on del tiempo. Esto significa que las localizaciones de la muestra consiste de dos partes: una espacial (1, 2 o 3 dimensiones) y una temporal. Esta aproximaci´on es razonable para variables aleatorias de tiempo continuo como la calidad del agua subterr´anea. Aunque no es apropiada para par´ametros basados en eventos (en las precipitaciones no se puede usar la precipitaci´on del 1 de Junio y del 30 de Junio para calcular la del 15 de Junio).
Otra posible extensi´on es el uso de los datos correspondientes a un mismo tiempo como una realizaci´on, y suponer que las diferentes realizaciones corresponden a un mismo proceso. Este m´etodo no excluye al primero, los instantes de un proceso espacio-temporal intr´ınseco son tambi´en intr´ınsecos en el espacio, y los variogramas espaciales son los mismos.
8.4.1. Intr´ınsecas en el espacio-tiempo La funci´on aleatoria Z(u,t) es intr´ınseca en el espacio-tiempo si: E[Z(u,t)] = m
El semivariograma espacio temporal es independiente de la localizaci´on u y del tiempo t: 1 γ(h, ∆t) = V [Z(u + h,t + ∆t) − Z(u,t)] 2
(8.78)
(8.79)
El problema que surge al calcular los semivariogramas espacio temporales es que no hay una funci´on de distancia en comun. ´ Las distancias espaciales pueden ser calculadas, al igual que las diferencias de tiempo, pero lo que no se conoce es el equivalente espacial para una diferencia de tiempo. Esto se puede obtener calculando los semivariogramas experimentales para el espacio y el tiempo de forma separada.
Para la componente temporal: γ∗T (∆t) =
1 ∑ (Z(ui ,ti ) − Z(u j ,t j ))2 2NT (∆t) (i, j)∈R (∆t)
(8.80)
T
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 102 — #106
i
i
´ CAPITULO 8. KRIGING
102
Donde: RT (g) {(i, j); g − ε ≤ |ti − t j | ≤ g + ε y (ui = u j )} NT (g) Cantidad de elementos en RT (g).
Para la estructura espacial: γ∗S (h) =
1 ∑ 2NS (h) (i, j)∈R
(Z(ui ,ti ) − Z(u j ,t j ))2
(8.81)
S (h)
Donde: RS (g) {(i, j); g − ε ≤ |ui − u j | ≤ g + ε y |ti − t j | ≤ δ} NS (g) Cantidad de elementos en RS (g).
Luego, existen dos situaciones: El tipo de los dos variogramas experimentales son similares, tienen el mismo efecto pepita y el mismo tope. Esto significa que cuanto mucho se observar´a una anisotrop´ıa geom´etrica que ser´a tratada con una transformaci´on lineal, resultando un modelo isotr´opico. La distancia de un vector (h, ∆t) se define como: q |(h, ∆t)| =
|h|2 + kt |∆t|2
(8.82)
El tipo de los dos variogramas experimentales son diferentes, teniendo una forma diferente y/o un tope distinto. En este caso se modelar´a un variograma te´orico de acuerdo a una anisotrop´ıa zonal. En este caso el variograma espacio temporal γST (h, ∆t) puede ser escrito como: γST (h, ∆t) = γS (h) + γT (∆h)
(8.83)
En ambos casos el sistema de kriging se calcula de igual manera que en casos anteriores.
8.4.2. Intr´ınsecas en el espacio e independientes del tiempo La funci´on aleatoria Z(u,t) es espacialmente intr´ınseca con el variograma independiente del tiempo si: E[Z(u,t)] = m
(8.84)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 103 — #107
i
i
8.4. KRIGING SOBRE SERIES TEMPORALES
103
El variograma espacial es independiente de la localizaci´on u y del tiempo t si ∆t ≤ δ: 1 γ(h) = V [Z(u + h,t + ∆t) − Z(u,t)] 2
(8.85)
8.4.3. Intr´ınsecas en el espacio y dependientes del tiempo La funci´on aleatoria Z(u,t) es espacialmente intr´ınseca con el variograma dependiente del tiempo si: E[Z(u,t)] = m(t)
(8.86)
El variograma espacial para un tiempo t es independiente de la localizaci´on u si ∆t ≤ δ y k(t) es una funci´on de tiempo dependiente: 1 γ(h,t) = k(t) V [Z(u + h,t + ∆t) − Z(u,t)] 2
(8.87)
Por ejemplo: Semivariograma proporcional con la media: k(t) = m(t)2 Esto significa que
Z(u,t) m(t)
(8.88)
es espacialmente intr´ınseca con un variograma independiente del tiempo.
Semivariograma proporcional con la varianza: k(t) = V [Z(u,t)] con t fijo
(8.89)
Esto significa que la estructura de correlaci´on se preserva a trav´es del tiempo.
8.4.4. Series temporales interpretadas como diferentes realizaciones En el caso de par´ametros basados en eventos o con cambios bruscos, las series temporales pueden ser utilizadas para un an´alisis mas profundo de la estructura de correlaci´on espacial. Esto requiere que se asuman como similares aquellos procesos observados en instantes de tiempo cercanos, pero la similitud es solo aceptada en la correlaci´on de los eventos en la distribuci´on espacial. Si esto se cumple, puede ser detectado mediante el c´alculo del coeficiente de correlaci´on ρ para series temporales de los distintos pares de localizaciones (ui , u j ): CovT (Z(ui ,t), Z(u j ,t)) ρi j = p V [Z(ui ,t)]V [Z(u j ,t)]
(8.90)
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 104 — #108
i
i
´ CAPITULO 8. KRIGING
104
Siendo la covarianza temporal: CovT (Z(ui ,t), Z(u j ,t)) = E[Z(ui ,t) − E[Z(ui ,t)]Z(u j ,t) − E[Z(u j ,t)]]
(8.91)
El coeficiente de correlaci´on es el coeficiente temporal estandarizado entre dos series temporales, donde:
valor positivo (max: 1) Relaci´on lineal positiva fuerte. valor neutral 0 Sin relaci´on lineal. valor negativo (min: −1) Relaci´on lineal negativa fuerte. Si al coeficiente anterior se lo calcula para un numero de pares, de tal forma que denote una funci´on con respecto a la distancia entre los pares, mostrar´ıa una figura similar a la obtenida por una funci´on de covarianza espacial (Funci´on 6.3, Figura 6.2).
Si la hip´otesis de similitud es conocida los coeficientes de correlaci´on pueden utilizarse para: Una nube de covarianzas, similar a la nube del variograma, que puede ser utilizada para el c´alculo del kriging. La informaci´on contenida en la estructura de la correlaci´on espacial, que puede ser utilizada para futuras optimizaciones de la funci´on de correlaci´on te´orica.
i
i i
i
i
i “Geoestadistica-book” — 2010/8/15 — 21:27 — page 105 — #109
i
i
Bibliograf´ıa [Ber]
Levine Berenson. Estad´ıstica para la Administraci´on.
[B´a]
Andr´as B´ardossy. Introduction to Geostatistics.
[Cai08] Amanda Walters; Qian Cai. Investigating the use of holt-winters time series model for forecasting population at the state and sub-state levels. Febrero 2008. Demographics and Workforce Section, Weldon Cooper Center for Public Service, University of Virginia. [Cap]
Carlos Capelletti. Elementos de Estad´ıstica.
[Fer04a] Ignacio Cascos Fern´andez. Estad´ıstica descriptiva. 2004. [Fer04b] Jes´us S´anchez Fern´andez. Introducci´on a la Estad´ıstica Empresarial. 2004. ISBN: 84-688-9882-1. [Hoa84] Nguyen Dinh Hoa. The lagrange multiplier function in the equation approach to constrained optimization. Universitatis Iagellonicae Acta Matem´atica, XXIV:99–117, 1984. [Kal04] Prajakta S. Kalekar. Time series forecasting using holt-winters exponential smoothing. Diciembre 2004. Kanwal Rekhi School of Information Technology. [Men]
William Mendenhall. Estad´ıstica para administradores.
[Mus67] Julius Shiskin; Allan H. Young; John C. Musgrave. The x-11 variant of the census method ii seasonal adjustement program. Technical report, Boreau of the Census Economic Research and Analysis Division, Febrero 1967. [P´e03]
Luis Lechuga P´erez. M´etodos estad´ısticos en la ingenier´ıa. Departamento de Matem´atica Aplicada, Universidad de M´alaga, 2003.
[Wik]
Wikipedia. Probabilidad.
105
i
i i
i
View more...
Comments