Libro Probabilidades y Estadistica
July 5, 2022 | Author: Anonymous | Category: N/A
Short Description
Download Libro Probabilidades y Estadistica...
Description
Jesús Abel Mejía Marcacuzco
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Ph. D. Enqu R Fls Mzz Rector
Ph. D. J J Alns Alón Nv Vicerrector Académico
D. Cmn Els Vlzm Snhz Vicerrec icerrectora tora de Investigación
D. Jsé Cls Vlpm Jefe del Fondo Editorial
Jesús Abel Mejía Marcacuzco PROBABILIDAD Y ESTADISTICA EN HIDROLOGÍA Lima: Fondo Editorial - UNALM 2017; 194 p.
© Jesús Abel Mejía Marcacuzco © Universidad Nacional Agraria la Molina Av. La Molina s/n La Molina Derechos reservados ISBN: 978-612-4147-91-3 Hecho en el Depósito Legal en la Biblioteca Nacional del Perú Registro: Nº 2017-05059 Primera Edición: abril del 2017 - Tiraje 500 ejemplares Impreso en Perú - Printed in Peru Coordinación editorial: José Carlos Vilcapoma Diseño y diagramación de carátula: Roxana Perales Flores Diseño, diagramación e impresión: Editora Gráfca Vega S.A.C.
Jr. Juan Manuel del Mar y Bernedo 1218 - Cercado de Lima Queda terminantemente prohibida por la ley del Perú la reproducción total o parcial de esta obra por cualquier medio, ya sea eléctronico, mecánico químico, óptico, incluyendo sistema de fotocopiado, sin autorización escrita de la Universidad Nacional Agraria La Molina y del autor. Todos los conceptos expresados en la presente obra son responsabilidad del autor.
C P
1. 1.1. 1.2. 1.3. 1.4. 2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 3. 3.1. 3.2. 3.3. 3.4. 3.5.
Tabulación estadística descriptiva Denición de términos Recopilación de datos Distribución de frecuencias frecuencias y representaciones grácas Medidas de tendencia central, central, de dispersión y de forma
9 9 9 11 14
Fundamentos de probabilidad Denición y propiedades Probabilidad provisional Teorema de probabilidad total Teorema de Vayes Permutaciones Combinaciones Variable aleatoria y distribución de probabilidades Variable aleator aleatoria ia Tipos de variables aleatorias Función de densidad y función de distribución de variables aleatorias aleatorias Momento de distribuciones Estimación de parámetros
18 18 18 20 21 23 23 27 27 28 28 32 33
3.6. Distribuciones bidimensionales Distribución de variables aleatorias discretas 4.1. Distribución hipergeométrica 4.2. Distribución binominal 4.3. Distribución geométrica 4.4. Distribución binominal negativa 4.5. Distribución de Poisson 4.6. Distribución exponencial 4.7. Distribucón Gamma 4.8. Distribución multinominal 5. Distribución de variables aleatorias continuas 5.1. Distribución uniforme o rectangular 5.2. Distribución normal 5.3. Distribución exponencial 5.4. Distribución Gamma 4.
7
36 40 40 41 44 45 45 47 48 49 51 51 52 56 60
6. 6.1. 6.2. 6.3. 6.4. 6.5. 7.
Distribución de probabilidades para valores extremos Distribución Log-normal de dos parámetros Distribución Log-normal de tres parámetros Distribución de valores extremos Tipo I-Gumbel Distribución de valores extremos extremos Tipo Tipo III-Weibull III-Weibull Distribución de Pearson Tipo III
6.6. Distribución Log-Pearson Tipo III Intervalos de conanza, pruebas de hipótesis y de ajuste 7.1. Intervalos de conanza 7.1.1. Introducción 7.1.2. Intervalos de conanza para la media de una distribución normal 7.1.3. Intervalos de conanza para la diferencia de medias 7.1.4. Intervalos de conanza para la varianza de una distribución normal 7.1.5. Intervalos de conanza con un solo límite 7.2. Prueba de hipótesis 7.2.1. Introducción 7.2.2. Tipos de errores 7.2.3. Nivel de signicación 7.2.4. Región de rechazo y región de aceptación
7.2.5. Tipos de pruebas de hipótesis 7.2.6. Pasos para la realización de una prueba de hipótesis 7.2.7. Pruebas de hipótesis sobre la media de una distribución normal 7.2.8. Pruebas de hipótesis sobre diferencia entre medias 7.2.9. Pruebas de hipótesis relativa a la varianza de una población 7.2.10. Pruebas de hipótesis relativa a las varianzas de de dos poblaciones 7.3. Prueba de ajuste 7.3.1. Ajuste gráco 7.3.2. Prueba de ajuste CHI-cuadrado (X2) 7.3.3. Prueba de vericación de Kolmogorov 7.3.4. Ventajas y limitac limitaciones iones de las pruebas de ajustes 8. Análisis de frecuencias de eventos extremos Introducción Periodo de retorno y riesgo Fundamento de los métodos estadísticos Series parciales y anuales La curva de frecuencias Comentarios sobre sobre el uso de las distribuciones distribuciones estadísticas estadísticas Factores de frecuencia en el análisis de máximas avenidas 8.7.1. Factor de frecuencia para la distribución normal y Log-normal 8.7.2. Factor de frecuencia para la distribución Gumbel y Log-Gumbel 8.7.3. 8.7 .3. Factor de frecuencia para la distribución Pearson III y Log-Pearson III 8.8. Límites de conanza para para las distribuciones de valores extremos 8.9. Aplicación al análisis de máximas avenidas avenidas para el rio Cañete 9. Regresión lineal simple
66 66 69 71 73 76 77 79 79 79 79 82 84 85 85 85 85 86 86 86 87 87 90 92 93 94 94 95 95 96 100
8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7.
100 101 103 104 105 106 107 108 108 109 109 110 114
9.1. Regresión simple 9.2. Evaluación de la regresión
114 115
9.3. Intervalos de de conanza conanza y pruebas de hipótesis hipótesis 9.3.1. Prueba de normalidad de los residuos 9.3.2. Inferencia acerca del coeciente de regresión 9.3.3. Intervalos de conanza para la línea de regresión 9.3.4. Intervalos de conanza para el Error Estándar 10. Regresión lineal múltiple
116 116 117 118 119 126
10.1. Modelo Modelo lineal general 10.2. Intervalo de conanza para el Error Estándar 10.3. Inferencia Inferencia acerca de los coecientes de regresión 10.4. Intervalos de conanza para la línea de regresión 10.5. Código MATLAB para regresión lineal múltiple 11. Correlación 11.1. Coecientes Coecientes se correlación 11.2. Inferencia Inferencia acerca de los coecientes de correlación 11.3. Correlación serial 11.4. Correlación Correlación y análisis regional 11.5. Correlación Correlación de causa y efecto 11.6. Falsa Falsa correlación o correlación spuria 12. Análisis de series de tiempo
126 131 132 134 136 139 139 139 143 145 145 146 147
12.1. Recopilación Recopilación de datos hidrológicos 12.2. Series Series de tiempo hidrológicas 12.3. Consistencia Consistencia de datos 12.4. Saltos 12.5. Tendencia 12.6. Periodicidad 12.7. Representación Representación de un proceso estocástico 12.8. Propiedades Propiedades de las series de tiempo 12.9. Autocorrelación 12.10. Análisis espectral 13. Modelos estocásticos en hidrología 13.1. Introducción
147 148 149 150 156 158 158 158 160 161 164 164
13.2. M 13.3. Modelo Modelo Modelo odelo autorregresivo autorregresivo de de primer primer orden orden con periodicidad 13.4. Modelo autorregresivo de orden superior superior 13.5. Ejemplo de aplicación de un modelo autorregresivo de primer orden 14. Descripción de los modelos matemáticos en Hidrología 14.1. Información requerida y razones para el modelamiento hidrológico 14.2. Clasicación Clasicación general de modelos matemáticos en Hidrología 14.3. Clasicación Clasicación funcional de modelos matemáticos en Hidrología 14.4. Clasicación Clasicación estructural de modelos matemáticos en Hidrología 14.5. Clasicación Clasicación de acuerdo al nivel de desagregación espacial 14.6. Clasicación de acuerdo a la descripción del proceso hidrológico 14.7. Clasicación Clasicación de acuerdo al nivel tecnológico 14.8. Selección Selección de modelos
165 168 169 170 176 177 178 180 182 186 188 190 191
Bblg
193
P El origen de la Estadística se remonta a épocas en las que los gobernantes requerían técnicas para controlar sus propiedades y a las personas. Posteriormente, el desarrollo de los juegos de azar propició el estudio de métodos matemáticos para su análisis los cuales con el tiempo dieron origen a la teoría de la probabilidad que es el soporte de la estadística en la actualidad. La estadística ha alcanzado un nivel de desarrollo muy alto y constituye actualmente el soporte necesario para todas las ciencias y para la investigación cientíca, como soporte para tomar decisiones en un entorno de incertidumbre. En la gestión de recursos hídricos, la planeación y diseño de proyectos hidráulicos se necesitan información histórica de variables hidrológicas, provenientes de fenómenos complejos y de naturaleza aleatoria, que representan muestras de características desconocidas y que gracias al análisis de probabilidades es posible describir el comportamiento de las variables de la población. Uno de los problemas más importantes en hidrología es la interpretación de registros de eventos pasados para inferir la ley de probabilidades de la variable hidrológica (población) de interés, procedimiento que en hidrología se conoce con el nombre de análisis de frecuencia. Por ejemplo al analizar la descarga de un río durante un periodo de cincuenta años; son factibles dos tipos de análisis: descriptivo y de inferencia. El primero consiste, básicamente, en calcular propiedades estadísticas, como media, varianza y otras, que implican poco riesgo. En el segundo caso, la muestra se analiza para inferir las propiedades de su población, lo cual ayuda a derivar las características probabilísticas del caudal, que involucra riesgos y requiere una total comprensión de los métodos empleados y el peligro involucrado en la predicción y estimación de las variables. Los objetivos básicos de la estadística en la hidrología son entre otros: • • • •
Interpretación de las observaciones y transformarlos transformarlos en información útil para tomar decisiones Inferencia sobre el comportamiento de la variable Extracción del del máximo de información de los registros y análisis de la calidad de la información Presentación de la información en grácas, grácas, tablas, ecuaciones, que básicamente ayudan a la toma de decisiones en la gestión de los recursos hídricos.
La solución de muchos problemas de hidrología requiere del uso de la computadora digital, el cual simplica los cálculos laboriosos en gran forma. Sin embargo para elaborar un programa 7
de computación se requiere un amplio conocimiento del fenómeno y de su correspondiente modelo matemático; por lo que este libro se propone no solo a ayudar a comprender los principios fundamentales de la probabilidad y estadística aplicada a la hidrología, sino también ilustra una gran variedad de casos en que se utilizan. Esta obra es una contribución dedicada a los estudiantes de ingeniería de nivel de pregrado y posgrado con una cuidadosa selección de problemas resueltos resueltos que implican diverso grado de dicultad; muchos de los cálculos han sido realizados con Excel y otros con MATLAB MATLAB que disponen de funciones especiales para el análisis estadístico de datos.
Jesús Abel Mejía Marcacuzco Departamento Académico Académico de Recursos Hídricos Facultad de Ingeniería Agrícola Universidad Nacional Agraria La Molina, UNALM Lima, Perú
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
1
ESTADÍSTICA DESCRIPTIV DESCRIPTIVA A
1.1 DEFINICIÓN DE TÉRMINOS Estadística: Ciencia inductiva que permite inferir características cualitativas y cuantitativas de un conjunto mediante los datos contenidos en un subconjunto del mismo.
Población: Conjunto total de individuos u objetos con alguna característica que es de interés estudiar.
Muestra: Subconjunto de la población cuya información es usada para estudiar a la población Variable: Alguna característica observable de los elementos de una población y que puede tomar diferentes valores
Dato: Es cada valor incluido en la muestra. Se obtiene mediante observación o medición Parámetro: Es alguna característica de la población en estudio y que es de interés conocer Experimento Estadístico: Es un proceso que se diseña y realiza para obtener observaciones Variable Aleatoria: Es una variable cuyo valor es el resultado de un experimento estadístico Modelo: Descripción simbólica o física de una situación o sistema que se desea estudiar Modelo Determinístico: Representación exacta de un sistema. Permite obtener respuestas precisas
Modelo Probabilístico: Representación de un sistema que incluye componentes aleatorios. Las respuestas obtenidas se expresan en términos de probabilidad
Técnicas para recopilar, organizar, procesar y presentar datos Estadística obtenidos en Descriptiva: muestras Estadística Inferencial: Técnicas para obtención de resultados basados en la información contenida en muestras
Inferencia Estadística: Es la extensión a la población de los resultados obtenidos en una muestra
1.2 RECOPILACI RECOPILACIÓN ÓN DE DA DATOS TOS Los datos hidrológicos son colectados primordialmente como información básica para el desarrollo, gestión e investigación de los recursos hídricos de una región, a través de una red de instrumentos de medición. Una red de medición de variables hidrológicas y meteorológicas es un conjunto de instrumentos o estaciones de medición de una o más variables, distribuido en una cuenca con el objeto de cuanticarlos adecuadamente y observar sus variaciones temporales y espaciales. 9
JESÚS ABEL MEJÍA MARCACUZCO
Es de gran importancia que los diversos tipos de redes sean instalados como proyectos integrados, pero en la práctica casi siempre las redes son operadas por diversas entidades, siendo necesarias una buena cooperación en su desarrollo y exploración. La diversidad de características regionales en términos de topografía, uso del suelo, acceso, infraestructura y problemas hídricos, hace impracticable establecer normas satisfactorias para el proyecto de redes de medición de variables hidrológicas y meteorológicas. Una red mínima es aquella que evitará incurrir en serios errores o deciencias en la gestión de los recursos hídricos, en una escala compatible con el desarrollo económico de la región. A continuación se presenta datos de precipitación total mensual, descargas medias mensuales y descargas máximas diarias para la cuenca del río Cañete; que servirán como insumo para algunas aplicaciones estadísticas desarrolladas en el texto.
Tabla 1.1: Precipitación Total Mensual (mm) Cuenca Húmeda del Río Cañete Año
ENE
1986
138.8
1987
199.3
1988 1989
156.6 159.9
1990 1991 1992
97.2 106.2 69.2
1993 1994
FEB
MAR
ABR
MAY
JUN
JUL
AGO
130.5
67.7
22.5
9.5
2.5
6.9
88.3
55.3
23.0
7.2
9.1
18.0
124.8 117.7
162.1 176.1
64.8 37.3
9.9 8.8
4.3 7.0
0.7 2.3
61.1 112.5 46.9
90.5 132.2 85.6
61.0 62.4 32.0
16.1 19.8 3.7
12.6 9.5 3.8
114.6 151.1
141.3 207.9
151.4 160.3
70.7 47.8
15.3 18.5
1995 1996
99.8 165.9
76.0 127.9
120.1 93.9
93.2 49.4
1997
120.2
123.9
54.2
1998
167.2
127.7
132.7
1999
99.8
196.1
2000
151.3 133.14 35.26 69.20 199.30
Media D. St. Min Max
166.8
SET
OCT
NOV
32.8
70.8
37.4
9.8
6.9
21.6
3.2 18.1
10.7 18.5
15.7 27.6
10.3 4.1 7.2
10.7 9.0 8.0
26.9 9.6 10.3
3.3 8.6
7.5 4.8
10.3 12.5
8.0 5.5
0.8 0.2
5.8 0.3
47.7
7.6
1.2
50.4
0.5
2.0
112.8
70.6
28.3
157.3 125.08 45.62
177.9 122.37 40.11
40.0 54.53 18.01
46.90 207.90
54.20 177.90
23.00 93.20
DIC
TOTAL
110.3
796.5
45.3
64.6
548.4
39.3 53.7
140.1 66.5
732.2 693.5
35.6 37.7 57.7
58.3 35.1 44.0
93.6 49.2 69.7
573.9 587.3 438.1
16.0 46.2
44.2 44.9
70.5 40.7
110.8 61.3
755.9 804.6
1.1 9.4
19.5 14.3
33.6 28.7
36.5 24.3
70.0 82.8
564.4 602.6
0.8
13.1
25.9
35.0
68.2
168.4
666.2
0.2
2.3
12.5
25.0
36.5
68.0
625.0
1.5
2.0
1.6
12.9
52.5
47.8
175.8
801.7
17.0 12.58 7.76
0.3 4.91 4.10
5.6 4.81 4.73
3.4 7.96 4.88
19.0 18.80 10.45
50.7 38.75 14.83
42.8 45.36 12.63
116.7 96.52 39.63
782.0 664.82 112.69
0.50 28.30
0.20 12.60
0.20 18.00
1.10 18.10
6.90 46.20
15.70 70.80
24.30 70.50
49.20 175.80
438.10 804.60
(Fuente: Evaluación y Ordenamiento de los Recursos Hídricos de la Cuenca del Río Cañete, INRENA-DGAS-ATDR-MOC)
10
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
Tabla 1.2: Descargas Medias Mensuales (m3/s) del Río Cañete Estación Socsi – Altitud 350 msnm Año
ENE
FEB
MAR
ABR
JUN
JUL
AGO
1986
177.12
209.28
232.48
183.16
MAY 70.73
32.79
23.25
19.08
SET 14
OCT 12.38
NOV 18.77
DIC 49.8
PROM 86.90
1987
161.09
168.01
100.27
46.76
22.67
13.44
10.21
9.46
9.05
9.28
15.38
29.08
49.56
1988 1989
83.96 133.65
135.32 200.6
105.2 244.21
82.91 119.96
34.89 34.47
19.56 30.56
12.71 14.87
11.73 12.42
11.69 10.46
11.27 14.26
10.76 20.01
27.06 10.56
45.59 70.50
1990 1991
34.63 60.08
27.13 97.69
78.23 216.02
28.02 64.14
18.57 49.66
14.97 27.54
11.1 16.64
8.78 11.29
7.63 7.81
12.58 8.97
36.23 20.15
42.61 16.41
26.71 49.70
1992
38.83
32.28
82.04
36.16
21.21
12.15
8.32
6.94
5.94
7.81
8.72
10.17
22.55
1993 1994
32.12 160.65
193.77 332.68
238.16 257.69
112.33 123.95
47.81 59.65
21.6 28.17
13.62 20.87
11.88 17.1
11.68 13.48
1 3.64 13.01
50.17 19.42
120.42 39.7
72.27 90.53
1995 1996
89.36 137.25
111.25 201.69
202.1 190.23
53.77 125.32
23.71 43.23
16.17 21.73
12.13 14.14
9.86 11.81
9.55 10.46
10.31 9.49
29.26 12.12
31.51 21.86
49.92 66.61
1997 1998
53.35
83.98
73.3
23.52
15.03
10.96
8.99
7.38
7.38
9.34
22.38
72.32
165.54
181.12
216.49
99.61
33.67
19.2
12.74
12.55
9.91
11.22
15.3
20.53
32.33 66.49
1999
51.6
107.88
112.45
99.33
54.79
24.31
14.99
11.28
10.79
12.76
12.49
45.05
46.48
2000
117.47
146.03
177.27
101.46
55.18
23.46
16.58
11.54
9.99
11.17
20.8
38.36
Media
99.78
148.58
168.41
86.69
39.02
21.11
14.08
11.54
9.99
11.17
20.80
38.36
60.78 55.79
D.St
53.17
77.85
68.33
44.47
16.96
6.78
4.10
3.20
2.23
1.92
10.80
28.01
20.22
Min Max
32.12 177.12
27.13 332.68
73.30 257.69
23.52 183.16
15.03 70.73
10.96 32.79
8.32 23.25
6.94 19.08
5.94 14.00
7.81 14.26
8.72 50.17
10.17 120.42
22.55 90.53
(Fuente: Propuesta de Asignaciones de Agua en Bloque para el Valle Valle de Cañete – PROFODUA, 2006) 2006)
Tabla 1.3: Registro de Caudales Máximos Diarios (m3/s) del Río Cañete Estación Socsi – 60 años de registro Año
Caudal
Año
Caudal
Año
Caudal
Año
Caudal
1941 1942 1943 1944 1945 1946
301.1 319.2 324.1 396.6 350.0 354.0
1956 1957 1958 1959 1960 1961
470.0 228.3 270.4 700.0 488.8 597.6
1971 1972 1973 1974 1975 1976
430.0 700.0 484.2 326.0 298.0 332.0
1986 1987 1988 1989 1990 1991
370.5 487.3 420.3 377.0 189.0 372.0
1947 1948 1949 1950
353.0 279.0 198.0 244.7
1962 1963 1964 1965
566.2 242.4 153.1 214.7
1977 1978 1979 1980
249.0 216.0 182.8 100.1
1992 1993 1994 1995
164.3 390.0 550.0 500.0
1951 1952 1953 1954
485.0 360.0 555.0 657.0
1966 1967 1968 1969
201.0 343.0 154.0 316.0
1981 1982 1983 1984
257.1 172.0 228.0 425.5
1996 1997 1998 1999
310.0 182.7 310.7 318.2
1955
700.0
1970
408.0
1985
165.6
2000
322.0
1.3 DISTRIBUCIÓ DISTRIBUCIÓN N DE FRECUENCI FRECUENCIAS AS Y REPRESENTACIONES GRÁFICAS Los registros hidrológicos, muestran por lo general una larga secuencia de datos que requieren un análisis cualitativo y cuantitativo para su empleo posterior. posterior. Uno de estos análisis consiste en la observación, clasicación y ordenamiento de repeticiones de ciertos valores de la variable. Cuando se dispone de un gran número de datos, es necesario distribuirlos en clases o categorías y determinar el número de datos pertenecientes a cada clase. Una ordenación tabular de los datos en clases y con las frecuencias correspondientes, se conoce como una tabla de distribución de frecuencias. 11
JESÚS ABEL MEJÍA MARCACUZCO
Se llama frecuencia absoluta al número de veces que se repite el valor de una variable en el intervalo de clase considerado y frecuencia relativa a la razón entre la frecuencia absoluta y el número total de datos analizados; f = n/N. Para determinar un número conveniente de intervalos de clase se tienen como referencia algunas consideraciones: SPIEGEL (1961), sugiere que un número de intervalos de clase conveniente es de 5 a 20. STEEL y TORRIE (1960), (1960), sugieren que el número de intervalos no debe ser menor de 1/4 ni mayor de ½ del valor de la desviación estándar. estándar. STURGES (1926) recomienda que el número de intervalos de clase puede ser estimado con: 1 + 3.3Log(N) ó 1+1.43Ln(N), siendo N el número de datos observados. Para cualquier criterio que se use, se debe tener en cuenta que la sensibilidad se pierde si muy pocos o muchos intervalos de clase son tomados. Pocos intervalos elimina detalles y obvia el patrón básico de distribución de los datos y muchos intervalos inducen un patrón erróneo, alternando altas y bajas frecuencias. La presentación de datos hidrológicos en tablas, por lo general, dicultan su interpretación que puede ser laboriosa, por lo que, a menudo se recurre a representaciones grácas que proporciones de modo rápido y visual una idea aproximada aproximada del comportamiento de datos que se estudia. Entre las diversas formas de representación gráca utilizados en el análisis de datos hidrológicos son los diagramas de líneas, barras, histogramas y polígonos de frecuencias.
Ejemplo 1.1:
Tomando como base la información de caudales máximos diarios del río Cañete, tabla 1.3, elaborar la tabla de distribución de frecuencias y los grácos de histograma y polígonos de frecuencia.
Solución: Tabla 1.4: T Tabla abla de Distribución de Frecuencias de Caudales Máximos Diarios del Río Cañete con 10 intervalos según el criterio de Spiegel Límite inferior 100 160 220 280 340 400 460 520 580 640
Límite Superior (Q) 160 220 280 340 400 460 520 580 640 700
Marca de Clase 130 190 250 310 370 430 490 550 610 670 Total
Frecuencia Frecuencia absoluta relativa (f) 3 0.050 10 0.167 8 0.133 11 0.183 10 0.167 4 0.067 6 0.100 3 0.050 1 0.017 4 0.067 60 1.000
12
f acumulada P(Qi ≤ Q) Q) 0.050 0.217 0.350 0.533 0.700 0.767 0.867 0.917 0.933 1.000
P(Qi > Q) 0.950 0.783 0.650 0.467 0.300 0.233 0.133 0.083 0.067 0.000
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
Figura 1.1: Histograma y Polígono de Frecuencias de Caudales Máximos Diarios del Río Cañete con 10 intervalos de clase 0.20 0.18 a v i 0.16 t a0.14 l e r 0.12 a i 0.10 c n0.08 e u c0.06 e r 0.04 F
0.183 0.167
0.167
0.133
0.100
0.067
0.067
0.050
0.050
0.02 0.00
0.017
130
190
250
310
370
430
490
550
610
670
Caudal (m3/s) Polígono
Hist sto ograma
Según el criterio de Sturges, el número de intervalos de clase es: 1+3.3Log(60) = 6
Tamaño de intervalo: (valor máximo – valor mínimo)/6 = 100
Tabla 1.5: Tabla de Distribución de Frecuencias de Caudales Máximos Diarios del Río Cañete con 6 intervalos de clase según el criterio de Sturges Límite inferior
Límite Superior (Q)
Marca de Clase
Frecuencia Frecuencia absoluta relativa (f)
f acumulada P(Qi ≤ Q) Q)
P(Qi > Q)
100
200
150
10
0.167
0.167
0.833
200
300
250
12
0.200
0.367
0.633
300
400
350
20
0.333
0.700
0.300
400
500
450
10
0.167
0.867
0.133
500
600
550
4
0.067
0.933
0.067
600
700
650
4
0.067
1.000
0.000
Total
60
1.000
13
JESÚS ABEL MEJÍA MARCACUZCO
Figura 1.2: Histograma y Polígono de Frecuencia de Caudales Máximos Diarios del Río Cañete con 6 intervalos de clase 0.35 0.333
0.30
a v i t 0.25 a l e r
0.20
a i c n0.15 e u c0.10 e r F
0.200 0.167
0.167
0.05
0 .0 6 7
0 .0 6 7
550
650
0.00 150
250
350
450
Caudal (m3/s (m3/s)) Po lí líg on ono
Hist og ogr am ama
Figura 1.3: Frecuencia Acumulada de Caudales Máximos Diarios del Río Cañete
El histograma obtenido con 10 intervalos de clase es multimodal, mientras que el obtenido con 6 intervalos en unimodal. Esto indica que el número de crestas del histograma dependerá de la selección del número de intervalos de clase; generalmente mientras más grande es el número de intervalos de clase, es más probable que se manieste bimodalidad o multimodalidad.
1.4 MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSIÓ DISPERSIÓN N Y DE FORMA Media Aritmética: valor más representativo y el más usado para representar una muestra de datos, se calcula sumando todas las observaciones y dividiendo entre el número de datos: N
X =
µ =
X 1 + X 2 + X 3 + ... + X N N
=
X i ∑ i 1 =
N 14
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
Mediana: sinónimo de medio, es el valor medio una vez que se ordenan las observaciones de menor a mayor. El valor medio es único si n es impar y en caso que n fuera par se obtiene de la semisuma de los dos valores centrales de las observaciones ordenadas. La varianza (que suele representarse como σ2) es una medida de dispersión denida como el valor esperado del cuadrado de la desviación de dicha variable respecto a su media. La desviación estándar es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades que los datos de la muestra objeto de estudio. Hay que tener en cuenta que la varianza puede verse muy inuenciada por los valores atípicos y no se aconseja su uso cuando las distribuciones tienen mucha asimetría. N
N
∑ ( X i − X )
Varianza poblacional:
σ
2
∑ X i
2
2
i
=
=
N N
Las medidas de
S 2 =
− X
N N
∑ ( X i − X )
Varianza muestral:
2
i
∑ X i
2
i
2
=
N − 1
2
− n X
i
N − 1
asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener que hacer su representación gráca, considerando como eje de simetría una recta paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la “cola” a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la “cola” a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Coefciente de asimetría de Pearson:
Sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente asimétricas. Si la distribución es simétrica la media es igual a la moda y g = 0. Si la distribución es asimétrica positiva la media se sitúa por encima de la moda y por tanto g > 0. C P
=
µ − moda
≅
X − moda S
σ
Coefciente de asimetría de Fisher: Es la medida de asimetría más utilizada y parte del uso del tercer momento central. Si g > 0, la distribución es asimétrica positiva o a la derecha. Si g < 0, la distribución es asimétrica negativa o a la izquierda. Si la distribución es simétrica, entonces sabemos que g = 0, sin embargo lo recíproco no es cierto o sea que no siempre la distribución es simétrica cuando g = 0. N
N 3
g 1 =
( X i − µ ) 1 ∑ i σ
3
N
3
≅ 1 3 S
∑ ( X i − X ) i
N 15
JESÚS ABEL MEJÍA MARCACUZCO
Coefciente de apuntamiento de Fisher: El apuntamiento o curtosis de una distribución de frecuencias se sustenta en la comparación respecto a una distribución de referencia como la distribución normal. En consecuencia, su obtención sólo tendrá sentido en variables cuya distribución sea similar a la curva normal, unimodal y más o menos simétrica. De forma análoga a la asimetría, se diferencian 3 grandes categorías de apuntamiento: leptocúrtica mesocúrtica
platicúrtica
Figura 1.4: Categorias de Apuntamiento de Fisher Una distribución más apuntada que la normal es leptocúrtica. mesocúrtica. Una que la normal Una distribución distribución similar menos apuntada que laesnormal es platicúrtica. k
g 2 =
1 σ
4
∑ ( X i − X ) i
N
4
−3
Ejemplo 1.2 Para los datos de caudales máximos diarios del río Cañete, determinar la media, desviación estándar, coeciente de variación, coeciente de asimetría de Pearson, coeciente de asimetría de Fisher y coeciente de apuntamiento de Fisher para datos agrupados en tabla de distribución de frecuencia y para datos no agrupados en tabla de distribución de frecuencias.
Solución: a)
Para datos agrupados en tabla de distribución de frecuencias: Tabla 1.6: T Tabla abla de distribución de frecuencias para el cálculo de parámetros Límite inferior 100 200 300 400 500 600
Límite Superior 200 300 400 500 600 700
Marca de Frecuencia f iQi Clase Qi Absoluta f i 150 10 1500 250 12 3000 350 20 7000 450 10 4500 550 4 2200 650 4 2600 Suma 60 20800
16
f i(Qi – – Qp)2 f i(Qi – – Qp)3
f i(Qi – – Qp)4
386777.8 -76066296.3 14959704938.3 112133.3 -10839555.6 1047823703.7 222.2 740.7 2469.1 106777.8 11033703.7 1140149382.7 165377.8 33626814.8 6837452345.7 368044.4 111640148.1 33864178271.6 1139333.3 69395555.6 57849311111.1
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
Media:
k
f i Qi i
Q Q p
N
20800 60
3
346.67 m /s
k
Varianza muestral:
f i (Qi Q)
S 2
i
2
N 1
1139333.3 60 1
19310.73
Desviación estándar:
S S 2 19310.73 138 .96 m 3 /s
Coeciente de variación:
cv
S
Q
138.96 346.67
0.401
En la tabla 1.6, se observa que la moda es 350, ya que se repite r epite 20 veces
Coeciente de asimetría de Pearson: Cp
Q moda S
346.67 350 138.96
0.024
Coeciente de asimetría de Fisher: k 3
g 1
f i (Qi Q) 1 i 3
N
S
1 138.96
69395555.6 3
60
0.431
Coeciente de apuntamiento de Fisher: k
g 2
1 S 4
f i (Qi Q) i
N
4
1
57849311111.1
138.96 4
60
3
3 0.414
b) Para datos no agrupados en tabla de distribución de frecuencias: Para datos endeja, tablaaldelector, distribución de frecuencias, el cálculo se efectúa con los 60 datos deno la agrupados tabla 1.3. Se como ejercicio desarrollar esta parte del problema.
17
JESÚS ABEL MEJÍA MARCACUZCO
2
FUNDAMENTOS FUNDAMENT OS DE PROBABILIDAD
2.1 DEFINICIÓN Y PROPIEDADES
Un experimento aleatorio se caracteriza porque repetido muchas veces y en idénticas condiciones el cociente entre el número de veces que aparece un resultado (suceso) y el número total de veces que se realiza el experimento tiende a un número jo. Esta propiedad es conocida como ley de los grandes números, establecida por Jakob Bernouilli. Tiene el inconveniente de variar la sucesión de las frecuencias relativas de unas series de realizaciones a otras, si bien el valor al que se aproximan a medida que el número de realizaciones aumenta se mantiene estable. Esta denición presenta el inconveniente de tener que realizar el experimento un gran número de veces y además siempre obtendremos un valor aproximado de la probabilidad. La defnición axiomática de probabilidad se debe a Kolmogorov Kolmogorov,, quien consideró la relación entre la frecuencia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el experimento es muy grande. En el caso de que todos los sucesos elementales del espacio muestral E sean equiprobables, como el cociente entre el número de resultados r esultados Laplace dene la probabilidad del suceso A como favorables a que ocurra el suceso A en el experimento y el número de resultados posibles del experimento. Usando el diagrama de Venn, diversas relaciones probabilísticas pueden ser ilustrados. Si se dene A y B como eventos aleatorios en el espacio muestral S, donde la probabilidad de A y B son respectivamente P(A) y P(B) y E1, E2, E3, ...., En son resultados de experimentos, se tiene: Figura 2.1: Diagrama de Venn Venn mostrando espacios muestrales y sus relaciones
A' A
B
S
P(AUB) = P(A) + P(B)
A
AB
B
A
S
S
P(AUB)=P(A)+P(B)-P(A P(AUB)=P(A)+P(B )-P(AB)
P(A A') = P(A) + P(A') P(A') = 1
2.2 PROBABILIDAD CONDICIONAL Si la probabilidad de un evento tal como A depende de la ocurrencia de otro evento B, se tiene una probabilidad condicional y se escribe como P(A/B) que signica que P(A) es condicionada por el hecho que B ha ocurrido. En relación a la gura anterior, la ocurrencia de A dado que B ha ocurrido es representado por (A ∩ B); así la P(A/B) está dado por:
18
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
P ( A / B)
P ( A B) P ( B)
ó
P ( A B) P ( B) P ( A / B)
Para eventos independientes, P(A/B) = P(A), se tiene:
P ( A B) P ( A) P ( B)
Ejemplo 2.1: Determinar la probabilidad de obtener un seis en el lanzamiento de un dado por 2 veces.
Solución: Si A y B son dos eventos, la probabilidad P(B) de obtener un seis en el primer lanzamiento no está afectada por la probabilidad P(A/B) de obtener un seis en el segundo lanzamiento, debido a que son eventos independientes: P(B) = 1/6 y P(A/B) = P(B) = 1/6, entonces: P(A∩B) = (1/6)(1/6) = 1/36
Ejemplo 2.2: Usando los datos del registro de caudales máximos diarios del río Cañete, estimar la probabilidad de que un caudal mayor de 600 600 m3/s, ocurra en dos sucesivos años.
Solución: En el registro vemos que los caudales de 600 m 3/s han sido excedidos excedidos 4 veces en 60 años. años. La probabilidad de que este caudal sea excedido en 1 año es 4/60 = 0.0667 y la probabilidad que que sea excedido en 2 años consecutivos será: 0.0667 x 0.0667 = 0.0044 Se asume que los eventos son independientes lo cual se explica físicamente por la no dependencia de año a año en las descargas máximas
Ejemplo 2.3: Un estudio de precipitación diaria, muestra que para el mes de Mayo la probabilidad de tener un día lluvioso seguido de otro día lluvioso es 0.444; la probabilidad de tener un día seco seguido de otro día seco es de 0.724; la probabilidad de tener un día lluvioso seguido de un día seco es 0.276 y la probabilidad de tener un día seco seguido de un día lluvioso es 0.556. Si se observa que un cierto día de Mayo es lluvioso; cuál es la probabilidad de que los siguientes dos días sean lluviosos?. Solución: Denamos B como el evento referido r eferido al día 1 lluvioso y A como como el evento referido a un día lluvioso seguido de otro día lluvioso; entonces: P(A ∩ B) = P(B) x P(A/ B). B). Como P(B) = 0.444 y también P(A/B) = 0.444, siendo esta la probabilidad de un día lluvioso seguido de otro día lluvioso. Por lo tanto: P(A ∩ B) = 0.444 x 0.444 = 0.197
19
JESÚS ABEL MEJÍA MARCACUZCO
Ejemplo 2.4: La probabilidad de ocurrencia de un caudal de avenida, en un cierto río, es 0.2. Sobre el río hay un puente cuya probabilidad de falla en los estribos es 0.3 y de acuerdo a experiencias estas probabilidades de falla suben a 0.5 cuando se presentan estos caudales. Determinar la probabilidad de falla del del puente para estas condiciones: P(avenida) = P(A) = 0.2 P(falla) = P(F) = 0.3 P(falla/avenida) = P(F/A) = 0.5
Solución: El puente falla cuando falla en los estribos o cuando hay creciente; esto se puede denotar así: P ( A ∩ F ) = P ( A) × P ( F / A) = 0.2 × 0.5 = 0.1 P ( A ∪ F ) = P ( A) + P ( F ) − P ( A ∩ F ) = 0.2 + 0.3 − 0.1 = 0.4
2.3 TEOREMA DE PROBABILID PROBABILIDAD AD TOT TOTAL AL Si B1, B2, B3, .........., Bn representan eventos mutuamente excluyentes y colectivamente eventos completos, se puede determinar la probabilidad de otro evento A del modo siguiente: n
P ( A) = ∑ P ( A / B ) × P (B ) i
i
i =1
Figura 2.2: Diagrama de Venn Venn para el teorema de probabilidad total S
B2
B3
B1
B4
A B6
B5
Ejemplo 2.5: Si la probabilidad de registrar intensidades de radiación solar mayores de 0.2 cal/cm²/min en un día lluvioso es 0.25 y 0.8 en un día no lluvioso y además la probabilidad de ocurrencia de un día lluvioso es 0.36. Determinar la probabilidad de encontrar encontrar valores de intensidad de radiación solar mayores de 0.2 Solución: Si A representa al evento de valores de intensidad altos, B1 representa un día lluvioso y B2 representa el evento de un día no lluvioso; se tiene entonces:
P(A) = P(A / B1 ) P(B1 ) + P(A / B2 ) P(B2 ) 20
PROBABILIDAD Y ESTADÍSTICA EN HIDROLOGÍA
P(A) = 0.25 x 0.36 + 0.80 (1 - 0.36) P(A) = 0.602
Ejemplo 2.6: La producción total de mandarinas de la Universidad Agraria proviene de Chanchamayo (45%), Lima (30%) (30%) y Cañete (25%). (25%). Del total de las mandarinas, no cumplen cumplen con los estándares de calidad el 5% de los producidos en Chanchamayo, el 3% en Lima y el 4% en Cañete.
Calcular: a)
Probabilidad de que una mandarina no cumpla con los estándares de calidad
b)
Si una mandarina no cumple con los estándares de calidad, ¿cuál es la probabilidad de que haya sido producido en Cañete?
Solución: A1: A2: A3: B:
Producido en Chanchamayo Producido en Lima Producido en Cañete no cumple con los estándares de calidad
P(A1) = 0.45 P(B/A1) = 0.05 P(B)
P(A2) = 0.35 P(B/A2) = 0.03
P(A3) = 0.25 P(B/A3) = 0.04
= P(A1 ) P(B/A1 ) + P(A2 ) P(B/A2 ) + P(A3 ) P(B/A3 ) = 0.45 x 0.05 + 0.30 x 0.03 + 0.25 x 0.04 = 0.0415
P ( A3 / B ) =
P ( A3 ) P ( B / A3 ) P ( B)
=
0.25 × 0.04 0.0415
= 0.241
2.4 TEOREMA DE BA BAYES YES De la denición de probabilidad condicional se sabe: P ( A ∩ B j ) = P ( B j ) × P ( A / B j ) n
De la denición de probabilidad total se sabe:
( ) = ∑ P ( A / B ) × P (B )
P A
i
i
i =1
Dividiendo la probabilidad condicional entre la probabilidad total, se obtiene: P ( B J ) × P ( A / B J ) P ( B J / A) = n ∑ P ( A / Bi ) P ( Bi ) i =1
El teorema de Bayes, permite estimar las probabilidades de un evento mediante la observación de un segundo evento. 21
JESÚS ABEL MEJÍA MARCACUZCO
Ejemplo 2.7 La probabilidad de que ocurra una precipitación mayor o igual a 50 mm en la ciudad de Lima, en el mes de julio, depende de la temperatura mínima para ese mes. Dado la tabla de rangos de temperatura (Tj), determinar la probabilidad de encontrar temperaturas óptimas que permitan la ocurrencia de precipitaciones mayores a 50 mm.
T j (°C)
P(Ti)
P ( 50/Ti)
P (T j/ 50)
< 10 10-12 12-14 > 14
0.05 0.35 0.45 0.15
0.50 0.30 0.20 0.10
0.135 0.243 0.378 0.243
Solución: Si Tj representa los 4 intervalos de temperatura, donde: j = 1, 2, 3, 4. De la regla de Bayes se tiene:
P (T / ≥ 50 )
=
P ( ≥ 50 / T j ) P (T j ) n
( )
Σ P ( ≥ 50 / Ti ) P T j
i =1
Calculamos: n
P 50 / T i
i 1
P T j 0.50 0.05 0.30 0.35 0.20 0.45 0.10 0.15 0.235
P T 10 C / P 50 mm
0.50 0.05 0.235
P 10 C T 12 C / P 50 mm
P 12 C T 14 C / P 50 mm
P T 14 C / P 50 mm
0.025 0.235
0.30 0.35 0.235
0.20 0.45 0.235
0.10 0.15 0.235
0.015 0.235
0.106 0.105
0.447
0.383
0.235
0.090 0.235
0.064
Ejemplo 2.8: A continuación continuación se presentan las causas principales para la ocurrencia de una inundación y sus respectivas probabilidades: Factores climáticos Factores humanos Factores tecnológicos
P(A) = 0.70 P(B) = 0.20 P(C) = 0.10 22
View more...
Comments