Métodos de Llenado de Datos Faltantes

Share Embed Donate


Short Description

Distintos metodos de llenado de datos faltantes de precipitacion...

Description

MÉTODOS DE LLENADO DE DATOS FALTANTES 1. U.S. National Weather Service.

𝑃𝑃𝑥𝑥 =

∑(𝑃𝑃𝑖𝑖 𝑊𝑊𝑖𝑖 ) ∑ 𝑊𝑊𝑖𝑖

P x = Dato perdido para el dia, mes, o año en la estacion x. P i = Dato existente en la estacion auxiliar i, donde: i = 1,2,…n (minimo n=2) para el mismo dia, mes o año.

𝑊𝑊𝑖𝑖 =

1 𝐷𝐷𝑖𝑖2

Siendo D i la distancia entre cada estación circundante auxiliar y la estación del dato perdido Este método es similar al de la media aritmética con la diferencia del agregado de ponderación por distancia. 2. Relación Normalizada

1 𝑁𝑁𝑋𝑋 𝑁𝑁𝑋𝑋 𝑁𝑁𝑋𝑋 𝑃𝑃𝑥𝑥 = � 𝑃𝑃𝐴𝐴 + 𝑃𝑃𝐵𝐵 + 𝑃𝑃 � 3 𝑁𝑁𝐴𝐴 𝑁𝑁𝐵𝐵 𝑁𝑁𝐶𝐶 𝐶𝐶

P x = Dato perdido para el día, mes, o año en la estación x.

N X , N A , N B , N C = Precipitación media diaria, mensual o anual en la estación de dato faltante (x) y en las estaciones auxiliares A, B y C. (medias de todas las series históricas) P A , P B , P C = Precipitación registrada en las estaciones auxiliares el día o mes o año en el que falta el dato en la estación x. 3. Media Aritmética Es posiblemente uno de los métodos más antiguos y sencillo para estimar datos faltantes. Sigue el modelo y = a , donde y, es la estimación del dato faltante, y a, es el promedio obtenido con los registros de la variable de interés en otros tiempos. Aunque esta estrategia es sencilla, tiende a subestimar la variabilidad real.

4. Componentes Principales Este método se utiliza para la extracción de factores o componentes de un grupo de variables observadas con el fin de formar combinaciones lineales de esas variables de manera que tales combinaciones sean independientes. Con lo que el objetivo de este método es la reducción del conjunto original de variables en un conjunto más pequeño de variables derivadas de las primeras, las cuales no están correlacionadas entre sí y representan la mayor parte de la información encontrada en las variables originales. La primera componente tiene la varianza máxima. Las componentes sucesivas explican progresivamente proporciones menores de la varianza y no están correlacionadas las unas con las otras. La técnica es más útil cuando un extenso número de variables impide una interpretación eficaz de las relaciones entre los objetos (sujetos y unidades). Al reducir la dimensionalidad, se interpreta un pequeño número de componentes en lugar de un extenso número de variables. En la mayoría de casos las dos primeras componentes dan cuenta de entre el 75 y 90% de la varianza, con lo que normalmente se utilizan sólo esas componentes para ajustar el comportamiento de los datos. La aplicación del ACP requiere que se sigan los siguientes pasos: I.

Cálculo de la matriz de las covarianzas entre cada par de variables. La covarianza entre dos variables se calcula a partir de la expresión:

Donde r(x,y) es el coeficiente de correlación lineal de Pearson entre las variables x y; σx y σy son las desviaciones típicas o estándares de las variables x e y; x y y son las medias aritméticas de las variables x e y. II.

Diagonalización de la matriz de covarianzas: cálculo de los valores y vectores propios. Los valores propios dan constancia de la varianza expresada por cada componente y los vectores propios dan cuenta de la relación de cada componente con las variables originales.

III.

Cálculo del porcentaje de la varianza total que explica cada componente:

IV.

Elección de las componentes que dan cuenta de gran parte de la varianza total. Dependiendo de la exactitud que se quiera obtener y de la simplificación del modelo se escogerán más o menos componentes. Normalmente el

umbral utilizado es que se escojan aquellas componentes que expliquen como mínimo el 85% de la varianza total. 5. Racional Deductivo Cuando en el registro de lluvias mensuales, de una determinada estación, existen uno o más años incompletos, el llamado Método Racional Deductivo permite estimar los registros mensuales faltantes (como máximo once), apoyándose en la información que brindan los años completos. El desarrollo del método se puede sintetizar en los siguientes cuatro pasos: I.

Se efectúa la suma de precipitaciones mensuales en todos los años completos y se obtiene la lluvia mensual promedio.

II.

Se calculan para todos los años completos los porcentajes mensuales de precipitación, los que serán igual a la lluvia mensual entre el promedio mensual calculado en el paso anterior y por 100. Al sumar los porcentajes calculados y obtener su promedio deberán de obtenerse 1,200 y 100, respetivamente.

III.

Todos los porcentajes mensuales correspondientes a cada uno de los doce meses se suman y se divide tal suma entre el número de años completos, es to es, se calcula el porcentaje promedio que se denomina Sj, con j varíando de 1 a 12, uno para enero y doce para diciembre.

IV.

El método acepta la hipótesis que considera que los meses desconocidos tendrán un porcentaje igual al porcentaje promedio (Sj). Se designan las variables siguientes: i = cada uno de los meses desconocidos, como máximo pueden ser once. Pi = precipitación mensual desconocida en cada año incompleto, en milímetros. ∑Si = suma de los porcentajes promedio de los meses cuya precipitación se desconoce, en porcentaje. ∑p = suma de las precipitaciones mensuales conocidas en los años incompletos, en milímetros. Si = porcentaje promedio asignado a cada uno de los meses desconocidos o faltantes.

De acuerdo a las variables anteriores se puede establecer la siguiente proporción:

Por lo cual:

∑ 𝑃𝑃 𝑃𝑃𝑖𝑖 = 𝑆𝑆𝑖𝑖 1200 − ∑ 𝑆𝑆𝑖𝑖

∑ 𝑃𝑃 𝑃𝑃𝑖𝑖 = � � 𝑆𝑆 1200 − ∑ 𝑆𝑆𝑖𝑖 𝑖𝑖

La expres1on entre paréntesis es una cantidad constante para cada año incompleto, por lo que finalmente se tiene:

𝑃𝑃𝑖𝑖 = 𝐾𝐾 ∗ 𝑆𝑆𝑖𝑖

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF