Ciencias de la Tierra y el Espacio, julio-diciembre, 2014, Vol.15, No.2, pp.113-123, ISSN 1729-3790
Aplicación de la Técnica de Minería de Datos SOM utilizando el lenguaje R en datos climáticos Gonzalo Joya-Caparros (1), Vivian Sistachs-Vega (2), Manuel Alejandro Cabrera-Castillo (3) y Pedro Roura-Pérez (4) (1) Universidad de Málaga, España. E-mail:
[email protected] Facultad de Matemática y Computación, Universidad de La Habana, Cuba. E-mail:
[email protected] (3) Centro de Investigación y Desarrollo de Simuladores SIMPRO, Cuba. E-mail:
[email protected] (4) Centro del Clima, Instituto de Meteorología, Cuba. E-mail:
[email protected] (2)
Recibido: julio 4, 2013
Aceptado: mayo 5, 2014
Resumen En los últimos años, la Minería de Datos ha experimentado un auge como soporte para la gestión de la información y el conocimiento como alternativa a la modelación matemática. Esta permite explorar y analizar las Bases de Datos disponibles para ayudar a la toma de decisiones. La Minería de Datos se apoya en la aplicación de métodos matemáticos de análisis, y específicamente del uso de redes neuronales artificiales, que son de gran utilidad para llevar a cabo el análisis inteligente de grandes volúmenes de información digital. También la Climatología ha utilizado durante años las técnicas y herramientas estadísticas de manera sistemática, ellas brindan la posibilidad de explorar bases de datos existentes mediante métodos estadísticos. Estos métodos permitirán realizar descripciones y predicciones con menor incertidumbre por ello el objetivo que perseguimos a partir de la información obtenida del Departamento de Climatología del Instituto de Meteorología, referida a variables climáticas en las diferentes provincias de Cuba en el año 2011 es describir el comportamiento climático a partir de los datos observados con el fin de buscar relaciones y agrupamientos entre ellos. Para lograrlo utilizaremos la técnica de Minería de Datos, Mapas auto-organizados (SOM por sus siglas en inglés) y se confeccionó un paquete en R para facilitar el análisis. Se logró una descripción del comportamiento climático de Cuba en el año 2011, el cual se caracterizó por presentar dos estaciones bien definidas en periodos concretos y se obtuvo una descripción más detallada de cada uno de estos períodos. Palabras clave: Minería de Datos, Mapas auto-organizados, K-Medias.
Application of Data Mining Technique SOM using the R language on climate data Abstract On the latest years, Data Mining (DM) has experienced a growth as a support for information management and the knowledge as alterative to mathematical modeling. This allows exploring and analyzing the Data Bases (DB) available to help on decision making. Data Mining is based on the application of mathematical analysis methods and specifically the use of artificial neural networks, of great utility to carry out intelligent data analysis in great volumes of digital information. Climatology has used too, for many years in a systematic way techniques and statistics tools, allowing the possibility of exploring existing data bases by these means. These methods allow realizing descriptions and predictions with low uncertainty levels, thus the goal we peruse with this work is from information obtained by the Climatology Department, referred to the environmental variables on the different provinces of Cuba on 2011, to describe the climatic behavior of that year, from the observed data in order to seek relations and clustering among them. To achieve our goal we used the data mining technique Self- Organizing Maps (SOM) and in the process we make an R package to facilitate the analysisof this problem. We accomplish a description of the climatic behavior in Cuba on the year 2011, which was characterized by two well defined seasons on concrete periods, thus obtaining a more detailed description of each period. Keywords: data mining, Self-Organizing Maps, K-Means Gonzalo Joya-Caparros (*) Universidad de Málaga, España. Departamento de Tecnología electrónica. E-mail:
[email protected]
113
Minería de datos SOM usando el lenguaje R en datos climáticos
1. Introducción El volumen de datos que se acumula continuamente, y la necesidad de encontrar métodos que permitan descubrir conocimientos (dentro de esas enormes masas de datos), han convertido a la Minería de Datos en una disciplina de importancia estratégica para la planeación y la toma de decisiones (Aluja, 2001 y Hans, 2006). La Minería de Datos se apoya en la aplicación de métodos matemáticos de análisis, y específicamente del uso de redes neuronales artificiales, que son de gran utilidad para llevar a cabo el análisis inteligente de grandes volúmenes de información digital (Hastie, 2009).En la Minería de Datos se coleccionan los datos y se espera que de ellos emerjan hipótesis. De ahí que la Minería de Datos debe presentar un enfoque exploratorio y no confirmador. SOM (Self-OrganizingMaps) (Kohonen, 2001) es un eficiente algoritmo neuronal (no supervisado) que permite proyección de datos que habitan en un espacio multidimensional, a una retícula bidimensional denominada “mapa”, preservando cualitativamente la organización (topología) del conjunto original. Desde que SOM fue introducido por T. Kohonen en el año 1982 se han desarrollado diversas aplicaciones en la Minería de Datos que han dado solución a una gran variedad de problemas. Entre las aplicaciones, la Climatología ha utilizado durante años las técnicas y herramientas estadísticas de manera sistemática (Olaya and Adeyemo, 2012), ellas brindan la posibilidad de explorar bases de datos existentes mediante métodos estadísticos. Estos métodos permiten realizar descripciones y predicciones climatológicas. Por lo anterior , a partir de la información obtenida del Departamento de Climatología del Instituto de Meteorología, referida a variables climáticas en las diferentes provincias de Cuba en el año 2011 , el objetivo principal de este trabajo es describir el comportamiento climático a partir de los datos observados con el fin de buscar descripciones y agrupamientos entre ellos. En la sección 2 se aborda el problema del tratamiento de SOM dentro de las técnicas de Minería de Datos. En la sección 3 se describen los datos y la metodología de trabajo seguida y en la sección 4 se presentan los resultados y la discusión sobre el comportamiento del clima en Cuba durante el año 2011.
2 . Materiales y métodos 2.1 SOM Los mapas auto-organizados son un tipo de red neuronal con aprendizaje no supervisado (Gurney, 1997)que describen una correspondencia entre un espacio de entrada y uno de salida (Fig. 1).De manera usual la dimensionalidad del espacio de entrada es mucho mayor que la del espacio de salida. SOM mapea el espacio de entrada de las muestras en un espacio de menor dimensión en el cual la medida de similaridad entre las muestras se calcula considerando la relación de cercanía de los vecinos.
Fig. 1. Representación de una red neuronal SOM
114
Joya-Caparros et al.
Fig. 2. Topologías usadas en la capa de salida de SOM. (a) Unidimensional. (b) Circular. (c) Rectangular. (d) Hexagonal. Las topologías de salida más utilizadas son la Rectangular y la Hexagonal (Fig. 2). Estas pueden utilizarse para obtener una representación de pequeña dimensionalidad de los datos con el propósito de visualizarlas. De ahí que a menudo la dimensionalidad del espacio de salida sea 2 o 3. La capa de entrada está formada por neuronas, donde es la dimensión del espacio de entrada. La topología y la cantidad de neuronas en la capa de salida queda a elección. Cada neurona de entrada está conectada con todas las neuronas de la capa de salida y no existen conexiones entre neuronas de una misma capa, por lo que cada neurona de salida tiene asociado un vector de pesos de dimensión que la representa.Entre las neuronas de la capa de salida se define un criterio de vecindad. A continuación se hace una descripción del algoritmo de entrenamiento (Gurney, 1997): 1. Inicializar los pesos de forma aleatoria 2. Hacer una selección aleatoria de cada vector en el conjunto de entrenamiento y se aplica el siguiente procedimiento para cada selección : 2.1. Buscar la neurona “ganadora”, que es aquella neurona de salida cuyo vector de pesos cumpla que ∥ − ∥= min ∥ − ∥ , o sea, que es el más cercano al vector seleccionado 2.2. Actualizar los pesos de la neurona y las que están en la vecindad según un criterio de vecindad en la topología escogida (las áreas sombreadas en la Fig. 2 definen vecindades de la neurona del centro). La asignación de los nuevos pesos ∆ sigue la siguiente regla ( − ), ∈ ∆ = 0, ∉ Donde es el factor de aprendizaje de la red 3. Disminuir un poco 4. Después de cierto número de iteraciones, disminuir la función de vecindad La idea detrás de este algoritmo es ir acercando los vectores de pesos de las neuronas ganadoras y sus vecindades a los respectivos patrones de entrenamiento. Reducir progresivamente la función de vecindad y el factor de aprendizaje contribuye a estabilizar la red y converger hacia una caracterización del conjunto de entrenamiento. La capacidad de reducción de la dimensión provee de una útil herramienta para comprender la naturaleza del conjunto de entrenamiento. De esta forma es posible usar SOM para entender, por ejemplo, cuantos grupos
115
Minería de datos SOM usando el lenguaje R en datos climáticos
significativos pueden existir en el conjunto y realizar agrupamientos sin la necesidad de conocer a priori la cantidad de clúster (Hans, 2006) en los que se agrupará.
2.2 Software R El R es un lenguaje y un entorno de programación, creado en 1993 por Ross Ihaka y Robert Gentleman del Departamento de Estadística de la Universidad de Auckland (R Development Core Team, 2013), cuya característica principal es que forma un entorno de análisis estadístico para la manipulación y el cálculo de datos, así como la creación de gráficos. R puede considerarse como otra implementación del lenguaje de programación S-PLUS, con la particularidad de que es un software GNU, General PublicLicense (conjunto de programas desarrollados por la Free Software Foundation), es decir de uso libre. El entorno incluye un intérprete del lenguaje R y numerosos complementos (paquetes) para aplicaciones estadísticas concretas. El lenguaje R es orientado a objetos, interpretado a alto nivel y tiene una sintaxis dirigida al manejo de datos estadísticos. Desde la página oficial de R(www.r-project.org) es posible descargar el archivo de instalación que permite una fácil, práctica y muy rápida puesta en marcha del software, y funciona en una amplia variedad de plataformas (Elosua, 2011) (Arriaza, 2008)(LutgardeyBuydens,2007). Se desarrolló un paquete con el software necesario para el análisis de este tipo de datos climatológicos usando SOM facilitando la interpretación de los resultados. Existen otras herramientas que desempeñan tareas similares en entornos de desarrollo como MATLAB (Gilat, 2011) el componente MeteoLab (Meterological Machine LearningToolbox) (Gutiérrez, Cano, Cofiño, y Sordo, 2004), pero tiene el inconveniente de que no es libre. También existen sistemas estadísticos y de minería de datos para el análisis de información, como Weka (Witten, Frank, y Hall, 2011), S-Plus(Longhow, 2001), en los cuales es posible realizar los mismos tipos de análisis, pero por las facilidades que ofrece R y la comunidad científica a su alrededor se escogió este para el desarrollo de la herramienta. 2.3 Datos climatológicos El Departamento de Climatología del Instituto de Meteorología de Cuba, estaba interesado en conocer si existía algún patrón de información del año 2011 en el país, referida a las variables climáticas siguientes: TMed: Temperatura media (Temperatura ambiente del aire). TMin: Temperatura mínima (Temperatura más baja alcanzada en un intervalo de tiempo dado). TMax: Temperatura máxima (Temperatura más alta alcanzada en un intervalo de tiempo dado). TMaxAbs: Temperatura máxima absoluta mensual (Temperatura más alta de las temperaturas máximas mensuales observadas en un mes dado durante un número de años determinados). TMinAbs: Temperatura mínima absoluta mensual (Temperatura más baja de las temperaturas mínimas mensuales observadas en un mes dado durante un número de años determinados). AmpTem: Amplitud de Temperatura (Diferencia entre las temperaturas máximas y mínimas medias en un intervalo de tiempo dado). HRMed: Humedad relativa media (Relación entre la fracción molar del vapor de agua en el aire y la fracción molar correspondiente si el aire estuviese saturado con respecto al agua a una presión y una temperatura dadas). Nubosidad: Nubosidad (Fracción del cielo cubierta por nubes de un género, una especie, una variedad o una capa dadas o por una combinación particular de nubes). RR: Precipitaciones (Cantidad de días con lluvia). RRMax: Precipitaciones máxima (Es la máxima lluvia que se registra en un día). RRTotal: Precipitaciones Total (La suma de todas las veces que ha llovido en el mes). 2.3.1 Metodología de trabajo Se realizó un estudio del comportamiento del clima en Cuba durante el año 2011, tomando como referencia variables meteorológicas de diferentes tipos como temperaturas, precipitaciones, humedad relativa y nubosidad. El conjunto de datos, formado por 180 observaciones de las variables climatológicas en las 15 provincias de Cuba durante todos los meses del año 2011, obtenidas mediante el promedio de los valores recogidos en todas las estaciones experimentales del país. Este conjunto se utiliza como datos de entrenamiento para construir una red
116
Joya-Caparros et al.
neuronal SOM. Uno de los principales usos de la redes SOM es representar datos de dimensión n en dimensión 2, por tal razón la capa de neuronas de salida de la red es una malla de 6 filas y 19 columnas que conforman un total de 114 neuronas de salida. Cada neurona de salida se caracteriza por tener un vector centroide que representa al grupo de las observaciones que salgan por esta. Como no es de interés tener 114 grupos distintos se aplicó el algoritmo KMedias(Johnson & Wichern, 2002)para agrupar las neuronas de salida de la red SOM y así facilitar la interpretación de los datos en términos de las estaciones del año y las zonas del país. Como parte de la presente investigación y con el objetivo de experimentar con diferentes variantes en la topología de la malla de salida y los agrupamientos posibles se confeccionó un paquete de software soportado en R que incluye diferentes funcionalidades que permiten obtener y graficar la red automáticamente. 3.- Resultados y discusión Debido a la forma alargada del país y la presencia usual de dos estaciones (verano e invierno) y dos períodos de transición (verano-invierno e invierno-verano) se decidió crear particiones de 3, 4, 5 y 6 grupos. Los gráficos de las neuronas de la capa de salida de SOM agrupadas en las particiones pueden observarse en las Figs. 3, 4, 5 y 6 en el mismo orden en el que fueron mencionadas. Como puede observarse cada partición arroja resultados similares y se distingue cierto patrón en cuanto a las características de los grupos presentes en cada época del año.
Fig. 3. Neuronas de la capa de salida de SOM en 3 grupos
117
Minería de datos SOM usando el lenguaje R en datos climáticos
Fig. 4. Neuronas de la capa de salida de SOM en 4 grupos Al particionar en 6 grupos se observa que los grupos 1, 4 y 6, a la izquierda del gráfico, presentan bajas temperaturas y precipitaciones, humedad relativa moderada, así como variables meteorológicas características del invierno. El grupo 3 tiene altas temperaturas pero bajas precipitaciones. Los grupos 2 y 5, a la derecha del gráfico, se caracterizan por altas temperaturas, elevada humedad relativa y abundantes precipitaciones, parecen representar al verano. En la partición de 5 grupos se observa algo similar. Los grupos 2 y 5 corresponden con valores altos de precipitaciones, los del 2 por encima de los del 5, presencia de elevada humedad relativa y temperaturas, que son características del verano. Nuevamente el grupo 3 presenta altas temperaturas y bajas precipitaciones. Los grupos 1 y 4 representan al invierno con presencia de bajas temperaturas y escasas precipitaciones.
Fig. 5. Neuronas de la capa de salida de SOM en 5 grupos
118
Joya-Caparros et al.
Fig. 6. Neuronas de la capa de salida de SOM en 6 grupos La partición de 4 grupos arroja que en el grupo 2 representa el verano por las condiciones de las variables climáticas, altas temperaturas, precipitaciones, humedad relativa y nubosidad, así como baja amplitud de las temperaturas. Igualmente, el grupo 4 se asocia a altas temperaturas, sobre todo la máxima absoluta y también la amplitud de temperatura es grande pero se caracteriza además por bajas precipitaciones y humedad relativa, como una transición. En el grupo 3 están presentes bajas temperaturas y humedad relativa con escasas precipitaciones, pero con una gran amplitud de temperatura. Por último, el grupo 1 es característico del invierno por sus bajas temperaturas y escasas precipitaciones. En la partición de 3 grupos se observa que el grupo 1, ubicado a la izquierda del gráfico, presenta altas temperaturas, elevada humedad relativa y abundantes precipitaciones, estas son condiciones características del verano. El grupo 2, en el extremo derecho del gráfico, se refiere al invierno por la presencia de bajas temperaturas, pocas precipitaciones y baja humedad relativa. El grupo 3 puede representar a la época de transición verano-invierno por la presencia de elevada temperatura máxima absoluta y la mayor amplitud de temperaturas. En realidad la representación mejor definida es la de 4 grupos que es muy sencilla: verano, invierno, teniendo en cuenta que a su vez cada una se caracteriza por tener muchas y pocas precipitaciones en cada estación, o sea, un verano muy lluvioso (grupo 2), un verano menos lluvioso (grupo 4), un invierno con algo de lluvia (grupo 3) y un invierno seco (grupo1). Esta representación se corresponde con los resultados esperados: dos estaciones dominantes y dos de transición usuales en Cuba. La representación escogida puede verse en la Fig. 7 a través de los meses del año en las diferentes provincias del país, donde por colores se ubicaron los grupos. El grupo 2(azul fuerte) es el verano lluvioso, el grupo 4(rojo) para el verano con escasas precipitaciones(seco) y el grupo 1(azul claro) y el grupo 3(anaranjado) para el invierno, el primero para invierno con lluvias y el segundo para invierno menos lluvioso. Además, en la parte superior de la Fig. 7 aparecen los centroides por grupo. De este estudio utilizando la técnica SOM para la descripción de datos apreciamos lo siguiente: Durante los meses de enero y febrero hubo un patrón de invierno caracterizados por las bajas temperaturas. Enero se comportó, según las salidas (Fig. 7), de forma favorable teniendo en cuenta las precipitaciones, sin embargo hay que destacar que Granma tuvo los menores valores de precipitación aún con las mismas condiciones de temperaturas. Análogamente Guantánamo presentó una anomalía en las condiciones de verano lluvioso (característico del grupo2). En febrero predomina el invierno en todo el país con un periodo poco lluvioso excepto Las Tunas y Holguín, que están al norte de las provincias orientales del país y tienen los valores más altos de precipitación.
119
Minería de datos SOM usando el lenguaje R en datos climáticos
En marzo aún continúa la presencia de invierno pero menos lluvioso, excepto Granma y Las Tunas que ya se ven condiciones propias de verano con escasas precipitaciones (Fig. 7). En abril y mayo en todo el país hay condiciones de verano poco lluvioso excepto Santiago de Cuba que presenta de forma inusual temperaturas más bajas que el resto del país. Los meses de junio a octubre son típicos de verano lluvioso en todo el país con altas temperaturas y humedad relativa, destacándose como excepción Santiago de Cuba en los meses de julio y septiembre teniendo un verano muy seco, es decir con pocas precipitaciones. Al finalizar el año (noviembre y diciembre) el país tenía condiciones de invierno o sea de bajas temperaturas y precipitaciones excepto en la provincia de Granma que aún tenía altas temperaturas como verano poco lluvioso, en diciembre sus temperaturas descendieron típico del invierno
120
Joya-Caparros et al.
Fig. 7. Partición de cardinalidad 4 con los centroides de cada grupo Conclusiones Con la aplicación SOM y el desarrollo de un paquete para R se logró una descripción del comportamiento climático del país Cuba en el año 2011. Se caracterizó por presentar dos estaciones bien definidas en periodos concretos: el inicio del año (enero a marzo) comienza con invierno, el verano de junio a octubre y el inicio del nuevo invierno de noviembre a diciembre.
121
Minería de datos SOM usando el lenguaje R en datos climáticos
El verano se caracterizó por tener altas temperaturas y dos grupos, uno de pocas precipitaciones (rojo, grupo 4) y otro de muchas precipitaciones (azul fuerte, grupo 2) y el invierno se caracterizó por bajas temperaturas y también dos grupos, uno con precipitaciones (azul claro, grupo1) y otro con pocas precipitaciones (anaranjado, grupo3). En ese año se destacaron algunas provincias con situaciones anómalas en el oriente del país como fueron Guantánamo en enero, tuvo una situación en el clima con presencia de verano, altas temperaturas y lluvias, Granma que se mantuvo todo el año poco lluvioso y Santiago de Cuba estuvo también seco en mayo, julio y septiembre. Recomendaciones Con el objetivo de facilitar y agilizar el análisis de este tipo de datos se recomienda terminar y difundir el paquete de R en construcción, que brinda funcionalidades para este trabajo. Ampliar el análisis en un mayor período de tiempo para sacar conclusiones del fenómeno desde un punto de vista más global. Con ayuda del paquete, realizar este análisis con años anteriores y futuros para realizar comparaciones en el clima del país. Agradecimientos A la AECID (Agencia Española de Cooperación Internacional para el Desarrollo), Proyecto A2/038418/11 por el apoyo para la realización de este trabajo. Y al proyecto del INSMET Predicción estacional de las anomalías de precipitación y temperaturas máximas y mínimas medias por conjuntos (Ensemble) para Cuba por facilitar los datos. Referencias Aluja , T. 2001. La mineria de datos entre la Estadistica y la Inteligencia Artificial. Questiio.vol 25,3,p 479-498 Arriaza A. J., Fernández, F, López, M A, Muñoz, M, Pérez, S, y Sánchez, A. 2008.Estadística básica con R y Rcommander. 1ª ed. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz. ISBN: 978-84-9828-1866.Data Mining for Climate Change and Impacts 978-0-7695-3503-6 2008 U.S. Government Work Not Protected by U.S. Copyright DOI 10.1109/ICDM.Workshops. Elosua, P. 2011. Introducción al entorno R, Ed. Universidad del País Vasco. Gilat, A. 2011. MATLAB an Introduction with Applications. Wiley. Gurney, Kevin. 1997. AnIntroduction to Neural Networks.CRC Press. Gutiérrez, J. M., Cano, R., Cofiño, A. S., & Sordo, C. 2004. Redes Probabilísticas y Neuronales en las Ciencias Atmosféricas. Monografías del Instituto Nacional de Meteorología. Ministerio de Medio Ambiente, España. Han, J. y Kamber, M. 2006.Data Mining: Concepts and Techniques, Capítulo 8: Cluster Analysis, páginas 1-13. Hastie, T., Tibshirani, R. and Friedman, J. 2009. The Elements Statistical Learning, Dataminig, Inference and prediction. Springer. Four Edition. Kohonen, T. 2001. “Self-Organizing Maps”, 3ra Edición, Springer-Verlag. Longhow, L. 2001. S+ An Introduction to S-Plus for Windows. CANdiensten. Olaya, F. y Adeyemo, A.B. 2012. Application of Data Mining Techniques in Weather Prediction and Climate Change Studies I.J. Information Engineering and Electronic Business, 2012, 1, 51-59 Published Online February 2012 in MECS (http://www.mecs-press.org/) DOI: 10.5815/ijieeb.2012.01.07. PREGIBON, D. 1997. «Data mining». Statistical Computing and Grafics, vol 7, nº 8. R DEVELOPMENT CORE TEAM. 2008 R: A language and environment for statistical computing, R Foundation for Statistical Computing, Viena (Austria). Recurso en línea: [consulta: 10 de julio de 2013]. Vivaracho-Pascual, C. V. y Moro-Sanchoi, Q. I. 2001.Informe técnico: Redes Neuronales Artificiales, Capítulo 2: El Perceptron Multicapa y los Mapas Auto-organizados, paginas 12-24. Wehrens, R. y Buydens. 2007.Self- and Super-organizing Maps in R: The kohonen Package L.M.C. Journal of Statistical Software October 2007, Volume 21, Issue 5. Witten, I. H., Frank, E., y Hall, M. A. 2011. Data Mining: Practical Machine Learning Tools and Techniques. Third Edition. Morgan Kaufman.
122
Joya-Caparros et al.
Acerca de los autores: Gonzalo Joya-Caparros: Doctor en Ciencias Físicas, Profesor Titular y Profesor invitado de la Universidad de la Habana, trabaja en la Universidad de Málaga, como Jefe departamento de Tecnología electrónica. Vivian Sistachs-Vega: Profesora Titular y Doctora en Ciencias Matemáticas, del Departamento de Matemática Aplicada, Facultad Matemática y Computación, Universidad de La Habana. Manuel Alejandro Cabrera-Castillo: Licenciado en Ciencias de la Computación, trabaja como Desarrollador de Software en el Departamento de Desarrollo de Software, Centro de Investigación y Desarrollo de Simuladores SIMPRO, FAR. Pedro Roura-Pérez: Licenciado en Matemática Pura, labora en el Departamento de Datos, Centro del Clima, Instituto de Meteorología, como Especialista en Meteorología.
123