Ensayo Mineria de Datos

June 18, 2018 | Author: Jorge Flores | Category: Data Mining, Data Warehouse, Computing And Information Technology, It/Computer Sciences, Science
Share Embed Donate


Short Description

Download Ensayo Mineria de Datos...

Description

2013 indic

Ensayo Minería de Datos Este Documento, tratara sobre algunos temas de suma importancia para la minería de datos, tales como cuales son los nuevos retos y las nuevas técnicas de la minería de datos.

Jorge Flores de Ángel Universidad Politécnica de Tlaxcala 08/02/2013

Índice.

Introducción……………………………………………………………………………………………………………………..Pág. 03

Problemáticas de MD..……………………………………………………………………………………………………..Pág. 04 Desarrollo de la DKK.………………………………………………………………………………………………………..Pág. 0 4 Áreas de Interés de la MD.………………………………………………………………………………………………..Pág. 0 6 Tareas de la Minería de Datos…………………………………………………………………………………………..Pág. 0 8 OLAP..………………………………………………………………………………………………………………………………. Pág. 09 Conclusión..………………………………………………………………………………… .…………………………………..Pág. 10 Bibliografía..………………………………………………………………………………… .…………………………………..Pág. 11

2

Introducción. La minería de datos es un proceso de extracción de tendencias y patrones de un archivo de datos previamente elaborado. A medida que se almacenan más datos, la cantidad de datos se duplica, la minería de datos se está convirtiendo en una herramienta cada vez más importante para transformar esos datos en información. Si bien la minería de datos se utiliza para descubrir patrones en las muestras de datos al igual que cualquier otra herramienta, sólo funciona en relación con la materia prima adecuada: en este caso, indicativa y datos representativos, que el usuario primero debe r ecoger. Además, el descubrimiento de un patrón particular en un determinado conjunto de datos no significa necesariamente que el patrón es representativo.

3

Desarrollo. Problemática de MD. Dentro de los principales problemas de la minería de datos, es que las técnicas empleadas no nos ayuden a identificar patrones, que permitan al usuario contar con la información necesaria para la toma de decisiones.

Desarrollo de KDD. El proceso de minería de datos pertenece a un esquema más amplio denominado extracción o descubrimiento de conocimiento en bases de datos, en inglés, Knowledge Discovery in Databases, más conocido por las siglas KDD.

El proceso KDD tiene como núcleo principal la minería de datos, que mediante una preparación previa de una cantidad inmensa de datos, por lo general almacenados en muchas veces de datos, se aplica un algoritmo de minería de datos para sacar el conocimiento implícito en estos y poder ser utilizado en la vida real para poder ayudar a multitud de campos. Las etapas a seguir en el proceso KDD son las siguientes: 1. Determinación de objetivos: Es necesario identificar que datos seleccionamos para que sean compatibles para aplicar minería de datos y además precisar qué objetivos quieren cumplirse desde el punto de vista del usuario. 4

2. Preparación de los Datos: Depurar la fuente de datos para evitar problemas comunes, pueden contener ambigüedades, ruido o, simplemente, no estar en el formato adecuado para su posterior procesamiento. 3. Minería de Datos: Todas las etapas anteriores son necesarias para que la aplicación de un algoritmo de minería sea exitoso y se puede sacar el conocimiento implícito en los datos que nos interesan. Estructura interna de la Minería de datos

El aprendizaje automático o machine learning es una rama de la Inteligencia Artificial que estudia el desarrollo de técnicas para extraer de forma automática conocimiento subyacente en infinidad de información, en minería se utilizan dos tipos: Supervisado y No Supervisado. Una vez terminada la fase del aprendizaje, se procede a representar el conocimiento mediante un modelo. La fase de la validación del conocimiento es la encargada de verificar si los resultados obtenidos del aprendizaje y representados posteriormente mediante un modelo de visualización han sido obtenidos de forma totalmente al azar, o de otro modo el resultado obtenido tiene una razón de ser que es difícilmente de ver a simple vista. Aquí es donde entra en juego el Análisis estadístico que nos ayudará a evaluar estos casos. Una vez terminada la validación, se deben haber eliminado aquellos casos que mediante el análisis estadístico se consideró que surgieron totalmente al azar.

Después de esto se vuelve a entrar de nuevo en el ciclo de la minería de datos hasta que la 5

depuración de todos los datos sea tal, que podamos salir de este ciclo con todos los casos verdaderos que tienen un porqué. 4. Análisis e Interpretación: En esta etapa se estudia, interpreta y evalúa el modelo de conocimiento generado por el algoritmo de minería de datos. El uso de técnicas de visualización facilita al usuario la comprensión, permitiendo la aplicación de este en la toma de decisiones. Ejemplo de modelo de visualización.

5. Aplicación: Integración del conocimiento adquirido al campo real para su aplicación, si procede.

Áreas de Interés de MD Negocios La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con

6

aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción. Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente. Hábitos de compra en supermercados El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas. Patrones de fuga Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc. — existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado. Fraudes Un caso análogo es el de la detección de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas. Recursos humanos La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra. Comportamiento en Internet

7

También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo, cuando son clientes potenciales — en una página de Internet. O la utilización de la información — obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero. Ciencia e Ingeniería En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:

Genética En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial ".2 Ingeniería eléctrica En el ámbito de la ingeniería eléctrica, las técnicas minería de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como los Mapas AutoOrganizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías.3 Análisis de gases También se han aplicado técnicas de minería de datos para el análisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas DGA.

8

Tareas de la Minería de Datos 

Clasificación 









También conocido como segmentación



Identifica grupos naturales basándose en un conjunto de atributos

Asociación





Similar a clasificación pero con el objetivo de buscar patrones para determinar un valor numérico Ej.: Predicción de la velocidad del viento basada en temperatura presión de aire y humedad

Previsión 



También conocido como análisis de cesta de la compra

Regresión 



Se busca un modelo que describa el atributo clase como una función de los atributos de salida

Agrupación





Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase.

La entrada es un conjunto de valores a lo largo del tiempo de los que extrae valores futuros

Análisis de secuencia 

Busca patrones en una serie de eventos llamada secuencia



Ej. Secuencia de navegación en Web

Análisis de desviaciones 

Busca casos «raros» diferentes a los demás

9

OLAP Actualmente los data warehouse y las técnicas olap son las maneras más efectivas y tecnológicamente más avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información. La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener almacenes de datos sin OLAP y viceversa. Habitualmente se utilizan herramientas OLAP (On-line Analytical Processing) como herramientas frontales para el acceso a los datos. Las herramientas OLAP, como los almacenes de datos y bases de datos multidimensionales, están basadas en el modelo multidimensional. Las técnicas de modelado conceptual y los modelos conceptuales utilizados para las aplicaciones OLTP (On-line Transaction Processing) no son adecuados para las aplicaciones OLAP ya que no son capaces de representar los requisitos básicos de este tipo de aplicaciones. Definición de Sistemas OLAP Es un método para buscar en los datos de diferentes maneras. Con OLAP los datos son clasificados en diferentes dimensiones las que pueden ser vistas unas con otras en cualquier combinación para obtener diferentes análisis de los datos que contienen. Beneficios de OLAP • Es de fácil uso y acceso flexible para el usuario. • Los datos están organizados en varias dimensiones lo que permite que los usuarios hagan un

mejor análisis. • Ahorro generado por la productividad de personal altamente profesional y caro que usa

permanentemente software y sistemas de información. • Permite encontrar la historia en los datos

Conclusión. Desde mi opinión la Minería de Datos constituye una parte muy importante en todo el ciclo de la creación, organización, recuperación y difusión de nuevo conocimiento en el Ciclo de la Gestión del Conocimiento en las organizaciones. Esto le permite a una organización mejorar significativamente en su eficiencia y en su eficacia. La Minería de Datos interviene a lo largo de todo el proceso, en la Adquisición, Captura, Organización, Almacenamiento y en la Recuperación del Conocimiento de las organizaciones.

10

No obstante, es importante tomar en consideración que tipo de conocimiento, tácito o explícito se ha descubierto, analizar la forma de generación, organización y recuperación del mismo para lograr una potenciación del papel de la Minería de Datos en el Ciclo de la Gestión del Conocimiento. La Minería de Datos se usa tanto en la búsqueda de la información, como en el análisis de la misma para descubrir relaciones ocultas entre los datos, brinda métodos de procesamiento de la información, de clasificación automática y de almacenamiento. Sirve para fomentar el planeamiento estratégico, entendiéndose por tal, el proceso sistemático de identificación, adquisición, análisis, registro y presentación de las oportunidades y amenazas de una organización, para apoyar de esta manera, la toma de decisiones por parte de los directivos. La Gestión del Conocimiento aliada con la Minería de Datos debe permitirle a la organización la creación continua de capital intelectual para generar un valor agregado en los servicios que la organización brinda a sus clientes, aportando de esta forma, un plus de competitividad a la organización en comparación con otras organizaciones del mismo nicho. Bibliografía. http://www.buenastareas.com/ensayos/Mineria-De-Datos/434747.html http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://www.slideshare.net/pattsul/019 http://html.rincondelvago.com/mineria-de-datos.html

11

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF