Practica Ti016 Dash
April 7, 2023 | Author: Anonymous | Category: N/A
Short Description
Download Practica Ti016 Dash...
Description
Universidad Europea del Atlántico
TI016 – Business Business Intelligence y Gestión Documental
CASO PRÁCTICO
Dashely Rodriguez Humerez Diciembre 2020 Máster en Dirección Estratégica en Telecomunicaciones
Tabla de Contenidos
ii
Capítulo 1 Interrogantes ................................................... ....................................................................................................... ............................................................... ........... 1 1.1 ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir el primer paso de la metodología CRIS-DM?...………………………………………………………………. .1 1.2 ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para comprender la naturaleza de los datos involucrados en eell negocio? ................................................ .................................................................. .................. 2 1.3 Explique el proceso utilizado para cometer la preparación de los datos en la organización..2 1.4 Mencione qué etapa le sigue a la preparación de los datos y de qué modo fue realizada por el equipo de trabajo………………………………………………… trabajo…………………………………………………………………………….. …………………………..3
1.5 ¿Cuáles 1.5 ¿Cuáles fueron los algoritmos utilizados?................................................... utilizados?.............................................................................4 ..........................4 1.6 ¿De 1.6 ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?............................. 4 1.7 Explique brevemente la fase de implementación del proyecto…. ........................................5 Lista de Referencias………………………………………… Referencias……………………………………………………………………….……… …………………………….………6
1
Capítulo 1 Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de Estudio 1.1
¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir
el primer paso de la metodología CRIS-DM? ➢
La empresa que cuenta con su oficina de fraudes, formo un grupo de personas que revisaron físicamente los medidores de cada cliente de forma individual, de esta manera poder detectar las posibles anomalías.
➢
Se realizan inspecciones de rutas sectoriales, este proceso conlleva mucho tiempo, pero asegura la detección oportuna.
➢
Se utilizaron técnicas de Clustering para la detección de anomalías, con el fin de obtener un listado de cliente que presenten situaciones o datos atípicos.
Fuente: https://www.cronista.com/pyme/herramientas/El-90-de-los-fraudes-son-internosComo-protegerse-20171109-0001.html
1.2
2
¿Cuáles fueron las acciones realizadas por el equipo de trabajo para
comprender la naturaleza de los datos involucrados en el negocio? ➢
Primeramente, fue necesario realizar una serie de reuniones r euniones con la Gerencia de Clientes, donde los administrativos presentaron al equipo del proyecto los problemas detectados por la oficina de fraude, con el fin de buscar alternativas de solución.
➢
Segundo, la oficina de fraudes con su personal realiza la revisión físicamente de los medidores de los clientes caso a caso, con el fin de detectar posibles anomalías.
➢
Por último, se propuso utilizar técnicas de Clustering para la detección de anomalías con el fin de obtener un listado de clientes que presenten datos atípicos.
1.3
Explique el proceso utilizado para cometer la preparación de los datos en la
organización
Proceso utilizado: ➢
Primeramente, se revisó minuciosamente de la base datos
➢
Se prosiguió utilizando el modelo de detección de anomalías de Clementine, que como informa el documento “entrega como resultado grupos de datos con características similares, los cuales son llamados grupos homólogos del modelo. Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros. ” , ya que
esta entrega un apoyo completo para el ciclo de MD a través de la metodología CRISPDM.
➢
3
Se realizo el proceso de extracción de datos previamente definido llamado ETL, estos datos fueron almacenados en un repositorio (que consiste en hechos y dimensiones que son representados a través de un esquema en estrella).
➢
Ya que es un sector de la empresa la que se está analizando, se utilizó un Data Mart, que contiene información específica sobre los consumos históricos de agua potable y alcantarillado de la región. Que está compuesta como se muestra a continuación:
Fuente: Caso Practico TI026
1.4
Mencione qué etapa le sigue a la preparación de los datos y de qué modo fue
realizada por el equipo de trabajo
La etapa que le sigue a la preparación de los datos según la practica llegaría a ser la segunda etapa, donde fue necesario reunirse con personal especializado de la empresa, revisar documentación de la base de datos, revisar revisa r nombres de atributos y el diccionario de datos; entre otros. En conjunto ya con el personal técnico de la empresa fue posible adquirir los datos históricos de los consumos facturados desde el inicio del funcionamiento de dicho sistema
4
de facturación hasta el mes de octubre del año 2007. Dichos datos fueron cargados en el Data Mart a través de un proceso ETL diseñado para ello. 1.5
¿Cuáles fueron los algoritmos utilizados?
Los algoritmos que se seleccionaron para realizar este análisis son:
1.6
¿De qué forma se logró garantizar la fase de evaluación en el proyecto?
Para el caso de estudio se llegó a utilizar la herramienta Clementine para garantizar la fase de evaluación. Esta herramienta es apropiada para la detección de fraudes, dado que dispone de algoritmos eficientes de Clusterización y detección de anomalías, utilizando para ello la metodología de CRISP-DM para el diseño de modelos de MD. Y se concluyó que el algoritmo EM es el más adecuado, para segmentar los datos del AD diseñado para la empresa Aguas Araucanía S.A., con el fin de encontrar posibles casos de fraude.
1.7
5
Explique brevemente la fase de implementación del proyecto
El primer paso fue la identificación del problema: Se implemento técnicas de MD para la búsqueda de posibles fraudes cometidos por los clientes, mediante comportamientos anómalos sobre conjuntos de datos. Se utilizo la herramienta Clementine Client1, esta posee herramientas de visualización y técnicas de aprendizaje para la clasificación, c lasificación, regresión, clustering y discretización, entregando apoyo para el ciclo de MD a través de la metodología CRISP-DM.
Ya que Clementine contiene la Clusterización y de Detección de Anomalías como algoritmos para la detección de fraudes. El equipo propone utilizar técnicas de Clustering para la detección de anomalías con el fin de obtener un listado de clientes que presenten datos irregulares.
Después se prosiguió con el análisis del modelo de base de datos, especialmente las entidades que tienen relación con el proceso de facturación.
Para los datos analizados, se diseñó un Almacén de Datos que se alimente de las bases de datos transaccionales a través de un proceso de extracción de datos previamente definido ETL
Para finalizar, se utilizaron los algoritmos K-means, COBWEB y EM para realizar el análisis. A través de los algoritmos de detección de anomalías de Clementine Cliente1 se probaron los datos almacenados en el DM, entregando una serie de resultados que den ser analizados cada vez que se inicia el ciclo de la metodología CRISPDM. Todo este sistema de detección de anomalías se llegó a implementar en el servidor de la empresa, para que puedan obtener listados de clientes cliente s que podrían ser casos de análisis y clientes que presentan comportamientos anómalos, dando la posibilidad de detectar posibles fraudes en forma for ma oportuna.
6
Lista de referencias FUNIBER (2020). Business Intelligence y Gestion Documental (TI016). De: https://campus2.funiber.org. https://campus2.funiber.org. BI-Spain.com. (noviembre 4,2013). El nuevo Clementine 10.1. noviembre 4,2014, de BISPAIN de la página: https://www.bi-spain.com/articulo/26664/cpm-analisisfinanciero/el-nuevo-clementine-101-revoluciona-el-analisis-predictivo-para-crmmarketing-y-deteccion-de-fraudes. (consultado: 5 de diciembre de 2020) Moya R. (marzo 25, 2016). Machine Learning (en Phyton), con ejemplos: ¿Qué es el Clustering? de la página: https://jarroba.com/que-es-el-clustering. página: https://jarroba.com/que-es-el-clustering. (consultado (consultado el 7 de diciembre de 2020)
View more...
Comments