Big Data Monografia
Short Description
Descripción: Analisis BigData...
Description
Administración de Servicios de Red 2 Big Data
INTEGRANTES Juan Pablo Segura Pizarro - U201301211 Larry Linares Canales - U201200341
Marzo 2016
INDICE INDICE............................................................................................................ 2 INTRODUCCION.............................................................................................. 3 DEFINICION..................................................................................................... 4
ANALISIS EN TERMINOS DE BYTES..................................................................5 COMO FUNCIONA........................................................................................... 6 DE DONDE PROVIENEN LOS DATOS................................................................7 CLASIFICACION............................................................................................... 8 Datos no estructurados..................................................................................8 Características de datos no estructurados..................................................8 SOFTWARE................................................................................................... 11 LAS TRES V................................................................................................... 12 VENTAJAS...................................................................................................... 13 DESVENTAJAS............................................................................................... 13 CONCLUSIONES............................................................................................ 13 BIBLIOGRAFIA............................................................................................... 14
INTRODUCCION Big Data es un concepto que hace referencia a grandes cantidades de información, disponibles en diversos formatos y tipos de estructuras, recopilada principalmente a través de Internet mediante la interacción de los usuarios de computadores, teléfonos móviles y dispositivos GPS, entre otros. Asimismo, es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi-estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a una base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Adicionalmente, el concepto de volumen es muy variable y cada día que pasa eleva lo que podemos considerar grandes volúmenes de datos. El objetivo de Big Data, al igual que los sistemas analíticos convencionales, es convertir el dato en información, ya que facilita la toma de decisiones, incluso en tiempo real. Sin embargo, más que una cuestión de tamaño, es una oportunidad de negocio. Las empresas ya están utilizando Big Data para
entender el perfil, las necesidades y el sentir de sus clientes respecto a los productos y/o servicios vendidos. Esto adquiere especial relevancia ya que permite adecuar la forma en la que interactúa la empresa con sus clientes y en cómo les prestan servicio.
DEFINICION El concepto de grandes volúmenes de datos no viene de la nada. De hecho, no es nuevo, pero está recibiendo mucha atención por varias razones, tales como la baratura de almacenamiento de datos, la proliferación de sensores y tecnología de captura de datos. No existe una definición precisa del término Big Data. IDC define de la siguiente manera: "Las tecnologías Big Data describen una nueva generación de tecnologías y arquitecturas, diseñados para extraer económicamente valor a partir de volúmenes muy grandes de una amplia variedad de datos, lo que permite la captura de alta velocidad, descubrimiento y análisis." Otra definición, realizado por McKinsey Global Institute, "Big Data se refiere a conjuntos de datos cuyo tamaño es más allá de las típicas herramientas de software de base de la capacidad de capturar, almacenar, gestionar y analizar." Entonces nos damos cuenta que no define Big Data sólo en el tamaño del volumen de datos, sino la capacidad de manipularlos.
ANALISIS EN TERMINOS DE
BYTES
El volumen de
datos generados
en todo el
mundo está
aumentando.
Un estudio
realizado por
IDC en 2011
muestra el datos es cada dos años zettabytes (1,8 gigabytes). estamos
volumen de más del doble y debe llegar a 11,8 billones de Podemos decir que experimentando una
explosión de datos. De acuerdo con IBM, el 90%
de los datos
almacenados en el mundo de hoy se han creado en los últimos dos años. Otros estudios revelan que 30 millones de entradas se comparten en Facebook por mes. Un millón de transacciones de los clientes se generan por hora en Wal-Mart. Y en 2020, las compañías tendrán que administrar 10 veces más servidores, 50 veces más datos, 75 veces más archivos con sólo 1,5 veces más personas. Podemos ver en la historia una evolución en el valor de los datos. Durante los años 50 y 60 los datos fueron vistos como un producto. Ya en las décadas de los 90 y 2000 los datos ya han comenzado a tener un valor, ayudando a las organizaciones en el proceso de toma de decisiones. Y en esta década en adelante, los datos se tratan como un sustrato, es decir, algo esencial para las organizaciones del día a día. Los datos están siendo recogidos a gran escala. Ellos provienen de diversas fuentes, tales como los datos generados por los sistemas transaccionales, sensores, cámaras, satélites, registros, redes sociales, etc. A la vista de todo esto inundación y la evolución en el valor de los datos, surge una pregunta: ¿Qué podemos hacer con toda esta cantidad de información? En el mundo empresarial, las decisiones que se basan en suposiciones o modelos construidos por expertos, ahora pueden hacerse sobre la base de los datos recogidos.
COMO FUNCIONA El funcionamiento de Big Data está basado en el modelo de programación MapReduce. Este modelo es utilizado en procesos que pueden ser paralelizados, como las consultas de Big Data, ya que las subdivide en pequeñas tareas ejecutables por varios procesadores. De esta forma, la capacidad de procesamiento de datos aumenta tanto en tamaño como en rapidez, de ahí que la cantidad de datos procesados en este tipo de tecnología sea muy superior a otras consultas que sólo utilicen datos estructurados. Como usuarios, para utilizar el modelo MapReduce basta con usar Hadoop,
un software de código abierto desarrollado por Apache que permite procesar grandes cantidades de información almacenadas en ficheros.
DE DONDE PROVIENEN LOS DATOS
Cualquier empresa, independientemente de su tamaño, con los datos e información que se debe almacenar. Y con el rápido aumento de esta información, se ha convertido en esencial que estos datos se almacenan en una base de datos informatizada. Esto hizo que el acceso a la información era más ágil, práctico y con un menor número de fallos en la recuperación de datos. Hay diferentes tipos de DBMS, de esos grandes sistemas que están presentes en grandes corporaciones a pequeños sistemas que se ejecutan en los ordenadores personales. DBMS populares son: PostgreSQL, MySQL, Oracle y SQL Server.
CLASIFICACION
Datos no
estructurados Una posible definición de datos no estructurados, son aquellos datos no almacenados en una base de datos tradicional. La información no estructurada no puede ser almacenada en estructuras de datos relacionales predefinidas. Se pueden establecer diferentes clasificaciones, vamos a considerar dos de ellas.
Datos no estructurados y semiestructurados. Los datos semiestructurados serían aquellos datos que no residen de bases de datos relacionales, pero presentan una organización interna que facilita su tratamiento, tales como documentos XML y datos almacenados en bases de datos NoSQL.
Datos de tipo texto y no-texto. Datos no estructurados de tipo texto podrían ser datos generados en las redes sociales, foros, e-mails, presentaciones Power Point o documentos Word, mientras que datos no-texto podrían ser ficheros de imágenes jpeg, ficheros de audio mp3 o ficheros de video tipo flash.
Características de datos no estructurados Las principales características de los datos no estructurados son las siguientes:
Volumen y crecimiento: el volumen de datos y la tasa de crecimiento de los datos no estructurados es muy superior al de los datos estructurados. Por ejemplo, twitter genera 12 Terabytes de información cada día. De acuerdo con Gartner, la tasa anual de crecimiento de datos es del 40 a 60 por ciento, pero para los datos no estructurados en empresas, la tasa de crecimiento puede llegar al 80 por ciento (informe 2012).
Orígenes de datos: El origen de los datos es muy diverso: datos generados en redes sociales, datos generados en foros, e-mails, datos extraídos de la web empleando técnicas de web semántica, documentos internos de la compañía (word, pdf, ppt).
Almacenamiento: Debido a su estructura no podemos emplear arquitectura relacional, siendo necesario trabajar con herramientas ‘Big Data’, siendo crítico en estas arquitecturas los aspectos relacionados con la escalabilidad y paralelismo. Según el tipo de dato se impone el almacenamiento cloud. Monitorizar la frecuencia de uso y la detección de datos inactivos son aspectos críticos de cara a reducir costes de almacenamiento.
Terminología e idiomas: La terminología es una cuestión crítica tratando datos no estructurados de tipo texto. Es habitual llamar a lo mismo de diferentes formas, de tal modo que es necesario una racionalización de la terminología. Otra cuestión es el idioma en el que se he generado la información tratada.
Seguridad: Hay que considerar que algunos datos no estructurados de tipo texto, pueden no ser seguros. Por otra parte el control de
accesos a los mismos es complejo debido a cuestiones de confidencialidad y la difícil clasificación del dato. Tratamiento de datos no estructurados Las principales cuestiones a considerar en el tratamiento de información no estructurada son las siguientes:
Crear una plataforma escalable (infraestructura y procesos) que permita tratar grandes cantidades de datos. Las tecnologías RDBMS son insuficientes para tratar información no estructurada. Es necesaria una capacidad de almacenamiento y una capacidad de proceso escalable. Teniendo en cuenta que el coste económico de mantener plataformas escalables, hay que considerar la opción cloud. Desde el punto de vista de los procesos, en ocasiones es interesante utilizar in-memory analytics.
Añadir información/estructura complementaria a los datos no estructurados. Es importante añadir algún tipo de estructura a los datos no estructurados que ayude a su tratamiento. Por ejemplo, en una colección de tweets de redes sociales puede ser interesante añadir campos tales como el idioma, la localización geográfica para su posterior procesado. Esta estructura adicional que añadimos debe ser modelizada de cara a estar en constante evolución.
Crear conjuntos reducidos de datos que sean representativos. Dado el volumen ingente de información, es importante trabajar con muestras de datos que sean estadísticamente representativos sobre los datos a analizar. Muchos análisis pueden llevarse a cabo con un grado de exactitud razonable, utilizando conjuntos de datos que son más pequeños en un orden de magnitud que la información en bruto.
Desarrollo de algoritmos. Hay diferentes tipos de aproximación hacia la información no estructurada. Por ejemplo, para procesos de text mining, puede utilizarse natural language processing combinado con redes neuronales. Otras técnicas como redes bayesianas permiten descubrir patrones sobre múltiples dimensiones. Son importantes también las técnicas de visualización de datos.
Procesos de depuración/limpiado de datos. Dado el ingente volumen
de datos, se convierte en crítico la correcta gestión del histórico de datos. Detección de datos no usados o de frecuencia de consulta muy baja con objeto de limpiar información y liberar espacio. Ejemplo sencillo tratamiento datos no estructurados (redes sociales) Dada la variada naturaleza de los datos no estructurados, hay infinidad de posibles procesos relacionados con ellos. A continuación mostramos un sencillo ejemplo de tratamiento de datos provenientes de redes sociales. El objetivo de este análisis de datos es conocer la percepción que existe sobre el precio de determinado producto en twitter.
Extracción: Utilizando una clase de java (ejemplo twitter4j) leemos el feed de Twitter disponible en https://twitter.com/search/realtime. Añadimos a los campos disponibles calificaciones del tipo: idioma, localización geográfica.
Transformación: Filtramos todos aquellos tuits que contengan el nombre del producto. Refinamos el filtro introduciendo campos del tipo (“precio”) + (“barato”, “caro”, “económico”, etc...), teniendo en cuenta el idioma en el que se generan lo tuits. Valorar la opción en base al volumen de obtener una muestra representativa de los datos extraídos y filtrados.
Volcado a BBDD : Insertamos en una tabla el registro del tuit con la calificación identificada (idioma, localización geográfica)
Informes: Creamos informe que permita realizar análisis por tiempo y campos de calificación. Hay que considerar que este informe puede ser actualizado en tiempo real.
SOFTWARE 1. Hadoop: Inspirada en el proyecto de Google File System (GFS), es un proyecto de alto nivel Apache. 2. NoSQL: “No solo SQL” Utilizada por Facebook para almacenar solo los 50 TB de la bandeja de entrada de 1000 usuarios. 3. Cassandra: Basada en Hadoop y desarrollada en Java, es actualmente utilizada en toda la red social twitter. 4. Oracle Data Integrator: Basada en Hadoop pero enfocada como una
solución empresarial.
LAS TRES V 1. Volumen: quizá el más llamativo por su aumento desmesurado en los últimos años, aunque el menos importante en clave de utilidad para la compañía. Es una consecuencia de las mejoras de las redes de comunicaciones y de las mayores velocidades de los accesos de banda ancha, pero la mayor cantidad de datos por sí sola no aporta un valor añadido. Es la causa que lleva a preocuparse por los otros dos factores. 2. Variedad: ordenar e interpretar diferentes tipos de datos a la vez puede generar grandes ventajas. Combinar datos de edad, género, estado civil, situación laboral, situación geográfica, intereses, gustos... permite crear perfiles más precisos de clientes potenciales para realizar campañas de publicidad y márketing segmentadas. Aunque las ventajas de poder ajustar más el punto de mira en el blanco de la diana también puede tener una parte negativa, si el cliente percibe una cierta invasión de su intimidad. La sutileza es la gran virtud para que el valor añadido qeu ofrece la varieda de datos conjuntados no se vuelva en contra. 3. Velocidad: se refiere a la vida útil de los datos. No tiene sentido conservar datos cuyo recorrido ha terminado y han quedado obsoletos. Una de las claves para poder almacenar grandes cantidades de datos de forma que sean útiles para la estrategia comercial es que la utilidad de toda la información que se
conserva sea vigente. Empresas de según qué sector llegan a descartar hasta el 90% de los datos generados y preservan sólo aquellos que les pueden ofrecer rendimiento.
VENTAJAS 1. 2. 3. 4. 5. 6.
Es un valioso recurso de información para diseñar estrategias. Comunicación directa con el cliente. Mejora de la eficiencia y los costes Mejora de la gestión empresarial Facilidad para que las compañías evalúen sus productos. La segmentación de los clientes para personalizar acciones.
DESVENTAJAS 1. 2. 3. 4.
Acceso a la información sin autorización. Amenaza a nuestra privacidad. Se pueden incurrir en riesgos éticos y legislativos. Ausencia en el mercado local de profesionales.
CONCLUSIONES La naturaleza de la información hoy es diferente a la información en el pasado. El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar. Si la información es poder, entonces Big Data se entiende como una gran linterna que ilumina aquellos datos que estaban escondidos, facilitando análisis de datos que antes limitaba la tecnología. Debe existir el uso ético y legal de la información y esta debe ser regulado por las autoridades, ya que el análisis de toda la información que generamos, ya sea en las redes sociales, en nuestros dispositivos móviles, o en nuestras cuentas de correo, puede ser útil para nosotros mismos, pero se debe garantizar el consentimiento y el uso lícito de estos datos.
BIBLIOGRAFIA https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ http://elpais.com/elpais/2015/03/26/buenavida/1427382655_646798.html
https://www.enriquedans.com/2011/10/big-data-una-pequenaintroduccion.html http://www.isaca.org/knowledgecenter/research/researchdeliverables/pages/big-data-impacts-andbenefits.aspx http://www.oracle.com/lad/bigdata/products/index.html
View more...
Comments