Big Data y Redes Sociales

May 22, 2019 | Author: Arnold Salcedo Mattos | Category: Big Data, Redes sociales y digitales, Social Media, Map Reduce, Apache Hadoop
Share Embed Donate


Short Description

big data y redes sociales...

Description

INDICE TEMATICO 1

MARCO CONCEPTUAL CONCEPT UAL ................................. ................ ................................... ................................... ................................... ................................... ........................... .......... 5 1.1

BIG DATA .................................. ................. .................................. ................................... ................................... ................................... .................................... ..................... ... 5

1.1.1

¿Qué es Big Data?...................... Data?.... ................................... .................................. ................................... .................................... .............................. ............ 5

1.1.2

Historia Histor ia del Big Data ................................... .................. .................................. ................................... .................................... .............................. ............ 6

1.1.3

Características del Big Data ................... ............................ .................. .................. .................. ................... ................... .................. ............... ...... 8

1.1.4

Filosofía Filoso fía del Open Data. ................................... ................. ................................... ................................... .................................... ........................ ...... 9

1.1.5

Movimiento Movimie nto Open Data ................................. ............... ................................... ................................... .................................... ........................... ......... 9

1.1.6

Utilidad Utilida d del Big Data ................................... .................. .................................. ................................... .................................... .............................. ............ 9

1.1.7

Paso para implementar Big Data .................. ........................... ................... ................... .................. .................. .................. ............... ...... 10

2

ESTADO DEL ARTE .................................. ................ ................................... ................................... ................................... .................................. ............................... .............. 14

3

DESARROLLO DESAR ROLLO MONOGRAFICO MONOGRA FICO ................................... .................. .................................. ................................... .................................... ............................ .......... 15 3.1

Futuro del Big Data ................................. ................ ................................... ................................... ................................... ................................... ...................... ..... 15

3.2

Redes Sociales ................................... ................. ................................... .................................. ................................... ................................... ............................ ........... 16

3.3

Impacto de las redes sociales en el almacenamiento almacenamiento de datos datos ................. .......................... ................... .............. .... 16

3.4

Medios Sociales Social es (Social (Socia l Media) ................................... ................. ................................... .................................. ................................... .................... .. 17

3.5

Big Data en Redes sociales ................................. ................ .................................. ................................... .................................... ............................ .......... 19

3.6

Influencia de los datos extraídos de las Redes sociales en la manera en la que las

empresas ofrecen sus productos y servicios ........... .................... .................. ................... ................... .................. .................. .................. ............... ...... 20 3.7

Técnicas y Herramientas para el analizar analizar y visualizar los datos. .................. ........................... .................. ............ ... 22

3.7.1

Hadoop ................................... .................. .................................. ................................... ................................... .................................. ............................... .............. 22

3.7.2

SmarterAnaly Smart erAnalytics tics .................................. ................. ................................... ................................... ................................... .................................. ................ 25

3.7.3

MapReduce MapRed uce ................................. ................ ................................... ................................... ................................... ................................... ......................... ........ 26

3.7.4

Pentaho Penta ho .................................. ................ ................................... ................................... ................................... .................................. ............................... .............. 27

3.7.5

Oracle Big Data Appliance Applianc e ................................... ................. ................................... .................................. ................................... .................... .. 30

CONCLUSION ..................................................................................................................................... 31 ANEXOS ............................................................................................................................................. 33 GLOSARIO ...................................................................................................................................... 33

INDICE DE FIGURAS

Figura 1: El Big Bang de la Analítica. ................................................................................................... 7 Figura 2 Pilares de Jesse Harriot (BASP) ........................................................................................ 11 Figura 3: Medios Sociales (Social Media) ....................................................................................... 18 Figura 4: Arquitectura Hadoop ........................................................................................................... 24 Figura 5: Pentaho ..................................................................................................................................... 29 Figura 6: Oracle Big Data Solution .................................................................................................... 30 Figura 7: Visión Conjunta de alto nivel de un software en Oracle Big Data Appliance . 30

INTRODUCCION

En la actualidad vivimos una realidad en la que estamos conectados la mayoría del tiempo al internet compartiendo fotos, documentos, vivencias y experiencias. En las últimas décadas la cantidad de información que debemos manejar, constantemente se ha multiplicado, generándose así cada vez más y más datos que analizar y debido a que la sociedad hoy por hoy da mayor importancia a dicha información no es raro afirmar que esta viene siendo y será el pilar que sustente la toma de decisiones para las organizaciones y empresas en los años próximos, enmarcando así un nuevo y virgen campo de estudio y preparación para los profesionales en ingeniería de sistemas. Durante el proceso de investigación y desarrollo de esta monografía y sustentándonos en artículos de empresas como “Oracle, IBM, FICO”  entre otras y con documentos investigativos y monográficos de expertos en el tema, abordamos las siguientes interrogantes: “ ¿Qué es Big Data?, ¿Cómo podemos implementar Big Data ?” generando así una serie de incógnitas como son: “ ¿Cuáles son las variantes del Big Data que delimitan las redes sociales?, ¿Qué impacto tiene la información recopilada por las redes sociales a través del uso del Big Data en la toma de decisiones de terceras empresas? ”  Con el correr de los años han sido muchas las técnicas, métodos, herramientas que han sido desarrolladas para la recopilación y procesamiento de los datos obtenidos en diferentes escalas y diversas temáticas o campos de estudio. Una de estas técnicas y se podría decir que es la más utilizada debido a que la información que genera fácilmente puede ser visualizada como datos estadísticos, es la minería de datos cuyo objetivo general es extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

1 MARCO CONCEPTUAL

1.1 BIG DATA 1.1.1

¿Qué es Big Data?

Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Big Data, entonces, alude a un conjunto de datos cuyo tamaño está más allá de la capacidad de la mayoría del software utilizado para capturar, gestionar y procesar la información dentro de un lapso tolerable. Es en este escenario que surge la necesidad, por parte de las organizaciones, de contar con un habilitador tecnológico que les permita aprovechar todo el potencial de su Big Data. Los tamaños del "big data" se encuentran constantemente en movimiento creciente, de esta forma en 2012 se encontraba dimensionada en un tamaño de una docena de terabytes hasta varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales. En el año 2001 un informe de investigación que se fundamentaba en congresos y

presentaciones

relacionadas,

el

analista

Doug

Laney

del META

Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este.

1.1.2

Historia del Big Data

El big data está de moda y no hay analista que no haga predicciones, empresa tecnológica que no venda soluciones y experto en recursos humanos que no apueste por los perfiles de sus analistas como un valor de futuro. Sin embargo, la analítica de datos no es cosa de hace un par de días, como demuestra este

apartado. En un punto tan lejano como 1930 ya se realizaban tareas de análisis de datos (aunque no con un volumen tal, por supuesto, como el que ahora se mueve). La analítica predictiva ha cambiado muchas cosas desde mediados del siglo XX, tal es así que ya se usaba en la II Guerra Mundial para descifrar mensajes. “La analítica predictiva se está convirtiendo en la tecnología del

siglo XXI”, explica en un comunicado Andrew Jennings, director de analítica de Fico Labs. “Se puede mirar hacia atrás y ver su importancia en el pasado, pero hemos llegado a un punto en el que el Big Data, el cloud computing y la tecnología de analítica está llevándonos a una innovación masiva y disrupción en el mercado”. Cada día (sí, cada 24 horas) se  crean 2,5 trillones de bytes relacionados con

big data, según los datos facilitados por Fico Labs, lo que explica claramente que la venta de soluciones de analítica haya pasado de facturar 11.000

millones de dólares en 2000 a 35.000 millones de dólares en 2012  y que el número de puestos de trabajo relacionados con estas soluciones haya crecido un 15.000% entre 2011 y 2012.

Figura 1: El Big Bang de la Analítica.

1.1.3

Características del Big Data

Una manera de caracterizar estos datos es a lo que dicen las 3 V en referencia a

Volumen, Variedad y Velocidad: 

Volumen: el universo digital sigue expandiendo sus fronteras y se estima que la cantidad de datos es tal que se ha superado la barrera del zettabyte.



Velocidad: actualmente, la velocidad con la que se generan datos es muy elevada, y la proliferación de es un ejemplo vivo de ello. Además los datos en tráfico –datos de vía efímera pero con un alto valor para el negociocrecen más deprisa que el resto del universo digital.



Variedad: los datos no solo crecen sino que también cambian su patrón de crecimiento, a la vez que aumentan el contenido desestructurado.

En ocasiones se añade otra V a las características del Big Data, el Valor. Extraer el valor de toda esa información, marcara la próxima década. El valor se puede encontrar de diferentes formas: mejoras en el rendimiento del negocio, automatización de decisiones tácticas, nuevas fuentes de segmentación de clientes, etc. El origen de los datos para una empresa puede ser diverso. Por ejemplo, le pueden llegar sus propios sistemas de información de apoyo a las ventas o de interacción con sus clientes, así como estar generados por las máquinas o sensores incrustados en cualquier tipo de dispositivo o producto de la empresa. Y no hay que olvidar la información que circula por las redes sociales sobre una determinada empresa, que sin duda es muy valiosa para esta. Pero hay otro origen muy importante de los datos, representado por las plataformas de información que varios gobiernos están abriendo. Estos datos públicos pueden ser informes, mapas, estadísticas, estudios, análisis, creados y gestionados por la administración en todos los ámbitos (sanidad, economía, educación, población, etc.), que son de gran interés público.

1.1.4

Filosofía del Open Data.

Ha dado lugar al movimiento Open Data, que persigue que las instituciones públicas expongan los datos públicos que están en su poder de forma reutilizable para que terceros puedan crear servicios derivados de dichos datos. Como consecuencia, los conjuntos de datos expuestos se ofrecen bajo licencias de propiedad abiertas, que permiten su redistribución, reutilización y aprovechamiento con fines comerciales

1.1.5

Movimiento Open Data

El movimiento open data representa también el deseo de que las empresas liberen datos para permitir el desarrollo de nuevas aplicaciones y usos. Pero el Papel protagonista en dicho movimiento es el de ciudadano. El usuario conectado a la red es una gran fuente de información. Al compartir lo que vemos (información de tráfico, opiniones, accidentes, etc.), el lugar donde estamos (geolocalización) o las imágenes que captamos, estamos construyendo, entre todos, una grande inteligencia colectiva.

1.1.6

Utilidad del Big Data

Los

seres

humanos

estamos

creando

y

almacenando

información

constantemente y cada vez más en cantidades astronómicas. La podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. En muchos países se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por

dispositivos móviles, análisis de redes sociales(en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas aquellas actividades que la mayoría de nosotros realizamos varias veces al día con nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo. Toda esa gran cantidad de información es tomada por las empresas ya sean privadas públicas, gubernamentales para ser rotulada entre confiable y poco confiable para luego ser tratada por herramientas de procesamiento de grandes cantidades de datos como son: hadoop, pentaho, netezza, vertica, DataFlux, Greenplum entre otros. Con la finalidad de obtener un tipo de información relevante para la actividad de la empresa y dependiendo de los intereses de la misma.

1.1.7

Paso para implementar Big Data

Jesse Harriot, director de análisis de Constant Contact Inc. de Estados Unidos expone 7 pilares para manejar el Big Data, con la finalidad de orientar a los líderes empresariales y a motivarlos para que no dejen de lado el análisis en sus organizaciones. Además él expone que la mayoría de las compañías que usan Big Data para la toma de decisiones, lo hacen de manera cuantitativa, asegurando que así impactarán más en el mercado. Esto seguramente es apetente para los amantes de las teorías cuantitativas. Pero bueno, al grano, los pilares que Harriot propone son estos y deben ser aplicados en el siguiente orden:

Figura 2 Pilares de Jesse Harriot (BASP)

1.1.7.1 Retos Empresariales

En este pilar se determinan cuáles son los problemas del negocio más urgentes para solucionar y cuáles son sus iniciativas de análisis. Parece algo obvio, pero no todos son capaces de conseguirlo.

Es como cuando una persona sabe descubrir sus defectos; el primer paso para avanzar es aceptar que los tiene y tener la voluntad para corregirlos, además de detectar cuáles son. Ello es vital para la organización, y también que decida implementar el análisis más que como una función, como un valor agregado, necesario y obligado para su correcto desempeño. Dicho análisis debe basarse en los desafíos críticos del negocio: aumentar ingresos y reducir costos.

1.1.7.2 Base de datos

En este ítem se debe si la información recopilada en el análisis del negocio es confiable, veraz y manejable.

1.1.7.3 Implementación del análisis

En esta instancia viene bien verificar que el resultado del análisis corresponda a los objetivos empresariales. Aquí lo más importante es tener el fin/objetivo 'en la mira'. Cuando tienes la meta clara, el camino se hace posible.

1.1.7.4 Penetración

En esta etapa hay que convertir la información en algo inteligente y enfocado al cliente tanto interno como externo: un reto por completo. Por tanto se hace necesario conocer previamente al cliente para poder armar todo en dirección a él. Pregúntate: ¿Qué ha pasado? ¿Por qué ocurrió? Y lo más importante: ¿qué va a ocurrir? ¡Provócalo! 1.1.7.5 Ejecución

Seguramente conoces este refrán: 'Del dicho al hecho hay mucho trecho', pues así es este punto. Aquí hay que orientar y hacer seguimiento a los resultados arrojados por el análisis y decidir "con pinzas" cómo llevarlos a cabo.

1.1.7.6 Distribución

Llegado al punto en el que la información debe estar a disposición de todos los interesados por el análisis en la organización, y procurar que entre ellos haya una comunicación eficaz y eficiente.

Es la mejor manera de moverse más rápido hacia la verdad, y dejar atrás vicios de la empresa. De aquí se generará una sabiduría que beneficiará colectivamente al equipo humano. Por lo general en las empresas la información reposa en cada departamento, y la idea de esta etapa del proceso es unificar toda esa materia prima y romper con el manejo que tradicionalmente se le venía dando.

Podemos ejemplificarlo de la siguiente manera: el cuerpo humano es un todo. Sin embargo, es estudiado y/o tratado por la medicina según especialidades. El brazo, el corazón, la mano, el pie, la rodilla, cada uno tiene su médico tratante.

Pero cada médico sabe que cada una de las piezas del cuerpo influye sobre la otra, sucede muchas veces con el tratamiento de un cáncer, muchas veces la solución a la enfermedad no está en donde encontraron el tumor, sino que se origina en otra parte del cuerpo, es así entonces cuando se dictamina a alguien con esta clase de enfermedad, proceden entonces a revisar todo el cuerpo y a reunir toda la información posible.

El reto realmente en este paso es ponerse de acuerdo y poder arrojar una misma definición, por lo tanto todos los involucrados deben colaborar para que haya consenso, de lo contrario los esfuerzos se volcarán en tratar de buscar una homogeneidad en el pensamiento, perdiendo entonces tiempo y energía.

1.1.7.7  Innovación

Y por último la innovación un tema muy común y repetitivo, pero sin el cual existe y se incrementa la posibilidad de fracasar. El análisis y su aplicación deben ser totalmente innovadores tanto para el cliente como para la organización.

2 ESTADO DEL ARTE En la experiencia de desenvolver la temática abordad en la monografía “BIG DATA EN LAS REDES SOCIALES” se tomó como sustento e idea principal, la relevancia que tiene el Big Data en las redes sociales partiendo desde un panorama investigativo sustentado en las tecnologías de la información.

Partiendo de lo anteriormente expuesto definiremos una serie de conceptos y titulares, su función, desempeño y caracterización que nos permitiría facilitar el entendimiento y comprensión del lector acerca de:  ¿Cómo se emplean, como están divididas y en qué aspectos de las redes sociales es más relevante la implementación del Big Data? así como también:  ¿Cuáles serán los retos que el Big Data encontrara en el ámbito de las redes sociales el día de mañana?

3 DESARROLLO MONOGRAFICO

3.1 Futuro del Big Data Big Data ya no es una promesa ni una tendencia. Big Data está aquí y está provocando cambios profundos en diversas industrias. Desde el punto de vista tecnológico ya existen sectores empresariales que han adoptado de forma masiva proyectos y productos. El análisis de todos los datos disponibles está convirtiéndose en un elemento de disrupción. Así como internet es un factor de desintermediación que está afectando a muchas cadenas de valor, el análisis de información en grandes volúmenes, de diversas fuentes a gran velocidad y con una flexibilidad sin precedentes puede suponer un factor diferencial para aquellos que decidan adoptarlo.

Debido a la versatilidad nativa que tiene el Big Data al momento de procesar y analizar cualquier tipo de datos. Puede ser implementado en todos los campos de estudios conocidos actualmente por el ser humano, esto hace del Big Data una técnica que constantemente está en evolución y a su vez indispensable en el futuro desarrollo de quienes la adopten como técnica para las toma de decisiones.

3.2 Redes Sociales

Las redes sociales se podrían definir como estructuras en donde muchas personas mantienen diferentes tipos de relaciones amistosas, laborales, amorosas. Por lo tanto hoy en día el término "red social" se llama así a los diferentes sitios o páginas de internet que ofrecen registrarse a las personas y contactarse con infinidad de individuos a fin de compartir contenidos, interactuar y crear comunidades sobre intereses similares: trabajo, lecturas, juegos, amistad, relaciones amorosas, entre otros. De acuerdo a lo que plantea Jaime Royero (2007) define las redes sociales como "el conjunto de personas, comunidades, entes u organizaciones que producen,

reciben

e

intercambian bienes o servicios sociales

para

su

sostenimiento en un esquema de desarrollo y bienestar esperado. Dicho bienestar es mediatizado por los avances en el campo de la ciencia y la tecnología producidos y ofrecidos en su valor social y mercantil a las personas o grupos de ellas, en un territorio y en unas condiciones económicas sociales determinadas. Estos intercambios se dan a nivel local regional, nacional, internacional y global".

3.3 Impacto de las redes sociales en el almacenamiento de datos Con el surgimiento de las redes sociales y bajo su concepto de muchas personas compartiendo datos e interactuando entre ellos, los sistemas tradicionales de almacenamiento de datos se encontraron con varias interrogantes, como son:  ¿Cómo podemos manejar los grandes volúmenes de datos para dar una respuesta rápida, puntual y eficiente al usuario?, ¿de qué  forma podemos utilizar estos datos para obtener algún tipo de beneficio?

Dado que los orígenes de los datos recopilados en las redes sociales son muy diversos almacenar la información como se venía haciendo resultaba en muchos problemas al momento de su recopilación y posterior salida para los usuarios.

La solución está en un cambio radical en el modo en el que se almacenan los mismos, mediante la implementación de nuevas arquitecturas y nuevas tendencias en el almacenamiento y recopilación de datos, como son: las bases de datos NoSQL, el Big Data, entre otros. Se pudo dar solución al primer interrogante pero que hay del segundo la respuesta está mediante el empleo del Big Data pues la información recopilada por las redes sociales en su totalidad es muchísima y de poca importancia, pero mediante esta técnica se puede rotular la información dividiéndola en segmentos que pueden llegar a tener cualquier tipo de valor para empresas y terceros.

3.4 Medios Sociales (Social Media) Un grupo de aplicaciones basadas en Internet que se desarrollan sobre los fundamentos ideológicos y tecnológicos de la Web 2.0,  y que permiten la creación y el intercambio de contenidos generados por el usuario.

Los medios sociales son ricos en la influencia y la interacción entre pares y con una audiencia pública que es cada vez más «inteligente» y participativa. El medio social es un conjunto de plataformas digitales que amplía el impacto del  boca a boca y también lo hace medible y, por tanto, rentabilizable por medio de la mercadotecnia de medios sociales y el CRM social. Los responsables de comunidad se encargan de crear y cuidar las comunidades en torno a las empresas generando contenido de valor, creando conversación, animando a las personas a participar, monitorizando la presencia en la red de

las marcas, etc. Los medios sociales han cambiado la comunicación entre las personas, y entre las marcas y las personas. Los tipos de medios sociales más utilizados son las redes sociales, los blogs, los microblogs, los  medios sociales móviles3 y los servicios de compartición multimedia.

Figura 3: Medios Sociales (Social Media)

3.5 Big Data en Redes sociales Las redes sociales por su naturaleza son una fuente infinita de datos, dia a dia es mucha la información que se almacena proveniente de las mismas, empresas como Facebook, LinkedIn, twitter, MySpace, Hi5, mixi, etc. Generan millones de dólares en ganancias, ¿pero de qué forma lo hacen?. A través de publicidad, acuerdos con terceras empresas, monedas virtuales y la que se podría decir es la más reciente y una apuesta arriesgada, y es la comercialización de los datos obtenidos de los usuarios de dicha red social. Es mucha la información recopilada, de la cual se puede extraer información de los gustos, tendencias, hábitos al momento de comprar cierto tipo de artículos, valorización de bienes y servicios. Aplicando Big Data y Mediante la implementación de software especializado para el manejo de la misma como son: “MapReduce, hadoop, pentaho, Oracle big data apliance” entre otros, las redes sociales clasifican dicha información y posterior mente la comercializan a terceras empresas cuya información sea relevante para su campo de negocios.

3.6 Influencia de los datos extraídos de las Redes sociales en la manera en la que las empresas ofrecen sus productos y servicios

El crecimiento exponencial de usuarios de las redes sociales las ha convertido en grandes fuentes de información para las empresas. El género, la franja de edad, la localización o las preferencias de los usuarios son sólo algunos de los datos que se pueden extraer de Twitter, Facebook, LinkedIn y otros. El tercer y último día del BDigital Global Congress se ha centrado en cómo explotar estos datos para entender el target de los clientes potenciales y sus necesidades, gracias al Big Data. Así, durante la jornada se han visto casos prácticos sobre cómo las empresas más innovadoras del mercado han aplicado el Big Data para optimizar sus estrategias y campañas en el mundo 2.0. y conseguir el "engagement" de los clientes. Ramón Montanera, Market Intelligence Director de Elogia, ha hecho incidencia en la oportunidad que dan las Big Data para hacer segmentación de los clientes. En concreto, ha mostrado el caso de un eCommerce de venta de productos, que se centró en Facebook para recolectar datos sobre los intereses de los clientes, lanzando una promoción vinculada a la aceptación de permisos de los usuarios. "De esta manera se pudo obtener una ficha de cada cliente que, cruzada con los datos demográficos y otras variables recogidas durante la compra, hicieron posible hacer ofertas diferentes y personalizadas y crear newsletters para cada segmento: jóvenes, intelectuales , etc.", afirmó Montanera. Por su parte, Pere Rovira, Director General de Elisa Group, ha mostrado como empresas punteras en eCommerce aprovechan el Big Data para conocer mejor el mercado y ofrecer mejores productos y servicios a través de canales digitales, como Mango o Zara, y explicó algunas herramientas económicas y accesibles para cualquier empresa para analizar datos y visualizarlas como Google Analytics o los "scatter plots".

David Sánchez, cofundador de Tuitele, se ha centrado en el caso práctico de su propia empresa, que monitoriza y analiza comentarios sobre programas y anuncios de TV en Twitter, por "ofrecer inteligencia a sus clientes"-cadenas de TV, productoras, etc- a la hora de tomar decisiones. Sánchez afirmó que, en un año de monitoreo, Tuitele ha analizado 8 millones de comentarios sobre programas y 6 millones sobre anunciantes, con el récord de 6.500 cometarios en un minuto. "La velocidad de análisis de los comentarios puede serle útil a los clientes para cambiar contenidos de televisión en tiempo real o modificar la parrilla rápidamente", aseguró Sánchez, que ha añadido que "lo importante no es el Big Data, lo importante siguen siendo los clientes, que quieren información para poder tomar decisiones y que su negocio sea mucho mejor". Rodrigo Bermúdez, responsable del área de Social Intelligence de Nubalia, explicó el caso de Netflix, un servicio que, según Bermúdez, "comenzó a alquilar películas por correo y ahora tienen 40 millones de usuarios en 23 países, y también ofrecen películas online. Un tercio del tráfico nocturno web de EE.UU. se debe a Netflix. Esto les ha permitido conocer gustos y tendencias y de esta manera ofrecer recomendaciones teniendo en cuenta cómo ven la película (amigos, familia, niños, etc). El 70% de sus compras están basadas en recomendaciones. " Por su parte, Inés Campanella, investigadora de Havas Media, ha planteado el debate sobre qué factores hay que considerar para evaluar el éxito de un canal social. En este sentido ha presentado los resultados de un estudio sobre el marketing en medios sociales que muestra las tendencias de participación de usuarios en páginas de Facebook, elaborado por Santiago Murillo y ella misma en el marco del Proyecto Cenit Social Media (Centro de Desarrollo Tecnológico e Industrial, Ministerio de Ciencia e Innovación de España). Entre las conclusiones más relevantes del estudio, Campanella ha destacado que el "70% de los usuarios de Facebook se centran en marcas comerciales" y que "el engagement rate (relación de likes y comentarios de los usuarios) de los fans resulta independiente del volumen de fans y del incremento del número de fans de la

página. De manera similar, altos índices de engagement no aseguran un crecimiento correlativo de fans. "

3.7 Técnicas y Herramientas para el analizar y visualizar los datos. Big Data es una tendencia nueva y potencialmente eficaz para que las empresas maximicen sus productos, servicios, producción, auditorias y manejo interno de la misma, entre otros. Por lo que no es de extrañar que organizaciones desarrolladoras propongan soluciones para la manipulación, análisis y rotulación de la información obtenida, varias de estas tecnologías son:

3.7.1

Hadoop

A continuación hay varias definiciones de Hadoop, cada una dirigida a una audiencia dentro de una empresa: 

Para los ejecutivos: Hadoop es un proyecto de software de código abierto de Apache para obtener valor de volumen/velocidad/variedad increíbles de datos acerca de su organización. Use los datos en vez de desechar la mayoría de ellos.



Para los gerentes técnicos: Una suite de código abierto de software que extrae los BigData estructurados y no estructurados acerca de su compañía. Se integra con su ecosistema existente de Inteligencia de Negocios.



Para el departamento legal: Una suite de código abierto de software que es empacado y cuenta con soporte de múltiples proveedores. Vea la sección Recursos en relación a indemnización IP.



Ingeniería: Un entorno de ejecución paralelo masivamente, de nada compartido, basado en Java map-reduce. Piense en cientos a miles de computadoras trabajando en el mismo problema, con resiliencia a fallas incorporada. Los proyectos en el ecosistema Hadoop proporcionan cargado de datos, lenguajes de alto nivel, despliegue automatizado de nube, y otras posibilidades.



Seguridad: Una suite de software con seguridad Kerberos.

3.7.1.1 Componentes de hadoop

El proyecto Apache Hadoop tiene dos componentes centrales, el almacenamiento de archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura de programación llamada MapReduce. Existen diversos proyectos de soporte que aprovechan HDFS y MapReduce. 

HDFS: para quien desee más de 4000 computadoras trabajando en sus datos, entonces lo más conveniente es distribuir dichos datos entre las 4000 máquinas. HDFS hace esto para usted. HDFS tiene pocas partes movibles. Datanodes almacena los datos, y Namenode da seguimiento al lugar donde se almacenan las cosas.



MapReduce: Este es el modelo de programación para Hadoop. Existen dos fases, Map y Reduce. Existe un tipo de mezcla entre la fase Map y la fase Reduce. JobTracker gestiona los más de 4000 componentes de su trabajo MapReduce. TaskTrackers toma órdenes de JobTracker. Tiene la versatilidad de trabajar en integración con java o en su defecto con cualquier otro lenguaje mediante el uso de una utilidad llamada Hadoop Streaming.



Hadoop Streaming: Una utilidad para permitir a MapReduce codificar en cualquier lenguaje: C, Perl, Python, C++, Bash, etc.



Hive and Hue: Hive toma el lenguaje SQL y lo combierte en un trabajo de MapReduce. No, se obtiene un entorno ANSI-SQL completo, pero tendría 4000 notas y escalabilidad multi-Petabyte. Hue brinda una interfaz gráfica basada en navegador para la realización del trabajo Hive.



Pig: Un entorno de programación de nivel alto para realizar codificación MapReduce. El lenguaje Pig es llamado Pig Latin.



Sqoop: Proporciona transferencia de datos bidireccional entre Hadoop y UNA base de datos.



Oozie: Gestiona flujo de trabajo Hadoop. Esto no reemplaza a su planificador o herramienta BPM, pero proporciona ramificación de "if-then-else" y control dentro de sus trabajos Hadoop.



HBase: Un almacenamiento de valor de clave súper escalable. Funciona similarmente a un hash-map persistente. No es una base de datos relacional pese al nombre HBase.



FlumeNG: Un cargador en tiempo real para transmitir sus datos hacia Hadoop. Almacena datos en HDFS y HBase.



Whirr: Suministro de nube para Hadoop. Usted puede arrancar un clúster en unos cuantos minutos con un archivo de configuración muy corto.



Mahout : Aprendizaje de máquina para Hadoop. Usado para análisis predictivos y otros análisis avanzados.



Fuse: Hace que el sistema HDFS parezca como un sistema de archivos normal para que usted pueda usar ls, rm, cd, y otros en datos HDFS



Zookeeper: Usado para gestionar sincronización para el clúster.

Figura 4: Arquitectura Hadoop

3.7.2

SmarterAnalytics

el enfoque SmarterAnalytics se

centra en tres áreas: AdvancedAnalytics,

comprendida por capacidades de Business Intelligence con Cognos, predictivas con SPSS y complementadas con SMA para análisis de redes sociales ya sean las más comunes

(Twitter

y

Facebook)

hasta

cualquier

blog

o

comunidad

interna; Performance Management, donde se destacan las capacidades de Budgeting&Planning en tiempo real a partir de su solución TM1 íntegramente basada en memoria RAM como así también sus soluciones de consolidación financiera, y reportes estatutarios (incluido el soporte XBRL) y soluciones de gestión de compensaciones a través de Varicent, reciente adquisición; y finalmente el pilar de RiskAnalytics, que parte del área de GRC para una nueva dimensión de visualización y manejo del riesgo. Además, estos tres pilares se apoyan en otras áreas de IBM Software, como Information Management (que incluye Data Integration, para calidad de datos) e IndustrySolutions (verticales de negocio). También están Seguridad, Rational, Collaboration, Websphere, etc. Entre sus soluciones, se encuentran, por ejemplo: SPSS: permite utilizar analítica estadística (ya sean datos estructurados o no estructurados), minería de datos y de texto, creación de modelos predictivos y optimización de decisiones para anticipar cambios y tomar medidas para mejorar los resultados. Cognos: las capacidades de inteligencia empresarial, OLAP, creación de informes, panel de control, cuadros de mando y uso en dispositivos móviles de IBM Cognos proporcionan los conocimientos necesarios para optimizar los resultados de negocio.

CognosConsumerInsight: permiten analizar los gustos de los clientes, las asociaciones de productos y marcas y los temas emergentes relacionados con su organización o el mercado en los medios de comunicación social. OpenPages: permite que las organizaciones identifiquen, gestionen, supervisen y analicen los riesgos de toda la empresa mediante una única solución integrada. Adicionalmente a las capacidades de gestión de riesgos, es posible complementarlo con un módulo de auditoria interna que hace más simple dicho proceso. Algorithmics: permite que los bancos, organizaciones de inversión y compañías de seguros calculen los riesgos y cumplan los retos de conformidad. Content and PredictiveAnalytics: analizar datos no estructurados. Se puede buscar, evaluar y extraer conclusiones de grandes volúmenes de información que

se

encuentra

en

correos

electrónicos,

documentos,

registros

de

conversaciones y otros datos no estructurados. Los encargados de tomar decisiones pueden utilizar esta información para tomar decisiones más fundadas y rápidas.

3.7.3

MapReduce

Es un framework (modelo de programación) utilizado por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. El nombre del framework está inspirado en los nombres de dos importantes métodos, macros o funciones en programación funcional: Map y Reduce. MAPREDUCE  ha sido adoptado mundialmente como una implementación opensource denominada Hadoop,  su desarrollo fue liderado inicialmente por Yahoo y actualmente lo realiza el proyecto Apache. En esta década de los años 2010 existen diversas iniciativas similares a Hadoop tanto en la

industria como en la academia. Se han escrito implementaciones de bibliotecas de MAPREDUCE en diversos lenguajes de programación como C++, Java y Python. MAPREDUCE se emplea en la resolución práctica de algunos algorítmos susceptibles de ser paralelizados. No obstante M APREDUCE  no es la solución para cualquier problema, de la misma forma que cualquier problema no puede ser resuelto eficientemente por MAPREDUCE. Por regla general se abordan problemas con datasets de gran tamaño, alcanzando los petabytes de tamaño. Es por esta razón por

la

que

este

framework

suele

ejecutarse

en sistema

de

archivos

distribuidos(HDFS). MapReduce facilita las siguientes tareas: 

Particionamiento de datos y de cómputo.



Tratamiento de ficheros de entrada y de salida.



Sincronización (hasta que todos los esclavos no terminan de hacer el Map, no se comienza con las tareas de Reduce).



Comunicación (que se realiza mediante RPC).



Sort y Group (interfaces internos para trabajar en paralelo con los grandes conjuntos de datos).



Map y Reduce (interfaces externos disponibles para los programas de usuario).

3.7.4

Pentaho

Pentaho es una herramienta de Business Intelligence desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones empresariales. Es una plataforma compuesta de diferentes programas que satisfacen los requisitos de BI.Ofreciendo soluciones para la gestión y análisis de la información, incluyendo el análisis multidimensional OLAP, presentación de informes, minería de datos y creación de cuadros de mando para el usuario.

La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un ambiente de implementación también basado en Java, haciendo así que Pentaho sea una solución muy flexible al cubrir una alta gama de necesidades empresariales. Los productos destacados ofertados en la Suite de Business Intelligence son los siguientes: 

Pentaho Data Integration:   herramienta que proporciona mediante una interfaz de usuario sencilla e intuitiva la posibilidad de manipulación de los datos desde una fuente externa e independiente a la herramienta.



Pentaho

Analisys

Services:  

herramienta

para

crear

cubos

multidimensionales Olap. Soporta el lenguaje de consulta MDX (expresiones multidimensionales) y lenguaje XML para el análisis y especificaciones. 

Pentaho Reporting: herramienta con la cual el usuario será capaz de crear informes usando datos de fuentes externas. Estos informes son generados en XML y pueden ser exportados a diversos tipos de archivos finales, como puede ser PDF, HTML o documentos de texto. Una de las características es que dispone de un menú interactivo que guía al usuario paso por paso en la creación de los informes.



Pentaho Data Mining:   herramienta para extraer información implícita en los datos. Desarrollado con el motor de minería de datos Weka. Permite extraer patrones, clusterizar, clasificar o extraer reglas de asociación de los datos.



Pentaho DashBoard:  herramienta para crear cuadros de mando en la interfaz final de la herramienta web. Estos cuadros de mando podrán realizar funciones de consulta y análisis de los datos.



Pentaho BI Server: herramienta que proporciona el servidor y plataforma web del usuario final. Este podrá interactuar con la solución Business intelligence previamente creada con las herramientas anteriormente comentadas.

Figura 5: Pentaho

3.7.5

Oracle Big Data Appliance Una Plataforma Integrada para big data

Oracle Big Data Appliance es un sistema optimizado para adquirir, organizar y cargar datos no estructurados en Oracle Database 11g. Combina componentes de hardware optimizados con nuevas soluciones de software para ofrecer la solución de grandes datos más completa.

Figura 6: Oracle Big Data Solution

Figura 7: Visión Conjunta de alto nivel de un software en Oracle Big Data Appliance

CONCLUSION

Con el paso del tiempo las fuentes de información que manejan las organizaciones ya no sólo provienen de sus propias bases de datos. Hoy, reciben importante información de una gran variedad de mecanismos de interacción internos y externos como son las redes sociales, los blogs, audios y videos. Todas estas nuevas fuentes de datos conforma un repositorio muy grande de información que se conoce como Big Data; es decir crecimiento muy rápido de la información en volumen, con variadas estructuras y que, por lo mismo, requiere de nuevos elementos tecnológicos para su a nálisis. Oracle Big Data Appliance proporciona a las empresas un excelente mecanismo para la gestión y análisis de información no estructurada y maximiza el análisis de información recabada mediante el CRM, al descubrir las oportunidades para entender y predecir el interés y comportamiento de los consumidores. Basado en tecnología Open Source, Oracle Big Data Appliance ofrece una gran capacidad de análisis, gestión y procesamiento de la información, que permite obtener conclusiones certeras sobre las necesidades y exigencias de los clientes. Para Oracle, el manejo de Big Data se caracteriza por satisfacer cuatro objetivos primordiales que apoyen mejores tomas de decisión para los negocios, con base en el análisis de los datos no estructurados: 

Adquiere datos bajo una infraestructura NoSQL, que permite la interpretación y gestión de toda la información recibida a través de los diversos canales de comunicación.



Organiza la información para un mejor desempeño analítico.



Analiza toda la información con acceso a todos los datos, con el lenguaje R basado en Open Source, altamente expandible para comprender el comportamiento de los clientes.



Decide en tiempo real con base en lo que arroja el análisis de Big Data.

Oracle Big Data transforma los datos en conocimiento accionable y nuevo conocimiento con gran rapidez, para integrarlos de manera analítica en los tableros de control de Business Intelligence y así predecir el comportamiento de un producto o servicio ante los consumidores. La solución integrada de Oracle para Big Data, soportada por Oracle Big Data Appliance, Oracle Exadata y Oracle Exalytics, permite cumplir con los cuatro pilares para ofrecer mayor valor al negocio a través de la gestión de datos. Oracle entrega una propuesta completa que facilita la implementación en la adquisición, organización y análisis de los datos con rendimiento de clase empresarial, disponibilidad, seguridad y compatibilidad.

 ANEXOS

GLOSARIO Big Data: Conjunto de datos cuyo tamaño constituye un desafío a la capacidad de la mayoría del software utilizado para capturar, gestionar y procesar la información dentro de un lapso tolerable

Terabyte: Es una unidad de almacenamiento de información cuyo símbolo es el TB, y equivale a 1012 bytes.

Petabyte: Es una unidad de almacenamiento de información cuyo símbolo es el PB, y equivale a 1015 bytes = 1 000 000 000 000 000 de bytes.

DataSet: Conjunto de Datos, generalmente recuperados de una Base de Datos.

Metodologia MIKE2.0: Es una metodología open source eficaz para implementar un sistema de archivo.

IBM: (International Business Machines). Empresa que fabrica y comercializa hardware, software y servicios relacionados con la informática. Tiene su sede en Armonk (EE.UU) y fue fundada el 15 de junio de 1911, aunque lleva operando desde 1888.

Oracle: Es una serie de productos de software, la mayoría utilizados para aplicaciones empresariales y/o de alto rendimiento. Creados por la compañía homónima: Oracle Corporation. El producto más conocido de Oracle es el manejador de bases de datos (Oracle Relational Database Management System, que comúnmente se le conoce como "Oracle").

Es un software que almacena y facilita el manejo de grandes cantidades de información relacionada entre sí (bases de datos). Oracle es uno de los productos más utilizados en las infraestructuras de las empresas. Y también es de los más caros.

FICO: Es un modelo creado para la evaluación de riesgos de crédito, el cual se cree predice fielmente el riesgo de pago futuro de un prestatario. La puntuación de un prestatario se calcula examinando su información crediticia en una fecha dada y evaluando los “puntos” obtenidos por cada dato.

Open Data: es una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control

Web2.0: Comprende aquellos sitios web que facilitan el compartir información, la interoperabilidad, el diseño centrado en el usuario y la colaboración en la  World Wide Web.  Un sitio Web 2.0 permite a los usuarios interactuar y colaborar entre sí como creadores de contenido generado por usuarios en una comunidad virtual.

BDigital Global Congress: Es el congreso de referencia sobre los avances de las Tecnologías de la Información y las Comunicaciones (TIC) y su aplic ación en el ámbito empresarial, tecnológico y social.

SPSS: Es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado.

XBRL: Xtensible Business Reporting Language, nace de la propuesta lanzada en 1998 por Charles Hoffman, experto contable y auditor, para simplificar la automatización del intercambio de información financiera mediante el uso del lenguaje XML

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF