PPT Pentaho y Big Data 20170518

June 2, 2021 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download PPT Pentaho y Big Data 20170518...

Description

Business Intelligence con Pentaho y Big Data con Hadoop Presentado por: Carlos Carreño [email protected] Mayo, 2017

Acerca del Presentador

Carlos Augusto Carreño Villarreyes Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons. Experiencia Profesional: ✔

Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú.



Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres.



Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto.



Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú Email de Contacto: [email protected]

2

Agenda ●

Introducción a Big Data con Hadoop



Arquitectura de Hadoop



Herramientas para Hadoop



Ecosistemas Disponibles



Introducción a Pentaho BI Suite



"Stack" de tecnologías de Pentaho BI Suite



Pentaho y Big Data



Casos de Aplicación 3

Introducción a Big Data con Hadoop

4

¿Que es Big Data?

?

5

Desde cuando hablamos de Big Data?

6

7

¿Cuánto es demasiada información? 1 Gigabyte = 10⁹ = 1,000,000,000 1 Terabyte = 10¹² = 1,000,000,000,000 1 Petabyte = 10¹⁵ = 1,000,000,000,000,000 1 Exabyte = 10¹⁸ = 1,000,000,000,000,000,000 … 1 Quintillón 10³⁰ = 1,000,000,000,000,000,000,000,000,000,000

8

Seguimos creciendo ●







Fuente: ONU http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/

Al 2016 la población creció a 7,400 millones de personas. Se prevee: 18.9 billones de dispositivos. Que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales 9

No, Solo los humanos producimos información.

10

Aterrizando el concepto de Big Data

Big Data se refiere al procesamiento de volúmenes de datos tan grandes que no se pueden realizar con tecnologías tradicionales a una velocidad adecuada y a los procedimientos para encontrar patrones repetitivos en estos datos. Referencia:https://es.wikipedia.org/wiki/Big_data

11

Las 3V del Big Data ●

Volumen



Velocidad



Variedad

+

3V

12

¿Que es Hadoop?

?

13

Hadoop ●



Apache™ Hadoop® es un proyecto de software libre que permite el procesamiento distribuido de grandes volúmenes de datos en clusters de servidores básicos. Hadoop está diseñado para extender un sistema de archivos de servidor único a miles de máquinas y a petabytes de datos con un muy alto grado de tolerancia a las fallas.

14

Porque interesa tanto Hadoop? ●

Hadoop cambia la economía y la dinámica de la computación a gran escala.

15

Hadoop hace posible el Big Data ●







Redimensionable, pueden agregarse tantos nuevos nodos como sea necesario. Rentable, Hadoop hace posible la computación paralela con servidores básicos. Flexible, Hadoop funciona sin esquema y puede absorber cualquier tipo de datos. Tolerante a fallas, si se pierde un nodo, el sistema redirige el trabajo a otra localización de los datos y continúa procesando sin perder el ritmo.

16

Arquitectura de Hadoop

17

Componentes de Hadoop ●



Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce (mapper reducer). Hadoop está compuesto de cuatro componentes: ➢

Hadoop Distributed File System (HDFS)



Hadoop MapReduce



Yarn (Yet Another Resource Negotiator )



Hadoop Common Utilities. 18

Arquitectura de Hadoop

19

Hadoop Distributed File System ●

Hadoop Distributed File System (HDFS) es un sistema de archivos que abarca todos los nodos de un cluster Hadoop para el almacenamiento de datos. HDFS convierte todos los sistemas de archivos locales de los nodos en un único gran sistema de archivos

20

MapReduce ●

MapReduce es el motor que Hadoop usa para procesar las enormes cantidades de datos, se basa en el modelo de programación Mapear – Reducir (MapReduce) .

21

Yarn ●

YARN (Yet Another Resource Negotiator) es el componente que asigna CPU, memoria y almacenamiento a las aplicaciones que se ejecutan en un cluster Hadoop.

22

Common Utilities ●

Hadoop Common Utilities, son librerías java que soportan otros módulos de Hadoop como: ➢

RPC



File System



Serializacion

23

Cluster Hadoop

24

Elementos del Cluster Hadoop ●



NameNode: Sólo hay uno en el cluster. Regula el acceso a los archivos por parte de los clientes. Mantiene en memoria la metadata del sistema de archivos y control de los bloques de los archivos que tiene cada DataNode. DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los archivos en HDFS están formados por bloques, estos se encuentran replicados en los diferentes nodos.

25

Herramientas Para Hadoop

26

Herramientas para Hadoop ●



En la implementación de una solución de Big Data se requieren herramientas (proyectos) adicionales que interactúen con Hadoop. Hadoop + el conjunto de proyectos para Hadoop forman un ecosistema de Big Data.

27

Lista de Herramientas para Hadoop ●

Avro



Lucene



Cassandra



Oozie



Chukwa



Pig



Flume



ZooKeeper



HBase



Ambari



Hive



Zeppelin



Jaql 28

29

Ecosistemas Disponibles

30

Plataformas de Big Data ●



Hadoop ofrece una base para la creación de plataformas o ecosistemas comerciales para el análisis de Big Data. Detrás del uso de una plataforma comercial de Big Data esta el propósito de facilitar su adopción, esto es "Hadoop como servicio".

31

Plataformas de Big Data en Hadoop ●

Cloudera



Amazon Web Services



Hortonworks



MapR



IBM



Microsoft HDInsight



Intel Distribution for Apache Hadoop



Datastax Enterprise Analytics



Teradata Enterprise Access for Hadoop



Pivotal HD

32

Cloudera





Cloudera una de las primeras ofertas comerciales de Hadoop una de las mas populares. Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo paralelo de Big Data a Hadoop. 33

Hortonworks

Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de código abierto sin ninguna modificación propietaria. También fueron los primeros en integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos, simplificando el proceso de compartir sus datos a través de otras capas de servicio como Apache Hive o Pig. ●

34

Introducción a Pentaho BI

35

¿Que es Business Intelligence?

?

36

Concepto de Business Intelligence - BI ●

Business Intelligence (Inteligencia de Negocio), es el conjunto de tecnologías y procedimientos que permiten el cruce de información para soportar el análisis de los indicadores de desempeño de un negocio.

37

Cubo OLAP ●

Permite a los analistas de negocios, gerentes, tomadores de decisiones sintetizar la información a través de diferentes vistas.

38

Modelo Dimensional ●

Técnicas y conceptos para crear modelos de datos basados en hechos y dimensiones. Se orienta el modelado hacia la búsqueda de rendimiento de las consultas.

39

Modelo Estrella ●

Desnormalizado



Habilidad para análisis dimensional

40

Modelo Copo de Nieve ●



Forma normalizada de las dimensiones (solo las dimensiones primarias están enlazadas con la tabla de hechos) Rompe el análisis dimensional

41

Data Warehouse

42

¿Que es Pentaho BI Platform?

?

43

Pentaho BI Platform ●

Pentaho BI Platform es una suite de herramientas “open source” basadas en Java, que permite soportar los procesos de Inteligencia de Negocio de una empresa.

44

Alguna Empresas que usan Pentaho BI Suite

45

"Stack" de tecnologías en Pentaho BI Suite

46

Arquitectura de Pentaho BI Suite

47

Stack de Tecnologías ●

Business Analysis ➢

Pentaho Web Console



MDX Engine basado en Modrian/JPivot



Pentaho Report Designer



Pentaho Schema Workbench



XMLA Data Sources

48

Stack de Tecnologías ●

Data Integration ➢

Design Tool - ETL



CLI

49

Pentaho y Big Data

50

Pentaho & Hadoop ●

Pentaho permite manejar complejas transformaciones de datos y permite operacionalizar Hadoop y Spark como parte de una línea de datos de extremo a extremo.

51

Integración Pentaho y Hadoop ●





Interfaz visual intuitiva para integrar y combinar datos de Hadoop con prácticamente cualquier otra fuente. Capacidad para diseñar lógica de integración de datos 15 veces más rápido que los métodos de codificación manual Integración con el ecosistema de Hadoop incluyendo Spark y compatibilidad con Kafka, YARN, Oozie, Sqoop y más

52

Arquitectura de Pentaho y Hadoop

53

Beneficios de la Integración de Pentaho y Hadoop ●







Capacidad para procesar grandes volúmenes de datos en sistemas de producción empresarial y dotar de capacidad de autoservicio al usuario final Reportes y Analisis de datos soportando Impala, Hive y otras base de datos analiticas Soporte a modelos predictivos basados en R, Weka, Python y Mllib Soporte de seguridad empresarial basada en Kerberos en plataformas Cloudera y Hortonworks.

54

Casos de Aplicación

55

Big Data en el Campo de la Investigacion ●

De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de una solución de Big Data se encuentran: ➢

El Language, Interaction and Computation Laboratory - CLIC en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos.



Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer.

56

Big Data en el Campo de la Investigacion ●





El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá. La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüistica computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes.

57

Pentaho en la Industria Financiera ●

Las siguientes industrias de servicios financieros han elegido Pentaho para su área de inteligencia de negocios.

58

Sección de Preguntas

59

60

Referencias ●

Que es Big Data https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/



Las 3V del Big Data http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidadvariedadHadoop



MapReduce Tutorial http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/



Que es Hadoop https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html



Big Data: The Top 10 Commercial Hadoop Platforms https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platformsbernard-marr

This work!, is dedicated to the supreme consciousness, God.

61

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF