Glosario Big Data
Short Description
Download Glosario Big Data...
Description
Glosario Big Data | PRAGSIS Big Data Hadoop
Página 1 de 4
Bidoop México -
Bidoop Brasil
Big Data Open Source Ingenieros SecurityMobility
Compañía
Equipo
Comunicación
Big data-HADOOP
Área privada
Contacto
Glosario Big Data
El Big Data es un mundo en constante actualización. Cada vez encontramos más herramientas dedicadas a solventar la problemática del tratamiento de datos masivos por lo que es importante estar informado, y al día, de todas las aplicaciones que van surgiendo en este ecosistema tecnológico. Desde Pragsis, queremos compartir todo el conocimiento posible por lo tanto, ponemos a su disposición, un glosario con algunas de las herramientas más punteras y que están jugando un mayor papel en lo referente a Big Data. Ambari es una interfaz web que permite implementar y administrar clústers de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”. (http://incubator.apache.org/ambari/)
(http://kafka.apache.org/)
Apache Kafka (desarrollado por LinkedIn) Es un
sistema distribuido de publicación-suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo. Este tipo de datos (páginas vistas, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.
Avro es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Tiene la ventaja de ser compacto, (http://avro.apache.org/)
flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).
Bigtop es un esfuerzo para crear un proceso más formal o marco de referencia para las pruebas de paquetización e interoperabilidad de sub-proyectos Hadoop y sus componentes relacionados, con el objetivo de mejorar la plataforma Hadoop en su conjunto. (http://bigtop.apache.org/)
(http://cassandra.apache.org/)
Cassandra es una base de datos distribuida
desarrollada inicialmente por Facebook. Diseñada para manejar grandes cantidades de datos distribuidos a través de servidores commodity, tiene como características un arquitectura de tipo "key/value", el no tener ningún punto único de fallo (SPOF), un método de replicación de información basado en "gossip protocol" y la problemática "eventual consistency". (http://wiki.apache.org/hadoop/Chukwa)
Chukwa es un subproyecto dedicado a
la carga masiva de varios ficheros texto dentro de un Cluster Hadoop (ETL). Chukwa se construye bajo el sistema de archivos distribuido
(HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop. Chukwa también incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados. (http://code.google.com/p/dremel/)
Dremel es un sistema de consultas interactivo
para el análisis de datos anidados de sólo-lectura. Es una solución ad-hoc escalable, que mediante la combinación de niveles múltiples árboles de
http://bigdata-hadoop.pragsis.com/pages/2/glosario_big_data
30/05/2013
Glosario Big Data | PRAGSIS Big Data Hadoop
Página 2 de 4
ejecución y el diseño de columnas de datos, es capaz de ejecutar consultas sobre tablas de agregación de un billón de filas en segundos. El sistema escala a miles de CPUs y petabytes de datos, y cuenta con miles de usuarios en Google.
Flume es un marco para aportar datos a Hadoop. Los agentes están poblados de toda las infraestructura de TI - dentro de los servidores web, servidores de aplicaciones y dispositivos móviles, para recoger esos datos e integrarlos en Hadoop. (https://cwiki.apache.org/FLUME/home.html)
Hama es una plataforma de computación distribuida basada en técnicas computación paralela masiva para, por ejemplo cálculos científicos, matriz, gráfico y algoritmos de redes. (http://hama.apache.org/)
(http://hbase.apache.org/)
HBase es una base de datos NoSQL de baja latencia.
Se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de
Google:
BigTable.
Como
principales
características
podemos
destacar: datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas, recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma. (http://incubator.apache.org/hcatalog/)
HCatalog ofrece una capa de abstracción
de acceso a los datos. Permite a los usuarios de Hive, Pig o MapReduce acceder facilmente a cualquier fichero en HDFS sin preocuparse del formato que puede tener este fichero (sea CSV, SequenceFile, JSON etc). Se trata de un proyecto inicialmente desarrollado por Hortonworks.
HDFS (Hadoop Distributed File System), la capa de almacenamiento de Hadoop, es un (http://hadoop.apache.org/docs/hdfs/current/hdfs_design.html)
sistema de fichero distribuido escrito en java, escalable, tolerante a fallos. Aunque Hadoop pueda funcionar con varios sistemas de ficheros (sistema de ficheros locales de Linux, GlusterFS, S3 de Amazon...) HDFS se desmarca de ellos por ser totalmente compatible con MapReduce y ofrecer la optimización de "localidad de los datos", lo cual lo convierte en la solución "natural" de Hadoop. (https://ccp.cloudera.com/display/IMPALA10BETADOC/Introducing+Cloudera+Impala)
Impala es el nuevo motor de query desarrollado por Cloudera. Inspirado del software Dremel de Google, permite realizar consultas SQL muy parecidas a la sintaxis HQL de Hive, pero sin pasar por ningún proceso MapReduce. Esto le permite en varias ocasiones ser hasta 50 veces más rápido que Hive y lo transforma en la herramienta ideal para acceder a los datos en tiempo real.
Hive Hive es un sistema de almacenamiento de datos sobre Hadoop al os que añade metadata para facilitar su manejo, creando lo que se llama un almacén, desarrollado originalmente por Facebook. Permite a los usuarios escribir consultas SQL en un lenguaje denominado HiveQL, que luego se convierte en MapReduce. Esto permite a los programadores de SQL sin experiencia en MapReduce consultar los datos guardados en el almacén, y hace que sea más fácil de integrar con la parte de BI y las herramientas de visualización tales como Microstrategy, Tableau, Analytics Revolutions, etc (http://hive.apache.org/)
Hue, Hadoop User Experience es proyecto de código abierto que crea un interfaz web, el cual facilita el uso de Apache Hadoop. Cuenta con un explorador de archivos para HDFS; una aplicación para la creación de flujos de trabajo en Oozie; un diseñador de trabajo para MapReduce; una interfaz de usuario Impala; una colección de Hadoop API; y mucho más. (http://cloudera.github.com/hue/)
Mahout es una librería de algoritmos de machine learning. En ella están los algoritmos de minería de datos más populares para llevar a cabo la agrupación, pruebas de regresión y modelos estadísticos implementados usando MapReduce para que puedan ejecutarse sobre Hadoop. (http://mahout.apache.org/)
(http://hadoop.apache.org/docs/r0.20.2/mapred_tutorial.html)
MapReduce es un marco
de software que sirve como capa informática de Hadoop. Los trabajos MapReduce se dividen en dos: La función "Map" divide una consulta en múltiples partes y procesa los datos a nivel de nodo. “Reduce", como su nombre indica, reduce los agregados función de los resultados de la función "Map" para determinar la "respuesta" a la consulta.
http://bigdata-hadoop.pragsis.com/pages/2/glosario_big_data
30/05/2013
Glosario Big Data | PRAGSIS Big Data Hadoop
Página 3 de 4
MongoDB es un sistema de base de datos NoSQL orientado a documentos, es un proyecto de código abierto. Al ser de tipo documentos, las estructuras de datos se guardan en documentos con un esquema dinámico pero siguiendo la notación de JSON, estas estructuras dinámicas que son denominadas por MongoDB como BSON, lo que implica que no exista un esquema predefinido, pudiendo un documento no tener todos los campos definidos para ese documento lo que lo hace que la integración de los datos en ciertas aplicaciones sea más fácil y rápida. (http://www.mongodb.org/)
(http://www.neo4j.org/learn/neo4j)
Neo4j es una base de datos de gráficos, de
código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).
Oozie es un sistema de gestión de WorkFlows (flujos de trabajo) que permite a los usuarios definir una serie de trabajos escritos en varios lenguajes, como MapReduce, Pig y Hive, creando entre ellos un flujo de procesos (jobs) con lógica. Oozie permite a los usuarios especificar, por ejemplo, que una determinada consulta sólo debe iniciarse después de determinados trabajos previos en los que se basa para recoger datos que se han completado. (http://oozie.apache.org/)
Pentaho es una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos. Incluye herramientas integradas para generar informes, minería de datos, ETL, etc. (http://www.pentaho.com/)
Pig Latín es un lenguaje de programación de alto nivel desarrollado por Yahoo para facilitar la programación de MapReduce sobre hadoop. Es relativamente fácil de aprender(pues es muy expresivo y legible) y es eficiente frente a grandes flujos de datos. (http://pig.apache.org/)
R es un lenguaje y un entorno para computación y gráficos estadísticos. Es un proyecto GNU, que es similar al lenguaje S. R ofrece una gran variedad de estadísticas (modelos lineales y no lineales, tests estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, ...) y las técnicas gráficas. Además es altamente extensible. (http://rapache.net/)
(http://docs.basho.com/)
Riak es una base de datos NoSQL inspirada en
Dynamo, de código abierto, distribuida y que cuenta con una versión comercial. Base de datos clave-valor con algunos metadatos, sin esquema de almacenamiento, tipo de datos agnósticos, lenguaje agnóstico que soporta a través de una api REST y PBC31 varios tipos de lenguaje (Eralng, Javascript, Java, PHP, Python, Ruby...), masterless ya que todos los nodos son iguales, escalable, eventualmente consistente y utiliza map/reduce y “link”. Riak está diseñado para resolver una nueva clase de problemas de gestión de datos, específicamente los relacionados con la captura, almacenamiento y procesamiento de datos dentro de entornos TI distribuidos y modernos como la nube. Sqoop es una herramienta de conectividad para mover datos de Hadoop, tales como bases de datos relacionales y almacenes de datos. Permite a los usuarios especificar la ubicación de destino dentro de Hadoop e instruir Sqoop para mover datos de Oracle, Teradata u otras bases de datos relacionales para cumplir el objetivo (http://sqoop.apache.org/)
marcado. (http://storm-project.net/)
Storm es un sistema de computación distribuida en
tiempo real, libre y de código abierto, nacido en el seno de Twitter. Storm hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.
Voldemort es un sistema de almacenamiento distribuido basado en key-value. Se utiliza en LinkedIn para ciertos problemas de almacenamiento de alta escalabilidad donde la partición funcional simple no es suficiente. (http://www.project-voldemort.com/voldemort/)
ZooKeeper es un proyecto de software de la Apache Software Foundation, que provee un servicio de configuración (http://zookeeper.apache.org/)
http://bigdata-hadoop.pragsis.com/pages/2/glosario_big_data
30/05/2013
Glosario Big Data | PRAGSIS Big Data Hadoop
Página 4 de 4
centralizada y registro de nombres de código abierto para grandes sistemas distribuidos. ZooKeeper es un subproyecto de Hadoop.
http://bigdata-hadoop.pragsis.com/pages/2/glosario_big_data
30/05/2013
View more...
Comments