Apache Hadoop



Apache Hadoop es un software de código abierto que permite el almacenamiento y procesamiento distribuido de grandes volúmenes de datos. Fue desarrollado por el equipo de Yahoo y se ha convertido en un estándar en el campo del Big Data.

Hadoop se compone de dos componentes principales: HDFS (Hadoop Distributed File System) y MapReduce. HDFS es un sistema de archivos distribuido que permite almacenar grandes volúmenes de datos en un cluster de servidores. MapReduce es un framework de procesamiento de datos distribuido que permite analizar y procesar grandes volúmenes de datos de manera eficiente.

Hadoop es escalable, tolerante a fallos y puede manejar una gran variedad de datos, incluyendo datos estructurados y no estructurados. Es utilizado en una variedad de industrias, como la banca, la atención médica, la publicidad y el análisis de datos de negocios, para analizar grandes volúmenes de datos y obtener información valiosa para la toma de decisiones.

 

Principales componentes de Hadoop

El ecosistema de Hadoop abarca tanto los módulos principales como los submódulos relacionados:

HDFS

El "Sistema de Archivos Distribuido Hadoop" (Hadoop Distributed File System) permite almacenar grandes conjuntos de datos en diferentes nodos con una gran tolerancia a posibles fallas.

YARN

"El otro negociador de recursos" (Yet Another Resource Negotiator) permite administrar de forma eficiente los recursos del clúster, las tareas de planificación y de programación que se ejecutan en Hadoop.

MapReduce

MapReduce es un modelo de programación y un motor de procesamiento de big data diseñado para el procesamiento paralelo de grandes conjuntos de datos, es el principal motor de ejecución de Hadoop, aunque actualmente se cuenta con soporte para motores como Apache Spark y Apache Tez.

Hadoop Common

Proporciona un conjunto de bibliotecas y utilidades en que se apoyan los otros módulos de Hadoop.

Submódulos relacionados

Hay otros submódulos que permiten ampliar y mejorar la funcionalidad del núcleo de este framework. Apache Hive, Apache Pig, Apache Zookeeper y Apache Impala son los principales submódulos.

¿Cuáles son los beneficios de Hadoop?


Flexibilidad

Hadoop opera en un entorno distribuido con repositorios de almacenamiento centralizado (data lakes) que permiten guardar cualquier tipo de en diferentes formatos: estructurados, semiestructurados o no estructurados, los cuales se conservan en un formato flexible y pueden ser utilizados en el momento oportuno.

Tolerancia a fallas

Su sistema de archivos distribuidos permite que los datos almacenados en un nodo se repliquen otros nodos del clúster, lo que permite afrontar de forma efectiva y oportuna cualquier falla de hardware o software, este diseño redundante asegura una alta tolerancia a posibles fallas, ya que si un nodo deja de funcionar, los datos estarán disponibles en otro nodo.

Bajo coste

Hadoop es un software libre que emplea hardware convencional para el procesamiento y almacenaje de la información.


Publicar un comentario

Post a Comment (0)

Artículo Anterior Artículo Siguiente