Apache
Hadoop es un software de código abierto que permite el almacenamiento y
procesamiento distribuido de grandes volúmenes de datos. Fue desarrollado por
el equipo de Yahoo y se ha convertido en un estándar en el campo del Big Data.
Hadoop
se compone de dos componentes principales: HDFS (Hadoop Distributed File
System) y MapReduce. HDFS es un sistema de archivos distribuido que permite
almacenar grandes volúmenes de datos en un cluster de servidores. MapReduce es
un framework de procesamiento de datos distribuido que permite analizar y
procesar grandes volúmenes de datos de manera eficiente.
Hadoop
es escalable, tolerante a fallos y puede manejar una gran variedad de datos,
incluyendo datos estructurados y no estructurados. Es utilizado en una variedad
de industrias, como la banca, la atención médica, la publicidad y el análisis
de datos de negocios, para analizar grandes volúmenes de datos y obtener
información valiosa para la toma de decisiones.
Principales
componentes de Hadoop
El
ecosistema de Hadoop abarca tanto los módulos principales como los submódulos
relacionados:
HDFS
El
"Sistema de Archivos Distribuido Hadoop" (Hadoop Distributed File
System) permite almacenar grandes conjuntos de datos en
diferentes nodos con una gran tolerancia a posibles fallas.
YARN
"El
otro negociador de recursos" (Yet Another Resource Negotiator)
permite administrar de forma eficiente los recursos
del clúster, las tareas de planificación y de programación que se ejecutan
en Hadoop.
MapReduce
MapReduce
es un modelo de programación y un motor de procesamiento de big data diseñado
para el procesamiento paralelo de grandes conjuntos de datos, es el
principal motor de ejecución de Hadoop, aunque actualmente se cuenta con
soporte para motores como Apache Spark y Apache Tez.
Hadoop
Common
Proporciona
un conjunto de bibliotecas y utilidades en que se apoyan los
otros módulos de Hadoop.
Submódulos
relacionados
Hay
otros submódulos que permiten ampliar y mejorar la funcionalidad del núcleo de
este framework. Apache Hive, Apache Pig, Apache Zookeeper y Apache Impala son
los principales submódulos.
¿Cuáles son los beneficios de
Hadoop?
Flexibilidad
Hadoop opera en un entorno
distribuido con repositorios de almacenamiento centralizado (data
lakes) que permiten guardar cualquier tipo de en diferentes formatos:
estructurados, semiestructurados o no estructurados, los cuales se
conservan en un formato flexible y pueden ser utilizados en el momento
oportuno.
Tolerancia a fallas
Su sistema de archivos
distribuidos permite que los datos almacenados en un nodo se repliquen
otros nodos del clúster, lo que permite afrontar de forma efectiva y
oportuna cualquier falla de hardware o software, este diseño redundante asegura
una alta tolerancia a posibles fallas, ya que si un nodo deja de funcionar, los
datos estarán disponibles en otro nodo.
Bajo coste
Hadoop es un software
libre que emplea hardware convencional para el procesamiento y
almacenaje de la información.
Publicar un comentario