Hadoop, ahora conocido como Apache Hadoop, recibió su nombre de un elefante de juguete que perteneció al hijo del cofundador Doug Cutting. Doug eligió el nombre para el proyecto de código abierto porque era fácil de deletrear, pronunciar y encontrar en los resultados de búsqueda. El elefante de peluche amarillo original que inspiró el nombre aparece en el logotipo de Hadoop.

¿Qué es Apache Hadoop?
La biblioteca de software Apache Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar de servidores únicos a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales. En lugar de depender del hardware para ofrecer alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de aplicación, por lo que brinda un servicio de alta disponibilidad en la parte superior de un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.Fuente: Apache Hadoop
En 2003, Google publicó su artículo sobre el sistema de archivos de Google (GFS). Detallaba un sistema de archivos distribuido patentado destinado a proporcionar un acceso eficiente a grandes cantidades de datos utilizando hardware básico. Un año después, Google publicó otro artículo titulado "MapReduce: procesamiento de datos simplificado en grandes clústeres". En ese momento, Doug trabajaba en Yahoo. Estos artículos fueron la inspiración para su proyecto de código abierto Apache Nutch. En 2006, los componentes del proyecto entonces conocidos como Hadoop se mudaron de Apache Nutch y se lanzaron.
¿Por qué es útil Hadoop?
Todos los días, se crean miles de millones de gigabytes de datos en una variedad de formas. Algunos ejemplos de datos creados con frecuencia son:
- Metadatos del uso del teléfono
- Registros del sitio web
- Transacciones de compra con tarjeta de crédito
- Publicaciones en redes sociales
- Videos
- Información recopilada de dispositivos médicos
"Big data" se refiere a conjuntos de datos que son demasiado grandes o complejos para procesar mediante aplicaciones de software tradicionales. Los factores que contribuyen a la complejidad de los datos son el tamaño del conjunto de datos, la velocidad de los procesadores disponibles y el formato de los datos.
En el momento de su lanzamiento, Hadoop era capaz de procesar datos a mayor escala que el software tradicional.
Core Hadoop
Los datos se almacenan en el sistema de archivos distribuido de Hadoop (HDFS). Con la reducción de mapas, Hadoop procesa los datos en fragmentos paralelos (procesando varias partes al mismo tiempo) en lugar de en una sola cola. Esto reduce el tiempo necesario para procesar grandes conjuntos de datos.
HDFS funciona almacenando archivos grandes divididos en trozos y replicándolos en muchos servidores. Tener varias copias de archivos crea redundancia, lo que protege contra la pérdida de datos.
Ecosistema Hadoop
Existen muchos otros paquetes de software para complementar Hadoop. Estos programas comprenden el ecosistema Hadoop. Algunos programas facilitan la carga de datos en el clúster de Hadoop, mientras que otros facilitan el uso de Hadoop.
El ecosistema de Hadoop incluye:
- Apache Hive
- Cerdo apache
- Apache HBase
- Apache Phoenix
- Apache Spark
- Apache ZooKeeper
- Impala de Cloudera
- Apache Flume
- Apache Sqoop
- Apache Oozie
Más información:
- Apache Hadoop