Hadoop es una estructura de software de código abierto que se utiliza para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para todo tipo de datos, además de poseer un gran poder de procesamiento. También tiene la capacidad de procesar tareas o trabajos concurrentes virtualmente de manera casi ilimitada.
Otra característica importante es su gran tolerancia a fallos pues el procesamiento de datos y aplicaciones se encuentra protegido contra fallos del hardware. Si falla un nodo, los trabajos se redirigen automáticamente a otros nodos ya que se trata de un procesamiento distribuido y todos los datos se almacenan automáticamente en múltiples copias.
Cuando surgió Internet y la cantidad de información en la red fue creciendo, se hizo patente la necesidad de crear buscadores automatizados que brindaran un acceso rápido a esos datos. Uno de esos proyectos fue Nutch, una idea de Doug Cutting y Mike Cafarella, quienes querían generar resultados de búsquedas en la web a mayor velocidad distribuyendo datos y cálculos en diferentes computadoras para que pudieran procesar múltiples tareas simultáneamente.
En 2006, Cutting se unió a Yahoo con el proyecto Nutch, el cual se dividió en el motor de búsqueda y la parte de cómputo y procesamiento distribuido, que se convirtió en Hadoop. En 2008, Yahoo presentó Hadoop como un proyecto de código abierto y en la actualidad Apache Software Foundation es quien gestiona y mantiene su estructura y ecosistema de tecnologías. Su potencial de almacenamiento, la alta disponibilidad y el poder de procesamiento a bajo costo han hecho que cada vez más organizaciones utilicen Hadoop, por lo que podría ser la próxima plataforma de Big Data. Para cualquiera que esté interesado en estudiar un máster en Data Science o un máster en Big Data, entender lo que plataformas como Hadoop nos ofrecen, puede ser muy interesante y útil.