En nuestra blog anterior aprendimos que la plataforma que procesa y organiza Big Data es Hadoop. Aquí aprenderemos más sobre Hadoop, que es una plataforma central para estructurar Big Data y resolver los problemas de su utilización con fines analíticos. Se trata de un marco de software de código abierto para el almacenamiento distribuido y el procesamiento distribuido de Big Data en clústeres de hardware básico.
Principales características de Hadoop:
- Altamente escalable (scaled out)
- Basado en hardware básico
- Fuente abierta, bajos costes de adquisición y almacenamiento
Hadoop se divide básicamente en dos partes, a saber : HDFS y Mapreduce framework. Un clúster Hadoop está especialmente diseñado para almacenar y analizar enormes cantidades de datos no estructurados. La carga de trabajo se distribuye entre varios nodos del clúster que procesan los datos en paralelo.
Historia de Hadoop
Doug Cutting es el cerebro de Hadoop, que tiene su origen en Apache y Nutch. Nutch se creó en 2002 y es un motor de búsqueda web de código abierto. Google publicó el documento que introdujo Mapreduce en el mundo. A principios de 2005, los desarrolladores de Nutch ya disponían de una implementación de Mapreduce en Nutch. En febrero de 2006 Hadoop se constituyó como proyecto independiente de Nutch. En enero de 2008, Hadoop se convirtió en su propio proyecto de alto nivel en Apache y, en ese momento, importantes empresas como Yahoo y Facebook comenzaron a utilizar Hadoop.
HDFS es el primer aspecto y Mapreduce es el aspecto secundario de Hadoop. HDFS tiene una arquitectura que le ayuda a procesar los datos y organizarlos. Para entrar en detalles de HDFS, su arquitectura, funcionamiento y varios otros conceptos, mantener un ojo en los blogs que se publicarán en los próximos días.
Póngase en contacto con nosotros.
Manasa Heggere
Desarrollador senior Ruby on Rails