In unserem vorheriger Blog haben wir gelernt, dass die Plattform zur Verarbeitung und Organisation von Big Data Hadoop. Hier erfahren wir mehr über Hadoop, eine zentrale Plattform zur Strukturierung von Big Data und zur Lösung von Problemen bei der Nutzung dieser Daten für Analysezwecke. Es handelt sich um ein Open-Source-Software-Framework für die verteilte Speicherung und Verarbeitung von Big Data auf Clustern von Standard-Hardware.
Hauptmerkmale von Hadoop:
- Hochgradig skalierbar (ausbaubar)
- Basierend auf Standard-Hardware
- Open Source, geringe Anschaffungs- und Lagerkosten
Hadoop ist grundsätzlich in zwei Teile unterteilt, nämlich : HDFS Und Mapreduce Rahmen. Ein Hadoop-Cluster ist speziell für die Speicherung und Analyse großer Mengen unstrukturierter Daten konzipiert. Die Arbeitslast wird auf mehrere Clusterknoten verteilt, die die Daten parallel verarbeiten.
Geschichte von Hadoop
Doug Cutting ist der Kopf hinter Hadoop, das seinen Ursprung in Apache Und Niederländisch. Nutch wurde 2002 ins Leben gerufen und ist selbst eine Open-Source-Web-Suchmaschine. Google veröffentlichte das Papier, das Mapreduce in der Welt einführte. Anfang 2005 hatten die Nutch-Entwickler eine funktionierende Mapreduce-Implementierung in Nutch. Im Februar 2006 wurde Hadoop als unabhängiges Projekt von Nutch gegründet. Im Januar 2008 wurde Hadoop zu einem eigenen Projekt auf höchster Ebene bei Apache und zu diesem Zeitpunkt begannen große Unternehmen wie Yahoo und Facebook mit der Nutzung von Hadoop.
HDFS ist der erste Aspekt und Mapreduce ist der zweite Aspekt von Hadoop. HDFS hat eine Architektur, die bei der Verarbeitung und Organisation der Daten hilft. Um Einzelheiten über HDFS, seine Architektur, Funktionsweise und verschiedene andere Konzepte zu erfahren, sollten Sie die Blogs im Auge behalten, die in den kommenden Tagen veröffentlicht werden.
Nehmen Sie Kontakt mit uns auf.
Manasa Heggere
Leitender Ruby on Rails-Entwickler