私たちの中で 以前のブログ ビッグデータを処理および整理するプラットフォームは ハドゥープ。ここでは、ビッグ データを構造化するためのコア プラットフォームであり、分析目的での利用の問題を解決する Hadoop について詳しく学びます。これは、汎用ハードウェアのクラスター上でビッグ データを分散ストレージおよび分散処理するためのオープン ソース ソフトウェア フレームワークです。
Hadoop の主な特徴:
- 高いスケーラビリティ (スケールアウト)
- コモディティハードウェアベース
- オープンソース、低い取得コストと保管コスト
Hadoop は基本的に次の 2 つの部分に分かれています。 HDFS そして マップリデュース フレームワーク。 Hadoop クラスターは、大量の非構造化データを保存および分析するために特別に設計されています。ワークロードは、データを並行して処理する複数のクラスター ノードに分散されます。
Hadoopの歴史
ダグ・カッティング Hadoop の背後にある頭脳であり、その起源は アパッチ そして ナッチ。 Nutch は 2002 年に開始され、それ自体はオープンソースの Web 検索エンジンです。 Google は、Mapreduce を世界に紹介する論文を公開しました。 2005 年初頭、Nutch 開発者は Nutch に Mapreduce を実装して機能していました。 2006 年 2 月に、Hadoop は Nutch によって独立したプロジェクトとして設立されました。 2008 年 1 月に、Hadoop は Apache で独自のトップレベル プロジェクトを作成し、この時までに Yahoo や Facebook などの大手企業が Hadoop を使い始めました。
HDFS は Hadoop の最初の側面であり、Mapreduce は 2 番目の側面です。 HDFS には、データの処理と整理に役立つアーキテクチャがあります。 HDFS、そのアーキテクチャ、機能、その他のいくつかの概念の詳細については、数日以内に公開されるブログに注目してください。
マナサ・ヘゲレ
Ruby on Rails シニア開発者