ビッグデータを処理するツール – Hadoop

私たちの中で 以前のブログ ビッグデータを処理および整理するプラットフォームは  ハドゥープ。ここでは、ビッグ データを構造化するためのコア プラットフォームであり、分析目的での利用の問題を解決する Hadoop について詳しく学びます。これは、汎用ハードウェアのクラスター上でビッグ データを分散ストレージおよび分散処理するためのオープン ソース ソフトウェア フレームワークです。

Hadoop の主な特徴:

  • 高いスケーラビリティ (スケールアウト)
  • コモディティハードウェアベース
  • オープンソース、低い取得コストと保管コスト

Hadoop は基本的に次の 2 つの部分に分かれています。 HDFS そして マップリデュース フレームワーク。 Hadoop クラスターは、大量の非構造化データを保存および分析するために特別に設計されています。ワークロードは、データを並行して処理する複数のクラスター ノードに分散されます。

Hadoopの歴史

ダグ・カッティング Hadoop の背後にある頭脳であり、その起源は アパッチ そして ナッチ。 Nutch は 2002 年に開始され、それ自体はオープンソースの Web 検索エンジンです。 Google は、Mapreduce を世界に紹介する論文を公開しました。 2005 年初頭、Nutch 開発者は Nutch に Mapreduce を実装して機能していました。 2006 年 2 月に、Hadoop は Nutch によって独立したプロジェクトとして設立されました。 2008 年 1 月に、Hadoop は Apache で独自のトップレベル プロジェクトを作成し、この時までに Yahoo や Facebook などの大手企業が Hadoop を使い始めました。

HDFS は Hadoop の最初の側面であり、Mapreduce は 2 番目の側面です。 HDFS には、データの処理と整理に役立つアーキテクチャがあります。 HDFS、そのアーキテクチャ、機能、その他のいくつかの概念の詳細については、数日以内に公開されるブログに注目してください。

 ご連絡ください。

マナサ・ヘゲレ

Ruby on Rails シニア開発者

最新のアップデートを購読する

関連記事

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

jaJapanese