by shigemk2

当面は技術的なことしか書かない

次期バージョンのCDH5はどうなる? #at_tokuben

f:id:shigemk2:20140123202030j:plain

Clouderaの人でHadoopの翻訳も。

アジェンダ

  • CDHの歴史
  • CDH5

CDHの歴史

  • Hadoopとは分散ストレージ+分散処理のこと。
  • レプリケーションが容易。
  • 分散コンピューティングフレームワーク
  • エンタープライズ向けに開発されたビッグデータプラットフォーム
  • CDHアーキテクチャ

その歴史

  • 2009 CDH1
  • 2009 CDH2 (Hadoop Hive Pigのみの簡素なディストリビューション)
  • 2011 CDH3(セキュリティ機能追加 分散データストア HBase なりすまし防御)
  • 2012 CDH4(高可用性を追加 各コンポーネントのバージョンアップ)
  • 2013 CDH5(YARN完全対応、HDFSのスナップショット、NFS対応、高速化)

HDFS

  • Hadoopの分散ファイルシステム
  • 大量のデータを多数のノードに分散して保存する
  • ショートサーキットリード

HDFSスナップショット

  • 指定したディレクトリのスナップショットをとることが出来て、いつでも復元可能。
  • マメにバックアップを撮ることが出来る。

HBase

  • HDFS上で動作する分散データストア
  • HDFSが苦手とする低レイテンシのアクセスや小さいファイルの操作を得意とする
  • HBaseスナップショット
  • 復旧時間がかなり短くなった

YARN

  • YetAnotherResourseNegotiator
  • リソース管理
  • ジョブスケジューリングと監視

Search例

  • メール検索
  • Twitter検索

Spark

Scala製の分散処理フレームワーク

CDH5

  • さらに高速のHDFS
  • MapReduceだけではない様々な分散処理エンジン
  • 分散システムのリソース管理基盤

ビッグデータ基盤を選ぶならCDH5

MR2とYARNの手短な解説 | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan