メモ Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点 #jjug_ccc

前提

JJUGのみなさまならばJava8 Stream APIは知っているだろう
Java8 StreamAPIとApache SparkとAsakusa FrameworkのコーディングはDAGの点から似ている
Asakusa Frameworkの紹介

自己紹介

Scalaですっごいお世話になっています

年表

2006 Apache Hadoop
2010 Hadoopを知る
2010 Spark OSS化
2011/3 Asakusa Framework公開
2014/2 Apache Sparkトップレベル昇格
2014/3 Java8リリース
バッチ処理を早くしたいという同期
2,3倍の速度なんて無理だろうと思っていたらHadoopで簡単にできるよ！ってなったので勉強しはじめた
勉強会も超人気
なるべく早くHadoopの情報を知りたいという理由からTwitterを始める
~~SparkをScalaをごにょごにょしている人がいたのでScalaも勉強しはじめる~~ Hadoop（HBase）のサンプルをScalaで書いている人がいたのでScalaの勉強を始めました。そして、Scalaで出来た分散フレームワークということでSparkを知りました。
Hadoopを勉強しているうちにAsakusa Frameworkなどを知る
Asakusa Frameworkをやっていたら転職できる！

StreamAPI Spark AsakusaFW

省略！したいと思った
内部イテレーターで処理を行うためのAPI

Hadoopについて

分散処理フレームワーク
HDFS(分散ファイルシステム)
MapReduce(処理方式アルゴリズム)
YARN(リソース管理)
データを複数のマシンに分散配置
MapReduceアプリケーション(jarファイル)を各マシンに転送して分散処理

従来だと

RDBにデータを置きバッチサーバを経由して転送する(分散の意味があまりない)
(補足) バッチサーバーを分散してもDBが分散しないとDBに負荷が集中して意味がないということ。(DBを分散させるということでNoSQLが流行りました)

Hadoopバッチ

Hadoopクラスターがあって、データとアプリケーションが分散配置されている(アプリケーション数百メガバイトのjarファイルもデータのあるサーバに転送する)
(補足)何GB・何TBのデータを転送するよりは、大きくても数百MBのjarファイルを転送する方が転送量が少ない、ということです。

自分が思うHadoopの功績

ビッグデータはバズワード化したが、Hadoopは分散処理を身近にした
MapReduceはシンプルだがアセンブラでコーディングするというイメージなので、コーディングしづらい
常にファイルを読み書きするシンプルな構成なのでメモリにデータをキャッシュして使い回すみたいなことはできない(機械学習はそういうことをしたいらしい)

→という問題点があったので、Apache Sparkが出てきた

Apache Spark

RDDを使ったコーディング(Scala)
インメモリでキャッシュして使いまわせる
分散ファイル入出力にはHDFSを利用

Asakusa FW

分散処理するバッチアプリケーションを作成するためのフレームワーク
実行基盤としてHadoopやSparkを使える
ノーチラステクノロジーズが開発

類似点

Java8 Stream API
メソッド参照

これをDAGで表現する

グラフ理論

https://ja.wikipedia.org/wiki/%E6%9C%89%E5%90%91%E9%9D%9E%E5%B7%A1%E5%9B%9E%E3%82%B0%E3%83%A9%E3%83%95

向きがある
閉路(循環)がない

といったフローのことを指す

Java8 Stream API

向きがあって循環のない流れ
s0 filter map out1

cf. Scala

filterしてmapして…

ScalaのStreamもJava8 Stream APIと変わらない

Apache Spark

DAGなのは変わらない
RDDが使われている
s0 filter map out1

Asakusa FW

フローというところでDAGなのは変わらない
入出力はファイル
s0 Branch(f) Update(m) out1
inputがsourceで現れる
StreamAPIとかSparkなどと比較しても、DAGを使っているという点ではAsakusaFWと一緒
コンパイルするとMyOperatorFactoryが生成されるアノテーションとしてBranchとかUpdateとかが生成される
- (補足)BranchやUpdateのアノテーションをOperatorのメソッドに指定すると、それに応じたフロー用のメソッドを持つFactoryクラスが生成されます。

類似点まとめ

処理がDAG(有向非循環グラフ)で表せる！

相違点

複数入力

合流(union)
結合(join)
zip
- unionやjoinはSQLとイメージはいっしょ

合流 union

Stream API concat
Spark ++を使う(Scalaは記号をメソッドとして使える)
AsakusaFW confluent(可変長引数ではないがある程度の数の引数なら面倒見れる)

結合 join 一対一

Stream API ない
Spark join
AsakusaFW masterJoin(join)
- (補足)多対一です。（少なくともAsakusaFWは）
マッチしないものは結合しない

結合 cogroup 多対多

Stream API ない
Spark cogroup
AsakusaFW CoGroup(group)

複数入力 zip

順番でレコードのKeyValueをくっつける
Stream API ない
Spark zip
AsakusaFW ない
結構難しい実装なので、多用は禁物

複製 duplicate

Stream API ない
Spark map
AsakusaFW m1 m2

分岐 branch

複数出力
Stream API ない
Spark ない
AsakusaFW branch

根本的な相違点使用目的

Stream API 内部イテレーターのためワンライナーで書きやすい
Scalaのコレクション Scalaの書き方で、並列Streamでマルチスレッド処理が可能
Spark 複数マシンで分散する処理を書けるマルチプロセス
AsakusaFW バッチアプリケーションを書く。テスト機構あり
マルチスレッド複数マシン分散扱うデータ量の違い
マルチスレッド処理といっても、数十万件といったデータでないとメリットがない
数千万数億とかだと、データ自体を分散し、それぞれ処理するほうが効率が良い Hadoop Spark(自分で頑張るよりは…)
- (補足)「自分で頑張るよりは」は、Stream APIでもファイル読み込み部分を自分で分散読み込みさせれば出来るけれども、そこを自分で頑張るよりは既にあるHadoopやSparkを使った方がいいんじゃないか、ということです。

Asakusa Frameworkの目的

分散処理するバッチアプリケーションを作成するためのフレームワーク
- 当初はHadoopが実行基盤
- 少量データの場合はオーバーヘッドが大きい
- マシンVMを立ち上げるので、普通のバッチであれば数秒で終わるのが、逆に時間がかかる
- 解決策としてのスモールジョブ実行エンジンを実装
  - 単体テストの実行環境としても使える
- 最新版では実行基盤としてSparkを使用可能
Asakusa Frameworkで作ったアプリケーションはコンパイルしてjarファイルを生成
- Spark版実行バイナリはアプリケーションをリコンパイルするだけ！
  - Javaなどもバージョンが変わってもコンパイルするだけでいいので、結構似ている
- Hadoop Spark以外も採用される可能性がある？
バッチの実行時間
- Hadoop(180個のジョブを45-50分)
- Hadoop + スモールジョブ実行エンジン(180個のジョブを10-15分)
- Spark(180個のジョブを3-4分)
  - 超速い Sparkは効率が良いらしい
  - Hadoopだと開いているタスクができるらしい
やっぱりDAGでフローを書ける
- 関数合成で最適化
分散処理するバッチアプリケーションを作成するためのフレームワーク(再掲)
- そもそも分散処理が必要
- Sparkでも小さなデータが扱えるようになる。
- joinが必要な場合はAsakusaFWとか使えば良いと思われる

余談ハードウェアとソフトウェアの関係

ハードウェアが変わればそれに最適なソフトウェアも変わる
- HadoopはHDDを念頭においた作りになっている
- 大きなサイズのブロックアクセスに弱い(HDDはランダムアクセスに弱い)
  - HDDはある程度大きなサイズのブロックの（シーケンシャルな）読み込みの方が効率が良く、ランダムアクセスは効率が悪いです。

ランダムアクセス - Wikipedia

余談ハードウェアの技術動向

ディスク HDD SSD
CPU クロック数は頭打ちメニーコア化 100コア超高性能になるともしかしたらディスクもいらなくなるのでは？
メモリー不揮発性メモリー(電源を切ってもメモリのデータが消えない) フラッシュメモリー MRAMなど
- DBの人はこれに注目してて、DBのログをハードディスクに書き込むなどしているが、メモリが不揮発性になるとこれが要らなくなるのでは

余談メニーコアに対する今後の予想

Java8 Stream API
- parallel()を使えばいい(ソース修正が必要)
Apache Spark
- executorはSpark管理下なので、実行環境の指定を変えるだけでいいかも
Asakusa Framework
- リコンパイルするだけで対応できると思われる(現在開発中)

まとめ

DAGを使ってコーディングしているという点では似ている
- Asakusa FWは難しいという声を聞くが、考え方はStream APIと同じ
使用目的(扱うデータ量実行基盤)の違い
- Asakusa FWはリコンパイルするだけで実行基盤を切り替えられる(実装を変える必要がないので、メンテナンスがすごく楽)

質疑

AsakusaFW 設計思想的に例外で落ちることはなく、落ちる場合はバグってる
時系列集計など、やりにくい処理はある？ range joinみたいな仕組みがあるので、ちょっとコーディングしたらできる

by shigemk2

当面は技術的なことしか書かない

メモ Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点 #jjug_ccc

前提

自己紹介

年表

StreamAPI Spark AsakusaFW

Hadoopについて

従来だと

Hadoopバッチ

自分が思うHadoopの功績

Apache Spark

Asakusa FW

類似点

Java8 Stream API

cf. Scala

Apache Spark

Asakusa FW

類似点まとめ

相違点

複数入力

合流 union

結合 join 一対一

結合 cogroup 多対多

複数入力 zip

複製 duplicate

分岐 branch

根本的な相違点使用目的

Asakusa Frameworkの目的

余談ハードウェアとソフトウェアの関係

余談ハードウェアの技術動向

余談メニーコアに対する今後の予想

まとめ

質疑

前提

自己紹介

年表

StreamAPI Spark AsakusaFW

Hadoopについて

従来だと

Hadoopバッチ

自分が思うHadoopの功績

Apache Spark

Asakusa FW

類似点

Java8 Stream API

cf. Scala

Apache Spark

Asakusa FW

類似点まとめ

相違点

複数入力

合流 union

結合 join 一対一

結合 cogroup 多対多

複数入力 zip

複製 duplicate

分岐 branch

根本的な相違点 使用目的

Asakusa Frameworkの目的

余談 ハードウェアとソフトウェアの関係

余談 ハードウェアの技術動向

余談 メニーコアに対する今後の予想

まとめ

質疑

根本的な相違点使用目的

余談ハードウェアとソフトウェアの関係

余談ハードウェアの技術動向

余談メニーコアに対する今後の予想