メモ Embulkの歴史、過去・現在、これから #shinjukugl
embulkとは
- embulk fluentdのバッチ
- プラグインアーキテクチャ JRuby/Java/Scala/Kotlin
- 並列処理 並行処理
- guess
- リトライ レジューム
- yamlベース
-2015
- プラグインの数はfluentdよりは少ない
- 初期はcsvパースとかvim出力とか
- Qiitaのembulkのまとめ(2015/2/16)
- http://www.embulk.org/plugins/
- 組み込みプラグイン覚書
コマンドヘルプ
さまざまな人々の貢献
- sakamaさん
- BQ用プラグイン BQにデータをアップロードできる
- 組み込みCSVフォーマッターの修正
- hito4_tさん
- JDBCまわりの大幅な回収
- Oracle/SQLServerまわり
- civitaspoさん
- JSONまわりのプラグインを作成
- sonotsさん
- embulk後の定番フィルターを作成
- その頃embulk-parser-apache-logとか作っていた
- sakamaさん
- イベント開催
- embulk meetup tokyo
- RubyBiz 第1回グランプリ受賞
- 要望
- 設定ファイル共有化: Liquid(環境変数読み込みが可能に)
- Array/Hash対応
-2016
- ワークフローエンジン digdag(2016/2)
- YAMLライクなDSL
- digdag-plugin-ssh
- digdag-plugin-mysql
- その頃
- embulk-filter-null_string
- embulk-filter-calc
- etc
- WebDBとかでの紹介
- Excelプラグインが脚光を浴びる
改善
- 複雑なブートストラップの改善とか
- 速度改善
- JRubyおそい→Java
- Timestamp遅い問題、0.8.27で修正済み
- 島田さん
- EMRを使ったデータ作成
これから
- Java8
- バイナリタイプサポート
- Pure Java Plugin
- reporter plugin
- ロードした件数がわかるように
- データ分析基盤構築入門
![データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化] データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化]](https://images-fe.ssl-images-amazon.com/images/I/51DaJ8XniUL._SL160_.jpg)
データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化]
- 作者: 鈴木健太,吉田健太郎,大谷純,道井俊介
- 出版社/メーカー: 技術評論社
- 発売日: 2017/09/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る