by shigemk2

当面は技術的なことしか書かない

メモ Embulkの歴史、過去・現在、これから #shinjukugl

メモ Embulkの歴史、過去・現在、これから #shinjukugl

embulkとは

  • embulk fluentdのバッチ
  • プラグインアーキテクチャ JRuby/Java/Scala/Kotlin
  • 並列処理 並行処理
  • guess
  • リトライ レジューム
  • yamlベース

-2015

  • プラグインの数はfluentdよりは少ない
  • 組み込みプラグイン覚書
  • コマンドヘルプ

  • さまざまな人々の貢献

    • sakamaさん
      • BQ用プラグイン BQにデータをアップロードできる
      • 組み込みCSVフォーマッターの修正
    • hito4_tさん
      • JDBCまわりの大幅な回収
      • Oracle/SQLServerまわり
    • civitaspoさん
      • JSONまわりのプラグインを作成
    • sonotsさん
      • embulk後の定番フィルターを作成
    • その頃embulk-parser-apache-logとか作っていた
  • イベント開催
    • embulk meetup tokyo
    • RubyBiz 第1回グランプリ受賞
  • 要望
    • 設定ファイル共有化: Liquid(環境変数読み込みが可能に)
    • Array/Hash対応

-2016

  • ワークフローエンジン digdag(2016/2)
    • YAMLライクなDSL
    • digdag-plugin-ssh
    • digdag-plugin-mysql
  • その頃
    • embulk-filter-null_string
    • embulk-filter-calc
    • etc
  • WebDBとかでの紹介
    • Excelプラグインが脚光を浴びる

改善

  • 複雑なブートストラップの改善とか
  • 速度改善
    • JRubyおそい→Java
    • Timestamp遅い問題、0.8.27で修正済み
  • 島田さん
    • EMRを使ったデータ作成

これから

  • Java8
  • バイナリタイプサポート
  • Pure Java Plugin
  • reporter plugin
    • ロードした件数がわかるように
  • データ分析基盤構築入門

データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化]

データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化]

  • 作者: 鈴木健太,吉田健太郎,大谷純,道井俊介
  • 出版社/メーカー: 技術評論社
  • 発売日: 2017/09/21
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る