by shigemk2

当面は技術的なことしか書かない

memo Presto - 僕とヤフーと時々Teradata #prestodb

yahoo

  • multi big data company
    • hadoop
    • rdb
    • nosql
    • object storage
  • さまざまなストレージにあるデータをインタラクティブに分析→presto
  • 広告入稿システム システムサマリー
    • NFSを退役
    • Goでヤフーの分散オブジェクトストレージを作った話
    • EOSL問題
    • ファイルフォーマットをカラムナへ ORC ファイルサイズが劇的に減少
  • presto使ってモダン化
    • redash
    • fluentd
    • kafka
    • orc
    • presto
    • hive
    • object storage
  • レポート出力時間の大幅短縮
  • ORCファイルの変換が手間なのがつらい
    • Javaに慣れてないとつらい
    • PrestoのINSERTでORCファイルを生成できるがPrestoのリソースをselectに集中させたい
  • coordinatorが冗長化出来ない
  • 1クラスターに2台以上coordinatorが登録できない
  • ダウンタイムゼロ運用は厳しい
  • NWの設計は非常に大事

周辺ツール OSS紹介

  • presto-audit
    • 再起動でクエリログが消えないようにする
    • system connectorでクエリ履歴を取得
    • githubで近日公開予定
  • presto-admin
    • fabricぽいやつ

presto

  • 利用方法を間違えなければよいプロダクト
  • 運用方法は考えないといけない
  • 導入は簡単