読者です 読者をやめる 読者になる 読者になる

by shigemk2

当面は技術的なことしか書かない

メモ PlazmaDB/PlazmaGC #tdtech

勉強会 Treasure Data
  • PlazmaDBの各種ゴミ集め
  • PlazmaDBについては良い資料があるので詳細はそちらをみる
    • MessagePack
    • 分析用DB
      • インデックスは時間軸
    • トランザクション
    • 暗号化サポート
    • 時間軸のメタデータ
    • データの中身はS3 or RiackCS
  • PlazmaDB
    • 1秒間に110万行のimport
    • 310Kのデータセット
    • 23兆のレコード
    • メタデータへのアクセス 700 tps
    • メタデータ 300GB

PlazmaGC

  • Storage Usages
  • Bulk Import
  • Query
  • Insret into / overwrite

  • Streaming import→realtime files→partition files→deleted partitions→deleted

    • いらないデータは削除用キューへ移動させてクリーナーがデータを消去する
    • realtime files 1時間ごとにマニュアルでタイムスタンプ付きのテーブルを作っている
    • 古いテーブルを少しずつ消していかないといけない
    • メタデータはPostgresSQLを使っている オートバキュームが間に合わないとストレージの使用量が減らない問題
    • 古いインデックスと新しいインデックスのスワップ
    • インデックスの作りなおしに8時間ほどかかるのでDBのおもりのするのはしんどい
  • Query
    • realtime iflesからpartition filesへの移動に伴い、細かいパーティションが多くなる
    • partitionの作り直しで対策
    • 効率的にデータを削除するためにデーモンやマニュアルオペレーションをやっている

イット [DVD]

イット [DVD]