by shigemk2

当面は技術的なことしか書かない

2016-07-14から1日間の記事一覧

メモ The Real of Treasure Data Engineering Team #tdtech

シリコンバレーの会社で6割がた日本人 どういうふうにチームを回しているのか VP of engineering vs CTO CTOはスーパーマン?? コードをかけて、マネジメントできて、最新の情報にキャッチして… ってそんなことはない。 エンジニアのマネジメントとしてのVP o…

メモ PlazmaDB/PlazmaGC #tdtech

PlazmaDBの各種ゴミ集め PlazmaDBについては良い資料があるので詳細はそちらをみる MessagePack 分析用DB インデックスは時間軸 トランザクション 暗号化サポート 時間軸のメタデータ データの中身はS3 or RiackCS PlazmaDB 1秒間に110万行のimport 310Kのデ…

メモ Treasure Dataを支える人々 #tdtech

技術的な話が多いので人にフォーカスしたはなしを 分散系とかPrestoとかを担当 TDエンジニアの一日 朝が早くない 出社時間はまちまちだけど、slackとかあるので、そんなに苦ではない ソースコードはGitHub→ステータスの管理はJIRA(GitHubのIssueは使いづらい…

memo 3 Months Into Treasure Data #tdtech

日本語でセッション… TDに入る前 spotifyで働いていて、バックエンドの開発をやっていた dockerとかインフラとか CSの中でいちばん興味のあるのは分散システムとかパフォーマンスのところ なんでTD cloud is eating the world 2011時点のspotifyのインフラは…

メモ バルクロードの信頼性を上げるための戦い #tdtech

Embulkとは Embulkのプラグインの話 TDでEmbulkをつかう話 OSSとして出しているプラグラブルなバルクロードツール Fluentdのバッチ版と言われる TDはOSSと一緒のバージョンを使っている cavのgzipをMySQLにアップロードする、といった用途とか GUIも使える I…

メモ PerfectQueueはいかにパーフェクトか、あるいはRubyとMySQLでジョブキューを作る試みについて #tdtech

PerfectQueue パーフェクトな分散キュー worker scheduler consoleapiのやりとりで分散キュー ジョブキューとは first in frist out At-least-once semantics 最大1回実行 ジョブキューにRDBMSを使うべきか 使うべきなのでは At-most-once queueのテーブル構…

メモ なぜDigdagのワークフロー定義はYAMLなのか #tdtech

Diddag = ワークフローオートメーションシステム 複数のタスクを管理するためのシステム あらゆる手作業の自動化 バッチデータ解析の自動化 ジョインジョイン→メール送信などを手作業ではなく自動化 メールアドレス一覧の取得、対象の絞り込み→テンプレート…