Treasure Data
get api keys on TD コマンドでログインしているのが前提だけど。 $ td apikey:show YOUR_API_KEY_WILL_BE_HERE
よんでもあんまり理解できなかった tom-rc.hatenablog.com
バージョンのところ以外修正がない Release v0.9.9 · treasure-data/digdag · GitHub
emr>: Amazon Elastic Map Reduce — Digdag 0.9.5 documentation typeのところから一部抜粋。spark/hive/script/commandが使えると思う - type: hive script: queries/hive-query.q vars: INPUT: s3://my-bucket/data/ OUTPUT: s3://my-bucket/output/ hivec…
機能開発側のはなし システムアーキテクチャのはなし いまどんなところに注力しているか 信頼性確保 アーキ (API server w/ RoR) * 4 w/ load balancer MySQL(JobQueue)/S3/RiakCS/MySQL(AccountDB) Worker(Ruby+Java) YARN Cluster(Hive/HDFS) / Presto Clu…
ActiveRecord issues #tdtech kamipo activerecordについての話 rails issues team http://blog.steveklabnik.com/posts/2012-07-05-how-can-i-contribute-to-ruby-on-rails- Railsに2016年一番コミットした人なので、お前勝手にやれって言われた Rails 5.0→…
Presto In TD TD API BI Tool HTTP から、クエリを投げる。 prestobase proxy node schedular(presto) resource group Prestobase proxy JDBC/ODBCはいけていない リプレイスするためのPrestobase Proxy HTTP接続するときにPrestoが使える Scalaで書かれてい…
digdag github.com (途中参加) ワークフローエンジン Aをやって、Bをやって、でもBが失敗したらCをやる、というのを、コードを書かないで制御する サーバー どこの環境でも動くこと ワークフローが手元でも動く ステップを足す→ローカルで実行する サーバー…
workflowの実行リミットを1000回(デフォルト)に設定出来るようにするPRらしい github.com
digdag sessionsでstatusがerrorのやつだけを抜き出したかったのだけれど、そういうオプションは今はないらしい。 Command reference — Digdag 0.8 documentation
リリースノート的なのはなかった。 Release v0.14.9 · fluent/fluentd · GitHub と思ったらここにあった。 Fluentd v0.14.9 has been released | Fluentd
時間指定すること。 blog-jp.treasuredata.com
など。 td job:list -R NUM qiita.com
boolean TD_TIME_RANGE(int/long unix_timestamp, int/long/string start_time, int/long/string end_time [, string default_timezone = 'UTC']) startとendを指定できる。しかも文字列も可能だから、"2016-08-31 12:00"みたいな書き方も可能。 そしてドキ…
シリコンバレーの会社で6割がた日本人 どういうふうにチームを回しているのか VP of engineering vs CTO CTOはスーパーマン?? コードをかけて、マネジメントできて、最新の情報にキャッチして… ってそんなことはない。 エンジニアのマネジメントとしてのVP o…
PlazmaDBの各種ゴミ集め PlazmaDBについては良い資料があるので詳細はそちらをみる MessagePack 分析用DB インデックスは時間軸 トランザクション 暗号化サポート 時間軸のメタデータ データの中身はS3 or RiackCS PlazmaDB 1秒間に110万行のimport 310Kのデ…
技術的な話が多いので人にフォーカスしたはなしを 分散系とかPrestoとかを担当 TDエンジニアの一日 朝が早くない 出社時間はまちまちだけど、slackとかあるので、そんなに苦ではない ソースコードはGitHub→ステータスの管理はJIRA(GitHubのIssueは使いづらい…
日本語でセッション… TDに入る前 spotifyで働いていて、バックエンドの開発をやっていた dockerとかインフラとか CSの中でいちばん興味のあるのは分散システムとかパフォーマンスのところ なんでTD cloud is eating the world 2011時点のspotifyのインフラは…
Embulkとは Embulkのプラグインの話 TDでEmbulkをつかう話 OSSとして出しているプラグラブルなバルクロードツール Fluentdのバッチ版と言われる TDはOSSと一緒のバージョンを使っている cavのgzipをMySQLにアップロードする、といった用途とか GUIも使える I…
PerfectQueue パーフェクトな分散キュー worker scheduler consoleapiのやりとりで分散キュー ジョブキューとは first in frist out At-least-once semantics 最大1回実行 ジョブキューにRDBMSを使うべきか 使うべきなのでは At-most-once queueのテーブル構…
こんなのがあるんですね。 examples.treasuredata.com で、ちょっと見てみると要ログインとのこと。
Tオプションだ! -T, --type TYPE set query type (hive, pig, presto) つまり例としては、こう。 $ td query -d example_db -T presto -w -r rset1 "select count(*) from table1" 見つけ方なんだけど、ドキュメントを読んでもよくわからなかったので、ヘル…
特段理由も無くただなぞるだけ。 github.com CentOS7で余裕でした。 curl --create-dirs -o ~/.embulk/bin/embulk -L "http://dl.embulk.org/embulk-latest.jar" chmod +x ~/.embulk/bin/embulk echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashrc …
なぞっていけばいいんじゃないかな。 Getting started — Digdag 0.8 documentation
docs.treasuredata.com $ curl -L https://toolbelt.treasuredata.com/sh/install-redhat-td-agent2.sh | sh
docs.treasuredata.com Create a sample log file apacheのサンプルログをJSON形式で吐き出す。ちなみに、sample系はapacheだけ。 ちな $ td table:import sample_db www_access --json apache.json でjsonデータをテーブルにimportできるけど、データの追加…
SQL文を指定して実行→OK(JobIdをプログラムで発行してジョブを実行する) JobIdを指定して実行→OK(過去ジョブの結果を直接呼び出しているので処理時間が異様に短い) SavedQueryからクエリ名を指定して実行→OK(JobIdをプログラムで発行してジョブを実行する) g…
TreasureDataをJavaでごにょるライブラリがあるんで、Scalaに翻訳した。IDEはIntelliJです。 github.com READMEに書いてあるJavaのサンプル import com.treasuredata.client.*; import com.google.common.base.Function; import org.msgpack.core.MessagePac…
よりどりみどり。 Treasure Data Toolbelt | Treasure Data, Inc.
MacでもLinuxでも公式からそのままなぞればおーけー。 td command-line とかでぐぐればいいです。 docs.treasuredata.com ちなみに、td -e https://api.treasuredata.com account -f でアカウント認証をする必要がありますが、 面倒なので ~/.td/td.conf に…