by shigemk2

当面は技術的なことしか書かない

Treasure Data

fluentdでbuffer_path重複

よんでもあんまり理解できなかった tom-rc.hatenablog.com

digdag 0.9.9

バージョンのところ以外修正がない Release v0.9.9 · treasure-data/digdag · GitHub

Digdag EMR

emr>: Amazon Elastic Map Reduce — Digdag 0.9.5 documentation typeのところから一部抜粋。spark/hive/script/commandが使えると思う - type: hive script: queries/hive-query.q vars: INPUT: s3://my-bucket/data/ OUTPUT: s3://my-bucket/output/ hivec…

Treasure Data Serviceの機能開発と安定運用の狭間におけるあれこれ #tdtech

機能開発側のはなし システムアーキテクチャのはなし いまどんなところに注力しているか 信頼性確保 アーキ (API server w/ RoR) * 4 w/ load balancer MySQL(JobQueue)/S3/RiakCS/MySQL(AccountDB) Worker(Ruby+Java) YARN Cluster(Hive/HDFS) / Presto Clu…

ActiveRecord issues #tdtech

ActiveRecord issues #tdtech kamipo activerecordについての話 rails issues team http://blog.steveklabnik.com/posts/2012-07-05-how-can-i-contribute-to-ruby-on-rails- Railsに2016年一番コミットした人なので、お前勝手にやれって言われた Rails 5.0→…

メモ Stable large scale Presto cluster #tdtech

Presto In TD TD API BI Tool HTTP から、クエリを投げる。 prestobase proxy node schedular(presto) resource group Prestobase proxy JDBC/ODBCはいけていない リプレイスするためのPrestobase Proxy HTTP接続するときにPrestoが使える Scalaで書かれてい…

メモ DigdagによるRedshift + EMRの自動制御とデータ分析アプリケーションの開発 #tdtech

digdag github.com (途中参加) ワークフローエンジン Aをやって、Bをやって、でもBが失敗したらCをやる、というのを、コードを書かないで制御する サーバー どこの環境でも動くこと ワークフローが手元でも動く ステップを足す→ローカルで実行する サーバー…

digdag pr 177

workflowの実行リミットを1000回(デフォルト)に設定出来るようにするPRらしい github.com

digdag command references

digdag sessionsでstatusがerrorのやつだけを抜き出したかったのだけれど、そういうオプションは今はないらしい。 Command reference — Digdag 0.8 documentation

fluentd v0.14.9

リリースノート的なのはなかった。 Release v0.14.9 · fluent/fluentd · GitHub と思ったらここにあった。 Fluentd v0.14.9 has been released | Fluentd

TDにおけるクエリのこつ

時間指定すること。 blog-jp.treasuredata.com

TDジョブ監視

など。 td job:list -R NUM qiita.com

td_time_range

boolean TD_TIME_RANGE(int/long unix_timestamp, int/long/string start_time, int/long/string end_time [, string default_timezone = 'UTC']) startとendを指定できる。しかも文字列も可能だから、"2016-08-31 12:00"みたいな書き方も可能。 そしてドキ…

メモ The Real of Treasure Data Engineering Team #tdtech

シリコンバレーの会社で6割がた日本人 どういうふうにチームを回しているのか VP of engineering vs CTO CTOはスーパーマン?? コードをかけて、マネジメントできて、最新の情報にキャッチして… ってそんなことはない。 エンジニアのマネジメントとしてのVP o…

メモ PlazmaDB/PlazmaGC #tdtech

PlazmaDBの各種ゴミ集め PlazmaDBについては良い資料があるので詳細はそちらをみる MessagePack 分析用DB インデックスは時間軸 トランザクション 暗号化サポート 時間軸のメタデータ データの中身はS3 or RiackCS PlazmaDB 1秒間に110万行のimport 310Kのデ…

メモ Treasure Dataを支える人々 #tdtech

技術的な話が多いので人にフォーカスしたはなしを 分散系とかPrestoとかを担当 TDエンジニアの一日 朝が早くない 出社時間はまちまちだけど、slackとかあるので、そんなに苦ではない ソースコードはGitHub→ステータスの管理はJIRA(GitHubのIssueは使いづらい…

memo 3 Months Into Treasure Data #tdtech

日本語でセッション… TDに入る前 spotifyで働いていて、バックエンドの開発をやっていた dockerとかインフラとか CSの中でいちばん興味のあるのは分散システムとかパフォーマンスのところ なんでTD cloud is eating the world 2011時点のspotifyのインフラは…

メモ バルクロードの信頼性を上げるための戦い #tdtech

Embulkとは Embulkのプラグインの話 TDでEmbulkをつかう話 OSSとして出しているプラグラブルなバルクロードツール Fluentdのバッチ版と言われる TDはOSSと一緒のバージョンを使っている cavのgzipをMySQLにアップロードする、といった用途とか GUIも使える I…

メモ PerfectQueueはいかにパーフェクトか、あるいはRubyとMySQLでジョブキューを作る試みについて #tdtech

PerfectQueue パーフェクトな分散キュー worker scheduler consoleapiのやりとりで分散キュー ジョブキューとは first in frist out At-least-once semantics 最大1回実行 ジョブキューにRDBMSを使うべきか 使うべきなのでは At-most-once queueのテーブル構…

TDのサンプルクエリ集

こんなのがあるんですね。 examples.treasuredata.com で、ちょっと見てみると要ログインとのこと。

td command-lineからPrestoのクエリを実行するの

Tオプションだ! -T, --type TYPE set query type (hive, pig, presto) つまり例としては、こう。 $ td query -d example_db -T presto -w -r rset1 "select count(*) from table1" 見つけ方なんだけど、ドキュメントを読んでもよくわからなかったので、ヘル…

embulkことはじめ

特段理由も無くただなぞるだけ。 github.com CentOS7で余裕でした。 curl --create-dirs -o ~/.embulk/bin/embulk -L "http://dl.embulk.org/embulk-latest.jar" chmod +x ~/.embulk/bin/embulk echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashrc …

getting started digdag

なぞっていけばいいんじゃないかな。 Getting started — Digdag 0.8 documentation

installing td cli on centos7

docs.treasuredata.com $ curl -L https://toolbelt.treasuredata.com/sh/install-redhat-td-agent2.sh | sh

td sample:apache <path.json>について

docs.treasuredata.com Create a sample log file apacheのサンプルログをJSON形式で吐き出す。ちなみに、sample系はapacheだけ。 ちな $ td table:import sample_db www_access --json apache.json でjsonデータをテーブルにimportできるけど、データの追加…

td-client-javaをScalaで試したい

SQL文を指定して実行→OK(JobIdをプログラムで発行してジョブを実行する) JobIdを指定して実行→OK(過去ジョブの結果を直接呼び出しているので処理時間が異様に短い) SavedQueryからクエリ名を指定して実行→OK(JobIdをプログラムで発行してジョブを実行する) g…

td-client-javaをScalaに移植したい

TreasureDataをJavaでごにょるライブラリがあるんで、Scalaに翻訳した。IDEはIntelliJです。 github.com READMEに書いてあるJavaのサンプル import com.treasuredata.client.*; import com.google.common.base.Function; import org.msgpack.core.MessagePac…

tdインストール

よりどりみどり。 Treasure Data Toolbelt | Treasure Data, Inc.

td command-lineをなぞってインストール/td.conf

MacでもLinuxでも公式からそのままなぞればおーけー。 td command-line とかでぐぐればいいです。 docs.treasuredata.com ちなみに、td -e https://api.treasuredata.com account -f でアカウント認証をする必要がありますが、 面倒なので ~/.td/td.conf に…

missing eof at 'by' near 'group'

TreasureDataでSQL流そうと思ったら表題のエラーに見舞われたので、どうしたものかなと思っていたらHiveの問題でした。 Hive Union Group By Error hadoop - Hive Union Group By Error - Stack Overflow select COUNT(distinct primary), COUNT(primary), m…