Hadoop
日付Aと日付Bとの差分を取る関数。日付のフォーマットが違っててもいける。 LanguageManual UDF - Apache Hive - Apache Software Foundation
とうとうリリースが別れた 12.1. Release 310 — Presto 310 Documentation
邦訳が出るのはいつなんだろうね。 shop.oreilly.com
presto 0.192 Fix performance regression in split scheduling introduced in 0.191. If a query scans a non-trivial number of splits (~1M splits in an hour), the coordinator CPU utilization can be very high, leading to elevated communication f…
mapred.job.reuse.jvm.num.tasks If you have very small tasks that are definitely running after each other, it is useful to set this property to -1 (meaning that a spawned JVM will be reused unlimited times). So you just spawn (number of tas…
SaxParseException なんのことかよくわからない
mapred.map.tasks 各スレーブノードにおいて同時に並列実行可能なタスク数 任意のジョブ実行時において、クラスタ全体で起動されるmapタスク数 https://open-groove.net/hadoop/mapred-map-tasks/ http://mail-archives.apache.org/mod_mbox/hadoop-common-u…
memo state=08S01 code=3 Hiveでこのエラーが出たときはJVMのヒープサイズを上げろ、と書いてあるが、ヒープサイズを上げてもエラーはまだ続いているとあるので、なんか違う気がする
memo: CDH5 CDH5のインストールガイド http://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/CDH5-Installation-Guide.html 設定ファイルの場所とか https://www.cloudera.com/documentation/enterprise/5-7-x/topics/cm_mc_service_co…
memo: httpfs クライアントからHTTP REST APIでFSにアクセスするためのプロキシサーバー HttpFS is a server that provides a REST HTTP gateway supporting all HDFS File System operations 概要 https://hadoop.apache.org/docs/stable/hadoop-hdfs-httpf…
memo: yarn.resourcemanager.recovery.enable リソース・マネージャーに対して、作業を保持するリソース・マネージャー再始動機能を使用可能にします。 yarn.resourcemanager.recovery.enable https://www.ibm.com/support/knowledgecenter/ja/SSPT3X_4.1.0/…
memo: hdfs dfs Run a filesystem command on the file system supported in Hadoop. って。 hdfs dfs -ls とか、 hdfs dfs -du とか。HDFSデータを操作する(分散ファイルシステムでデータが分散されているので、普通のlsとかduとかではデータの確認が出来な…
汎用的な並列データ処理 ジョブが実行されまくるとMapReduceが重複するのでオーバーヘッドが発生するのをどうにかするやつ
clouderaのエンジニアブログのfeed。ボタンがないから探した。 https://blog.cloudera.co.jp/feed https://blog.cloudera.com/feed
なんだかよくわからないけどそのうち役に立つかもしれない https://www.cloudera.com/documentation/enterprise/5-6-x/topics/cm_ig_feature_differences.html
cloudera directorをawsでやる ちょっとあとで試す。本当に。 https://www.cloudera.com/documentation/director/latest/topics/director_get_started_aws.html
EMRを起動するときにデフォルトのm3.xlargeを使うのは高いのでt2.micro使おうとしたら怒られたっていうはなし。 スポットインスタンスを使いましょうっていう話
10000 HiveServer - Apache Hive - Apache Software Foundation
TD向けにカスタマイズしたのもあるけど、パーティションは意識してクエリを書いたほうがよろしい あと、これをしたためるに至る参考文献があったら… docs.treasuredata.com
列指向ファイルフォーマット 対話的にアドホックな問い合わせを可能にする分散SQLエンジン www.publickey1.jp qiita.com
select partition 8.28. SHOW PARTITIONS — Presto 0.173 Documentation
わからんかったら--debugオプションを使おう、という話 github.com
date_diff(unit, timestamp1, timestamp2) → bigint Returns timestamp2 - timestamp1 expressed in terms of unit. 第二引数と第三引数はdate型にキャストとかする必要があったりする 6.10. Date and Time Functions and Operators — Presto 0.172 Document…
マスター コア タスク docs.aws.amazon.com
amalgjose.com 各ノードを監視するデーモンで、OOMとかでなんかのプロセスが死んだら、即座に自動で再起動してくれる。 tail -f /emr/service-nanny/log/service-nanny-yyyy-mm-dd しつつinstance-controllerなどのプロセスをキルすると、service-nannyのロ…
gmetad gmondのデータを集約するデーモン gmond 各ノードにいて各サーバーの情報を集めるデーモン Ganglia Quick Start · ganglia/monitor-core Wiki · GitHub
クラスタリソース管理フレームワーク。次世代MapReduceとかいう雑なイメージは捨てろ。 YARN構成 Resource Manager クラスター全体のリソース管理をするマネージャー。Application Masterからの要請を受けてNode Managerにコンテナーのリソースを付与する(常…
FIFOスケジューラーとか、フェアスケジューラーとか、ある。 17.5.2 Hadoopタスクスケジューラ
Prestoのアーキ図。Prestoを使うためにはHive Metastoreがひつよう。 出典: Presto | Overview
Configuration Properties - Apache Hive - Apache Software Foundation