by shigemk2

当面は技術的なことしか書かない

Impala

memo impala performance tuning

memo impala performance tuning パーティションを細く切りすぎないこと ファイルが小さくなりすぎたらパーティションを粗くすることを検討すること 都度explainを使うこと https://www.cloudera.com/documentation/enterprise/latest/topics/impala_perf_co…

memo impala file formats

memo impala file formats ここに書いてあるとおり、ImpalaはORCファイルフォーマットに対応してない やっぱり公式 https://impala.apache.org/docs/build/html/topics/impala_file_formats.html

impala date format

unix_timestampとfrom_unixtimeのコンボ。 select from_unixtime(unix_timestamp(now() + interval 3 days), 'yyyy-MM') Impala Date and Time Functions

impala 文字列連結

こんなことは出来ない。 val a: String = "a" + "b" concatをつかうこと。 select concat("hoge", "fuga") Impala String Functions

impala like

like/not like両方いける。使い方はMySQLなどのそれと一緒。 SQL Operators

久々Python impylaでドハマリ

PythonのImpalaライブラリ。 github.com なんだが、ちょいちょいハマってて、ググラビリティも低く、Issueを調べてみると、ハマった箇所はPythonの基礎オブ基礎なところだった。 ファイル名impala.pyでimport impalaすると名前衝突してエラーになる。 github…

impala string functions

MySQLとかとあんまり変わらないかも。 Impala String Functions

impala yyyymmdd

下にはこのように書かれているけど、 select from_unixtime(unix_timestamp(now() - interval 2 months), 'yyyyMM'); ってかけばyyyymmddみたいなことは出来る。 stackoverflow.com

impala cast

こんなかんじ。castを使ってconvertなど。 select concat('Here are the first ',cast(10 as string),' results.'); -- Succeeds Impala Type Conversion Functions

impala date系

関数色々。dateからstringは出来るけど逆はしんどいっぽい。 select from_unixtime(unix_timestamp(now() - interval 2 months), 'yyyyMM'); Impala Date and Time Functions

docker impala

公式が用意しているやつ。なお、50GBくらいあるので、ビルドにすごい時間がかかるとのこと。 https://hub.docker.com/r/cloudera/impala-dev/