by shigemk2

当面は技術的なことしか書かない

memo orc file format

memo orc file format

The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.

Hive読み書きに最適化したファイルのフォーマット。普通にファイルを開くとなんかバイナリファイルっぽいけど、 ORCファイルを file -s すると、ちゃんと Apache ORC って返ってくるんだね。すごい。

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

parquetファイルをcsvとかに戻すのは一筋縄ではいかないけど、ORCファイルをJSON出力するのはこのコマンドでいける。

https://orc.apache.org/docs/tools.html

orc-tools data test.orc

なお、Macだと brew install orc-tools でなんとかなる。