memo orc file format
The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.
Hive読み書きに最適化したファイルのフォーマット。普通にファイルを開くとなんかバイナリファイルっぽいけど、 ORCファイルを file -s
すると、ちゃんと Apache ORC
って返ってくるんだね。すごい。
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
parquetファイルをcsvとかに戻すのは一筋縄ではいかないけど、ORCファイルをJSON出力するのはこのコマンドでいける。
https://orc.apache.org/docs/tools.html
orc-tools data test.orc
なお、Macだと brew install orc-tools
でなんとかなる。