挙動
embulk guessする際、カラム内にLong型とString型のデータが混在していてLong型として型を推論した場合、 embulk run実行時にNumberFormatExceptionになるので一部データが欠損する(stop_on_invalid_recordがfalseの場合)
対策
- guess_sample_buffer_bytesを引き上げて、サンプル用に読み込むファイルサイズを引き上げてみる
- csv_all_stringsで全カラムを強制的にString型として推論させる
Configuration — Embulk 0.8 documentation
csv_all_strings guess plugin for Data Connector – Arm Treasure Data