by shigemk2

当面は技術的なことしか書かない

embulk guessのNumberFormatException

挙動

embulk guessする際、カラム内にLong型とString型のデータが混在していてLong型として型を推論した場合、 embulk run実行時にNumberFormatExceptionになるので一部データが欠損する(stop_on_invalid_recordがfalseの場合)

対策

  • guess_sample_buffer_bytesを引き上げて、サンプル用に読み込むファイルサイズを引き上げてみる
  • csv_all_stringsで全カラムを強制的にString型として推論させる

Configuration — Embulk 0.8 documentation

csv_all_strings guess plugin for Data Connector – Arm Treasure Data