by shigemk2

当面は技術的なことしか書かない

英文のPDFから頻出英単語を抽出する簡単なシェル芸

所詮はシェル芸なので、パフォーマンスとか精度とか考慮してません。あと、実行してみたらわかりますけど、助詞が上位になりますが除外してもいません。

gist.github.com

英文わからないので、頻出英単語を引っ張ってきたら、もしかしたらなんかの足しになるのではないかと思い。

以下、注意点とか要点とか。

  • pdftotext PDFを読み込んでテキストファイルにするやつ。outputを-にすると標準出力になる(コマンド自体はパッケージ管理ツールで簡単に入る)
  • "$1"ってやらないと、例えばファイル名にスペースが入っていたら正しくファイル名が引数にならない。
  • tr " " "\n" 空白をすべて改行に変換する。スペース1つが前提なので、複数のスペースが入っていた時は考慮してない。
  • tr '[:upper:]' '[:lower:]' って書くのもいいけど、uniq のiオプションで大文字小文字は無視している。