所詮はシェル芸なので、パフォーマンスとか精度とか考慮してません。あと、実行してみたらわかりますけど、助詞が上位になりますが除外してもいません。
英文わからないので、頻出英単語を引っ張ってきたら、もしかしたらなんかの足しになるのではないかと思い。
以下、注意点とか要点とか。
- pdftotext PDFを読み込んでテキストファイルにするやつ。outputを-にすると標準出力になる(コマンド自体はパッケージ管理ツールで簡単に入る)
- "$1"ってやらないと、例えばファイル名にスペースが入っていたら正しくファイル名が引数にならない。
- tr " " "\n" 空白をすべて改行に変換する。スペース1つが前提なので、複数のスペースが入っていた時は考慮してない。
tr '[:upper:]' '[:lower:]'
って書くのもいいけど、uniq のiオプションで大文字小文字は無視している。