by shigemk2

当面は技術的なことしか書かない

英文のPDFから頻出英単語を抽出する簡単なシェル芸

Linux English

所詮はシェル芸なので、パフォーマンスとか精度とか考慮してません。あと、実行してみたらわかりますけど、助詞が上位になりますが除外してもいません。

gist.github.com

英文わからないので、頻出英単語を引っ張ってきたら、もしかしたらなんかの足しになるのではないかと思い。

以下、注意点とか要点とか。

pdftotext PDFを読み込んでテキストファイルにするやつ。outputを-にすると標準出力になる(コマンド自体はパッケージ管理ツールで簡単に入る)
"$1"ってやらないと、例えばファイル名にスペースが入っていたら正しくファイル名が引数にならない。
tr " " "\n" 空白をすべて改行に変換する。スペース1つが前提なので、複数のスペースが入っていた時は考慮してない。
tr '[:upper:]' '[:lower:]' って書くのもいいけど、uniq のiオプションで大文字小文字は無視している。

プロフィール

id:shigemk2 はてなブログPro

最終更新: 2024-04-25 19:59

web系エンジニアの速記的備忘録。メモ書き故、中身については保証致しません。また実在している団体等とは一切関係ありません。

@shigemk2をフォロー

このブログについて

月別アーカイブ

ブックマーク数

広告