OSSプロジェクトのドキュメントを書くと 表記ゆれ に悩まされる
- ベトナム ヴェトナム(文字)
- Excel エクセル(文字種)
- 行う 行なう(送り仮名)
RedPenではどうしているのか
そもそもそんなにクリティカルじゃないけど、発見にコストがかかる しかも大人数でドキュメントを整備すると表記ゆれが発生しやすい
- プロ編集者から「表記ゆれに対応しろ」と言われる
- RedPenではカタカナ単語だけについてはある程度対応できる
- 編集距離が類似する表記を持つ単語ペアを抽出するとかしたけどうまくいかないで数年
表記ゆれの多くは同じ読みを持つ
- Clusterはクラスタと読む
- 同じ読みを持つ単語を間違い候補として
読みはどうやって習得するか
- 辞書 NEologd
- 辞書サイズは300万
- 各単語の読み情報が提供
- 使ってみるけど結構簡単に実装できる
人手では気づきにくい表記ゆれが確認できた
- アルゴリズムは超かんたんなので表記ゆれじゃないペアも取得できてしまう
- 仕様/使用 別記/べき
- 問題のない事例が抽出されてしまう
- 通常のチェックでは利用しないで、必要なときだけ実行するとよさげ
- redpenの新しいバージョンからエラーレベルを追加できるようになった
- NEologdがあれば実装は無図解くない
- 300万語あっても専門用語の読みが足りないくてパワポで検出できなかったりする
RedPenでの表記ゆれ
使ってみて気になることがあったらGitter/GitHubを使っていただければ
NEologdはユーザー辞書みたいな使い方
- メディア: Amazonビデオ
- この商品を含むブログを見る