by shigemk2

当面は技術的なことしか書かない

memo 単語の揺らぎに対処するための手法と実装 #kbkz_tech

http://redpen.cc/

  • OSSプロジェクトのドキュメントを書くと 表記ゆれ に悩まされる

    • ベトナム ヴェトナム(文字)
    • Excel エクセル(文字種)
    • 行う 行なう(送り仮名)
  • RedPenではどうしているのか

  • そもそもそんなにクリティカルじゃないけど、発見にコストがかかる しかも大人数でドキュメントを整備すると表記ゆれが発生しやすい

  • プロ編集者から「表記ゆれに対応しろ」と言われる
  • RedPenではカタカナ単語だけについてはある程度対応できる
  • 編集距離が類似する表記を持つ単語ペアを抽出するとかしたけどうまくいかないで数年
  • 表記ゆれの多くは同じ読みを持つ

    • Clusterはクラスタと読む
    • 同じ読みを持つ単語を間違い候補として
  • 読みはどうやって習得するか

    • 辞書 NEologd
    • 辞書サイズは300万
    • 各単語の読み情報が提供
    • 使ってみるけど結構簡単に実装できる
  • 人手では気づきにくい表記ゆれが確認できた

    • アルゴリズムは超かんたんなので表記ゆれじゃないペアも取得できてしまう
    • 仕様/使用 別記/べき
  • 問題のない事例が抽出されてしまう
    • 通常のチェックでは利用しないで、必要なときだけ実行するとよさげ
    • redpenの新しいバージョンからエラーレベルを追加できるようになった
  • NEologdがあれば実装は無図解くない
  • 300万語あっても専門用語の読みが足りないくてパワポで検出できなかったりする
  • RedPenでの表記ゆれ

  • 使ってみて気になることがあったらGitter/GitHubを使っていただければ

  • NEologdはユーザー辞書みたいな使い方