kakasi組み込みました
2004年3月18日 日常WHISPERのログを眺めていると、誤字脱字の多いこと・・・。
マジックでは日常あんまり使わないような単語が多いのでしょうがないといえばしょうがないのだが、意思と意志、弧炎と孤炎など紛らわしいのも確か。
というわけで、kakasiを組み込んで形態素解析と漢字ひらがな変換の技術を導入してみました。
現在、検索アルゴリズムは以下のようになっています。
1.与えられた文字列をスペースで分割(今までどおり)
2.まずはそれで日本語名と英語名を検索
3.見つからなかったら、kakasiでひらがなに変換して日本語読み辞書とスラング辞書から検索
4.それでも駄目なら、kakasiで形態素に分割してor検索
5.それでも駄目なら、さらに形態素ごとにひらがなに変換してor検索
6.それでも駄目ならゴメンナサイ。
たとえば「最短のパターン」は(3)で「さいたんのぱたーん」に変換されますので、見つかります。
「プラズマ連鎖」は(4)で「プラズマor連鎖」になりますので、見つかります。
という感じ。
とはいえ、「喧嘩兵」だと「喧嘩or兵」になって数がべらぼーに増えてしまう。この辺改良の余地あり、か。
マジックでは日常あんまり使わないような単語が多いのでしょうがないといえばしょうがないのだが、意思と意志、弧炎と孤炎など紛らわしいのも確か。
というわけで、kakasiを組み込んで形態素解析と漢字ひらがな変換の技術を導入してみました。
現在、検索アルゴリズムは以下のようになっています。
1.与えられた文字列をスペースで分割(今までどおり)
2.まずはそれで日本語名と英語名を検索
3.見つからなかったら、kakasiでひらがなに変換して日本語読み辞書とスラング辞書から検索
4.それでも駄目なら、kakasiで形態素に分割してor検索
5.それでも駄目なら、さらに形態素ごとにひらがなに変換してor検索
6.それでも駄目ならゴメンナサイ。
たとえば「最短のパターン」は(3)で「さいたんのぱたーん」に変換されますので、見つかります。
「プラズマ連鎖」は(4)で「プラズマor連鎖」になりますので、見つかります。
という感じ。
とはいえ、「喧嘩兵」だと「喧嘩or兵」になって数がべらぼーに増えてしまう。この辺改良の余地あり、か。
コメント