辞書共有型の日本語入力環境 Social IME が オープン・ソース化された (see code.google.com)。 組織内限定でサーバを立て辞書を共有するとか、そういう使い方ができそう。
MeCab ユーザー辞書で各形態素のコスト項を、どう付与すべきかいろいろと考えてみた。 本体辞書のコスト学習時に該当形態素がないことから、どうしても問題が生じるわけだが、 それなりに納得いく方法が見つかったので、覚書としてまとめる。
そもそも、MeCab の辞書 (NAIST Japanese Dictionary ver.0.6.1-20090630) を 読むとどうなっているのか。 以下に列挙する。
コストの大きさは 大雑把に「片仮名のみの単語 < 漢字のみの単語 < 平仮名のみの単語」および 「長い形態素 < 短い形態素」と考えられる。 もちろん細かく見ていくとこの傾向に当てはまらないものも多いが、 ユーザー辞書用にコストを算出する分には十分に参考になるはず。
読み・発音が複数ある形態素は、 茶筌の辞書とは違い、 複数の独立したエントリとして書かれている。 これらのエントリはコストが等しいことが多い (異なることもある)。 このため、発音情報が重要な役割を持つ音声認識で MeCab を使う際には、多少の注意と工夫が必要になる。
表記揺れおよび複合語に関する情報がある。 表記揺れの情報は、用言に多く付与されている一方で、体言にはほぼ付与されていない印象がある。 複合語については、複合語を避けたいならそもそも該当エントリを削除する方法も考えられるが、 その際にコストの整合性が怪しくなることを忘れてはいけないと思う。
ここでは、コスト算出の方法について述べるため上記 1 だけ考慮すれば良いのだが、 2 および 3 についても、 ユーザー辞書にエントリを追加する際に参考になると思い、念のために記しておいた。
[後で追記する…ハズ]
CFLAGS
等はお好みで。
$ wget -c http://www.ijg.org/files/jpegsrc.v8a.tar.gz $ gzip -cd jpegsrc.v8a.tar.gz | tar xvf - $ cd jpeg-8a/ $ ln -s /usr/bin/glibtool libtool $ ./configure --enable-shared $ make $ sudo make install