Filesystem in USErspace の Mac OS X における実装。
RealMedia 形式のメディア・ファイルを再生するライブラリなどの詰合せ for Windows。
ChaSen の出力の数詞列に適当な発音情報をふってから ChaWan に入力すれば、 音声認識の N-gram 言語モデルで使う分には問題ない出力を得られるようだ。
というわけで、それを実現する chashaku.rb という Ruby スクリプトを書いてみた。 既に自然言語処理方面で茶杓があるので、これは仮の名前だ。 もう少し機能を追加したら適当な名前をつけて公開しよう。
ちなみに僕が自宅で言語モデルを作るときは、 以下の様 (実際には chashaku.rb が入る) なシェル・スクリプトを使って形態素解析させている。
#! /usr/bin/env sh
nkf -e -Lu \ | chasen -C -F "%m\t%a0\t%M\t%h/%t/%f\n" \ | chawan -c \ | postprocess -c \ | iconv -f EUC-JP -t UTF-8 \ | sed -r 's|^([^\t]+)\t([^\t]*)\t[^\t]*\t([^\t]+)$|\1:\2:\3|' \ | sed -r 's|(\W[0-9]+)\/0\/0$|\1|' \ | tr '\n' '\t' \ | sed -r 's|(\t*EOS)+\t*|\n|g' \ | sed -r 's|^(.+)$|<s>\t\1\t</s>|'
これだと各形態素の表記は 「私:{ワタシ/ワタクシ}:14」や「行く:イク:47/9/1」の様になる。
必要に応じて Makefile の CFLAGS
を書き換えること。
$ wget -c http://www.bzip.org/1.0.5/bzip2-1.0.5.tar.gz $ zcat bzip2-1.0.5.tar.gz | tar xvf - $ cd bzip2-1.0.5/ $ wget -c http://quruli.ivory.ne.jp/download/bzip2-1.0.5.diff.gz $ zcat bzip2-1.0.5.diff.gz | patch -p1 $ make $ sudo make install
1.0.3 の時のパッチを書き直しただけだけど、とりあえず問題なく動いてるようだ。
やっと半分くらい読み終えた。 同じ作者の 夜は短し歩けよ乙女を 面白いと感じた人は読むべきだと思う。 学生時代を京都で過ごした人は特に楽しめるだろう。