Hena Hena Nikki ～悔い倒れの日々～(2008-08-17)

2008.08.17 / Sunday [長年日記]

* [computer/update] Postfix ver.2.5.4

Mail Transport Agent。

* [computer/update] DVDFab HD Decrypter ver.5.0.8.5

Windows 上で動く高機能な DVD 系メディアのリッピング・ツール。

* [computer] Vim 7.2 を Mac OS X 10.4 にインストールする

事前に iconv, gettext, ncurses を入れておくと良い。

$ wget -c ftp://ftp.vim.org/pub/vim/unix/vim-7.2.tar.bz2
$ wget -c ftp://ftp.vim.org/pub/vim/extra/vim-7.2-extra.tar.gz
$ wget -c ftp://ftp.vim.org/pub/vim/extra/vim-7.2-lang.tar.gz
$ bzcat vim-7.2.tar.bz2 | tar xvf -
$ zcat vim-7.2-extra.tar.gz | tar xvf -
$ zcat vim-7.2-lang.tar.gz | tar xvf -
$ ./configure --enable-multibyte --enable-gui=no --with-features=big
$ make && make test
$ sudo make install

CFLAGS はお好みで。

まだ patch は出てない模様。

* [computer] GNU nano 2.1.4 を Mac OS X 10.4 にインストールする

事前に iconv, gettext, ncurses を入れておくと吉。

$ wget -c http://ftp.gnu.org/gnu/nano/nano-2.1.4.tar.gz
$ zcat nano-2.1.4.tar.gz | tar xvf -
$ cd nano-2.1.4/
$ ./configure --enable-extra --enable-color --enable-multibuffer --enable-nanorc --enable-utf8
$ make
$ sudo make install

CFLAGS はお好みで。

* [miscellaneous] 単語 N-gram 言語モデルの作成は簡単か?

音声認識用単語 N-gram 言語モデルの作成は、ちゃんと整形されている大量のコーパスがあれば比較的簡単。もちろん、認識させたいテーマ (純粋な主題だけでなく、細かな表現なども含む) に合ったコーパスであることが必要。問題はこれらの条件を満たさない時だろう。やってみれば分かると思うが、想像以上に面倒なことになると思う。

例えば、くだけた話し言葉を認識させたい時は web 上の文書を利用することが多いと思うが、目的に合った文書を中心に大量に収集するのは意外に難しい (特に時間がなければ) し、また、web 上の文書を形態素解析してモデリングすると予想以上に多種多様なゴミが混じりモデルに悪影響を及ぼす。前者はテーマの近い既存コーパスを混ぜることである程度解決するが、テーマのズレはモデルにしっかりと残る (1)。後者は形態素解析辞書の強化や文書整形処理の充実などでカバーできるが、けっこうな労力がかかる (2)。

結論としては、モデルの設計段階で考えるコーパスの収集方法が肝要だと思う。 (1) はコーパスの質と量で解決できる問題。 (2) は、どんなテーマでも多少は発生する、特に新規のテーマで回避することは不可能な問題 (コーパスの質である程度抑えることは可能だが…)。こう考えれば当然だと思う。