Hena Hena Nikki ～悔い倒れの日々～(2008-04-29)

2008.04.29 / Tuesday [長年日記]

* [computer/update] MacFUSE ver.1.5

Filesystem in USErspace の Mac OS X における実装。

* [computer/update] Real Alternative ver.1.80

RealMedia 形式のメディア・ファイルを再生するライブラリなどの詰合せ for Windows。

* [computer] Re: 茶筌で数詞を連結品詞にすると発音が出力されない?

ChaSen の出力の数詞列に適当な発音情報をふってから ChaWan に入力すれば、音声認識の N-gram 言語モデルで使う分には問題ない出力を得られるようだ。

というわけで、それを実現する chashaku.rb という Ruby スクリプトを書いてみた。既に自然言語処理方面で茶杓があるので、これは仮の名前だ。もう少し機能を追加したら適当な名前をつけて公開しよう。

ちなみに僕が自宅で言語モデルを作るときは、以下の様 (実際には chashaku.rb が入る) なシェル・スクリプトを使って形態素解析させている。

#! /usr/bin/env sh

nkf -e -Lu \
        | chasen -C -F "%m\t%a0\t%M\t%h/%t/%f\n" \
        | chawan -c \
        | postprocess -c \
        | iconv -f EUC-JP -t UTF-8 \
        | sed -r 's|^([^\t]+)\t([^\t]*)\t[^\t]*\t([^\t]+)$|\1:\2:\3|' \
        | sed -r 's|(\W[0-9]+)\/0\/0$|\1|' \
        | tr '\n' '\t' \
        | sed -r 's|(\t*EOS)+\t*|\n|g' \
        | sed -r 's|^(.+)$|<s>\t\1\t</s>|'

これだと各形態素の表記は「私:{ワタシ/ワタクシ}:14」や「行く:イク:47/9/1」の様になる。

* [computer] bzip2 1.0.5 を Mac OS X 10.5 にインストールする

必要に応じて Makefile の CFLAGS を書き換えること。

$ wget -c http://www.bzip.org/1.0.5/bzip2-1.0.5.tar.gz
$ zcat bzip2-1.0.5.tar.gz | tar xvf -
$ cd bzip2-1.0.5/
$ wget -c http://quruli.ivory.ne.jp/download/bzip2-1.0.5.diff.gz
$ zcat bzip2-1.0.5.diff.gz | patch -p1
$ make
$ sudo make install

1.0.3 の時のパッチを書き直しただけだけど、とりあえず問題なく動いてるようだ。

* [book] Re: 有頂天家族 / 森見登美彦

やっと半分くらい読み終えた。同じ作者の夜は短し歩けよ乙女を面白いと感じた人は読むべきだと思う。学生時代を京都で過ごした人は特に楽しめるだろう。

* [myself] 自宅の iBook vs. 会社の Let's Note

自宅の iBook は Mac OS X 10.5 Leopard / PowerPC G4 で、会社の Let's Note は Windows XP / Core 2 Duo (リモートで Debian Etch の計算機に繋げて作業してる) なんだけど、前者の方が断トツで作業効率の良いことを、今日は再認識させられた。やっぱり UNIX 系 OS を手元で動かせるのは大きいなぁ…。

…などと書くと sin-x さんや Zinnia さんに反論をいただきそうだ。

Hena Hena Nikki