«前の日記(2008.04.28 / Monday) 最新 次の日記(2008.04.30 / Wednesday)» 編集

Hena Hena Nikki

2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|10|11|12|
2012|01|02|03|04|05|06|07|08|10|12|
2013|01|02|04|06|

2008.04.29 / Tuesday [長年日記]

* [computer/update] MacFUSE ver.1.5

Filesystem in USErspace の Mac OS X における実装。

* [computer/update] Real Alternative ver.1.80

RealMedia 形式のメディア・ファイルを再生するライブラリなどの詰合せ for Windows。

* [computer] Re: 茶筌で数詞を連結品詞にすると発音が出力されない?

ChaSen の出力の数詞列に適当な発音情報をふってから ChaWan に入力すれば、 音声認識の N-gram 言語モデルで使う分には問題ない出力を得られるようだ。

というわけで、それを実現する chashaku.rb という Ruby スクリプトを書いてみた。 既に自然言語処理方面で茶杓があるので、これは仮の名前だ。 もう少し機能を追加したら適当な名前をつけて公開しよう。

ちなみに僕が自宅で言語モデルを作るときは、 以下の様 (実際には chashaku.rb が入る) なシェル・スクリプトを使って形態素解析させている。

#! /usr/bin/env sh
nkf -e -Lu \ | chasen -C -F "%m\t%a0\t%M\t%h/%t/%f\n" \ | chawan -c \ | postprocess -c \ | iconv -f EUC-JP -t UTF-8 \ | sed -r 's|^([^\t]+)\t([^\t]*)\t[^\t]*\t([^\t]+)$|\1:\2:\3|' \ | sed -r 's|(\W[0-9]+)\/0\/0$|\1|' \ | tr '\n' '\t' \ | sed -r 's|(\t*EOS)+\t*|\n|g' \ | sed -r 's|^(.+)$|<s>\t\1\t</s>|'

これだと各形態素の表記は 「私:{ワタシ/ワタクシ}:14」や「行く:イク:47/9/1」の様になる。

* [computer] bzip2 1.0.5 を Mac OS X 10.5 にインストールする

必要に応じて Makefile の CFLAGS を書き換えること。

$ wget -c http://www.bzip.org/1.0.5/bzip2-1.0.5.tar.gz
$ zcat bzip2-1.0.5.tar.gz | tar xvf -
$ cd bzip2-1.0.5/
$ wget -c http://quruli.ivory.ne.jp/download/bzip2-1.0.5.diff.gz
$ zcat bzip2-1.0.5.diff.gz | patch -p1
$ make
$ sudo make install

1.0.3 の時のパッチを書き直しただけだけど、とりあえず問題なく動いてるようだ。

* [book] Re: 有頂天家族 / 森見 登美彦

やっと半分くらい読み終えた。 同じ作者の 夜は短し歩けよ乙女を 面白いと感じた人は読むべきだと思う。 学生時代を京都で過ごした人は特に楽しめるだろう。

* [myself] 自宅の iBook vs. 会社の Let's Note

自宅の iBook は Mac OS X 10.5 Leopard / PowerPC G4 で、 会社の Let's Note は Windows XP / Core 2 Duo (リモートで Debian Etch の計算機に繋げて作業してる) なんだけど、 前者の方が断トツで作業効率の良いことを、今日は再認識させられた。 やっぱり UNIX 系 OS を手元で動かせるのは大きいなぁ…。

…などと書くと sin-x さんや Zinnia さんに反論をいただきそうだ。


  • この日記には本日 名の方が訪問してくださっているようです。 また、昨日は 名の方が訪問してくださったようです。
  • この日記の更新情報の取得には antenna.lirs を利用するのがおすすめです。