小町さんの blog 記事経由で。 メモ。
以前もこの日記で書いたはずだが、 Wikipedia から生成した back-off N-gram の Julius 用バイナリが 公開されている。
以前、少し書いた料理関係の blog データ、 5 月の時点で形態素数約 2.2 億、文数約 960 万になった。 未解析のデータがまだかなりあるので、作業に着手できたら更に数割程度は増えるはず。
以下、参考として、上記 Wikipedia の back-off N-gram のサイトから引用。
コーパス | 形態素数 |
---|---|
Wikipedia (2008年11月時点) | 約 1.6 億 |
毎日新聞 (1991〜2002年) | 約 3.4 億 |
Julius ディクテーション・キット付属言語モデルの学習コーパス | 約 2.3 億 |
料理という単一のテーマでこの規模まで集めたら、けっこういろいろ出来そうな気がする (というか、遊びで試したことに限定すれば、それなりに面白いことが出来ている)。
Mac OS X 上で Linux や Windows を動作させる仮想化環境。
設定ファイル /Library/QuickTimeStreaming/Config/streamingserver.xml 中の
bind_ip_addr
の箇所を 0
(デフォルト値) にしておくと、
Darwin Streaming Server が自ホストの IP アドレスを自動で判別してくれるのだが、
これが誤った値になってしまうことがあり、結果としてうまくムービー配信できなくなることがある。
この箇所を 192.168.0.1
のように IP アドレスを直接指定することで正確な値にでき、
問題なくムービー配信できるようになるみたいだ…が、こんな罠を用意しないで欲しい。
Mac OS X の通常のアプリケーションで Anthy や PRIME を利用できるようにするツール。