Hena Hena Nikki ～悔い倒れの日々～(2010-03-09)

2010.03.09 / Tuesday [長年日記]

* [miscellaneous] 言語処理学会第16回年次大会 1日目

情報爆発特別セッション (1)

解析のセッションに行くか少し悩んだけど、座長をされる Yahoo! Japan の颯々野さん見たさにこちらのセッションを選択。みんなのレシピ (@nifty) については、後で自分でも試してみたいと思う。

Web 応用

NICT の赤峯さんの御発表、質疑応答でも少し言われていたように、もっとノウハウ中心に話してもらえたら嬉しかった。個人的には WISDOM よりそちらの方に価値を感じる。あと NYU の関根先生の御発表も興味深かった。楽天が米国の研究所を作るなんて、考えもしなかった。

関係ないけど、僕が所有している料理関係の blog データは、形態素数約 1.7 億 (異なりでは約 46 万)、文数約 800 万。形態素解析済みでないページがまだそれなりにあるので、実際には更に数割程度は多いと考えて良いはず。

* [computer/update] Cassava ver.1.6.7

Windows 上で動くシンプルな CSV エディタ。

* [computer] Khafra －A Phrase-based DP Beam Search Decoder－

メモ。 MIT ライセンス。

Khafraは、筑波大学自然言語処理 on the Web 研究室が開発した、オープンソースのフレーズベース統計的機械翻訳(PBSMT)デコーダです。

Khafraデコーダは、オープンソースのPBSMTシステムMosesにより学習したモデルを利用して翻訳を行います。探索にDPビームサーチ(詳しくはこちらを参照)を採用することにより、 Mosesに比べて10倍速い翻訳が可能になりました。