解析のセッションに行くか少し悩んだけど、 座長をされる Yahoo! Japan の颯々野さん見たさにこちらのセッションを選択。 みんなのレシピ (@nifty) については、 後で自分でも試してみたいと思う。
NICT の赤峯さんの御発表、 質疑応答でも少し言われていたように、もっとノウハウ中心に話してもらえたら嬉しかった。 個人的には WISDOM よりそちらの方に価値を感じる。 あと NYU の関根先生の御発表も興味深かった。 楽天が米国の研究所を作るなんて、考えもしなかった。
関係ないけど、僕が所有している料理関係の blog データは、 形態素数約 1.7 億 (異なりでは約 46 万)、文数約 800 万。 形態素解析済みでないページがまだそれなりにあるので、 実際には更に数割程度は多いと考えて良いはず。
Windows 上で動くシンプルな CSV エディタ。
メモ。 MIT ライセンス。
Khafraは、 筑波大学 自然言語処理 on the Web 研究室が開発した、 オープンソースのフレーズベース統計的機械翻訳(PBSMT)デコーダです。
Khafraデコーダは、 オープンソースのPBSMTシステムMosesにより学習したモデルを利用して翻訳を行います。 探索にDPビームサーチ(詳しくはこちらを参照)を採用することにより、 Mosesに比べて10倍速い翻訳が可能になりました。