追記

Hena Hena Nikki

2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|

2010.03.15 / Monday [長年日記]

* [computer/update] Squid ver.3.0-STABLE25

HTTP, HTTPS, FTP などに対応したプロキシ・サーバ。

* [computer/update] Transmission ver.1.92

複数のプラットフォーム上で動く BitTorrent クライアント。


2010.03.14 / Sunday [長年日記]

* [computer] Natural Language Toolkit (NLTK)

Python ということで今まで避けていたけどメモ。

Open source Python modules, linguistic data and documentation for research and development in natural language processing, supporting dozens of NLP tasks, with distributions for Windows, Mac OSX and Linux.

* [computer/update] TRAMP ver.2.1.18

Emacsen にリモート・ファイル編集機能を提供するパッケージ。

* [computer/update] mplayerx ver.0.9.8

Mac OS X らしさを詰め込んだ MPlayer 実装。


2010.03.13 / Saturday [長年日記]

* [computer] Re: Social IME

辞書共有型の日本語入力環境 Social IMEオープン・ソース化された (see code.google.com)。 組織内限定でサーバを立て辞書を共有するとか、そういう使い方ができそう。

* [computer] MeCab ユーザー辞書を作成するコツ

MeCab ユーザー辞書で各形態素のコスト項を、どう付与すべきかいろいろと考えてみた。 本体辞書のコスト学習時に該当形態素がないことから、どうしても問題が生じるわけだが、 それなりに納得いく方法が見つかったので、覚書としてまとめる。

そもそも、MeCab の辞書 (NAIST Japanese Dictionary ver.0.6.1-20090630) を 読むとどうなっているのか。 以下に列挙する。

  1. コストの大きさは 大雑把に「片仮名のみの単語 < 漢字のみの単語 < 平仮名のみの単語」および 「長い形態素 < 短い形態素」と考えられる。 もちろん細かく見ていくとこの傾向に当てはまらないものも多いが、 ユーザー辞書用にコストを算出する分には十分に参考になるはず。

  2. 読み・発音が複数ある形態素は、 茶筌の辞書とは違い、 複数の独立したエントリとして書かれている。 これらのエントリはコストが等しいことが多い (異なることもある)。 このため、発音情報が重要な役割を持つ音声認識で MeCab を使う際には、多少の注意と工夫が必要になる。

  3. 表記揺れおよび複合語に関する情報がある。 表記揺れの情報は、用言に多く付与されている一方で、体言にはほぼ付与されていない印象がある。 複合語については、複合語を避けたいならそもそも該当エントリを削除する方法も考えられるが、 その際にコストの整合性が怪しくなることを忘れてはいけないと思う。

ここでは、コスト算出の方法について述べるため上記 1 だけ考慮すれば良いのだが、 2 および 3 についても、 ユーザー辞書にエントリを追加する際に参考になると思い、念のために記しておいた。

[後で追記する…ハズ]

* [computer] libjpeg 8a を Mac OS X 10.6 にインストールする

CFLAGS 等はお好みで。

$ wget -c http://www.ijg.org/files/jpegsrc.v8a.tar.gz
$ gzip -cd jpegsrc.v8a.tar.gz | tar xvf -
$ cd jpeg-8a/
$ ln -s /usr/bin/glibtool libtool
$ ./configure --enable-shared
$ make
$ sudo make install

2010.03.12 / Friday [長年日記]

* [computer/update] Safari ver.4.0.5

Apple 社が公開している web browser。

* [computer/update] GNU Emacs 23.1.94

超高機能な text editor っぽい (e)lisp interpreter。 人柱版。

入手はこちらから。

* [myself] 今週のお仕事

NLP2010 に参加していた関係で通常業務はあまり進まなかったが、 その分いろいろと試してみたいネタを見つけることができたので、全体で見たら良い一週間だった。 …もっと時間があればいろいろやれそうだけど、まあ、今の状況では期待しても無駄だろうな。


2010.03.11 / Thursday [長年日記]

* [computer/update] GnuPG ver.2.0.15

PGP を置き換える完全かつフリーなソフトウェア。

* [computer] GNU Tar 1.23 を Mac OS X 10.6 にインストールする

事前に gettext, iconv をインストールしておくと良い。

$ wget -c http://ftp.gnu.org/gnu/tar/tar-1.23.tar.bz2
$ bzip2 -cd tar-1.23.tar.bz2 | tar xvf -
$ cd tar-1.23/
$ ./configure
$ make && make check
$ sudo make install

CFLAGS はお好みで。

* [computer] SQLite 3.6.23 を Mac OS X 10.6 にインストールする

事前に readline, ncurses をインストールしておくと良い。

$ wget -c http://www.sqlite.org/sqlite-amalgamation-3.6.23.tar.gz
$ gzip -cd sqlite-amalgamation-3.6.23.tar.gz | tar xvf -
$ cd sqlite-3.6.23/
$ ./configure
$ make && make check
$ sudo make install

CFLAGS 等はお好みで。

* [miscellaneous] 言語処理学会第16回年次大会 3日目

語彙・辞書 (1)

京都大学の方々の御発表を聴きたくて選択。 …なのに、他の作業をしながら聴いてしまい、内容があまり記憶に残っていない。 後で資料を見直さなくては。

情報爆発特別セッション (2)

NICT 所属の方々の御発表が多く、 そのうちのいくつかはちょうど興味を持っている話題だった。 未知の情報を得ることができて良かった。

語彙・辞書 (2)

名古屋大学の方々の御発表と NICT の黒田さんの御発表が面白かった。 後者に関してはもうちょっと詳細なお話を聴きたかったが、 やはり 15 分程度では厳しいところだろう。 残念。

本日の発表分の資料 (PDF) のうち、 ライセンス的にも品質的にも明らかに問題のあるフォントが埋め込まれているものがあり、 ちょっとがっかりさせられた。 言語処理学会で発表する人がそういうことに無頓着なのは、 さすがに情けない気がする。


2010.03.10 / Wednesday [長年日記]

* [computer/update] SQLite ver.3.6.23

軽快・軽量な SQL データベース・エンジン。

* [miscellaneous] 言語処理学会第16回年次大会 2日目

ポスター発表があったけど、業務のため参加せず。 「形態素解析辞書のベンチマークテスト −IPAdic・NAIST-jdic・UniDicのジャンル別精度比較−」は 見に行っていくつか質問したかったのだが…。


2010.03.09 / Tuesday [長年日記]

* [miscellaneous] 言語処理学会第16回年次大会 1日目

情報爆発特別セッション (1)

解析のセッションに行くか少し悩んだけど、 座長をされる Yahoo! Japan の颯々野さん見たさにこちらのセッションを選択。 みんなのレシピ (@nifty) については、 後で自分でも試してみたいと思う。

Web 応用

NICT の赤峯さんの御発表、 質疑応答でも少し言われていたように、もっとノウハウ中心に話してもらえたら嬉しかった。 個人的には WISDOM よりそちらの方に価値を感じる。 あと NYU の関根先生の御発表も興味深かった。 楽天が米国の研究所を作るなんて、考えもしなかった。

関係ないけど、僕が所有している料理関係の blog データは、 形態素数約 1.7 億 (異なりでは約 46 万)、文数約 800 万。 形態素解析済みでないページがまだそれなりにあるので、 実際には更に数割程度は多いと考えて良いはず。

* [computer/update] Cassava ver.1.6.7

Windows 上で動くシンプルな CSV エディタ。

* [computer] Khafra −A Phrase-based DP Beam Search Decoder−

メモ。 MIT ライセンス。

Khafraは、 筑波大学 自然言語処理 on the Web 研究室が開発した、 オープンソースのフレーズベース統計的機械翻訳(PBSMT)デコーダです。

Khafraデコーダは、 オープンソースのPBSMTシステムMosesにより学習したモデルを利用して翻訳を行います。 探索にDPビームサーチ(詳しくはこちらを参照)を採用することにより、 Mosesに比べて10倍速い翻訳が可能になりました。


  • この日記には本日 名の方が訪問してくださっているようです。 また、昨日は 名の方が訪問してくださったようです。
  • この日記の更新情報の取得には antenna.lirs を利用するのがおすすめです。