multi plat-home な message user agent。
Windows では定番の message user agent。
オブジェクト・ファイル・ユーティリティ。
オープン・ソースの美しい和文フォント。
事前に gettext, iconv をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/sharutils/sharutils-4.9.tar.bz2 $ bzip2 -cd sharutils-4.9.tar.bz2 | tar xvf - $ cd sharutils-4.9/ $ ./configure $ make && make check $ sudo make install
CFLAGS
はお好みで。
動的な web page 作成に向いているスクリプト言語。
Windows 向け scp, sftp, ftp クライアント。
外部リソースを上手に使いこなせていない感じ。 情報共有に時間を惜しむとろくなことがない。 自分はもちろん、外の方々にも、その点をもっと意識する・意識してもらうことが必要なのだろう。
来週は 情報処理学会 (IPSJ)、 言語処理学会 (NLP)、 音響学会 (ASJ) の年次大会が都内で開催される。 知り合いのほとんどが ASJ の大会に行く中、自分は NLP にしか行かない予定。 …別に遠い調布市には行きたくないとか、そういう話ではない。 遠いといえば、NLP の受付と会場がとても離れているのは嫌なところ。 天気が悪くなければまだ良いのだけれど。
先月受検した TOEIC の結果が返ってきた。 いちおう受検する毎に少しずつ点数が上がっているけど、そろそろ頭打ちになりそう。 ちゃんと勉強しないと駄目かな。 そもそも今まで勉強せずに点数が上がってきたのが変だったわけで。
Windows 上で動作する Linux カーネル。
CFLAGS
などはお好みで。
$ wget -c http://tamacom.com/global/global-5.8.1.tar.gz $ gzip -cd global-5.8.1.tar.gz | tar xvf - $ cd global-5.8.1/ $ ./configure $ make && make check $ sudo make install
Windows 上で使用できる X Window Server。
チュートリアルを聴講。
東京大学の岡野原さんのご講演。 資料が公開されている。 知らないツールの情報が出てきたので、後でチェックしたい。 …この講演内容がちゃんと理解できたら、後々いろいろと楽ができるようになるのだけれど、なかなか難しい。
東京大学の田浦先生のご講演。 この時間、大学提供の Wi-Fi 環境が異様に切れまくった。 WiMAX 環境を用意しておけば良かった…。
はてなの naoya さんのご講演。 実際に業務で使用している技術 (というか実装) に関するお話が聴けた。 ある意味 NLP らしくない内容だったのかもしれないけど、 とても興味深く聴くことができた。 本当に素晴らしいお話だった。
解析のセッションに行くか少し悩んだけど、 座長をされる Yahoo! Japan の颯々野さん見たさにこちらのセッションを選択。 みんなのレシピ (@nifty) については、 後で自分でも試してみたいと思う。
NICT の赤峯さんの御発表、 質疑応答でも少し言われていたように、もっとノウハウ中心に話してもらえたら嬉しかった。 個人的には WISDOM よりそちらの方に価値を感じる。 あと NYU の関根先生の御発表も興味深かった。 楽天が米国の研究所を作るなんて、考えもしなかった。
関係ないけど、僕が所有している料理関係の blog データは、 形態素数約 1.7 億 (異なりでは約 46 万)、文数約 800 万。 形態素解析済みでないページがまだそれなりにあるので、 実際には更に数割程度は多いと考えて良いはず。
Windows 上で動くシンプルな CSV エディタ。
メモ。 MIT ライセンス。
Khafraは、 筑波大学 自然言語処理 on the Web 研究室が開発した、 オープンソースのフレーズベース統計的機械翻訳(PBSMT)デコーダです。
Khafraデコーダは、 オープンソースのPBSMTシステムMosesにより学習したモデルを利用して翻訳を行います。 探索にDPビームサーチ(詳しくはこちらを参照)を採用することにより、 Mosesに比べて10倍速い翻訳が可能になりました。
軽快・軽量な SQL データベース・エンジン。
ポスター発表があったけど、業務のため参加せず。 「形態素解析辞書のベンチマークテスト −IPAdic・NAIST-jdic・UniDicのジャンル別精度比較−」は 見に行っていくつか質問したかったのだが…。
PGP を置き換える完全かつフリーなソフトウェア。
事前に gettext, iconv をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/tar/tar-1.23.tar.bz2 $ bzip2 -cd tar-1.23.tar.bz2 | tar xvf - $ cd tar-1.23/ $ ./configure $ make && make check $ sudo make install
CFLAGS
はお好みで。
事前に readline, ncurses をインストールしておくと良い。
$ wget -c http://www.sqlite.org/sqlite-amalgamation-3.6.23.tar.gz $ gzip -cd sqlite-amalgamation-3.6.23.tar.gz | tar xvf - $ cd sqlite-3.6.23/ $ ./configure $ make && make check $ sudo make install
CFLAGS
等はお好みで。
京都大学の方々の御発表を聴きたくて選択。 …なのに、他の作業をしながら聴いてしまい、内容があまり記憶に残っていない。 後で資料を見直さなくては。
NICT 所属の方々の御発表が多く、 そのうちのいくつかはちょうど興味を持っている話題だった。 未知の情報を得ることができて良かった。
名古屋大学の方々の御発表と NICT の黒田さんの御発表が面白かった。 後者に関してはもうちょっと詳細なお話を聴きたかったが、 やはり 15 分程度では厳しいところだろう。 残念。
本日の発表分の資料 (PDF) のうち、 ライセンス的にも品質的にも明らかに問題のあるフォントが埋め込まれているものがあり、 ちょっとがっかりさせられた。 言語処理学会で発表する人がそういうことに無頓着なのは、 さすがに情けない気がする。
辞書共有型の日本語入力環境 Social IME が オープン・ソース化された (see code.google.com)。 組織内限定でサーバを立て辞書を共有するとか、そういう使い方ができそう。
MeCab ユーザー辞書で各形態素のコスト項を、どう付与すべきかいろいろと考えてみた。 本体辞書のコスト学習時に該当形態素がないことから、どうしても問題が生じるわけだが、 それなりに納得いく方法が見つかったので、覚書としてまとめる。
そもそも、MeCab の辞書 (NAIST Japanese Dictionary ver.0.6.1-20090630) を 読むとどうなっているのか。 以下に列挙する。
コストの大きさは 大雑把に「片仮名のみの単語 < 漢字のみの単語 < 平仮名のみの単語」および 「長い形態素 < 短い形態素」と考えられる。 もちろん細かく見ていくとこの傾向に当てはまらないものも多いが、 ユーザー辞書用にコストを算出する分には十分に参考になるはず。
読み・発音が複数ある形態素は、 茶筌の辞書とは違い、 複数の独立したエントリとして書かれている。 これらのエントリはコストが等しいことが多い (異なることもある)。 このため、発音情報が重要な役割を持つ音声認識で MeCab を使う際には、多少の注意と工夫が必要になる。
表記揺れおよび複合語に関する情報がある。 表記揺れの情報は、用言に多く付与されている一方で、体言にはほぼ付与されていない印象がある。 複合語については、複合語を避けたいならそもそも該当エントリを削除する方法も考えられるが、 その際にコストの整合性が怪しくなることを忘れてはいけないと思う。
ここでは、コスト算出の方法について述べるため上記 1 だけ考慮すれば良いのだが、 2 および 3 についても、 ユーザー辞書にエントリを追加する際に参考になると思い、念のために記しておいた。
[後で追記する…ハズ]
CFLAGS
等はお好みで。
$ wget -c http://www.ijg.org/files/jpegsrc.v8a.tar.gz $ gzip -cd jpegsrc.v8a.tar.gz | tar xvf - $ cd jpeg-8a/ $ ln -s /usr/bin/glibtool libtool $ ./configure --enable-shared $ make $ sudo make install
Python ということで今まで避けていたけどメモ。
Open source Python modules, linguistic data and documentation for research and development in natural language processing, supporting dozens of NLP tasks, with distributions for Windows, Mac OSX and Linux.
Emacsen にリモート・ファイル編集機能を提供するパッケージ。
Mac OS X らしさを詰め込んだ MPlayer 実装。
HTTP, HTTPS, FTP などに対応したプロキシ・サーバ。
複数のプラットフォーム上で動く BitTorrent クライアント。
UNIX 系 OS 上で動く Windows API の実装。 開発版。
対話型グラフ描画ツール。
事前に readline, ncurses, libz, libgb, X11, libjpeg, libfontconfig, FreeType, libpng, libiconv, TeX, GNU plotutils あたりをインストールしておくと良い。
$ wget -c http://jaist.dl.sourceforge.net/sourceforge/gnuplot/gnuplot-4.4.0.tar.gz $ gzip -cd gnuplot-4.4.0.tar.gz | tar xvf - $ cd gnuplot-4.4.0/ $ ./configure --with-x --with-kpsexpand --with-plot=/usr/local $ make && make check $ sudo make install
CFLAGS
などはお好みで。
事前に iconv, gettext, libidn をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/gsasl/gsasl-1.4.2.tar.gz $ gzip -cd gsasl-1.4.2.tar.gz | tar xvf - $ cd gsasl-1.4.2/ $ ./configure --disable-nls $ make && make check $ sudo make install
CFLAGS
などはお好みで。
CFLAGS
などはお好みで。
$ wget -c http://ftp.gnu.org/gnu/libtasn1/libtasn1-2.5.tar.gz $ gzip -cd libtasn1-2.5.tar.gz | tar xvf - $ cd libtasn1-2.5/ $ ./configure $ make && make check $ sudo make install
事前に gettext, iconv, libgpg-error, libgcrypt, libtasn1, LZO, zlib, readline, GAA をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/gnutls/gnutls-2.8.6.tar.bz2 $ bzip2 -cd gnutls-2.8.6.tar.bz2 | tar xvf - $ cd gnutls-2.8.6/ $ ./configure --with-lzo $ make && make check $ sudo make install
CFLAGS
などはお好みで。
美しい GUI を持つ多機能と軽快さを兼ね備えた message user agent。
Cocoa な Gecko 系 web browser。 メンテナンス・リリース。
GNU プロジェクト製のデバッガ。
小町さんの blog の記事。 後で読む。
持橋さんの MCMC 研究会発表資料。 後で読む。
メモ。
lwlm is an exact, full Bayesian implementation of the Latent Words Language Model (Deschacht and Moens, 2009). It automatically learns synonymous words to infer context-dependent "latent word" for each word appearance, in a completely unsupervised fashion.
先週末で 2 つ案件が一段落したので、気分的にはかなり楽になった。 とは言え、アクティブな案件が 4 つあるので、まだまだ気は抜けない。 …というわけで、やはり忙しいことに変わりはなかった。
開発者、御本人の blog 記事から。 メモ。
RSense は Java で書かれた Ruby のための開発補助ツールです。 UNIX の思想に従うことで、RSense はどこからでも簡単に使えるようになっています。 Emacs や Vim などのエディタからも利用できます。 RSense は透明性を保つことで簡単に学習・拡張・修正できるよう設計されています。
事前に iconv, gettext をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/bison/bison-2.4.2.tar.bz2 $ bzip2 -cd bison-2.4.2.tar.bz2 | tar xvf - $ cd bison-2.4.2/ $ ./configure $ make && make check $ sudo make install
CFLAGS
はお好みで。
街 (正確には駅) を指定し、類似している街を検索するサービス。 情報入力者がもっと増えれば面白くなりそう。
都内に引っ越そうと思っているのだが、 良い街のマンションは家賃が高くてなかなか厳しい。 通勤の都合上、南北線が希望なのだが、普通に考えたら北区の王子〜赤羽岩淵になるのだろうな。 ちなみに南北線なら、今の所属はもちろん、 仮に某社に転職したとしても (また転職する気なのか! と言われそうだが…) 全く問題がない。
シンプルで小さい DOM な XML パーサ。
本質的なシンプルさを備えているスクリプト言語。
本質的なシンプルさを備えているスクリプト言語。 メンテナンス・リリース。
大阪府の造船メーカ、サノヤス・ヒシノ明昌社の TV CM。 濃い。
田中美保さんが PV で出ている。
Julius の VAD 処理・入力棄却を GMM で実現するための具体的かつ実務的な解説。 メモ。
開発が止まっている WaveSurfer を使わないで済む方法が知りたいな。 … HTK 単体でできるような気もするけど、調べたことがないから知らない。
自然言語処理方面でちょっとしたツールを書いてみた感想なのだけれど、 本当に「みんなの意見は意外に正しい」のだなと思うに至った。 もちろん情報源まわりの前提はあるのだろうけど、 それにしても予想を超えるレベルで意外に正しいのだから、本当に恐れ入る。
シンプルで小さい DOM な XML パーサ。
Mac OS X のシステムの設定などをするツール。
定番の multi platform な web browser。
UNIX 系 OS や Windows 上で動くウィンドウ・アプリケーション統合開発環境。
Windows 上で使用できる X Window Server。
Mac OS X 上で MPEG-4 系ムービーを再生可能にする QuickTime プラグイン。
事前に ncurses, libsndfile を入れておいた方が良い。
$ wget -c 'http://downloads.sourceforge.net/project/lame/lame/3.98.4/lame-3.98.4.tar.gz?use_mirror=jaist' $ gzip -cd lame-3.98.4.tar.gz | tar xvf - $ cd lame-3.98.4/ $ ./configure --with-fileio=sndfile --enable-decode-layer1 $ make && make test $ sudo make install
CFLAGS
はお好みで。
事前に PCRE library, gettext, iconv を入れておくと良い。
$ wget -c http://ftp.gnu.org/gnu/grep/grep-2.6.tar.xz $ xz -cd grep-2.6.tar.xz | tar xvf - $ cd grep-2.6/ $ ./configure $ make && make check $ sudo make install
CFLAGS
はお好みで。
make check で 1 ヶ所コケる。
RubyCocoa で実装された Mac OS X 向け IRC クライアント。
インターネットを使って地上波ラジオ放送をリアルタイムに聴くことができるサービス。 試験提供中 (3/15〜8/31 の予定)。
事前に libreadline, zlib, bzip2 をインストールしておくと良い。
$ wget -c ftp://ftp.csx.cam.ac.uk/pub/software/programming/pcre/pcre-8.02.tar.bz2 $ bzip2 -cd pcre-8.02.tar.bz2 | tar xvf - $ cd pcre-8.02/ $ ./configure --enable-rebuild-chartables --enable-pcregrep-libz --enable-pcregrep-libbz2 --enable-pcretest-libreadline $ make && make check $ sudo make install
CFLAGS
などはお好みで。
TCP 系プロトコルを暗号化する汎用 SSL ラッパー。
RubyCocoa で実装された Mac OS X 向け IRC クライアント。
事前に iconv, gettext, libidn をインストールしておくと良い。
$ wget -c http://ftp.gnu.org/gnu/gsasl/gsasl-1.4.4.tar.gz $ gzip -cd gsasl-1.4.4.tar.gz | tar xvf - $ cd gsasl-1.4.4/ $ ./configure --disable-nls $ make && make check $ sudo make install
CFLAGS
などはお好みで。
QuickTime で Windows Media 系ファイルを扱える様にするコンポーネント。
SSL/TLS 環境の定番。
Mail Transport Agent。
仮想 x86 環境。
Adobe 純正の PDF ビューワ。
Windows 上で動く高機能な DVD 系メディアのリッピング・ツール。
寒さにやられ首〜腰が痛くなって休むなどしたが、それを除けば悪くなかった。 とはいえ、時間の使い方が悪くなりかかっていたので、月曜日に見直さないと。
前職で共同研究をした研究者と会う機会があり、先方の最新研究について説明してもらった。 最近のテーマが以前のそれより身近なものになっていたが、狙いとしてはとても面白いものだった。
最近、かなり大きなコーパスを扱っているのだが、 32bits 環境 (Mach-O/i386 バイナリ) では処理し切れないことが多くて困っている。 さっさと 64bits 環境 (Mach-O/x86_64 バイナリ) に移行しないとまずそうだ…。
既知の情報だけど、誤解している人もいるようなので、ちょっとまとめてみる。
- | オプションなし時に GCC が生成するバイナリ | 標準で起動する kernel | インストーラが含むバイナリ | 動作可能なバイナリ |
---|---|---|---|---|
Leopard | Mach-O/i386 | 32bits | Mach-O/i386 (PowerPC 系は除く) | Mach-O/i386, Mach-O/x86_64 |
Snow Leopard | Mach-O/x86_64 | 32bits (一部環境では 64bits) | Mach-O/i386, Mach-O/x86_64 | Mach-O/i386, Mach-O/x86_64 |
以前、Core 2 Duo 上の Leopard で Mach-O/x86_64 バイナリを組み立てて動かしていたが、 組み立てるのにけっこうな苦労を要することが多く、正直、あまりおすすめできない。 余程の理由がなければ、大人しく Snow Leopard に入れ替えてから Mach-O/x86_64 バイナリを扱った方が良い。
それと Snow Leopard の 64bits kernel だが、こちらもあまりおすすめできない。 ちゃんと追ったわけではないが、一部の言語処理ツールが変な動作を見せていて困っている。
これは豪華過ぎる。
NUMBER GIRL の向井さんはもちろん、くるりのメンバーもまだ若い雰囲気がある。
東京事変の第一期メンバーによるライブ@万博記念公園, 2004。 貴重。
会場の関係もあるのだろうけど、くるりのライブとは本当に雰囲気が違う。
ntp.so-net.ne.jp
が使えるようだ。
より正確には ntp01.so-net.ne.jp
と ntp02.so-net.ne.jp
があり、
手元で ntp.so-net.ne.jp
を参照した際は前者を見ることになった。
今まで
ntp.ring.gr.jp
と
ntp.jst.mfeed.ad.jp
を
参照するようにしていたけど、
今度から自宅サーバでは ntp.so-net.ne.jp
も参照するようにしよう。
$ ntpq -p remote refid st t when poll reach delay offset jitter ============================================================================== +ntp01.so-net.ne 211.10.62.120 2 u 58 64 377 4.518 38.788 2.472 <- ntp.so-net.ne.jp +udon.nict.go.jp 133.243.238.163 2 u 59 64 377 6.351 35.515 1.550 <- ntp.ring.gr.jp *ntp1.jst.mfeed. 210.173.176.4 2 u 47 64 377 5.457 34.910 1.497 <- ntp.jst.mfeed.ad.jp LOCAL(0) .LOCL. 10 l 55 64 377 0.000 0.000 0.001
他に
jp.pool.ntp.org
と asia.pool.ntp.org
が
有名みたいだ。
C, C++, C#, Objective-C, D, Java などに対応しているコード整形ツール。 メモ。
The goals of this project are simple: Create a highly configurable, easily modifiable source code beautifier.
各種リモート・メール・プロトコルをサポートする定番メール取得・転送ツール。
大して努力しないくせにプライドばかり高く、実力と理想のズレが大きい。 理想をさも実力のように騙り、それを信じる人にばかり近づいて安息する。 それは小学生までしか許されない行為。 社会人になっても続けているようでは、精神的に成長するわけがない。
…しかし、まあ、本当にどこにでもいるのだな。 この手の使えない人材は。
PV があるのは知らなかった。
昨年末ドラマーが加入し、そして最近メジャー・デビューしたらしい。 どちらも知らなかったことだ。
Mac OS X 10.6 系のアップデート・プログラム。
軽快・軽量な SQL データベース・エンジン。
4/21 発売予定の新作。
事前に PCRE library, gettext, iconv を入れておくと良い。
$ wget -c http://ftp.gnu.org/gnu/grep/grep-2.6.2.tar.xz $ xz -cd grep-2.6.2.tar.xz | tar xvf - $ cd grep-2.6.2/ $ ./configure $ make && make check $ sudo make install
CFLAGS
はお好みで。
MC が長く濃い (好き嫌いがハッキリしそうだ…)。
SSL/TLS 環境の定番。
multi plat-home な message user agent。
Apple 社が公開している multimedia のコンポーネント群。 メンテナンス・リリース。
Apple 社が公開しているジュークボックス・ツール。
定番の multi platform な web browser。 メンテナンス・リリース。
Mac OS X の通常のアプリケーションで Anthy や PRIME を利用できるようにするツール。
6/2 発売予定の新作。
CFLAGS
はお好みで。
$ wget -c http://ftp.gnu.org/gnu/gss/gss-1.0.0.tar.gz $ gzip -cd gss-1.0.0.tar.gz | tar xvf - $ cd gss-1.0.0 $ ./configure $ make && make check $ sudo make install
けっこう面白い。 作家陣が気になる。