«前の日記(2010.11.20 / Saturday) 最新 次の日記(2010.11.24 / Wednesday)» 編集

Hena Hena Nikki

2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|10|11|12|
2012|01|02|03|04|05|06|07|08|10|12|
2013|01|02|04|06|

2010.11.21 / Sunday [長年日記]

* [computer/update] TRAMP ver.2.2.0

Emacsen にリモート・ファイル編集機能を提供するパッケージ。

* [computer/update] Wireshark ver.1.4.2

network protocol analyzer。

* [computer] SRILM を使って vocab ファイルを作成する

GNU sort を使えば簡単に作成できる。

gzip -cd hoge.1.txt.gz hoge.2.txt.gz ... \
| ngram-count -order 1 -text '-' -write '-' \
| sort -nr -k 2 \
| sed -r 's|[ \t]+[0-9]+[ \t]*$||' \
| head -n 32000 \
| gzip -c9 > hoge.vocab.gz

head のオプションの数字は、生成する vocab ファイルの語彙数と等しい。

これ、MSRLM 付属の Makefile に書かれている内容を参考にしている。 sort コマンドの -n, -k N 引数、私は知らなかった。


  • この日記には本日 名の方が訪問してくださっているようです。 また、昨日は 名の方が訪問してくださったようです。
  • この日記の更新情報の取得には antenna.lirs を利用するのがおすすめです。