«前の日記(2011.04.09 / Saturday) 最新 次の日記(2011.04.12 / Tuesday)» 編集

Hena Hena Nikki

2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|10|11|12|
2012|01|02|03|04|05|06|07|08|10|12|
2013|01|02|04|06|

2011.04.10 / Sunday [長年日記]

* [computer] xml2list.rb: 日本語機能表現辞書つつじ「XML→CSV」変換スクリプト

日本語機能表現辞書つつじの「XML→CSV」変換スクリプト xml2list.rb を公開しました。

$ wget -c http://quruli.ivory.ne.jp/download/20110408_tsutsuji.tar.gz
$ gzip -cd 20110408_tsutsuji.tar.gz | tar xvf -
$ cd 20110408_tsutsuji
$ make

上記の操作で L*.list (CSV ファイル) が生成されます。 xml2list.rb 単体で動かす場合は以下の通りです。

$ ruby -Ku xml2list.rb [options] < tsutsuji1.1.xml | iconv -f 'UTF-8' -t 'ECU-JP' > output.csv

出力の文字コードが UTF-8 である以外は、つつじ付属の xml2list.perl と同じ挙動です。 違いはインタプリタの非標準モジュールを使用しているか否か (xml2list.rb は普通にインストールした Ruby 単体で動く) です。

* [computer] sl(1) Mac OS X version 1.0.4 を Mac OS X 10.6 にインストールする

$ wget -c http://home.hiroshima-u.ac.jp/nyoho/slMacOSX.tar.gz
$ gzip -cd slMacOSX.tar.gz | tar xvf -
$ cd slMacOSX
$ wget -c http://quruli.ivory.ne.jp/download/slMacOSX.diff.gz
$ gzip -cd slMacOSX.diff.gz | patch -p1
$ make
$ sudo mkdir -p /usr/local/bin
$ sudo cp sl /usr/local/bin/

* [computer] グルメ&レシピ・コーパス@April, 2011

形態素数約 3.5 億、文数約 15 百万、異なり形態素数約 63 万になった。

* [computer] 旅行&散歩コーパス@April, 2011

形態素数約 1.7 億、文数約 7.3 百万、異なり形態素数約 49 万になった。


  • この日記には本日 名の方が訪問してくださっているようです。 また、昨日は 名の方が訪問してくださったようです。
  • この日記の更新情報の取得には antenna.lirs を利用するのがおすすめです。