changeidvocab

コマンドの解説

ID n-gram形式のデータ の語彙を変更する.

ある語彙Vで作成したID n-gramデータをDとする.また, 語彙Vのサブセットであるような語彙V'を考えたとき,元のテキストデータ からV'によって作成したID n-gramをD'とする.changeidvocabは, DからD'を生成するプログラムである.

呼び出し形式

    changeidvocab [options] -from_vocab v1.vocab -to_vocab v2.vocab [in.idngram[.gz]] [out.idngram[.gz]]

オプション

-from_vocab v1.vocab
入力のidngramの語彙ファイルを指定する.
-to_vocab v2.vocab
出力のidngramの語彙ファイルを指定する.v2.vocabに含まれる単語は,すべて v1.vocabにも含まれていなければならない.
-buffer バッファサイズ(MB)
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル 時に指定するが,そのままコンパイルすると100MBに設定される.
-hash サイズ
集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
-temp ディレクトリ
ソートのための一時ファイルを置くディレクトリを指定する.
-n 長さ
生成されるn-gramの長さを指定する.デフォルトは3.
-ascii_input
入力をテキスト形式にする.
-ascii_output
出力をテキスト形式にする.
-verbosity 数字
実行時に,どの程度の情報を出力するかを制御する.0を指定すると, 余計な情報の出力をしない.デフォルトは2.

参照項目

text2idngram