changeidvocab

コマンドの解説

ID n-gram形式のデータの語彙を変更する．

ある語彙Vで作成したID n-gramデータをDとする．また，語彙Vのサブセットであるような語彙V'を考えたとき，元のテキストデータからV'によって作成したID n-gramをD'とする．changeidvocabは， DからD'を生成するプログラムである．

    changeidvocab [options] -from_vocab v1.vocab -to_vocab v2.vocab [in.idngram[.gz]] [out.idngram[.gz]]

-from_vocab v1.vocab: 入力のidngramの語彙ファイルを指定する．
-to_vocab v2.vocab: 出力のidngramの語彙ファイルを指定する．v2.vocabに含まれる単語は，すべて v1.vocabにも含まれていなければならない．
-buffer バッファサイズ(MB): 入力のソートに使うメモリサイズを指定する．デフォルトの値はコンパイル時に指定するが，そのままコンパイルすると100MBに設定される．
-hash サイズ: 集計に用いるハッシュ表の最初の大きさを指定する．デフォルトは20000．
-temp ディレクトリ: ソートのための一時ファイルを置くディレクトリを指定する．
-n 長さ: 生成されるn-gramの長さを指定する．デフォルトは3．
-ascii_input: 入力をテキスト形式にする．
-ascii_output: 出力をテキスト形式にする．
-verbosity 数字: 実行時に，どの程度の情報を出力するかを制御する．0を指定すると，余計な情報の出力をしない．デフォルトは2．