ctext2idngram

コマンドの解説

テキスト形式のデータから, クラス言語モデルのための ID n-gram形式のデータID wfreq形式のデータを生成する.

呼び出し形式

    ctext2idngram [option] -vocab file.vocab[.gz] -class file.cls[.gz] -idwfreq outf.idwfreq[.gz] [infile.text[.gz] [outfile.idngram[.gz]]]

-vocab で語彙ファイルを指定し, -class でクラスファイルを指定する. 計算結果のID wfreq形式データの出力先は,-idwfreqで指定する. infile.text, outfile.idngram を省略すると,標準入力と標準出力が 割り当てられる.

オプション

-buffer バッファサイズ(MB)
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル 時に指定するが,そのままコンパイルすると100MBに設定される.
-hash サイズ
集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
-max_class
クラス数の最大値を指定する.デフォルトは65000.
-d デリミタ
textファイルの中の各単語で,クラスの区切りになっている文字を指定する. デフォルトは``+''.
-temp ディレクトリ
ソートのための一時ファイルを置くディレクトリを指定する.
-n 長さ
生成されるn-gramの長さを指定する.デフォルトは3.
-write_ascii
バイナリでなく,テキスト形式で出力する.
-one_unk
未知語を1個のシンボルとして扱う.このオプションがない場合, 未知語はクラスごとに別なシンボルとして扱われる.
-verbosity 数字
実行時に,どの程度の情報を出力するかを制御する.0を指定すると, 余計な情報の出力をしない.デフォルトは2.

参照項目

wfreq2vocab, text2idngram