wfreq2vocab

コマンドの解説

wfreq形式のデータから, vocab形式の語彙ファイル を生成する.

呼び出し形式

    wfreq2vocab [-top N] [-gt m] [infile.wfreq[.gz] [outfile.vocab[.gz]]]

-topか-gtのどちらかのオプションを必ず指定する. -top N を指定すると,頻度順に上位N個の単語を選んで語彙とする. -gt m を指定すると,出現頻度がm回以上の単語を選んで語彙とする. infile, outfile にはgzipで圧縮されたファイルを指定しても良い. ファイル名を省略すると,標準入力・標準出力が割り当てられる.

参照項目

text2wfreq