julius/realtime-1stpass.c

実時間認識のための第1パスの平行処理 [詳細]

#include <julius.h>

realtime-1stpass.cのインクルード依存関係図

関数
static void	init_param ()
void	RealTimeInit ()
void	RealTimePipeLinePrepare ()
int	RealTimePipeLine (SP16 *Speech, int nowlen)
	第1パス平行音声認識処理のメイン
HTK_Param *	RealTimeParam (LOGPROB *backmax)
void	RealTimeCMNUpdate (HTK_Param *param)
void	RealTimeTerminate ()
変数
static HTK_Param *	param = NULL
	< Define if you want local debug message
static float *	bf
	Work space for FFT.
static DeltaBuf *	db
	Work space for delta MFCC cycle buffer.
static DeltaBuf *	ab
	Work space for accel MFCC cycle buffer.
static VECT *	tmpmfcc
	Work space to hold temporarl MFCC vector.
static int	maxframelen
	Maximum allowed input frame length.
static int	last_time
	Last processed frame.
static boolean	last_is_segmented
	TRUE if last pass was a segmented input.
static int	f_raw
	Frame pointer of current base MFCC.
static int	f
	Frame pointer where all MFCC computation has been done.
static SP16 *	window
	Window buffer for MFCC calculation.
static int	windowlen
	Buffer length of window.
static int	windownum
	Currently left samples in window.

説明

実時間認識のための第1パスの平行処理

作者:: Akinobu Lee

日付:: Tue Aug 23 11:44:14 2005

第1パスを入力開始と同時にスタートし，入力と平行して認識処理を行うための関数が定義されている．

通常，Julius の音声認識処理は以下の手順で main_recognition_loop() 内で実行される．

音声入力 adin_go() → 入力音声が speech[] に格納される
特徴量抽出 new_wav2mfcc() →speechから特徴パラメータを param に格納
第1パス実行 get_back_trellis() →param とモデルから単語トレリスの生成
第2パス実行 wchmm_fbs()
認識結果出力

第1パスを平行処理する場合，上記の 1 〜 3 が平行して行われる． Julius では，この並行処理を，音声入力の断片が得られるたびに認識処理をその分だけ漸次的に進めることで実装している．

特徴量抽出と第1パス実行を，一つにまとめてコールバック関数として定義．
音声入力関数 adin_go() のコールバックとして上記の関数を与える

具体的には，ここで定義されている RealTimePipeLine() がコールバックとして adin_go() に与えられる．adin_go() は音声入力がトリガするとその得られた入力断片ごとに RealTimePipeLine() を呼び出す．RealTimePipeLine() は得られた断片分について特徴量抽出と第1パスの計算を進める．

CMN について注意が必要である．CMN は通常発話単位で行われるが，マイク入力やネットワーク入力のように，第1パスと平行に認識を行う処理時は発話全体のケプストラム平均を得ることができない．バージョン 3.5 以前では直前の発話5秒分(棄却された入力を除く)の CMN がそのまま次発話に流用されていたが，3.5.1 からは，上記の直前発話 CMN を初期値として発話内 CMN を MAP-CMN を持ちいて計算するようになった．なお，最初の発話用の初期CMNを "-cmnload" で与えることもでき，また "-cmnnoupdate" で入力ごとの CMN 更新を行わないようにできる． "-cmnnoupdate" と "-cmnload" と組み合わせることで, 最初にグローバルなケプストラム平均を与え，それを常に初期値として MAP-CMN することができる．

主要な関数は以下の通りである．