NUANCE 語音識別客戶端
RCEngine 實現(xiàn)總結(jié)
編寫目的:
本文只是一個純技術(shù)性的文檔,主要從編程角度敘述了利用 RCEngine 開發(fā)語音識別的過程與步驟,具體語音識別的理論,請參考 Nuance 的相關(guān)技術(shù)材料。另外閱讀本文是最好是配合瀏覽 Nuance 的例子程序,以便加深理解。
1. 基礎(chǔ)概念:
RCEngine :
是一個封裝了語音識別,語音文件操作,電話控制的類,它派生自 RCEngineInterface 抽象基類。所以要在程序中調(diào)用 Nuance 的語音識別功能你就必須實例化 RCEngine 。
NotifiableAdapter :
RCEngine 的所有函數(shù)都是異步函數(shù),它使用確認 --- 通知形式與用戶程序通信,要獲取到這些確認和通知消息你必須建立一個消息處理類,而這個類必須派生自 NotifiableAdapter ,并且在實例化 RCEngine 時把本類指針交給 RCEngine 。
Application object :
通常 Nuance 把一個派生自 NotifiableAdapter 的且與一個 RCEngine 對象對應(yīng)得實例化對象稱為一個 Application object 。一個應(yīng)用程序可以根據(jù)自己有多少個 license 來創(chuàng)建多個 Application object 。在 Nuance 的例子和我寫的客戶端中 RCAPP 就是一個 Application object 。
Dispatcher object :
他是個事件分發(fā)對象,他一直都在不斷的作把識別事件分發(fā)給各個 RCEngine 的循環(huán),當所有的 RCEngine 都摧毀時他便自動結(jié)束事件循環(huán)。
Triggerable :
觸發(fā)器,你若要讓 Dispatcher 自動在某觸發(fā)事件放生時調(diào)用你的處理函數(shù),那么你的處理函數(shù)實現(xiàn)的類必須要派生于 Triggerable 。所以我的代碼中 RCAPP 也派生于這個類。
2. 本客戶端組成:
RCAPP : 擔當 Application object 和 Triggerable 角色。
AudioSampleFetcher : 一個為 RCEngine 提供識別數(shù)據(jù)的輔助類。
CRCDispatcher : 擔當 Dispatcher object 角色。
3. 本程序中各個類之間的關(guān)系:
每個 RCAPP 包含一個 AudioSampleFetcher 為它在識別時提供數(shù)據(jù)。
系統(tǒng)中可根據(jù) license 個數(shù)創(chuàng)建多個 RCAPP 。各個 RCAPP 的消息需要由 CRCDispatcher 分發(fā)。而 CRCDispatcher 是個消息分發(fā)的循環(huán)體,它只有在所有 RCAPP 都被刪除時才退出循環(huán)。 CRCDispatcher 在系統(tǒng)中只可以有一個。
4. 識別客戶端初始化流程:
一個客戶端從創(chuàng)建到開始可以進行識別需要一系列對象創(chuàng)建過程,這個過程很重要,而且也比較復(fù)雜。下面我將一步步地把這個過程描述出來:
4.1. Dispatcher object 的創(chuàng)建:
這是所有操作的開始點。我們需要一些準備工作來創(chuàng)建這個 Dispatcher 對象:
4.1.1. 創(chuàng)建一個 NuanceConfig 對象:
對于單獨語法包的客戶端,我們可以用函數(shù) NuanceConfigBuild ()來創(chuàng)建,只要向它提供語法包路徑就可以了。對于多語法包的客戶端我們要用 NuanceConfigBuildFromCommandLine ()函數(shù)來創(chuàng)建,創(chuàng)建時把所有參數(shù)作為一個存放字符串數(shù)組 (char**) 放到它的第二個參數(shù)里,它第一個參數(shù)是參數(shù)個數(shù)。這里必須要注意第二個參數(shù)的數(shù)據(jù)的格式和空格大小寫等,任何一個錯誤都會引起創(chuàng)建失敗。我的做法是用一個配置文件存儲所有的參數(shù),然后逐一讀出,組裝成一個字符串指針數(shù)組。下面是我的配置文件的部分:
packagedir=H:\GHT\ICA\CVP_M
packagedir=H:\GHT\ICA\CVP_C
audio.Provider=mem
client.Behaviors=calllog,timeout
。。。。
讀出整理后要求的格式是:
-package
H:\GHT\ICA\CVP_M
–package
H:\GHT\ICA\CVP_M
audio.Provider=mem
client.Behaviors=calllog,timeout
。。。。
上面每一行作為字符串( char* )分別存儲到以下的 punit 數(shù)組中:
typedef char* _tCmdLnUnit;
_tCmdLnUnit punit[256];
然后再調(diào)用 NuanceConfigBuildFromCommandLine ()
4.1.2. 創(chuàng)建一個 Dispatcher :
這部分比較簡單只要把上一步創(chuàng)建的 NuanceConfig 作為參數(shù)傳入 Dispatcher 的構(gòu)造函數(shù)即可。
4.2. 創(chuàng)建 Application object :
4.2.1. 創(chuàng)建 RCAPP :
本客戶端的 RCAPP 對象就是 Application object 對象。它派生于 NotifiableAdapter 和 Triggerable ,并且它有一個 RCEngine * 的內(nèi)部成員。
4.2.2. 創(chuàng)建 RCEngine :
其構(gòu)造函數(shù)為: RCEngine(NuanceConfig const* config, DispatcherInterface & dispatcher, Notifiable & notifiable, NuanceStatus & status) ;把剛才創(chuàng)建的 NuanceConfig 對象、 Dispatcher 對象、 RCAPP 對象的指針作為參數(shù)即可。
4.3. 啟動 Dispatcher 的消息循環(huán):
4.3.1. 創(chuàng)建一個線程:
Dispatcher 的消息循環(huán)需要獨占一個線程。
4.3.2. 執(zhí)行消息循環(huán):
只要執(zhí)行 Dispatcher 的 Dispatch ()函數(shù)即可。該函數(shù)不會退出,除非所有 RCEngine 都被刪掉。當它退出時,就是這個 Dispatcher 應(yīng)該被刪除的時候了。
4.4. HandleInitializationCompleted 被調(diào)用:
當你的 Application object 的 HandleInitializationCompleted 被調(diào)用時且通告狀態(tài)值是 NUANCE_OK 時,說明你的 RCEngine 已初始化成功了。但注意這里并不是表示你可以進行識別了,你還需要做以完一下工作:
4.4.1. 設(shè)置播音為外部:
因為我們使用的是自己的播放音平臺,所以必須設(shè)定是外部播音。
4.4.2. 打開數(shù)據(jù)庫
我們要用到動態(tài)語法所以必須要打開數(shù)據(jù)庫。用函數(shù) OpenDatabase ()打開數(shù)據(jù)庫,這里要提供 odbc 數(shù)據(jù)源名稱,用戶帳號,數(shù)據(jù)庫類型的信息。
4.4.3. 打開 calllog 通道
調(diào)用 OpenCalllogChannel ()函數(shù)打開 callog 通道讓 Nuance 把 callog 放到 NuanceConfig 對象創(chuàng)建時參數(shù)指定的位置,否則 callog 會放到客戶端程序同樣路徑下。
4.4.4. 創(chuàng)建 AudioSampleFetcher :
這是個為識別提供數(shù)據(jù)的輔助類,在這里創(chuàng)建比較合適。
4.5. HandleNuanceDBOpened :
通告狀態(tài)值是 NUANCE_OK 時,說明你的數(shù)據(jù)庫打開成功。這個時候,你的初始化成功完成了。你可以進入下一步,開始識別了。
4.6. 啟動識別:
4.6.1. 設(shè)定識別閥值:
當?shù)淖R別得分,低于這個值時,識別結(jié)果就會被拒絕。
4.6.2. 設(shè)定 NoSpeechTimeoutSecs 值:
當 RCEngine 啟動超后在該值時間內(nèi)沒有人聲輸入,系統(tǒng)就會結(jié)束識別并返回 NoSpeechTimeout 信息。
4.6.3. 預(yù)定義輸出結(jié)果格式:
當需要格式化的識別結(jié)果時,要在這里設(shè)定好結(jié)果的輸出格式。比如我們輸入的格式是: <&confidence>spelling:<spelling> 則輸出的結(jié)果可以是: 69 spelling:chai4 shan1 shan1 . 表示識別分數(shù) 69, 識別出來的 slot (這里是 <spelling> )對應(yīng)的值是 chai4 shan1 shan1 。
4.6.4. 啟動識別:
使用 RCEngine 的 RecognizeUtterance ()函數(shù)啟動識別。這里要提供一個 Top grammar ,也就是靜態(tài)語法中的 top grammar. 識別過程需要一定的時間等待結(jié)果,若你要在被過程中啟動超時則可以通過設(shè)定 behavior.timeout.ExternalPromptDone 為 TRUE ,讓之前設(shè)定的 NoSpeechTimeoutSecs 生效。
4.6.5. 啟動錄音:
由 AudioSampleFetcher 的 StartPlatformDependentRecording 函數(shù)調(diào)用外部錄音平臺錄音。 AudioSampleFetcher 會創(chuàng)建觸發(fā)器,該觸發(fā)器會每 100 毫秒(該值可以在啟動觸發(fā)器時自己定義,推薦用默認的 100 毫秒)進行一次錄音數(shù)據(jù)的輸入。
4.6.6. 發(fā)現(xiàn)人音 HandleStartOfSpeech :
正常的話,當在音頻數(shù)據(jù)中發(fā)現(xiàn)人聲時,你的 application object 的 HandleStartOfSpeech 被調(diào)用。這時你可以停掉外部的平臺放音。
4.6.7. 發(fā)現(xiàn)語音結(jié)束點 HandleEndOfSpeech :
當識別系統(tǒng)認為人聲結(jié)束時,你的 application object 的 HandleEndOfSpeech 會被調(diào)用。
4.6.8. 發(fā)現(xiàn)語音結(jié)束點 HandleRecognitionStopped :
當系統(tǒng)識別結(jié)束時這個 application object 的 HandleRecognitionStopped 會被調(diào)用。這時你要做的是用 AudioSampleFetcher 的 StopPlatformDependentRecording 停掉外部平臺錄音。用 RecResultGetType ()獲取識別結(jié)束原因,除了成功外,其中還飽含識別失敗的原因等,用 RecResultGetTextResult 獲取識別的格式化結(jié)果。至此一次識別結(jié)束。
5. 識別客戶端的關(guān)閉:
識別客戶端關(guān)閉的具體步驟是:
5.1. 停止所有識別任務(wù):
用 RCEngine 的 Abort ()函數(shù)終止一切操作。
5.2. 關(guān)閉動態(tài)語法數(shù)據(jù)庫:
用 RCEngine 的 CloseDatabase ()關(guān)閉語法數(shù)據(jù)庫。
5.3. 刪除所有 Application object( 在它釋構(gòu)時刪除它的 RCEngine 對象成員 ) :
即刪除本客戶端的 RCAPP 對象。
5.4. Dispatcher 退出消息循環(huán)時刪除 Dispatcher object 對象:
這里一定要等到 Dispatcher 自動退出循環(huán)才刪掉這個對象,不然會引起錯誤。
lyman
2005.12.30