資料內(nèi)容:
一、語音識別 ASR
語音識別(Automatic Speech Recognition),一般簡稱 ASR,是將聲音轉化為文字的過
程,相當于人類的耳朵。
1、識別率
看純引擎的識別率,以及不同信噪比狀態(tài)下的識別率(信噪比模擬不同車速、車窗、空調
狀態(tài)等),還有在線/離線識別的區(qū)別。
實際工作中,一般識別率的直接指標是“WER(詞錯誤率,Word Error Rate)”
定義:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者
插入某些詞,這些插入、替換或刪除的詞的總個數(shù),除以標準的詞序列中詞的總個數(shù)的百
分比,即為 WER。
公式為:
Substitution——替換
Deletion——刪除
Insertion——插入
N——單詞數(shù)目
3 點說明:
WER 可以分男女、快慢、口音、數(shù)字/英文/中文等情況,分別來看。
因為有插入詞,所以理論上 WER 有可能大于 100%,但實際中、特別是大樣本量的時候,是
不可能的,否則就太差了,不可能被商用。
站在純產(chǎn)品體驗角度,很多人會以為識別率應該等于“句子識別正確的個數(shù)/總的句子個
數(shù)”,即“識別(正確)率等于 96%”這種,實際工作中,這個應該指向“SER(句錯誤率,
Sentence Error Rate)”,即“句子識別錯誤的個數(shù)/總的句子個數(shù)”。不過據(jù)說在實際
工作中,一般句錯誤率是字錯誤率的 2~3 倍,所以可能就不怎么看了。
2、語音喚醒相關的指標
先需要介紹下語音喚醒(Voice Trigger,VT)的相關信息。
(1)語音喚醒的需求背景
近場識別時,比如使用語音輸入法時,用戶可以按住手機上 siri 的語音按鈕,直接說話
(結束之后松開);近場情況下信噪比(Signal to Noise Ratio, SNR)比較高,信號清
晰,簡單算法也能做到有效可靠。
但是在遠場識別時,比如在智能音箱場景,用戶不能用手接觸設備,需要進行語音喚醒,
相當于叫這個 AI(機器人)的名字,引起 ta 的注意,比如蘋果的“Hey Siri”,Google
的“OK Google”,亞馬遜 Echo 的“Alexa”等。
(2)語音喚醒的含義
簡單來說是“喊名字,引起聽者(AI)的注意”。如果語音喚醒判斷結果是正確的喚醒
(激活)詞,那后續(xù)的語音就應該被識別;否則,不進行識別。
(3)語音喚醒的相關指標
a. 喚醒率。叫 AI 的時候,ta 成功被喚醒的比率。b. 誤喚醒率。沒叫 AI 的時候,
ta 自己跳出來講話的比率。如果誤喚醒比較多,特別比
如半夜時,智能音箱突然開始唱歌或講故事,會特別嚇人的……
c. 喚醒詞的音節(jié)長度。一般技術上要求,最少 3 個音節(jié),比如“OK Google”和“Alexa”
有四個音節(jié),“Hey Siri”有三個音節(jié);國內(nèi)的智能音箱,比如小雅,喚醒詞是“小雅小
雅”,而不能用“小雅”——如果音節(jié)太短,一般誤喚醒率會比較高。
d. 喚醒響應時間。之前看過傅盛的文章,說世界上所有的音箱,除了 Echo 和他們做的
小雅智能音箱能達到 1.5 秒,其他的都在 3 秒以上。
e. 功耗(要低)??催^報道,說 iPhone 4s 出現(xiàn) Siri,但直到 iPhone 6s 之后才允許不
接電源的情況下直接喊“Hey Siri”進行語音喚醒;這是因為有 6s 上有一顆專門進行語
音激活的低功耗芯片,當然算法和硬件要進行配合,算法也要進行優(yōu)化。