24小時聯(lián)系電話:18217114652、13661815404
中文
技術(shù)專題
語音控制系統(tǒng)中的功耗降低
語音控制系統(tǒng)中的功耗降低
僅使用語音來控制機(jī)器的能力已成為許多商業(yè)和消費(fèi)者系統(tǒng)中的流行功能。但是語音控制的問題在于設(shè)備必須始終處于監(jiān)聽狀態(tài),這意味著必須始終為其供電。不過,新的選擇正在不斷涌現(xiàn),它們可以幫助設(shè)計(jì)人員減少語音激活設(shè)計(jì)的功耗。
使機(jī)器對口頭命令做出適當(dāng)響應(yīng)是一個巨大的處理挑戰(zhàn)。它要求系統(tǒng)首先有一個麥克風(fēng)來拾取聲音,一個數(shù)字轉(zhuǎn)換器將聲音轉(zhuǎn)換成處理器可以使用的東西,然后進(jìn)行大量的數(shù)字信號處理以從聲音中提取語音信息。涉及的處理量將取決于需要識別的命令字的數(shù)量。詞匯量有限的系統(tǒng)可以使用圖1中所示的結(jié)構(gòu)進(jìn)行本地處理,以進(jìn)行單詞發(fā)現(xiàn),而需要自然語音理解的系統(tǒng)可以使用云計(jì)算資源進(jìn)行進(jìn)一步處理。
圖1典型的語音控制系統(tǒng)必須不斷處理聲音以尋找命令字
不幸的是,大多數(shù)時候沒有語音發(fā)生,并且浪費(fèi)了處理和消耗的功率。通過要求用戶首先按下按鈕等來啟動語音處理,可以避免浪費(fèi)。但是,如果僅通過語音激活系統(tǒng),則必須始終捕獲并處理聲音,以免丟失命令。這對于電池供電的應(yīng)用特別引起關(guān)注,因?yàn)檎Z音處理的“始終在線”性質(zhì)可能會消耗大量電池。
為了減少浪費(fèi)的精力并節(jié)省功率,語音處理系統(tǒng)通常會使用“喚醒”字進(jìn)行激活。這種方法所需的功率較小,因?yàn)樵诖蠖鄶?shù)情況下,語音處理只需要能夠識別單個特定單詞,而不是其全部功能詞匯。因此,該系統(tǒng)可以在偵聽喚醒字的同時運(yùn)行更簡單,耗電更少的處理算法,從而暫停整個語音處理工作,直到檢測到喚醒字為止。
為了追求這種方法,業(yè)界已經(jīng)投入大量精力來開發(fā)需要最小功率的喚醒單詞引擎。通常,這些引擎只能識別幾個單詞,從而為用戶提供可能的喚醒選項(xiàng)的選擇。但是,某些引擎可以識別足夠多的單詞,以提供有限形式的語音控制,從而提供多個命令。但是,對于更復(fù)雜的語音控制,喚醒詞引擎的目的只是為了及時激活功能更強(qiáng)大,更耗電的處理,以接收和解釋將跟隨喚醒詞的語音命令。
這些喚醒詞引擎在不斷發(fā)展。最近的一項(xiàng)介紹是將Retune的VoiceSpot單詞斑點(diǎn)算法與CEVA的低功耗DSP系列配對。該組合可以執(zhí)行波束成形和聲學(xué)回聲消除,以提高在存在噪聲的情況下單詞識別以及喚醒單詞識別的可靠性。該算法的總內(nèi)存占用量不到80 KB,主要針對較小的,由電池供電的應(yīng)用,例如耳塞,智能手表和運(yùn)動相機(jī)。
另一個最新的介紹將Cyberon的CSpotter算法與瑞薩的RA6系列微控制器結(jié)合使用。該算法使用基于音素的建模,支持30多種語言。它可以用作喚醒引擎或使用多個不同的命令集提供本地語音控制。該處理器為數(shù)字麥克風(fēng)提供I 2 S(IC間聲音)接口,從而無需ADC。
兩種方法盡管已將語音識別任務(wù)減至最少,但仍依靠數(shù)字信號處理來進(jìn)行喚醒詞識別。這為始終接通的電源需求設(shè)置了下限,這在電池供電的應(yīng)用中可能仍然很麻煩。但是,還有另一種技術(shù)可以為始終在線的喚醒字識別節(jié)省更多功率。
模擬機(jī)器學(xué)習(xí)技術(shù)是關(guān)鍵。RAMP(可重配置模擬模塊化處理器)芯片,首先將聲音識別為語音,然后再嘗試確定語音是否在說喚醒詞。RAMP芯片允許系統(tǒng)執(zhí)行的操作是,在執(zhí)行任何語音處理之前,先確定所檢測到的聲音實(shí)際上是語音。如圖2所示,這種預(yù)先確定甚至可以使喚醒單詞引擎在沒有人講話時也保持休眠狀態(tài)。
圖2通過首先確定聲音是否是語音,RAMP芯片允許語音處理安全地忽略其他類型的聲音。
該芯片使用模擬神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)這一目標(biāo),該模擬神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以將人的聲音與其他聲音區(qū)分開,然后向聲音處理系統(tǒng)發(fā)送激活信號,以確定聲音是否在說喚醒詞。為了確保語音處理具有完整的語音模式,芯片將在預(yù)卷式緩存中緩存500毫秒的捕獲聲音。當(dāng)芯片將聲音識別為語音時,它會將傳入的聲音(從前滾動數(shù)據(jù)開始)定向到語音處理系統(tǒng)以進(jìn)行解釋。
這種方法允許語音控制系統(tǒng)僅使RAMP芯片持續(xù)供電。每當(dāng)沒有人講話時,語音處理硬件(包括喚醒詞引擎)就可以保持休眠狀態(tài)。在大多數(shù)情況下,沒有語音的時間段表示系統(tǒng)運(yùn)行的大部分時間。與喚醒字檢測所需的典型數(shù)十毫安電流相比,RAMP芯片和主機(jī)微控制器僅需要約25μA的電流。因此,與始終在線的喚醒字檢測相比,忽略靜音和非語音聲音的能力可以節(jié)省大量功率。
語音控制中的這種降低功率的創(chuàng)新很可能會繼續(xù)發(fā)生,從而將語音激活操作的潛力擴(kuò)展到從線路供電到電池供電設(shè)計(jì)的應(yīng)用中。無論通過語音控制給定設(shè)備是一個好主意,無論其電源如何,它都已成為一種實(shí)用的選擇。