電子設(shè)備中的語音和音頻控制進展
作者:貿(mào)澤電子Mark Patrick
言語是人們表達思想和愿望的一種有效方式。在工業(yè)時代到來之前,人類發(fā)現(xiàn)動物可以被訓(xùn)練用來識別和響應(yīng)讓它們執(zhí)行某些任務(wù)的基本命令。
【資料圖】
下一個合乎邏輯的發(fā)展應(yīng)該是開發(fā)一種使用聲音信號與機器進行交流,并指揮機器行動的方法。近年來,以語音和音頻作為電子設(shè)備的控制界面越來越受歡迎,并且這種技術(shù)也在不斷發(fā)展,以滿足用戶的期望和新應(yīng)用的要求。
在本文中,我們將解釋用語音和音頻信號控制電子設(shè)備和機器的好處,并回顧如何實現(xiàn)這種控制。我們還將展示這種控制界面現(xiàn)在可以如何能夠嵌入到離線設(shè)備,以及它們提供的音頻控制體驗如何能夠大幅度改善。
使用語音控制電子設(shè)備
采用語音控制實現(xiàn)與機器交互有幾個明顯好處:
對人類來說,語音是一種直觀的交流形式,這種口頭傳達指令的方式更容易。
即使一個人的眼睛和手正在用于其它事情,語音交流仍然可能。實時的語音控制也很方便,例如在駕車等某些應(yīng)用場景下,試圖通過觸摸來控制車內(nèi)其它設(shè)備是違法的。
語音是控制機器的一種有效媒介,采用語音控制機器,可以在不需要復(fù)雜指令的情況下進行監(jiān)聽和響應(yīng)。
在設(shè)備中集成語音控制能夠最大限度地減少許多設(shè)備對觸屏的需求。這對于處于遠程或便攜式電池供電設(shè)備來說尤其理想,在這些設(shè)備中,減小尺寸和降低功耗是常見的設(shè)計挑戰(zhàn)。對于具有多個用戶的應(yīng)用來說,去掉觸屏控制也更加符合衛(wèi)生要求。
如圖1所示,對于某些殘疾人來說,觸屏控制可能是一種不現(xiàn)實的選擇,因而語音可以成為一種有效的支持工具。通過語音與機器進行交互可用于執(zhí)行諸如開門之類的任務(wù),或者通過遠程通信來傳輸個人最近的健康狀況。
圖1:聲控機器人助手。(來源:Shutterstock的PaO_STUDIO)
語音控制設(shè)備的音頻前端(AFE)包括麥克風(fēng)陣列和信號處理模塊。AFE能夠處理來自多通道麥克風(fēng)陣列的信號,以消除任何背景噪聲或設(shè)備本身回放產(chǎn)生的干擾。然后,該信號被發(fā)送到“喚醒詞(wake-word)”檢測引擎,例如經(jīng)過在設(shè)備上預(yù)先編程,可識別出“Alexa”或“OK Google”等單詞。通過使用多種信號處理算法,能夠消除多種不需要的干擾信號。語音控制解決方案的組成部分包括:
麥克風(fēng)陣列:語音激活系統(tǒng)需要一個或多個麥克風(fēng)來捕獲音頻控制信號。在選擇麥克風(fēng)陣列時,重要的考慮因素包括尺寸、成本、性能和穩(wěn)健性。優(yōu)化組合來自多麥克風(fēng)陣列的不同信號有助于提高音頻信號鏈的信噪比(SNR)。
到達方向(DoA)檢測器:用于確定用戶相對于被控設(shè)備的位置,以便麥克風(fēng)陣列可以將波束調(diào)整為語音的方向。
波束成形器:它接受來自DoA檢測器的聲音,同時去除來自其他方向的聲音。其性能取決于麥克風(fēng)陣列的幾何形狀、SNR以及波束寬度和背景噪聲水平等。
聲學(xué)回聲消除器(AEC):它會消除設(shè)備揚聲器本身的播放信號(例如,設(shè)備揚聲器正在播放音樂時收到語音指令),以便清晰地拾取用戶語音指令。
自適應(yīng)干擾消除器(AIC):它能夠消除來自其他聲音源的外部噪聲,這些噪聲很難用傳統(tǒng)的波束成形器消除,例如,其他設(shè)備產(chǎn)生的較大噪聲。
喚醒詞檢測器:將來自AFE的經(jīng)過處理語音信號與喚醒詞庫進行比較,例如可使用喚醒詞檢測算法的“Hey Google”,這種算法通常是機器學(xué)習(xí)模型的一部分。更大的模型則更準確,例如,1MB訓(xùn)練模型比64kB模型更準確,但處理強度更大。需要大的喚醒詞模型來準確地檢測喚醒詞,從而減少錯誤警報的數(shù)量。
D類音頻放大器
該控制界面的語音處理部分經(jīng)過大量開發(fā),現(xiàn)在即使是低成本的設(shè)備也能提供準確的語音識別能力。然而,界面的音頻端受到的關(guān)注明顯較少,這意味著與高端音頻設(shè)備相比,許多早期智能揚聲器和其他支持音頻的物聯(lián)網(wǎng)(IoT)設(shè)備所產(chǎn)生的音質(zhì)較差。
與語音控制相關(guān)的任何新產(chǎn)品都可能被認為分散了人們對這些缺點的關(guān)注。然而,隨著智能設(shè)備越來越廣泛采用,消費者對其提供的音頻體驗期望也越來越高。傳統(tǒng)AB類音頻放大器的低效率使其無法用于低功率物聯(lián)網(wǎng)設(shè)備,幸運的是,幾家芯片制造商最近推出了一系列高級D類音頻放大器,體現(xiàn)了對以前可用音頻放大器的重大改進,其中許多產(chǎn)品都是專門為在智能技術(shù)和物聯(lián)網(wǎng)設(shè)備中實現(xiàn)高品質(zhì)音頻而開發(fā)。
德州儀器 (Texas Instruments)的TAS277015W輸入音頻放大器能夠提高響度和音頻質(zhì)量,它具有更強的語音捕獲能力,意味著語音控制設(shè)備的操作更容易、更自然。Maxim Integrated(現(xiàn)在屬于Analog Devices旗下品牌)開發(fā)了MAX98357 和MAX98358 D類放大器,效率達到92%,可提供3.2W的AB類音頻性能,這些放大器的簡化框圖如圖2所示。Diodes Incorporated的PAM8106具有較低功耗,使其能夠在由1.5V鉛酸電池和3.5V鋰離子電池驅(qū)動的設(shè)備中很好地運行。
圖2:Maxim Integrated D類音頻放大器簡化框圖。(來源:Maxim Integrated)
離線語音控制
亞馬遜的Alexa和谷歌助手(Google Assistant)等基于云的解決方案很容易用于具有穩(wěn)定互聯(lián)網(wǎng)連接的設(shè)備,但對于那些沒有穩(wěn)定互聯(lián)網(wǎng)或根本沒有連接的設(shè)備來說,離線語音控制則是一個更好的解決方案。例如,如果某個產(chǎn)品需要響應(yīng)簡單的單詞指令,如go、stop、reset等(通常稱為關(guān)鍵字識別),那么在設(shè)備本身進行本地處理則很有意義。使用低成本的嵌入式微控制器可以實現(xiàn)簡單的關(guān)鍵字指令系統(tǒng),例如可使用恩智浦(NXP)基于EdgeReady MCU的離線本地語音控制解決方案。它采用i.MX RT交叉MCU,開發(fā)人員能夠快速將語音控制集成到他們的產(chǎn)品中。恩智浦基于i.MX RT106S的解決方案包括SLN-LOCAL2-IOT開發(fā)工具包,如圖3所示。
該開發(fā)工具包配備了在FreeRTOS上運行的全部集成軟件,并提供有軟件開發(fā)工具包(SDK),以便快速驗證概念。離線語音控制也有助于解決許多消費者的隱私問題,因為他們擔(dān)心自己的系統(tǒng)容易受到在線黑客的攻擊。
圖3:恩智浦的SLN-LOCAL2-IOT離線語音控制解決方案。(來源:恩智浦)
結(jié)論
語音和音頻正在快速成為許多智能設(shè)備的首選控制界面,這種技術(shù)尤其適合在低功耗和便攜式物聯(lián)網(wǎng)設(shè)備中使用,因為它能夠消除對昂貴且耗電的數(shù)字顯示器的要求。許多早期系統(tǒng)的音頻質(zhì)量較差,只能使用云連接解決方案來實現(xiàn)。
然而,隨著新一代高效D類音頻放大器的出現(xiàn),使制造商能夠確保其設(shè)備為消費者提供高質(zhì)量的音頻體驗。而且現(xiàn)在也可提供一些其它解決方案,能夠在互聯(lián)網(wǎng)連接不穩(wěn)定或根本沒有互聯(lián)網(wǎng)連接的情況下實現(xiàn)設(shè)備的語音控制。這些創(chuàng)新表明,隨著人們越來越習(xí)慣這種控制界面,語音控制技術(shù)有能力適應(yīng)新的需求,而且這種發(fā)展趨勢還會不斷繼續(xù)。
關(guān)鍵詞:
您可能也感興趣:
今日熱點
為您推薦
機票里面包含保險嗎?飛機保險有必要買嗎?
遼寧擴大緩繳社保費政策實施范圍 補繳期間免收滯納金
近十年財險業(yè)務(wù)快速發(fā)展 財產(chǎn)保險業(yè)風(fēng)險保障水平不提升
更多
- 索爾維在中國揭幕全新材料應(yīng)用研發(fā)中心
- 【時快訊】e絡(luò)盟達成新分銷合作,開售Grayhill系列精密開關(guān)
- 電子設(shè)備中的語音和音頻控制進展
- 天天觀天下!4by4向優(yōu)質(zhì)庫存視頻素材平臺KEYCUT stock引入新功能
- 緯湃科技2023第一季度財報:成本持續(xù)增加,業(yè)績表現(xiàn)穩(wěn)健_環(huán)球觀點
- 環(huán)旭電子推出PCIe Gen.5量產(chǎn)測試平臺解決方案助力固態(tài)硬盤產(chǎn)業(yè)
- Elliptic Labs的 AI Virtual Human Presence Sensor?...
- 亞馬遜云科技中國(寧夏)區(qū)域入選2022年度國家綠色數(shù)據(jù)中心
排行
- 環(huán)旭電子推出PCIe Gen.5量產(chǎn)測試平臺解決方案助力固態(tài)硬盤產(chǎn)業(yè)
- 科技智庫需要進一步加快智庫成果轉(zhuǎn)化
- 雄安設(shè)立兩年 290家京企“搶灘登陸”
- 女子拽男友公交車方向盤受審 涉嫌危害公共安全罪
- 成都實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,將挖掘培養(yǎng)高素質(zhì)職工人才
- “人造雪粉”接觸眼睛或被誤食可能有危險
- 這一年,我們?yōu)榭萍肌俺尺^的架”真不少
- “四成人不知電商法”該如何破題
- 監(jiān)督搭平臺信息都上網(wǎng) 打通精準監(jiān)督‘最后一公里’
- 智能烹飪機,選購有講究
最近更新
- 電子設(shè)備中的語音和音頻控制進展
- 索爾維在中國揭幕全新材料應(yīng)用研發(fā)中心
- 【時快訊】e絡(luò)盟達成新分銷合作,開售Grayhill系列精密開關(guān)
- 天天熱點評!全國橋牌俱樂部錦標賽落幕
- 我敢承諾我敢賠!天守 「零事故」 保障險方案正式上線
- 約翰農(nóng)場愛心碰拳——傳遞能量為“體育強國”加碼
- 關(guān)于格局的名言詩句
- 衡山住宿團購_衡山住宿
- 6大乒乓世界冠軍齊聚!1人世乒賽三連冠,2大國乒教練轉(zhuǎn)型 每...
- 講真學(xué)堂是什么樣的公司?講真學(xué)堂集團公司量子之歌入選數(shù)字...
- 黃心菜怎么炒好吃又簡單_微速訊
- 牛肉湯正宗做法王剛?
- 世界時訊:怎么吃牛肉沒有腥氣味?
- 排骨牛肉湯怎么做? 天天熱門
- 自駕游帶什么食物做干糧最好?_天天最資訊
- 振東藥業(yè) 年報顯示
- 多家銀行下調(diào)利率
- 深圳“德弘訴調(diào)”民間借貸糾紛矛盾化解《調(diào)解中心》正式成立!
- 樓梯坡度多少合適_樓梯坡度
- 蘋果筆記本怎么重啟_筆記本怎么重啟
- 護航新時代 歷正科技精彩亮相第11屆中國國際警用裝備博覽會
- 超導(dǎo)量子芯片成功編織非阿貝爾任意子
- 當前速遞!二維材料內(nèi)首次探測到自旋結(jié)構(gòu)
- 周邊磁場存在極端反轉(zhuǎn)——世界首例持續(xù)活躍重復(fù)快速射電暴環(huán)...
- 廣州南沙推“九大行動”集聚人才
- 青島西海岸新區(qū):總投資107億元6個基金項目簽約
- Elliptic Labs的 AI Virtual Human Presence Sensor?...
- 亞馬遜云科技中國(寧夏)區(qū)域入選2022年度國家綠色數(shù)據(jù)中心
- 天天觀天下!4by4向優(yōu)質(zhì)庫存視頻素材平臺KEYCUT stock引入新功能
- 緯湃科技2023第一季度財報:成本持續(xù)增加,業(yè)績表現(xiàn)穩(wěn)健_環(huán)球觀點
今日要聞
- 索爾維在中國揭幕全新材料應(yīng)用研發(fā)中心
- 我敢承諾我敢賠!天守 「零事故」 保障險方案正式上線
- 約翰農(nóng)場愛心碰拳——傳遞能量為“體育強國”加碼
- 【時快訊】e絡(luò)盟達成新分銷合作,開售Grayhill系列精密開關(guān)
- 電子設(shè)備中的語音和音頻控制進展
- 講真學(xué)堂是什么樣的公司?講真學(xué)堂集團公司量子之歌入選數(shù)字素養(yǎng)培訓(xùn)基地
- 護航新時代 歷正科技精彩亮相第11屆中國國際警用裝備博覽會
- 天天觀天下!4by4向優(yōu)質(zhì)庫存視頻素材平臺KEYCUT stock引入新功能
- 雅閣酒店集團|秦皇島雅閣酒店群,專屬你的海邊旅游攻略
- 緯湃科技2023第一季度財報:成本持續(xù)增加,業(yè)績表現(xiàn)穩(wěn)健_環(huán)球觀點