常言道:兼聽則明,偏信則暗。對于決策依據(jù)的選擇來說此言不假,但對于語音技術(shù)來說則剛好相反。我們所處的環(huán)境中常常伴有大量背景噪音,如果一個電子系統(tǒng)把所有的音頻信號統(tǒng)統(tǒng)接受,那么我們期望得到的音頻信號就會被噪音淹沒,系統(tǒng)的性能表現(xiàn)就會大打折扣。
實(shí)際上,人耳是一種有選擇的接收系統(tǒng)。當(dāng)我們在嘈雜的餐廳交談時,我們也能盡力從背景噪音中撿拾對面那個人發(fā)出的語音信號。另一些動物具有更強(qiáng)的聽覺天賦。貓頭鷹可以在叢林中精確偵測出嚙齒類動物發(fā)出的細(xì)微聲響。
如果人類或貓頭鷹只有一只耳朵,那么我們拾取有用音頻信息的能力就會大打折扣。沒有了聲音定位的能力,我們就會把噪音和信號全部納入,然后讓大腦去分析哪些是噪音,哪些是信號。其結(jié)果就是,不但我們的分辨能力大幅降低,而且這樣做還大大增加了我們大腦的負(fù)擔(dān)。
大多數(shù)電子系統(tǒng)的降噪原理屬于后者,也就是從包含噪音的音頻中通過DSP算法提取語音信號。這樣提取出的語音信號即使可用也會產(chǎn)生不同程度的失真。
Audience公司的降噪技術(shù)屬于前者。這是一家總部位于美國加州山景城的公司,成立于2000年。該總司號稱是全球唯一一家將聽覺神經(jīng)學(xué)產(chǎn)品化的公司。在公司成立后的前8年,Audience致力于完善產(chǎn)品技術(shù),所以它真正進(jìn)入市場的時間并不算長。
Audience公司的earSmart技術(shù)是一種仿生學(xué)。在聲音到達(dá)麥克風(fēng)的那一刻,它就能根據(jù)算法判定哪些聲音是噪音而加以摒除,從而保證了進(jìn)入系統(tǒng)的音頻信號的純凈度。Audience公司的工程師向我們演示了earSmart的降噪效果。用一臺揚(yáng)聲器模擬餐廳背景噪音,然后用裝備earSmart技術(shù)的Nexus平板電腦進(jìn)行錄音和回放。在關(guān)閉該公司ASR Assist專利技術(shù)的情形下,所錄的語言幾乎被背景噪音淹沒而無法分辨。開啟ASR Assist技術(shù)后重新錄音,我們聽到播放出的語言清晰悅耳,而且?guī)缀鯖]有任何失真。
earSmart技術(shù)針對三種情形下的應(yīng)用:實(shí)時通訊(在嘈雜環(huán)境下可實(shí)現(xiàn)清晰的手機(jī)通話)、語音識別(在嘈雜環(huán)境下實(shí)現(xiàn)對錄入語音的文本轉(zhuǎn)換)和媒體捕捉(在嘈雜環(huán)境下實(shí)現(xiàn)與視頻同樣清晰的語音錄制)。
Audience公司最新產(chǎn)品有兩款:eS325高級語音處理器和eS515智能聲音處理器。eS325采用真正的三路麥克風(fēng)、移動去回聲和超級寬帶噪音抑制語音技術(shù),專利的ASR Assist技術(shù)實(shí)現(xiàn)優(yōu)化的自動語音識別,用于多媒體則可實(shí)現(xiàn)移動音頻變焦和增強(qiáng)型高清立體式錄音。兩種處理器的框圖如下所示。欲了解詳情請點(diǎn)擊http://audience.com/products/our-processors/。
eS325高級語音處理器
eS515智能聲音處理器
目前,Audience公司的earSmart技術(shù)主要用于高端應(yīng)用。據(jù)介紹,市場價格高于2000元的多款最新智能手機(jī)采用了Audience公司的的產(chǎn)品,如三星Galaxy S4和華為Ascend D2、Mate。另外,Audience與產(chǎn)業(yè)生態(tài)系統(tǒng)的各方展開積極合作,尤其是與科大訊飛的配合最醒目。在現(xiàn)場演示中,科大訊飛的語音識別軟件與Audience公司的earSmart技術(shù)相結(jié)合,移動產(chǎn)品在嘈雜環(huán)境下的語音識別速度與精度的確令人贊嘆。