探境科技發(fā)布首個離在線一體語音識別解決方案,即Voitist音旋風612
2月底,探境科技發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI芯片組成的產品矩陣。其中,探境發(fā)布了具備AI雙麥降噪功能的語音識別方案,即Voitist音旋風612,這也是首個離在線一體的語音識別解決方案。
AI降噪+HONN 無懼家居噪音
信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數。一般將信噪比低于15dB的稱為噪聲環(huán)境。信噪比越低,識別難度越大。
在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。
據探境科技副總裁李同治介紹,為了驗證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數據送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高30%識別準確率。
在傳統(tǒng)的語音識別算法里,用的最多的是全連接的操作,叫DNN/DTNN。相比較于全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。
探境將其計算機視覺中的一些經驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經網絡,即HONN(High Operation Neural Network)。
正是依托于AI降噪技術+HONN神經網絡,探境的Voitist音旋風611,可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。
端到端雙麥加持 攻克0dB環(huán)境
為了提升低這些場景下的識別率,還需要使用麥克風陣列來增強語音信號。探境在雙麥算法上有自己的獨門絕技—FCSP雙麥識別算法。”
“為了克服傳統(tǒng)分模塊語音增強算法的這些缺點,我們設計出了基于FCSP的端到端AI雙麥算法。”李同治對記者表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數子空間投影算法的簡稱。
這個算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的AI算法來處理,不再使用傳統(tǒng)的數字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題。
“端到端”是目前國際上最前沿的處理算法。通過AI語音算法+HONN神經網絡模型來提升識別率,再通過FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現(xiàn)了跨越式的升級。
探境自研的SFA架構,以存儲驅動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現(xiàn)深度學習時,只需要一個較高層次的神經網絡描述。SFA的編譯器首先將這個神經網絡進行全部融合,然后根據具體架構實現(xiàn)的規(guī)模產生一個統(tǒng)一的存儲流圖,再進行存儲節(jié)點的時空映射,最后根據各個節(jié)點之間的計算類型配置計算單元,組合起來形成一個統(tǒng)一的固件供SFA控制器使用。
在28nm常規(guī)工藝芯片的對比測試中,SFA架構在乘法器數目相同情況下,結果如下表。(DRAM為LPDDR4)。
這意味著SFA架構所采用的各種微觀和宏觀調度算法,比較“類CPU架構”采用的基于總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。
“SFA(存儲優(yōu)先)架構是探境的產品基石,正是借助SFA的優(yōu)勢,我們的AI芯片產品才能‘裂變式’的推出,大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。
“探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結合的AI芯片公司。AI芯片這一領域不像手機APP那樣,瞬間可以憑一款應用獲得數百萬的用戶,AI芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。”魯勇向記者表示。