嵌入式
返回首頁

超高信噪對于MEMS麥克風的重要性

2021-09-09 來源:eefocus

自動語音識別系統的普及和視頻內容共享信息和經驗的使用正在急劇增加。用于捕捉聲音的麥克風的性能和質量必須高,以確保良好的用戶體驗。關鍵因素包括噪聲、畸變、頻率響應和元件匹配。

 

在之前的文章中,已經簡單說明了,麥克風性能的特點通常是自噪聲和動態范圍。動態范圍的上限由聲學過載點(AOP Acoustic Overload Point)定義。下限由信噪比(SNR Signal-to-noise Ratio)定義。信噪比描述了麥克風的自噪聲。麥克風只能在其自噪聲層以上的聲壓級(SPL)下接收信號。因此,高信噪比的麥克風可以在比低信噪比的麥克風更低的聲壓下工作。本文,則集中于信噪比(SNR)和聲學過載點(AOP),并解釋了在語音識別和音頻/視頻捕獲系統中具有高麥克風性能的好處。

 

麥克風輸出中的噪聲可以定義為任何不是預期輸入源的信號,通常被認為是輸出信號中不希望出現的元素。噪聲水平越高,越會降低音頻信號的質量。噪聲可以來自麥克風外部,也可以來自麥克風本身。人們通常聽到麥克風的自噪音作為一種嘶嘶聲,影響感知的聲音質量。對于算法來說,噪聲會惡化信號的保真度,從而降低系統性能。

 

麥克風的噪聲可以用不同的方式表達:

  • 自噪聲(Vrms、dBV、dBFS)是麥克風本身在不受外界聲音激勵時產生的rms噪聲電壓。

  • 信噪比(SNR (dB))描述了麥克風相對于預期輸入信號的自噪聲。信噪比的測量通常使用一個標準的聲學輸入信號來表示想要的聲音,一個94 dBSPL (1 Pa)正弦波。

 

等效輸入噪聲EIN (dBSPL)是進入麥克風的(假想的)聲學噪聲水平,它相當于麥克風輸出時的電子噪聲水平。

 

所有現實生活中的音頻傳感器都是非線性系統,因為它們向通過它們的信號添加內容。在失真的情況下,增加的內容位于原始信號中出現的頻率的諧波。失真通常以總諧波失真THD(如果包含自噪聲則為THD+N)來測量。它是當麥克風被正弦波激發時,信號諧波中的能量(通常是第二到第五次諧波)與基頻中的能量之比。測試信號通常是一個1 kHz的正弦信號,處于相對較高的聲壓級(SPL),通常為94 dBSPL或更高。THD以百分比(%)表示。聲學過載點,AOP通常定義為THD超過10%的聲壓級。AOP的單元是dBSPL。

 

在大多數情況下,保持傳入麥克風的聲音的原始形式和內容是有益和重要的。在原始信號中加入內容,比如失真,可能會讓聽聲音的人聽起來不舒服。增加的能量越多(即THD值越高),感知到的音頻質量就越差。失真還可能使語音識別系統等算法產生混淆,特別是對輸入信號的內容進行非常詳細分析的語音識別系統,失真造成的影響會更大。

 

圖1 Acoustical SNR 信噪比示意

 

音頻/視頻錄制的目的是捕捉來自受試者的傳入聲音,并將其復制到麥克風系統的輸出中。當錄音是為人類的耳朵,它是可取的電子輸出信號匹配的聲音信號盡可能接近,提供一個“自然”的聲音記錄。麥克風及其信噪比是聲捕獲信號鏈的關鍵部分,影響錄音質量。下表給出了一些典型的用例。

 


在自然情況下,每增加一倍距離,聲壓減半(降低6分貝)。捕獲的聲源越遠,到達麥克風的聲音信號就越安靜。由于麥克風的自噪聲實際上是恒定的,輸入信號電平的降低會導致麥克風輸出信號的信噪比降低。通常,弱信號必須被放大,使其達到設備信號路徑的適當水平。放大信號也會放大輸出信號中的噪聲。放大倍數越大,噪聲上升到顯著降低捕獲信號質量的水平的風險就越大。

 

高麥克風信噪比有助于保持本底噪聲是幾乎聽不見的,即使信號被放大。捕獲距離越長,麥克風的自噪聲越小,以避免出現問題。當距離很長且聲源本身很安靜時,這一點尤其重要。當每增加一倍的距離,聲壓會衰減6分貝時,使用高信噪比6分貝的麥克風,可以使捕捉距離加倍而不會降低信號質量。

 

POLQA (Objective Listening Quality Assessment)是一種ITU-T標準模型,它使用數字語音分析來客觀地確定錄制語音信號的質量和可理解性。高信噪比的麥克風在POLQA測試中表現明顯更好,并具有更好的語音清晰度。當用高信噪比麥克風記錄信號時,同一水平的信號更容易理解。

 

和SNR一樣,AOP也是一個重要的音頻/視頻質量因素。失真很容易使視頻記錄變得無用。網上有很多在流行音樂/搖滾音樂會上拍攝的智能手機視頻,由于音頻失真嚴重,無法觀看。如果預期聲音(或干擾聲音)的傳入聲壓水平高或非常高,則高AOP可以改善聲音質量。高AOP幫助麥克風系統處理傳入聲音信號中可能出現的非常高的信號峰值,即使平均聲壓水平不是非常高。參見下表中的一些典型用例。

 


直到幾年前,消費電子設備麥克風AOP的標準水平還在110到120 dBSPL之間。在最近的過去,AOP的需求已經上升了。為了確保音質和語音識別性能滿足客戶的要求,設備設計者應該選擇AOPs接近或高于130 dBSPL的麥克風。在較低的聲壓水平下,觀察比為AOP指定的10%更低的THD水平更有意義。除了擁有高的AOP之外,THD保持在低水平(低于2%)也很重要,對于預期的應用程序(例如,高達120 dBSPL), THD應該達到足夠高的聲壓級。

 

在系統中,所捕獲的聲音用于算法時,聲音質量目標可能與信號用于人耳時不同。信號并不一定要聽起來很自然,只要它是為算法優化的。不管用例是什么,保持信號不受干擾、工件、失真和噪聲的影響總是很重要的。

 

自然語音識別(ASR)是將語音信號自動轉錄成文字的任務。轉錄正確率越來越接近人類水平,大約為95%。然而,到目前為止,只有在環境條件良好的實驗室里才有可能達到這個水平。在現實生活環境和遠距離語音識別涉及一些重要的聲學挑戰,如背景噪聲、混響、回聲消除和麥克風定位。僅僅有一個好的語音識別引擎是不夠的。系統中的每個元素都應該以高標準執行,以防止出現質量瓶頸。麥克風的工作是提供語音識別系統最好的輸入信號。 高輸入信號質量有助于ASR系統分析傳入的聲音,并找到其中的特征,從而識別語音內容。關鍵參數包括噪聲、畸變、頻率響應和相位。

 

高AOP可以幫助在嘈雜環境中的語音識別系統。有時,語音信號本身并不強,同時存在其他干擾。例如,在語音控制的家庭娛樂系統和數字助理中,有靠近麥克風的揚聲器,可以輸出響度大的音樂或語音信息。高AOP有助于保持低失真,改善噪聲和回聲的消除。

 

距離語音源越遠,輸入到ASR算法的信號的信噪比越低。因此,當目標捕捉距離越長,麥克風信噪比越高。

 

語音識別系統的一個關鍵功能是能夠忽略非待轉錄語音的聲音和噪聲。音頻/視頻捕捉和人與人之間的溝通質量也可以通過從信號中排除不需要的聲音來提高。目標是增加信噪比,在這種情況下,信噪比是想要的聲音(信號)與不想要的環境聲音(噪音)的比率。

 

將多麥克風與算法相結合,可以實現噪聲消除和方向性。定向傳聲器系統,如波束形成,可以集中麥克風對所需方向的靈敏度和突出所需的聲源。不需要的聲音也可以根據參數取消,如兩個麥克風之間的水平差異。盲源分離是一種更為復雜的降噪系統。它可以消除與方向、距離和位置無關的噪聲。所有這些噪聲消除方法都得益于其接收信號的準確性和高質量。麥克風應具有高信噪比,低失真,平坦頻響(也改善了相位響應)和低群延遲。

 

為了優化噪聲消除算法的功能,系統中使用的麥克風應該具有相同的特性。麥克風與麥克風匹配的作用至關重要。麥克風之間的靈敏度、相位特性和延遲的差異越小越好。

 

從2005年到2015年,最先進的麥克風在大眾市場消費電子設備的信噪比從低于60分貝提高到約65分貝。隨著新的高性能語音識別系統和其他捕獲用例的需求,即使65 dB也不再足夠了。目前高端麥克風的信噪比接近70分貝。


高麥克風性能是實現高語音識別和音頻捕獲質量的關鍵。自動語音識別算法和相機等技術的性能正在迅速提高,設備購買者對用戶體驗的期望也在提高。避免麥克風成為改進瓶頸是很重要的。幸運的是,現在有高性能的麥克風。噪聲性能在過去的幾年中有了顯著的提高。隨著AOP達到130 dBSPL的標志,SNR已經超過了70 dB的水平,而質量下降的失真正在成為過去。這種水平的麥克風性能有助于充分提升設備整體表現。

進入嵌入式查看更多內容>>
相關視頻
  • 嵌入式系統高級C語言編程(東南大學凌明)

  • From 0 to 1: Raspberry Pi and the Internet of Things

  • 清華大學Altera FPGA工程師成長手冊

  • 四旋翼公開課

  • 黑金ZYNQ fpga視頻教程

  • MDK的編譯過程及文件類型全解

    相關電子頭條文章
萝卜大香蕉