傳感器
返回首頁

UC Berkeley開發出通過電極采集肌肉活動合成數字語音

2020-12-01 來源:章魚通

加州大學伯克利分校(UC Berkeley)的研究人員表示,他們率先使用無聲的言語和傳感器來訓練人工智能,收集肌肉活動。使用電解法探測到無聲的言語,電極放在臉部和喉嚨上。該模型側重于研究人員所稱的數字語音,以預測詞匯和生成合成語音。


研究人員認為,他們的方法可以為無法制作有聲語音的人提供一些應用程序,并可以支持人工智能助手或其他響應語音指令的設備的語音探測。


“數字語音具有廣泛的潛在應用, ”該團隊的論文寫道。"例如,它可以用來制造一種類似藍牙耳機的裝置,使人們能夠進行電話交談,而不干擾周圍的人。在環境太大,無法聽到聲音或保持緘默很重要的情況下,這種裝置也可能有用" 。


另一個從無聲的語音留言中捕捉文字的人工智能例子可以為監控工具提供動力,也可以支持聾人使用案例。


加州大學伯克利分校(UC Berkeley)的研究人員在他們的無聲語音預測中使用了一種方法, “聲音輸出目標從語音錄音轉移到相同話語的無聲錄音。 ”然后使用WaveNet解碼進行語音預測。


與接受過語音環管數據培訓的基線相比,該方法使書籍中句子的字詞錯誤率下降了64%至4% ,與基線相比錯誤減少了95% 。為進一步推動這一領域的工作,研究人員公開獲取了近20小時面部環管數據集。


戴維·加迪(David Gaddy)和丹·克萊因(Dan Klein)上周在網上發表了一篇題為《無聲言論的數字聲音》(Digital Voicing of Silent Speech)的論文,獲得了自然語言處理經驗方法最佳論文獎。Hugging Face公司因其在開放源變形金剛圖書館的工作而獲得組織者頒發的最佳Demo Paper獎。在EMNLP的其他工作中,研究人員最近采用了一種諷刺探測模型,在多式聯運推特數據集方面取得了最先進的績效。

進入傳感器查看更多內容>>
相關視頻
  • 直播回放: 如何使用英飛凌IGBT7設計高性能伺服驅動

  • 嵌入式系統高級C語言編程(東南大學凌明)

  • 機器學習從零到一

  • 直播回放: 與英飛凌一起探索智能門鎖背后的黑科技

  • 計算機視覺與深度學習

  • 跟我學myRIO

    相關電子頭條文章
萝卜大香蕉