亞馬遜的Alexa可根據語音判斷你需要的選擇,但是人工智能(AI)卻可以感知你是否生氣。麻省理工學院媒體實驗室的分支機構Affectiva的聲聯(lián)網系統(tǒng),可在短短1.2秒內從音頻數據中分辨出你的憤怒。無論是什么語言,這個時間剛好超過人類感知憤怒所需的時間。
AI可分辨人類的憤怒
Affectiva的研究人員在Arxiv.org上最新發(fā)表的一篇論文中描述了這一現象(“從聲音表征中轉移學習,用于語音中的憤怒檢測”)。它建立在語音和面部數據的基礎上,并建立相關的情感檔案。今年,該公司與Nuance合作開發(fā)了一種車載人工智能系統(tǒng),可以從攝像頭的反饋中檢測駕駛員疲勞的跡象。在2017年12月,它推出了語音API,該API使用語音識別功能,諸如大笑、憤怒等情緒,以及音量、音調、速度和停頓。
論文的共同作者寫道:“利用深度學習網絡的力量進行情感識別的一個重要問題是,深度網絡所需的大量數據,與小規(guī)模的語音數據之間的不匹配。經過訓練的憤怒檢測模型提高了性能,并能很好地概括各種行為,從而引發(fā)情緒言語的數據集。此外,我們提出的系統(tǒng)具有較低的延遲,適用于實時應用?!?/p>
什么是聲聯(lián)網?
SoundNet(聲聯(lián)網)由一個卷積神經網絡(一種通常用于分析視覺圖像的神經網絡)組成,它在視頻數據集上進行訓練。為了讓它識別言語中的憤怒情緒,研究小組首先搜集了大量的普通音頻數據——200萬段視頻,或者僅僅相當于一年多的時間——使用另一種模型生成的ground truth。然后,他們使用一個更小的數據集IEMOCAP對其進行微調,該數據集包含12個小時的帶注釋的視聽情感數據,包括視頻、語音和文本轉錄。
為了測試人工智能模型的通用性,該團隊評估了它的英語訓練模型用于漢語普通話語言的情感數據(普通話情感語料庫,簡稱MASC),他們的報告說,它不僅很好地推廣到英語語音數據,而且對漢語數據也很有效——盡管性能略有下降。
AI可識別語音情感模型
研究人員說,他們的成功證明了一種“有效的”和“低延遲的”語音情感識別模型,可以通過轉移學習得到顯著改善。轉移學習是一種技術,它利用人工智能系統(tǒng)在之前標注過的樣本的大數據集上訓練,在一個數據稀疏的新領域中引導訓練——在這種情況下,人工智能系統(tǒng)能通過訓練分類一般聲音。
這一結果是有希望的,因為盡管情感語音數據集很小,而且獲取起來也很昂貴,但是大量的自然聲音事件數據集是可用的,比如用于訓練SoundNet的數據集或谷歌的音頻集。僅這兩個數據集就有大約1.5萬個小時的標記音頻數據?!皯嵟诸愑泻芏嘤杏玫膽?,包括對話界面和社交機器人、交互式語音應答系統(tǒng)、市場研究、客戶代理評估和培訓,以及虛擬現實和增強現實。”
他們把開發(fā)其他大型公共語料庫的工作留給了未來,并為相關的語音任務訓練人工智能系統(tǒng),比如識別其他類型的情感和情感狀態(tài)。相信,在未來AI將發(fā)揮更多的作用,你認為未來的AI還能應用在哪些領域呢?
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )