人工智能耳機(jī):只需看一眼就能在人群中聽(tīng)清特定聲音

降噪耳機(jī)在創(chuàng)造安靜的聆聽(tīng)環(huán)境方面取得了長(zhǎng)足進(jìn)步,但如何讓用戶選擇性地聽(tīng)到周圍特定聲音仍然是研究難題。例如,蘋果最新款的 AirPods Pro 可以根據(jù)環(huán)境自動(dòng)調(diào)節(jié)音量 (例如,檢測(cè)到對(duì)話時(shí)),但用戶卻無(wú)法控制想聽(tīng)誰(shuí)說(shuō)話以及何時(shí)啟用降噪功能。

華盛頓大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了一種人工智能系統(tǒng),可以讓用戶通過(guò)耳機(jī)注視某人說(shuō)話 3-5 秒來(lái)「鎖定」他們的聲音。該系統(tǒng)名為「目標(biāo)語(yǔ)音聆聽(tīng)」(Target Speech Hearing),可以消除周圍所有其他噪音,并實(shí)時(shí)播放所鎖定說(shuō)話人的聲音,即使聆聽(tīng)者在嘈雜的環(huán)境中走動(dòng)或不再面對(duì)說(shuō)話人也能做到這一點(diǎn)。

研究團(tuán)隊(duì)在 5 月 14 日于檀香山舉行的計(jì)算機(jī)-人類交互設(shè)計(jì)大會(huì) (ACM CHI) 上展示了這項(xiàng)研究成果。他們還提供了該概念驗(yàn)證設(shè)備的代碼,供其他人進(jìn)行進(jìn)一步開(kāi)發(fā)。目前該系統(tǒng)尚未商用。

該論文的資深作者、華盛頓大學(xué)保羅·艾倫計(jì)算機(jī)科學(xué)與工程學(xué)院教授 Shyam Gollakota 表示:「我們現(xiàn)在通常認(rèn)為人工智能是網(wǎng)絡(luò)聊天機(jī)器人,可以回答問(wèn)題。但在這個(gè)項(xiàng)目中,我們開(kāi)發(fā)的人工智能可以根據(jù)佩戴耳機(jī)者的偏好來(lái)改變他們的聽(tīng)覺(jué)感知。使用我們的設(shè)備,即使您身處嘈雜的環(huán)境中,周圍有很多其他人聊天,您仍然可以清晰地聽(tīng)到某一個(gè)人的聲音?!?/p>

要使用該系統(tǒng),佩戴普通耳機(jī)并配有麥克風(fēng)的用戶只需在轉(zhuǎn)頭看向目標(biāo)說(shuō)話人的同時(shí)輕按一個(gè)按鈕。來(lái)自該說(shuō)話人聲音的聲波會(huì)同時(shí)到達(dá)耳機(jī)兩側(cè)的麥克風(fēng) (允許 16 度的誤差范圍)。耳機(jī)將信號(hào)發(fā)送到內(nèi)置的嵌入式計(jì)算機(jī),團(tuán)隊(duì)的機(jī)器學(xué)習(xí)軟件會(huì)在此學(xué)習(xí)目標(biāo)說(shuō)話人的語(yǔ)音模式。系統(tǒng)會(huì)鎖定該說(shuō)話人的聲音,并持續(xù)播放給聆聽(tīng)者,即使他們四處走動(dòng)也不會(huì)中斷。隨著說(shuō)話人繼續(xù)講話,系統(tǒng)將獲得更多訓(xùn)練數(shù)據(jù),其聚焦鎖定聲音的能力也會(huì)隨之提升。

研究團(tuán)隊(duì)測(cè)試了該系統(tǒng),21 名參與者平均認(rèn)為鎖定說(shuō)話人的聲音清晰度是未經(jīng)濾波音頻的近兩倍。

這項(xiàng)工作基于該團(tuán)隊(duì)之前「語(yǔ)義聆聽(tīng)」的研究成果,該研究允許用戶選擇他們想要聽(tīng)到的特定聲音類別 (例如鳥叫聲或人聲),并消除環(huán)境中的其他聲音。

目前,TSH 系統(tǒng)一次只能鎖定一個(gè)說(shuō)話人,并且只能在目標(biāo)說(shuō)話人聲音的方向沒(méi)有其他大聲噪聲時(shí)進(jìn)行鎖定。如果用戶對(duì)聲音質(zhì)量不滿意,可以再次對(duì)說(shuō)話人進(jìn)行鎖定以提高清晰度。

該團(tuán)隊(duì)正致力于未來(lái)將該系統(tǒng)擴(kuò)展到耳塞和助聽(tīng)器上。

本文譯自 UW News,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2024-05-30
人工智能耳機(jī):只需看一眼就能在人群中聽(tīng)清特定聲音
降噪耳機(jī)在創(chuàng)造安靜的聆聽(tīng)環(huán)境方面取得了長(zhǎng)足進(jìn)步,但如何讓用戶選擇性地聽(tīng)到周圍特定聲音仍然是研究難題。

長(zhǎng)按掃碼 閱讀全文