近日,社交平臺Soul App(以下簡稱“Soul”)語音大模型再次升級,上線自研端到端全雙工語音通話大模型,具備超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力等特點,能夠直接理解豐富的聲音世界,支持超擬人化的多風格語言,實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗。目前,Soul自研的端到端語音通話大模型能力已上線旗下“異世界回響”實時通話場景(內測中),并將在后續(xù)拓展至AI茍蛋等多個AI陪伴、AI互動場景。
自2016年上線,Soul一直致力于以創(chuàng)新的技術方案和產品設計,實現(xiàn)社交體驗的拓展。2020年,Soul啟動對AIGC的技術研發(fā)工作,系統(tǒng)推進在智能對話、語音技術、虛擬人等AIGC關鍵技術能力研發(fā)工作,并推動AI能力在社交場景的深度落地。
以AI升級社交的過程中,Soul的技術重點之一是致力于實現(xiàn)擬人化、自然化情感陪伴體驗。其中,聲音是重要環(huán)節(jié)之一。作為傳遞信息和情感的重要媒介,聲音最能在溝通中賦予“情緒溫度”和“陪伴感”。特別是在社交場景中,情感化、低延遲、多風格、類真實的聲音能力,可以打破“次元壁”,讓線上社交尤其是人機互動中,也能實現(xiàn)真實生活場景聊天的自然流暢感和沉浸現(xiàn)場感,真正完成類現(xiàn)實生活化互動場景中的交互體驗。
因此,為給用戶帶來更好的情緒反饋和陪伴感,情緒理解、延遲問題一直是Soul技術團隊關注的焦點。
此前,Soul團隊推出了自研的語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力,支持真實音色生成、語音DIY、多語言切換、多情感擬真人實時對話等,目前已應用于Soul “AI茍蛋”、站內狼人游戲“狼人魅影”AI語音實時互動、獨立新產品“異世界回響”等場景。
與國際最前沿的技術發(fā)展保持同頻,Soul持續(xù)完善自身語音技術能力積累,創(chuàng)新AI社交應用體驗。今年7月,在人工智能領域頂級的國際學術會議——國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence,IJCAI)舉辦的第二屆多模態(tài)情感識別挑戰(zhàn)賽(MER24)上,Soul 語音技術團隊于SEMI(半監(jiān)督學習)賽道獲得第一名,在國際賽事舞臺上展現(xiàn)了Soul的前沿洞察和技術能力。
如今,自研端到端語音通話大模型的率先上線,再次證明了Soul在行業(yè)中扎實的技術能力積累。
區(qū)別于傳統(tǒng)的級聯(lián)方案,語音到語音的端到端建模,意味著語音交互體系的顛覆式升級,即不再需要從“語音識別、自然語言理解、語音生成”等多個環(huán)節(jié)流轉,直接語音輸入—語音輸出的端到端模型能夠最大程度實現(xiàn)信息無損傳遞,降低響應延遲時間。
此次Soul自研的端到端語音通話大模型便具備超低交互延遲、快速自動打斷、超真實聲音表達和豐富情緒感知理解能力的特點,支持更自然的人機交互體驗。
在延遲方面,于實際應用過程中,用戶體驗與“異世界回響”中虛擬人實時語音通話效果時,延遲時間少于行業(yè)平均水平,真正實現(xiàn)即時的AI交流和陪伴。
值得一提的是,端到端的語音語義理解和響應以及更自然的語音指令控制,讓Soul語音通話大模型不僅能夠給予情感關懷、理解人聲情緒情感并給出有溫度的回應,還能夠理解物理世界的聲音場景,模擬物理世界動物聲音、理解多人聊天內容,實現(xiàn)多風格語言切換、文藝內容創(chuàng)作和即興演唱,接近現(xiàn)實交流互動場景需要。
接下來,Soul將持續(xù)推進多模態(tài)端到端大模型能力建設和應用落地,以AI輔助社交、提升關系建立的質量和效率的同時,構建人機交互新場景,讓用戶可以與AI進行更加有溫度、沉浸、趣味的互動交流,不斷創(chuàng)新社交體驗。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )