超擬人數(shù)字人重磅發(fā)布!10月24日,第七屆世界聲博會(huì)暨科大訊飛全球1024開發(fā)者節(jié)在合肥奧體中心拉開帷幕。開幕式上,科大訊飛首次公開展示其多模態(tài)視覺交互技術(shù)和超擬人數(shù)字人能力,引發(fā)行業(yè)熱潮。
大模型的加持,引領(lǐng)數(shù)字人行業(yè)的進(jìn)一步發(fā)展。首次發(fā)布的超擬人數(shù)字人,不僅在口唇、表情、動(dòng)作上更為靈活自然,在制作模式上,更是僅需一張照片即可完成形象的定制,進(jìn)一步降低了數(shù)字人的應(yīng)用門檻。
01
僅需一張照片,持續(xù)降低數(shù)字人應(yīng)用門檻
當(dāng)下,科大訊飛星火大模型正在各行業(yè)應(yīng)用,其中,與數(shù)字人的結(jié)合是熱門方向。在訊飛旗下一款AIGC內(nèi)容創(chuàng)作平臺(tái)訊飛智作上,我們可以看到有四百多個(gè)公版形象,從帶有民族風(fēng)味的文旅形象到端莊大氣的大會(huì)主持,這些數(shù)字人被應(yīng)用于各行各業(yè)。但當(dāng)前定制數(shù)字人仍需較為繁瑣的拍攝流程且對(duì)定制者本身的面部表情和動(dòng)作表達(dá)有著非常高的要求。如何讓更多的人使用個(gè)性化的數(shù)字形象,這也是科大訊飛虛擬人業(yè)務(wù)一直探索的方向。
在活動(dòng)現(xiàn)場(chǎng),科大訊飛研究院院長劉聰為大家展示了自己用一張照片生成的超擬人數(shù)字人。這種僅需上傳一張照片的操作極大簡化了數(shù)字人定制對(duì)于預(yù)設(shè)素材的要求,減少了用戶的操作路徑。這種能力的進(jìn)步進(jìn)一步降低數(shù)字人的使用門檻與成本,對(duì)于數(shù)字人應(yīng)用各行業(yè)都具有重要意義。
02
情感貫穿的多模態(tài)交互,讓情感表達(dá)極大提升
隨著大模型技術(shù)賦能數(shù)字人飛速發(fā)展,當(dāng)下諸多應(yīng)用場(chǎng)景對(duì)定制數(shù)字人提出了更高的要求。
數(shù)字人的表情反饋開始被越來越多的人關(guān)注,那如何實(shí)現(xiàn)實(shí)時(shí)匹配語音內(nèi)容和情感?訊飛智作給出答案——情感貫穿的多模態(tài)交互。
此前定制數(shù)字人需要進(jìn)行拍攝數(shù)據(jù)采集,數(shù)字人的表情和動(dòng)作大多依賴預(yù)設(shè)資源?;诖耍嶏w首發(fā)超擬人數(shù)字人采用了情感貫穿的多模態(tài)交互。情感貫穿讓數(shù)字人能夠根據(jù)上下文實(shí)時(shí)調(diào)整表情。這樣,數(shù)字人的表情不僅是口唇同步,還能夠自然反映語境中的情緒波動(dòng),實(shí)現(xiàn)更貼近真人的情感表達(dá)。讓數(shù)字人告別單一的面部表現(xiàn),讓其情感表達(dá)急速提升。
03
擺脫預(yù)設(shè)模板動(dòng)作,讓動(dòng)作借助語義自然驅(qū)動(dòng)
在此次1024開發(fā)者節(jié)上,超擬人數(shù)字人在肢體動(dòng)作驅(qū)動(dòng)方面也帶來了技術(shù)創(chuàng)新,其肢體動(dòng)作能夠根據(jù)語音的節(jié)奏、語調(diào)和內(nèi)容實(shí)時(shí)生成。通常情況下,傳統(tǒng)的數(shù)字人動(dòng)作驅(qū)動(dòng)需要依賴預(yù)先錄制的模板動(dòng)作,在與語音匹配時(shí)調(diào)用此前的模版動(dòng)作來同步數(shù)字人肢體,但這種方式在一定程度上會(huì)局限數(shù)字人肢體的更多表現(xiàn)。
此次訊飛的首發(fā)超擬人數(shù)字人基于多模擴(kuò)散生成大模型,讓生成式肢體動(dòng)作突破動(dòng)作預(yù)設(shè)模版。數(shù)字人的動(dòng)作能夠與語音內(nèi)容自然匹配,這一突破極大提升了數(shù)字人在動(dòng)態(tài)場(chǎng)景中的表現(xiàn)力,增強(qiáng)交互的擬人化程度。
04
中間表征壓縮技術(shù),提升多場(chǎng)景下實(shí)時(shí)交互能力
視頻生成模型效率一直是業(yè)界持續(xù)探索的難題,在數(shù)字人不斷加速落地多元場(chǎng)景下,數(shù)字人視頻生成的實(shí)時(shí)性也決定了數(shù)字人技術(shù)能否在交互場(chǎng)景中的有效使用。如在銀行場(chǎng)景中,數(shù)字人扮演網(wǎng)點(diǎn)營業(yè)員的工作任務(wù)要求其需要極高的實(shí)時(shí)交互能力,這不僅會(huì)影響業(yè)務(wù)處理效率還會(huì)對(duì)客戶體驗(yàn)產(chǎn)生直接影響。
而這次的訊飛超擬人數(shù)字人采用了動(dòng)作表征抽取技術(shù),將語音和文本輸入轉(zhuǎn)化為緊湊的中間表征,將視頻維度進(jìn)行了有效壓縮,從而大幅減少視頻計(jì)算量,讓數(shù)字人快速生成表情和動(dòng)作,保障了數(shù)字人與用戶的實(shí)時(shí)互動(dòng)。
從營銷到金融,從文旅到電商,數(shù)字人承擔(dān)著虛擬導(dǎo)游、虛擬客服、虛擬主播等多元角色,賦能到金融、文旅、媒體、政企等場(chǎng)景,而快問快答的實(shí)時(shí)交互能力對(duì)于高互動(dòng)場(chǎng)景的重要性逐漸凸顯。此次訊飛發(fā)布的中間表征壓縮技術(shù)能極大提升虛擬人交互能力,讓用戶在與虛擬人交互過程中提升體驗(yàn)感。
當(dāng)下,科大訊飛數(shù)字人已廣泛應(yīng)用于金融、政務(wù)、文旅、商業(yè)、展會(huì)等多個(gè)領(lǐng)域。訊飛智作作為是科大訊飛為廣大創(chuàng)作者打造的智能內(nèi)容創(chuàng)作基地,在AI能力的加持下,用戶帶著個(gè)性化的創(chuàng)意就可以完成高質(zhì)量音視頻的輸出,讓服務(wù)成本降低,讓用戶體驗(yàn)更優(yōu)。
與此同時(shí),科大訊飛虛擬人交互平臺(tái)運(yùn)用最新的AI虛擬人技術(shù),結(jié)合星火認(rèn)知大模型,為用戶提供一站式的虛擬人解決方案。無需代碼一鍵部署,為客戶提升服務(wù)效率,創(chuàng)新服務(wù)體驗(yàn),降低服務(wù)綜合成本。從國際賽事巴黎奧運(yùn)會(huì)到文旅地標(biāo)北京圓明園,從行業(yè)活動(dòng)天津智博會(huì)到智慧生活山東高速,科大訊飛虛擬人無處不在,助力融媒體、政企、文旅、教育、電商各行各業(yè)。
此次1024開發(fā)者節(jié)首發(fā)超擬人數(shù)字人讓數(shù)字人能力再升級(jí)。更加真實(shí)且靈動(dòng)的數(shù)字人,正在逐步降低數(shù)字人應(yīng)用開發(fā)門檻,相信未來可以幫助更多個(gè)人及企業(yè)實(shí)現(xiàn)一站式的虛擬人解決方案。
現(xiàn)在,首發(fā)超擬人虛擬人的已在訊飛智作小程序上開放內(nèi)測(cè)通道。依托星火大模型的基座能力,實(shí)現(xiàn)任意一張照片的快速驅(qū)動(dòng)生成,快去定制一個(gè)屬于自己的超擬人數(shù)字人吧。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )