一張照片驅(qū)動數(shù)字人 出門問問推出新照片數(shù)字人引擎WetaAvatar 4.0

隨著AIGC時代的到來,數(shù)字人生成技術(shù)正逐漸成為焦點。出門問問自主研發(fā)的照片數(shù)字人引擎,憑借持續(xù)的技術(shù)創(chuàng)新,讓用戶僅需一張照片就能快速生成可以說話、講故事的動態(tài)視頻。目前,這一引擎已成功應(yīng)用于國內(nèi)產(chǎn)品「奇妙元」以及國際產(chǎn)品「DupDub」。

出門問問不斷迭代照片數(shù)字人引擎

圖片10.png

自2023年推出WetaAvatar 3.0數(shù)字人系統(tǒng)及其照片數(shù)字人引擎以來,出門問問憑借其易用性和生動的生成效果,迅速贏得了用戶的青睞,進行了形式豐富的內(nèi)容創(chuàng)作。為了進一步提升用戶體驗,我們推出了最新一代的照片數(shù)字人引擎——WetaAvatar 4.0-Talking Photo。這一版本不僅優(yōu)化了視頻生成的清晰度和真實感,還顯著加快了合成過程。同時,我們也在積極開發(fā)照片數(shù)字人實時對話引擎,不斷推動技術(shù)創(chuàng)新的邊界。

在新一代照片數(shù)字人引擎WetaAvatar 4.0-Talking Photo中,用戶可以體驗到以下優(yōu)化:

合成速度翻倍:合成速度顯著提升,大幅縮短等待時間。

背景渲染優(yōu)化:視頻背景渲染精準,與原圖色彩無縫匹配。

人物背景分離增強:確保人物與背景之間的高度解耦,提升視頻質(zhì)量。

牙齒與嘴型精準復現(xiàn):細節(jié)處理更出色,確保牙齒和嘴型的真實性和自然性。

大模型賦能 自然語音輸出

圖片11.png

用戶僅需提供文本內(nèi)容,便可借助出門問問的MeetVoice Pro語音大模型,生成自然流暢的語音輸出。之后,結(jié)合我們的數(shù)字人系統(tǒng),這些語音將被轉(zhuǎn)化為精確同步的嘴形動作和自然的表情變化,創(chuàng)造出動作流暢、表現(xiàn)力豐富的數(shù)字人視頻,為用戶提供一種全新的互動體驗和內(nèi)容創(chuàng)作方式。

圖片12.png

兩大技術(shù)模塊 促成高質(zhì)量效果

圖片13.png

WetaAvatar 4.0-Talking Photo是一個高效的雙模塊引擎,專為生成逼真的照片數(shù)字人視頻而設(shè)計,包含兩個核心組件:運動預(yù)測模塊和人臉驅(qū)動模塊。運動預(yù)測模塊:此模塊利用先進的語音分析技術(shù),從輸入的語音中提取關(guān)鍵參數(shù),這些參數(shù)隨后用于精確生成與之匹配的嘴型動畫。這個過程涉及到復雜的算法,能夠確保嘴型與語音的節(jié)奏和強度完美同步,從而創(chuàng)造出自然流暢的說話效果。人臉驅(qū)動模塊:此模塊則進一步增強了視頻的真實感。它結(jié)合了預(yù)先生成的驅(qū)動視頻和用戶輸入的靜態(tài)圖片,通過算法生成一個全面的運動場。這個運動場不僅包含了嘴型變化,還能夠模擬出豐富的面部表情和微妙的肌肉運動。隨后,這個運動場可以用來驅(qū)動輸入圖片,生成具有高度表現(xiàn)力和動態(tài)變化的數(shù)字人視頻?;谝陨蟽蓚€模塊,在新一代Talking Photo引擎中,不論是人物正臉或側(cè)臉驅(qū)動,其表現(xiàn)均優(yōu)于前代,技術(shù)指標Sync-C的數(shù)值普遍高于WetaAvatar 3.0-Talking Photo引擎。

Sync-C (SyncNet Confidence):使用預(yù)訓練的衡量音畫同步性的模型 SyncNet 計算的音畫同步置信度。相同的驅(qū)動音頻和驅(qū)動視頻,數(shù)值越高越好。

更多創(chuàng)作形式盡在探索

目前,「奇妙元」平臺已經(jīng)搭載WetaAvatar 4.0-Talking Photo引擎,用戶能夠釋放創(chuàng)意潛力,將風格各異的人物照片驅(qū)動,生成高質(zhì)量的動態(tài)視頻,實現(xiàn)人物自然地說話、講述,甚至唱歌的視頻效果。

「奇妙元」支持對皮克斯風格照片進行人物驅(qū)動,效果與真實人物幾乎無異。

如照片中的人物有胡子等面部遮擋物,「奇妙元」依然能夠精準捕捉面部特征,保證圖像生成的準確性。

對于年代久遠的老照片,「奇妙元」能夠進行精準上色和高清渲染處理,進而驅(qū)動照片中的人物,讓這些珍貴的記憶煥發(fā)出新的活力。

展望未來

出門問問技術(shù)團隊致力于推動數(shù)字人技術(shù)的發(fā)展,目前正專注于基于WetaAvatar 4.0-Talking Photo的實時照片對話引擎的研發(fā)工作,預(yù)計不久將投入使用。我們不僅注重技術(shù)的創(chuàng)新,更著眼于提升用戶體驗,旨在通過生成更真實的表情和豐富的動作,打造出具有高度情感表現(xiàn)力的照片數(shù)字人。隨著大模型時代的到來,出門問問數(shù)字人團隊也將持續(xù)深入探索基于大模型的數(shù)字人生成技術(shù),以Sora模型的問世為里程碑,期待在大模型的加持下,創(chuàng)造出更加生動、真實的數(shù)字人,為用戶提供更加豐富和深入的交互體驗。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )