快手發(fā)布對(duì)標(biāo)Sora的視頻生成大模型「可靈」 已開(kāi)放邀測(cè)體驗(yàn)

在OpenAI文生視頻大模型Sora發(fā)布后,國(guó)內(nèi)企業(yè)爭(zhēng)相入局,國(guó)產(chǎn)文生視頻大模型邁入加速階段。近日,又一國(guó)產(chǎn)視頻大模型加入戰(zhàn)局,快手“可靈”視頻生成大模型官網(wǎng)正式上線。相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對(duì)標(biāo)Sora,且已在快手旗下的快影App開(kāi)放邀測(cè)體驗(yàn)。

可靈大模型官網(wǎng)

作為短視頻領(lǐng)域頭部玩家,快手在短視頻視頻技術(shù)方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應(yīng)用場(chǎng)景??伸`大模型為快手AI團(tuán)隊(duì)自研,采用類Sora的技術(shù)路線并結(jié)合多項(xiàng)自研創(chuàng)新技術(shù),具備諸多優(yōu)勢(shì):1、能夠生成大幅度的合理運(yùn)動(dòng);2、能夠模擬物理世界特性;3、具備強(qiáng)大的概念組合能力和想象力;4、生成的視頻分辨率高達(dá)1080p,時(shí)長(zhǎng)高達(dá)2分鐘(幀率30fps),且支持自由的寬高比。具體而言:

可靈大模型能夠生成大幅度的合理運(yùn)動(dòng)??伸`采用了3D時(shí)空聯(lián)合注意力機(jī)制,能夠更好地建模視頻中的復(fù)雜時(shí)空運(yùn)動(dòng)。因此,可靈大模型不僅能夠生成較大幅度的運(yùn)動(dòng),且更符合客觀運(yùn)動(dòng)規(guī)律,能夠真正做到讓想象力動(dòng)起來(lái)。下面宇航員在月球上奔跑的例子中,隨著鏡頭慢慢抬升,我們可以看到宇航員跑步的動(dòng)作流暢輕盈,步態(tài)和影子的運(yùn)動(dòng)合理恰當(dāng)。

prompt:一名宇航員在月球表面奔跑,低角度鏡頭展現(xiàn)了月球的廣闊背景,動(dòng)作流暢且顯得輕盈(視頻詳見(jiàn)可靈官網(wǎng))

能夠模擬真實(shí)物理世界的特性。得益于自研模型架構(gòu)及Scaling Law激發(fā)出的強(qiáng)大建模能力,可靈大模型為我們構(gòu)建起了一個(gè)無(wú)限逼近現(xiàn)實(shí)的想象空間,無(wú)論是真實(shí)世界的光影反射,重力影響下的流體運(yùn)動(dòng),還是與物理世界的交互,可靈大模型都能夠生成符合物理規(guī)律的視頻。下面是小男孩吃漢堡的生成視頻,一口咬下去,漢堡被咬掉一個(gè)大大的缺口,并在視頻中一直保持??梢钥吹叫『⒕捉罎h堡的享受表情,臉部的肌肉動(dòng)態(tài)非常逼真

prompt:一個(gè)戴眼鏡的中國(guó)男孩在快餐店內(nèi)閉眼享受美味的芝士漢堡(視頻詳見(jiàn)可靈官網(wǎng))

具備強(qiáng)大的概念組合能力和想象力。憑借模型對(duì)文本-視頻語(yǔ)義的深刻理解和基于 Diffusion Transformer 架構(gòu)學(xué)到的強(qiáng)大概念組合能力,可靈大模型能夠?qū)⒂脩糌S富的想象力轉(zhuǎn)化為具體的畫(huà)面,讓創(chuàng)意觸手可及。下面的視頻展示了熊貓吉他手坐在湖邊彈著吉唱著歌的想象場(chǎng)景。

prompt:一只大熊貓?jiān)诤厪椉?視頻詳見(jiàn)可靈官網(wǎng))

可靈大模型生成的視頻分辨率高達(dá)1080p、時(shí)長(zhǎng)高達(dá)2分鐘(幀率30fps),且支持自由的輸出視頻寬高比。可靈大模型的自研3D VAE能夠?qū)⒁曨l編碼到緊湊的隱空間并解碼成帶有豐富細(xì)節(jié)的視頻,可以生成高達(dá)1080p分辨率30fps的視頻。得益于高效的訓(xùn)練基礎(chǔ)設(shè)施、極致的推理優(yōu)化和可擴(kuò)展的基礎(chǔ)架構(gòu),可靈大模型能夠生成長(zhǎng)達(dá)2分鐘的視頻。在推理過(guò)程中,還可以做到同樣內(nèi)容輸出多種視頻寬高比。同時(shí),可靈官網(wǎng)還展示了分鐘級(jí)的視頻生成效果,可以跟隨鏡頭看到,小男孩騎自行車游覽花園,在一鏡到底中穿越春夏秋冬四季的風(fēng)景。

大模型的生成效果取決于數(shù)據(jù)的規(guī)模和質(zhì)量、以及大規(guī)模訓(xùn)練的效率??伸`大模型在研發(fā)過(guò)程中,配套建設(shè)了高效的大規(guī)模自動(dòng)化數(shù)據(jù)解決方案,覆蓋了海量視頻挖掘、多維打標(biāo)篩選、視頻描述增強(qiáng)、及數(shù)據(jù)驅(qū)動(dòng)的效果質(zhì)量評(píng)估等多個(gè)方面。在訓(xùn)練過(guò)程中,采用了多種計(jì)算優(yōu)化和通信優(yōu)化方案,極大提升了GPU和網(wǎng)絡(luò)帶寬利用率,并通過(guò)自動(dòng)故障檢測(cè)和failover等機(jī)制,提供了分鐘級(jí)故障恢復(fù)能力。保障了短時(shí)間內(nèi)模型效果的快速提升。

快影App的AI創(chuàng)作功能中已正式開(kāi)放文生視頻功能的邀測(cè),支持創(chuàng)作者申請(qǐng)并體驗(yàn)可靈大模型最新的文生視頻功能,圖生視頻功能也將于近期開(kāi)放。

此外,基于可靈大模型,更多應(yīng)用方向也已經(jīng)或即將落地。例如,基于肢體驅(qū)動(dòng)的“AI舞王”功能已在快手和快影App成功落地,用戶只需上傳一張全身或半身照片,即可體驗(yàn)一鍵跳舞的樂(lè)趣。近期還將首發(fā)上線“AI唱跳”新玩法,可以同時(shí)驅(qū)動(dòng)表情和肢體動(dòng)作,僅需一張照片就能生成唱跳“愛(ài)你”的生動(dòng)視頻。

隨著AI大模型時(shí)代來(lái)臨,作為頭部短視頻公司,快手已展開(kāi)全面布局。公開(kāi)資料顯示,快手已先后發(fā)布通用大語(yǔ)言模型“快意”、文生圖大模型產(chǎn)品“可圖”,還推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻關(guān)鍵技術(shù),引發(fā)了廣泛關(guān)注。據(jù)悉,伴隨此次可靈大模型的發(fā)布,快手將持續(xù)加速大模型的研發(fā)與應(yīng)用,帶來(lái)更加多元的AI創(chuàng)作與互動(dòng)體驗(yàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )