讓Sora多飛一會(huì)兒

2月22日消息,OpenAI的文生視頻模型Sora案例視頻集一經(jīng)推出,就成為科技圈的熱門話題。

繼ChatGPT后,Sora的文生視頻能力再次驚艷AI圈子,大有不談Sora就out了的氛圍。

Sora文生視頻效果驚艷

根據(jù)OpenAI官方給出的介紹,Sora是一個(gè)通用的視覺(jué)數(shù)據(jù)模型,它可以生成不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像,最高可達(dá)一分鐘的高清視頻。

OpenAI發(fā)布了48個(gè)視頻,這些均是由Sora模型(Creating video from text)通過(guò)對(duì)文字理解而生成的視頻。

第一個(gè)視頻就是根據(jù)文本:“一位時(shí)尚的女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和生動(dòng)的城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,手里拿著一個(gè)黑色錢包。她戴著太陽(yáng)鏡和紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果。許多行人走來(lái)走去。”(Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)生成的視頻。

Sora出現(xiàn)之前,在文生視頻領(lǐng)域,美國(guó)初創(chuàng)企業(yè)Runway和Pika被認(rèn)為是視頻生成賽道的領(lǐng)先者。

然而,Sora的出現(xiàn),瞬間秒殺了“領(lǐng)先者”們。

從公布的視頻來(lái)看,Sora通過(guò)文字生成的視頻表現(xiàn)明顯突出:

首先,時(shí)長(zhǎng)更長(zhǎng)。Sora生成60秒視頻,Pika是3秒,Runway是4秒;

第二,Sora的視頻有多角度鏡頭,分鏡切換符合邏輯,并且視頻主體移動(dòng)時(shí)與背景保持高度穩(wěn)定和流暢;

第三,Sora的視頻對(duì)光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得更好。

總之,就是Sora生成的視頻極大地提升了視頻的“真實(shí)感”,讓人看了感覺(jué)像是真實(shí)拍攝的。

繼“有圖有真相”破碎后,視頻也不再等于真相了。

目前,OpenAI尚未向公眾開(kāi)放Sora,僅對(duì)部分研究人員和學(xué)者開(kāi)放測(cè)試資格。

國(guó)內(nèi)用戶無(wú)渠道參與試用Sora。

但這也不妨礙科技圈大牛們對(duì)Sora的研究興趣。

OpenAI 官網(wǎng)上公開(kāi)的信息,48個(gè)Sora文生視頻案例、Sora的技術(shù)報(bào)告《Video generation models as world simulators》(中文譯《把視頻生成模型作為世界模擬器》)成為各方人士研究Sora的主要抓手和窗口。

多少有些隔岸旁觀、盲人摸象的感覺(jué),短短幾天,對(duì)Sora的關(guān)注和討論就形成了多個(gè)“派別”。

技術(shù)派:挖掘Sora背后的技術(shù)邏輯

國(guó)外社交媒體上的AI大牛,國(guó)內(nèi)微博技術(shù)大V、知乎技術(shù)博主們紛紛發(fā)文分析Sora的核心技術(shù)。

這些分析主要根據(jù)OpenAI給的技術(shù)報(bào)告《Video generation models as world simulators》及報(bào)告中羅列的32篇技術(shù)文獻(xiàn)提及的技術(shù)而來(lái)。

技術(shù)大牛們挖掘出的Sora模型創(chuàng)新主要有2個(gè)關(guān)鍵:

一, Spacetime Patch(時(shí)空Patch)技術(shù)

技術(shù)報(bào)告原文:LLMs have text tokens, Sora has visual patches.

解放思想,從大型語(yǔ)言模型中獲得靈感。

如同LLM將各種類型的文本內(nèi)容轉(zhuǎn)化為Tokens后,實(shí)現(xiàn)對(duì)大規(guī)模文本內(nèi)容的訓(xùn)練;

用Spacetime Patch對(duì)所有類型的視頻內(nèi)容進(jìn)行統(tǒng)一表示,進(jìn)而能夠?qū)σ曨l生成模型進(jìn)行大規(guī)模數(shù)據(jù)訓(xùn)練。

圖片來(lái)源于《Video generation models as world simulators》

值得注意的是,Spacetime Patch除了包括視頻信息元素的空間信息還有時(shí)間信息。

圖片就是單幀的視頻,把圖片按正確的發(fā)生時(shí)間順序顯示出來(lái),就將是一個(gè)邏輯正確的視頻。

二, Diffusion Transformer(DiT,擴(kuò)散型 Transformer)架構(gòu)。

技術(shù)報(bào)告原文:Sora is a diffusion transformer。

和其他文生視頻產(chǎn)品所用的底層架構(gòu)不同,Sora 使用的是Diffusion Transformer架構(gòu)。

Diffusion Transformer論文(26號(hào)論文)的作者之一William Peebles,現(xiàn)在是OpenAI工程師,負(fù)責(zé)開(kāi)發(fā)Sora。

《Video generation models as world simulators》羅列的技術(shù)文獻(xiàn)

Sora能獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻,還能獲取現(xiàn)有視頻,進(jìn)行擴(kuò)展或填充缺失內(nèi)容。

技術(shù)大牛們認(rèn)為,Transformer強(qiáng)在前后文的理解和保持連續(xù)性,這讓Sora在時(shí)間軸上的延伸性非常出色,可以生成開(kāi)頭不同但結(jié)尾完全一致的視頻片段。

哲思派:人工智能的能力到了什么階段?

以周鴻祎為代表的國(guó)內(nèi)技術(shù)大佬們對(duì)AI能力進(jìn)化的思考又進(jìn)一步。

Sora生成的視頻發(fā)布后,周鴻祎就稱“Sora意味著AGI實(shí)現(xiàn)將從10年縮短到兩三年”。

此后,短短3天時(shí)間,周鴻祎已發(fā)布7個(gè)小視頻來(lái)闡述自己對(duì)Sora的思考。

周鴻祎認(rèn)為,“Sora應(yīng)該還是模擬了人類去觀察世界、描繪世界和表現(xiàn)世界的方法。”

“Sora表面上是一個(gè)文生視頻的工具,實(shí)際上是一個(gè)現(xiàn)實(shí)世界模擬器。它也不僅僅是用來(lái)模擬現(xiàn)實(shí)世界,它意味著通用人工智能對(duì)這個(gè)世界的理解能力又一次得到了突破。GPT對(duì)人類語(yǔ)言和知識(shí)的理解達(dá)到了一個(gè)突破點(diǎn),而除了人類的語(yǔ)言和這個(gè)世界的人類之間做交互的知識(shí)之外,這個(gè)世界還有很多規(guī)律,人工智能對(duì)物理世界的規(guī)律缺乏理解的話,那么它是殘缺的,不可能真正變成通用人工智能?!?/p>

“Sora做出的視頻之所以讓人感覺(jué)真是,不是畫面有多優(yōu)美,是因?yàn)樽屓祟惪雌饋?lái),所有的動(dòng)作是符合這個(gè)世界的運(yùn)行規(guī)律的。它對(duì)這個(gè)世界的規(guī)律有了一個(gè)比較更為完整的了解。這就說(shuō)明人工智能的能力又上了一個(gè)臺(tái)階?!?/p>

搞錢派:售賣課程、追漲股票、投資建廠搞芯片

現(xiàn)在,針對(duì)Sora熱搜引發(fā)的“搞錢派”也分不同段位。

最基本的一類是,根據(jù)信息差來(lái)賣課、賣賬號(hào)的。

Sora根本還沒(méi)對(duì)外開(kāi)放使用,現(xiàn)在就來(lái)這樣搞錢實(shí)在太無(wú)厘頭了。

然而,還真有人買單。

某電商平臺(tái)26.6元的學(xué)習(xí)包,居然已經(jīng)售出10多份。

第二類是追漲AI概念股搞錢的,人也不少。

春節(jié)后A股開(kāi)門紅,AI相關(guān)概念股全線上揚(yáng),Sora板塊多模態(tài)模型概念、ChatGPT、虛擬人、AIGC、算力等相關(guān)概念均有所上漲,算是給A股的朋友們一個(gè)新年紅包。

最高段位的,還是直接針對(duì)大模型“核心能力”—— 算力出奇跡進(jìn)行投資的富豪們。

上圖從左往右分別是Sora使用 1 倍資源、4 倍資源、16 倍資源訓(xùn)練時(shí)的生成效果。

圖片來(lái)自《Video generation models as world simulators》

可見(jiàn),算力,仍然是卡住AI發(fā)展脖子的角色。

就在Sora發(fā)布后,軟銀創(chuàng)始人孫正義正尋求籌資1000億美元(約合人民幣7000億元),用于創(chuàng)立一家AI芯片企業(yè),旨在挑戰(zhàn)英偉達(dá)的消息傳出。

OpenAI創(chuàng)始人 Sam Altman籌建7萬(wàn)億打造AI芯片帝國(guó)的計(jì)劃也被曝出向美政府尋求政策支持。

找差距、威脅派

就在Sora露面后的2天,2月18日,國(guó)家互聯(lián)網(wǎng)信息辦公室關(guān)于發(fā)布第四批深度合成服務(wù)算法備案信息,該批共有266個(gè)算法通過(guò)備案。此前三批分別有41、110、129個(gè)算法通過(guò)備案。

這意味著截至目前,國(guó)內(nèi)總計(jì)已經(jīng)有546款深度合成服務(wù)算法獲得備案。

追問(wèn)“國(guó)內(nèi)何時(shí)有自己的Sora?”“國(guó)內(nèi)企業(yè)距離趕上Sora還要多久?”的聲音毫無(wú)意外的再次響起。

當(dāng)然,Sora生成視頻太逼真而引發(fā)犯罪不可控的擔(dān)憂聲也不少,生成的視頻是否會(huì)影響到人身安全、社會(huì)穩(wěn)定、企業(yè)安全等等。

迎接“Sora們”開(kāi)放,法律、社會(huì)、技術(shù)等層面是否都做好了準(zhǔn)備?

如IDC分析師所言,生成式AI產(chǎn)品不可預(yù)測(cè)的未來(lái):具體哪些公司能在什么時(shí)間點(diǎn)推出與 Sora 類似的產(chǎn)品,不可預(yù)測(cè)。當(dāng)前 Sora 生成的是1分鐘的視頻,下一步何時(shí)能生成2分鐘5分鐘以上的視頻,不可預(yù)測(cè)。

但是,對(duì)于個(gè)人而言,生成式AI產(chǎn)品已經(jīng)在潛移默化的改變我們的生活方式,每一個(gè)人都可以認(rèn)真考慮該類產(chǎn)品如何能夠助力我們的生活與工作。

還是那句話,每一項(xiàng)新技術(shù)進(jìn)入人們的生活時(shí),總是伴隨著興奮和質(zhì)疑。那么就讓Sora們 多飛一會(huì)兒!

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-02-22
讓Sora多飛一會(huì)兒
2月22日消息,OpenAI的文生視頻模型Sora案例視頻集一經(jīng)推出,就成為科技圈的熱門話題。

長(zhǎng)按掃碼 閱讀全文