2023《幻境法典》現(xiàn)世 AI大師NVIDIA施展十大現(xiàn)實(shí)“幻境”

在2023年的科技界,NVIDIA的名字頻頻被提及。這不僅因?yàn)槠湓贕PU市場(chǎng)的領(lǐng)先地位,也因?yàn)槠湓?a href="http://picoinsstore.com/AI_1.html" target="_blank" class="keylink">AI領(lǐng)域的顯著成就。

NVIDIA 2023年10大研究亮點(diǎn),從CV到AI,從智能體到生成式A1。

從具身AI的靈動(dòng)機(jī)器人到虛擬角色的栩栩如生,從3D生成模型的立體世界到圖形處理的細(xì)膩畫(huà)面,再到圖像生成與視頻生成技術(shù)的逼真效果。NVIDIA用AI領(lǐng)域的十大研究成果,向世界揭示了一個(gè)全新的未來(lái)——一個(gè)由AI驅(qū)動(dòng),幻想與現(xiàn)實(shí)交織的未來(lái)。

實(shí)現(xiàn)這一切的NVIDIA,就如同創(chuàng)造《幻境法典》的大法師,十大研究成果便是NVIDIA以其非凡的AI魔力創(chuàng)造出的十大AI技術(shù)幻境。

其中包括3個(gè)AI 智能體的(機(jī)器人和虛擬角色)研究、2個(gè)3D生成模型研究、2個(gè)圖形處理研究、2個(gè)圖像生成研究以及1個(gè)視頻生成研究。每一項(xiàng)技術(shù),都是一段魔法咒語(yǔ),每一次創(chuàng)新都是一次魔法的施展。

現(xiàn)在,讓我們一起,深入探索這十大現(xiàn)實(shí)幻境,感受NVIDIA為世界揭開(kāi)的每一扇神秘之門。

\

01 細(xì)膩之美:Neuralangelo鏈接虛擬與現(xiàn)實(shí)

從粗糙的瓦片到光滑的大理石,每一處紋理,都仿佛經(jīng)過(guò)時(shí)間的雕琢,展現(xiàn)出細(xì)膩與真實(shí);不論是小巧的裝飾品還是宏偉的建筑,在虛擬空間中,它們的形貌和靈魂都被1:1重塑.....

\

這正是Neuralangelo用“AI的筆觸”以前所未有的方式捕捉與重現(xiàn)現(xiàn)實(shí)世界的傳神細(xì)膩,展現(xiàn)質(zhì)感的傳神。

作為一款全新的AI模型,Neuralangelo利用神經(jīng)網(wǎng)絡(luò)進(jìn)行3D重建,可將 2D視頻片段轉(zhuǎn)換為詳細(xì)的3D結(jié)構(gòu),為建筑物、雕塑以及其他真實(shí)物體生成逼真的虛擬復(fù)本。

Neuralangelo的技術(shù)核心,在于捕捉和再現(xiàn)那些細(xì)小而復(fù)雜的紋理與色彩變化。通過(guò)分析不同角度的視頻,繪制出場(chǎng)景的深度、大小和形狀。

Neuralangelo不僅在藝術(shù)層面頗具造詣,憑借NVIDIA Instant NeRF技術(shù),在重建3D場(chǎng)景方面更能為虛擬現(xiàn)實(shí)、數(shù)字孿生以及機(jī)器人開(kāi)發(fā)等領(lǐng)域開(kāi)啟創(chuàng)新篇章。

在建筑設(shè)計(jì)和房地產(chǎn)領(lǐng)域,該技術(shù)能夠通過(guò)3D模型精確呈現(xiàn)未來(lái)建筑的內(nèi)部和外部結(jié)構(gòu),幫助設(shè)計(jì)師優(yōu)化設(shè)計(jì),客戶提前體驗(yàn)空間。

在電影和游戲產(chǎn)業(yè),它能夠創(chuàng)建高度逼真的虛擬場(chǎng)景,提升視覺(jué)效果,增強(qiáng)用戶體驗(yàn)。

在機(jī)器人技術(shù)和自動(dòng)駕駛領(lǐng)域,精確的3D場(chǎng)景重建對(duì)于機(jī)器人的空間感知和決策至關(guān)重要,有助于提高導(dǎo)航和操作的安全性和效率。

02 “指揮棒”:Eureka讓機(jī)器人超越“天賦”

一只機(jī)器手臂,在沒(méi)有任何預(yù)定義獎(jiǎng)勵(lì)模板的情況下,如何通過(guò)“直覺(jué)”,便能自如地翻轉(zhuǎn)筆、打開(kāi)抽屜?

\

這些原本僅能人類具備的“天賦”,卻都在Eureka的“指揮”下被機(jī)器人完成。作為一款A(yù)I智能體,Eureka利用先進(jìn)的GPT-4 LLM技術(shù)和生成式AI,為機(jī)器人提供高效的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)方案,教會(huì)機(jī)器人通過(guò)嘗試和錯(cuò)誤來(lái)學(xué)習(xí),訓(xùn)練機(jī)器人完成復(fù)雜任務(wù)。

通過(guò)在Isaac Gym中利用GPU進(jìn)行加速模擬,Eureka能快速篩選出最優(yōu)的獎(jiǎng)勵(lì)方案,提升訓(xùn)練的效率。隨著訓(xùn)練的進(jìn)行,它還會(huì)收集關(guān)鍵數(shù)據(jù),指導(dǎo)語(yǔ)言模型進(jìn)一步改善獎(jiǎng)勵(lì)函數(shù)。這種自我完善的能力讓Eureka能教會(huì)各種類型的機(jī)器人完成多樣化的任務(wù)。

Eureka這個(gè)名字源于希臘語(yǔ),意思是“我找到了”。它不僅找到了解決復(fù)雜問(wèn)題的新方法,更打開(kāi)了行業(yè)通往無(wú)限可能的大門:

在工業(yè)領(lǐng)域,應(yīng)用Eureka能極大提高生產(chǎn)效率和安全性;在醫(yī)療領(lǐng)域,它的精準(zhǔn)控制可助力精細(xì)的手術(shù)操作;在娛樂(lè)行業(yè),它所帶來(lái)的物理逼真動(dòng)畫(huà)將為用戶帶來(lái)前所未有的視覺(jué)體驗(yàn)。此外,服務(wù)業(yè)、教育甚至家居生活,都將因Eureka的加入而變得更加智能、高效。

03 造夢(mèng)師:Magic3D橋接想象力與現(xiàn)實(shí)

Magic3D是一個(gè)可以從文字描述中生成3D模型的AI模型。穿梭于數(shù)字與現(xiàn)實(shí)的交界,Magic3D以其獨(dú)特“魔力”,讓思維映射到現(xiàn)實(shí),將簡(jiǎn)單的文字用線條與色彩編織成三維世界的奇跡。

當(dāng)你輸入“一只坐在睡蓮上的藍(lán)色毒鏢蛙”這樣的文字提示,只需40分鐘,Magic3D便可以描繪出一個(gè)兼具細(xì)膩紋理和豐富色彩的三維實(shí)體。不僅如此,它的速度甚至比谷歌的DreamFusion快了整整兩倍,同時(shí)還提供了更高的三維模型分辨率。

\

一只坐在睡蓮上的藍(lán)色毒鏢蛙

更令人著迷的是,Magic3D賦予了創(chuàng)作者“改寫現(xiàn)實(shí)”的能力。創(chuàng)作者只需通過(guò)修改文字,便可以讓原本靜止的模型能即時(shí)變換形態(tài)、色彩,仿佛擁有了生命。這種即時(shí)、動(dòng)態(tài)的創(chuàng)造過(guò)程,是對(duì)傳統(tǒng)創(chuàng)作方式的一次顛覆性創(chuàng)新。

\

從一只坐在一堆西蘭花上的金屬兔子到一個(gè)坐在一堆巧克力餅干上的獅身人面像

技術(shù)上,Magic3D采用“由粗到細(xì)”的策略,先構(gòu)建初步模型,再精細(xì)化至高分辨率,保證了從宏觀到微觀的無(wú)縫過(guò)渡,每一個(gè)細(xì)節(jié)都經(jīng)過(guò)精心打磨。

事實(shí)上,這項(xiàng)技術(shù)對(duì)多個(gè)行業(yè)都有潛在的巨大影響。在游戲設(shè)計(jì)中,Magic3D能夠迅速構(gòu)建豐富多彩的虛擬世界,提升游戲體驗(yàn)的同時(shí),大幅縮短開(kāi)發(fā)周期。在電影制作中,用Magic3D生成復(fù)雜的3D場(chǎng)景和特效,可以極大提升視覺(jué)沖擊力,提高電影質(zhì)量。在產(chǎn)品設(shè)計(jì)、建筑模擬等領(lǐng)域,這項(xiàng)技術(shù)可以作為一個(gè)高效的原型工具,加速?gòu)母拍畹綄?shí)物的轉(zhuǎn)化過(guò)程。

在這個(gè)由數(shù)字編織未來(lái)的時(shí)代,Magic3D搭建起想象力與現(xiàn)實(shí)之間的橋梁,引領(lǐng)我們進(jìn)入一個(gè)更加細(xì)膩、多彩、生動(dòng)的三維數(shù)字世界。

04 AI理云鬢:ADMM實(shí)現(xiàn)高逼真頭發(fā)模擬

你知道人類頭上有多少根頭發(fā)嗎?平均而言,這個(gè)數(shù)字大約是10萬(wàn)根。

一部大制作的電影,想要生動(dòng)地描繪出人物頭發(fā)的細(xì)節(jié),只能租賃昂貴的服務(wù)器,通過(guò)數(shù)天甚至更長(zhǎng)時(shí)間的計(jì)算才能呈現(xiàn)良好的效果,且常常需要妥協(xié)于計(jì)算資源的限制。

但現(xiàn)在,這一切都發(fā)生了改變,只需要數(shù)小時(shí)甚至更短,便可以制作出高逼真的發(fā)絲模擬。

這便是NVIDIA研究人員開(kāi)發(fā)出的、在GPU上計(jì)算頭發(fā)模擬的新方法——ADMM。ADMM使用AI來(lái)預(yù)測(cè)頭發(fā)在現(xiàn)實(shí)世界中的行為方式,通過(guò)NVIDIA GPU強(qiáng)大的計(jì)算能力加持,極大地提升了頭發(fā)模擬的效率和質(zhì)量。每根頭發(fā)的彎曲、搖擺,甚至是在風(fēng)中的輕輕擺動(dòng),都能以令人驚嘆的真實(shí)度呈現(xiàn)。

Gilles Daviet在ADMM的研究論文中指出,ADMM展示了一種高效的頭發(fā)模擬技術(shù),每幀處理時(shí)間介于0.18至8秒,根據(jù)頭發(fā)的數(shù)量和長(zhǎng)度以及碰撞處理的精度不同而變化。在雙GPU設(shè)置下,內(nèi)存需求也可因場(chǎng)景而異,從1GB到19GB不等。

\

從演示中,我們不難發(fā)現(xiàn)。創(chuàng)作者可以輕松調(diào)整每縷秀發(fā)的長(zhǎng)度和曲率,仿佛在畫(huà)布上縮放繪圖。同時(shí),創(chuàng)作者還可以精準(zhǔn)地按照設(shè)定的輪廓線修剪,就像用剪刀裁剪精美布料。不僅如此,ADMM還支持在選定的區(qū)域內(nèi),像玩彈力球那樣,用彈簧般的動(dòng)力輕推頭發(fā),讓每根發(fā)絲都聽(tīng)從指揮。

這項(xiàng)技術(shù)的潛力是巨大的。不論在數(shù)字娛樂(lè)產(chǎn)業(yè),還是時(shí)尚設(shè)計(jì)領(lǐng)域,甚至在教育和培訓(xùn)行業(yè),豐富和真實(shí)的用戶體驗(yàn)、精細(xì)和生動(dòng)的作品、高度逼真的模擬無(wú)疑是一個(gè)極具價(jià)值的工具。

05 超高清工坊:LDM的“高分辨率”變革

文字描繪被轉(zhuǎn)化為高分辨率、生動(dòng)逼真的視頻,不再是遙不可及的夢(mèng)想,而是潛在擴(kuò)散模型LDM(Latent Diffusion Models)技術(shù)帶來(lái)的現(xiàn)實(shí)。

傳統(tǒng)視頻生成技術(shù)往往需要龐大的計(jì)算資源,LDM技術(shù)則通過(guò)在低維潛空間中訓(xùn)練擴(kuò)散模型,實(shí)現(xiàn)了高質(zhì)量圖像合成,并避免了過(guò)多的計(jì)算需求。

從技術(shù)實(shí)現(xiàn)上講,首先,模型會(huì)生成關(guān)鍵幀,通過(guò)擴(kuò)散模型進(jìn)行插幀,保留關(guān)鍵幀的潛在特征作為界限,中間幀以噪聲初始化。經(jīng)解碼器和超分模塊處理后,生成高質(zhì)量視頻。

而后,采用基于掩碼的條件方法,用給定上下文幀的潛在特征預(yù)測(cè)遮蓋幀,迭代生成長(zhǎng)視頻。

最終,視頻的生成效果達(dá)到了驚人的1280x2048像素、113幀、24fps播放、4.7秒時(shí)長(zhǎng)。該LDM基于穩(wěn)定擴(kuò)散,擁有4.1B參數(shù),其中27億通過(guò)視頻訓(xùn)練,包含剪輯文本編碼器外的所有組件。

這就像是在一個(gè)簡(jiǎn)化但精華的世界里,進(jìn)行創(chuàng)作,然后再將這些創(chuàng)作放大,呈現(xiàn)在現(xiàn)實(shí)世界中。

\

進(jìn)行時(shí)態(tài)視頻微調(diào)的示意

這項(xiàng)技術(shù)的應(yīng)用前景同樣令人振奮。在未來(lái)的交通系統(tǒng)中,LDM可以用于模擬和預(yù)測(cè)復(fù)雜的駕駛場(chǎng)景,為自動(dòng)駕駛汽車提供決策支持。

06 夢(mèng)幻紋理:Text2Materials“創(chuàng)想”細(xì)膩材質(zhì)

無(wú)論是復(fù)古的紅磚墻面,還是光滑整潔的家具面料,“設(shè)計(jì)師”Text2Material都可以輕松搞定。它不僅可以針對(duì)織物、木材、石材等材質(zhì)的紋理創(chuàng)作,還在建筑、游戲開(kāi)發(fā)、室內(nèi)設(shè)計(jì)等領(lǐng)域應(yīng)用。

這場(chǎng)美學(xué)革命,由一種全新的生成式AI工作流所驅(qū)動(dòng)——Text2Material可以利用文本或圖像提示來(lái)更快地生成織物、木材和石材等自定義紋理材質(zhì),同時(shí)對(duì)創(chuàng)作進(jìn)行更加精細(xì)的把控。

這套 AI模型將促進(jìn)材質(zhì)創(chuàng)建和編輯的迭代,能夠幫助使用者快速完善 3D 對(duì)象的外觀,直到達(dá)到想要的效果。

\

從演示視頻可以看出,創(chuàng)作者只需簡(jiǎn)單的提示,AI便能根據(jù)提示迅速生成一面磚紋理的墻,或是一套具有特定面料的沙發(fā)和抱枕。甚至能在墻壁的特定區(qū)域嵌入抽象的動(dòng)物圖案,將創(chuàng)意無(wú)縫轉(zhuǎn)化為現(xiàn)實(shí)。

目前,這些功能可以通過(guò)NVIDIA Picasso基礎(chǔ)模型平臺(tái)提供服務(wù)。企業(yè)開(kāi)發(fā)者、軟件制作人員和服務(wù)供應(yīng)商能夠通過(guò)該平臺(tái)選用、細(xì)化、完善并應(yīng)用圖像、視頻、3D對(duì)象以及360度全景HDRi的基本模型,以此來(lái)滿足他們?cè)谝曈X(jué)設(shè)計(jì)方面的各項(xiàng)需求。

07 極限模擬:CALM讓人類“穿越”數(shù)字世界

無(wú)論是攀爬、跳躍還是短暫的回望,游戲玩家在現(xiàn)實(shí)世界的每個(gè)輕微動(dòng)作,都能被完美捕捉,并在虛擬角色上呈現(xiàn)。這讓整個(gè)游戲體驗(yàn),變得更加沉浸和真實(shí)。

給予玩家前所未有的動(dòng)作自由度的,便是這款可操縱虛擬角色的條件對(duì)抗性潛在模型——CALM。

CALM能賦予用戶操縱交互式虛擬角色的能力,同時(shí)生成既多樣又定向的行為。

這項(xiàng)技術(shù)依賴于模仿學(xué)習(xí),能夠精確捕捉并控制角色的每一個(gè)動(dòng)作。通過(guò)結(jié)合控制策略和運(yùn)動(dòng)編碼器的學(xué)習(xí),CALM不僅能實(shí)現(xiàn)人類行為的簡(jiǎn)單復(fù)制,更是能深入理解并重現(xiàn)該行為的核心特征。

\

CALM 由三個(gè)階段組成學(xué)習(xí)有意義的運(yùn)動(dòng)語(yǔ)義表征

CALM想要毫無(wú)瑕疵地模擬人類行為,需要經(jīng)歷3個(gè)階段。

在低級(jí)訓(xùn)練階段,CALM技術(shù)可通過(guò)模仿學(xué)習(xí),精妙地捕捉并再現(xiàn)人類運(yùn)動(dòng)的復(fù)雜多樣性。在這一過(guò)程中,它還能通過(guò)編碼器和解碼器深度理解動(dòng)作的本質(zhì),并將其轉(zhuǎn)化為數(shù)字世界的語(yǔ)言。

第二階段增加了方向性控制。CALM可利用高級(jí)任務(wù)驅(qū)動(dòng)策略來(lái)選擇潛在變量,可根據(jù)用戶的意愿,調(diào)整運(yùn)動(dòng)的風(fēng)格和節(jié)奏,賦予動(dòng)作不同的情感色彩。

而在最終的推理階段,CALM則可以將前期的學(xué)習(xí)和訓(xùn)練巧妙地結(jié)合,讓復(fù)雜的動(dòng)作組合變得輕而易舉。用戶僅通過(guò)一個(gè)直觀的界面,便可以讓虛擬角色表演出一連串的動(dòng)作劇情。

08 訓(xùn)練大師:Vid2Player3D在虛擬賽場(chǎng)的技術(shù)革命

如果網(wǎng)球比賽中的每個(gè)精彩瞬間都能被精確地捕捉、分析,并在虛擬世界中重現(xiàn),這將是怎樣一番景象?Vid2Player3D是這樣一位“訓(xùn)練大師”,它可以將網(wǎng)球比賽的瞬間變?yōu)橛篮?,把球星的技巧轉(zhuǎn)化為永久的數(shù)字資產(chǎn)。

\

這項(xiàng)技術(shù)的核心在于它能夠洞察2D比賽視頻中的每一個(gè)細(xì)節(jié),并將這些數(shù)據(jù)轉(zhuǎn)化為3D模型的動(dòng)作。這不僅僅是簡(jiǎn)單的模仿,而是一種深度學(xué)習(xí)和精確再現(xiàn)。

Vid2Player3D就像是一個(gè)細(xì)心的觀察者,它分析球員的每一個(gè)動(dòng)作,甚至是呼吸的節(jié)奏,然后指導(dǎo)虛擬球員在網(wǎng)球場(chǎng)上做出最佳反應(yīng)。

Vid2Player3D的工作原理可以分為四步。

首先,收集網(wǎng)球運(yùn)動(dòng)員的2D和3D姿勢(shì)數(shù)據(jù),以及他們?cè)趫?chǎng)上的移動(dòng)路徑,建立起一個(gè)基礎(chǔ)的運(yùn)動(dòng)信息庫(kù)。

然后,利用這些數(shù)據(jù)訓(xùn)練一個(gè)基礎(chǔ)的模仿程序,模擬真人的動(dòng)作,同時(shí)也對(duì)這些動(dòng)作進(jìn)行一些物理上的調(diào)整,使動(dòng)作更加真實(shí)。

接著,對(duì)修正后的運(yùn)動(dòng)數(shù)據(jù)集進(jìn)行條件變分自編碼器(VAE)的擬合,這個(gè)過(guò)程可以幫助Vid2Player3D理解和學(xué)習(xí)網(wǎng)球運(yùn)動(dòng)的核心動(dòng)作模式,并將這些復(fù)雜的動(dòng)作簡(jiǎn)化成更容易處理的形式。

最終,訓(xùn)練出一個(gè)高級(jí)的規(guī)劃程序,可以根據(jù)學(xué)到的動(dòng)作模式來(lái)生成更自然、更符合預(yù)期的網(wǎng)球運(yùn)動(dòng)姿勢(shì),同時(shí)也會(huì)對(duì)運(yùn)動(dòng)員手腕的動(dòng)作做出細(xì)微的調(diào)整,以確保動(dòng)作的準(zhǔn)確性。這樣,整個(gè)系統(tǒng)就能生成接近真人的網(wǎng)球運(yùn)動(dòng)姿勢(shì)。

為了解決從廣播視頻中提取的低質(zhì)量運(yùn)動(dòng),研究人員通過(guò)基于物理的模仿來(lái)校正估計(jì)的運(yùn)動(dòng),并使用混合控制策略,通過(guò)高級(jí)策略預(yù)測(cè)的校正來(lái)覆蓋學(xué)習(xí)運(yùn)動(dòng)嵌入的錯(cuò)誤。

同時(shí),系統(tǒng)還能合成兩個(gè)物理模擬角色,通過(guò)模擬球拍和球的動(dòng)力學(xué)進(jìn)行長(zhǎng)時(shí)間的網(wǎng)球比賽。

09 魔幻維度:FlexiCubes給出網(wǎng)格優(yōu)化“最優(yōu)解”

FlexiCubes的核心革新在于其梯度網(wǎng)格優(yōu)化方法。通過(guò)將3D表面網(wǎng)格表現(xiàn)為標(biāo)量場(chǎng)的等值面,F(xiàn)lexiCubes實(shí)現(xiàn)了網(wǎng)格的精確迭代優(yōu)化。

這一技術(shù)在攝影測(cè)量、生成建模和逆向物理等領(lǐng)域中的應(yīng)用越發(fā)廣泛,它為這些復(fù)雜的應(yīng)用提供了一個(gè)更加精細(xì)和準(zhǔn)確的三維表達(dá)方式。

與傳統(tǒng)的等值面提取算法相比,F(xiàn)lexiCubes引入了額外的參數(shù),使得網(wǎng)格不僅擁有更高的自由度來(lái)表示復(fù)雜的特征,而且在優(yōu)化的過(guò)程中也能保持?jǐn)?shù)值的穩(wěn)定性。這意味著無(wú)論是在優(yōu)化幾何形狀、視覺(jué)效果,還是物理屬性時(shí),F(xiàn)lexiCubes都能提供更為精準(zhǔn)和靈活的網(wǎng)格調(diào)整。

\

FlexiCubes的靈活性和精確性得益于其基于雙行進(jìn)立方體的提取方案,這一方案不僅改善了網(wǎng)格的拓?fù)鋵傩裕€能生成四面體和分層自適應(yīng)網(wǎng)格。這種方法使得網(wǎng)格的微分明確且易于操作,使基于梯度的優(yōu)化方法能夠有效且穩(wěn)定地收斂,為各種應(yīng)用實(shí)現(xiàn)了簡(jiǎn)單、高效和高質(zhì)量的網(wǎng)格優(yōu)化。

在實(shí)際應(yīng)用中,F(xiàn)lexiCubes展現(xiàn)出了巨大的潛力。無(wú)論是與可微分等值曲面技術(shù)結(jié)合,改善幾何重建的質(zhì)量;還是作為3D生成模型的一部分,提升網(wǎng)格質(zhì)量;或是在可微分物理模擬框架中,協(xié)助從視頻中恢復(fù)3D形狀和物理參數(shù);FlexiCubes都能提供卓越的性能。

此外,F(xiàn)lexiCubes在動(dòng)畫(huà)對(duì)象網(wǎng)格簡(jiǎn)化和正則化方面的應(yīng)用也證明了其不同凡響的能力。它不僅能夠優(yōu)化動(dòng)畫(huà)的每一幀,確保動(dòng)作的流暢性,還能直接評(píng)估和優(yōu)化依賴于提取網(wǎng)格本身的目標(biāo)和正則化器。

10 創(chuàng)造力“外掛”:eDiff-I用文字編織視覺(jué)奇跡

如果想象力成為一種新的生產(chǎn)力,想要一瞥未來(lái)嗎?

eDiff-I便擁有絕妙的技巧,讓你的每個(gè)念頭都躍然紙上。這可不是什么簡(jiǎn)單的把戲。eDiff-I是一種擴(kuò)散模型,可通過(guò)T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,生成與任何輸入文本提示相對(duì)應(yīng)的逼真圖像。

簡(jiǎn)單地說(shuō),就是可以將你的文本描述轉(zhuǎn)換成令人驚嘆的圖像。

不僅如此,除了文本到圖像的合成之外,“樣式傳輸”更能支持我們能夠利用參考樣式圖像控制生成樣本的樣式。“文字繪畫(huà)”功能,則能通過(guò)在畫(huà)布上繪制分割圖來(lái)生成圖像的應(yīng)用程序。

現(xiàn)在,讓我們把技術(shù)術(shù)語(yǔ)拋在腦后,試想一下:你描述一片森林,eDiff-I就能給你繪制出一片森林;你想要一只穿著禮帽的貓,eDiff-I也能做到。你甚至可以提供一張圖片,讓eDiff-I模仿其風(fēng)格,繪制出全新的圖像。更神奇的是,它可以根據(jù)你在一個(gè)虛擬畫(huà)布上的涂鴉來(lái)繪制圖像,這對(duì)于創(chuàng)造力的發(fā)揮來(lái)說(shuō)簡(jiǎn)直是開(kāi)了掛!

想想看,廣告界能用它來(lái)制作令人難以忘懷的視覺(jué)效果,游戲設(shè)計(jì)師可以用它來(lái)構(gòu)建出前所未有的場(chǎng)景,而時(shí)尚界也可以利用它來(lái)預(yù)視下一季的趨勢(shì)。

eDiff-I的特性不僅僅是新穎,更重要的是實(shí)用——?jiǎng)?chuàng)造力的實(shí)際應(yīng)用從未如此便捷。

所以,如果想要看看你的想象力能走多遠(yuǎn),eDiff-I就是你的新伙伴。

\

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-02-19
2023《幻境法典》現(xiàn)世 AI大師NVIDIA施展十大現(xiàn)實(shí)“幻境”
在2023年的科技界,NVIDIA的名字頻頻被提及。這不僅因?yàn)槠湓贕PU市場(chǎng)的領(lǐng)先地位,也因?yàn)槠湓贏I領(lǐng)域的顯著成就。

長(zhǎng)按掃碼 閱讀全文