科技云報(bào)道原創(chuàng)。
近日,生成式AI又火了!一個(gè)叫做「盜夢(mèng)師」的微信小程序,上線一鳴驚人,達(dá)成了日增5萬(wàn)新用戶的紀(jì)錄。
盜夢(mèng)師是一個(gè)能根據(jù)輸入文本生成圖片的AI平臺(tái),屬于AIGC(AI-Generated Content,即人工智能生成內(nèi)容)的分支。
在用戶發(fā)揮想象,輸入文字描述后,盜夢(mèng)師便可生成1:1、9:16和16:9三種比例的圖片,還有24種繪畫(huà)風(fēng)格可以選擇——除了基礎(chǔ)的油畫(huà)、水彩、素描等繪畫(huà)種類(lèi),還包括賽博朋克、蒸汽波、像素藝術(shù)、吉卜力和 CG 渲染等特別風(fēng)格。
圖:科技云報(bào)道編輯用「盜夢(mèng)師」微信小程序生成
事實(shí)上,這并不是第一款“以文生圖”的AI軟件。從Midjourney到Stable Diffusion,生成式AI一直是近兩年最炙手可熱的話題。
作為AI發(fā)展的一個(gè)重要方向,生成式AI具有非常大的發(fā)展?jié)摿Α?/p>
據(jù)Gartner上半年的數(shù)據(jù),預(yù)計(jì)到 2025 年,生成式AI將占所有生成數(shù)據(jù)的10%,當(dāng)前這一比例不到1%。
有觀點(diǎn)認(rèn)為,2022年將是生成式AI從技術(shù)成熟到深入社會(huì)基本面的元年。
?生成式AI爆發(fā)式增長(zhǎng):從圖片到視頻
最近幾年,AI技術(shù)在視覺(jué)領(lǐng)域的發(fā)展可謂是“神速”。
去年1月,致力于“用通用人工智能造福全人類(lèi)”的OpenAI公司,基于GPT-3模型發(fā)布了劃時(shí)代的DALL-E,實(shí)現(xiàn)了從文本生成圖像。
今年4月份,OpenAI發(fā)布的第二代DALL-E 2模型,再次為圖像生成領(lǐng)域樹(shù)立了全新標(biāo)桿。
用戶可以通過(guò)簡(jiǎn)短的文本描述(prompt)來(lái)生成相應(yīng)的圖像,使得不會(huì)畫(huà)畫(huà)的人也可以將自己的想象力變?yōu)樗囆g(shù)創(chuàng)作,例如“羊駝打籃球”這句話生成的四張圖片,看起來(lái)就非常符合大家預(yù)期的想象。
DALL-E 2模型生成圖片示例
不僅如此,隨著文字描述的顆粒度不斷細(xì)化,生成的圖像也會(huì)越來(lái)越精準(zhǔn),效果在非專(zhuān)業(yè)人士看來(lái)已經(jīng)相當(dāng)震撼。
但DALL-E 2這樣的模型仍然停留在二維創(chuàng)作即圖片生成領(lǐng)域,無(wú)法生成360度無(wú)死角的3D模型。
不過(guò)這依舊難不住極具創(chuàng)意的算法研究員,Google Research的一項(xiàng)最新成果——DreamFusion模型,即可通過(guò)輸入簡(jiǎn)單的文本提示生成3D模型,不僅能夠在不同的光照條件下進(jìn)行渲染,而且生成的3D模型還具有密度、顏色等特性,甚至可以把生成的多個(gè)3D模型融合到一個(gè)場(chǎng)景里。
在生成3D圖片之后,Meta的算法人員將思路進(jìn)一步打開(kāi),向更高難度發(fā)起挑戰(zhàn),開(kāi)始探索用文字提示來(lái)直接生成視頻。
雖然本質(zhì)上來(lái)說(shuō),視頻就是一系列圖像的疊加,但相比于生成圖像,用文字來(lái)生成視頻時(shí),不僅需要生成相同場(chǎng)景下的多個(gè)幀,還要保證相鄰幀之間的連貫性。由于訓(xùn)練模型時(shí)可用的高質(zhì)量視頻數(shù)據(jù)非常少,但計(jì)算量卻很大,大大增加了視頻生成任務(wù)的復(fù)雜性。
今年9月,來(lái)自Meta的研究人員發(fā)布了Make-A-Video,這是一個(gè)基于人工智能的高質(zhì)量短視頻生成模型,相當(dāng)于視頻版的DALL-E,也被戲稱(chēng)為“用嘴做視頻”,即可以通過(guò)文本提示創(chuàng)建新的視頻內(nèi)容,其背后使用的關(guān)鍵技術(shù),也同樣來(lái)自DALL-E等圖像生成器所使用的“文本-圖像”合成技術(shù)。
僅1周之后,谷歌CEO皮查伊就接連官宣了兩個(gè)模型,來(lái)正面挑戰(zhàn)Meta的Make-A-Video,分別是Imagen Video與Phenaki。
與Make-A-Video相比,Imagen Video更加突出視頻的高清特性,能生成1280*768分辨率、每秒24幀的視頻片段,還能理解并生成不同藝術(shù)風(fēng)格的作品;
理解物體的3D結(jié)構(gòu),在旋轉(zhuǎn)展示中不會(huì)變形;
甚至還繼承了Imagen準(zhǔn)確描繪文字的能力,在此基礎(chǔ)上僅靠簡(jiǎn)單描述產(chǎn)生各種創(chuàng)意動(dòng)畫(huà)。
Imagen Video生成視頻示例
而Phenaki則能根據(jù)200個(gè)詞左右的提示語(yǔ)生成2分鐘以上的較低分辨率長(zhǎng)鏡頭,講述一個(gè)相對(duì)完整的故事。
Phenaki生成視頻示例
目前,國(guó)內(nèi)也有不少生成式AI的應(yīng)用。
例如,字節(jié)跳動(dòng)旗下的剪映APP提供AI生成視頻功能,并可以免費(fèi)使用。
剪映的圖文成片功能和谷歌類(lèi)似,創(chuàng)作者可以通過(guò)幾個(gè)關(guān)鍵詞或一小段文字,生成一段創(chuàng)意小視頻。
剪映還可以根據(jù)文字描述智能匹配視頻素材,將視頻包裝為更垂直的內(nèi)容作品,包括財(cái)經(jīng)、歷史、人文等類(lèi)別。
2022年1月,網(wǎng)易推出一站式AI音樂(lè)創(chuàng)作平臺(tái)“網(wǎng)易天音”,將用戶編輯的新年祝福AI生成為歌曲,并在上半年推出了web端專(zhuān)業(yè)版。
2021年9月,彩云小夢(mèng)APP上線,能夠進(jìn)行各種類(lèi)型文本創(chuàng)作,用戶只需要給出一個(gè)1-1000字的開(kāi)頭,彩云小夢(mèng)就能續(xù)寫(xiě)出后面的故事。
事實(shí)上,AI創(chuàng)作還有多種形式。當(dāng)生成式AI技術(shù)應(yīng)用于寫(xiě)稿,可以誕生機(jī)器版的記者、小說(shuō)家、詩(shī)人、編劇等,而當(dāng)它應(yīng)用于繪畫(huà)、音樂(lè)和舞蹈領(lǐng)域時(shí),則可以“培養(yǎng)”出畫(huà)家、作曲家和編舞人員。
生成式AI爆發(fā)的背后
過(guò)去一年里,生成式AI發(fā)展得更好了。谷歌、微軟、Meta等AI領(lǐng)域的軟件巨頭們已在內(nèi)部推進(jìn)該技術(shù),讓生成式AI融合到自己的產(chǎn)品里。
為什么生成式AI突然就火了?
其實(shí)生成式AI技術(shù)一直在快速發(fā)展中,只不過(guò)之前因過(guò)高的技術(shù)門(mén)檻,多囿于科技界的小圈層。
回顧AI技術(shù)的發(fā)展歷程,會(huì)發(fā)現(xiàn)生成式AI的爆發(fā)離不開(kāi)三個(gè)因素:更好的模型、更多的數(shù)據(jù),和更多的計(jì)算。
2015年以前,小模型被認(rèn)為是理解語(yǔ)言的“最先進(jìn)技術(shù)”。這些小模型,擅長(zhǎng)分析任務(wù),并被部署在從預(yù)測(cè)交付時(shí)間到欺詐分類(lèi)的工作中。
然而,對(duì)于通用的生成任務(wù),它們的表達(dá)能力還不夠強(qiáng)。生成人類(lèi)水平的寫(xiě)作或者代碼,仍只是一個(gè)夢(mèng)想。
2017年,谷歌研究院發(fā)布了一篇里程碑式的論文(Attention is All You Need),描述了一種用于自然語(yǔ)言理解的新神經(jīng)網(wǎng)絡(luò)架構(gòu),稱(chēng)為 transformers,可以生成質(zhì)量上乘的語(yǔ)言模型,同時(shí),具有更高的可并行性,需要的訓(xùn)練時(shí)間也大大減少。
當(dāng)然,隨著模型越來(lái)越大,它們開(kāi)始顯現(xiàn)出超越人類(lèi)的水平。從2015年到2020年,用于訓(xùn)練這些模型的計(jì)算量增加了6個(gè)數(shù)量級(jí),其結(jié)果在手寫(xiě)、語(yǔ)音和圖像識(shí)別、閱讀理解以及語(yǔ)言理解方面,超過(guò)了人類(lèi)性能的基準(zhǔn)。
其中,OpenAI的GPT-3脫穎而出,該模型的性能比GPT-2有了巨大飛躍,從代碼生成到冷笑話寫(xiě)作,顯示了更優(yōu)秀的能力。
盡管有所有基礎(chǔ)研究領(lǐng)域的進(jìn)展,這些模型并不普遍。
它們體積大、運(yùn)行困難(需要GPU協(xié)調(diào)),不能廣泛使用(不可用或僅有封閉的測(cè)試版),而且作為云服務(wù)使用的費(fèi)用昂貴。
但是盡管有這些限制,最早的生成性AI應(yīng)用開(kāi)始進(jìn)入戰(zhàn)場(chǎng)。
之后,隨著計(jì)算變得更便宜,業(yè)界繼續(xù)開(kāi)發(fā)更好的算法和更大的模型。
開(kāi)發(fā)者的權(quán)限從封閉測(cè)試版擴(kuò)大到了開(kāi)放測(cè)試版,或者在某些情況下,開(kāi)放源代碼。
如今,平臺(tái)層的穩(wěn)固,加上模型繼續(xù)變得更好、更快、更便宜,以及模型的訪問(wèn)趨向于免費(fèi)和開(kāi)源,AI應(yīng)用層的創(chuàng)造力爆發(fā)時(shí)機(jī)已經(jīng)成熟。
比如,今年8月,文本-圖像生成模型Stable Diffusion開(kāi)源,后繼者能更好地借助這一開(kāi)源工具,挖掘出更豐富的內(nèi)容生態(tài),為向更廣泛的C端用戶普及起到至關(guān)重要的作用。
Stable Diffusion的火爆,本質(zhì)上就是開(kāi)源釋放了創(chuàng)造力。
生成式AI面臨現(xiàn)實(shí)挑戰(zhàn)
風(fēng)投機(jī)構(gòu)紅杉資本在官網(wǎng)上的一篇博客文章中提到:“生成式AI有潛力產(chǎn)生數(shù)萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。
”據(jù)紅杉資本預(yù)測(cè),生成式AI可以改變每個(gè)需要人類(lèi)創(chuàng)造原創(chuàng)作品的行業(yè),從游戲到廣告再到法律。
具體而言,未來(lái)生成式AI的應(yīng)用場(chǎng)景非常廣闊,除了文創(chuàng)、新聞等內(nèi)容生產(chǎn)行業(yè)外,生成式AI在醫(yī)療保健、數(shù)字商業(yè)、制造業(yè)、農(nóng)業(yè)等多個(gè)行業(yè)都有豐富的應(yīng)用前景,如幫助醫(yī)生檢測(cè)X射線、CT等設(shè)備掃描中的病變、創(chuàng)建商品的數(shù)字孿生體、輔助檢測(cè)產(chǎn)品質(zhì)量等。
在XR、數(shù)字孿生、自動(dòng)駕駛汽車(chē)等熱門(mén)技術(shù)上也有豐富的應(yīng)用空間。
但值得注意的是,當(dāng)前生成式AI仍有很多問(wèn)題需要解決。
如在文娛領(lǐng)域,不少人采用生成式AI進(jìn)行創(chuàng)作的一個(gè)原因,就是可以避免版權(quán)問(wèn)題,但這并不代表沒(méi)有隱患。
一方面,AI的創(chuàng)作也是將學(xué)習(xí)到數(shù)據(jù)按照要求重新組合起來(lái),雖然顆粒度越來(lái)越細(xì),但難免還是有眼尖的人會(huì)看出可能是參考了哪些作品,甚至有網(wǎng)友在社交平臺(tái)上表示曾在某AI生成圖片上隱約看到疑似簽名的痕跡。
另一方面,當(dāng)前大部分AI生成平臺(tái)多不主張版權(quán)或明確表示可以進(jìn)行商用,但隨著生成式AI逐步商業(yè)化,這樣的版權(quán)環(huán)境是否存在,是否會(huì)出現(xiàn)新的版權(quán)問(wèn)題也是需要討論的。
生成式AI的邏輯與安全性也有待提升。當(dāng)前的生成式AI很容易犯一些常識(shí)性的錯(cuò)誤,在一些需要長(zhǎng)期記憶的地方也容易出現(xiàn)問(wèn)題。
如在AI生成小說(shuō)的過(guò)程中,經(jīng)常會(huì)因?yàn)槠^長(zhǎng)而出現(xiàn)前后矛盾的地方。
因此,即便生成式AI已經(jīng)可以在很多領(lǐng)域得到應(yīng)用,真要讓生成式AI投入工作,還要通過(guò)大量的訓(xùn)練來(lái)避免因AI的“錯(cuò)誤”造成的重大損失。
畢竟醫(yī)療、制造業(yè)這些應(yīng)用場(chǎng)景沒(méi)有文創(chuàng)行業(yè)那樣的試錯(cuò)空間。
結(jié)語(yǔ)
盡管生成式AI當(dāng)前還離不開(kāi)人工干預(yù),但不可否認(rèn)的是,生成式AI仍具有非常大的發(fā)展?jié)摿Α?/p>
生成式AI的出現(xiàn),意味著AI開(kāi)始在現(xiàn)實(shí)內(nèi)容中,承擔(dān)從“觀察、預(yù)測(cè)”拓展到“直接生成、決策”的新角色。換句話說(shuō),生成式AI是在創(chuàng)造,而不僅僅是分析。
正如OpenAI CEO Sam Altman所說(shuō):“生成式AI提醒我們,很難做出有關(guān)于人工智能的預(yù)測(cè)。
十年前傳統(tǒng)觀點(diǎn)認(rèn)為:人工智能首先會(huì)影響體力勞動(dòng);然后,是認(rèn)知?jiǎng)趧?dòng);然后,也許有一天它可以做創(chuàng)造性的工作。現(xiàn)在看起來(lái),它會(huì)以相反的順序進(jìn)行?!?/p>
來(lái)源:科技云報(bào)道
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美國(guó)無(wú)人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開(kāi)大疆
- iQOO Neo10 Pro:性能特長(zhǎng)之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來(lái)賭上了AIGC
- 明星熱劇、品牌種草、平臺(tái)資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機(jī)看它就夠了!
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 16個(gè)月沒(méi)工資不敢離職,這些打工人“自費(fèi)上班”
- 怎樣利用微信小店“送禮”功能賺錢(qián)?
- 鴻蒙智行問(wèn)界M9,中國(guó)豪華車(chē)的龍門(mén)一躍
- 科技云報(bào)道:人工智能時(shí)代“三大件”:生成式AI、數(shù)據(jù)、云服務(wù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。