自從進(jìn)入2023年以來(lái),AIGC技術(shù)助推了新的人工智能浪潮,AI大模型的創(chuàng)新應(yīng)用也按下了加速鍵。隨著AI寫(xiě)作、AI作曲成功在多個(gè)領(lǐng)域落地,AI在內(nèi)容創(chuàng)作方面的應(yīng)用也變得越來(lái)越廣泛,而AI繪畫(huà)作為大模型最火熱的應(yīng)用領(lǐng)域之一,近幾年也取得了突破性進(jìn)展。
AI繪畫(huà)簡(jiǎn)單來(lái)說(shuō)就是“文生圖”,是指輸入一些描述性語(yǔ)言,AI可以以此生成創(chuàng)意畫(huà)作。AIGC 技術(shù)的飛速發(fā)展使得“文生圖”模型不斷實(shí)現(xiàn)更加良好的生成效果,得益于此,無(wú)論是百度、網(wǎng)易這樣的互聯(lián)網(wǎng)大廠,還是快手這樣的新銳公司紛紛爭(zhēng)相入局,試圖借助“文生圖”這一新事物,探索業(yè)務(wù)上的更多新可能。
快手“出其不意”
前不久有消息稱,快手在推出“文生文”大語(yǔ)言模型“快意”(KwaiYii)之后,又在“文生圖”賽道取得了新的進(jìn)展,推出了自研大模型“可圖”(Kolors),并且已在公司內(nèi)部全面開(kāi)啟測(cè)試。據(jù)介紹,可圖大模型能夠基于開(kāi)放式文本生成各類的繪畫(huà)作品,它有著三大突出特點(diǎn):強(qiáng)大的文本理解、豐富的細(xì)節(jié)刻畫(huà),以及多樣的風(fēng)格轉(zhuǎn)化。而在可圖大模型強(qiáng)大的圖像生成能力背后,則與快手多年的積淀息息相關(guān)。
首先,快手海量的短視頻素材,能為可圖提供數(shù)十億的圖文訓(xùn)練數(shù)據(jù)。發(fā)展至今,快手上的短視頻素材已經(jīng)數(shù)以萬(wàn)計(jì),根據(jù)這些短視頻,可圖可以收集到更多的數(shù)據(jù)信息,幫助大模型準(zhǔn)確理解用戶的需求,讓用戶通過(guò)簡(jiǎn)單描述即可生成更加多樣化風(fēng)格的圖片。據(jù)了解,快手擁有數(shù)十億來(lái)自開(kāi)源社區(qū)和自研AI技術(shù)合成的圖文訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)覆蓋了常見(jiàn)的三千萬(wàn)中文實(shí)體概念,能更好地生成更加貼近文字描述的圖片。
其次,快手較強(qiáng)的用戶粘性,為可圖的落地提供了最佳的應(yīng)用場(chǎng)景。眾所周知,快手應(yīng)用的累計(jì)互關(guān)用戶對(duì)數(shù)超過(guò)311億對(duì),同比增長(zhǎng)近50%,日均互動(dòng)(包括點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)等)總量達(dá)80億次,而且AI玩評(píng)也能夠極大地提升用戶參與評(píng)論的積極性和滿意度。不同用戶畫(huà)像可以豐富可圖訓(xùn)練數(shù)據(jù),促使可圖生成更多樣化的圖片。因此,擁有較強(qiáng)用戶粘性的短視頻評(píng)論區(qū),可以看做可圖大模型最佳的落地應(yīng)用場(chǎng)景之一。
最后,快手在大模型上的創(chuàng)新性探索,有助于可圖形成差異化優(yōu)勢(shì)。快手研發(fā)了一個(gè)強(qiáng)大的中文CLIP模型,并且利用自研的中文LLM加上融合CLIP的圖文特征作為文生圖的文本理解模塊,能讓可圖大模型更好地理解中文特色概念。不僅如此,快手還更改了去噪算法的底層公式和加噪公式,實(shí)現(xiàn)了單一基座模型在主體完整的前提下,可生成具有豐富細(xì)節(jié)和紋理的圖片。而可圖大模型也具有了基于Prompt的自動(dòng)學(xué)習(xí)模型,能夠生成不同的風(fēng)格模版。
百度“聲東擊西”
在文生圖領(lǐng)域,快手的自研大模型“可圖”可謂是獨(dú)具一格,作為國(guó)內(nèi)領(lǐng)先的AI技術(shù)公司,百度的AI作畫(huà)產(chǎn)品“文心一格”自然也備受期待。據(jù)了解,文心一格是基于百度文心大模型能力的AI藝術(shù)和創(chuàng)意輔助平臺(tái),它可以根據(jù)用戶輸入的文本描述和選擇的風(fēng)格,自動(dòng)生成獨(dú)一無(wú)二的畫(huà)作。而百度文心一格之所以能對(duì)用戶的作畫(huà)需求實(shí)現(xiàn)精準(zhǔn)理解,其中的原因自然不言而喻。
一來(lái),文心大模型強(qiáng)大的語(yǔ)言理解能力,使文心一格對(duì)中文的理解變得更加精準(zhǔn)。文生圖技術(shù)對(duì)中文語(yǔ)義的理解尤為關(guān)鍵,而文心一格的技術(shù)基礎(chǔ)是百度文心知識(shí)增強(qiáng)跨模態(tài)理解大模型,百度文心學(xué)習(xí)了海量?jī)?yōu)質(zhì)圖文數(shù)據(jù),能全面提升圖像生成質(zhì)量和語(yǔ)義一致性。因此,文心一格不僅能利用知識(shí)輔助更好地理解用戶的輸入,并自動(dòng)豐富語(yǔ)義細(xì)節(jié),有效降低用戶輸入描述成本,還能根據(jù)不同的需求,靈活適配多種風(fēng)格畫(huà)作生成能力。
二來(lái),文心大模型在技術(shù)上的深厚積淀,在一定程度上解決了文心一格在實(shí)際應(yīng)用中的技術(shù)難題。眾所周知,文心一格AI作圖產(chǎn)品順利落地,是百度依托于飛槳、文心大模型持續(xù)進(jìn)行技術(shù)創(chuàng)新的結(jié)果。而百度的文心跨模態(tài)大模型ERNIE-ViLG 2.0是全球首個(gè)知識(shí)增強(qiáng)的AI作畫(huà)大模型,也是目前全球參數(shù)規(guī)模最大的AI作畫(huà)大模型。百度在訓(xùn)練大模型方面取得了長(zhǎng)足的進(jìn)步,也讓文心一格有效解決了復(fù)雜概念、屬性混淆等文生圖領(lǐng)域的常見(jiàn)問(wèn)題。
三來(lái),文心大模型豐富的產(chǎn)業(yè)應(yīng)用場(chǎng)景,有助于文心一格實(shí)現(xiàn)商業(yè)化快速落地。目前,文心大模型已大規(guī)模應(yīng)用于搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,并已通過(guò)飛槳開(kāi)源開(kāi)放平臺(tái)、百度智能云等賦能工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè)。而在這個(gè)基礎(chǔ)模型職場(chǎng),文心一格也能結(jié)合各個(gè)領(lǐng)域的、少量的任務(wù)數(shù)據(jù),再進(jìn)行訓(xùn)練、調(diào)優(yōu),之后就可以適用更多場(chǎng)景,從而進(jìn)一步拓寬落地的廣度,加深產(chǎn)業(yè)應(yīng)用的深度。
網(wǎng)易“蓄謀已久”
無(wú)論是新晉獨(dú)角獸快手,還是老牌互聯(lián)網(wǎng)大廠百度都相繼進(jìn)入了AI繪畫(huà)領(lǐng)域,互聯(lián)網(wǎng)科技公司網(wǎng)易自然不會(huì)落后。事實(shí)上,網(wǎng)易很早就對(duì)“文生圖”領(lǐng)域有所研究。網(wǎng)易旗下專業(yè)從事游戲與AI研究和應(yīng)用的頂尖機(jī)構(gòu)網(wǎng)易伏羲,就自研了文生圖模型——“丹青”。而網(wǎng)易丹青之所以能生成讓用戶滿意的圖片,自然也與其獨(dú)一無(wú)二的優(yōu)勢(shì)息息相關(guān)。
一是,網(wǎng)易伏羲對(duì)中文和美的理解深刻,有助于丹青生成更高質(zhì)量的圖片。生產(chǎn)好的內(nèi)容之前,需要先理解好的內(nèi)容。丹青模型基于原生中文語(yǔ)料數(shù)據(jù)及網(wǎng)易自有高質(zhì)量圖片數(shù)據(jù)訓(xùn)練,不僅對(duì)中文的理解能力更強(qiáng),對(duì)中華傳統(tǒng)美食、成語(yǔ)、俗語(yǔ)、詩(shī)句的理解和生成也更為準(zhǔn)確。比如,與其他文生圖模型相比,丹青模型更容易聽(tīng)懂用戶的意思,在丹青生成的圖片中,魚(yú)香肉絲沒(méi)有魚(yú),紅燒獅子頭也沒(méi)有獅子,生成的圖片效果用戶滿意度更高。
二是,網(wǎng)易伏羲頂尖藝術(shù)家的真實(shí)反饋,使得丹青創(chuàng)作出的作品更能滿足中式審美。網(wǎng)易會(huì)請(qǐng)一些美術(shù)專家對(duì)模型進(jìn)行把控,讓其從藝術(shù)的角度對(duì)生成圖片效果、插件、版本給予專業(yè)意見(jiàn),丹青則會(huì)及時(shí)根據(jù)藝術(shù)家們的反饋意見(jiàn),進(jìn)一步迭代優(yōu)化。比如,依賴于較強(qiáng)的中文理解能力,以及對(duì)美學(xué)的專業(yè)理解,丹青模型生成的圖片更具東方美學(xué),既能生成“飛流直下三千尺”的水墨畫(huà),也能生成符合東方審美的古典美人。
三是,網(wǎng)易伏羲對(duì)文生圖的多年研究,能為丹青的快速落地和推廣提供助力。事實(shí)上,網(wǎng)易伏羲對(duì)文生圖的研究起步較早,在Stable Diffusion還沒(méi)開(kāi)源之前,就已經(jīng)在不斷地投入,到現(xiàn)在已經(jīng)有了很多積累。據(jù)了解,網(wǎng)易伏羲團(tuán)隊(duì)已在世界頂級(jí)學(xué)術(shù)會(huì)議發(fā)表論文200余篇,申請(qǐng)發(fā)明專利550余項(xiàng)。不僅如此,網(wǎng)易伏羲還根據(jù)實(shí)際應(yīng)用效果不斷對(duì)文生圖模型進(jìn)行迭代優(yōu)化,以便將其更好更快地應(yīng)用于實(shí)際場(chǎng)景中。
前路“危機(jī)四伏”
隨著快手、百度、網(wǎng)易等玩家的文生圖大模型相繼亮相,國(guó)內(nèi)外發(fā)布文生圖模型的數(shù)量也在不斷攀升,模型生成效果和效率也在逐漸邁上新的臺(tái)階,文生圖模型商業(yè)化落地指日可待。只不過(guò),在此之前,文生圖領(lǐng)域仍有些問(wèn)題不容忽視。
一方面,文生圖尚處于探索時(shí)期,生成細(xì)節(jié)還不夠完美。雖然文生圖具有一些創(chuàng)新性和實(shí)用性,但是不能全面理解用戶的語(yǔ)義,生成的圖像質(zhì)量自然也就不會(huì)很理想,不是人物的臉部或手部細(xì)節(jié)呈現(xiàn)得不夠完美,就是圖像與文本的相關(guān)性不夠緊密,甚至?xí)霈F(xiàn)一些毫無(wú)邏輯的圖像和文本的組合。顯然,AI繪畫(huà)在語(yǔ)義理解、宏觀結(jié)構(gòu)、細(xì)節(jié)刻畫(huà)、邏輯推理等方面還有較大改進(jìn)空間。
另一方面,文生圖只是AI輔助創(chuàng)作,生成內(nèi)容缺乏創(chuàng)造力和情感表達(dá)。毫無(wú)疑問(wèn),技術(shù)是標(biāo)準(zhǔn)化的,審美卻是非標(biāo)準(zhǔn)化的。設(shè)計(jì)師、畫(huà)師可以借助AI,提高自己的創(chuàng)作效率,甚至激發(fā)無(wú)窮的想象力,但AI并不是設(shè)計(jì)師、畫(huà)師本人,不能擁有人的情感和靈感,不能和人一樣感同身受,而且目前的AI技術(shù)對(duì)外界生活無(wú)法感觸,對(duì)真實(shí)世界的很多需求自然也是無(wú)法精準(zhǔn)捕捉和理解,所以短期內(nèi),AI繪畫(huà)還是很難代替設(shè)計(jì)師、畫(huà)師的。
除此之外,國(guó)內(nèi)外正接連涌現(xiàn)出新的文生圖公司,AI繪畫(huà)領(lǐng)域的競(jìng)爭(zhēng)也將進(jìn)一步加劇。事實(shí)上,除了快手、百度、網(wǎng)易伏羲等走上中國(guó)式文生圖的道路之外,國(guó)內(nèi)其他加碼AI繪畫(huà)的玩家也都正源源不斷地趕來(lái),國(guó)外文生圖應(yīng)用的景象也是十分熱鬧。而國(guó)內(nèi)外每一家模型結(jié)構(gòu)都不是完全一樣的,無(wú)論是圖片還是文本都做了優(yōu)化,且都包含著自己的特色,所以文生圖領(lǐng)域的競(jìng)爭(zhēng)局面可想而知。
盡管文生圖大模型目前尚有一些缺陷,但回顧人類的發(fā)展歷史不難發(fā)現(xiàn),一項(xiàng)新技術(shù)的出現(xiàn),往往需要不斷改進(jìn)和完善,因此對(duì)于AI繪畫(huà),我們?nèi)匀槐в泻芏嗥诖?。而在流量紅利逐漸消退的當(dāng)下,百度、網(wǎng)易、快手等企業(yè)主動(dòng)去擁抱“文生圖”這樣的新技術(shù)或許是最好的選擇。只不過(guò),最后這些入局者能做到何種程度,或許只有時(shí)間能給出答案
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美國(guó)無(wú)人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開(kāi)大疆
- iQOO Neo10 Pro:性能特長(zhǎng)之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來(lái)賭上了AIGC
- 明星熱劇、品牌種草、平臺(tái)資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機(jī)看它就夠了!
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 16個(gè)月沒(méi)工資不敢離職,這些打工人“自費(fèi)上班”
- 怎樣利用微信小店“送禮”功能賺錢(qián)?
- 鴻蒙智行問(wèn)界M9,中國(guó)豪華車的龍門(mén)一躍
- 科技云報(bào)道:人工智能時(shí)代“三大件”:生成式AI、數(shù)據(jù)、云服務(wù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。