過去幾年涌現(xiàn)出的一系列人工智能技術(shù),為內(nèi)容生產(chǎn)提供了強(qiáng)大的工具。
漫步于盧浮宮無數(shù)畫作中,你是否期待一位畫師為你記錄下獨(dú)一無二的瞬間,給這個(gè)世界留下一份凝視與回眸?走進(jìn)國家圖書館浩瀚書海中,你是否期待有人陪你一同探索世界?意外闖進(jìn)J.K羅琳創(chuàng)建的魔法學(xué)校,你是否期待有人為你遞上魔杖讓所有平面之物躍然紙上? 隨著不斷迭代的算法和不斷增強(qiáng)的算力,最新的人工智能技術(shù)正悄然將這一切變成現(xiàn)實(shí),這些建立在數(shù)學(xué)基礎(chǔ)上的抽象能力正成為人類擁有特殊技能的朋友,與我們共同追逐著未來的無限可能。 寫實(shí)派畫家——GAN 生成對抗網(wǎng)絡(luò)(GAN/Generative Adversarial Networks)就像這個(gè)時(shí)代的寫實(shí)派畫家,這位畫家的大腦和畫筆就是Generator和Discriminator兩個(gè)網(wǎng)絡(luò)。在實(shí)際使用過程中,我們提供真實(shí)輸入后,它會(huì)在Generator中生成假圖片并在Discriminator中和真圖做對比。起初,Discriminator很容易分辨真假圖片。但隨著Generator通過Discriminator的反饋不斷優(yōu)化生成的圖片,分辨難度不斷提升。最終,當(dāng)Discriminator沒辦法分辨真假時(shí),假圖片就作為最終產(chǎn)物出現(xiàn)在了我們面前。 自誕生以來,生產(chǎn)對抗網(wǎng)絡(luò)就在鳥類、花卉等圖片的生成上不斷展現(xiàn)出驚人的能力,而其生成的足以亂真的人臉照片和根據(jù)文本描述生成的照片,已經(jīng)成為設(shè)計(jì)師必備的工具:前者可以作為素材庫讓設(shè)計(jì)師輕松積累素材,后者則能幫助設(shè)計(jì)師可以快速定向獲取設(shè)計(jì)靈感來源。 印象派畫家——VAE 除了“寫實(shí)派畫家”生成對抗網(wǎng)絡(luò),人工智能領(lǐng)域也有“印象派畫家”——變分自編碼器(VAE,Variational Auto-encoder)。不同于生成對抗網(wǎng)絡(luò),變分自編碼器在獲得輸入時(shí)會(huì)先用“取色器”(編碼器,encoder)提取畫面的重要信息,并以此為核心拓展范圍。例如,編碼器取“紅色”后會(huì)將該信息擴(kuò)大到“紅色系所有顏色”,再將這些擴(kuò)大后的信息作為生成元素,舉一反三生成更多新數(shù)據(jù)。 目前,這位AI時(shí)代的“梵高”已經(jīng)在包括圖像和音頻合成等領(lǐng)域找到了施展空間。由于舉一反三的屬性,變分自編碼器生成的新數(shù)據(jù)具有更好的擴(kuò)展性和多樣性,也更方便地設(shè)計(jì)師對這些數(shù)據(jù)做定向調(diào)整,從而將更符合預(yù)期的數(shù)據(jù)存入素材庫作為靈感來源。 語言課代表——BERT 如同機(jī)器將圖片依性質(zhì)拆解為RGB等數(shù)值后才能理解圖片一樣,BERT(Bidirectional Encoder Representations from Transformer)也依據(jù)對文本的拆解在紛繁的語言世界中找到了梳理脈絡(luò)、理解奧秘的方法。 我們可以將BERT理解為做英語試卷的考生,第一道題“MLM(MASKED LANGUAGE MODEL)”類似完形填空,我們給BERT的語料庫會(huì)隨機(jī)遮擋15%的詞語,讓BERT根據(jù)上下文猜測空缺部分從而訓(xùn)練其了解不同語境下的詞語運(yùn)用,進(jìn)而更準(zhǔn)確的對語義做出理解。第二道題“NSP(NEST SENTENCE PREDICTION)”會(huì)給到成組的句子,讓BERT判斷兩個(gè)句子是否連續(xù)以及句子間的關(guān)系。有了這些基本能力后,我們只要增加輸出層訓(xùn)練就能將BERT應(yīng)用到不同場景。 目前,誕生不到五年的BERT已經(jīng)可以和閱讀理解、搜索與信息檢索結(jié)合起來,幫助設(shè)計(jì)師將多輪對話等場景變成現(xiàn)實(shí)。除此之外,BERT還能利用其理解學(xué)習(xí)能力在長文本中提取出重點(diǎn)內(nèi)容信息,讓人們可以更高效地理解文本。 讓二維變立體的神奇魔杖——NeRF 在更高維度上應(yīng)用人工智能技術(shù)的努力從未停止,神經(jīng)輻射場(NeRF,Neural Radiance Fields)的脫穎而出因此并不意外。神經(jīng)輻射場能將圖像分為3個(gè)空間位置向量和2個(gè)相機(jī)觀測向量,在此基礎(chǔ)上輸出體密度(volume density,可以理解為透明度)和基于觀測角度的物體空間點(diǎn)色彩,完成從“空間點(diǎn)位置+觀測角度”到“空間點(diǎn)色彩+體密度”的映射。 在三維空間重建二維圖像具有廣闊應(yīng)用前景。它能幫我們準(zhǔn)確快速建立數(shù)字人體,從而成為數(shù)字人領(lǐng)域重要的建模工具;它也能運(yùn)用到自動(dòng)駕駛行業(yè),讓現(xiàn)實(shí)路況和虛擬情況實(shí)時(shí)融合,為自動(dòng)駕駛提供天氣和雨雪等場景數(shù)據(jù),讓設(shè)計(jì)師圍繞人車交互進(jìn)行更準(zhǔn)確的設(shè)計(jì)思考。 技術(shù)從不抽象,它們總能直觀地刺激我們的感官、激發(fā)我們的想象力。伴隨著代碼的迭代,技術(shù)終將以更加具象的形式成為我們的朋友。我們也將與它一同探索未知并闡述理解、思考藝術(shù)并定格瞬間,突破邊界并一同走進(jìn)那個(gè)虛實(shí)融合且醞釀著無數(shù)可能的“魔法世界”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )