極客網(wǎng)·人工智能11月11日 2022年是生成式AI發(fā)展進(jìn)程中的重要一年。大型語言模型在生成文本和軟件代碼方面不斷取得進(jìn)展。與此同時,隨著DALL-E2、Imagen和StableDiffusion等模型的引入,人們看到了文本到圖像生成器的巨大進(jìn)步。
2022年還標(biāo)志著生成式AI模型的產(chǎn)品化加速。生成模型的科學(xué)和技術(shù)如今已經(jīng)發(fā)展成熟到能夠解決實際問題的地步。像微軟和谷歌這樣的公司正在尋求一個新市場中占據(jù)領(lǐng)先地位的方法,這可能會改變創(chuàng)造力的未來。
谷歌公司在其日前舉辦的AI@'22大會上,展示了在其產(chǎn)品利用生成模型的路線圖。其戰(zhàn)略可能是該領(lǐng)域的發(fā)展方向和未來競爭可能發(fā)生變化的前奏。
谷歌的生成模型進(jìn)展
谷歌Parti使用Transformers從文本令牌創(chuàng)建圖像
在AI@'22會議上,谷歌研究中心首席科學(xué)家Douglas Eck列出了該公司目前在四個領(lǐng)域?qū)ι赡P偷难芯浚何谋?、源代碼、音頻、圖像和視頻。
谷歌目前正在所有這些領(lǐng)域運行測試項目,著眼于在未來創(chuàng)建產(chǎn)品。Wordcraft Writers Workshop致力于幫助作者在寫作中從大型語言模型中獲得幫助。這是一個使用語言模型LaMDA根據(jù)用戶提供的提示生成文字的工具。該工具被設(shè)計成在一個迭代過程中使用模型,在這個過程中,作者和大型語言模型(LLM)進(jìn)行交互,共同創(chuàng)建故事。
Eck說,“使用LaMDA來寫一個完整的故事將成為了一個死胡同。當(dāng)它用來增加趣味、為特定角色或增強(qiáng)故事的某個方面時,這可能是一個更有效的工具。用戶界面也必須是正確的。Wordcraft工具是從頭開始設(shè)計的,可以讓作者與生成模型進(jìn)行交互?!?/p>
學(xué)習(xí)代碼是一個使用大型語言模型(LLM)為開發(fā)人員生成代碼建議的項目。谷歌目前正在內(nèi)部測試該工具,它包括單行和多行代碼完成建議。
AudioLM使用語言模型生成音頻。該模型將一個音頻樣本作為輸入。它可以用來生成音樂和語音。
也許Eck在AI@'22會議上展示的最先進(jìn)的模型是文本到圖像模型Imagen和Parti。Imagen的工作原理類似于OpenAI的DALL-E2,它使用擴(kuò)散模型將語言嵌入轉(zhuǎn)化為圖像。Parti使用Transformers架構(gòu)從文本標(biāo)記生成圖像。DreamBooth是一個可以調(diào)優(yōu)文本到圖像生成器(如Imagen)的模型,以在不同的場景中顯示主題。DreamFusion將擴(kuò)散模型的功能與神經(jīng)輻射場(NeRF)結(jié)合起來,神經(jīng)輻射場(NeRF)是一種深度學(xué)習(xí)架構(gòu),可以從2D圖像創(chuàng)建3D模型。
谷歌DreamBooth對生成模型進(jìn)行微調(diào),以在不同的環(huán)境中顯示特定的主題
Eck還展示了谷歌與Imagen Video和Phenaki在視頻生成方面的研究的預(yù)覽。Imagen Video使用擴(kuò)散模型創(chuàng)建一系列高分辨率圖像,這些圖像可以拼接在一起創(chuàng)建視頻。Phenaki基于Transformers架構(gòu),將文本提示序列轉(zhuǎn)換為圖像序列。Imagen Video和Phenaki結(jié)合使用,可根據(jù)提示序列創(chuàng)建高分辨率視頻。
谷歌的生成模型戰(zhàn)略
Eck在會上演講中明確表示,生成式模型并不意味著自動化或取代人類的創(chuàng)造力?!斑@不再是一個創(chuàng)造現(xiàn)實畫面的生成模型,而是自己創(chuàng)造的東西。技術(shù)應(yīng)該滿足我們的需要,讓我們對自己的工作有代理權(quán)和創(chuàng)造性的控制權(quán)?!?/p>
在討論谷歌的“負(fù)責(zé)任的AI”戰(zhàn)略時,他進(jìn)一步強(qiáng)調(diào)了這一點,并在演講結(jié)束時說:“創(chuàng)造力是使我們成為人類的重要組成部分。我認(rèn)為在構(gòu)建這些AI系統(tǒng)時,牢記這一點很重要?!?/p>
Eck的一些言論是為了緩解生成式AI模型取代人類創(chuàng)造力的恐懼(這在很大程度上被夸大了),強(qiáng)調(diào)積極的影響,將該領(lǐng)域轉(zhuǎn)向以人為中心的AI。AI系統(tǒng)應(yīng)該以一種提供透明度和控制的方式設(shè)計,以增強(qiáng)人類的能力。如果沒有人類的控制和監(jiān)督,生成模型等AI系統(tǒng)將表現(xiàn)不佳,因為它們無法像人類一樣掌握基本概念。
谷歌能在生成式AI領(lǐng)域獲得競爭優(yōu)勢嗎?
AI研究和產(chǎn)品化之間的差距很難彌合。當(dāng)然,谷歌的大型語言模型(LLM)和文本到圖像模型的質(zhì)量不會低于OpenAI的GPT-3和DALL-E2。但問題是,谷歌能否基于這些模式推出成功的產(chǎn)品?
在考慮將技術(shù)產(chǎn)品化時,需要考慮以下一些問題:這項技術(shù)會成為新產(chǎn)品的基礎(chǔ)技術(shù)嗎?如果沒有,它會被集成到現(xiàn)有的產(chǎn)品中嗎?它解決的是什么問題,目前存在的替代解決方案是什么?產(chǎn)品是否提供了足夠的附加值來說服用戶轉(zhuǎn)換?它是否有助于鞏固企業(yè)在現(xiàn)有市場中的地位?
企業(yè)通常會將技術(shù)帶到他們擅長的領(lǐng)域或市場。在寫作領(lǐng)域,微軟領(lǐng)先于谷歌。Office 365的市場份額超過了GSuite,在將大型語言模型(LLM)集成到其產(chǎn)品中方面,微軟公司已經(jīng)領(lǐng)先一步。
微軟在GitHub Copilot和Codex的編碼方面也處于領(lǐng)先地位,它們已經(jīng)進(jìn)入生產(chǎn)模式,而不是谷歌的內(nèi)部代碼生成工具。谷歌最受歡迎的開發(fā)工具是Colab和Android Studio,這將為它提供一個測試和推出代碼AI的場所。但這些集成開發(fā)環(huán)境(IDE)的市場份額無法與微軟的Visual Studio Code和GitHub Codespaces(也屬于微軟)相提并論。
在圖像、視頻和音頻領(lǐng)域,Adobe公司將成為生成式AI的贏家。Adobe公司已經(jīng)擁有最大的市場份額和完善的工具,并定期更新AI功能。Adobe已經(jīng)在其工具套件中嘗試生成式AI工具。
然而,這并不意味著現(xiàn)有這些公司一定會主導(dǎo)生成式AI領(lǐng)域。目前,從目前使用的工具(如文字處理器、集成開發(fā)環(huán)境和圖像編輯應(yīng)用程序)的角度來看待生成模型?;旧希袠I(yè)廠商正在研究生成模型如何自動化或改進(jìn)已經(jīng)在做的任務(wù)(完成句子、編寫代碼塊、編輯或生成照片等等)。當(dāng)他們創(chuàng)造新的工具系統(tǒng)和工作流程時,AI的真正潛力將得到充分發(fā)揮,這些工具和流程能夠充分利用生成模型和AI的其他進(jìn)步,以完全不同的方式來實現(xiàn)目標(biāo)。
正如谷歌重塑了信息發(fā)現(xiàn)模式,亞馬遜隨著網(wǎng)絡(luò)的普及重塑了購物模式那樣,發(fā)現(xiàn)并擁抱AI新機(jī)遇的企業(yè)必然會改變市場現(xiàn)狀或塑造新的市場。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )