上圖這些人是不存在的。這些面孔是使用一種深度學(xué)習(xí)形式人工生成的…… 資料來源:THIS-PERSON-DOES-NOT-EXIST.COM
想象一下,如果有可能以廉價和快速的方式生產(chǎn)出無限量的世界上最有價值的資源。那么,這將會帶來什么樣的巨大經(jīng)濟(jì)轉(zhuǎn)型和機(jī)遇呢?
這這就是今天的現(xiàn)實,它被稱為合成數(shù)據(jù)。
合成數(shù)據(jù)并不是一個新想法,但就現(xiàn)實世界的影響而言,其現(xiàn)在正接近一個關(guān)鍵的拐點。它有望顛覆人工智能的整個價值鏈和技術(shù)堆棧,并產(chǎn)生巨大的經(jīng)濟(jì)影響。
數(shù)據(jù)是現(xiàn)代人工智能的命脈。獲取正確的數(shù)據(jù)是構(gòu)建強(qiáng)大 AI 的最重要和最具挑戰(zhàn)性的部分。從現(xiàn)實世界中收集高質(zhì)量數(shù)據(jù)是復(fù)雜、昂貴且耗時的。這就是合成數(shù)據(jù)的價值所在。
合成數(shù)據(jù)是一個非常簡單的概念——其中一個想法似乎好得令人難以置信。簡而言之,合成數(shù)據(jù)技術(shù)使從業(yè)者能夠簡單地以數(shù)字方式生成他們需要的數(shù)據(jù),無論他們需要多少數(shù)量,都可以根據(jù)他們的精確規(guī)格定制。
根據(jù)一項廣泛引用的 Gartner 研究,到 2024 年,用于人工智能開發(fā)的所有數(shù)據(jù)中,60% 將是合成的,而不是真實的。
花點時間消化一下。這是一個驚人的預(yù)測。
數(shù)據(jù)是現(xiàn)代經(jīng)濟(jì)的基礎(chǔ)。用《經(jīng)濟(jì)學(xué)人》的話說,它是“世界上最寶貴的資源”。在短短幾年內(nèi),用于人工智能的大部分?jǐn)?shù)據(jù)可能來自一個顛覆性的新來源——如今很少有企業(yè)了解甚至不知道。
不用說,這將帶來巨大的商業(yè)機(jī)會。
合成數(shù)據(jù)初創(chuàng)公司Datagen的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Zuk表示 :“我們可以簡單地說,合成數(shù)據(jù)的總目標(biāo)市場和數(shù)據(jù)的總目標(biāo)市場將會融合?!?/p>
合成數(shù)據(jù)的興起將徹底改變數(shù)據(jù)的經(jīng)濟(jì)、所有權(quán)、戰(zhàn)略動態(tài),甚至(地緣)政治。這是一項值得關(guān)注的技術(shù)。
從自動駕駛汽車到人臉雖然合成數(shù)據(jù)的概念已經(jīng)存在了幾十年,但從 2010 年代中期開始,該技術(shù)首次在自動駕駛汽車領(lǐng)域得到了廣泛的商業(yè)應(yīng)用。
合成數(shù)據(jù)開始出現(xiàn)在自動駕駛汽車領(lǐng)域也就不足為奇了。首先,因為 AV(Audio and Video)領(lǐng)域吸引了更多的機(jī)器學(xué)習(xí)人才和投資資金,甚至可能比任何其他人工智能商業(yè)應(yīng)用都要多,它通常是合成數(shù)據(jù)等基礎(chǔ)創(chuàng)新的催化劑。
鑒于 AV 世界中“邊緣案例”的挑戰(zhàn)和重要性,合成數(shù)據(jù)和自動駕駛汽車特別適合彼此。為自動駕駛汽車在道路上可能遇到的每個可能場景收集真實世界的駕駛數(shù)據(jù)是不可能的。鑒于世界是多么不可預(yù)測和未知情況,實際上需要數(shù)百年的真實駕駛才能收集構(gòu)建真正安全的自動駕駛汽車所需的所有數(shù)據(jù)。
因此,自動駕駛汽車公司開發(fā)了復(fù)雜的模擬引擎來綜合生成必要的數(shù)據(jù)量,并有效地將他們的人工智能系統(tǒng)暴露在駕駛場景的“長尾”中。這些模擬世界可以自動生成任何可以想象的駕駛場景的數(shù)千或數(shù)百萬個排列——例如,改變其他汽車的位置、添加或移除行人、增加或降低車速、調(diào)整天氣等等。
多年來,領(lǐng)先的自動駕駛汽車廠商——Waymo、Cruise、Aurora、Zoox——都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資,并將其作為其技術(shù)堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓(xùn)練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達(dá)到100 億英里。
正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所說:“現(xiàn)在,你幾乎可以通過他們對模擬的認(rèn)真程度來衡量自主團(tuán)隊——無人機(jī)團(tuán)隊、汽車團(tuán)隊的成熟度。”
因此,出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準(zhǔn)了自動駕駛汽車終端市場。其中包括 Applied Intuition(最近估值為 36 億美元)、Parallel Domain 和 Cognata 等公司。
但沒過多久,人工智能企業(yè)家就認(rèn)識到,為自動駕駛汽車行業(yè)開發(fā)的合成數(shù)據(jù)功能可以推廣并應(yīng)用于許多其他計算機(jī)視覺應(yīng)用。
從機(jī)器人技術(shù)到物理安全,從地理空間圖像到制造,近年來計算機(jī)視覺在整個經(jīng)濟(jì)中發(fā)現(xiàn)了廣泛的有價值的應(yīng)用。對于所有這些用例,構(gòu)建 AI 模型需要大量的標(biāo)記圖像數(shù)據(jù)。
合成數(shù)據(jù)在這里代表了一個強(qiáng)大的解決方案。
使用合成數(shù)據(jù)方法,企業(yè)可以比其他方法更快、更便宜地獲取訓(xùn)練數(shù)據(jù)——即從現(xiàn)實世界中費力地收集數(shù)據(jù)。想象一下,在系統(tǒng)上人工生成 100,000 張智能手機(jī)圖像比在現(xiàn)實世界中一張一張地收集這些圖像要容易得多。
重要的是,現(xiàn)實世界的圖像數(shù)據(jù)必須先手動標(biāo)記,然后才能用于訓(xùn)練 AI 模型——這是一個昂貴、耗時且容易出錯的過程。合成數(shù)據(jù)的一個關(guān)鍵優(yōu)勢是不需要手動數(shù)據(jù)標(biāo)記:因為圖像首先是從頭開始以數(shù)字方式定制的,所以它們會自動帶有“像素完美”的標(biāo)簽。
計算機(jī)視覺的合成數(shù)據(jù)究竟是如何工作的?如何人工生成如此高保真、逼真的圖像數(shù)據(jù)?
合成數(shù)據(jù)核心的一項關(guān)鍵人工智能技術(shù)被稱為生成對抗網(wǎng)絡(luò)或 GAN。
GAN由 AI 先驅(qū) Ian Goodfellow于 2014 年發(fā)明,自那時以來一直是研究和創(chuàng)新的活躍領(lǐng)域。Goodfellow 的核心概念突破是用兩個獨立的神經(jīng)網(wǎng)絡(luò)構(gòu)建 GAN,然后讓它們相互對抗。
從給定的數(shù)據(jù)集(例如,人臉照片的集合)開始,第一個神經(jīng)網(wǎng)絡(luò)(稱為“生成器”)開始生成新圖像,就像素而言,這些圖像在數(shù)學(xué)上與現(xiàn)有圖像相似。同時,第二個神經(jīng)網(wǎng)絡(luò)(“鑒別器”)被輸入照片,而不會被告知它們是來自原始數(shù)據(jù)集還是來自生成器的輸出;它的任務(wù)是識別哪些照片是合成生成的。
當(dāng)這兩個網(wǎng)絡(luò)迭代地相互對抗時——生成器試圖欺騙鑒別器,鑒別器試圖停止生成器的創(chuàng)造——它們相互磨練彼此的能力。最終判別器的分類成功率下降到 50%,并不比隨機(jī)猜測好,這意味著合成生成的照片已經(jīng)與原件無法區(qū)分。
2016 年,人工智能巨匠 Yann LeCun稱GAN 是“機(jī)器學(xué)習(xí)過去十年中最有趣的想法”。
推動視覺合成數(shù)據(jù)近期發(fā)展勢頭的另外兩個重要研究進(jìn)展是擴(kuò)散模型和神經(jīng)輻射場(NeRF)。
最初受熱力學(xué)概念的啟發(fā),擴(kuò)散模型通過增加噪聲破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí),然后找出如何逆轉(zhuǎn)這種噪聲過程以恢復(fù)原始圖像。一旦經(jīng)過訓(xùn)練,擴(kuò)散模型就可以應(yīng)用這些去噪方法從隨機(jī)輸入中合成新穎的“干凈”數(shù)據(jù)。
擴(kuò)散模型在過去一年中大受歡迎,包括作為DALL-E 2的技術(shù)支柱,這是OpenAI 備受討論的新文本到圖像模型。與 GAN 相比,具有一些有意義的優(yōu)勢,預(yù)計擴(kuò)散模型將在生成 AI 的世界中發(fā)揮越來越重要的作用。
與此同時,NeRF 是一種強(qiáng)大的新方法,可以快速準(zhǔn)確地將二維圖像轉(zhuǎn)換為復(fù)雜的三維場景,然后可以對其進(jìn)行操作和導(dǎo)航以生成多樣化的高保真合成數(shù)據(jù)。
為計算機(jī)視覺提供合成數(shù)據(jù)解決方案的兩家領(lǐng)先初創(chuàng)公司是 Datagen(最近宣布了 5000 萬美元的 B輪融資)和 Synthesis AI(最近宣布了 1700 萬美元的 A 輪融資)。兩家公司都專注于人類數(shù)據(jù),尤其是人臉;他們的平臺使用戶能夠以編程方式自定義跨維度的面部數(shù)據(jù)集,包括頭部姿勢、面部表情、種族、注視方向和發(fā)型。
AI.Reverie 是這一領(lǐng)域的先行者,去年被 Facebook 收購——這表明大型科技公司對合成數(shù)據(jù)越來越感興趣。早期創(chuàng)業(yè)公司包括 Rendered.ai、Bifrost 和 Mirage。
循環(huán)往復(fù),雖然幾年前自動駕駛汽車為合成數(shù)據(jù)的增長提供了原始動力,但時至今日,自動駕駛汽車行業(yè)仍在繼續(xù)推動該領(lǐng)域的最新發(fā)展。
Waabi 是自動駕駛汽車類別中最引人入勝的新創(chuàng)業(yè)公司之一,他將模擬技術(shù)提升到了一個新的水平。Waabi 由曾負(fù)責(zé) Uber 的 AV 研究工作的 AI 杰出人物 Raquel Urtasun 創(chuàng)立,去年憑借一支星光熠熠的團(tuán)隊和超過 8000 萬美元的資金脫穎而出。
Waabi 的目標(biāo)是通過利用下一代 AI 構(gòu)建一種新型的自主堆棧,避免更多傳統(tǒng)方法的缺點,從而超越更成熟的 AV 玩家。該堆棧的中心是合成數(shù)據(jù)。
與 AV 領(lǐng)域的其他公司相比,Waabi 沒有大量投資于在現(xiàn)實世界的道路上部署汽車以收集駕駛數(shù)據(jù)。相反,Waabi 大膽地尋求主要通過虛擬仿真來訓(xùn)練其自主系統(tǒng)。2 月,該公司公開推出了名為Waabi World的尖端模擬平臺。
“在 Waabi,我們在生成合成數(shù)據(jù)方面更進(jìn)一步,”Urtasun 說。“我們不僅可以近乎實時地以前所未有的保真度模擬車輛的傳感器,而且我們以閉環(huán)方式進(jìn)行模擬,以便環(huán)境對我們做出反應(yīng),我們也對其做出反應(yīng)。這對于自動駕駛汽車等機(jī)器人系統(tǒng)非常重要,因為我們不僅需要學(xué)習(xí)感知世界,還需要安全地采取行動?!?/p>語言至上
雖然合成數(shù)據(jù)將改變計算機(jī)視覺的游戲規(guī)則,但該技術(shù)將在另一個領(lǐng)域釋放更多的轉(zhuǎn)變和機(jī)會:語言。
基于文本的合成數(shù)據(jù)的巨大潛力反映了語言在人類事務(wù)中無處不在的基本現(xiàn)實;它基本上是所有重要商業(yè)活動的核心。自然語言處理 (NLP) 的最新進(jìn)展為整個經(jīng)濟(jì)領(lǐng)域的價值創(chuàng)造提供了幾乎無限的機(jī)會。合成數(shù)據(jù)在這里可以發(fā)揮關(guān)鍵作用。
以下幾個具體的例子將有助于說明這種可能性。
Anthem 是世界上最大的健康保險公司之一,它使用其大量的患者醫(yī)療記錄和索賠數(shù)據(jù)來支持人工智能應(yīng)用,例如自動欺詐檢測和個性化患者護(hù)理。
上個月,Anthem宣布與 Google Cloud 合作生成大量合成文本數(shù)據(jù),以改進(jìn)和擴(kuò)展這些 AI 用例。例如,這個合成數(shù)據(jù)語料庫將包括人工生成的病史、醫(yī)療保健索賠和相關(guān)的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)保留了真實患者數(shù)據(jù)的結(jié)構(gòu)和“信號”。
除其他好處外,合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實患者數(shù)據(jù)上訓(xùn)練 AI 模型會帶來棘手的隱私問題,但當(dāng)數(shù)據(jù)被合成時,這些問題就會消失。
Anthem 的首席信息官 Anil Bhatt說:“越來越多……合成數(shù)據(jù)將超越并成為人們未來使用 AI 的方式?!?/p>
最近的另一個例子暗示了更具變革性的可能性。
去年年底,全球領(lǐng)先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集。
基因組數(shù)據(jù)是世界上最復(fù)雜、多維、信息豐富的數(shù)據(jù)類型之一。從字面上看,它包含了生命的秘密——如何構(gòu)建有機(jī)體的說明。長度超過 30 億個堿基對,每個人獨特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風(fēng)險。(雖然不是自然語言,但基因組序列是文本數(shù)據(jù);每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進(jìn)行編碼。)
使用領(lǐng)先的人工智能分析人類基因組,使研究人員能夠更深入地了解疾病、健康以及生命本身的運作方式。但由于基因組數(shù)據(jù)的可用性有限,這項研究受到了瓶頸。圍繞人類基因數(shù)據(jù)的嚴(yán)格隱私法規(guī)和數(shù)據(jù)共享限制阻礙了研究人員大規(guī)模處理基因組數(shù)據(jù)集的能力。
合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復(fù)制真實基因組數(shù)據(jù)集的特征和信號,同時回避這些數(shù)據(jù)隱私問題,因為數(shù)據(jù)是人工生成的,并不對應(yīng)于現(xiàn)實世界中的任何特定個體。
當(dāng)涉及到由合成數(shù)據(jù)解鎖的各種基于語言的機(jī)會時,這兩個例子只是冰山一角。
近年來出現(xiàn)了一些有前途的初創(chuàng)公司來尋求這些機(jī)會。
這一類別中最著名的初創(chuàng)公司是上文提到的 Gretel.ai,迄今為止,該公司已從 Greylock 和其他人那里籌集了超過 6500 萬美元的資金。
從醫(yī)療保健到金融服務(wù),從游戲到電子商務(wù),各行各業(yè)的藍(lán)籌客戶對其技術(shù)有著強(qiáng)勁的市場需求。
Gretel.ai 首席執(zhí)行官/聯(lián)合創(chuàng)始人 Ali Golshan 說:“看到客戶開始以如此快的速度采用合成數(shù)據(jù)真是令人驚訝。”“即使與 12 或 18 個月前相比,企業(yè)對合成數(shù)據(jù)的認(rèn)識和需求也在快速增長。我們的客戶繼續(xù)以創(chuàng)新的新方式應(yīng)用我們的技術(shù)給我們帶來驚喜。”
該領(lǐng)域另一個有趣的早期參與者是 DataCebo。DataCebo 由麻省理工學(xué)院的一群教師和他們的學(xué)生創(chuàng)立,他們之前創(chuàng)建了 Synthetic Data Vault (SDV),這是最大的開源模型、數(shù)據(jù)、基準(zhǔn)和其他合成數(shù)據(jù)工具的生態(tài)系統(tǒng)。DataCebo 和 Synthetic Data Vault 專注于結(jié)構(gòu)化(即表格或關(guān)系)文本數(shù)據(jù)集,即在表格或數(shù)據(jù)庫中組織的文本數(shù)據(jù)。
DataCebo 聯(lián)合創(chuàng)始人 Kalyan Veeramachaneni 說:“使用這項技術(shù)最重要的動態(tài)是保真度和隱私之間的權(quán)衡?!薄癉ataCebo 平臺提供的核心是一個微調(diào)選項,使客戶能夠圍繞他們生成的合成數(shù)據(jù)加強(qiáng)隱私保證,但要以保真度為代價,反之亦然。”
Tonic.ai 是另一家熱門的初創(chuàng)公司,為綜合生成的文本數(shù)據(jù)提供工具。Tonic 的主要用例是用于軟件測試和開發(fā)的合成數(shù)據(jù),而不是用于構(gòu)建機(jī)器學(xué)習(xí)模型。
最后一個值得注意的初創(chuàng)公司是 Syntegra,它專注于專門針對醫(yī)療保健的合成數(shù)據(jù),其用例涵蓋醫(yī)療保健提供者、健康保險公司和制藥公司??紤]到市場規(guī)模和現(xiàn)實世界患者數(shù)據(jù)的棘手隱私挑戰(zhàn),合成數(shù)據(jù)在醫(yī)療保健領(lǐng)域的長期影響可能比任何其他領(lǐng)域都要大。
值得注意的是,在很大程度上,這里討論的公司和示例使用經(jīng)典的統(tǒng)計方法或傳統(tǒng)的機(jī)器學(xué)習(xí)來生成合成數(shù)據(jù),重點是結(jié)構(gòu)化文本。但在過去的幾年里,語言 AI 的世界已經(jīng)發(fā)生了革命性的變化,引入了Transformer 架構(gòu)和新興的大規(guī)模“基礎(chǔ)模型”范式,如 OpenAI 的 GPT-3。
通過利用大型語言模型 (LLM) 來生成具有以前無法想象的真實性、原創(chuàng)性、復(fù)雜性和多樣性的非結(jié)構(gòu)化文本(或多模態(tài))數(shù)據(jù)語料庫,這是構(gòu)建下一代合成數(shù)據(jù)技術(shù)的機(jī)會。
“大型語言模型的最新進(jìn)展為我們帶來了機(jī)器生成的數(shù)據(jù),這些數(shù)據(jù)通常與人類編寫的文本無法區(qū)分,”DeepMind 專注于生成語言模型的高級研究科學(xué)家 Dani Yogatama 說?!斑@種新型合成數(shù)據(jù)已成功應(yīng)用于構(gòu)建廣泛的人工智能產(chǎn)品,從簡單的文本分類器到問答系統(tǒng),再到機(jī)器翻譯引擎到會話代理。使這項技術(shù)民主化將對我們開發(fā)生產(chǎn) AI 模型的方式產(chǎn)生變革性的影響。”
模擬到現(xiàn)實的差距退后一步,該領(lǐng)域的基本概念挑戰(zhàn)是合成生成的數(shù)據(jù)必須與真實數(shù)據(jù)足夠相似,才能對數(shù)據(jù)服務(wù)的任何目的有用。這是大多數(shù)人在學(xué)習(xí)合成數(shù)據(jù)時的第一個問題——它真的能準(zhǔn)確到足以替代真實數(shù)據(jù)嗎?
合成數(shù)據(jù)集與真實數(shù)據(jù)的相似程度稱為保真度。對我們來說,重要的是要問:合成數(shù)據(jù)需要多高的保真度才能有用?我們到那里了嗎?我們?nèi)绾魏饬亢土炕U娑龋?/blockquote>人工智能的最新進(jìn)展極大地提高了合成數(shù)據(jù)的保真度。對于計算機(jī)視覺和自然語言處理的廣泛應(yīng)用,今天的合成數(shù)據(jù)技術(shù)已經(jīng)足夠先進(jìn),可以部署在生產(chǎn)環(huán)境中。但這里還有更多工作要做。
在計算機(jī)視覺中,由于神經(jīng)輻射場 (NeRF) 等持續(xù)的深度學(xué)習(xí)創(chuàng)新,俗稱“模擬到真實的差距”正在迅速縮小。Nvidia 的Omniverse等開發(fā)人員平臺的發(fā)布,一個領(lǐng)先的 3D 圖形模擬平臺,通過使開發(fā)人員可以廣泛使用最先進(jìn)的合成數(shù)據(jù)功能,在這方面發(fā)揮了重要作用。
衡量給定合成數(shù)據(jù)集有效性的最直接方法是將其換成真實數(shù)據(jù),然后查看 AI 模型的性能。例如,計算機(jī)視覺研究人員可能會在合成數(shù)據(jù)上訓(xùn)練一個分類模型,在真實數(shù)據(jù)上訓(xùn)練第二個分類模型,將兩個模型部署在相同的先前未見過的測試數(shù)據(jù)集上,然后比較兩個模型的性能。
在實踐中,計算機(jī)視覺中合成數(shù)據(jù)的使用不需要,通常也不是,這種二進(jìn)制。研究人員可以通過在他們的訓(xùn)練數(shù)據(jù)集中結(jié)合真實數(shù)據(jù)和合成數(shù)據(jù)來推動顯著的性能改進(jìn),而不是只使用真實數(shù)據(jù)或合成數(shù)據(jù),使人工智能能夠從兩者中學(xué)習(xí)并擴(kuò)大訓(xùn)練語料庫的整體規(guī)模。
還值得注意的是,合成數(shù)據(jù)集有時實際上優(yōu)于真實數(shù)據(jù)。這是什么原因呢?
數(shù)據(jù)是從現(xiàn)實世界收集的這一事實并不能保證它是 100% 準(zhǔn)確和高質(zhì)量的。一方面,現(xiàn)實世界的圖像數(shù)據(jù)通常必須由人工手動標(biāo)記,然后才能用于訓(xùn)練 AI 模型;這種數(shù)據(jù)標(biāo)記可能不準(zhǔn)確或不完整,從而降低 AI 的性能。另一方面,合成數(shù)據(jù)自動帶有完美的數(shù)據(jù)標(biāo)簽。此外,合成數(shù)據(jù)集可以比真實世界的數(shù)據(jù)集更大、更多樣化(畢竟這就是重點),這可以轉(zhuǎn)化為卓越的 AI 性能。
對于文本數(shù)據(jù),行業(yè)從業(yè)者已經(jīng)開始開發(fā)指標(biāo)來量化和基準(zhǔn)化合成數(shù)據(jù)的保真度。
例如,Gretel.ai 根據(jù)三個不同的統(tǒng)計嚴(yán)格指標(biāo)(場相關(guān)穩(wěn)定性、深層結(jié)構(gòu)穩(wěn)定性和場分布穩(wěn)定性)對其合成數(shù)據(jù)集進(jìn)行評分,并將其匯總以產(chǎn)生 0 到 100 之間的整體合成數(shù)據(jù)質(zhì)量分?jǐn)?shù)。簡而言之,這個總體數(shù)字代表“如果使用原始數(shù)據(jù)集,從合成數(shù)據(jù)集得出的科學(xué)結(jié)論是否相同的置信度得分。”
Gretel 的合成數(shù)據(jù)通常表現(xiàn)得很好:相對于在現(xiàn)實世界數(shù)據(jù)上訓(xùn)練的模型,基于它訓(xùn)練的 AI 模型的準(zhǔn)確度通常在幾個百分點之內(nèi),有時甚至更準(zhǔn)確。
合成數(shù)據(jù)初創(chuàng)公司 Syntegra 同樣提出了深思熟慮的分析框架,用于評估醫(yī)療保健環(huán)境中的合成數(shù)據(jù)保真度。
對于文本數(shù)據(jù),保真度和隱私之間存在一個基本的權(quán)衡:隨著合成數(shù)據(jù)越來越類似于它所基于的真實世界數(shù)據(jù),可以從合成數(shù)據(jù)中重建原始真實世界數(shù)據(jù)的風(fēng)險相應(yīng)增加數(shù)據(jù)。如果原始的真實數(shù)據(jù)是敏感的——比如醫(yī)療記錄或金融交易——這是一個問題。因此,合成文本數(shù)據(jù)的核心挑戰(zhàn)不僅僅是在真空中最大化保真度,而是在保護(hù)隱私的同時最大化保真度。
前方的路下圖說明了很多問題。據(jù) Gartner 稱,到 2030 年,合成數(shù)據(jù)將完全蓋過 AI 模型中的真實數(shù)據(jù)。
隨著合成數(shù)據(jù)在未來幾個月和幾年內(nèi)變得越來越普遍,它將對各個行業(yè)產(chǎn)生顛覆性影響。它將改變數(shù)據(jù)的經(jīng)濟(jì)學(xué)。
通過使高質(zhì)量的訓(xùn)練數(shù)據(jù)更容易獲得和負(fù)擔(dān)得起,合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的優(yōu)勢。
從歷史上看,無論是哪個行業(yè),為了了解人工智能的戰(zhàn)略動態(tài)和機(jī)遇,最重要的第一個問題是:誰擁有數(shù)據(jù)?近年來,谷歌、Facebook 和亞馬遜等科技巨頭取得如此市場主導(dǎo)地位的主要原因之一是其無與倫比的客戶數(shù)據(jù)量。
合成數(shù)據(jù)將改變這一點。通過大規(guī)模普及數(shù)據(jù)訪問,它將有助于公平競爭,使較小的新貴能夠與更成熟的參與者競爭,否則他們可能沒有機(jī)會挑戰(zhàn)。回到自動駕駛汽車的例子:谷歌(Waymo)已經(jīng)投入了數(shù)十億美元,并花費了十多年的時間來收集數(shù)百萬英里的真實駕駛數(shù)據(jù)。任何競爭對手都不太可能在這方面趕上他們。但如果生產(chǎn)級自動駕駛系統(tǒng)幾乎可以完全使用合成訓(xùn)練數(shù)據(jù)構(gòu)建,那么谷歌強(qiáng)大的數(shù)據(jù)優(yōu)勢就會消失,而像 Waabi 這樣的年輕初創(chuàng)公司就有合法的競爭機(jī)會。
合成數(shù)據(jù)興起的最終結(jié)果將是賦能全新一代的人工智能新貴,并通過降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。
合成數(shù)據(jù)擴(kuò)散的一個有趣的相關(guān)影響將是減少對數(shù)據(jù)標(biāo)記的需求和重要性,因為合成生成的數(shù)據(jù)不需要手動標(biāo)記。
數(shù)據(jù)標(biāo)記一直是現(xiàn)代機(jī)器學(xué)習(xí)中一個笨拙、不雅的部分。直覺上,真正的智能代理(如人類)不應(yīng)該需要手動將標(biāo)簽附加到他們觀察到的每個對象上以識別它們。
但由于在今天的 AI 范式下需要標(biāo)記數(shù)據(jù),數(shù)據(jù)標(biāo)記本身已經(jīng)成為一個龐大的產(chǎn)業(yè);許多公司每年花費數(shù)千萬或數(shù)億美元來標(biāo)記他們的數(shù)據(jù)。在令人瞠目結(jié)舌的收入增長中,領(lǐng)先的數(shù)據(jù)標(biāo)簽服務(wù)提供商 Scale AI 去年的估值為 73 億美元。一個由小型數(shù)據(jù)標(biāo)簽初創(chuàng)公司組成的完整生態(tài)系統(tǒng)也同樣出現(xiàn)了。
合成數(shù)據(jù)將威脅這些公司的生計。似乎認(rèn)識到這一點,Scale AI現(xiàn)在的目標(biāo)是進(jìn)入合成數(shù)據(jù)游戲本身,今年早些時候推出了一個名為 Scale Synthetic 的合成數(shù)據(jù)平臺。
合成數(shù)據(jù)技術(shù)將在未來幾年重塑人工智能世界,擾亂競爭格局并重新定義技術(shù)堆棧。它將通過民主化數(shù)據(jù)訪問來加速人工智能在社會中的傳播。它將成為我們?nèi)斯ぶ悄茯?qū)動的未來的關(guān)鍵催化劑。精通數(shù)據(jù)的個人、團(tuán)隊和組織應(yīng)注意。
本文作者:Rob Toews 是 Radical Ventures 的風(fēng)險投資家,該公司也是 Waabi 的投資者。
- 中國移動5G微功率數(shù)字直放站集采:三維通信、中信科移動等8家中標(biāo)
- 中國電信傅志仁:加速邁入以AIDC為核心的云網(wǎng)融合3.0新階段
- 昇思MindSpore核心貢獻(xiàn)者超3.7萬,下載用戶超1100萬
- 2024年裝機(jī)量超500萬套:openEuler開創(chuàng)中國開源新模式
- 為世界構(gòu)建新的選擇:華為計算產(chǎn)業(yè)2024年進(jìn)展顯著
- 利用物聯(lián)網(wǎng)和自動化的力量實現(xiàn)可持續(xù)建筑
- 立訊技術(shù)周小丹:發(fā)力低功耗AI光互聯(lián) 開發(fā)多款LPO/LRO新品
- 騰訊李方超:光電融合創(chuàng)新解決方案全力支持MegaScaleOut
- 新鮮出爐!烽火通信喜獲“FTTR技術(shù)創(chuàng)新獎”
- 喜訊!江波龍榮獲 “智能座艙技術(shù)創(chuàng)新獎”
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。