盡管人工智能 (AI) 由于指數(shù)級(jí)的發(fā)展而變得更加先進(jìn),但這種現(xiàn)代技術(shù)的局限性仍然存在。
那么,合成數(shù)據(jù)能否成為所有與人工智能相關(guān)的問題的解決方案?
在第四次工業(yè)革命中,每個(gè)行業(yè)都發(fā)現(xiàn)了現(xiàn)代技術(shù)的潛力;比如人工智能(AI)和機(jī)器學(xué)習(xí)(ML)。
幾乎所有其他組織都在部署 AI 以創(chuàng)建更高效的業(yè)務(wù)流程并確保更好的客戶滿意度。但是,初創(chuàng)公司、SOHO 和中小型企業(yè) (SMB) 在采用 AI 時(shí)面臨一個(gè)重大問題——這就是所謂的冷啟動(dòng)問題。雖然初創(chuàng)公司和中小企業(yè)一般沒有資源收集大數(shù)據(jù),但冷啟動(dòng)問題基本上是缺乏此類相關(guān)數(shù)據(jù)。
另一方面,行業(yè)巨頭已經(jīng)擁有資源來收集真實(shí)世界的數(shù)據(jù)并將這些數(shù)據(jù)應(yīng)用于訓(xùn)練他們的人工智能系統(tǒng)。因此,對(duì)中小型企業(yè)的勝算很大。在這種情況下,合成數(shù)據(jù)可能是必要的啟動(dòng)器。
合成數(shù)據(jù)可以成為數(shù)據(jù)驅(qū)動(dòng)的商業(yè)模式背后的驅(qū)動(dòng)力。此外,研究表明合成數(shù)據(jù)產(chǎn)生與真實(shí)數(shù)據(jù)相同的結(jié)果。與真實(shí)數(shù)據(jù)相比,合成數(shù)據(jù)被認(rèn)為更便宜且處理時(shí)間更短。因此,合成數(shù)據(jù)的出現(xiàn)可以平衡目前由大公司主導(dǎo)的競(jìng)爭(zhēng)環(huán)境,有利于中小企業(yè)和初創(chuàng)公司。
發(fā)現(xiàn)合成數(shù)據(jù)的好處合成數(shù)據(jù)是基于用戶指定參數(shù)的計(jì)算機(jī)生成的人工數(shù)據(jù),以確保數(shù)據(jù)盡可能接近真實(shí)世界的歷史數(shù)據(jù)。通常,Unreal 引擎和 Unity 等游戲引擎通常用作模擬環(huán)境,用于測(cè)試和訓(xùn)練基于 AI 的應(yīng)用,例如自動(dòng)駕駛汽車?;诤铣蓴?shù)據(jù)開發(fā)人工智能驅(qū)動(dòng)的應(yīng)用程序有很多優(yōu)勢(shì)。其中一些優(yōu)勢(shì)包括:
1.開發(fā)原型
查找、聚合和建模大量相關(guān)的真實(shí)數(shù)據(jù)是一個(gè)乏味的過程。因此,生成合成數(shù)據(jù)可能是最佳解決方案。此類數(shù)據(jù)將能夠在大規(guī)模生產(chǎn)之前構(gòu)建原型并測(cè)試此類原型以獲得所需的結(jié)果。與真實(shí)數(shù)據(jù)相比,使用合成數(shù)據(jù)構(gòu)建原型更高效、更具成本效益。非營(yíng)利性人工智能研究公司 Open AI 正在開發(fā)大量基于人工智能的應(yīng)用。在這些應(yīng)用中,研究人員開發(fā)了用合成數(shù)據(jù)訓(xùn)練的機(jī)器人,可以在看到一個(gè)動(dòng)作只執(zhí)行一次后學(xué)習(xí)一項(xiàng)新任務(wù)。一家美國(guó)加州科技初創(chuàng)公司正在開發(fā)一個(gè)人工智能平臺(tái),其愿景類似于 Amazon Go。這家初創(chuàng)公司旨在借助合成數(shù)據(jù)為便利店和零售商提供免結(jié)賬解決方案。他們還引入了人工智能驅(qū)動(dòng)的智能系統(tǒng)來監(jiān)控商店中的每一位購物者,以識(shí)別和分析他們的學(xué)習(xí)模式。
2. 確保數(shù)據(jù)隱私
2018 年 11 月,5 億萬豪客戶在一次備受矚目的數(shù)據(jù)泄露事件中受到影響。在這 5 億人中,有 3.27 億用戶的護(hù)照信息、電子郵件地址、郵寄地址和信用卡信息等數(shù)據(jù)被盜。由于此類事件,人們擔(dān)心其數(shù)據(jù)的安全性和隱私性。
合成數(shù)據(jù)可以有效地解決此類隱私問題。合成數(shù)據(jù)不包括任何個(gè)人數(shù)據(jù)。因此,可以輕松確保數(shù)據(jù)隱私。合成數(shù)據(jù)在為醫(yī)療保健應(yīng)用訓(xùn)練 AI 系統(tǒng)方面非常有用。人工智能系統(tǒng)通常需要真實(shí)的患者數(shù)據(jù)。這威脅到患者的隱私。合成數(shù)據(jù)允許在醫(yī)療保健領(lǐng)域開發(fā)先進(jìn)的人工智能應(yīng)用程序,同時(shí)保持患者的機(jī)密性。
例如,來自 Nvidia 的研究人員正在與明尼蘇達(dá)州的 Mayo Clinic 以及波士頓的 MGH 和 BWH 臨床數(shù)據(jù)科學(xué)中心合作,正在使用生成對(duì)抗網(wǎng)絡(luò)來生成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的合成數(shù)據(jù)。生成的合成數(shù)據(jù)包含來自阿爾茨海默病神經(jīng)影像學(xué)倡議數(shù)據(jù)集的 3,400 個(gè) MRI 和來自多模態(tài)腦腫瘤圖像分割基準(zhǔn)數(shù)據(jù)集的 200 個(gè) 4D 腦 MRI 和腫瘤。同樣,模擬 X 射線也可以與實(shí)際 X 射線一起使用,以訓(xùn)練 AI 系統(tǒng)識(shí)別多種健康狀況。
3. 前所未有的場(chǎng)景測(cè)試和訓(xùn)練
開發(fā) AI 驅(qū)動(dòng)的應(yīng)用最重要的過程之一是測(cè)試系統(tǒng)性能。如果系統(tǒng)沒有產(chǎn)生所需的輸出,則需要對(duì)其進(jìn)行重新訓(xùn)練。在這種情況下,合成數(shù)據(jù)可以證明是有益的。合成數(shù)據(jù)可以生成場(chǎng)景來測(cè)試 AI 系統(tǒng),而不是使用真實(shí)數(shù)據(jù)或在真實(shí)環(huán)境中測(cè)試系統(tǒng)。這種方法比獲取真實(shí)數(shù)據(jù)便宜且耗時(shí)更少。
同樣,合成數(shù)據(jù)還可以針對(duì)未來可能出現(xiàn)的缺乏真實(shí)數(shù)據(jù)或事件的場(chǎng)景訓(xùn)練新的或現(xiàn)有的系統(tǒng)。通過這種方法,研究人員可以開發(fā)更具未來感的人工智能應(yīng)用。此外,使用合成數(shù)據(jù)重新訓(xùn)練 AI 系統(tǒng)更簡(jiǎn)單,因?yàn)樯珊铣蓴?shù)據(jù)比收集準(zhǔn)確的真實(shí)數(shù)據(jù)要簡(jiǎn)單。
由于這些好處,合成數(shù)據(jù)已成為測(cè)試和訓(xùn)練自動(dòng)駕駛汽車的一種可訪問的替代方案。許多自動(dòng)駕駛汽車開發(fā)人員正在使用 GTA V 等模擬游戲環(huán)境來訓(xùn)練他們的基于人工智能的系統(tǒng)。同樣,May Mobility 正在通過使用合成數(shù)據(jù)訓(xùn)練他們的車輛來構(gòu)建自動(dòng)駕駛微型交通服務(wù)。
另一家名為 Waymo 的自動(dòng)駕駛汽車開發(fā)商已經(jīng)通過在模擬道路上行駛 50 億英里和在真實(shí)道路上再行駛 800 萬英里來測(cè)試其自動(dòng)駕駛汽車。合成數(shù)據(jù)方法允許開發(fā)人員在模擬道路上測(cè)試他們的自動(dòng)駕駛汽車,這比在實(shí)際道路上直接測(cè)試要安全得多。
4. 提高數(shù)據(jù)靈活性
獲取真實(shí)數(shù)據(jù)是一個(gè)乏味的過程,包括支付注釋費(fèi)用并確保避免任何侵犯版權(quán)的行為。此外,真實(shí)數(shù)據(jù)只能用于在特定領(lǐng)域具有足夠歷史數(shù)據(jù)的特定場(chǎng)景。與真實(shí)數(shù)據(jù)不同,合成數(shù)據(jù)可以立即呈現(xiàn)對(duì)象、場(chǎng)景、事件和人員的任意組合。合成數(shù)據(jù)可以生成能夠發(fā)現(xiàn)利基應(yīng)用的通用數(shù)據(jù)集。因此,研究人員可以利用合成數(shù)據(jù)探索無限的可能性。幾家初創(chuàng)公司通過開發(fā)滿足客戶要求的訓(xùn)練數(shù)據(jù)集,創(chuàng)造了開放的數(shù)據(jù)經(jīng)濟(jì)。
5. 探索合成數(shù)據(jù)的局限性
盡管合成數(shù)據(jù)可以幫助 AI 到達(dá)未被發(fā)現(xiàn)的領(lǐng)域,但其局限性可能成為其主流部署的主要障礙。對(duì)于初學(xué)者來說,合成數(shù)據(jù)模擬了真實(shí)世界數(shù)據(jù)的多個(gè)屬性,但它不會(huì)完全復(fù)制原始數(shù)據(jù)。在對(duì)此類合成數(shù)據(jù)進(jìn)行建模時(shí),人工智能系統(tǒng)只會(huì)在真實(shí)數(shù)據(jù)中尋找共同的趨勢(shì)和情況。因此,現(xiàn)實(shí)世界數(shù)據(jù)中極端案例中包含的罕見場(chǎng)景可能永遠(yuǎn)不會(huì)包含在合成數(shù)據(jù)中。
此外,研究人員尚未開發(fā)出一種機(jī)制來檢查數(shù)據(jù)是否準(zhǔn)確。發(fā)現(xiàn)真實(shí)數(shù)據(jù)中的缺陷并減少它們比使用合成數(shù)據(jù)更簡(jiǎn)單。人工智能驅(qū)動(dòng)的系統(tǒng)已經(jīng)有陰暗面這會(huì)助長(zhǎng)無意的偏見。使用合成數(shù)據(jù),預(yù)測(cè)這種偏見的范圍和影響可能還為時(shí)過早。
6. 克服挑戰(zhàn)
企業(yè)組織需要了解合成數(shù)據(jù)是一個(gè)相當(dāng)新的發(fā)現(xiàn)。此類數(shù)據(jù)的效率和準(zhǔn)確性尚未根據(jù)當(dāng)前的行業(yè)標(biāo)準(zhǔn)進(jìn)行評(píng)估。因此,合成數(shù)據(jù)不應(yīng)被視為獨(dú)立的數(shù)據(jù)源。尤其是在面臨安全問題的應(yīng)用中,例如醫(yī)療保健應(yīng)用和自動(dòng)駕駛汽車,合成數(shù)據(jù)必須與現(xiàn)實(shí)世界數(shù)據(jù)相結(jié)合,以開發(fā) AI 系統(tǒng)。但零售業(yè)的應(yīng)用具有較低的風(fēng)險(xiǎn)因素,很容易依賴合成數(shù)據(jù)。
出于測(cè)試目的,合成數(shù)據(jù)是一種可行且成本低廉的解決方案。但是,出于其他目的,在采用合成數(shù)據(jù)作為獨(dú)立解決方案之前,需要徹底研究和分析人工智能系統(tǒng)的結(jié)果。隨著進(jìn)一步的研究,合成數(shù)據(jù)對(duì)于多種操作可能會(huì)變得更加可靠。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 國(guó)家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進(jìn)工業(yè)5G獨(dú)立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C(jī)市場(chǎng)
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報(bào)告:人工智能推動(dòng)數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報(bào)|馬斯克預(yù)測(cè):人工智能或?qū)⒊絾蝹€(gè)人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動(dòng)鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動(dòng)因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。