本文作者:Gil Elbaz 是Datagen的 CTO 和聯(lián)合創(chuàng)始人
對(duì)于基礎(chǔ)設(shè)施而言,真正偉大的標(biāo)志是被它飛行容易被忽視。其表現(xiàn)得越好,我們考慮的就越少。例如,移動(dòng)基礎(chǔ)設(shè)施只有在我們發(fā)現(xiàn)自己難以連接時(shí),它的重要性才會(huì)浮現(xiàn)在我們的腦海中。正如當(dāng)我們?cè)谝粭l嶄新的、剛剛鋪好路面的高速公路上行駛時(shí),我們很少考慮路面,因?yàn)樗o靜地從我們的車輪下駛過(guò)。另一方面,一條養(yǎng)護(hù)不善的高速公路,我們遇到的每一個(gè)坑洼、草皮和崎嶇不平的路面,都會(huì)讓我們想起它的存在。
基礎(chǔ)設(shè)施只有在缺失、不足或損壞時(shí)才需要我們的關(guān)注。而在計(jì)算機(jī)視覺領(lǐng)域,基礎(chǔ)設(shè)施——或者更確切地說(shuō),它所缺少的東西——是目前許多人所關(guān)心的。
計(jì)算設(shè)定了基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)支撐每個(gè)AI/ML項(xiàng)目(包括計(jì)算機(jī)視覺)的是三個(gè)基本的開發(fā)支柱——數(shù)據(jù)、算法/模型和計(jì)算。在這三大支柱中,計(jì)算是迄今為止擁有最強(qiáng)大和最牢固基礎(chǔ)設(shè)施的一個(gè)。憑借數(shù)十年的專注企業(yè)投資和開發(fā),云計(jì)算已成為整個(gè)企業(yè) IT 環(huán)境中 IT 基礎(chǔ)設(shè)施的黃金標(biāo)準(zhǔn)——計(jì)算機(jī)視覺也不例外。
在“基礎(chǔ)設(shè)施即服務(wù)”模式下,近 20 年來(lái),開發(fā)人員一直享受按需、即付即用的方式訪問(wèn)不斷擴(kuò)大的計(jì)算能力管道。在此期間,它通過(guò)顯著提高敏捷性、成本效率、可擴(kuò)展性等,徹底改變了企業(yè) IT。隨著專用機(jī)器學(xué)習(xí) GPU 的出現(xiàn),可以肯定地說(shuō),計(jì)算機(jī)視覺基礎(chǔ)設(shè)施堆棧的這一部分是生機(jī)勃勃的。如果我們希望看到計(jì)算機(jī)視覺和 AI 充分發(fā)揮其潛力,明智的做法是使用計(jì)算作為 CV 基礎(chǔ)設(shè)施堆棧其余部分所基于的模型。
模型驅(qū)動(dòng)開發(fā)的沿襲和局限性直到最近,算法和模型開發(fā)一直是計(jì)算機(jī)視覺和人工智能發(fā)展的驅(qū)動(dòng)力。在研究和商業(yè)開發(fā)方面,團(tuán)隊(duì)辛勤工作多年,測(cè)試、修補(bǔ)和逐步改進(jìn) AI/ML 模型,并在Kaggle等開源社區(qū)分享他們的進(jìn)步。通過(guò)集中精力在算法開發(fā)和建模上,計(jì)算機(jī)視覺和人工智能領(lǐng)域在新千年的前二十年取得了長(zhǎng)足的進(jìn)步。
然而,近年來(lái),這種進(jìn)展已經(jīng)放緩,因?yàn)橐阅P蜑橹行牡膬?yōu)化違背了收益遞減規(guī)律。此外,以模型為中心的方法有幾個(gè)限制。例如,你不能使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練,然后再對(duì)模型進(jìn)行訓(xùn)練。在數(shù)據(jù)清理、模型驗(yàn)證和訓(xùn)練方面,以模型為中心的方法還需要更多的體力勞動(dòng),這可能會(huì)占用寶貴的時(shí)間和資源來(lái)完成更具創(chuàng)新性的創(chuàng)收任務(wù)。
如今,通過(guò)Hugging Face等社區(qū),CV 團(tuán)隊(duì)可以免費(fèi)和開放地訪問(wèn)大量復(fù)雜的大型算法、模型和架構(gòu),每個(gè)都支持不同的核心 CV 能力——從對(duì)象識(shí)別和面部地標(biāo)識(shí)別到姿勢(shì)估計(jì)和特征匹配。這些資產(chǎn)已經(jīng)變得與人們想象的一樣接近“現(xiàn)成”的解決方案——為計(jì)算機(jī)視覺和人工智能團(tuán)隊(duì)提供現(xiàn)成的白板,以針對(duì)任何數(shù)量的專業(yè)任務(wù)和用例進(jìn)行訓(xùn)練。
就像手眼協(xié)調(diào)這樣的基本人類能力可以應(yīng)用于各種不同的技能并進(jìn)行訓(xùn)練——從打乒乓球到投球——這些現(xiàn)代 ML 算法也可以被訓(xùn)練來(lái)執(zhí)行一個(gè)范圍的具體應(yīng)用。然而,雖然人類通過(guò)多年的實(shí)踐和汗水變得專業(yè)化,但機(jī)器通過(guò)數(shù)據(jù)訓(xùn)練做到了這一點(diǎn)。
以數(shù)據(jù)為中心的人工智能和大數(shù)據(jù)瓶頸這促使許多人工智能領(lǐng)域的領(lǐng)軍人物呼吁進(jìn)入深度學(xué)習(xí)發(fā)展的新時(shí)代——在這個(gè)時(shí)代,進(jìn)步的主要引擎是數(shù)據(jù)。就在幾年前,吳恩達(dá)(Andrew Ng)等人宣布以數(shù)據(jù)為中心是AI發(fā)展的方向。在這短暫的時(shí)間里,該行業(yè)蓬勃發(fā)展。在短短幾年時(shí)間里,涌現(xiàn)了大量計(jì)算機(jī)視覺的新穎商業(yè)應(yīng)用和用例,涵蓋了廣泛的行業(yè)——從機(jī)器人和AR/VR,到汽車制造和家庭安全。最近,我們使用以數(shù)據(jù)為中心的方法對(duì)汽車上的手握方向盤檢測(cè)進(jìn)行了研究。我們的實(shí)驗(yàn)表明,通過(guò)使用這種方法和合成數(shù)據(jù),我們能夠識(shí)別并生成訓(xùn)練數(shù)據(jù)集中缺乏的特定邊緣情況。
雖然計(jì)算機(jī)視覺行業(yè)對(duì)數(shù)據(jù)議論紛紛,但并不是所有的議論都是狂熱的。盡管該領(lǐng)域已經(jīng)確定了數(shù)據(jù)是前進(jìn)的道路,但在前進(jìn)的道路上還有許多障礙和陷阱,其中許多已經(jīng)讓CV團(tuán)隊(duì)步履蹣跚。最近一項(xiàng)針對(duì)美國(guó)計(jì)算機(jī)視覺專業(yè)人士的調(diào)查顯示,這一領(lǐng)域飽受長(zhǎng)時(shí)間項(xiàng)目延誤、非標(biāo)準(zhǔn)化流程和資源短缺的困擾——所有這些都源于數(shù)據(jù)。在同一項(xiàng)調(diào)查中,99% 的受訪者表示,至少有一個(gè)CV項(xiàng)目因?yàn)橛?xùn)練數(shù)據(jù)不足而被無(wú)限期取消。即使是迄今為止避免了項(xiàng)目被取消的1%的幸運(yùn)兒,也無(wú)法避免項(xiàng)目延遲。在調(diào)查中,每個(gè)受訪者都報(bào)告說(shuō),由于訓(xùn)練數(shù)據(jù)不充分或不足,他們經(jīng)歷了重大的項(xiàng)目延誤,其中80%的人報(bào)告延誤持續(xù)了3個(gè)月或更長(zhǎng)時(shí)間。最終,基礎(chǔ)設(shè)施的目的是一種效用——促進(jìn)、加速或傳達(dá)。在一個(gè)嚴(yán)重延誤只是做生意的一部分的世界里,很明顯缺少一些重要的基礎(chǔ)設(shè)施。
傳統(tǒng)訓(xùn)練數(shù)據(jù)挑戰(zhàn)基礎(chǔ)設(shè)施然而,與計(jì)算和算法不同,AI/ML 開發(fā)的第三個(gè)支柱并不適合基礎(chǔ)設(shè)施化——尤其是在計(jì)算機(jī)視覺領(lǐng)域,在該領(lǐng)域,數(shù)據(jù)量大、雜亂無(wú)章,而且收集和管理時(shí)間和資源都非常密集。雖然有許多標(biāo)記的、可在線免費(fèi)獲得的視覺訓(xùn)練數(shù)據(jù)數(shù)據(jù)庫(kù)(例如現(xiàn)在著名的 ImageNet 數(shù)據(jù)庫(kù)),但事實(shí)證明,它們本身不足以作為商業(yè) CV 開發(fā)中訓(xùn)練數(shù)據(jù)的來(lái)源。
這是因?yàn)?,與通過(guò)設(shè)計(jì)概括的模型不同,訓(xùn)練數(shù)據(jù)就其本質(zhì)而言是特定于應(yīng)用的。數(shù)據(jù)是將給定模型的一個(gè)應(yīng)用與另一個(gè)應(yīng)用區(qū)分開來(lái)的東西,因此不僅對(duì)于特定任務(wù),而且對(duì)于執(zhí)行該任務(wù)的環(huán)境或上下文必須是唯一的。與可以以光速生成和訪問(wèn)的計(jì)算能力不同,傳統(tǒng)的視覺數(shù)據(jù)必須由人類創(chuàng)建或收集(通過(guò)在現(xiàn)場(chǎng)拍攝照片或在互聯(lián)網(wǎng)上搜索合適的圖像),然后經(jīng)過(guò)精心清理和由人工標(biāo)記(這是一個(gè)容易出現(xiàn)人為錯(cuò)誤、不一致和偏見的過(guò)程)。
這就提出了一個(gè)問(wèn)題,“我們?nèi)绾尾拍苤谱骷冗m用于特定應(yīng)用又易于商品化(即快速、廉價(jià)和多功能)的可視化數(shù)據(jù)?”盡管這兩種品質(zhì)似乎相互矛盾,但潛在的解決方案已經(jīng)出現(xiàn);作為調(diào)和這兩種基本但看似不相容的品質(zhì)的一種方式,它顯示出巨大的希望。
合成數(shù)據(jù)和完整 CV 堆棧的路徑計(jì)算機(jī)視覺(CV)是現(xiàn)代人工智能的領(lǐng)先領(lǐng)域之一
制作具有特定應(yīng)用且大規(guī)模節(jié)省時(shí)間和資源的可視化訓(xùn)練數(shù)據(jù)的唯一方法是使用合成數(shù)據(jù)。對(duì)于那些不熟悉這個(gè)概念的人來(lái)說(shuō),合成數(shù)據(jù)是人為生成的信息,旨在忠實(shí)地代表一些現(xiàn)實(shí)世界的對(duì)等物。就視覺合成數(shù)據(jù)而言,這意味著以靜態(tài)圖像或視頻形式的逼真的計(jì)算機(jī)生成的3D圖像(CGI)。
為了應(yīng)對(duì)數(shù)據(jù)中心時(shí)代出現(xiàn)的許多問(wèn)題,一個(gè)新興的行業(yè)已經(jīng)開始圍繞合成數(shù)據(jù)生成形成——一個(gè)不斷壯大的生態(tài)系統(tǒng),由中小型初創(chuàng)公司提供各種解決方案,利用合成數(shù)據(jù)來(lái)解決上面列出的一系列痛點(diǎn)。
這些解決方案中最有前途的解決方案使用 AI/ML 算法生成逼真的 3D 圖像,并為每個(gè)數(shù)據(jù)點(diǎn)自動(dòng)生成相關(guān)的地面實(shí)況(即元數(shù)據(jù))。因此,合成數(shù)據(jù)消除了通常長(zhǎng)達(dá)數(shù)月的手動(dòng)標(biāo)記和注釋過(guò)程,同時(shí)也消除了人為錯(cuò)誤和偏見的可能性。
在我們的論文(在 NeurIPS 2021 上發(fā)表)中,使用合成數(shù)據(jù)發(fā)現(xiàn)面部地標(biāo)檢測(cè)中的群體偏差,我們發(fā)現(xiàn)要分析經(jīng)過(guò)訓(xùn)練的模型性能并確定其弱點(diǎn),必須留出一部分?jǐn)?shù)據(jù)進(jìn)行測(cè)試。測(cè)試集必須足夠大,以檢測(cè)關(guān)于目標(biāo)人群中所有相關(guān)子組的統(tǒng)計(jì)顯著偏差。這一要求可能難以滿足,尤其是在數(shù)據(jù)密集型應(yīng)用中。
我們建議通過(guò)生成合成測(cè)試集來(lái)克服這一困難。我們使用人臉標(biāo)志檢測(cè)任務(wù)來(lái)驗(yàn)證我們的提議,方法是顯示在真實(shí)數(shù)據(jù)集上觀察到的所有偏差也可以在精心設(shè)計(jì)的合成數(shù)據(jù)集上看到。這表明合成測(cè)試集可以有效地檢測(cè)模型的弱點(diǎn)并克服真實(shí)測(cè)試集在數(shù)量或多樣性方面的限制。
如今,初創(chuàng)公司正在向企業(yè) CV 團(tuán)隊(duì)提供成熟的自助合成數(shù)據(jù)生成平臺(tái),以減輕偏見并允許擴(kuò)展數(shù)據(jù)采集。這些平臺(tái)允許企業(yè) CV 團(tuán)隊(duì)在計(jì)量、按需的基礎(chǔ)上生成特定于用例的訓(xùn)練數(shù)據(jù)——彌合使傳統(tǒng)數(shù)據(jù)不適用于基礎(chǔ)設(shè)施化的特異性和規(guī)模之間的差距。
計(jì)算機(jī)視覺所謂的“數(shù)據(jù)管理員”的新希望不可否認(rèn),這對(duì)于計(jì)算機(jī)視覺領(lǐng)域來(lái)說(shuō)是一個(gè)激動(dòng)人心的時(shí)刻。但是,就像任何其他不斷變化的領(lǐng)域一樣,這也是一個(gè)充滿挑戰(zhàn)的時(shí)代。杰出的人才和才華橫溢的頭腦涌入充滿想法和熱情的領(lǐng)域,卻發(fā)現(xiàn)自己因缺乏足夠的數(shù)據(jù)管道而受阻。該領(lǐng)域深陷低效率的泥潭,以至于今天的數(shù)據(jù)科學(xué)家被稱為“數(shù)據(jù)看門人”,最早由 Steve Lohr 早在 2014 年就被描述為“數(shù)據(jù)看門人”,自那以后,這些低效率流程的頑固持續(xù)性一直延續(xù)至今。
對(duì)于三分之一的組織已經(jīng)在與技能差距作斗爭(zhēng)的領(lǐng)域,我們不能浪費(fèi)寶貴的人力資源。
合成數(shù)據(jù)為真正的訓(xùn)練數(shù)據(jù)基礎(chǔ)設(shè)施打開了大門——有一天,它可能只需要打開水龍頭喝一杯水或提供計(jì)算就可以了。對(duì)于世界上的數(shù)據(jù)管理員來(lái)說(shuō),這肯定是一種受歡迎的茶點(diǎn)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 國(guó)家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進(jìn)工業(yè)5G獨(dú)立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C(jī)市場(chǎng)
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報(bào)告:人工智能推動(dòng)數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報(bào)|馬斯克預(yù)測(cè):人工智能或?qū)⒊絾蝹€(gè)人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動(dòng)鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動(dòng)因違規(guī)套現(xiàn)等問(wèn)題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。