在舊金山的 Showplace 廣場,一棟曾經(jīng)屬于Airbnb的商業(yè)大樓最近迎來了新主人。在大部分科技公司都在業(yè)務(wù)收縮的當(dāng)下,ScaleAI,這家由95后華人創(chuàng)立的人工智能數(shù)據(jù)標(biāo)注公司,大手一揮租下了舊金山市中心約18萬平英尺的辦公室。
就在不久前,Scale AI完成了最新一輪10億美元的融資,估值達到138億美元,比上一輪的73億美元再翻了一倍。在這輪由硅谷頂級基金Accel領(lǐng)投的F輪融資中,除了YC、英偉達等現(xiàn)有投資者之外,還加入了一長串的新投資者名單,包括:亞馬遜、Meta、AMD、高通、思科、英特爾、高通等等,參與機構(gòu)高達22個。
而這些巨頭投資Scale AI的出發(fā)點大多相似——它們基本都是Scale AI的客戶。在AI飛速發(fā)展的當(dāng)下,數(shù)據(jù)標(biāo)記,這個看似簡單無趣、勞動密集的低門檻業(yè)務(wù),卻被Scale AI一步一步地做成了一個大生意。
AI“藍領(lǐng)工廠”
在過去的一段時間里,提起“AI賣鏟人”,英偉達無疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演著同樣的角色。眾所周知,算力、算法和數(shù)據(jù)構(gòu)成了人工智能的三大支柱,英偉達占據(jù)著AI算力的山峰,Scale AI則是當(dāng)前為AI提供數(shù)據(jù)支撐的最主要服務(wù)商。
Scale AI 成立于2016,其創(chuàng)始人是生于1997年的華人Alexandr Wang,創(chuàng)立公司時年僅19歲,在MIT剛讀完大一。Scale創(chuàng)立之初主要專注于人工智能數(shù)據(jù)標(biāo)注,核心業(yè)務(wù)是幫助企業(yè)收集、清理、標(biāo)注、以及管理大規(guī)模的高質(zhì)量數(shù)據(jù),以便訓(xùn)練和優(yōu)化機器學(xué)習(xí)模型。
實際上,在Scale AI崛起之前,數(shù)據(jù)標(biāo)注在AI領(lǐng)域?qū)嶋H上長期處于“邊緣”位置。所謂的數(shù)據(jù)標(biāo)注,是指為圖像、文本、視頻或音頻等原始數(shù)據(jù)添加結(jié)構(gòu)化信息,以便機器學(xué)習(xí)模型能夠理解和學(xué)習(xí)這些數(shù)據(jù)的過程。聽起來好像很復(fù)雜?但其實這是個小學(xué)生都能做的事情,比如給你一張圖片,讓你標(biāo)出圖片中的行人、車輛、建筑等,給你一段文本,讓你標(biāo)寫哪些感嘆句、哪些是疑問句,給你一段語音讓你打上情緒或說話者身份標(biāo)簽等等。
雖然原理很簡單,但這些經(jīng)過標(biāo)注的數(shù)據(jù)對于人工智能的發(fā)展不可或缺。AI模型需要大量的標(biāo)注數(shù)據(jù)來進行學(xué)習(xí),才能具備識別、分類和預(yù)測等功能。
但讓眾多AI公司頭疼的地方是,盡管一些自動化工具可以加快部分標(biāo)注過程,但為了得到高質(zhì)量、高精確度的標(biāo)注數(shù)據(jù),仍然需要大量的人工來處理、標(biāo)記和驗證數(shù)據(jù)。特別是在高精度要求的領(lǐng)域,如醫(yī)學(xué)影像、自動駕駛或JS應(yīng)用,錯誤標(biāo)注可能會導(dǎo)致嚴(yán)重的后果。也正因如此,數(shù)據(jù)標(biāo)注被認(rèn)為是一個勞動密集型業(yè)務(wù),很多公司不愿意也沒有精力去自己管理,導(dǎo)致標(biāo)注數(shù)據(jù)的獲取的過程既耗時又昂貴。
Scale AI攬下了這個“辛苦活”。Scale AI 的早期定位是要通過結(jié)合自動化技術(shù)與人力審核,創(chuàng)建一個高效、精確的標(biāo)注平臺,幫助企業(yè)快速處理和標(biāo)注大規(guī)模的數(shù)據(jù)集。它的業(yè)務(wù)模式很簡單:接洽到有標(biāo)記需求的公司,對數(shù)據(jù)進行簡單的預(yù)處理和清洗之后,將其外包給非洲、東南亞等勞工對數(shù)據(jù)進行標(biāo)記。
2017年,Scale AI 成立了 Remotasks 作為其內(nèi)部外包機構(gòu),在肯尼亞、菲律賓、委內(nèi)瑞拉等地設(shè)立了幾十家機構(gòu),在各地培訓(xùn)了成千上萬的數(shù)據(jù)標(biāo)注員,這些標(biāo)注員的工作大部分都是按件計酬,一次標(biāo)注的收入低至幾美分,很多合約工在時薪甚至不到1美元。而在這樣的“全球工廠”模式下,Scale AI的毛利率卻能長期保持在65%以上。
踩中每一次風(fēng)口
雖然數(shù)據(jù)標(biāo)注看上去是一個低門檻的業(yè)務(wù),但在2016年前后的“AI沉寂期”中卻幾乎是一個市場空白,只有谷歌、亞馬遜等一些大公司有自己的數(shù)據(jù)標(biāo)注部門。而Scale AI 的成功很大程度上得益于它精準(zhǔn)地洞察到了這一機遇并且抓住了近10年來人工智能行業(yè)發(fā)展的幾次風(fēng)口。
首先是自動駕駛。在Scale AI成立幾個月后,他們就發(fā)現(xiàn)了自動駕駛領(lǐng)域?qū)τ跀?shù)據(jù)標(biāo)注的大規(guī)模和剛性需求。自動駕駛技術(shù)的發(fā)展依賴于大量高精度的標(biāo)注數(shù)據(jù),例如道路場景、行人和其他物體的圖像數(shù)據(jù),車企需要成千上萬小時的視頻數(shù)據(jù)進行標(biāo)注來訓(xùn)練和驗證其算法,就整個自動駕駛行業(yè)來看,當(dāng)時90%以上的數(shù)據(jù)標(biāo)注都是以人工為主。Scale AI 通過高效的數(shù)據(jù)標(biāo)注平臺,以及使用模型輔助標(biāo)注和數(shù)據(jù)預(yù)處理來加速數(shù)據(jù)處理流程,進而大幅降低了標(biāo)注成本和時間,吸引了當(dāng)時風(fēng)頭正盛的Waymo、Cruise等企業(yè)成為了它的客戶,進而逐漸在自動駕駛數(shù)據(jù)標(biāo)注領(lǐng)域站穩(wěn)腳跟。
在自動駕駛領(lǐng)域初嘗甜頭之后,Scale AI開始全面進軍AIaaS(AI 即服務(wù))市場。它從單純的數(shù)據(jù)標(biāo)記延伸到數(shù)據(jù)服務(wù),提供從數(shù)據(jù)標(biāo)記和管理、模型訓(xùn)練和評估,再到AI 應(yīng)用開發(fā)和部署的全流程解決方案。
此外,為了應(yīng)對某些行業(yè)數(shù)據(jù)不足的挑戰(zhàn),Scale AI還向下游延伸到合成數(shù)據(jù)的生成,通過從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的數(shù)據(jù)集,幫助訓(xùn)練模型。于是在之后的幾年里,Scale AI在數(shù)據(jù)領(lǐng)域迅速崛起,客戶也擴展到了醫(yī)療、國防、電商、政府服務(wù)等領(lǐng)域。在成立兩年多之后,Scale AI的營收已經(jīng)接近5000萬美元。
Scale AI還精準(zhǔn)地把握了生成式 AI爆發(fā)的機遇。早在GPT-2上,Scale就與 OpenAI 就進行了首次帶有人類反饋的強化學(xué)習(xí)合作實驗,接著將這些技術(shù)擴展到InstructGPT及其他領(lǐng)域。而由于生成式 AI 模型需要海量的訓(xùn)練數(shù)據(jù)來提升其生成內(nèi)容的準(zhǔn)確性和多樣性,大語言模型的爆發(fā)式增長極大地推動了整個行業(yè)對高質(zhì)量標(biāo)注數(shù)據(jù)的需求,Scale AI 通過整合數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成等服務(wù),為生成式 AI 提供了必要的數(shù)據(jù)支持。此外,Scale AI還幫助企業(yè)快速生成定制化的 API,以減少了自行訓(xùn)練模型的復(fù)雜性和成本。
針對生成式AI,Scale目前已經(jīng)推出了全流程的平臺服務(wù),包括開發(fā)者工具平臺 Scale Spellbook、合成數(shù)據(jù)產(chǎn)品 Scale Synthetic、企業(yè)級GenAI平臺等,目標(biāo)是讓企業(yè)在每一個場景下都有足夠的數(shù)據(jù)來支持模型的訓(xùn)練,憑借著在數(shù)據(jù)領(lǐng)域的獨特優(yōu)勢,過去兩年,Scale AI的客戶激增,既有OpenAI、Meta、AWS、英偉達這樣的巨頭,也有Cohere、Adept等這樣的新興獨角獸。而他們中的很多,也在這一輪融資中成為了Scale AI的投資者。
為什么是Scale AI突圍
關(guān)于Scale AI的崛起,很多人都很疑問,對于這樣一個處于AI上游且勞動密集的行業(yè),中國似乎具有先天的優(yōu)勢,為什么沒有類似的企業(yè)脫穎而出?總體來看,這背后主要有兩方面的因素,一是行業(yè),二是融資。
在生成式AI熱潮之前,國內(nèi)的人工智能發(fā)展在場景應(yīng)用方面一度領(lǐng)先,數(shù)據(jù)標(biāo)注業(yè)務(wù)其實很早就起步發(fā)展了,但并沒有形成規(guī)模。很多龍頭企業(yè)雖然成立了數(shù)據(jù)標(biāo)注部門,但主要是來為自身業(yè)務(wù)服務(wù),而并不是尋求將數(shù)據(jù)與各個行業(yè)進行資源匹配。同時,正因為國內(nèi)的人口紅利,讓標(biāo)注后的數(shù)據(jù)獲取成本低廉,也讓企業(yè)并沒有動力去采用技術(shù)平臺。據(jù)了解,長期以來,國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)的價格都很透明, 時薪普遍在10-25人民幣左右且大多沒有學(xué)歷限制。
而相較而言,美國人力成本高昂,在LinkedIn、indeed等平臺上,數(shù)據(jù)標(biāo)注的兼職時薪大多都在30-200美元之間,這在客觀上就要求企業(yè)需要從技術(shù)的角度去思考解決數(shù)據(jù)生產(chǎn)問題,或者采購相關(guān)服務(wù)。
從融資環(huán)境來看,國內(nèi)的數(shù)據(jù)標(biāo)注市場一直都處于AI領(lǐng)域的融資邊緣地帶。2021年左右,研究估計中國整個數(shù)據(jù)標(biāo)注市場的規(guī)模僅為43億人民幣,2022年僅增長至51億人民幣。這個數(shù)字相較于整個AI市場的千萬億規(guī)模無疑不值一提,也造成了數(shù)據(jù)標(biāo)注公司的融資困難。2021年,當(dāng)Scale AI已經(jīng)完成3.25億美元的E輪融資,估值達到了73億美元時,中國的同類創(chuàng)業(yè)公司大部分還停留在A輪。
之所以此前國內(nèi)的規(guī)模如此之小,是因為只是單純考慮了標(biāo)注這一個環(huán)節(jié)。而實際上,從數(shù)據(jù)標(biāo)注所衍生出來的數(shù)據(jù)管理、數(shù)據(jù)評估、數(shù)據(jù)合成等全流程的數(shù)據(jù)服務(wù)才是這個行業(yè)中的增值部分。
關(guān)于數(shù)據(jù)對于大語言模型發(fā)展的重要性,Scale AI的創(chuàng)始人Alex Wang在最近的訪談中談到,人們已經(jīng)用盡了互聯(lián)網(wǎng)上的所有數(shù)據(jù),想要開發(fā)出比GPT-4.5更強大的人工智能,則必須構(gòu)建前沿數(shù)據(jù)。所謂的“前沿數(shù)據(jù)”是指那些與應(yīng)用場景密切相關(guān)、能及時反映最新趨勢和變化的數(shù)據(jù),往往包含大量長尾或少見的場景,有助于提升AI在非典型情況下的表現(xiàn),推動人工智能能力的邊界向復(fù)雜推理、多模態(tài)等方向發(fā)展。
隨著AI向縱深發(fā)展,未來的數(shù)據(jù)訓(xùn)練需要更多地與特定任務(wù)、特定應(yīng)用場景相匹配,因此也需要挖掘和生產(chǎn)出更多新的、差異化的數(shù)據(jù),這是Scale AI此輪10億美元融資之后的工作重點,也進一步打開了數(shù)據(jù)標(biāo)注的想象邊界。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。