數(shù)據(jù)標(biāo)注是人工智能進(jìn)行模型訓(xùn)練必不可少的一環(huán)。這是將最原始的數(shù)據(jù)變成算法可用數(shù)據(jù)的過程:原始數(shù)據(jù)一般通過數(shù)據(jù)采集獲得,隨后的數(shù)據(jù)標(biāo)注相當(dāng)于對數(shù)據(jù)進(jìn)行加工,然后輸送到人工智能算法和模型里進(jìn)行調(diào)用。
上述概念闡釋的背后實(shí)際上潛藏著一個正在茁壯成長的商業(yè)機(jī)會,尤其隨著AI行業(yè)的發(fā)展,優(yōu)質(zhì)數(shù)據(jù)甚至可能是公司發(fā)展的壁壘。
按照人員規(guī)模,現(xiàn)在的數(shù)據(jù)標(biāo)注行業(yè)分為小型工作室(20 人左右)、中型公司以及巨頭企業(yè)。它們之間有各自的短板:專業(yè)的數(shù)據(jù)標(biāo)注、采集小團(tuán)隊(duì)沒有標(biāo)注工具,開始逐漸向擁有更好技術(shù)資源的大平臺靠攏。與之形成對比的是,花費(fèi)巨大資源打造專業(yè)全職標(biāo)注團(tuán)隊(duì)的數(shù)據(jù)公司,卻也受困于人力成本不得不把一些業(yè)務(wù)外包給小團(tuán)隊(duì)。
諸如巨頭企業(yè),雖然在努力搭建平臺,但一方面更多是以消化內(nèi)部需求為主,另一方面在人員培訓(xùn)和質(zhì)量管控上,更多是流程化操作,缺乏合理的運(yùn)營模式。
“沒有一個標(biāo)準(zhǔn)。”基于上述的調(diào)研結(jié)果,在京東金融眾智平臺項(xiàng)目負(fù)責(zé)人看來,數(shù)據(jù)標(biāo)注行業(yè)比較混亂。
在這種行業(yè)狀況下,京東金融要做一個“中立”平臺,成為需求方和最終標(biāo)注團(tuán)隊(duì)之間的連接者:為小型工作室提供標(biāo)注工具,同時也對需求方提供數(shù)據(jù)標(biāo)注方案。
“京東眾智”就是這樣一個產(chǎn)物,它是專注于人工智能數(shù)據(jù)標(biāo)注和采集的科技平臺。上述負(fù)責(zé)人特意強(qiáng)調(diào)了“科技”二字,這意味著該平臺并不是傳統(tǒng)的眾包模式,而是通過自身的科技能力,優(yōu)化標(biāo)注流程,提升標(biāo)注效率,保證標(biāo)注質(zhì)量。
“大部分算法在擁有足夠多的普通標(biāo)注數(shù)據(jù)的情況下很容易將準(zhǔn)確率提升到 95%,但從 95% 再去提升到 99% 甚至 99.9% 就需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)。可以說,高質(zhì)量的數(shù)據(jù)是制約模型和算法突破瓶頸的關(guān)鍵指標(biāo)。”
京東眾智的科技能力恰好表現(xiàn)在提高標(biāo)注質(zhì)量、提升標(biāo)注速度、降低標(biāo)注成本以及保證數(shù)據(jù)安全四個方面。
標(biāo)注質(zhì)量為先,而它又與標(biāo)注人員息息相關(guān)。針對專業(yè)標(biāo)注人才培養(yǎng)的流程,他們甚至要跟一些公司建立數(shù)據(jù)標(biāo)注師認(rèn)證標(biāo)準(zhǔn),對不同人員評估其標(biāo)注等級。這符合京東眾智“三擎互驅(qū)”的理念:讓最專業(yè)的人用最專業(yè)的工具,在嚴(yán)謹(jǐn)?shù)墓ぷ髁鞒讨型瓿蓴?shù)據(jù)的標(biāo)注,并且由選拔出來的高水平專家進(jìn)行審核,保證正確率。
準(zhǔn)確率與客戶的要求也有很大關(guān)系,比如眾智平臺的圖片標(biāo)注準(zhǔn)確率在實(shí)測狀態(tài)下能達(dá)到 99%,為了確保準(zhǔn)確性,他們有 ACC 和抽檢等四層過濾流程。
在保證數(shù)據(jù)標(biāo)注質(zhì)量的前提后就要比拼標(biāo)注速度了。
當(dāng)下 AI 解決方案落地速度普遍較慢。“傳統(tǒng)的方式是有 AI 需求,然后需要先獲取樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,標(biāo)注之后再做模型訓(xùn)練。”但在數(shù)據(jù)標(biāo)注之后如果不滿意,還需要把數(shù)據(jù)返回重新優(yōu)化,上述負(fù)責(zé)人表示,這樣的方式導(dǎo)致從方案確認(rèn)到落地可能需要 1 個月甚至?xí)r間更長。
眾智平臺的標(biāo)注工具很大程度上提升了標(biāo)注速度。“魯班模板標(biāo)注工具”可以組件化去配置。如果不同的公司對標(biāo)注數(shù)據(jù)有不同需求,他們只需調(diào)整幾個組件的配置就可以完成操作。
京東眾智 Pre-AI 方案與傳統(tǒng)方案的對比
更重要的是京東眾智提出的“Pre-A.I”方案。此方案在標(biāo)注過程中會不斷添加智能元素,機(jī)器做預(yù)標(biāo)注,標(biāo)注人員只需在此基礎(chǔ)上做細(xì)微的調(diào)整即可。
這些技術(shù)的應(yīng)用在很大程度上節(jié)省了標(biāo)注時間,而在 AI 市場競爭激烈的環(huán)境中,速度對創(chuàng)業(yè)公司而言尤為重要。“原來完整的標(biāo)注流程如果是 1 個月的話,我們可能 3、4 天就可以交付了。”該負(fù)責(zé)人如此評估眾智平臺的標(biāo)注效率。
數(shù)據(jù)標(biāo)注速度提升的直接結(jié)果是標(biāo)注成本自然會降低。不過,在行業(yè)一片混亂的數(shù)據(jù)運(yùn)營模式下,數(shù)據(jù)安全是需求方最為關(guān)注的問題。
對于政府、銀行等企事業(yè)單位而言,它們擔(dān)心數(shù)據(jù)被轉(zhuǎn)手,一般要求數(shù)據(jù)必需在自己的環(huán)境內(nèi)進(jìn)行標(biāo)注。為此,他們提供了數(shù)據(jù)與流程分離方案。數(shù)據(jù)與流程分離方案針對客戶自有標(biāo)注平臺和客戶沒有標(biāo)注平臺兩種情況。
京東眾智 DCS 方案流程
對那些數(shù)據(jù)標(biāo)注需求比較大的大公司,眾智平臺可以打通京東金融和客戶兩者的標(biāo)注平臺,同時為標(biāo)注流程有嚴(yán)格的質(zhì)量把控。需要注意的是,標(biāo)注環(huán)境實(shí)際上還是在客戶環(huán)境下。對于沒有標(biāo)注平臺的客戶,京東金融提供了一套名為“眾智星”的標(biāo)注系統(tǒng),它可以讓數(shù)據(jù)不出客戶環(huán)境就能完成數(shù)據(jù)標(biāo)注。
據(jù)負(fù)責(zé)人介紹,該平臺已于去年 8 月正式上線。目前平臺上數(shù)據(jù)標(biāo)注注冊人員在 3 萬以上,而數(shù)據(jù)采集的注冊人員更是超過了 10 萬人。
“京東眾智旨在為 AI 行業(yè)提供最優(yōu)質(zhì)的基礎(chǔ)數(shù)據(jù),希望在不久的將來,國內(nèi)大部分的 AI 公司都可以使用我們提供的高質(zhì)量標(biāo)注數(shù)據(jù)訓(xùn)練出更優(yōu)質(zhì)的模型和算法。這些模型和算法不僅要服務(wù)國內(nèi)的用戶,更要把中國的 AI 能力服務(wù)于全世界。為全球的人工智能行業(yè)助力是我們的初心。”負(fù)責(zé)人如是說。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 新能源車技術(shù)升級搶先看,ChatGPT崩了引熱議:未來科技如何破局?
- 自動駕駛行業(yè)大洗牌即將結(jié)束,小馬智行引領(lǐng)千臺車隊(duì)新篇章
- 微軟反壟斷風(fēng)暴:Office捆綁銷售引質(zhì)疑,云服務(wù)策略遭調(diào)查,巨頭陷困境
- 顯卡漲價風(fēng)暴來襲!NVIDIA/AMD緊急應(yīng)對,全力加速生產(chǎn)運(yùn)回本土
- 微軟新目標(biāo):用1000億美元打造實(shí)用通用AI,未來可期但需謹(jǐn)慎
- 亞馬遜云科技陳曉建預(yù)測:未來三年內(nèi),生成式AI將引發(fā)云市場新革命
- 林肯中國辟謠:財務(wù)調(diào)整非合并,業(yè)務(wù)不變穩(wěn)如泰山
- 字節(jié)跳動研發(fā)大手筆:2024年投入接近BAT之和,能否引領(lǐng)中國OpenAI新潮流?
- 跨境匯款平臺新舉措:螞蟻集團(tuán)開發(fā)者服務(wù)限每日10萬美元,助力全球交易更便捷
- 我國充電樁建設(shè)提速,50%增長背后的高速服務(wù)區(qū)充電新篇章
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。