原標題:行業(yè)最高質(zhì)量AI數(shù)據(jù)如何煉成?揭秘云測數(shù)據(jù)的取勝之法
文|葉遠風
來源|智能相對論(aixdlun)
AI加速落地的大背景下,作為人工智能產(chǎn)業(yè)落地重要的環(huán)節(jié),AI數(shù)據(jù)標注越來越受到業(yè)界的關注,并在發(fā)生著很大的變化。
不久前的服貿(mào)會上,數(shù)據(jù)標注領域的頭部企業(yè)云測數(shù)據(jù)首次對外發(fā)布了一項標準,其AI數(shù)據(jù)項目的最高交付精準度達到了99.99%,這是一個新的行業(yè)紀錄。對此,有自媒體“曾響鈴”評論認為,AI數(shù)據(jù)標注已經(jīng)由“勞動密集”進入“技能密集”時代。
在AI數(shù)據(jù)產(chǎn)業(yè)中,數(shù)據(jù)精準度=驗收合格數(shù)量/全部數(shù)量,這意味極高的精準度不僅要滿足一些客觀標準,還需要與AI項目方的需求深度契合,通過基于需求的驗收過程。
事實上,對AI數(shù)據(jù)標注這種與制造業(yè)在很多地方相似的產(chǎn)業(yè)而言,更高的精準度的打造過程,就如同制造業(yè)的“精益制造”一樣,在多個方面有著發(fā)展方式的契合,只不過一個交付數(shù)據(jù)服務,一個產(chǎn)出實體產(chǎn)品。
這種契合,從行業(yè)頭部企業(yè)的動作看,包括四個方面。
業(yè)務平臺:應對復雜的AI數(shù)據(jù)交接和作業(yè),出現(xiàn)線上自動化“流水線”
制造業(yè)的精益制造首先是“流水線”的自動化、智能化升級,引入更多精密的工具或機械,為產(chǎn)品的精益打磨提供了生產(chǎn)環(huán)境基礎。
數(shù)據(jù)標注也類似,粗放式的業(yè)務平臺越來越無法承接復雜的AI數(shù)據(jù)交接和作業(yè),在這種背景下,線上的自動化“流水線”開始出現(xiàn)。
以往,數(shù)據(jù)標注過程的“線下”痕跡濃厚,尤其是數(shù)據(jù)導入和導出,硬碟拷貝、交接的“原始模式”不時出現(xiàn)。
為了提升效率和安全,做到短時間無縫對接,以云測數(shù)據(jù)為代表的企業(yè)探索出線上“流水線”業(yè)務平臺化模式。具體來說,就是根據(jù)AI企業(yè)的自身數(shù)據(jù)處理流程,完成標準化API接口的流程嵌入,數(shù)據(jù)在線上接入,完成作業(yè)后從線上輸出,中間有模板化的任務創(chuàng)建與責任安排,支持不同標注類型和標注方法。
這個過程,對應到制造業(yè),其實就是“物料進入、找到眾多產(chǎn)線中合適的那一條并安排好生產(chǎn)工人、產(chǎn)品輸出”的過程。在線上,數(shù)據(jù)標注已經(jīng)做到了數(shù)據(jù)進入、標注、交付的云上無縫連接過程。
這其中,對數(shù)據(jù)標注“精益制造”價值最為明顯的可能是“生產(chǎn)工具”的優(yōu)化,工具能力的提升,大幅提升了數(shù)據(jù)標注的效率和精準度,這就好比流水線上功能豐富的自動化機械臂能夠幫助企業(yè)大大提升效率和質(zhì)量一樣。
以云測數(shù)據(jù)為代表的企業(yè)開發(fā)的工具為案例,目前來看,工具對數(shù)據(jù)標注的價值有這三個體現(xiàn):
一是直接的操作輔助,例如對人臉進行26點、54點、96點、206點的人臉關鍵點標注、貼合度在3像素以內(nèi)的特定任務關鍵點追蹤,這使得標注員的操作能夠更加精細化,且擁有不錯的效率。
二是特殊數(shù)據(jù)的操作輔助,例如自動駕駛中激光雷達形成的3D點云數(shù)據(jù)不同于攝像頭形成的2D圖像數(shù)據(jù),標注起來更有難度也更可能出現(xiàn)偏差,這時候,融合標注工具(把3D點云數(shù)據(jù)和2D圖像數(shù)據(jù)結合在一起對照)的價值就體現(xiàn)出來。
三是數(shù)據(jù)標注的糾錯保障,這類似于“精益制造”中人工質(zhì)檢前的機器自動質(zhì)檢,在數(shù)據(jù)標注過程中,工具根據(jù)AI項目需求設定查錯規(guī)則,保障標注的精準度(例如,一個三米高的物體標注為人體就錯了)
當然,工具質(zhì)檢只是一種輔助,在數(shù)據(jù)標注的“精益制造”過程中,人工質(zhì)檢(抽檢)同樣必不可少。云測數(shù)據(jù)不僅在標注流程上實現(xiàn)了正規(guī)化和科學化,設計了從創(chuàng)建任務、分配任務、標注流轉,還完善了了從質(zhì)檢/抽檢環(huán)節(jié)到最后的驗收的管理流程。
數(shù)據(jù)作業(yè):應對AI落地的深度需求,出現(xiàn)“數(shù)據(jù)工藝”般的精細化作業(yè)
生產(chǎn)工藝是“精益制造”的核心之一,工藝越好,產(chǎn)品往往更為優(yōu)質(zhì),也更掌握市場的話語權。在“流水線”生產(chǎn)環(huán)境基礎上,隨著AI落地需求的加深,AI數(shù)據(jù)標注開始出現(xiàn)可以稱之為“數(shù)據(jù)工藝”的類似精細化作業(yè)過程,99.99%的精準度本身就是“數(shù)據(jù)工藝”的結果。
在云測數(shù)據(jù)的日常作業(yè)中,可以發(fā)現(xiàn)很多這種“數(shù)據(jù)工藝”般的做法,例如更豐富的數(shù)據(jù)標注類型,“線段”這種看起來簡單的標注對象也分出了折線、曲線、貝塞爾曲線等。
此外,如同制造業(yè)不斷積累工藝經(jīng)驗,逐步提升工藝水準生產(chǎn)出更高等級的產(chǎn)品一樣,數(shù)據(jù)標注也存在一個經(jīng)驗積累的過程來提升“數(shù)據(jù)工藝”水準,例如,工業(yè)中的大量看起來差不多的零件的標注,做到更細節(jié)層面才能區(qū)分出兩個型號類似的螺絲;零售行業(yè)大量相似的SKU,需要從品牌、標簽等多種細化角度來標注,幫助算法識別。
總的看來,對AI數(shù)據(jù)的復雜需求是促使數(shù)據(jù)標注朝著“數(shù)據(jù)工藝”方向發(fā)展的直接原因。
當下的AI數(shù)據(jù)呈現(xiàn)三個特征,一是由于AI產(chǎn)品落地場景的復雜性導致數(shù)據(jù)場景需求的多元化,如光線強度、拍攝角度、噪聲要求、室內(nèi)室外等;二是同類數(shù)據(jù)表現(xiàn)出樣本多樣性,僅就聲音的數(shù)據(jù),可能就包括年齡、性別、口音等差別;三是針對同一應用目標的數(shù)據(jù)多維化,例如智能駕駛就可能同時需要攝像頭、激光雷達、超聲波雷達等不同傳感器產(chǎn)生的數(shù)據(jù)。
很顯然,在這種背景下,AI發(fā)展初期那種直接應用或者購買成品“數(shù)據(jù)集”的做法行不通了,它們可以幫助算法快速成型,但卻難以支撐更多樣化的AI落地需求。
于是,“數(shù)據(jù)工藝”般的精細化作業(yè)對數(shù)據(jù)標注的需求自然而然就超出了單純數(shù)據(jù)標注的業(yè)務范疇,必然要整合上游數(shù)據(jù)采集這個關鍵環(huán)節(jié)。可以看到,以云測數(shù)據(jù)為代表的企業(yè)都在大力提升場景化數(shù)據(jù)采集的能力。幫助客戶還原落地場景所需要的AI數(shù)據(jù),從源頭保證AI數(shù)據(jù)的質(zhì)量,才能更好的應用于AI產(chǎn)業(yè)化的深度落地。
或許正因為這樣的原因,可以看到,云測數(shù)據(jù)在發(fā)布了最高項目交付99.99%精準度的同時,為了貼合實際場景、幫助更多行業(yè)實現(xiàn)“AI產(chǎn)品更快更好的落地”, 云測數(shù)據(jù)結合自身的服務能力積累和行業(yè)專業(yè)性,還推出了智慧城市、智能家居、智能駕駛、智慧金融四個場景下的“AI訓練數(shù)據(jù)服務解決方案”。
在這些整合了數(shù)據(jù)采集與標注的場景AI數(shù)據(jù)解決方案中,可以發(fā)現(xiàn)更明顯的“數(shù)據(jù)工藝”痕跡。
例如,在戶外場景中,攝像頭囊括了大量的行人、機動車、自行車等道路場景數(shù)據(jù),但智慧城市的AI應用可能需要識別人流檢測、突發(fā)事件等長尾場景數(shù)據(jù)。
在云測數(shù)據(jù)的智慧城市解決方案中,就通過行業(yè)首創(chuàng)的數(shù)據(jù)場景實驗室來還原搭建真實場景,用于采集長尾場景數(shù)據(jù),例如多種不同光線下的人員檢測、危險動作檢測等。
類似的還有智能駕駛場景。智能駕駛的車外環(huán)境感知需要大量真實場景數(shù)據(jù)用于算法訓練,為了確保行駛安全,需要覆蓋非常多的長尾場景數(shù)據(jù),例如舉傘的行人、突然出現(xiàn)的寵物等,疫情發(fā)生后,帶口罩的行人也是另一種車外環(huán)境感知所需要的“場景AI數(shù)據(jù)”。
從細節(jié)上滿足更復雜深度的AI數(shù)據(jù)需求,提供獨特的、無法替代的AI數(shù)據(jù)獲取能力,將幫助數(shù)據(jù)標注持續(xù)獲得更高的產(chǎn)業(yè)地位。
人力建設:應對高精細化的“數(shù)據(jù)工藝”,出現(xiàn)專業(yè)的“人工智能訓練師”
“流水線”的生產(chǎn)基礎加上更高的生產(chǎn)工藝之后,“精益制造”考驗的還有產(chǎn)業(yè)工人是否能將工藝實現(xiàn)的能力,在產(chǎn)業(yè)升級的浪潮下,產(chǎn)業(yè)工人的素質(zhì)成為“精益制造”的關鍵因素之一。
映射到數(shù)據(jù)標注,為了應對高精細化的“數(shù)據(jù)工藝”,專業(yè)的“人工智能訓練師”開始出現(xiàn),這表現(xiàn)在三個方面。
一是體系化的人才培訓,整體技能專業(yè)性、領域知識專業(yè)性、人員素養(yǎng)等都在提升。
以云測數(shù)據(jù)為例,云測數(shù)據(jù)不僅提供崗前培訓,還帶有員工技能培訓、職能培訓、行業(yè)領域知識、責任培訓、標注內(nèi)容的培訓,以及一對一的持續(xù)交流來提升員工的能力;與此同時,配備在線化、體系化的打分系統(tǒng)來評估員工的能力。
過去,數(shù)據(jù)標注那種隨便在街上、學校里拉一些人,只要認得圖片、懂基本的語法拼寫就開始干活的做法,已經(jīng)不再具備任何競爭力了。
二是匹配不同需求的“人才梯隊”開始出現(xiàn)。
這一點,如同“精益制造”里更復雜產(chǎn)品配以技藝手段更高的工人一樣,在數(shù)據(jù)標注領域,出現(xiàn)了一些數(shù)據(jù)需求上的分化,倒逼企業(yè)培養(yǎng)某種意義上的“人才梯隊”。
典型的如醫(yī)療、法律、金融、家居等高度專業(yè)化的領域中,不論是CV還是NLP,人工智能訓練師需要非常專業(yè),才能進行正確的數(shù)據(jù)標注與解讀,這甚至不是光有培訓就能解決的。云測數(shù)據(jù)在NLP領域就吸納了一些金融及家居行業(yè)的專才來提升對應領域的數(shù)據(jù)標注能力,這也意味著數(shù)據(jù)標注產(chǎn)業(yè)開始對人才來源口徑有了一些要求,不再是泛化的人群。
三是大量的操作細節(jié)和專業(yè)性不斷疊加。
產(chǎn)業(yè)工人變成“老師傅”,一方面來源于苛刻的工作要求,另一方面來自不斷的專業(yè)經(jīng)驗積累。在數(shù)據(jù)標注這里也是如此。
粗放式管理下,傳統(tǒng)數(shù)據(jù)標注行業(yè)有一種“混亂”的旗氣質(zhì),草臺班子稀里糊涂完成了大量的數(shù)據(jù)標注工作。但現(xiàn)在,高精準度的大旗下,數(shù)據(jù)服務團隊的專業(yè)化能力被嚴格要求,在云測數(shù)據(jù),智能客服單個場景的意圖標注就分為10-20個大類、上百個子類(表達同一個意圖,算法面臨的用戶可能有不同的表達方式,故越細分越好),根據(jù)業(yè)務需求可能還會有進一步的標注細分。
這倒逼數(shù)據(jù)標注員提升對話意圖的判斷能力,需要對句子進行泛化、以不同的描述方式重組或擴充句式、標簽(比如,用戶只是單純口誤了,或者夾雜了方言,數(shù)據(jù)都需要標注清晰,供AI算法去學習)。
在整體素質(zhì)不斷提升的基礎上,人工智能訓練師呈現(xiàn)出更多樣化的梯度,更多優(yōu)質(zhì)的標注人才將脫穎而出。
需求交互:應對縱深的項目需求,出現(xiàn)深度交互的專業(yè)化服務模式
最后,“精益制造”階段的制造業(yè),往往伴隨訂單方與生產(chǎn)方的深度溝通,需求方深度介入生產(chǎn)制造,才能生產(chǎn)出更符合初衷的產(chǎn)品。
這其實是支撐“精益制造”的專業(yè)化服務模式,在數(shù)據(jù)標注領域也是如此。為了明確AI數(shù)據(jù)標準,云測數(shù)據(jù)這種追求高精準度的企業(yè)早已要求項目經(jīng)理與AI項目方在項目開展前反復溝通需求,配合行業(yè)培訓師對標注員們進行前期培訓,并在標注作業(yè)過程中保持實時的溝通和反饋。
這種反復溝通中,涉及到大量影響最終數(shù)據(jù)結果精準度的細節(jié),例如,CV項目中,什么樣的光線要標注和定義為“強光線”?不同需求方的理解可能并不一樣。
除了明確數(shù)據(jù)標準的溝通,在作業(yè)方式上,數(shù)據(jù)標注現(xiàn)在也更為靈活。
典型的是金融場景中,由于行業(yè)的特殊性,尤其是對數(shù)據(jù)安全的極高要求,數(shù)據(jù)標注企業(yè)除了要提供了一套針對金融行業(yè)深度結合企業(yè)自身業(yè)務流程的AI數(shù)據(jù)服務方案,一些時候還必須改變部署與作業(yè)的物理方式,例如云測數(shù)據(jù)提供的私有化部署和駐場作業(yè)服務,在這種服務方式下,數(shù)據(jù)標注“企業(yè)服務”的本質(zhì)也更明顯了一些。
值得強調(diào)的是,在數(shù)據(jù)隱私安全方面,云測數(shù)據(jù)設置了一系列嚴格措施。其中一條核心原則就是數(shù)據(jù)絕不復用,當數(shù)據(jù)合格交付后從不留底,會清毀相關數(shù)據(jù);其二,所有和云測數(shù)據(jù)進行數(shù)據(jù)采集的用戶都會簽訂數(shù)據(jù)授權協(xié)議,從來源上確保企業(yè)用于訓練的數(shù)據(jù)合法合規(guī);同時,云測數(shù)據(jù)內(nèi)部還設定了數(shù)據(jù)隔離、質(zhì)量保障等一系列數(shù)據(jù)安全流程和技術。
總而言之,AI加速落地催生出更為復雜的AI數(shù)據(jù)需求,使得本來與制造業(yè)在過程上有些類似的AI數(shù)據(jù)標注也走入屬于產(chǎn)業(yè)自身的“精益制造”過程,在生產(chǎn)環(huán)境、作業(yè)標準、人才建設以及服務模式上都有了很大的轉變。而云測數(shù)據(jù)帶來的這種轉變,不只是帶來了更高的精準度、更高質(zhì)量的AI數(shù)據(jù),也使得數(shù)據(jù)標注產(chǎn)業(yè)在AI時代的產(chǎn)業(yè)鏈條中作用愈加突出。數(shù)據(jù)標注就像是信息世界的新基建,只有基石的建設穩(wěn)妥了,AI產(chǎn)業(yè)的高樓才能拔地而起,才能加速人工智能更好的到來。
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點,未經(jīng)授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。
部分圖片來自網(wǎng)絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
智能相對論(微信ID:aixdlun):
?AI產(chǎn)業(yè)新媒體;
?今日頭條青云計劃獲獎者TOP10;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。