AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)

IDC預(yù)測(cè),2020年全球?qū)碛?5ZB數(shù)據(jù)量。

隨著人工智能的發(fā)展,人工智能多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)量愈發(fā)龐大,數(shù)據(jù)種類(lèi)逐步復(fù)雜化,多模數(shù)據(jù)組合標(biāo)注等需求進(jìn)一步顯現(xiàn)出來(lái)。

數(shù)據(jù)的獲取方式

從企業(yè)AI數(shù)據(jù)需求角度出發(fā),獲取數(shù)據(jù)的形式主要為自行生產(chǎn)和委托數(shù)據(jù)服務(wù)企業(yè)兩種形式。在數(shù)據(jù)服務(wù)行業(yè)中,一般也通過(guò)自制、眾包、外包三種模式完成數(shù)據(jù)處理業(yè)務(wù),這三種模式優(yōu)劣勢(shì)也非常明顯。

自制:

優(yōu)勢(shì):標(biāo)準(zhǔn)唯一數(shù)據(jù)質(zhì)量高;人員專(zhuān)業(yè)程度高。

劣勢(shì):實(shí)施場(chǎng)景單一,人員培訓(xùn)成本高,只能為特定的客戶(hù)服務(wù)。

眾包:

優(yōu)勢(shì):用戶(hù)眾多,遍布全球,線(xiàn)上操作,成本低效率高。

劣勢(shì):僅適用于簡(jiǎn)單易實(shí)施項(xiàng)目,數(shù)據(jù)零散,需專(zhuān)業(yè)人員統(tǒng)一收集再處理。

外包:

優(yōu)勢(shì):承包給一個(gè)或多個(gè)外包商,外包商對(duì)數(shù)據(jù)結(jié)果負(fù)責(zé)。

劣勢(shì):對(duì)于復(fù)雜項(xiàng)目不能較好的理解客戶(hù)需求,數(shù)據(jù)質(zhì)量參差不齊。

高質(zhì)量的數(shù)據(jù)是算法提升的關(guān)鍵

數(shù)據(jù)的質(zhì)量決定了AI算法的性能。中國(guó)作為全球人口最多的國(guó)家,擁有著全球最多的數(shù)據(jù),然而對(duì)于AI算法來(lái)說(shuō)數(shù)據(jù)量大并非等同于數(shù)據(jù)質(zhì)量高,只有客觀、精準(zhǔn)、自然標(biāo)注數(shù)據(jù),才是算法提升的關(guān)鍵。

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)

▲李開(kāi)復(fù)博士演講中提到“AI算法固然重要,數(shù)據(jù)更重要”

目前大多數(shù)數(shù)據(jù)服務(wù)企業(yè),只支持單一模式完成數(shù)據(jù)處理,無(wú)法同時(shí)滿(mǎn)足客戶(hù)對(duì)工期、成本、質(zhì)量及數(shù)據(jù)多樣化的要求。近年,也有不少人工智能企業(yè)嘗試自行制作數(shù)據(jù),卻因資源缺乏、對(duì)數(shù)據(jù)處理團(tuán)隊(duì)管理僵化、數(shù)據(jù)處理經(jīng)驗(yàn)不足等問(wèn)題,導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊。

數(shù)據(jù)堂通過(guò)三大產(chǎn)品矩陣互連互通——基礎(chǔ)數(shù)據(jù)集、數(shù)據(jù)定制服務(wù)、私有化數(shù)據(jù)標(biāo)注平臺(tái),真正為客戶(hù)實(shí)現(xiàn)一站式數(shù)據(jù)解決方案。

數(shù)據(jù)質(zhì)檢解決方案

數(shù)據(jù)堂憑借多年數(shù)據(jù)業(yè)務(wù)經(jīng)驗(yàn)積累,總結(jié)出一套完善的數(shù)據(jù)質(zhì)檢流程??商峁└叨染?xì)、標(biāo)準(zhǔn)化QC流程的質(zhì)檢服務(wù),質(zhì)檢數(shù)據(jù)整體準(zhǔn)確率達(dá)96-99%。

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)

▲質(zhì)檢人員辦公場(chǎng)景

數(shù)據(jù)質(zhì)檢服務(wù)內(nèi)容

(一)數(shù)據(jù)質(zhì)檢員:

對(duì)外輸出專(zhuān)業(yè)質(zhì)檢員資源,可承擔(dān)具體的數(shù)據(jù)質(zhì)檢任務(wù),同時(shí)也支持幫助客戶(hù)培訓(xùn)、篩選、優(yōu)化現(xiàn)有的質(zhì)檢團(tuán)隊(duì)。

(二)項(xiàng)目質(zhì)量管理:

制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn):由專(zhuān)門(mén)負(fù)責(zé)數(shù)據(jù)質(zhì)量管理人員整理,減少客戶(hù)的各項(xiàng)直接成本(溝通、培訓(xùn)等)或其他隱性成本;

輸出數(shù)據(jù)質(zhì)檢資源:由質(zhì)量管理人員安排質(zhì)檢員進(jìn)行項(xiàng)目質(zhì)檢,減少客戶(hù)非核心業(yè)務(wù)的工作量,達(dá)到降低成本和提高效率的目的;

數(shù)據(jù)質(zhì)量持續(xù)改善方案:避免同類(lèi)錯(cuò)誤重復(fù)出現(xiàn),持續(xù)改善,減少算法應(yīng)用數(shù)據(jù)的偏差;

項(xiàng)目質(zhì)量管理報(bào)告:為客戶(hù)展示數(shù)據(jù)質(zhì)量的整體情況,以便定期跟蹤和復(fù)盤(pán)。

(三)數(shù)據(jù)質(zhì)量管理體系建設(shè):

搭建較為全面完善的數(shù)據(jù)質(zhì)量管理體系,為項(xiàng)目開(kāi)展等提供全方位支持。

數(shù)據(jù)質(zhì)檢服務(wù)能力

語(yǔ)音數(shù)據(jù):

中文普通話(huà)采集及標(biāo)注;方言采集及標(biāo)注(昆明/武漢/長(zhǎng)沙/四川/粵語(yǔ)等);外語(yǔ)采集及標(biāo)注(口音英語(yǔ)類(lèi):中國(guó)/西班牙/法國(guó)/德國(guó)/葡萄牙/意大利/俄羅斯/巴西/韓國(guó)/日本/加拿大/新加坡/馬來(lái)西亞等國(guó)人說(shuō)英語(yǔ);母語(yǔ)類(lèi):意大利語(yǔ)/德語(yǔ)/葡萄牙語(yǔ)/西班牙語(yǔ)/日語(yǔ)/韓語(yǔ)等);特定指令及場(chǎng)景語(yǔ)音采集(喚醒詞/數(shù)字文本語(yǔ)音/聲紋識(shí)別語(yǔ)音/演講語(yǔ)音/自然對(duì)話(huà)等)。

圖像數(shù)據(jù):

圖像采集:人像采集(活體對(duì)抗采集/3D手勢(shì)/3D人臉/人臉多姿態(tài)/親屬人臉采集/指紋采集/表情視頻/人臉膚質(zhì)采集等);場(chǎng)景采集(室內(nèi)外監(jiān)控/駕駛行為采集/家居環(huán)境采集/道路景象/指定物采集/360度景象采集等)。

圖像標(biāo)注:人像標(biāo)注(人臉關(guān)鍵點(diǎn)/行為/人像服飾分割/人像摳圖/人臉毛孔標(biāo)注/皺紋標(biāo)注等);OCR標(biāo)注(問(wèn)答類(lèi)/游戲類(lèi)/多國(guó)語(yǔ)言);場(chǎng)景標(biāo)注(3D點(diǎn)云標(biāo)注/雷達(dá)數(shù)據(jù)標(biāo)注/指定物標(biāo)注/深度圖像標(biāo)注/交通道路線(xiàn)/交通標(biāo)志標(biāo)注等)。

文本數(shù)據(jù):

韻律標(biāo)注/分詞標(biāo)注/詞性標(biāo)注/實(shí)體標(biāo)注/多次交互標(biāo)注/多音字標(biāo)注/數(shù)字讀法標(biāo)注/字符讀法標(biāo)注/TTS-中英文拼音標(biāo)注等。

質(zhì)檢案例

案例一:交互類(lèi)語(yǔ)音標(biāo)注數(shù)據(jù)質(zhì)檢

與某大型公司合作質(zhì)檢:2019年8月-12月,共完成18個(gè)項(xiàng)目、26萬(wàn)條數(shù)據(jù)、27批次質(zhì)檢任務(wù),返工量約為0.02%。全部通過(guò)客戶(hù)驗(yàn)收,直接被用于算法訓(xùn)練,高效完成客戶(hù)要求,為客戶(hù)節(jié)省時(shí)間成本。

參與人員:

質(zhì)量管理人員——1人,負(fù)責(zé)對(duì)接客戶(hù)需求、任務(wù)安排和驗(yàn)收;

質(zhì)檢專(zhuān)員——7人,負(fù)責(zé)數(shù)據(jù)質(zhì)檢和進(jìn)度報(bào)告。

案例二:街景圖片標(biāo)注數(shù)據(jù)質(zhì)檢

與某互聯(lián)網(wǎng)公司合作質(zhì)檢:2019年7月-12月,共完成4356個(gè)數(shù)據(jù)質(zhì)檢任務(wù),整體不良率從13.81%改善為4.50%??焖俑纳瓶蛻?hù)數(shù)據(jù)質(zhì)量問(wèn)題,為客戶(hù)搭建數(shù)據(jù)質(zhì)量管理體系,定期提供質(zhì)量分析報(bào)告,深受客戶(hù)好評(píng)。

質(zhì)檢方式:駐場(chǎng)+遠(yuǎn)程支持

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)

  ▲質(zhì)檢人員辦公場(chǎng)景

質(zhì)檢服務(wù)流程

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)

從任務(wù)發(fā)布到質(zhì)檢結(jié)果交付這一過(guò)程,數(shù)據(jù)堂有完整的對(duì)接、運(yùn)作體系。此過(guò)程流程化,使得可快速對(duì)接不同類(lèi)型的項(xiàng)目,滿(mǎn)足客戶(hù)多樣化需求。

數(shù)據(jù)質(zhì)量管理團(tuán)隊(duì),擁有7年及以上各類(lèi)數(shù)據(jù)項(xiàng)目的實(shí)際實(shí)施經(jīng)與質(zhì)量管理工作經(jīng)驗(yàn),支持入門(mén)培訓(xùn)即上崗。數(shù)據(jù)堂認(rèn)為,數(shù)據(jù)質(zhì)量管理是算法性能的守門(mén)員,專(zhuān)業(yè)的AI數(shù)據(jù)質(zhì)檢解決方案,也是算法最后一道關(guān),必須嚴(yán)格以待。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-03-31
AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關(guān)
IDC預(yù)測(cè),2020年全球?qū)碛?5ZB數(shù)據(jù)量。

長(zhǎng)按掃碼 閱讀全文