沒(méi)有好的數(shù)據(jù),人工智能就沒(méi)有未來(lái)。
雖然早在2017年,“AI元年”的噱頭就已經(jīng)打響,但直到近期,業(yè)界才終于承認(rèn),各項(xiàng)技術(shù)紛紛實(shí)現(xiàn)落地的2019年,才是名副其實(shí)的“AI元年”。在“互聯(lián)網(wǎng)”成為傳統(tǒng)產(chǎn)業(yè)的今天,基于各項(xiàng)AI技術(shù)實(shí)現(xiàn)的無(wú)人駕駛、智慧家居、新零售等新概念爭(zhēng)先恐后出現(xiàn),而物流、制造業(yè)等傳統(tǒng)產(chǎn)業(yè)也沒(méi)有落后于時(shí)代潮流,紛紛尋求借助AI進(jìn)行產(chǎn)業(yè)升級(jí),擁抱智能化,而在勢(shì)不可擋的智能化大潮前,始終藏在幕后構(gòu)建技術(shù)地基、協(xié)助技術(shù)實(shí)現(xiàn)落地支撐的數(shù)據(jù)標(biāo)注服務(wù),在其中扮演了關(guān)鍵性的重要角色,是AI行業(yè)里真正的“隱形關(guān)鍵”。
在過(guò)去,數(shù)據(jù)標(biāo)注行業(yè)很少出現(xiàn)在人們的視野中,但業(yè)內(nèi)卻有著相同的共識(shí):沒(méi)有好的數(shù)據(jù),AI就沒(méi)有未來(lái)。
這句話并不夸張。目前為止,我們所看到的人工智能,已經(jīng)跳脫出枯燥單一的計(jì)算,轉(zhuǎn)化為以深度神經(jīng)網(wǎng)絡(luò)為主的新智能體系,而深度神經(jīng)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)有很強(qiáng)的依賴性,所以,憑借對(duì)體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識(shí),AI系統(tǒng)才能將海量、復(fù)雜、多源的語(yǔ)音、圖像和視頻數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別的、具有明確語(yǔ)義的信息,借此進(jìn)行機(jī)器的自主學(xué)習(xí)。而不夠精準(zhǔn)卻足量的數(shù)據(jù),則會(huì)讓AI的識(shí)別學(xué)習(xí)系統(tǒng)產(chǎn)生混亂和誤差。在谷歌發(fā)布的CNN報(bào)告中,就提到一個(gè)嚴(yán)重的問(wèn)題:自動(dòng)駕駛車輛的識(shí)別系統(tǒng)難以分辨黑色人種和同為靈長(zhǎng)類的大猩猩,所以相比白種人、黃種人,黑色人種的辨別率會(huì)低10%,——如果采用更多的、經(jīng)過(guò)精密標(biāo)注過(guò)的數(shù)據(jù),這樣的誤差可以很大程度的緩解。
其實(shí),在自動(dòng)駕駛領(lǐng)域,精準(zhǔn)海量的數(shù)據(jù)標(biāo)注,價(jià)值不僅僅體現(xiàn)在識(shí)別上,在逐漸成為汽車標(biāo)配的輔助駕駛方面,數(shù)據(jù)標(biāo)注也有很強(qiáng)的存在感。在輔助駕駛過(guò)程中,有一個(gè)關(guān)鍵功能叫做駕駛員疲勞檢測(cè),通過(guò)視覺(jué)識(shí)別的方式監(jiān)測(cè)駕駛員的狀態(tài),識(shí)別是否分神,是否在打電話,是否在打瞌睡,而在輔助駕駛的過(guò)程中,駕駛員也極有可能出現(xiàn)注意力不集中的情況。在更細(xì)致精密的數(shù)據(jù)標(biāo)注介入后,識(shí)別系統(tǒng)被賦予了一系列能力,比如疲勞監(jiān)測(cè)系統(tǒng)、危險(xiǎn)動(dòng)作監(jiān)測(cè)系統(tǒng)等,在用戶享受便利的同時(shí),能使得公路駕駛更加安全,解決了這樣的問(wèn)題,自動(dòng)駕駛和輔助駕駛才得以廣泛推廣和應(yīng)用。
在高科技產(chǎn)業(yè)的實(shí)際落地中,數(shù)據(jù)的重要性有目共睹,而在助力傳統(tǒng)產(chǎn)業(yè)智能化方面,數(shù)據(jù)標(biāo)注也有著廣闊的賦能前景。一個(gè)非常容易被感知到的變化是,我們?cè)谥码娿y行、通信運(yùn)營(yíng)商,或者接到他們的服務(wù)電話時(shí),會(huì)發(fā)現(xiàn)很多坐席人員變成了AI語(yǔ)音助手,能夠精準(zhǔn)識(shí)別天南海北的方言提出的疑問(wèn),這要?dú)w功于數(shù)據(jù)標(biāo)注在方言識(shí)別上的突破,使得坐席人員可以從簡(jiǎn)單的問(wèn)題中或通知性溝通中解放出來(lái),將精力專注于服務(wù)更棘手的特殊問(wèn)題,不僅提高了話務(wù)人員的工作效率,也減輕了機(jī)械性人工的投入。
“不僅是要服務(wù)高新技術(shù)產(chǎn)業(yè),扶持和賦能傳統(tǒng)產(chǎn)業(yè)的智能化升級(jí),也是我們的使命,通過(guò)高純凈度的數(shù)據(jù)標(biāo)注服務(wù),無(wú)論是高科技產(chǎn)業(yè),還是傳統(tǒng)產(chǎn)業(yè),都能獲得智慧升級(jí)的機(jī)會(huì)。”Testin云測(cè)旗下AI數(shù)據(jù)服務(wù)(數(shù)據(jù)標(biāo)注采集)品牌——云測(cè)數(shù)據(jù)總經(jīng)理賈宇航這樣說(shuō)道。
創(chuàng)新和技術(shù)改造傳統(tǒng)數(shù)據(jù)標(biāo)注雖然不如科技公司光鮮亮麗賺足眼球,數(shù)據(jù)標(biāo)注行業(yè)一直巧居幕后默默無(wú)聞。根據(jù)2018年智研發(fā)布的《2019-2025年中國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)市場(chǎng)專項(xiàng)分析研究及投資前景預(yù)測(cè)報(bào)告》顯示,近幾年,數(shù)據(jù)標(biāo)注與審核行業(yè)快速發(fā)展,2018年市場(chǎng)規(guī)模已達(dá)到52.55億元,而在這樣的增量市場(chǎng)中,大批看到了企業(yè)需求的從業(yè)者瘋狂涌入,使得整個(gè)行業(yè)出現(xiàn)良莠不齊的情況,數(shù)據(jù)粗放、混亂、復(fù)用的情況屢見(jiàn)不鮮,在賈宇航看來(lái),這樣的數(shù)據(jù)導(dǎo)入到機(jī)器學(xué)習(xí)中,結(jié)果是得不償失的。
“AI發(fā)展和數(shù)據(jù)標(biāo)注產(chǎn)業(yè)是一個(gè)雞生蛋,蛋生雞的邏輯,如果數(shù)據(jù)不夠純凈,就像人吃了壞掉的食物,只會(huì)產(chǎn)生病狀,不能起到吸收利用的作用。用到機(jī)器學(xué)習(xí)中,就會(huì)破壞AI的數(shù)據(jù)學(xué)習(xí)體系,產(chǎn)生大的誤差,而誤差產(chǎn)生后,后續(xù)的自主學(xué)習(xí)又會(huì)產(chǎn)生偏離,形成惡性循環(huán)。”
面對(duì)這樣的問(wèn)題,云測(cè)數(shù)據(jù)做出了一系列的應(yīng)對(duì)措施。
為了滿足不同場(chǎng)景的特殊需求,云測(cè)數(shù)據(jù)搭建了自己的場(chǎng)景實(shí)驗(yàn)室,為各種細(xì)分場(chǎng)景模擬無(wú)噪的專屬數(shù)據(jù)。在數(shù)據(jù)標(biāo)注行業(yè),特定場(chǎng)景的數(shù)據(jù)在普通的場(chǎng)景下始終是可遇不可求的,比如馬路上的摔倒場(chǎng)景,如果真的調(diào)取某一個(gè)特定道路攝像頭的資料,符合“路人摔倒”要求的畫(huà)面也許在1000分鐘里都難以捕捉到一次,更不能滿足各種角度、各個(gè)時(shí)段、不同年齡、著裝、性別的學(xué)習(xí)要求。面對(duì)這種指向明確的需求,云測(cè)數(shù)據(jù)會(huì)搭建特定的場(chǎng)景棚,邀請(qǐng)各種“演員”,模擬不同的形態(tài)進(jìn)行采集;為了采集不同的情緒在面部五官上的表現(xiàn),云測(cè)數(shù)據(jù)甚至還在橫店建立了一個(gè)數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室,專門(mén)邀請(qǐng)橫店具有面部表情表現(xiàn)力的群眾演員,為企業(yè)錄制精準(zhǔn)的情緒,以滿足需要識(shí)別情緒的場(chǎng)景。
完成數(shù)據(jù)收集后,標(biāo)注的過(guò)程依然存在挑戰(zhàn)。在更多的數(shù)據(jù)標(biāo)注企業(yè)中,依然在沿用傳統(tǒng)的標(biāo)注工具,“小米加步槍”式地進(jìn)行數(shù)據(jù)標(biāo)注,而云測(cè)數(shù)據(jù)團(tuán)隊(duì)研發(fā)的標(biāo)注平臺(tái),率先實(shí)現(xiàn)了全品類支持,同時(shí)滿足AI數(shù)據(jù)的三個(gè)維度:圖像、文本和音頻。在實(shí)際生產(chǎn)使用的過(guò)程中,針對(duì)一些特殊的標(biāo)注,例如自動(dòng)駕駛中的3D模型,由于文件大、渲染速度慢,導(dǎo)致標(biāo)注效率很低,而這套自研的標(biāo)注工具中包含的渲染引擎,就能保證整個(gè)過(guò)程的流暢和快捷。憑借這樣工程化的研發(fā)改造,在面對(duì)客戶的定制化的需求時(shí),云測(cè)數(shù)據(jù)保證了自身的能力觸達(dá)和及時(shí)響應(yīng),從而提高了服務(wù)能力和效率。在保證準(zhǔn)確性的同時(shí),降低了人為因素可能導(dǎo)致的誤差,確保了降本提效。
在數(shù)據(jù)標(biāo)注行業(yè),復(fù)制一份數(shù)據(jù)是非常簡(jiǎn)單的,也能節(jié)省大量的人力成本,在業(yè)內(nèi)成了大家心知肚明的“潛規(guī)則”。作為頭部選手的云測(cè)數(shù)據(jù),核心的原則,就是保證數(shù)據(jù)隱私性和安全性,而首先要做到的,是數(shù)據(jù)絕不復(fù)用。出于強(qiáng)烈的自我規(guī)范意識(shí),云測(cè)數(shù)據(jù)對(duì)客戶定制的數(shù)據(jù)交付后不留底,全部清刪;第二就是保證數(shù)據(jù)隱私性。與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,包括歐盟GDPR協(xié)議也做支持,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);第三,建立相關(guān)的數(shù)據(jù)保障機(jī)制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護(hù)、各個(gè)終端也做了不聯(lián)網(wǎng)、USB接口封死等管理,從源頭上保證了客戶的數(shù)據(jù)安全。
“從整體看來(lái),AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但從我們長(zhǎng)遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹(shù)立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來(lái)服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個(gè)社會(huì)和人類進(jìn)程”。Testin云測(cè)CMO張鵬飛說(shuō)道。
告別“血汗工廠”,培新+晉升讓人工更“智能”即便運(yùn)用了各種技術(shù)手段,增加標(biāo)注行業(yè)的技術(shù)含量和安全性,但由于行業(yè)過(guò)于低調(diào),外界對(duì)這個(gè)行業(yè)依然存在誤解,認(rèn)為數(shù)據(jù)標(biāo)注是“AI產(chǎn)業(yè)的富士康”,與AI“去人工化”的本質(zhì)相違背。事實(shí)上,在云測(cè)數(shù)據(jù)的各個(gè)標(biāo)注基地,近千人的標(biāo)注團(tuán)隊(duì)并非人們固有印象中的“血汗工廠”。云測(cè)數(shù)據(jù)十分注重對(duì)標(biāo)注人員的專業(yè)性培訓(xùn),也致力于用自研的標(biāo)注工具這樣的技術(shù)手段,減輕“人”在數(shù)據(jù)標(biāo)注中的重復(fù)勞動(dòng)力。
從技術(shù)層面來(lái)說(shuō),云測(cè)數(shù)據(jù)自研的數(shù)據(jù)標(biāo)注平臺(tái)會(huì)根據(jù)實(shí)際使用中的反饋,以每周甚至更快的頻率進(jìn)行更新,以契合標(biāo)注平臺(tái)更人性化的使用?;谠茰y(cè)數(shù)據(jù)在過(guò)去的幾年里進(jìn)行的海量技術(shù)更新,并結(jié)合更多的落地場(chǎng)景,數(shù)據(jù)標(biāo)注工作的技術(shù)含量也在不斷提升。
從管理角度來(lái)看,過(guò)去數(shù)據(jù)標(biāo)注業(yè)經(jīng)常會(huì)面對(duì)“血汗工廠”的誤解,有暗無(wú)天日、機(jī)械重復(fù)的固有印象。但實(shí)際上,云測(cè)數(shù)據(jù)的標(biāo)注基地采取八小時(shí)工作制,也會(huì)提供用餐補(bǔ)助,讓員工吃上安全豐盛的工作餐。此外,標(biāo)注人員在云測(cè)數(shù)據(jù)也會(huì)享受到完善的晉升機(jī)制,從標(biāo)注員到審核人員、項(xiàng)目助理、項(xiàng)目經(jīng)理,云測(cè)數(shù)據(jù)提供了一條明確的職業(yè)上升路線,致力于協(xié)助標(biāo)注人員進(jìn)行職業(yè)規(guī)劃和職業(yè)發(fā)展。至于近千人的用工規(guī)模,賈宇航認(rèn)為,這和AI的本質(zhì)也并不違背:
“AI就是要去人工化,這句話太片面,它其實(shí)也在創(chuàng)造更多的就業(yè)崗位。就像工業(yè)革命到來(lái)以后,很多手工作坊消失了,但我們也看到,更多的人工投入到了工業(yè)革命所創(chuàng)造出的其他行業(yè)中,AI的出現(xiàn),同樣也是擴(kuò)大了人類的生產(chǎn)力。我相信其實(shí)人工智能的確會(huì)替代很多重復(fù)性勞動(dòng),但我不認(rèn)為人的工作會(huì)變少,數(shù)據(jù)標(biāo)注只是像工業(yè)革命一樣,創(chuàng)造了更多的就業(yè)機(jī)會(huì),同時(shí)也在推動(dòng)行業(yè)的技術(shù)升級(jí)。”
在云測(cè)數(shù)據(jù)看來(lái),將技術(shù)升級(jí)引進(jìn)數(shù)據(jù)標(biāo)注的過(guò)程,不僅僅是在解放重復(fù)生產(chǎn)力,對(duì)行業(yè)的推動(dòng)也是巨大的,在云測(cè)數(shù)據(jù)內(nèi)部,有著“一橫一縱”的說(shuō)法,一橫,指的是有越來(lái)越多的行業(yè)會(huì)引入人工智能,而云測(cè)數(shù)據(jù)將在駕駛、家居、零售、金融和智慧城市等更多領(lǐng)域持續(xù)發(fā)力;一縱,指的是深挖行業(yè)趨勢(shì),結(jié)合領(lǐng)域相關(guān)的知識(shí),提高AI數(shù)據(jù)精度、效率。
在未來(lái),云測(cè)數(shù)據(jù)希望沿著人工智能的發(fā)展動(dòng)線,通過(guò)AI數(shù)據(jù)服務(wù)的支撐,推動(dòng)不同產(chǎn)業(yè)積極擁抱智能化,助力各行各業(yè)的發(fā)展。而在這樣的趨勢(shì)中,緊密鏈接產(chǎn)業(yè)鏈上下游的云測(cè)數(shù)據(jù)已經(jīng)做好了準(zhǔn)備,在潛在的爆發(fā)機(jī)會(huì)中,云測(cè)數(shù)據(jù)蓄勢(shì)待發(fā),為一場(chǎng)行業(yè)變革積累著可觀的勢(shì)能。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 春運(yùn)搶票有妙招,小米SU7限量版洋紅版閃亮登場(chǎng),你準(zhǔn)備好了嗎?
- 阿里云通義千問(wèn)視覺(jué)理解模型再降80%,視覺(jué)AI進(jìn)入新紀(jì)元
- 騰訊音樂(lè)集團(tuán)侵權(quán)風(fēng)波再起:中國(guó)音樂(lè)著作權(quán)協(xié)會(huì)再勝訴
- 蘋(píng)果新Magic Mouse 3重新設(shè)計(jì)充電口,不再“神秘”,究竟能否打破常規(guī)引人關(guān)注
- 日本車企11月產(chǎn)量受新能源沖擊,行業(yè)整合能否破局?
- XR設(shè)備市場(chǎng)風(fēng)向轉(zhuǎn)變:AR崛起,VR熱度不減
- 全球用戶聯(lián)手抵制微軟:自由軟件基金會(huì)呼吁持續(xù)施壓
- 王騰雙喜臨門(mén):小米中國(guó)區(qū)重磅晉升,REDMI品牌再添新翼
- 蘋(píng)果折疊iPhone爆料:未來(lái)已來(lái),2026年亮相,預(yù)計(jì)年產(chǎn)1500萬(wàn)至2000萬(wàn)臺(tái)
- 小米大家電團(tuán)隊(duì)遷址武漢,科技園F棟開(kāi)啟新篇章:科技與傳統(tǒng)的完美融合
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。