沒有好的數(shù)據(jù),人工智能就沒有未來。
雖然早在2017年,“AI元年”的噱頭就已經打響,但直到近期,業(yè)界才終于承認,各項技術紛紛實現(xiàn)落地的2019年,才是名副其實的“AI元年”。在“互聯(lián)網”成為傳統(tǒng)產業(yè)的今天,基于各項AI技術實現(xiàn)的無人駕駛、智慧家居、新零售等新概念爭先恐后出現(xiàn),而物流、制造業(yè)等傳統(tǒng)產業(yè)也沒有落后于時代潮流,紛紛尋求借助AI進行產業(yè)升級,擁抱智能化,而在勢不可擋的智能化大潮前,始終藏在幕后構建技術地基、協(xié)助技術實現(xiàn)落地支撐的數(shù)據(jù)標注服務,在其中扮演了關鍵性的重要角色,是AI行業(yè)里真正的“隱形關鍵”。
在過去,數(shù)據(jù)標注行業(yè)很少出現(xiàn)在人們的視野中,但業(yè)內卻有著相同的共識:沒有好的數(shù)據(jù),AI就沒有未來。
這句話并不夸張。目前為止,我們所看到的人工智能,已經跳脫出枯燥單一的計算,轉化為以深度神經網絡為主的新智能體系,而深度神經網絡對于數(shù)據(jù)有很強的依賴性,所以,憑借對體量龐大的結構化和半結構化數(shù)據(jù)進行高效率的深度分析,挖掘隱性知識,AI系統(tǒng)才能將海量、復雜、多源的語音、圖像和視頻數(shù)據(jù)轉化為機器可識別的、具有明確語義的信息,借此進行機器的自主學習。而不夠精準卻足量的數(shù)據(jù),則會讓AI的識別學習系統(tǒng)產生混亂和誤差。在谷歌發(fā)布的CNN報告中,就提到一個嚴重的問題:自動駕駛車輛的識別系統(tǒng)難以分辨黑色人種和同為靈長類的大猩猩,所以相比白種人、黃種人,黑色人種的辨別率會低10%,——如果采用更多的、經過精密標注過的數(shù)據(jù),這樣的誤差可以很大程度的緩解。
其實,在自動駕駛領域,精準海量的數(shù)據(jù)標注,價值不僅僅體現(xiàn)在識別上,在逐漸成為汽車標配的輔助駕駛方面,數(shù)據(jù)標注也有很強的存在感。在輔助駕駛過程中,有一個關鍵功能叫做駕駛員疲勞檢測,通過視覺識別的方式監(jiān)測駕駛員的狀態(tài),識別是否分神,是否在打電話,是否在打瞌睡,而在輔助駕駛的過程中,駕駛員也極有可能出現(xiàn)注意力不集中的情況。在更細致精密的數(shù)據(jù)標注介入后,識別系統(tǒng)被賦予了一系列能力,比如疲勞監(jiān)測系統(tǒng)、危險動作監(jiān)測系統(tǒng)等,在用戶享受便利的同時,能使得公路駕駛更加安全,解決了這樣的問題,自動駕駛和輔助駕駛才得以廣泛推廣和應用。
在高科技產業(yè)的實際落地中,數(shù)據(jù)的重要性有目共睹,而在助力傳統(tǒng)產業(yè)智能化方面,數(shù)據(jù)標注也有著廣闊的賦能前景。一個非常容易被感知到的變化是,我們在致電銀行、通信運營商,或者接到他們的服務電話時,會發(fā)現(xiàn)很多坐席人員變成了AI語音助手,能夠精準識別天南海北的方言提出的疑問,這要歸功于數(shù)據(jù)標注在方言識別上的突破,使得坐席人員可以從簡單的問題中或通知性溝通中解放出來,將精力專注于服務更棘手的特殊問題,不僅提高了話務人員的工作效率,也減輕了機械性人工的投入。
“不僅是要服務高新技術產業(yè),扶持和賦能傳統(tǒng)產業(yè)的智能化升級,也是我們的使命,通過高純凈度的數(shù)據(jù)標注服務,無論是高科技產業(yè),還是傳統(tǒng)產業(yè),都能獲得智慧升級的機會。”Testin云測旗下AI數(shù)據(jù)服務(數(shù)據(jù)標注采集)品牌——云測數(shù)據(jù)總經理賈宇航這樣說道。
創(chuàng)新和技術改造傳統(tǒng)數(shù)據(jù)標注雖然不如科技公司光鮮亮麗賺足眼球,數(shù)據(jù)標注行業(yè)一直巧居幕后默默無聞。根據(jù)2018年智研發(fā)布的《2019-2025年中國數(shù)據(jù)標注與審核行業(yè)市場專項分析研究及投資前景預測報告》顯示,近幾年,數(shù)據(jù)標注與審核行業(yè)快速發(fā)展,2018年市場規(guī)模已達到52.55億元,而在這樣的增量市場中,大批看到了企業(yè)需求的從業(yè)者瘋狂涌入,使得整個行業(yè)出現(xiàn)良莠不齊的情況,數(shù)據(jù)粗放、混亂、復用的情況屢見不鮮,在賈宇航看來,這樣的數(shù)據(jù)導入到機器學習中,結果是得不償失的。
“AI發(fā)展和數(shù)據(jù)標注產業(yè)是一個雞生蛋,蛋生雞的邏輯,如果數(shù)據(jù)不夠純凈,就像人吃了壞掉的食物,只會產生病狀,不能起到吸收利用的作用。用到機器學習中,就會破壞AI的數(shù)據(jù)學習體系,產生大的誤差,而誤差產生后,后續(xù)的自主學習又會產生偏離,形成惡性循環(huán)。”
面對這樣的問題,云測數(shù)據(jù)做出了一系列的應對措施。
為了滿足不同場景的特殊需求,云測數(shù)據(jù)搭建了自己的場景實驗室,為各種細分場景模擬無噪的專屬數(shù)據(jù)。在數(shù)據(jù)標注行業(yè),特定場景的數(shù)據(jù)在普通的場景下始終是可遇不可求的,比如馬路上的摔倒場景,如果真的調取某一個特定道路攝像頭的資料,符合“路人摔倒”要求的畫面也許在1000分鐘里都難以捕捉到一次,更不能滿足各種角度、各個時段、不同年齡、著裝、性別的學習要求。面對這種指向明確的需求,云測數(shù)據(jù)會搭建特定的場景棚,邀請各種“演員”,模擬不同的形態(tài)進行采集;為了采集不同的情緒在面部五官上的表現(xiàn),云測數(shù)據(jù)甚至還在橫店建立了一個數(shù)據(jù)場景實驗室,專門邀請橫店具有面部表情表現(xiàn)力的群眾演員,為企業(yè)錄制精準的情緒,以滿足需要識別情緒的場景。
完成數(shù)據(jù)收集后,標注的過程依然存在挑戰(zhàn)。在更多的數(shù)據(jù)標注企業(yè)中,依然在沿用傳統(tǒng)的標注工具,“小米加步槍”式地進行數(shù)據(jù)標注,而云測數(shù)據(jù)團隊研發(fā)的標注平臺,率先實現(xiàn)了全品類支持,同時滿足AI數(shù)據(jù)的三個維度:圖像、文本和音頻。在實際生產使用的過程中,針對一些特殊的標注,例如自動駕駛中的3D模型,由于文件大、渲染速度慢,導致標注效率很低,而這套自研的標注工具中包含的渲染引擎,就能保證整個過程的流暢和快捷。憑借這樣工程化的研發(fā)改造,在面對客戶的定制化的需求時,云測數(shù)據(jù)保證了自身的能力觸達和及時響應,從而提高了服務能力和效率。在保證準確性的同時,降低了人為因素可能導致的誤差,確保了降本提效。
在數(shù)據(jù)標注行業(yè),復制一份數(shù)據(jù)是非常簡單的,也能節(jié)省大量的人力成本,在業(yè)內成了大家心知肚明的“潛規(guī)則”。作為頭部選手的云測數(shù)據(jù),核心的原則,就是保證數(shù)據(jù)隱私性和安全性,而首先要做到的,是數(shù)據(jù)絕不復用。出于強烈的自我規(guī)范意識,云測數(shù)據(jù)對客戶定制的數(shù)據(jù)交付后不留底,全部清刪;第二就是保證數(shù)據(jù)隱私性。與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權協(xié)議,包括歐盟GDPR協(xié)議也做支持,確保AI企業(yè)用于訓練的數(shù)據(jù)合法合規(guī);第三,建立相關的數(shù)據(jù)保障機制,如從防火墻的設置、內部信息系統(tǒng)的管護、各個終端也做了不聯(lián)網、USB接口封死等管理,從源頭上保證了客戶的數(shù)據(jù)安全。
“從整體看來,AI數(shù)據(jù)行業(yè)關于安全、隱私等方面并沒有統(tǒng)一的標準和強調重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務行業(yè)、樹立數(shù)據(jù)質量標桿,只有以這種負責的態(tài)度來服務客戶,我們的行業(yè)才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。Testin云測CMO張鵬飛說道。
告別“血汗工廠”,培新+晉升讓人工更“智能”即便運用了各種技術手段,增加標注行業(yè)的技術含量和安全性,但由于行業(yè)過于低調,外界對這個行業(yè)依然存在誤解,認為數(shù)據(jù)標注是“AI產業(yè)的富士康”,與AI“去人工化”的本質相違背。事實上,在云測數(shù)據(jù)的各個標注基地,近千人的標注團隊并非人們固有印象中的“血汗工廠”。云測數(shù)據(jù)十分注重對標注人員的專業(yè)性培訓,也致力于用自研的標注工具這樣的技術手段,減輕“人”在數(shù)據(jù)標注中的重復勞動力。
從技術層面來說,云測數(shù)據(jù)自研的數(shù)據(jù)標注平臺會根據(jù)實際使用中的反饋,以每周甚至更快的頻率進行更新,以契合標注平臺更人性化的使用?;谠茰y數(shù)據(jù)在過去的幾年里進行的海量技術更新,并結合更多的落地場景,數(shù)據(jù)標注工作的技術含量也在不斷提升。
從管理角度來看,過去數(shù)據(jù)標注業(yè)經常會面對“血汗工廠”的誤解,有暗無天日、機械重復的固有印象。但實際上,云測數(shù)據(jù)的標注基地采取八小時工作制,也會提供用餐補助,讓員工吃上安全豐盛的工作餐。此外,標注人員在云測數(shù)據(jù)也會享受到完善的晉升機制,從標注員到審核人員、項目助理、項目經理,云測數(shù)據(jù)提供了一條明確的職業(yè)上升路線,致力于協(xié)助標注人員進行職業(yè)規(guī)劃和職業(yè)發(fā)展。至于近千人的用工規(guī)模,賈宇航認為,這和AI的本質也并不違背:
“AI就是要去人工化,這句話太片面,它其實也在創(chuàng)造更多的就業(yè)崗位。就像工業(yè)革命到來以后,很多手工作坊消失了,但我們也看到,更多的人工投入到了工業(yè)革命所創(chuàng)造出的其他行業(yè)中,AI的出現(xiàn),同樣也是擴大了人類的生產力。我相信其實人工智能的確會替代很多重復性勞動,但我不認為人的工作會變少,數(shù)據(jù)標注只是像工業(yè)革命一樣,創(chuàng)造了更多的就業(yè)機會,同時也在推動行業(yè)的技術升級。”
在云測數(shù)據(jù)看來,將技術升級引進數(shù)據(jù)標注的過程,不僅僅是在解放重復生產力,對行業(yè)的推動也是巨大的,在云測數(shù)據(jù)內部,有著“一橫一縱”的說法,一橫,指的是有越來越多的行業(yè)會引入人工智能,而云測數(shù)據(jù)將在駕駛、家居、零售、金融和智慧城市等更多領域持續(xù)發(fā)力;一縱,指的是深挖行業(yè)趨勢,結合領域相關的知識,提高AI數(shù)據(jù)精度、效率。
在未來,云測數(shù)據(jù)希望沿著人工智能的發(fā)展動線,通過AI數(shù)據(jù)服務的支撐,推動不同產業(yè)積極擁抱智能化,助力各行各業(yè)的發(fā)展。而在這樣的趨勢中,緊密鏈接產業(yè)鏈上下游的云測數(shù)據(jù)已經做好了準備,在潛在的爆發(fā)機會中,云測數(shù)據(jù)蓄勢待發(fā),為一場行業(yè)變革積累著可觀的勢能。
- 英偉達驅動黑屏門:Win10/11用戶警惕!572.83驅動帶來新風險
- Meta Llama 4 AI大語言模型本月面世,改進推理能力仍需加強
- 滴滴外賣在巴西重啟業(yè)務:70萬騎手助力,外賣市場能否再掀波瀾?
- AI代碼生成:2030年,95%的代碼將由AI生成,程序員何去何從?
- SpaceX載人繞飛任務圓滿結束,機組安全返回地球,揭開宇宙新篇章
- TikTok風波再起!特朗普發(fā)聲,字節(jié)跳動回應,利益之爭引發(fā)全球關注
- 比亞迪整合五大子品牌為APP,打造一站式車主服務平臺,體驗升級中!
- 谷歌預警:警惕AI安全風險,公開防御藍圖
- 比亞迪起訴自媒體“智能EVO”:維權行動揭開名譽侵權黑幕
- 小米紙扎版SU7專利爆光,網友笑稱清明節(jié)新爆款
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。