原標(biāo)題:無處不智能:AI數(shù)據(jù)的“消費(fèi)升級(jí)”,剛剛開始
“新基建”的哨聲吹響,想必大家已經(jīng)從各個(gè)渠道感受到了產(chǎn)業(yè)智能化的火熱。
這一次,AI不再停留于“人工智能又碾壓人類了”的科幻劇情,而是化身為社會(huì)通用型技術(shù),各種家居、汽車、商超、3C產(chǎn)品等領(lǐng)域,都開始高頻出現(xiàn)帶有AI身影的宣傳。
其中,人工智能三要素——數(shù)據(jù)、算法、算力中,最基礎(chǔ)、最核心的部分——數(shù)據(jù),自然也就成為烹飪產(chǎn)業(yè)智能化這道美味所必不可少的原材料,也愈加受到更多矚目。
如果我們將產(chǎn)業(yè)智能化的紅利,看做是等待切分的蛋糕。那么坐在電腦前對(duì)圖片或文字一點(diǎn)點(diǎn)打上標(biāo)簽的數(shù)據(jù)標(biāo)注師,可能就是在智能沃土上種植小麥的人。
這些處理好的食物,被算法工程師拿到后投喂給機(jī)器,教會(huì)它們認(rèn)識(shí)什么是貓,什么是狗,行人和紅綠燈的區(qū)別,“這幾天天天天氣不好”表達(dá)了什么意思……
聽起來,AI數(shù)據(jù)的“種植”是不是挺簡單的。確實(shí),在人工智能前期發(fā)展階段,AI數(shù)據(jù)采集和標(biāo)注,也常常被看做一個(gè)“沒有壁壘”的事情,甚至稱之為新時(shí)代的血汗工廠。
但就如粗谷吃多了總會(huì)開始追逐健康、有機(jī)、精加工,AI數(shù)據(jù)行業(yè)也早已在我們目之所及的地方,開啟了一次“制造升級(jí)”。
產(chǎn)業(yè)智能化的滋味,你和數(shù)據(jù)都想了解
雖然AI數(shù)據(jù)不是算法訓(xùn)練的唯一要素,但絕對(duì)是不可或缺的一部分。
一方面,AI數(shù)據(jù)更豐富且廉價(jià)的領(lǐng)域,更容易誕生出AI的火苗。比如機(jī)器翻譯發(fā)展了數(shù)十年,積累了非常多的雙語對(duì)照語料,因此一遇機(jī)器學(xué)習(xí)便化龍,深度神經(jīng)網(wǎng)絡(luò)的引入很快讓翻譯系統(tǒng)的效果全面超越了以統(tǒng)計(jì)模型為基礎(chǔ)的SMT(統(tǒng)計(jì)機(jī)器翻譯)。如今,NWT神經(jīng)機(jī)器翻譯早已是智能語音產(chǎn)品的標(biāo)配了。
另外,AI數(shù)據(jù)的質(zhì)量也決定了AI產(chǎn)品是否貼合使用場景,影響著用戶體驗(yàn)?zāi)酥廉a(chǎn)品生命周期。在挖掘人工智能產(chǎn)業(yè)化富礦的時(shí)候,對(duì)AI數(shù)據(jù)的重視,再怎么強(qiáng)調(diào)都不為過。
由此,也誕生出了專業(yè)的第三方AI數(shù)據(jù)產(chǎn)業(yè)鏈,來滿足高質(zhì)量、大規(guī)模的數(shù)據(jù)需求。
不過,當(dāng)人工智能高歌猛進(jìn)的時(shí)候,AI數(shù)據(jù)產(chǎn)業(yè)的掣肘也接踵而至。
首先,傳統(tǒng)的爬蟲或眾包模式,數(shù)據(jù)采集的多而淺,難以滿足高性能、高精準(zhǔn)算法對(duì)數(shù)據(jù)的需求。舉個(gè)例子,在金融等場景中,銀行對(duì)人臉識(shí)別算法的精準(zhǔn)度要求可能是99.99%,才能達(dá)到保護(hù)客戶財(cái)產(chǎn)安全、防范安全風(fēng)險(xiǎn)的級(jí)別,傳統(tǒng)的平面臉部數(shù)據(jù)顯然是不夠的,需要維度更加豐富、角度更加多樣的3D臉部圖像才能訓(xùn)練出所需的算法。
此外,機(jī)器學(xué)習(xí)的數(shù)據(jù)依賴,也增加了AI訓(xùn)練的直接成本。無論是采集或購買數(shù)據(jù)本身的支出,還是調(diào)用數(shù)據(jù)增強(qiáng)等技術(shù)來增加數(shù)據(jù)樣本,背后都是不小的成本。
至于AI學(xué)術(shù)界剛剛興起的膠囊網(wǎng)絡(luò)、少樣本甚至零樣本學(xué)習(xí)等,雖然能不必再為數(shù)據(jù)規(guī)模而掣肘,但目前都還在實(shí)驗(yàn)室階段,在產(chǎn)業(yè)落地上的成熟和穩(wěn)定性都不可預(yù)知,距離實(shí)用還有很遠(yuǎn)的距離。所以在當(dāng)下,以深度神經(jīng)網(wǎng)絡(luò)為核心的機(jī)器學(xué)習(xí),依然是人工智能走向產(chǎn)業(yè)化的技術(shù)托舉。這也決定了對(duì)AI數(shù)據(jù)的饑渴,將在一段時(shí)間內(nèi)始終伴隨AI行業(yè)的發(fā)展。
從產(chǎn)業(yè)化與工程化的邏輯視角來看,今天企業(yè)想要打造出效果與口碑受到肯定的AI產(chǎn)品,可能購買的通用型“面粉”已經(jīng)不能滿足挑剔的用戶了,還得學(xué)會(huì)自己耕種數(shù)據(jù)的沃土。
夜來南風(fēng)起,小麥覆隴黃:AI數(shù)據(jù)場景化的成熟時(shí)
新基建的風(fēng)潮一來,AI數(shù)據(jù)產(chǎn)業(yè)也以超乎預(yù)期的速度在飛馳生長。
原因無他,數(shù)字技術(shù)與千行萬業(yè)的融合,是今天中國普遍展開的主基調(diào),而數(shù)據(jù)更是遍灑在大地上的種子,等待完成一場智能的豐收。
那么,到底需要怎樣的種植邏輯,才能讓它們茁壯生長,有資格進(jìn)入生產(chǎn)車間,最后變成滋養(yǎng)社會(huì)智能的高營養(yǎng)食品呢?答案或許也隱藏在中國人的“耕種天賦”里:
第一,尊重規(guī)律的專業(yè)化。
我們知道,一些有實(shí)力的科技大廠如BAT,往往都自建數(shù)據(jù)中心,來完成算法的精進(jìn)。而對(duì)于更廣大的企業(yè)來說,面對(duì)的是一片數(shù)據(jù)的洪潮,爆炸式創(chuàng)新也必然帶來爆發(fā)式增長的數(shù)據(jù)規(guī)模,有預(yù)測顯示,到2025年有80%的計(jì)算來自于AI計(jì)算,涉及的數(shù)據(jù)也有180ZB之多,比現(xiàn)在增長了4倍。要在如此龐大且復(fù)雜的數(shù)據(jù)群落里,找出最適宜自家土壤的“種子”,顯然不是一件容易的事。
此前就有谷歌工程師在被問到眾包平臺(tái)M-Turk(在公開平臺(tái)發(fā)布任務(wù),參與者自由申領(lǐng))的效果時(shí),聲稱“回收的數(shù)據(jù)良莠不齊”。
用一句AI界的話來說,“garbage in,garbage out”,如果喂給算法垃圾食材,在無監(jiān)督學(xué)習(xí)的情況下,就很有可能發(fā)展出讓產(chǎn)品口碑崩盤的病灶。
比如此前市面上就出現(xiàn)過一款針對(duì)青少年的智能音箱,在對(duì)話時(shí)突然冒出了臟話。原來是訓(xùn)練時(shí)沒有對(duì)數(shù)據(jù)集做好清洗,導(dǎo)致不良數(shù)據(jù)混了進(jìn)去,讓AI化身“祖安人”,廠商不得不臨時(shí)全面停止調(diào)用,重新進(jìn)行大規(guī)模的內(nèi)部審查。
要是再一不小心用到了被限制的數(shù)據(jù),比如歐盟GDPR通用數(shù)據(jù)保護(hù)條例的紅線,那不僅失去了當(dāng)年的收成不說,很可能還要搭上一大筆賠款。真是谷歌聽了沉默,F(xiàn)acebook聽了流淚。
難以把控的數(shù)據(jù)質(zhì)量,很可能讓企業(yè)的心血直接變成秋風(fēng)中的寂寞。所以,更為專業(yè)的數(shù)據(jù)采集與標(biāo)注平臺(tái),也就成為珍惜天時(shí)地利的AI企業(yè)者們所需要的伙伴。
第二,因地制宜的場景化。
在商業(yè)AI數(shù)據(jù)平臺(tái)中,“基于AI落地場景”是一個(gè)相對(duì)較新的模式。
是開源數(shù)據(jù)集不香,還是通用數(shù)據(jù)不便宜呢?場景化數(shù)據(jù)開始流行,或許與AI計(jì)算產(chǎn)業(yè)接下來發(fā)展可能觸碰到的一個(gè)矛盾點(diǎn)有關(guān),那就是競爭。
我們知道,目前AI已經(jīng)成為一種通用目的技術(shù)GPT,這也代表著它會(huì)以更廣泛地姿勢融入人類社會(huì),在此基礎(chǔ)上生發(fā)出新產(chǎn)品新技術(shù),甚至更新生產(chǎn)和組織方式。
既然是GPT,就意味著泛AI算法不再稀缺,而是遍布在日常生活中的水和空氣。如何在AI產(chǎn)品上與同業(yè)者拉開競爭身位,從AI數(shù)據(jù)上重新奠定自己的核心優(yōu)勢,就成為科技企業(yè)們的必然選擇。
舉個(gè)例子,以前的商超門店大家都沒有智能化,如今則幾乎每家店都在嘗試引入零售智慧解決方案。這種情況下,一個(gè)零售商超的企業(yè)主,掌握了自己的獨(dú)家的場景化數(shù)據(jù),也就能夠更精準(zhǔn)地認(rèn)識(shí)自己的經(jīng)營狀況。比如在此基礎(chǔ)上了解顧客面對(duì)貨架、在場內(nèi)走動(dòng)的表情,能夠輔助判斷陳列方案以及個(gè)性化的營銷推送,進(jìn)一步提高轉(zhuǎn)化和復(fù)購。
這種更高級(jí)別的場景化數(shù)據(jù),想要獲取并交付給算法端去使用,并不是一件簡單的事。
云測數(shù)據(jù)總經(jīng)理賈宇航舉了一個(gè)例子,比如在線上訂票這樣的對(duì)話場景中,會(huì)有許多種表達(dá)方式,“有去XX的航班嗎”“幫我查一下機(jī)票”……如何讓AI助理在不同的表達(dá)中都能明白對(duì)方的意圖,就需要AI數(shù)據(jù)服務(wù)企業(yè)與訂票平臺(tái)仔細(xì)地對(duì)接需求,并在標(biāo)注時(shí)往適當(dāng)?shù)姆较蛉ゲ鸾夂妥鳂I(yè),這樣才能因地制宜,讓大量高質(zhì)量的數(shù)據(jù)轉(zhuǎn)化為垂直行業(yè)的智能養(yǎng)料。
一個(gè)有意思的數(shù)據(jù)是,盡管今天我們已經(jīng)聽到了太多AI的新聞,但AI與行業(yè)結(jié)合的整體滲透率只有4%。在未來很長的一段時(shí)間內(nèi),對(duì)于數(shù)據(jù)場景化的押注,值得重點(diǎn)關(guān)注。
第三,提升能效的工程化。
當(dāng)然,伴隨著數(shù)字經(jīng)濟(jì)進(jìn)入成熟期,二話不說就對(duì)AI一擲千金的情況已經(jīng)不存在了。企業(yè)在選擇數(shù)據(jù)模式時(shí),勢必會(huì)考慮投入產(chǎn)出比。
那么場景化數(shù)據(jù)的重工重時(shí),是否能夠讓產(chǎn)業(yè)智能化達(dá)到最大化回報(bào)呢?
答案是,不一定。場景化數(shù)據(jù)的成本并不低,“有多少人工,就有多少智能”在這里體現(xiàn)得淋漓盡致。曾經(jīng)有某AI算法平臺(tái)的工作人員告訴我,為了訓(xùn)練出一個(gè)精準(zhǔn)識(shí)別人體動(dòng)作的模型,他們合作的3D建模數(shù)據(jù)方會(huì)聘請(qǐng)人員,在姿勢采集中心拍攝好CV數(shù)據(jù),因?yàn)閿?shù)據(jù)量太大,只能放在硬盤里,靠工作人員不斷往返兩地,將數(shù)據(jù)送到實(shí)驗(yàn)室。
聽起來是不是一點(diǎn)也不“高科技”?
所以,工欲善其事必先利其器,隨著場景化AI數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,工程化能力的提升、效率工具的引入,才會(huì)讓場景數(shù)據(jù)的整體成本接近商業(yè)平衡點(diǎn),降低AI企業(yè)的成本風(fēng)險(xiǎn)。
顯然,對(duì)于AI數(shù)據(jù)的場景化,既是產(chǎn)業(yè)AI的必由之路,也密布著大量的冰層等待鑿穿。
穿透數(shù)據(jù)冰層:云測數(shù)據(jù)在產(chǎn)業(yè)端如何種植AI
當(dāng)社會(huì)經(jīng)濟(jì)體與智能技術(shù)開始耦合,場景化數(shù)據(jù)的產(chǎn)業(yè)服務(wù)者也開始展露頭角。
目前來看,成立于2011年的Testin云測,旗下AI數(shù)據(jù)采集標(biāo)注品牌——云測數(shù)據(jù)已經(jīng)成為了中國市場AI數(shù)據(jù)場景化的首選。
在AI數(shù)據(jù)的土壤上遍布的冰層,是如何被云測數(shù)據(jù)一一鏟除的?
1.手把鋤犁的硬件。
場景化數(shù)據(jù)的采集與標(biāo)注,有不少硬骨頭。比如NLP、CV(計(jì)算機(jī)視覺)等,既需要標(biāo)注者精準(zhǔn)理解相關(guān)語義,又要結(jié)合具體的產(chǎn)業(yè)需求進(jìn)行標(biāo)注。
為了保證AI數(shù)據(jù)的高質(zhì)量交付,云測數(shù)據(jù)在華東、華北、華南設(shè)有數(shù)據(jù)標(biāo)注基地和數(shù)據(jù)采集場景實(shí)驗(yàn)室,用來保障AI數(shù)據(jù)的專業(yè)化、場景化與精細(xì)化。
賈宇航(云測數(shù)據(jù)總經(jīng)理)給我們舉了一個(gè)例子,為了幫助疲勞檢測系統(tǒng)精準(zhǔn)判斷駕駛員的狀態(tài),疲勞狀態(tài)的數(shù)據(jù)是必不可少的。因此,云測數(shù)據(jù)會(huì)還原駕駛場景中的疲勞駕駛狀態(tài),來幫助采集到貼合真實(shí)場景的疲勞數(shù)據(jù)。讓訓(xùn)練算法模型能夠精準(zhǔn)識(shí)別并及時(shí)預(yù)警,來保護(hù)人員的行車安全。
除此之外,為了提升AI數(shù)據(jù)的標(biāo)注能效,云測數(shù)據(jù)還開發(fā)了不少工程化工具,不斷提升數(shù)據(jù)標(biāo)注工具的技術(shù)含量。
比如云測數(shù)據(jù)自研的數(shù)據(jù)標(biāo)注平臺(tái)上,就對(duì)3D點(diǎn)云的標(biāo)注系統(tǒng)優(yōu)化了渲染引擎,可以融合多幀點(diǎn)云數(shù)據(jù)和異維數(shù)據(jù),讓數(shù)據(jù)視圖一目了然,保證整個(gè)過程的流暢和快捷,從而減輕標(biāo)注員的重復(fù)勞動(dòng)壓力。
2.潤物無聲的軟件。
在AI的世界里,我們總是在強(qiáng)調(diào)硬件——更大的算力,更好的數(shù)據(jù),更優(yōu)的算法。是不是擁有這些就意味一切呢?事實(shí)顯然并非如此,否則Deepmind早就是商業(yè)化最成功的AI公司。
從技術(shù)概念到產(chǎn)業(yè)落地之間的管理邏輯,就如同產(chǎn)業(yè)之上的春雨,“隨風(fēng)潛入夜, 潤物細(xì)無聲”。
我們都知道“好雨知時(shí)節(jié)”,“好”在哪里?
好在適時(shí)而下。比如Testin云測在企業(yè)服務(wù)領(lǐng)域積累了近9年的經(jīng)驗(yàn),其管理模式也讓數(shù)據(jù)采集與標(biāo)注不再是枯燥的流水線作業(yè),十分注重對(duì)標(biāo)注人員的培養(yǎng),以應(yīng)對(duì)越來越高標(biāo)準(zhǔn)的數(shù)據(jù)要求。
例如,云測數(shù)據(jù)會(huì)專門招聘一些法律、金融等垂直領(lǐng)域的相關(guān)人員,對(duì)標(biāo)注人員進(jìn)行專業(yè)知識(shí)的培訓(xùn),使其能夠從產(chǎn)業(yè)端的視角去揣測語料中的具體意圖,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行更加細(xì)致的標(biāo)注,以滿足客戶的精度訴求。
此外,在管理流程上,云測數(shù)據(jù)也做到了任務(wù)的合理派發(fā),不同類型數(shù)據(jù)的人員不混用、多層交叉質(zhì)檢等等。
正是這樣的“軟實(shí)力”,不僅鑄造了云測數(shù)據(jù)的能力優(yōu)勢,也拉高了整個(gè)行業(yè)的人員素質(zhì)和業(yè)務(wù)標(biāo)準(zhǔn),轉(zhuǎn)化為滋養(yǎng)整個(gè)AI產(chǎn)業(yè)的雨水。
3.捍衛(wèi)底線的信念。
如果你聽說過三聚氰胺、地溝油之類的食品安全事件,那么AI領(lǐng)域一旦出現(xiàn)數(shù)據(jù)安全問題,損害的可能就是數(shù)萬人的財(cái)產(chǎn)和人身安全。
舉個(gè)例子,不少數(shù)據(jù)都是企業(yè)的最高級(jí)機(jī)密,如果不慎從第三方平臺(tái)手中流出,不僅可能讓企業(yè)聲譽(yù)掃地,還可能成為競爭對(duì)手的利劍,造成搬起石頭砸自己腳的局面。
目前來看,AI數(shù)據(jù)行業(yè)還沒有形成統(tǒng)一的安全保障規(guī)范和標(biāo)準(zhǔn),所以,企業(yè)的自我意識(shí)、技術(shù)措施就顯得尤為重要。
就云測數(shù)據(jù)而言,就設(shè)置了一系列安全保障機(jī)制,比如對(duì)于客戶的定制數(shù)據(jù)在交付后絕不留底、絕不復(fù)用,徹底清刪杜絕了泄露隱患;
另外,在數(shù)據(jù)采集時(shí)也會(huì)與被采集方簽訂數(shù)據(jù)授權(quán)協(xié)議,讓AI企業(yè)拿到的數(shù)據(jù)都合規(guī)合法,沒有侵犯隱私風(fēng)險(xiǎn)的后顧之憂。
防火墻設(shè)置、內(nèi)部信息系統(tǒng)、終端不聯(lián)網(wǎng)、USB接口封死等機(jī)制,也從源頭保護(hù)了客戶的數(shù)據(jù)安全。
賈宇航(云測數(shù)據(jù)總經(jīng)理)也曾多次公開表示,無論是 AI 公司還是數(shù)據(jù)服務(wù)公司,眼光都要長遠(yuǎn)一些,采用未經(jīng)授權(quán)的數(shù)據(jù)當(dāng)然可以控制成本,野蠻發(fā)展終究會(huì)造成不良后果。
云測數(shù)據(jù)的業(yè)務(wù)場景覆蓋了智能駕駛、智慧城市、智能家居、智慧金融、新零售等多個(gè)領(lǐng)域,無不是對(duì)數(shù)據(jù)安全要求奇高的領(lǐng)域。作為AI數(shù)據(jù)服務(wù)的頭部企業(yè),云測數(shù)據(jù)的安全探索,可以看做是在安全合規(guī)層面對(duì)整個(gè)行業(yè)交上的參考答案。
對(duì)于數(shù)據(jù)安全底線的捍衛(wèi),也是這個(gè)新興產(chǎn)業(yè)的生命線。
從云測數(shù)據(jù)的耕耘之中,不難發(fā)現(xiàn),解鎖AI數(shù)據(jù)的每一步縱然充滿難題,但也是形成產(chǎn)業(yè)壁壘的關(guān)鍵過程。
像云測數(shù)據(jù)這樣持續(xù)為AI訓(xùn)練注入安全高質(zhì)的數(shù)據(jù)“養(yǎng)料”,這些都將轉(zhuǎn)化為產(chǎn)業(yè)的優(yōu)勢積累,并撬動(dòng)智能時(shí)代的無限可能。
對(duì)數(shù)據(jù)沃土的耕種,才能讓我們?cè)贏I風(fēng)起時(shí),得見一片片豐收的麥浪。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。