“任何足夠先進(jìn)的技術(shù),初看起來都與魔法無異”——這是著名科幻作家克拉克總結(jié)的第三定律。
今年以來ChatGPT掀起的智能交互變革,大語言模型的智能涌現(xiàn)能力,在很多人眼里,真的就像魔法一樣。
當(dāng)然,大家心知肚明,技術(shù)世界里哪有什么秘訣和魔法,還不是一行行代碼、一個(gè)個(gè)日日夜夜、一次次的bug調(diào)優(yōu)迭代,最終讓技術(shù)創(chuàng)新像魔法一樣出現(xiàn),驚艷世人。
所以,在如火如荼“大煉模型”的時(shí)間節(jié)點(diǎn)上,比起技術(shù)的玄妙,我們更關(guān)心那些“高大上”的技術(shù),究竟是如何被打磨出來的,又會(huì)怎樣改變我們的生活與工作?
要弄懂這一點(diǎn),就需要了解技術(shù)的真實(shí)進(jìn)展與發(fā)展脈絡(luò)。于是,我們想到了“吳文俊獎(jiǎng)”。
如果你關(guān)注AI領(lǐng)域的硬核技術(shù),一定對“吳文俊獎(jiǎng)”不陌生。
2011年,中國人工智能學(xué)會(huì)發(fā)起設(shè)立的“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”,是我國智能科學(xué)技術(shù)領(lǐng)域唯一依托社會(huì)力量設(shè)立的科學(xué)技術(shù)獎(jiǎng),也被譽(yù)為“中國智能科技最高獎(jiǎng)”。
十二年來,吳文俊獎(jiǎng)激勵(lì)著扎扎實(shí)實(shí)的個(gè)人、技術(shù)和項(xiàng)目,同時(shí)作為一扇窗口也展現(xiàn)著中國AI的發(fā)展方向和探索成果。
在“吳文俊獎(jiǎng)”科技進(jìn)步獎(jiǎng)的名單中,我們看到了一個(gè)與類ChatGPT技術(shù)同出一源(NLP)、又獨(dú)辟蹊徑的項(xiàng)目——任務(wù)型智能對話交互關(guān)鍵技術(shù)及大規(guī)模產(chǎn)業(yè)應(yīng)用,由京東的何曉冬博士團(tuán)隊(duì)研發(fā)。
簡單來說,這是一個(gè)由語言模型、圖像生成、數(shù)字人等多種能力構(gòu)成的技術(shù)群落,并實(shí)現(xiàn)了從學(xué)術(shù)界到產(chǎn)業(yè)界的落地。
如果我們想了解智能對話的“魔法”,以及正在真實(shí)發(fā)生的產(chǎn)業(yè)變局,這些具體而真實(shí)的場景、人、技術(shù)和創(chuàng)新,是一個(gè)非常好的切面。
登上吳獎(jiǎng)獎(jiǎng)臺(tái)的技術(shù),也是你我身邊的“魔法”
吳文俊人工智能科技進(jìn)步獎(jiǎng)是頒給底層技術(shù)的,而相比復(fù)雜艱深的學(xué)術(shù)名詞、函數(shù)公式,普通讀者更關(guān)心的是,這些底層技術(shù)究竟是怎樣從吳獎(jiǎng)獎(jiǎng)臺(tái),來到你我身邊,變成日常生活中的“AI魔法”的?
這一次,京東何曉冬博士團(tuán)隊(duì),告訴了我們答案。
在訪談現(xiàn)場播放了一段枸杞帶貨的視頻,視頻中人物的形象、腳本、語音和動(dòng)作全部都是AI生成的。
這種高真人還原度的AI應(yīng)用,正是基于獲得吳文俊獎(jiǎng)的京東云智能交互技術(shù)體系打造的。
何曉冬博士透露,京東一直持續(xù)技術(shù)投入,在AI領(lǐng)域沉淀出的綜合性應(yīng)用平臺(tái)就是“言犀”。
開放式閑聊,用戶對技術(shù)的包容度很高,即便系統(tǒng)犯錯(cuò),用戶也可能會(huì)覺得有趣。但在言犀面對的任務(wù)型對話場景中,用戶都會(huì)帶著解決復(fù)雜問題的明確目的。以應(yīng)用最廣的零售場景為例,他們需要智能客服精準(zhǔn)解答售前咨詢、退換貨、配送等各環(huán)節(jié)的問題,這時(shí)候系統(tǒng)犯錯(cuò),就是“火上澆油”。
所以,“言犀”的語音生成、情緒感知、多輪對話決策推理等核心技術(shù),必須滿足真實(shí)場景的嚴(yán)苛需求。
(京東云“數(shù)字人”)
為此,京東云在技術(shù)上進(jìn)行了大量創(chuàng)新:
1. 知識(shí)指導(dǎo)的多模態(tài)可控對話生成。就拿數(shù)字人直播來說,要還原真人的表現(xiàn)力,做到惟妙惟肖的語氣、口音,對技術(shù)的先進(jìn)性要求很高。京東云言犀團(tuán)隊(duì)提出了多顆粒度韻律增強(qiáng)的語音合成技術(shù),提高語音的韻律豐富度和可控性。同時(shí),提出了知識(shí)融合的預(yù)訓(xùn)練語言模型和多模態(tài)可控對話文本生成模型,提升生成文本的專業(yè)度豐富度。這樣,一個(gè)AI科學(xué)家也能在數(shù)字世界里,一秒化身“養(yǎng)生專家”,頭頭是道地提供相關(guān)領(lǐng)域知識(shí)。
2. 極簡條件下智能行為感知與數(shù)字外觀重建。說實(shí)話,數(shù)字人帶貨的視頻很難分辨出是AIGC,其中一個(gè)原因就是生成的動(dòng)作自然、合理,“不像假的,再看看”。這源于言犀團(tuán)隊(duì)與清華大學(xué)等一起提出的一系列高精度人體外觀感知與重建方法,達(dá)到國際領(lǐng)先水平,算法效率提升了1個(gè)數(shù)量級(jí),可以在極簡條件下進(jìn)行人體重構(gòu),應(yīng)用于數(shù)字人交互服務(wù)場景。
3. 多輪對話決策推理。在實(shí)際場景中,數(shù)字人主播可以跟真人消費(fèi)者進(jìn)行復(fù)雜的互動(dòng)和講解,那么問題來了,現(xiàn)實(shí)中的人會(huì)有口語化、不規(guī)律停頓等情況,如果AI在用戶思考的時(shí)候就盲目打斷,把對話接過來,很可能讓用戶不高興,這就不夠智能了。何曉冬博士介紹到,智能對話的本質(zhì)是決策,AI要能夠以毫秒為單位,進(jìn)行綜合性、多模態(tài)的判斷,然后決定什么時(shí)候切進(jìn)去、什么時(shí)候繼續(xù)等待。針對人/機(jī)話語權(quán)決策等問題,言犀團(tuán)隊(duì)提出了多輪對話決策推理等技術(shù),打造了國際領(lǐng)先的解決方案,此前還曾獲得國際競賽Wikihop、HotpotQA冠軍。
登上吳文俊獎(jiǎng)?lì)I(lǐng)獎(jiǎng)臺(tái)的“技術(shù)魔法”,背后是一件件源于扎實(shí)應(yīng)用場景,具體而真實(shí)的創(chuàng)新,也在2022年7月通過了中國人工智能學(xué)會(huì)組織的科技成果鑒定,組委會(huì)做出了“該項(xiàng)目技術(shù)復(fù)雜,研制難度大,創(chuàng)新性強(qiáng),項(xiàng)目成果整體處于國際先進(jìn)水平”的評價(jià)。
京東魔術(shù)師:一群AI人的“側(cè)寫”
在訪談現(xiàn)場,我們見到了言犀團(tuán)隊(duì)的多位成員,一番對話后,我愿稱他們?yōu)椤〇|“魔術(shù)師天團(tuán)”。
為什么這么說?其實(shí),在國際賽事上刷榜的國內(nèi)團(tuán)隊(duì)很多,但能讓技術(shù)真正創(chuàng)造產(chǎn)業(yè)價(jià)值與社會(huì)效益的團(tuán)隊(duì),真是鳳毛麟角。
在吳文俊獎(jiǎng)的最終答辯環(huán)節(jié),面對院士專家組成的評審團(tuán),何曉冬博士分享了一個(gè)現(xiàn)實(shí)案例:去年北京市有2600萬通“96010”電話,是借助言犀的人工智能對話技術(shù)打出去的。而這些工作,如果沒有用AI,需要1萬名社區(qū)人員不停地打好幾個(gè)月。
技術(shù)成果的規(guī)模化應(yīng)用,產(chǎn)生了重大的經(jīng)濟(jì)和社會(huì)效益,也是評委們認(rèn)可的要點(diǎn)。
這種將技術(shù)價(jià)值與產(chǎn)業(yè)價(jià)值“合二為一”的能力,正是源自京東云言犀團(tuán)隊(duì)的全員“魔術(shù)師”,看似神奇的成果背后,是日復(fù)一日的苦練鉆研,以及想用技術(shù)創(chuàng)新推動(dòng)產(chǎn)業(yè)躍遷那份心意,最終點(diǎn)亮了AI魔法。
“學(xué)術(shù)”與“產(chǎn)業(yè)”是“兩層皮”,這個(gè)問題一直困擾著全球?qū)W術(shù)界和工業(yè)界的眾多研究者。即學(xué)術(shù)成果和落地應(yīng)用之間,很難達(dá)到一體化,要么學(xué)術(shù)成果難以落地,要么落地之后效果不好,成了“買家秀”和“賣家秀”的區(qū)別。但在京東,好像這個(gè)問題并不存在。
我們訪問了幾位團(tuán)隊(duì)成員,從他們口中找到了技術(shù)的產(chǎn)業(yè)落地“之所以是京東”的答案。
1.嚴(yán)謹(jǐn)態(tài)度。技術(shù)創(chuàng)新必須經(jīng)由實(shí)踐效果的檢驗(yàn)。何曉冬博士透露,今年言犀要發(fā)布一個(gè)千億級(jí)大模型,但內(nèi)部非常嚴(yán)肅看待這次技術(shù)革命,做大模型不是為了好玩,也不是發(fā)個(gè)產(chǎn)品就可以了,而要在京東核心關(guān)鍵的場景上有比較好的實(shí)踐效果后,才能讓合作伙伴落地使用。
2.深入業(yè)務(wù)。吳友政博士在自然語言處理、人機(jī)對話、語音識(shí)別、機(jī)器翻譯等前沿技術(shù)研究和產(chǎn)品研發(fā)方面成果斐然,他介紹到,京東云言犀團(tuán)隊(duì)做的很多技術(shù)攻關(guān),目標(biāo)就是解決京東復(fù)雜的、真實(shí)的、大規(guī)模場景中的問題,要求算法同學(xué)們都要深入業(yè)務(wù),而不是在實(shí)驗(yàn)室做模型。所以,2018年產(chǎn)業(yè)互聯(lián)網(wǎng)還沒有那么火熱的時(shí)候,言犀就已經(jīng)在B端智能領(lǐng)域進(jìn)行了探索,了解每個(gè)業(yè)務(wù)的痛點(diǎn),和業(yè)務(wù)同學(xué)梳理出真正的問題是什么,用最終的業(yè)務(wù)指標(biāo)去衡量技術(shù)先進(jìn)性。
3.擁抱用戶。在交流中,幾位技術(shù)人員都提到了一個(gè)“人”——用戶。
語音合成領(lǐng)域的張政臣博士說,技術(shù)攻堅(jiān)中最大的困難,就是用戶明顯感覺到“你這個(gè)技術(shù)不行啊”,最開心的時(shí)候,是聽到大家說,“我跟何博士很熟,剛才那段生成對話居然沒有聽出來”。
陳蒙博士負(fù)責(zé)人機(jī)對話,最典型的落地場景就是智能客服,京東零售有幾千個(gè)品類,每個(gè)店鋪賣的東西不一樣,智能客服要針對不同品類來回答用戶的售前售后問題,陳蒙博士說:“實(shí)際應(yīng)用時(shí),不是每家企業(yè)都有GPU卡,還要考慮不增加企業(yè)的成本,還能有比較好的初始效果,這就要求我們提高模型的泛化能力?!?/p>
語音識(shí)別方向的范璐博士,一個(gè)核心任務(wù)就是理解用戶說話的情緒,來理解客戶到底在什么階段有什么需求,從而做出更準(zhǔn)確的決策判斷,來提供更好的服務(wù)。他直言:“做技術(shù)的人要理解用戶的問題,去找解決問題的錘子,而不是拿著錘子找釘子……當(dāng)用戶反饋說,我們的一些產(chǎn)品真的幫助到了他,感到了關(guān)懷和溫暖,我感覺加過的班都值了?!?/p>
魔術(shù)師的帽子里,有抽不盡的彩帶,飛翔的白鴿,只為了讓觀眾驚艷、笑出聲來。對于用戶來說,京東云的技術(shù)人員,正是在產(chǎn)業(yè)里制造神奇的魔術(shù)師,讓艱澀的技術(shù)和枯燥的代碼,轉(zhuǎn)變成產(chǎn)業(yè)應(yīng)用的繁花似錦、用戶指尖的靈機(jī)一現(xiàn)。
產(chǎn)業(yè)AI:一個(gè)關(guān)乎中國的遠(yuǎn)大前程
狄更斯在《遠(yuǎn)大前程》中,展現(xiàn)了時(shí)代轟然向前對個(gè)人的成長和經(jīng)歷,會(huì)產(chǎn)生巨大影響。這與我們當(dāng)下所處的時(shí)代變遷,何其相似?
今年以來,交互方式的變革,讓絕大多數(shù)人都感受到了人工智能洶涌澎湃的力量。沒有人會(huì)懷疑,智能技術(shù)正在快速重構(gòu)一切,關(guān)乎一個(gè)人、一家企業(yè)乃至一個(gè)國家的遠(yuǎn)大前程。
何曉冬博士坦言,AI正在帶來新的生產(chǎn)力,幫助商業(yè)效率進(jìn)一步提升。
而在這個(gè)確定的未來中,一家企業(yè)需要具備怎樣的基礎(chǔ)能力?
何曉冬博士覺得,答案是“產(chǎn)業(yè)AI”。
何曉冬博士很清楚,一項(xiàng)新技術(shù)要從學(xué)術(shù)界抵達(dá)產(chǎn)業(yè),真正發(fā)揮效用,中間存在無數(shù)限制和困局。
他說:“人的終極三問——我是誰,從哪來,要到哪去,放在AI這就是要思考,智能是什么,智能的脈絡(luò)和智能體能為現(xiàn)實(shí)世界帶來什么?!笨茖W(xué)家做研究,解決第一個(gè)問題很容易,造出一個(gè)“智能機(jī)器”,但落地到物理世界的時(shí)候,未必能解決每個(gè)具體場景和從業(yè)者的痛點(diǎn)。何曉冬博士說到:“我最近五年在京東做‘產(chǎn)業(yè)AI’,覺得這個(gè)路子是值得持續(xù)挖掘的,技術(shù)能深入到社會(huì)和經(jīng)濟(jì)領(lǐng)域,真正減輕客服等工作人員的負(fù)擔(dān),提高生產(chǎn)效率?!?/p>
這五年,也是京東云成長的五年,已經(jīng)探索出了一條產(chǎn)業(yè)AI的路線圖:
以技術(shù)為起點(diǎn),建立完善可用的技術(shù)底座。
一方面,解耦京東技術(shù)與服務(wù)能力,京東云將數(shù)智供應(yīng)鏈場景中成長出的AI能力,服務(wù)千行百業(yè)。此外,始終搶先布局,針對大模型等新技術(shù)一直在布局,比如百億級(jí)模型Vega,在全球機(jī)器翻譯比賽上獲得了多個(gè)第一名,體現(xiàn)了京東在大模型方面的技術(shù)積累和技術(shù)實(shí)力。
以產(chǎn)業(yè)為終點(diǎn),服務(wù)傳統(tǒng)實(shí)體行業(yè)。
何曉冬博士提到,技術(shù)落地最大的困難就是,很多科學(xué)家覺得有價(jià)值的事情,對行業(yè)來說沒有解決內(nèi)部痛點(diǎn)。自己前20年做技術(shù),能消除學(xué)術(shù)和產(chǎn)業(yè)的鴻溝,是他加入京東后非常欣慰的事。
比如對消費(fèi)者來和對用戶來說,直接使用智能交互技術(shù),是很難的,而京東憑借自身零售、物流、產(chǎn)銷等業(yè)務(wù)能力,可以將整個(gè)業(yè)務(wù)系統(tǒng)串聯(lián)起來,同時(shí)將京東內(nèi)部實(shí)踐錘煉出的AI能力,進(jìn)行成本、效率、體驗(yàn)的再優(yōu)化,然后對外賦能。
言犀智能人機(jī)交互平臺(tái),就是技術(shù)規(guī)?;x能實(shí)體行業(yè)的載體,整合了過往產(chǎn)業(yè)實(shí)踐和技術(shù)積累,在每天上千萬人次多輪對話交互服務(wù)中持續(xù)迭代,產(chǎn)業(yè)服務(wù)能力突出。
比如政務(wù)領(lǐng)域,京東云將言犀的新一代人機(jī)協(xié)同技術(shù)全面注入政務(wù)熱線服務(wù),幫助東莞12345熱線,進(jìn)行了智能化升級(jí)。東莞12345熱線2022年全年話務(wù)受理量從270萬通升至581萬通,在工單自動(dòng)轉(zhuǎn)寫、精準(zhǔn)派單、智能知識(shí)庫聯(lián)想等能力的加持下,接通率由40%升至超90%,等候時(shí)長由80秒壓至30秒,工單平均辦理時(shí)長由12.6天壓至4.3天,滿意率升至96.8%。在保定,借助京東云的對話分析技術(shù),保定12345實(shí)時(shí)預(yù)警研判出多起覆蓋升學(xué)、食品安全、營商環(huán)境等方面潛在群體事件……
企業(yè)服務(wù)領(lǐng)域,直播已經(jīng)成為各大企業(yè)觸達(dá)潛在消費(fèi)者、擴(kuò)展品牌知名度的重要渠道,某頭部3C品牌就借助言犀數(shù)字人產(chǎn)品,定制了自己的IP形象,實(shí)現(xiàn)了非真人時(shí)間段的快速開播。目前,數(shù)字人主播的每日成交金額最高達(dá)到真人主播的2.3倍,每小時(shí)成交金額占真人45%,但成本不到真人的十分之一,幫助品牌服務(wù)好消費(fèi)者,同時(shí)降本增效。
AI的技術(shù)起點(diǎn)與產(chǎn)業(yè)終點(diǎn)之間,需要深度應(yīng)用、不斷打磨,京東云有一群將AI學(xué)術(shù)與產(chǎn)業(yè)緊密結(jié)合的技術(shù)人,愿意深耕每一片產(chǎn)業(yè)熱土。
不斷聆聽來自產(chǎn)業(yè)和用戶的聲音,徹底改變那些沉淀已久的頑疴,這是京東云能持續(xù)讓技術(shù)在產(chǎn)業(yè)領(lǐng)域中產(chǎn)生價(jià)值的重要原因。
今天,AI+產(chǎn)業(yè)已經(jīng)上升為國家戰(zhàn)略和社會(huì)的共同期待,但想讓AI真正為行業(yè)帶來價(jià)值,惠及千家萬戶,僅僅有宏大的愿景與美好的希冀遠(yuǎn)遠(yuǎn)不夠,將學(xué)術(shù)圣殿與產(chǎn)業(yè)土壤鏈接到一起,才有完整的“產(chǎn)業(yè)AI”,才能回答人生的“終極三問”。
從京東云言犀團(tuán)隊(duì)的獎(jiǎng)杯里,我們可以讀到產(chǎn)業(yè)AI的春華秋實(shí),理解技術(shù)走向物理世界的因果。
每一個(gè)神奇時(shí)刻的背后,其實(shí)沒有“銀彈”,沒有奇跡,只有踏踏實(shí)實(shí)深入AI世界深處的人與故事。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 一半是產(chǎn)品,一半是服務(wù),華為品牌帶給消費(fèi)者的有贊嘆更有溫暖
- 在人群里,看見「鯤鵬開發(fā)者」
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動(dòng)消費(fèi)品商家高效增長
- 榮耀Magic7系列全面升級(jí)大王影像,首發(fā)AI超級(jí)長焦拍遠(yuǎn)更清晰
- 2024過去了,留下十個(gè)科技記憶
- 年貨節(jié)如何大爆單?別錯(cuò)過巨量千川這三波紅利
- 美國無人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。