人工智能這一概念,源自20世紀50年代中葉,由美國計算機技術專家約翰·麥卡錫首次提出。他與馬文·明斯基一樣,預言計算機將在20世紀70年代能擁有人類的智力水平,阿蘭·圖靈則認為將在公元2000年實現。然而直至2023年ChatGPT橫空出世,才標志著人工智能真正“出圈”,這項技術開始以前所未有的姿態(tài)走進大眾視野,滲透到我們工作與生活的每一個角落。
一知智能自誕生起就貼著「人工智能」標簽,追其根源,脫胎于浙江大學人工智能研究所,深耕多模態(tài)人機對話及生成式AI創(chuàng)新?,F已為零售、金融、本地生活等20+行業(yè)提供了領先的AI外呼以及數字人解決方案。
那么,一知智能究竟是如何在眾多迅速崛起的AI公司中脫穎而出,并成功為品牌客戶與用戶搭建起高效交互橋梁的呢?
一、浙大·一知聯(lián)合研究中心,為研發(fā)創(chuàng)新保駕護航
一知智能「人工智能」標簽的背后,始終離不開浙大·一知聯(lián)合研究中心的技術支持和前瞻性視野。一知脫胎于此、成就于此、亦反哺于此。
浙大·一知人工智能聯(lián)合研究中心自2019年2月成立以來,便成為一知智能技術創(chuàng)新與突破的強大后盾。該中心深耕多模態(tài)人機交互的產學研融合,擁有一支由超過40名碩士及博士研究生組成的精英團隊。在人工智能國際頂級會議上屢獲佳績,于語音、語義、AIGC等前沿領域發(fā)表近40余篇國際頂級論文,申請多項專利與軟件著作權,并斬獲國際自然語言推理競賽SNLI全球第一名和機器閱讀理解比賽SQuAD單模型組全球第二名的殊榮。
值得一提的是,研究中心與微軟亞洲研究院緊密合作,共同研發(fā)出基于Transformer的新型前饋網絡FastSpeech。實現了高質量梅爾譜的并行、穩(wěn)定、可控生成,較傳統(tǒng)Transformer TTS技術,梅爾譜生成速度提升近270倍,端到端語音合成速度提高近38倍,單GPU上的語音合成速度是實時語音速度的30倍。該技術幾乎完全消除了合成語音中重復吐詞和漏詞問題,同時支持語音速度與停頓的精細調整,優(yōu)化整體語句的韻律,為用戶帶來前所未有的自然語音交互體驗。
坐落在浙大玉泉校區(qū)旁的研究中心
通過企業(yè)與學校強強聯(lián)手,充分發(fā)揮一知智能在人機交互領域引領性的研發(fā)優(yōu)勢,匯聚優(yōu)秀研發(fā)人才,力爭打造“技術創(chuàng)新、產品創(chuàng)新、人才創(chuàng)新”三位一體的創(chuàng)新型人工智能研究中心,保證了一知在人機交互領域的技術領先地位。同時,一知智能積累的海量數據亦能反哺研究中心,讓數據產生價值,與浙大·一知聯(lián)合研究中心形成滾雪球般的良性循環(huán),共促技術革新與應用落地。
二、從0到1,再到無限可能
先有技術,再有產品。
在技術創(chuàng)新生態(tài)中,技術從“概念萌芽”到“規(guī)模化應用”需融合學術深耕與產業(yè)實踐。科研機構先行,實現從0-1的技術突破。隨后,企業(yè)接過接力棒,結合市場需求,將成果轉化為市場解決方案。
一知智能自研語音合成技術的突破,也孕育出了一知的第一款產品——AI智能語音外呼。在語音交互層面實現了應用落地,以電話為載體,助力1000+品牌客戶觸達上億次消費者,提升品牌用戶的生命周期價值。同時,在CTO姜興華和研究中心負責人薛弘揚博士的技術帶領下,團隊通過與浙江大學的產學研合作,研發(fā)了名為“太一”的新一代多模態(tài)交互大模型。
“太一”多模態(tài)交互大模型
“太一”大模型的誕生,使AI外呼產品在實際應用中,更加精準地洞悉說話人意圖,提升關鍵信息的捕捉能力。而這背后,是一知在不同細分行業(yè)所沉淀的海量場景數據。將這些數據注入大模型優(yōu)化應用后,一知的NLP技術的準確率已達到96%以上,實現了對話場景全面算法驅動。語音交互技術的提升,使一知的產品實現從最初的10秒、30秒通話時長延長至如今的3分鐘以上深度交流,大幅提升了用戶的通話體驗。
在幾萬小時數據量、transformer、diffusion基礎模型加持下,一知不斷優(yōu)化語音算法技術,解決了傳統(tǒng)TTS技術用于語音客服時存在的錄音量大、訓練時間長、聲音缺乏情感波動、轉人工客服時音色差異大等問題。能夠在零樣本的前提下,在各個指標(發(fā)音清晰度、音色相似度)上,全面超過擁有10~300秒樣本的算法。
2023年,一知延長了產品線,在語音人機交互的基礎上加入了視頻交互,推出了第二款產品——AI數字人。一知數字人是業(yè)內少有的同時支持聲音克隆和形象克隆的數字人產品。在算法技術上,基于多模態(tài)人工智能模型,可實現120FPS無延時輸出,僅需少量數據訓練就能輸出不同語種、語調視頻,經過眾包測試,其口型和語音匹配準確率高達99.9%;實時互動“阿凡達”模式,流式變聲器功能,讓柯南里的變聲情節(jié)成為現實。近期,薛博士帶領的研發(fā)團隊更是突破單圖即可生成數字人技術,為一知的業(yè)務拓展帶來了無限可能。
三、不做「大」模型,做垂類行業(yè)的「小」模型
在當今的AI領域,那些擁有雄厚技術實力的大廠正全力以赴地深耕底層模型,他們對此傾注了極大的關注與資源。這一趨勢的背后,是業(yè)界逐漸形成的共識:底層技術的突破能夠帶來更為顯著的邊際效益。
然而,在應用層,許多公司并未選擇開發(fā)垂直模型或行業(yè)模型,而是充分利用GPT等底層技術的強大能力,來構建各種創(chuàng)新的應用層產品。這一策略使得他們能夠迅速響應市場變化,靈活調整產品方向,從而在激烈的市場競爭中占據有利地位。
面對這樣的行業(yè)背景,一知智能在選擇在AI技術發(fā)展方向上深耕場景化應用。盡管通用模型已解決了諸多以前需依賴場景化解決方案的問題,但一知智能CTO姜興華在接受采訪時指出:“很多時候,我們發(fā)現通用技術在特定場景上的表現并不盡如人意,這正是我們著手進行場景化開發(fā)的初衷。通過深入理解和優(yōu)化特定場景,我們能夠有效地降低解決問題的難度,從而在當前的技術水平下,在一個小的、限定的范圍內實現更好的效果。”
具體來說,現有的通用人機對話技術,比如在AI外呼領域,往往難以很好地理解業(yè)務數據,也無法自由地對話以達成業(yè)務指標。因此,一知選擇聚焦于AI營銷場景,將更多的營銷數據注入到模型中,打造垂直領域的「小」模型。這樣,一知能夠在特定行業(yè)場景下提供更加有效的定制化解決方案,也滿足了市場對精準營銷的迫切需求。
也正是因為一知的AI技術場景化策略,在成功跑通消費品賽道的同時,也不斷向各行各業(yè)拓展,真正意義上實現了技術與應用的完美融合。隨著一知的不斷發(fā)展,一知易呼、視頻外呼等創(chuàng)新產品的相繼推出,豐富了人機交互的形式,更在多個行業(yè)場景中實現了深度應用。
結尾
從浙大·一知聯(lián)合研究中心的研究成果出發(fā),以技術為底座,到AI智能語音外呼與AI數字人的相繼問世,再到實現場景化解決方案,一知智能始終站在技術創(chuàng)新的前沿,不斷探索人機交互的無限可能。
從20世紀50年代時期人工智能概念的萌芽,到一知智能在技術創(chuàng)新與應用的征途上不斷前行,我們見證了智能科技如何逐步滲透并深刻改變著我們的生活與工作方式。一知智能作為這一變革的積極推動者,一直在不斷探尋人工智能的邊界,致力于將最前沿的技術成果轉化為實際應用,為用戶帶來更加智能、便捷、高效的體驗,讓交互產生更多價值。
從研究成果出發(fā),以技術為底座,到AI外呼與AI數字人的相繼問世,再到實現場景化解決方案,一知智能始終站在技術創(chuàng)新的前沿,不斷探索人機交互的無限可能。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )