人工智能大模型已經(jīng)從如火如荼之間開始進(jìn)入到了落地焦慮之中,甚至已經(jīng)牽連了英偉達(dá)的股價(jià)。因?yàn)榇蠹抑饾u開始發(fā)現(xiàn),雖然這個(gè)東西很好,但還找不到什么很大的商業(yè)用處。更多的人還是把它當(dāng)做一個(gè)智能化的搜索引擎,雖然不能說沒用,但怎么也不會超越搜索引擎,又何況里面還有一些不準(zhǔn)確的AI幻覺的部分。
不過最近訊飛發(fā)布的星火極速超擬人語音倒是給人一種科技的一小步,體驗(yàn)的一大步的超強(qiáng)迭代感。也許這才是人工智能大模型改變世界的真正方式。
人和AI的差距就是那幾秒
人和AI到底差別在哪里?我想很多人都會認(rèn)為,人顯然不會像AI那么博學(xué),甚至大部分人都談不上有較高的學(xué)識。所以大家會認(rèn)為大模型發(fā)展的方向一定是更加的準(zhǔn)確和全能,能夠解決更多的數(shù)據(jù)和問題,然后就在不斷的提升算力和數(shù)據(jù)量,似乎進(jìn)入到了一個(gè)無限競爭甚至得出了一個(gè)未來人工智能競爭的上限是電力供應(yīng)的恐怖話題。
當(dāng)然,我不反對這種觀點(diǎn),它也許確實(shí)是對的,或者代表了行業(yè)的方向,但回過頭來去思考,這種全知全能到底是誰的需求?用戶是不是真的有這么一個(gè)剛需去獲得一個(gè)全知全能的大模型?
這讓我想起成都車展上沃爾沃總裁對人工智能的一個(gè)吐槽,他說,“現(xiàn)在大家去試車,用語音說打開天窗,然后幾秒后,天窗打開了,大家就說這個(gè)車智能化很好。一個(gè)物理按鍵一秒鐘就能實(shí)現(xiàn)的功能現(xiàn)在要四秒才能完成,這個(gè)功能的意義到底是什么,滿足了什么需要又滿足了誰的需要?”我們拋開這個(gè)話題本身不談,我最大的發(fā)現(xiàn)則是這些智能外行人群也就是我們說的普通用戶人群首先考慮的一個(gè)點(diǎn)是“4秒”和“1秒”之間的差別。
所以,綜合一下就是,專業(yè)的人認(rèn)為專業(yè)是最重要的,但普通的用戶則認(rèn)為,快捷是最重要的。放到AI這個(gè)領(lǐng)域上來說,最大的問題不是準(zhǔn)確不準(zhǔn)確,而是它思考的時(shí)間太長了,讓我沒有辦法產(chǎn)生交流的感覺,最后就只剩下了命令和搜索的感覺。我反而覺得這是普通用戶關(guān)注的真正焦點(diǎn),也是人工智能大模型最終能夠真正獲得普及的關(guān)鍵。而訊飛星火極速超擬人語音是我發(fā)現(xiàn)第一個(gè)關(guān)注到這個(gè)問題并著手解決的人。
從微信語音到微信通話
訊飛是語音識別的專家,所以最早發(fā)現(xiàn)這個(gè)問題也就不足為奇。訊飛所關(guān)注到的用戶痛點(diǎn)是,傳統(tǒng)的語音交互想要實(shí)現(xiàn)和人的對話,一般需要通過三步來實(shí)現(xiàn):1?把語音通過語音識別系統(tǒng)轉(zhuǎn)換為文字;2通過大模型生成回復(fù)文本;3最后再用語音合成系統(tǒng)轉(zhuǎn)成語音。
因?yàn)楦鱾€(gè)系統(tǒng)是串聯(lián)的,所以這整個(gè)過程的平均延遲一般需要3秒左右。而人類從電話發(fā)明開始,就已經(jīng)習(xí)慣于在各種場景下實(shí)時(shí)交流了。甚至很多人認(rèn)為美國登月是假的一個(gè)重要原因就是,通話是實(shí)時(shí)的,而月球那么遠(yuǎn)信號來往是要有時(shí)間的。
訊飛的另一個(gè)發(fā)現(xiàn)則是,在語音轉(zhuǎn)文字再轉(zhuǎn)語音的過程中,語音的很多情感、副語言信息甚至是環(huán)境信息都會丟失,導(dǎo)致語音交互系統(tǒng)只能針對語音的文本內(nèi)容進(jìn)行回應(yīng),會忽略我們在語音中本身真實(shí)的情感、語氣等元素。換句話說,就是內(nèi)容都在,但感情沒有了。而沒有感情,也是人們無法將AI當(dāng)做人來溝通和共情的關(guān)鍵,盡管AI可能比絕大部分人要聰明和博學(xué)很多。
而星火極速超擬人交互就是跨文本和音頻模態(tài)端到端地訓(xùn)練了一個(gè)新模型,直接省去中間環(huán)節(jié)直接實(shí)現(xiàn)音到語音的建模,大大壓縮了響應(yīng)時(shí)間,于是就實(shí)現(xiàn)了真正類似人們交流的延遲,基本你話說完,就直接有了回應(yīng)。
更重要的是,訊飛結(jié)合了自身作語音識別多年的經(jīng)驗(yàn)和積累,利用訊飛多維度的語音屬性解耦表征訓(xùn)練準(zhǔn)則,將內(nèi)容、音色、情感、語言、風(fēng)格等信息進(jìn)行解耦訓(xùn)練,保持了AI對情緒的理解和表達(dá)能力,這樣就不再是一個(gè)冷冰冰的機(jī)器回答,而變的有情緒多了,給人的感覺就像鋼鐵俠的老版本AI升級到了賈維斯。整個(gè)交流從“微信語音模式”切換到“微信通話模式”了,感覺一下子就來了。
這個(gè)速度水平已經(jīng)追平了GPT-4o,情感水平甚至還有所超越,明顯快于其他大模型的產(chǎn)品,并且可以提供更多個(gè)性化的使用方式。比如用幽默調(diào)侃的語氣講個(gè)笑話,用詩歌的方式朗誦一篇文章,用方言給大家做個(gè)介紹,甚至模仿孫悟空或者蠟筆小新來聊個(gè)天等等。整個(gè)AI交互的場景和思路都一下子打開了,讓人感覺一個(gè)變革的節(jié)點(diǎn)似乎終于來了。
變革節(jié)點(diǎn)到了
我一直認(rèn)為,大模型提供的回答信息內(nèi)容已經(jīng)非常不錯(cuò)了,雖然達(dá)不到全知全能的水平,但是已經(jīng)足夠用了,而對于專業(yè)人士來說,他們也不指望大模型能真的解決專業(yè)問題,但一個(gè)數(shù)學(xué)家說的挺好,大模型給他提供了十個(gè)方案,他確定有一個(gè)是有啟發(fā)的。
所以真正的困境還是在用戶體驗(yàn)上,用戶并不覺得他是一個(gè)可以互相交流的同類,而只是一個(gè)更聰明一點(diǎn)的智能音箱。而現(xiàn)在這個(gè)問題終于迎來的最簡單的解決方案,把速度提上去,把感情加進(jìn)來,讓用戶愿意跟你交流。想想再度自駕車的時(shí)候,能有個(gè)人工智能聊天也是很快意的一件事情,而之前大家沒有這么做,顯然就是因?yàn)槟欠N喚醒模式和延遲時(shí)間,實(shí)在是聊不起來。
現(xiàn)在有了星火極速超擬人語音,這種真正像人一樣的交互顯然已經(jīng)可以落地,汽車、手機(jī)、家居家電、智能硬件等領(lǐng)域的大模型交互也會徹底顛覆,用戶終于可以不再把大模型當(dāng)做一個(gè)工具,而是真正當(dāng)做一個(gè)自己AI助手去交流。
這大概就是速度提升的一小步,卻是體驗(yàn)提升的一大步了。而訊飛能夠做到這樣的突破,我想不僅僅是因?yàn)樗麄兊拿翡J和產(chǎn)品能力,更是因?yàn)樗麄冊谡Z音識別領(lǐng)域遙遙領(lǐng)先的積累。
訊飛在人工智能最大的特點(diǎn)其實(shí)是落地能力強(qiáng),早早的就把大模型應(yīng)用在了教育、醫(yī)療等多個(gè)方面,并且形成了非常強(qiáng)的產(chǎn)品思路。而現(xiàn)在星火極速超擬人語音的出現(xiàn),無疑是這種思路持續(xù)發(fā)展的結(jié)果,也是一個(gè)非常有突破的關(guān)鍵點(diǎn)。
目前訊飛還在中石油等央國企大模型項(xiàng)目中不斷中標(biāo),最近又剛剛拿下了東數(shù)西算貴安新區(qū)算力產(chǎn)業(yè)集群的配套項(xiàng)目,無疑也是這種能力的另一種體現(xiàn)。相信隨著星火極速超擬人語音的落地和發(fā)展,訊飛星火大模型會帶來一波真正的人工智能的落地契機(jī),就好像當(dāng)年語音輸入給輸入領(lǐng)域帶來的顛覆一樣。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 阿里獨(dú)家合作,亞馬遜“親測”代言,雷鳥創(chuàng)新打造 AI 眼鏡新標(biāo)桿,媲美 Meta !
- CES 2025 搶先揭秘:XR領(lǐng)域新品爆料,AI眼鏡成焦點(diǎn)
- 2024 XR年度大事件TOP 10
- 先誅蘋果,再滅Meta?三星、谷歌、高通組“失敗者聯(lián)盟”,能否贏得XR領(lǐng)域終局之戰(zhàn)?
- Meta高端AR眼鏡Orion全揭秘:五年內(nèi)上市,或無緣國內(nèi)市場,大概率撞車蘋果
- 庫克進(jìn)軍游戲圈?蘋果Vision Pro與索尼達(dá)成合作 后者發(fā)行游戲剛拿下TGA年度最佳
- 2024年VR/AR行業(yè)年終盤點(diǎn)之融資篇
- 三星首款A(yù)R眼鏡全揭秘:目前我們所了解的一切
- 萬花筒 | 2025年AI/AR眼鏡這些看點(diǎn)值得期待:Android XR商用、羅永浩入局
- 萬花筒 | 這七大特性,有望出現(xiàn)在Meta明年發(fā)布的頭顯產(chǎn)品上
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。