極客網(wǎng)?極客觀察5月7日 自誕生以來(lái),人工智能大模型始終被“幻覺(jué)”問(wèn)題困擾。這里的“幻覺(jué)”,指的是大語(yǔ)言模型會(huì)將虛構(gòu)信息當(dāng)作真實(shí)事實(shí)輸出。實(shí)際上,“幻覺(jué)”這一表述相當(dāng)委婉,它實(shí)則暴露出AI的核心缺陷——當(dāng)前的大語(yǔ)言模型尚未達(dá)到真正意義上的智能水平。
就在上個(gè)月,編程工具Cursor引發(fā)一場(chǎng)風(fēng)波。用戶收到消息稱,其使用政策將進(jìn)行調(diào)整,未來(lái)僅支持在單臺(tái)電腦上使用。然而,這條消息很快被證實(shí)為假。Cursor首席執(zhí)行官兼聯(lián)合創(chuàng)始人Michael Truell迅速出面澄清:“我們并未制定類似政策,用戶完全可以在多臺(tái)設(shè)備上使用Cursor。這一錯(cuò)誤信息源于一線AI機(jī)器人的錯(cuò)誤回復(fù)?!?/p>
此次事件不僅讓用戶虛驚一場(chǎng),更直觀展現(xiàn)了人工智能系統(tǒng)的不穩(wěn)定。
幻覺(jué)成為AI進(jìn)化的攔路虎
經(jīng)過(guò)數(shù)年發(fā)展,盡管AI技術(shù)在諸多領(lǐng)域取得突破,但在判斷信息真假時(shí)仍不盡如人意。即使是OpenAI、谷歌、DeepSeek等行業(yè)頭部機(jī)構(gòu)研發(fā)的模型也存在許多錯(cuò)誤輸出。
值得警惕的是,這些錯(cuò)誤并未隨著時(shí)間推移而減少,反而呈現(xiàn)增多趨勢(shì)。誠(chéng)然,AI在數(shù)學(xué)運(yùn)算、編程領(lǐng)域有所提升,但在處理復(fù)雜事實(shí)性信息時(shí)依然存在明顯短板,難以滿足用戶需求。
今天的AI實(shí)際上是根據(jù)“復(fù)雜數(shù)學(xué)系統(tǒng)”構(gòu)建的,它們通過(guò)不斷分析海量數(shù)字?jǐn)?shù)據(jù),持續(xù)優(yōu)化自身性能。然而,算法系統(tǒng)始終存在一個(gè)根本性缺陷——無(wú)法有效區(qū)分信息真假。在一項(xiàng)測(cè)試中,相較于舊版AI系統(tǒng),新版AI系統(tǒng)的“幻覺(jué)率”竟然更高,這說(shuō)明AI面臨嚴(yán)峻挑戰(zhàn)。
Vectara專注于企業(yè)級(jí)AI工具開(kāi)發(fā),其首席執(zhí)行官Amr Awadallah直言:“盡管我們傾盡全力,可‘幻覺(jué)’問(wèn)題還是存在,它并沒(méi)有消失?!爆F(xiàn)狀表明,即便在專業(yè)團(tuán)隊(duì)的持續(xù)攻堅(jiān)下,AI“幻覺(jué)”依然是難以攻克的技術(shù)頑疾。
Okahu致力于解決AI“幻覺(jué)”問(wèn)題,其首席執(zhí)行官Pratik Verma也指出:“判斷AI回應(yīng)是事實(shí)還是虛假需要耗費(fèi)大量時(shí)間。如果不能妥善處理這些錯(cuò)誤,就無(wú)法保證人工智能系統(tǒng)發(fā)揮應(yīng)有價(jià)值,畢竟這些系統(tǒng)的設(shè)計(jì)初衷是幫助用戶自動(dòng)完成各項(xiàng)任務(wù)?!?/p>
AI企業(yè)并非不清楚“幻覺(jué)”問(wèn)題的存在,它們付出了巨大努力,但始終無(wú)法有效解決這一難題。OpenAI的內(nèi)部測(cè)試顯示,相比老系統(tǒng),它所開(kāi)發(fā)的新系統(tǒng)“幻覺(jué)率”反而更高。
在PersonQA標(biāo)準(zhǔn)測(cè)試中,o3模型在33%的回答中產(chǎn)生幻覺(jué),幾乎是o1模型(16%)的兩倍,而最新的o4-mini模型表現(xiàn)更差,“幻覺(jué)率”高達(dá)48%。若采用SimpleQA標(biāo)準(zhǔn)測(cè)試,情況同樣不容樂(lè)觀。o3和o4-mini的“幻覺(jué)率”分別達(dá)到51%和79%,o1模型的“幻覺(jué)率”也有44%。
OpenAI指出,AI系統(tǒng)從海量數(shù)據(jù)中學(xué)習(xí),數(shù)據(jù)量之巨遠(yuǎn)超人類專家的理解能力,因此很難確定問(wèn)題根源究竟在哪里。
人類恐怕不能解決AI幻覺(jué)
華盛頓大學(xué)及艾倫人工智能研究所研究人員Hannaneh Hajishirzi表示,他們找到一種新方法,能夠追溯AI特定行為在訓(xùn)練數(shù)據(jù)中的源頭。但由于系統(tǒng)學(xué)習(xí)的數(shù)據(jù)量過(guò)于龐大,新工具無(wú)法解釋所有情況。Hannaneh Hajishirzi坦言:“我們?nèi)匀桓悴磺暹@些模型到底是如何運(yùn)行的?!?/p>
Vectara近年來(lái)持續(xù)對(duì)AI系統(tǒng)展開(kāi)測(cè)試,通過(guò)讓系統(tǒng)總結(jié)新聞內(nèi)容的方式,觀察“幻覺(jué)率”的變化情況。然而,測(cè)試結(jié)果令人沮喪——“幻覺(jué)率”不僅未降低,反而呈上升趨勢(shì)。
長(zhǎng)期以來(lái),OpenAI認(rèn)定一個(gè)理念:向AI投喂的數(shù)據(jù)越多,AI就會(huì)越聰明。但如今,AI在訓(xùn)練時(shí)幾乎耗盡所有互聯(lián)網(wǎng)英文信息,它的幻覺(jué)卻愈發(fā)嚴(yán)重。這一現(xiàn)實(shí)表明,若想突破“幻覺(jué)”困境必須探尋新的技術(shù)路徑。
當(dāng)前,工程師們開(kāi)始倚重“強(qiáng)化學(xué)習(xí)”技術(shù)。在數(shù)學(xué)、編程等領(lǐng)域,強(qiáng)化學(xué)習(xí)確實(shí)能通過(guò)試錯(cuò)機(jī)制實(shí)現(xiàn)學(xué)習(xí)與進(jìn)步,但在部分領(lǐng)域,該技術(shù)仍未帶來(lái)明顯改善。
此外,推理模型在解答復(fù)雜問(wèn)題時(shí)會(huì)先進(jìn)行“思考”,采用分步解決的策略。然而,每個(gè)思考步驟都潛藏著產(chǎn)生“幻覺(jué)”的風(fēng)險(xiǎn),思考步驟越多,累積的錯(cuò)誤也就越多,這無(wú)疑給提升AI信息準(zhǔn)確性帶來(lái)更大挑戰(zhàn)。
如今的AI能夠展示思考過(guò)程,使用戶可以看到錯(cuò)誤產(chǎn)生的環(huán)節(jié),這無(wú)疑是技術(shù)層面的一大進(jìn)步。然而研究人員發(fā)現(xiàn),AI所展示的思考步驟可能與最終答案毫無(wú)關(guān)聯(lián)。Anthropic研究人員Aryo Pradipta Gema直言:“AI系統(tǒng)聲稱自己正在思考,但它的思考有時(shí)并無(wú)必要?!?/p>
一些研究人員甚至認(rèn)為,杜絕AI“幻覺(jué)”不可能實(shí)現(xiàn),只能通過(guò)多種方法降低“幻覺(jué)率”。比如讓AI直面自身知識(shí)盲區(qū),主動(dòng)向用戶承認(rèn)“我不知道”;引入“檢索增強(qiáng)生成”技術(shù),促使AI通過(guò)檢索相關(guān)文檔輔助作答,而非單純依賴記憶數(shù)據(jù)直接輸出答案。
美國(guó)東北大學(xué)體驗(yàn)式人工智能研究所研究人員Usama Fayyad提出,“幻覺(jué)”這一表述存在概念偏差,它過(guò)度擬人化。Usama Fayyad強(qiáng)調(diào),AI生成錯(cuò)誤信息與人類產(chǎn)生幻覺(jué)存在本質(zhì)差異——AI既無(wú)意圖,也無(wú)意識(shí),應(yīng)避免用帶有情感色彩的詞匯模糊技術(shù)本質(zhì)。(小刀)
- 華為鴻蒙電腦來(lái)了!真正挑戰(zhàn)Wintel的先鋒力量
- 模型越新幻覺(jué)越重!AI幻覺(jué)扣住產(chǎn)業(yè)發(fā)展命脈
- 超聚變閃耀數(shù)字中國(guó)建設(shè)峰會(huì):釋放數(shù)智生產(chǎn)力,共建智能體時(shí)代
- 外媒看上海車展:特斯拉再次缺席,中國(guó)車企集體閃耀
- 外媒:DeepSeek震撼世界 中國(guó)大學(xué)成為AI人才池
- 透視超聚變探索者大會(huì)2025:超聚變的“變”與“不變”
- 螞蟻上線100余個(gè)AI醫(yī)療智能體,“AI醫(yī)生”靠譜嗎?
- 5G-AxAI融智創(chuàng)新落地“浙里”,“杭州六小龍”或成群而來(lái)
- 美國(guó)電信業(yè)員工5年銳減14萬(wàn),原因何在?
- 通信+AI新動(dòng)向!德電與谷歌云合作開(kāi)發(fā)網(wǎng)絡(luò)智能體,優(yōu)化RAN運(yùn)營(yíng)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。