感到Manus壓力,OpenAI連夜發(fā)布Agent工具!辨識AI Agent優(yōu)劣專家有話說

3月12日消息,近期,國產(chǎn)通用智能體(Agent)產(chǎn)品Manus風頭十足,刷屏海內外社媒。Manus在出道之初就號稱:在通用AI助手基準測試GAIA的全部難度級別中的評分甚至遠遠超越OpenAI的DeepResearch。

Manus掀起的Agent風暴,讓OpenAI也坐不住了。

今天凌晨,OpenAI發(fā)布一套新的API和內置工具、Agents SDK,專門用于簡化Agent應用程序的開發(fā),包括:

1、新的Responses API,將Chat Completions API簡單性與Assistants API工具使用功能相結合,用于構建智能體(Agent)

2、內置工具,包括網(wǎng)絡搜索、文件搜索、計算機使用(Computer Use)

3、新的智能體SDK(Agents SDK),用于編排單智能體和多智能體工作流

4、集成的可視化工具,用于跟蹤和檢查智能體工作流執(zhí)行情況

OpenAI稱,這些新工具簡化了核心智能體(Agent)邏輯、編排和交互,使開發(fā)人員更容易開始構建智能體(Agent)。

事實上,早在Manus引燃市場對AI Agent產(chǎn)品的熱情之前,人工智能業(yè)內對智能體(Agent)的興趣就很高,這些AI Agent能夠自主運行并在各個行業(yè)中執(zhí)行復雜任務,因此這項快速發(fā)展的技術被認為為業(yè)務提供了變革性的機遇。

不過,與AI Agent熱相伴的,還有“Agent Washing”現(xiàn)象,也就是一些Agent廠商夸大其產(chǎn)品的功能,通過重新品牌化現(xiàn)有技術為AI Agent,然而實際上卻未能驗證這些聲稱的真實Agent能力。

Gartner研究副總裁孫鑫表示,AI Agent的最佳定義是:利用人工智能進行感知、決策、采取行動,并在數(shù)字或物理環(huán)境中自主或半自主地追求既定目標的軟件實體。真正的AI Agent具備適應、規(guī)劃和獨立行動的能力,從而能夠在較長時間內實現(xiàn)組織的目標。所需的能力超越了傳統(tǒng)的AI助手、機器人流程自動化(RPA)工具與聊天機器人。

那么,在我們等待Manus邀請碼的時期,先看看OpenAI新發(fā)布的Agent工具都有哪些能力。

OpenAI幾大全新工具,構建更強大智能體

1、Responses API及內置工具

Responses API專為那些希望將OpenAI模型和內置工具輕松組合到應用程序中的開發(fā)人員設計。Responses API是一個統(tǒng)一API,可支持多輪交互和工具調用。通過一個Responses API調用,開發(fā)人員將能夠使用多個工具和模型回合來解決日益復雜的任務。

對于此次Agent工具包的發(fā)布帶來的影響,OpenAl表示,已將原有的Assistants API關鍵改進整合進今日發(fā)布的Responses API 中,使其更靈活、更快速、更易于使用。

OpenAl認為,Responses API 代表了在 OpenAI上構建代理的未來方向。預計2026年年中,OpenAl將正式棄用 Assistants API。

Responses API將支持新的內置工具,如網(wǎng)絡搜索、文件搜索和計算機使用。

其中,“網(wǎng)絡搜索工具”可讓模型即時訪問互聯(lián)網(wǎng)信息,與驅動ChatGPT Search是相同模型提供支持。在SimpleQA(一個評估LLM在回答簡短事實問題方面準確性的基準)上,GPT-4o和GPT-4o mini的得分分別為90%和88%。

“文件搜索”工具支持多種文件類型、查詢優(yōu)化、元數(shù)據(jù)過濾和自定義重新排序,它可以提供快速、準確的搜索結果。同樣,使用Responses API,只需要幾行代碼就可以集成。

“計算機使用工具”在API中被稱為Operator,為了構建能夠在計算機上完成任務的代理,開發(fā)人員可以在Responses API中使用計算機使用工具,該工具由啟用Operator的相同計算機使用代理(CUA)模型提供支持。內置的計算機使用工具捕獲模型生成的鼠標和鍵盤操作,使開發(fā)人員能夠通過將這些操作直接轉換為其環(huán)境中的可執(zhí)行命令來自動化計算機使用任務。

OpenAl表示,這項研究預覽模型創(chuàng)造了新的最先進的記錄,在OSWorld上實現(xiàn)了38.1%的完全計算機使用任務的成功率,在WebArena上實現(xiàn)了58.1%的成功率,在WebVoyager實現(xiàn)了87%的基于網(wǎng)絡的交互成功率。

從今天起,所有開發(fā)者均可使用Responses API,且無額外使用費用——相關的token和工具調用將按照OpenAl定價頁面上的標準費率收費。

2、新的Agents SDK

OpenAl新的開源代理SDK簡化了多代理工作流的編排,并對Swarm進行了重大改進?,改進包括:

代理:易于配置的LLM,具有清晰的說明和內置工具。

交接:智能地在代理之間轉移控制權。

護欄:用于輸入和輸出驗證的可配置安全檢查。

跟蹤和可觀察性:可視化代理執(zhí)行跟蹤以調試和優(yōu)化性能。

Agents SDK適用于各種現(xiàn)實世界的應用程序,包括客戶支持自動化、多步驟研究、內容生成、代碼審查和銷售勘探。

例如,Coinbase使用Agents SDK快速原型化和部署AgentKit,在短短幾個小時內,Coinbase將來自其開發(fā)者平臺SDK的自定義操作集成到一個功能齊全的代理中。AgentKit的精簡架構簡化了添加新代理操作的過程,讓開發(fā)人員更專注于有意義的集成,而不是導航復雜的代理設置。

Agents SDK可與Responses API和Chat Completions API協(xié)同工作。

同時,該SDK也支持其他提供商的模型,只要它們提供Chat Completions類型的API端點。開發(fā)者現(xiàn)在就能將其集成到Python代碼庫中,Node.js支持也即將推出。

另外,OpenAI表示,在接下來的幾周和幾個月里,計劃發(fā)布更多的工具和功能,以進一步簡化和加速在平臺上構建代理應用程序。

AI智能體迎來爆發(fā),如何辨別優(yōu)劣?

根據(jù)此前OpenAI公開的技術發(fā)展路線,OpenAI認為AI從大語言模型的突破到真正走向通用人工智能會有幾個發(fā)展階段:

第一階段,語言能力。像ChatGPT這樣的可以和人類用自然語言對話的聊天機器人。

第二階段,推理能力。所謂的“推理”就是可以和人類一樣去解決問題。

第三階段,Agent能力。AI智能體實際上最后會和人類一樣去做事情。

DeepSeek的出現(xiàn),讓人們看到了AI大模型推理能力的驚艷表現(xiàn),現(xiàn)在Manus的出現(xiàn),又直觀展現(xiàn)了Agent對生產(chǎn)生活可能帶來變革影響,催化AIAgent產(chǎn)業(yè)化發(fā)展加速。

據(jù)MarketsandMarkets的數(shù)據(jù),全球AIAgent市場規(guī)模將從2024年的51億美元增至2030年的471億美元,年復合增長率達44.8%。

去年底,Gartner發(fā)布2025 年十大戰(zhàn)略技術趨勢,其中,Gartner預測,到2028年至少有15%的日常工作決策將由代理型AI(AI智能體)自主做出,而2024年這一比例為0%。

不過,在龍蛇混雜的AIAgent市場,Gartner研究副總裁孫鑫強調:“鑒于‘Agent Washing’帶來的風險,企業(yè)機構應采取詳盡的方法來評估供應商的產(chǎn)品。建議請求詳細的演示,并要求與企業(yè)業(yè)務應用場景相關的部署參考。同時,對支撐AI Agent發(fā)展的架構和技術選擇進行嚴格評估也至關重要。”

同時,孫鑫指出,AI Agent的最佳定義是:利用人工智能進行感知、決策、采取行動,并在數(shù)字或物理環(huán)境中自主或半自主地追求既定目標的軟件實體。真正的AI Agent具備適應、規(guī)劃和獨立行動的能力,從而能夠在較長時間內實現(xiàn)組織的目標。所需的能力超越了傳統(tǒng)的AI助手、機器人流程自動化(RPA)工具與聊天機器人。(果青)

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2025-03-12
感到Manus壓力,OpenAI連夜發(fā)布Agent工具!辨識AI Agent優(yōu)劣專家有話說
3月12日消息,近期,國產(chǎn)通用智能體(Agent)產(chǎn)品Manus風頭十足,刷屏海內外社媒。

長按掃碼 閱讀全文