螞蟻集團推出新型大模型,國產芯片助力訓練成本大幅降低,引領人工智能新潮流

螞蟻集團推出新型大模型,國產芯片助力訓練成本大幅降低,引領人工智能新潮流

隨著科技的飛速發(fā)展,人工智能(AI)已成為推動社會進步的重要力量。尤其在自然語言處理(NLP)領域,大模型已經成為推動技術進步的關鍵。近日,螞蟻集團Ling團隊在預印版Arxiv平臺發(fā)表技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數(shù)混合專家LING大模型》,宣布推出兩款不同規(guī)模的MoE(混合專家)大語言模型——百靈輕量版和百靈增強版,并提出一系列創(chuàng)新方法,實現(xiàn)在低性能硬件上高效訓練大模型,顯著降低成本。這一突破性成果,無疑將引領人工智能新潮流。

首先,我們要理解螞蟻集團Ling團隊推出的這兩款新型大模型的特點和優(yōu)勢。百靈輕量版參數(shù)規(guī)模為168億(激活參數(shù)27.5億),性能達到行業(yè)領先水平。而百靈增強版基座模型參數(shù)規(guī)模高達2900億(激活參數(shù)288億),性能同樣卓越。這兩款模型在實驗中表現(xiàn)出色,能夠在使用國產GPU的低性能設備上完成高效訓練,性能與完全使用英偉達芯片、同規(guī)模的稠密模型及MoE模型相當。

更重要的是,螞蟻集團Ling團隊提出的目標——“不使用高級GPU”擴展模型,通過創(chuàng)新訓練策略,突破資源與預算限制。這一目標對于許多資源受限的環(huán)境來說,具有重大的現(xiàn)實意義。團隊采用的策略包括:架構與訓練策略革新,采用動態(tài)參數(shù)分配與混合精度調度技術;升級訓練異常處理機制,自適應容錯恢復系統(tǒng)縮短中斷響應時間;優(yōu)化模型評估流程,自動化評測框架壓縮驗證周期超50%;突破工具調用能力,基于知識圖譜的指令微調提升復雜任務執(zhí)行精度。這些策略的實施,使得在低性能硬件上也能高效訓練大模型,顯著降低了成本。

再者,螞蟻集團的技術成果若得到驗證推廣,將助力國產大模型尋找成本更低、效率更高的國產芯片或其他替代方案,進一步降低對英偉達芯片的依賴。這不僅意味著成本的降低,更意味著技術自主可控的推進,對于國家安全和產業(yè)發(fā)展都具有重大意義。

值得注意的是,螞蟻集團的技術突破并非孤例。近年來,隨著AI技術的飛速發(fā)展,越來越多的科研機構和企業(yè)開始關注并投入到大模型的研究和應用中。在此背景下,國產芯片在訓練大模型中的應用也得到了顯著提升。以英偉達為代表的國外芯片廠商一直占據著AI市場的領先地位,而隨著國內芯片技術的進步,越來越多的企業(yè)開始探索使用國產芯片進行大模型的訓練。這無疑為降低訓練成本、提高訓練效率開辟了新道路。

此外,螞蟻集團Ling團隊在論文中還展示了在五種不同硬件配置下,對9萬億個token進行預訓練的結果。結果顯示,使用高性能硬件配置訓練1萬億token的預訓練成本約635萬元人民幣,而采用螞蟻優(yōu)化方法后,低規(guī)格硬件訓練成本降至508萬元左右,節(jié)省近20%,且性能與阿里通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當。這一結果進一步驗證了螞蟻集團Ling團隊的創(chuàng)新訓練策略的有效性。

總的來說,螞蟻集團推出新型大模型,以及國產芯片在訓練大模型中的應用,都顯示出人工智能領域的巨大潛力和發(fā)展前景。我們期待看到更多的科研機構和企業(yè)投入到這一領域的研究和應用中來,共同推動人工智能技術的發(fā)展,為人類社會的進步做出更大的貢獻。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2025-03-24
螞蟻集團推出新型大模型,國產芯片助力訓練成本大幅降低,引領人工智能新潮流
螞蟻集團推出新型大模型,國產芯片助力訓練成本大幅降低,引領人工智能新潮流 隨著科技的飛速發(fā)展,人工智能(AI)已成為推動社會進步的重...

長按掃碼 閱讀全文