国产手机在线人成视频,在线精品日韩一区二区三区

訓(xùn)練AI模型可能不需要龐大的數(shù)據(jù)中心

人閱讀

2025-01-16 07:07:01

來源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

未來AI模型訓(xùn)練或許無需專用硬件，分布式訓(xùn)練正改變規(guī)則，降低成本的同時(shí)提升模型泛化能力。

曾經(jīng)全球富豪熱衷于攀比游艇、私人飛機(jī)和島嶼，如今則是超級(jí)計(jì)算集群的較量。18個(gè)月前，OpenAI用約2.5萬張Nvidia頂級(jí)GPU訓(xùn)練了GPT-4，而Elon Musk和Mark Zuckerberg則以更龐大的數(shù)據(jù)中心宣告自己的技術(shù)雄心：Musk稱他有10萬張GPU，計(jì)劃增至20萬，Zuckerberg則宣稱將達(dá)到35萬。

這種為更強(qiáng)AI模型建造超大計(jì)算集群的競爭無法無限持續(xù)。每增加一片芯片，不僅帶來計(jì)算力，還增加同步負(fù)擔(dān)。隨著芯片數(shù)量增多，數(shù)據(jù)中心用于數(shù)據(jù)傳輸?shù)臅r(shí)間遠(yuǎn)多于實(shí)際計(jì)算工作，收益逐漸遞減。

計(jì)算機(jī)科學(xué)家正探索更智能、更省資源的訓(xùn)練方法。一種可能是放棄專用大型計(jì)算集群，改用多個(gè)小型數(shù)據(jù)中心分布式完成訓(xùn)練任務(wù)。一些專家甚至認(rèn)為，這可能為更激進(jìn)的目標(biāo)鋪平道路：完全擺脫專用硬件進(jìn)行訓(xùn)練。

現(xiàn)代AI系統(tǒng)的訓(xùn)練依賴于隱藏部分?jǐn)?shù)據(jù)后讓模型預(yù)測結(jié)果。若預(yù)測錯(cuò)誤，使用反向傳播方法調(diào)整模型參數(shù)，使其逐漸接近正確答案。問題在于，當(dāng)需要同時(shí)用兩塊或20萬塊GPU進(jìn)行訓(xùn)練時(shí)，每一步都需分享調(diào)整結(jié)果，以確保所有芯片協(xié)同工作。這個(gè)過程叫“檢查點(diǎn)記錄”，隨著芯片數(shù)量增加，其復(fù)雜度和耗時(shí)迅速上升。對(duì)于大規(guī)模訓(xùn)練，近一半時(shí)間可能都花在了記錄檢查點(diǎn)上。

Google DeepMind工程師Arthur Douillard提出一個(gè)創(chuàng)新：減少檢查點(diǎn)記錄頻率。2023年底，他和團(tuán)隊(duì)發(fā)表了一種名為“分布式低通信語言模型訓(xùn)練”(DiLoCo)的方法，建議將訓(xùn)練分散到多個(gè)“島嶼”式數(shù)據(jù)中心。島內(nèi)仍按常規(guī)記錄，但島間通信負(fù)擔(dān)減少了500倍。

這種方法存在權(quán)衡。與在單一數(shù)據(jù)中心訓(xùn)練的模型相比，分布式訓(xùn)練模型在特定任務(wù)中的表現(xiàn)略遜一籌，但在應(yīng)對(duì)全新問題時(shí)表現(xiàn)更優(yōu)。這或許是因?yàn)槊總€(gè)“島嶼”在少受約束的間隙能探索更多路徑，類似大學(xué)生分組研究，盡管任務(wù)聚焦度下降，但經(jīng)驗(yàn)更豐富。

Prime Intellect創(chuàng)始人Vincent Weisser基于DiLoCo方法開發(fā)了OpenDiLoCo，并用30個(gè)GPU集群訓(xùn)練了10億參數(shù)模型Intellect-1，結(jié)果顯示效率顯著提升。Weisser表示，這種方法不僅降低了對(duì)稀缺大型數(shù)據(jù)中心的依賴，也讓訓(xùn)練資源更分散，避免過度集中于某一國家或公司。

未來的夢(mèng)想是徹底擺脫專用硬件，將訓(xùn)練任務(wù)分配到消費(fèi)級(jí)設(shè)備上，比如數(shù)以億計(jì)的iPhone。然而，這需要克服硬件性能和存儲(chǔ)瓶頸，還需全新計(jì)算技術(shù)支持。盡管挑戰(zhàn)巨大，分布式訓(xùn)練方法的潛力令人期待。訓(xùn)練成本降低后，或許富豪們將需要尋找新的競爭對(duì)象了。

本文譯自 economist，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）