DeepSeek R1將模型訓(xùn)練推向基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練新范式,讓各行業(yè)也能快速構(gòu)建行業(yè)高質(zhì)量模型。后訓(xùn)練的核心主要在通過強(qiáng)化學(xué)習(xí)讓模型涌現(xiàn)出自我驗(yàn)證、自我思考的長CoT(思維鏈)能力,讓模型產(chǎn)生長CoT是后訓(xùn)練的推理任務(wù),因此強(qiáng)化學(xué)習(xí)(RL)需要進(jìn)行目標(biāo)模型的訓(xùn)練和推理,而目標(biāo)模型的推理和訓(xùn)練負(fù)載特征差異大,分離方案訓(xùn)練推理任務(wù)相互等待,資源利用率低。昇騰MindSpeed RL在后訓(xùn)練過程中采用訓(xùn)推共卡特性,讓訓(xùn)練推理任務(wù)分時(shí)利用集群資源,降低訓(xùn)推切換時(shí)延和內(nèi)存峰值,提升資源利用率和吞吐性能,是業(yè)界首個(gè)在大規(guī)模MoE模型RL訓(xùn)練上支持訓(xùn)推共卡。
強(qiáng)化學(xué)習(xí)后訓(xùn)練面臨的挑戰(zhàn)
強(qiáng)化學(xué)習(xí)的后訓(xùn)練是在預(yù)訓(xùn)練模型基礎(chǔ)上,通過SFT微調(diào)和強(qiáng)化學(xué)習(xí)算法進(jìn)一步優(yōu)化模型行為,其核心思想是將模型的輸出視為策略,利用獎(jiǎng)勵(lì)信號(hào)增強(qiáng)模型在特定領(lǐng)域的能力,只需少量高質(zhì)量數(shù)據(jù)即可大幅增強(qiáng)模型“慢思考”推理能力,提升模型在數(shù)學(xué)、代碼類等復(fù)雜邏輯推理中的表現(xiàn)。
強(qiáng)化學(xué)習(xí)RL后訓(xùn)練中存在Actor(即目標(biāo)模型)的生成、Ref/Reward/Critic等輔助模型計(jì)算、Actor訓(xùn)練等。由于Actor模型訓(xùn)練推理計(jì)算任務(wù)、內(nèi)存占用等負(fù)載特征差異大,需要采用不同并行策略才能實(shí)現(xiàn)較高系統(tǒng)吞吐。由于生成、推理、訓(xùn)練三個(gè)階段需要串行執(zhí)行,訓(xùn)練推理資源相互等待,存在大量模型級(jí)空泡,造成計(jì)算資源浪費(fèi),影響后訓(xùn)練的內(nèi)存和吞吐性能。
圖1:基于強(qiáng)化學(xué)習(xí)的Actor后訓(xùn)生成、推理、訓(xùn)練三階段示意
昇騰大規(guī)模MoE訓(xùn)推共卡強(qiáng)化學(xué)習(xí)
昇騰基于MindSpeed和vLLM開發(fā)訓(xùn)推共卡RL后訓(xùn)練方案,通過訓(xùn)推權(quán)重更新的通信優(yōu)化算法、在線并行策略轉(zhuǎn)換、訓(xùn)推共卡內(nèi)存調(diào)度等特性,實(shí)現(xiàn)在同一集群上完成Actor模型的訓(xùn)練及推理高效協(xié)同,解決大規(guī)模MoE模型后訓(xùn)練在訓(xùn)推分離架構(gòu)中權(quán)重更新時(shí)延高、硬件利用率低、并行策略轉(zhuǎn)換OOM等問題。
支持訓(xùn)推權(quán)重更新的通信優(yōu)化算法,時(shí)延降低50%
Actor模型訓(xùn)練推理最優(yōu)并行策略不同,模型訓(xùn)練內(nèi)存中存在優(yōu)化器及梯度,內(nèi)存占用大,需要采用更大的模型并行(TP、PP)才能完成訓(xùn)練。而推理中僅有模型權(quán)重為靜態(tài)內(nèi)存,僅需較小的模型并行(TP、PP)即可完成推理。模型權(quán)重更新切分的過程中存在大量數(shù)據(jù)同步的通信,通信時(shí)延高影響訓(xùn)推切換效率。昇騰訓(xùn)推權(quán)重更新的通信優(yōu)化算法,降低訓(xùn)推切換中的權(quán)重同步時(shí)延50%。
支持在線并行策略轉(zhuǎn)換,提升訓(xùn)推共卡系統(tǒng)資源利用40%
在MoE模型每一層的前向和反向計(jì)算中,各有兩次All2All通信,共計(jì)四次All2All通信,稱為Dispatch(F), Combine(F), Combine(B), Dispatch(B)。當(dāng)模型專家數(shù)量較多,需要專家并行域(EP)來對(duì)專家進(jìn)行EP并行切分,而采用vLLM等推理框架時(shí)不支持EP并行,因此訓(xùn)推切換時(shí)需要進(jìn)行EP轉(zhuǎn)TP。由于大規(guī)模MoE模型(如DeepSeek V3等)尺寸巨大(671B),僅權(quán)重就占據(jù)1.3TB內(nèi)存(BF16),導(dǎo)致訓(xùn)推EP轉(zhuǎn)TP過程存在較大OOM風(fēng)險(xiǎn)或面臨資源不足,無法inplace轉(zhuǎn)換。昇騰創(chuàng)新提出基于All2All的Direct EP2TP方案,在避免權(quán)重Resharding OOM的同時(shí),實(shí)現(xiàn)高效權(quán)重轉(zhuǎn)換。訓(xùn)推轉(zhuǎn)換時(shí)進(jìn)行在線EP轉(zhuǎn)TP,大大提升vLLM推理引擎推理吞吐性能。在時(shí)延劣化小于5%條件下后訓(xùn)練系統(tǒng)所需卡數(shù)降低30%,系統(tǒng)資源利用率提升40%。
支持訓(xùn)推共卡內(nèi)存調(diào)度,降低峰值內(nèi)存10%,提升推理吞吐性能15%
訓(xùn)推共卡場景中,訓(xùn)練優(yōu)化器狀態(tài)、梯度占據(jù)大量內(nèi)存,限制了推理階段可用內(nèi)存和系統(tǒng)吞吐。昇騰采用訓(xùn)推共卡內(nèi)存調(diào)度,推理態(tài)將訓(xùn)練權(quán)重、優(yōu)化器完全卸載至Host側(cè),增加推理態(tài)可用內(nèi)存;推理態(tài)結(jié)束后則將訓(xùn)練優(yōu)化器及梯度onload至NPU,完成模型訓(xùn)練,降低系統(tǒng)峰值內(nèi)存10%,推理吞吐提升15%。
訓(xùn)推共卡強(qiáng)化學(xué)習(xí)特性使用方法
方法1:
用戶在MindSpeed-RL目錄下調(diào)用腳本MindSpeed-RL/cli/train_grpo.py
腳本路徑:
http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000528G>
方法2:
用戶以模塊導(dǎo)入的方式調(diào)用訓(xùn)推共卡特性
參考mindspeed_rl/workers/actor_hybrid_worker.py中initialize、_build_sharding_manager方法和mindspeed_rl/models/rollout/vllm_engine.py中offload_model_weights、sync_model_weights方法
腳本路徑:
http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000629G>
http://www.picoinsstore.com/uploadfile/pic2020/2025/0326/2025032610000730G>
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )