DeepSeek 深度學(xué)習(xí)利器揭秘:DeepGEMM 開啟開源新篇章,探索深度學(xué)習(xí)未來

揭秘DeepGEMM:深度學(xué)習(xí)利器的新篇章

在當(dāng)今的深度學(xué)習(xí)領(lǐng)域,高效的矩陣乘法(GEMM)對(duì)于模型訓(xùn)練和推理至關(guān)重要。近日,DeepSeek“開源周”的進(jìn)度來到了3/5,推出了一款名為DeepGEMM的全新FP8 GEMM庫,旨在為高效且清晰的FP8通用矩陣乘法提供支持。DeepGEMM基于精細(xì)化縮放能力,支持普通的GEMM以及MoE分組GEMM,其在Hopper GPU上的性能表現(xiàn)尤為引人矚目。

DeepGEMM是一款專為高效且清晰的FP8通用矩陣乘法設(shè)計(jì)的庫,具備DeepSeek-V3所提出的精細(xì)化縮放能力。它不僅支持普通的GEMM,還支持Mix-of-Experts(MoE)分組GEMM,這為模型訓(xùn)練和推理提供了更大的靈活性。

DeepGEMM的設(shè)計(jì)簡(jiǎn)潔,核心內(nèi)核函數(shù)只有大約300行代碼,方便學(xué)習(xí)Hopper FP8矩陣乘法和優(yōu)化技術(shù)。盡管采用輕量設(shè)計(jì),DeepGEMM在多種矩陣形狀下的性能表現(xiàn)與專家優(yōu)化的庫相當(dāng),甚至更好。這充分證明了其高效性和靈活性。

值得注意的是,DeepGEMM不僅支持稠密布局,還支持兩種MoE布局。這使得它能夠適應(yīng)不同的應(yīng)用場(chǎng)景,滿足不同的需求。無復(fù)雜依賴、代碼簡(jiǎn)潔如教程以及完全采用即時(shí)編譯技術(shù)(Just-In-Time)等特點(diǎn),使其在大多數(shù)矩陣尺寸下超越了專家優(yōu)化的內(nèi)核。

DeepGEMM基于CUDA編寫,在安裝時(shí)無需預(yù)編譯,而是通過輕量級(jí)的即時(shí)編譯(JIT)模塊,在運(yùn)行時(shí)動(dòng)態(tài)編譯所有內(nèi)核。這種設(shè)計(jì)使得DeepGEMM能夠充分利用GPU的并行計(jì)算能力,提高運(yùn)行效率。

目前,DeepGEMM僅支持NVIDIA Hopper Tensor核心。為了應(yīng)對(duì)FP8 Tensor核心累加不精確的問題,它使用了CUDA核心的兩級(jí)累加(提升)方法。這種技術(shù)能夠有效地解決累加不精確的問題,提高計(jì)算精度。

DeepGEMM的出現(xiàn),無疑為深度學(xué)習(xí)領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。作為一款深度學(xué)習(xí)利器,它開啟了開源新篇章,為探索深度學(xué)習(xí)未來提供了新的可能。

DeepGEMM在各種矩陣形狀下的性能表現(xiàn)令人矚目,尤其是在H800上的測(cè)試中,使用NVCC 12.8測(cè)試了DeepSeek-V3/R1推理中可能用到的各種矩陣形狀(包括預(yù)填充和解碼,但不涉及張量并行)。所有加速指標(biāo)都是相對(duì)于我們內(nèi)部精心優(yōu)化的CUTLASS 3.6實(shí)現(xiàn)計(jì)算的。這表明DeepGEMM具有出色的性能和效率。

盡管DeepGEMM在某些矩陣形狀下的表現(xiàn)不盡如人意,但我們相信這只是暫時(shí)的。我們歡迎有興趣的朋友提交優(yōu)化PR,共同完善這款深度學(xué)習(xí)利器。通過開源的方式,我們希望能夠匯聚更多的力量,共同推動(dòng)深度學(xué)習(xí)領(lǐng)域的發(fā)展。

總的來說,DeepGEMM的推出是深度學(xué)習(xí)領(lǐng)域的一次重大突破。它以其高效、靈活、簡(jiǎn)潔的設(shè)計(jì),為深度學(xué)習(xí)模型訓(xùn)練和推理提供了新的可能。作為一款深度學(xué)習(xí)利器,DeepGEMM開啟了開源新篇章,讓我們共同期待它為深度學(xué)習(xí)未來帶來的更多可能性。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-02-26
DeepSeek 深度學(xué)習(xí)利器揭秘:DeepGEMM 開啟開源新篇章,探索深度學(xué)習(xí)未來
DeepGEMM是一款專為高效FP8通用矩陣乘法設(shè)計(jì)的庫,支持普通GEMM和MoE分組GEMM,具有精細(xì)化縮放能力,性能表現(xiàn)優(yōu)異。DeepGEMM開啟了深度學(xué)習(xí)開源新篇章。

長按掃碼 閱讀全文