国产阿v视频高清在线观看,人人妻人人爽人人澡欧美一区,欧美国产日韩精品

3月1日消息，AI公司DeepSeek為期五天的 “代碼開源周” 告一段落。

本周一至周五，DeepSeek以每日不定時一更的頻率，開源多個代碼庫，涵蓋FlashMLA、DeepEP通信庫、DeepGEMM、并行優(yōu)化策略、并行文件系統(tǒng)3FS。

DeepSeek認為：通用人工智能（AGI）不存在“高高在上的象牙塔”，而是秉持車庫創(chuàng)業(yè)精神，與社區(qū)共同構(gòu)建創(chuàng)新力量。

五天的代碼開源，展示了DeepSeek在優(yōu)化大模型訓練、推理、通信以及文件系統(tǒng)方面的技術創(chuàng)新與突破。這些開源項目不僅提升了AI模型的性能和效率，也為AI領域的研究者和開發(fā)者提供了寶貴的資源和工具。

從模型開源，到代碼開源，DeepSeek憑一己之力，重塑了大模型世界。

英偉達跌落神壇

在這一周里，AI大模型火起來至今的最大贏家（賺錢最多）英偉達發(fā)布了最新財報。但是股價已經(jīng)連跌多日，從130多美元跌到120美元左右。

英偉達2025財年第四季度營收同比增長78%，較此前連續(xù)五個季度三位數(shù)增長的態(tài)勢顯著放緩，且同比增速為近兩年來最低水平。2024財年第四季度曾達到265%的峰值?。

分析師們在分析英偉達營收增速放緩的原因時認為一方面是微軟、Meta等核心客戶同步研發(fā)自研芯片以減少對英偉達的依賴；一方面是?DeepSeek-R1低成本AI模型降低算力需求，部分削弱市場對英偉達高端芯片的依賴?。

當日，英偉達股價大跌8.5%，市值蒸發(fā)2740億美元。

一個月前，DeepSeek發(fā)布的低成本、高性能開源推理模型R1引發(fā)市場震動，英偉達股價一度暴跌近17%。

盡管英偉達CEO黃仁勛強調(diào)，DeepSeek的開源工具和低成本模型雖然對行業(yè)產(chǎn)生了沖擊，但英偉達通過軟硬件協(xié)同優(yōu)化，依然保持了在AI芯片領域的領先地位。

但是也未能阻止投資者對其業(yè)績增速放緩、毛利率下降及中國AI公司DeepSeek的影響的擔憂。

被改變的還有同行。

OpenAI最新大模型GPT-4.5被槽太貴

閉源大模型no1的OpenAI在周五發(fā)布了最新的最強大模型GPT-4.5，當然也是最貴的。

GPT-4.5是OpenAI史上參數(shù)規(guī)模最大的模型，其計算量是上一代的10倍。GPT-4.5的API價格為每百萬Tokens 75美元，相較上一代GPT-4o的2.5美元上漲30倍。

GPT-4.5不是一個專注于推理的模型，GPT-4.5并不能完全替代GPT-4o，在基準測試中它的某些能力低于o1、o3-mini。

這款被網(wǎng)友吐槽“貴得要死”的大模型，并沒能如OpenAI此前的歷屆旗艦大模型發(fā)布時一樣引發(fā)好評熱議如潮?，F(xiàn)在，更多人會用DeepSeek來酸它：有免費好用的DeepSeek開源可用，給我一個花這么多錢用你的理由？

附上DeepSeek代碼開源周內(nèi)容：

2月24日：Flash MLA開源

（詳情： https://www.techweb.com.cn/it/2025-02-24/2957370.shtml）

?開源內(nèi)容?：DeepSeek開源了Flash MLA，這是一個針對英偉達Hopper GPU優(yōu)化的高效MLA（Multi-head Latent Attention，多頭潛注意力）解碼內(nèi)核。

?核心特性?：特別針對可變長度序列進行優(yōu)化，使用基準為Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平臺上，內(nèi)存受限配置下可達最高3000GB/s，計算受限配置下可達峰值580 TFLOPS。

?技術亮點?：FlashMLA的設計參考了FlashAttention 2&3以及CUTLASS的技術實現(xiàn)，通過KV壓縮與潛在變量、低秩降維技術、動態(tài)序列處理等優(yōu)化，顯著減少了大模型訓練和推理過程中的內(nèi)存占用。

2月25日：DeepEP通信庫開源

（詳情：https://www.techweb.com.cn/it/2025-02-25/2957421.shtml）

?開源內(nèi)容?：DeepSeek開源了DeepEP，這是一個用于MoE（混合專家）模型訓練和推理的EP（Expert Parallelism）通信庫。

?核心特性?：為所有GPU內(nèi)核提供高吞吐量和低延遲，支持低精度操作（包括FP8）。針對NVLink到RDMA的非對稱帶寬轉(zhuǎn)發(fā)場景進行深度優(yōu)化，提供高吞吐量，并支持SM數(shù)量控制。

?技術亮點?：對于對延遲敏感的推理解碼，DeepEP包含一組低延遲內(nèi)核和純RDMA，以最大限度地減少延遲。同時，引入了一種基于鉤子的通信計算重疊方法，不占用任何SM資源。

2月26日：DeepGEMM代碼庫開源

?（詳情：https://www.techweb.com.cn/it/2025-02-26/2957487.shtml）

開源內(nèi)容?：DeepSeek開源了DeepGEMM代碼庫，專為簡潔高效的FP8通用矩陣乘法（GEMMs）而設計。

?核心特性?：同時支持普通的和專家混合（MoE）分組的GEMM運算，為V3/R1訓練和推理提供動力支持。使用CUDA編寫，無需編譯，通過輕量級即時編譯模塊在運行時編譯所有內(nèi)核。

?技術亮點?：DeepGEMM設計簡潔，代碼量約為300行，但性能在各種矩陣形狀上與專家調(diào)優(yōu)的庫相匹配或超越。在H800上測試，計算性能最高可達1358 TFLOPS，內(nèi)存寬帶最高可達2668 GB/s。

2月27日：并行優(yōu)化策略開源

（詳情：https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml）

開源內(nèi)容?：DeepSeek開源了三項并行優(yōu)化策略，包括DualPipe、EPLB和Profile-data。

DualPipe?：一種用于V3/R1模型訓練中實現(xiàn)計算與通信重疊的雙向流水線并行算法，顯著減少管道氣泡（空閑時間）。

EPLB?：一個針對V3/R1的專家并行負載均衡工具，根據(jù)估計的專家負載計算平衡的專家復制和放置計劃。

Profile-data?：DeepSeek基礎設施中的數(shù)據(jù)分析，包括來自訓練和推理框架的性能剖析數(shù)據(jù)，旨在幫助社區(qū)更深入地理解通信與計算重疊策略及相關底層實現(xiàn)細節(jié)。

2月28日：3FS文件系統(tǒng)開源

?（詳情：https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml）

開源內(nèi)容?：DeepSeek開源了Fire-Flyer文件系統(tǒng)（3FS），一個高性能并行文件系統(tǒng)。

?核心特性?：應對AI訓練和推理工作負載的挑戰(zhàn)，利用現(xiàn)代SSD和RDMA網(wǎng)絡提供共享存儲層，簡化分布式應用程序的開發(fā)。在由180個存儲節(jié)點組成的大型測試集群上，總讀取吞吐量達到約6.6個TIB/S。

?技術亮點?：3FS的主要功能和優(yōu)勢包括性能和可用性、強一致性、文件接口開發(fā)、多樣化的工作負載（如數(shù)據(jù)準備、數(shù)據(jù)加載器、檢查點、用于推理的KVCache）等。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

DeepSeek代碼開源周收官，世界已經(jīng)變了

下一篇

DeepSeek代碼開源周收官，世界已經(jīng)變了

下一篇

DeepSeek代碼開源周收官，世界已經(jīng)變了