標題:DeepSeek引發(fā)熱議:技術成本挑戰(zhàn)與算力未來的辯論
DeepSeek的出現(xiàn)無疑在AI大模型領域引發(fā)了一場熱議。憑借其驚人的性能表現(xiàn)和低成本訓練模式,DeepSeek迅速吸引了全球關注,熱度一直不減。然而,隨之而來的,是其成本、技術以及為未來作為大模型基礎設施的算力引發(fā)了爭議。
首先,我們來看DeepSeek的成本問題。DeepSeek在原始報告中詳細解釋了這筆成本的計算:在預訓練階段,每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在擁有2048個H800 GPU的集群上需要3.7天。因此,我們的預訓練階段在不到兩個月的時間內(nèi)完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時,DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。然而,知名的SemiAnalysis發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中指出,DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分。他們在硬件上的花費遠高于這個數(shù)字。例如,為了開發(fā)新的架構創(chuàng)新,在模型開發(fā)過程中,需要投入大量資金來測試新想法、新架構思路,并進行消融實驗。開發(fā)和實現(xiàn)這些想法需要整個團隊投入大量人力和GPU計算時間。例如DeepSeek的關鍵創(chuàng)新—多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數(shù)月時間。這一點也得到了外媒的報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100 GPU,耗時26分鐘就完成了訓練,成功“打造”出了一個名為s1-32B的人工智能推理模型。由此可見,DeepSeek的成本并非如一些觀點所認為的那樣低廉。
接下來是技術問題。關于DeepSeek是否使用了蒸餾技術,這是目前爭議的另一個焦點。最先提出質(zhì)疑的是OpenAI和微軟,他們向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術,利用OpenAI專有模型來訓練其AI大模型。盡管蒸餾是一項常見的技術手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。這一點也得到了蔡恒進教授的觀點支持。他認為DeepSeek在生成模型的成本在報告中已經(jīng)寫的很清晰了,過于糾結(jié)前期的投入,有多少實際成本是不重要的,特別是對于國內(nèi)產(chǎn)業(yè)成本很低的情況下,前期做研究的成本也會比美國低很多。此外,蒸餾業(yè)內(nèi)通行做法,是非公婆各有理。
最后是算力問題?;谖覀兦笆龀杀镜膬?yōu)勢,有業(yè)內(nèi)觀點認為DeepSeek的出現(xiàn)打破了英偉達等科技巨頭“堆積算力”的路徑。也就是說,美國AI巨頭們認定的那個靠錢、靠更高算力芯片才能堆出來的更好的模型,不需要那么高昂的門檻了。然而蔡恒進教授對此持有不同觀點。他認為DeepSeek的發(fā)展走出了另一條路,即不一定要提升很高的參數(shù)規(guī)模就能實現(xiàn)很高的性能,可能對算力需求至少降到10倍以上?!岸阉懔Α北旧頉]有錯,但隨著Deepseek的出現(xiàn)我們會發(fā)現(xiàn)這條路的性價比不高。DeepSeek-V3極低的訓練成本預示著AI大模型對算力投入的需求將大幅下降。然而也有觀點認為DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計口徑只計算了預訓練,數(shù)據(jù)的配比需要做大量的預實驗,合成數(shù)據(jù)的生成和清洗也需要消耗算力。
回顧這場熱議,我們不禁要問:DeepSeek引發(fā)熱議究竟是技術的勝利還是成本的挑戰(zhàn)?是算力的未來還是技術的瓶頸?這一切都取決于我們?nèi)绾慰创屠斫釪eepSeek。我們不能忽視的是DeepSeek在技術上的創(chuàng)新和突破,也不能低估其對于未來AI發(fā)展的影響。與此同時,我們也應看到其面臨的成本和技術挑戰(zhàn),以及對于算力需求的潛在變化。這些變化將如何影響未來的AI發(fā)展?讓我們拭目以待。畢竟,“讓子彈再飛一會”吧!
- 坦克400柴油版:回歸實用主義,售價24.98萬元起,不花哨的硬派越野車
- 優(yōu)步CEO揭秘:馬斯克拒絕合作無人出租車業(yè)務,背后真相究竟如何?
- 青島消防新裝備:機器狗,3.6小時不間斷救援,實力演繹科技救援
- 王興興直言:國內(nèi)教育體系陳舊,亟需改革
- 馬斯克飛行汽車試飛:顛覆傳統(tǒng)交通,200萬飛行新時代?
- 俞敏洪反思教育弊端:傳統(tǒng)教育改革迫在眉睫
- 馬斯克砍向自動駕駛監(jiān)管:裁員美國交管局,自動駕駛監(jiān)管人員減半,引發(fā)行業(yè)震動
- 字節(jié)AI團隊大變陣辟謠后:揭露背后不實信息的真實面目
- 360董事長周鴻祎宣布:取消抖音送車門檻,2月28日直播大放送,不再夸大宣傳,真實抽獎!
- 北京新規(guī):燃油車占用充電車位將被罰款+拖離,綠色出行新風尚
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。