從14核CPU到AI游戲,淺析Arm新架構(gòu)的更多細節(jié)

前段時間,我們?nèi)咨钜呀?jīng)給大家分析過Arm最新一代的CPU和GPU架構(gòu)設(shè)計,不過當(dāng)時的資料主要還是來源于官方博客文章,以及面向大眾公布的相關(guān)信息。

考慮到這些資料的宣傳目的,它們通常并不會講得特別詳細,特別是在一些技術(shù)細節(jié)、研發(fā)背景等方面往往會比較為缺乏。這也就是為什么我們會在當(dāng)時的內(nèi)容中指出其中的一些性能對比的數(shù)據(jù)缺乏參數(shù)說明,甚至可能會影響到可信度的原因。

日前在參與了Arm方面召開的技術(shù)溝通活動,并與相關(guān)專家們近距離接觸后,我們也終于得以為大家揭示更多關(guān)于Arm最新一代消費級計算終端平臺的更多細節(jié)。

從X4到X925,命名規(guī)則大改背后的邏輯

這次首先要說的,就是Arm本世代產(chǎn)品線的命名改變。

眾所周知,過去Arm的“超大核”在命名上采用了很特別的單位數(shù)規(guī)則,即從Cortex-X1到X4。這些名稱有兩個好處,其一是它可以清晰地表明架構(gòu)的代次,第二點就是這種單位數(shù)命名完全不同于大核(Cortex-A700系列)和小核(Cortex-A500系列)的形式,會讓人“一眼就感受到”超大核的特殊地位。

但這種情況,在這一代上明顯發(fā)生了改變。按照Arm方面最開始的說法,他們之所以要將新的超大核命名為Cortex-X925,主要是想要體現(xiàn)其(相對于以前的Cortex-X系列)取得了有史以來最大的代際性能進步。

有意思的是,當(dāng)我們?nèi)咨钐岢?,新的命名反而可能會讓這一代的“超大核”看起來顯得不那么“特別”后,Arm方面顯得相當(dāng)驚訝,但他們也因此進行了一些很有價值的補充說明。

其一,是Cortex-X925這次雖然換用了與大核、小核相同“規(guī)則”的命名方式,但它的定位并沒有降低,依然是旗艦專屬。Arm方面的相關(guān)人士甚至還專門強調(diào),Cortex-X925并不會成為通用產(chǎn)品,Cortex-X 系列持續(xù)定位為Arm和合作伙伴定制合作的專用旗艦平臺。

其次在Arm方面看來,Cortex-X925這個新的名稱,也有為了顯示其與新的Immortalis-G925旗艦GPU“相配”的意思。當(dāng)然,這對于Arm在推廣旗艦組合方面,也可以讓客戶和生態(tài)伙伴更易于連結(jié)。

智能手機何必只有8核,Arm已經(jīng)鋪平了道路

其次,在提到如今智能手機SoC中CPU的核心布局時,許多朋友想必首先都會想到“8核CPU”這個概念。即便是在最近這兩年,一些頂級旗艦SoC里的“大中小”CPU核心組合比例發(fā)生了各種各樣的變化,但它們絕大多數(shù)還是維持在“總共8核”的水平上。

但是在我們?nèi)咨羁磥恚缃襁@種對于“8核CPU”的堅持,其實未必是源自軟件優(yōu)化方面的需求,因為具體到應(yīng)用上,實際上并沒有幾個軟件真的能夠“完全吃滿”8個CPU線程。在實際使用中,反而更多的場景都是許多軟件在“共享”CPU的資源,它們有的可能只能用到1顆核心、有的可以用到2核心,還有的可能可以同時使用4個核心,靠的都是手機自身在進行智能調(diào)度。

換句話說,實際上對于如今的智能手機而言,超過8顆的CPU核心設(shè)計未必會有什么優(yōu)化問題。因為根據(jù)Arm新發(fā)布的終端CSS,連接CPU核心的DSU-120可支持高達14顆核心,而且,Arm實際上在最新一代的產(chǎn)品組合里,就提供了相當(dāng)有“想象力”的CPU組合方案,比如它甚至可以支持12顆Cortex-X925搭配2顆Cortex-A725、從而組成驚人的14核CPU配置。

在此基礎(chǔ)上,綜合各方面的已知信息來看,真正制約了如今智能手機SoC核心數(shù)量的因素,其實是芯片設(shè)計時的面積控制需求。比如Arm的發(fā)言人就提到,最近幾年手機SoC里的CPU部分所占用的面積幾乎是“原地踏步”。而在我們?nèi)咨羁磥?,為了給其他更“熱門”的計算單元(比如ISP或NPU)騰出面積,或許才是導(dǎo)致芯片廠商大多不敢突破8核心CPU的原因所在。

針對這一點,Arm終端CSS可以彈性面向多樣市場。比如,他們?yōu)橹髁飨M技術(shù)市場提供Cortex-A725的面積優(yōu)化實現(xiàn)。這種設(shè)計下的Cortex-A725雖然跑不到很高的頻率,卻可以顯著縮小面積、同時保障IPC和能效不降低。筆者認(rèn)為,這其實就是在鼓勵有“追求”的SoC廠商可以“大核當(dāng)小核用”,從而塞進更多的大核、甚至是超大核在他們的SoC里。

重視光柵性能提升,Arm新款GPU的方向?qū)α?/strong>

除了更大膽的CPU設(shè)計,Arm這一代的GPU方案也有一些潛在的亮點。

首先從基本的產(chǎn)品規(guī)劃上來看,大家已經(jīng)知道Arm這代的GPU包含三條產(chǎn)品線,即Immortalis-G925、Mali-G725和Mali-G625。

在此前的產(chǎn)品解析內(nèi)容里我們?nèi)咨钜呀?jīng)提到,這一代的三款GPU本質(zhì)上采用的都是相同架構(gòu),它們的區(qū)別主要體現(xiàn)在明顯的核心數(shù)量差異,以及對光線追蹤的支持與否上。

但實際上在我們這次與Arm方面的溝通中得知,這一代的Mali-G725 GPU盡管在官方資料中并沒有光追的相關(guān)標(biāo)注,但實際上也可以被配置為支持光追。

看到這里,可能有些PC玩家會產(chǎn)生不好的聯(lián)想。因為這是否意味著未來我們會看到一些“不夠高端”的SoC,用著中端配置的Mali GPU,卻公然宣傳支持“旗艦級光追特性”呢?

雖然不能完全否定這種可能性,但值得關(guān)注的是,至少在這一代的GPU基礎(chǔ)架構(gòu)上,Arm的設(shè)計思路是極為“務(wù)實”的。比如Immortalis-G925現(xiàn)在支持更多的著色器數(shù)量,同時它的底層圖塊吞吐量和著色器作業(yè)分配的速度都得到了顯著提升。

除此之外,通過與Epic Games以及Google和聯(lián)發(fā)科的合作,Arm GPU現(xiàn)在可以支持桌面級的虛幻5渲染器、用于光線追蹤的Lumen光照解決方案,以及安卓動態(tài)性能框架(Android Dynamic Performance Framework),從而實現(xiàn)更復(fù)雜的主機級游戲光線追蹤品質(zhì),以及更高分辨率、更清晰的游戲視覺效果。

如果將這種做法與當(dāng)前PC上的顯卡功能方向去進行對比就會發(fā)現(xiàn),事情變得有那么一點點諷刺了。因為PC上的GPU現(xiàn)在普遍在追求用AI去“縮放”游戲畫面,這是因為它們本身的光柵性能進步幅度追不上顯示器分辨率、刷新率的升級速度。

但是Arm則沒有這樣去“取巧”,雖然如今智能手機的游戲真實渲染分辨率也普遍低于屏幕的物理分辨率,可他們還是選擇了實打?qū)嵉貜娀疓PU的硬件光柵能力。所以至少在解決問題的態(tài)度上,Arm這樣的做法目前顯然也更值得去點贊。

專注CPU AI加速,Arm的優(yōu)化方案很務(wù)實

最后必須要提及Arm的Kleidi軟件庫,這是一種旨在提升Arm處理器AI性能的官方軟件優(yōu)化方案。但是與大家熟知的其他一些智能手機AI加速技術(shù)相比,它又有著一些格外的特別之處。

首先,Kleidi專注于加速CPU上的AI性能,而并不依賴于GPU或NPU。這就會帶來一些顯著的好處,比如它完全可以在那些使用非Arm架構(gòu)NPU、GPU的SoC上起作用,而且相比于架構(gòu)五花八門的NPU和GPU,Arm的CPU在如今的移動平臺(特別是智能手機)上顯然要“普及”得多的。所以這就意味著Kleidi可以很容易地觸及更多設(shè)備,而且適配、優(yōu)化起來也更容易,成本更低。

其次,雖然Kleidi是與Arm 2024年的產(chǎn)品線同期發(fā)布,但這并不意味著它只能支持最新的Arm CPU。事實上,Arm方面在設(shè)計Kleidi時,就已經(jīng)考慮到了對于老平臺的兼容性,它甚至可以用在“古老”的Arm V8指令集CPU上,去使用NEON這樣的老指令集去實現(xiàn)AI加速效果。

Arm方面通過實驗證明,僅僅通過代碼優(yōu)化就可以讓現(xiàn)有機型提升數(shù)十倍的AI生成速度

而且Kleidi也不需要開發(fā)者去學(xué)習(xí)某種全新的AI框架,Arm方面直接與MediaPipe、LLAMA.cpp、PyTorch和TensorFlow Lite進行了合作集成。開發(fā)者可以很容易地讓主流AI功能在各種Arm設(shè)備,比如手機、Windows PC上“跑起來”,切實地加快相關(guān)應(yīng)用和功能的落地速度。

最后,Arm方面還正在與Unity合作開發(fā)端側(cè)推理引擎Sentis。它可以在所有支持Unity游戲引擎的設(shè)備上實現(xiàn)AI游戲體驗,將游戲中的AI模型內(nèi)存占用率降低72.5%,同時提升特定AI框架在游戲中的性能多達660%??雌饋碛螒蛐袠I(yè)已經(jīng)在開始熱議的“分布式文案和生成式對話”,說不定首先會在手游領(lǐng)域落地了。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )