高通AI Research通過全棧AI優(yōu)化,在邊緣終端上部署了流行的超10億參數(shù)的基礎模型
作者:高通技術公司工程技術副總裁侯紀磊,高通技術公司產品管理高級副總裁Ziad Asghar
上圖為Stable Diffusion利用文本提示:“穿盔甲超級可愛的毛絨絨貓戰(zhàn)士、逼真、4K、超細節(jié)、V-Ray渲染、虛幻引擎” 生成的圖像
基礎模型正在席卷AI行業(yè)。基礎模型指基于海量數(shù)據(jù)進行大規(guī)模訓練的大型神經(jīng)網(wǎng)絡,進而能以高性能表現(xiàn)適應廣泛的后續(xù)任務。流行的基礎模型Stable Diffusion是一個非常出色的從文本到圖像的生成式AI模型,能夠基于任何文本輸入,在數(shù)十秒內創(chuàng)作出逼真圖像。Stable Diffusion的參數(shù)超過10億,迄今為止主要限于在云端運行。接下來我將介紹高通AI Research如何利用高通AI軟件棧(Qualcomm AI Stack)執(zhí)行全棧AI優(yōu)化,首次在Android智能手機上部署Stable Diffusion。
通過全棧AI優(yōu)化,完全在終端側高效運行Stable Diffusion。
高通AI軟件棧支持的全棧AI優(yōu)化
在“AI首創(chuàng)”博客文章中,我們提到過高通AI Research不僅在開展全新AI研究工作,也率先在商用終端上展示概念驗證,為在現(xiàn)實世界中的技術規(guī)模化應用鋪平道路。我們的全棧AI研究指跨應用、神經(jīng)網(wǎng)絡模型、算法、軟件和硬件進行優(yōu)化,并在公司內進行跨部門合作。針對Stable Diffusion,我們從Hugging Face的FP32 1-5版本開源模型入手,通過量化、編譯和硬件加速進行優(yōu)化,使其能在搭載第二代驍龍8移動平臺的手機上運行。
為了把模型從FP32壓縮為INT8,我們使用了高通AI模型增效工具包(AIMET)的訓練后量化。這是基于高通AI Research創(chuàng)造的技術所開發(fā)的工具,目前已經(jīng)集成入新發(fā)布的Qualcomm AI Studio中。通過讓模型在我們的專用AI硬件上高效運行,并降低內存帶寬消耗,量化不僅能夠提高性能,還可以降低功耗。自適應舍入(AdaRound)等先進的高通AIMET量化技術能夠在更低精度水平保持模型準確性,無需進行重新訓練。這些技術能夠應用于構成Stable Diffusion的所有組件模型,即基于Transformer的文本編碼器、VAE解碼器和UNet。這對于讓模型適合于在終端上運行至關重要。
高通AI軟件棧將最優(yōu)秀的AI軟件產品集合到一個軟件包中,幫助OEM廠商和開發(fā)者在我們的產品上創(chuàng)建、優(yōu)化和部署他們的AI應用,充分利用高通AI引擎的性能。
對于編譯,我們利用高通AI引擎Direct框架將神經(jīng)網(wǎng)絡映射到能夠在目標硬件上高效運行的程序中。高通AI引擎Direct框架基于高通Hexagon處理器的硬件架構和內存層級進行序列運算,從而提升性能并最小化內存溢出。部分上述增強特性是AI優(yōu)化研究人員與編譯器工程團隊共同合作的成果,以此來提升AI推理時的內存管理。高通AI引擎中所做的整體優(yōu)化能夠顯著降低runtime的時延和功耗,而這一亟需的趨勢也同樣存在于Stable Diffusion上。
憑借緊密的軟硬件協(xié)同設計,集成Hexagon處理器的高通AI引擎能夠釋放行業(yè)領先的邊緣側AI性能。支持微切片推理的最新第二代驍龍8移動平臺有能力高效運行像Stable Diffusion這樣的大模型,并且下一代驍龍預計還將帶來更多提升。此外,由于構成Stable Diffusion的所有組件模型都采用了多頭注意力機制,為加速推理而面向transformer模型(如MobileBERT)所做的技術增強發(fā)揮了關鍵作用。
這一全棧優(yōu)化最終讓Stable Diffusion能夠在智能手機上運行,在15秒內執(zhí)行20步推理,生成一張512x512像素的圖像。這是在智能手機上最快的推理速度,能媲美云端時延,且用戶文本輸入完全不受限制。
Qualcomm AI Studio 將我們目前的所有工具整合到一個全新的GUI中,同時還有可視化工具,以簡化開發(fā)者的使用體驗。
上圖為Stable Diffusion利用文本提示:“野外河谷和山脈間的日式花園,高細節(jié),數(shù)字插圖,ArtStation,概念藝術,磨砂,銳聚焦,插圖,戲劇性的,落日,爐石,artgerm、greg rutkowski和lphonse mucha的藝術作品”生成的圖像
邊緣側AI的時代已經(jīng)到來
隨著AI云端大模型開始轉向在邊緣終端上運行,高通打造智能網(wǎng)聯(lián)邊緣的愿景正在我們眼前加速實現(xiàn),幾年前還被認為不可能的事情正在成為可能。這很有吸引力,因為通過邊緣AI進行終端側處理具有諸多優(yōu)勢,包括可靠性、時延、隱私、網(wǎng)絡帶寬使用效率和整體成本。
盡管Stable Diffusion模型看起來過于龐大,但它編碼了大量語言和視覺相關知識,幾乎可以生成任何能想象到的圖片。此外,作為一款基礎模型,Stable Diffusion能做的遠不止根據(jù)文字提示生成圖像。基于Stable Diffusion的應用正在不斷增加,例如圖像編輯、圖像修復、風格轉換和超分辨率等,將帶來切實的影響。能夠完全在終端上運行模型而無需連接互聯(lián)網(wǎng),將帶來無限的可能性。
擴展邊緣側AI
在智能手機上運行Stable Diffusion只是開始。讓這一目標得以實現(xiàn)的所有全棧研究和優(yōu)化都將融入高通AI軟件棧。憑借高通的統(tǒng)一技術路線圖,我們能夠利用單一AI軟件棧并進行擴展,以適用于不同的終端和不同的模型。
這意味著為了讓Stable Diffusion在手機上高效運行所做的優(yōu)化也可用于高通技術公司賦能的其他平臺,比如筆記本電腦、XR頭顯和幾乎任何其它終端。在云端運行所有AI處理工作成本高昂,因此高效的邊緣側AI處理非常重要。由于輸入文本和生成圖像始終無需離開終端,邊緣側AI處理能在運行Stable Diffusion(和其它生成式AI模型)時確保用戶隱私,這對于使用消費級和企業(yè)級應用都有巨大的好處。全新AI軟件棧優(yōu)化還將有助于減少未來在邊緣側運行的下一代基礎模型產品的上市時間。這就是我們如何能夠實現(xiàn)跨終端和基礎模型進行擴展,讓邊緣側AI真正無處不在。
在高通,我們在基礎研究領域實現(xiàn)突破,并跨終端和行業(yè)進行擴展,以賦能智能網(wǎng)聯(lián)邊緣。高通AI Research與公司所有團隊通力合作,將最新AI發(fā)展成果和技術集成到我們的產品之中,讓實驗室研究所實現(xiàn)的AI進步能夠更快交付,豐富人們的生活。
更多最新AI技術動態(tài):
注冊以獲取未來移動計算技術更新;
利用高通AI軟件棧進行開發(fā)
高通AI Research為高通技術公司所屬的項目規(guī)劃。
高通AI模型增效工具包(AIMET)是高通創(chuàng)新中心公司的產品。
高通品牌產品是高通技術公司和/或其子公司的產品。
- 廣州“AI引擎”轟鳴,激活城市脈搏
- 廣東出臺大手筆政策:人工智能和機器人外資項目最高獎勵1.5億元,搶占科技制高點!
- AI搜索巨頭Perplexity低調布局,資金雄厚卻暫無IPO計劃,未來將如何演繹?
- 國家天文臺創(chuàng)新推出國際首個太陽大模型“金烏”,揭開宇宙神秘面紗
- 聯(lián)想AI服務新篇章:消費客戶“想幫幫”引領AI創(chuàng)新,重塑智能未來
- 微軟AI拯救開源世界:Security Copilot揭露三大程序漏洞,20個關鍵弱點被揪出
- 廣東啟動“智能機器人”重大專項:人形機器人成新焦點,引領產業(yè)升級
- 微軟AI團隊或將大調整:裁員還是合并,謎團待解
- 亞馬遜新寵Nova Act:網(wǎng)頁瀏覽新寵,AI操控掌中寶
- Runway AI顛覆性技術:AI視頻生成模型Gen-4引領高度一致性角色與場景新時代
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。