6月23日,鯤云科技在深圳舉行產(chǎn)品發(fā)布會(huì),發(fā)布全球首款數(shù)據(jù)流AI芯片CAISA,定位于高性能AI推理,已完成量產(chǎn)。鯤云通過(guò)自主研發(fā)的數(shù)據(jù)流技術(shù)在芯片實(shí)測(cè)算力上實(shí)現(xiàn)了技術(shù)突破,較同類(lèi)產(chǎn)品在芯片利用率上提升了10倍。第三方測(cè)試數(shù)據(jù)顯示僅用1/3的峰值算力,CAISA芯片可以實(shí)現(xiàn)英偉達(dá)同類(lèi)產(chǎn)品最高3.91倍的實(shí)測(cè)性能。鯤云科技的定制數(shù)據(jù)流技術(shù)不依靠更大的芯片面積和制程工藝,通過(guò)數(shù)據(jù)流動(dòng)控制計(jì)算順序來(lái)提升實(shí)測(cè)性能,為用戶(hù)提供了更高的算力性?xún)r(jià)比。
此次發(fā)布是華強(qiáng)北之光黑科技系列發(fā)布的首場(chǎng)活動(dòng)。深圳市人民政府副市長(zhǎng)、黨組成員聶新平,市科技創(chuàng)新委副巡視員鐘海、市工信局副局長(zhǎng)徐志斌、市科協(xié)黨組成員、常務(wù)委員孫楠和福田區(qū)委常委、副區(qū)長(zhǎng)舒毓民、原政協(xié)深圳市委員會(huì)副主席、黨組成員、深圳市源創(chuàng)力離岸創(chuàng)新中心理事長(zhǎng)王學(xué)為等政府領(lǐng)導(dǎo)及山東產(chǎn)業(yè)技術(shù)研究院副院長(zhǎng)雷斌,深圳市源創(chuàng)力離岸創(chuàng)新中心總裁周路明,英特爾中國(guó)區(qū)PSG總經(jīng)理、銷(xiāo)售總監(jiān)Tiffany Xia夏迎麗等合作伙伴出席發(fā)布會(huì)。聶新平副市長(zhǎng)、舒毓民副區(qū)長(zhǎng)為活動(dòng)致辭。中國(guó)科協(xié)黨組成員、書(shū)記處書(shū)記宋軍,鯤云科技聯(lián)合創(chuàng)始人兼首席科學(xué)家、英國(guó)皇家工程院院士、美國(guó)電子電氣工程師學(xué)會(huì)(IEEE)會(huì)士、英國(guó)計(jì)算機(jī)學(xué)會(huì)(BCS)會(huì)士Wayne Luk陸永青院士,浪潮信息副總裁、浪潮AI & HPC總經(jīng)理劉軍,清華大學(xué)信息科學(xué)技術(shù)學(xué)院副院長(zhǎng)、電子工程系主任、深鑒科技聯(lián)合創(chuàng)始人汪玉教授,戴爾科技集團(tuán)全球資深副總裁、大中華區(qū)企業(yè)解決方案總經(jīng)理曹志平,鵬城實(shí)驗(yàn)室高級(jí)顧問(wèn)、黨委書(shū)記、清華大學(xué)計(jì)算機(jī)系教授、學(xué)位委員會(huì)主席、CCF會(huì)士楊士強(qiáng),英特爾PSG中國(guó)區(qū)總經(jīng)理、銷(xiāo)售總監(jiān)夏迎麗,中國(guó)信息通信研究院云大所人工智能部主任、工信部人工智能技術(shù)和應(yīng)用評(píng)測(cè)實(shí)驗(yàn)室常務(wù)副主任、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)總體組組長(zhǎng)、南京新一代人工智能研究院院長(zhǎng)孫明俊等嘉賓為鯤云成功實(shí)現(xiàn)全球首款數(shù)據(jù)流AI芯片量產(chǎn)送上了祝福和寄語(yǔ)。
超高芯片利用率,定制數(shù)據(jù)流芯片架構(gòu)完成3.0升級(jí)
此次發(fā)布的CAISA芯片采用鯤云自研的定制數(shù)據(jù)流芯片架構(gòu)CAISA 3.0,相較于上一代芯片架構(gòu),CAISA3.0在架構(gòu)效率和實(shí)測(cè)性能方面有了大幅的提升,并在算子支持上更加通用,支持絕大多數(shù)神經(jīng)網(wǎng)絡(luò)模型快速實(shí)現(xiàn)檢測(cè)、分類(lèi)和語(yǔ)義分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度選擇,架構(gòu)的可拓展性大大提高,在AI芯片內(nèi),每一個(gè)CAISA都可以同時(shí)處理AI工作負(fù)載,進(jìn)一步提升了CAISA架構(gòu)的性能,在峰值算力提升6倍的同時(shí)保持了高達(dá)95.4%的芯片利用率,實(shí)測(cè)性能線性提升。同時(shí)新一代CAISA架構(gòu)對(duì)編譯器RainBuilder的支持更加友好,軟硬件協(xié)作進(jìn)一步優(yōu)化,在系統(tǒng)級(jí)別上為用戶(hù)提供更好的端到端性能。
CAISA3.0架構(gòu)圖
CAISA3.0架構(gòu)繼續(xù)保持在數(shù)據(jù)流技術(shù)路線的全球領(lǐng)先地位,指令集架構(gòu)采用馮諾依曼計(jì)算方式,通過(guò)指令執(zhí)行次序控制計(jì)算順序,并通過(guò)分離數(shù)據(jù)搬運(yùn)與數(shù)據(jù)計(jì)算提供計(jì)算通用性。CAISA架構(gòu)依托數(shù)據(jù)流流動(dòng)次序控制計(jì)算次序,采用計(jì)算流和數(shù)據(jù)流重疊運(yùn)行方式消除空閑計(jì)算單元,并采用動(dòng)態(tài)配置方式保證對(duì)于人工智能算法的通用支持,突破指令集技術(shù)對(duì)于芯片算力的限制。此次升級(jí),CAISA架構(gòu)解決了數(shù)據(jù)流架構(gòu)作為人工智能計(jì)算平臺(tái)的三大核心挑戰(zhàn):
1. 高算力性?xún)r(jià)比:在保持計(jì)算正確前提下,通過(guò)不斷壓縮每個(gè)空閑時(shí)鐘推高芯片實(shí)測(cè)性能以接近芯片物理極限,讓芯片內(nèi)的每個(gè)時(shí)鐘、每個(gè)計(jì)算單元都在執(zhí)行有效計(jì)算;
2. 高架構(gòu)通用性:在保證每個(gè)算法在CAISA上運(yùn)行能夠?qū)崿F(xiàn)高芯片利用率的同時(shí),CAISA3.0架構(gòu)通用支持所有主流CNN算法;
3. 高軟件易用性:通過(guò)專(zhuān)為CAISA定制的編譯工具鏈實(shí)現(xiàn)算法端到端自動(dòng)部署,用戶(hù)無(wú)需底層數(shù)據(jù)流架構(gòu)背景知識(shí),簡(jiǎn)單兩步即可實(shí)現(xiàn)算法遷移和部署,降低使用門(mén)檻。
具體來(lái)講,鯤云CAISA3.0架構(gòu)的三大技術(shù)突破主要通過(guò)以下的技術(shù)方式實(shí)現(xiàn):
1. 高算力性?xún)r(jià)比:時(shí)鐘級(jí)準(zhǔn)確的計(jì)算
CAISA3.0架構(gòu)由數(shù)據(jù)流來(lái)驅(qū)動(dòng)計(jì)算過(guò)程,無(wú)指令操作,可以實(shí)現(xiàn)時(shí)鐘級(jí)準(zhǔn)確的計(jì)算,最大限度的減少硬件計(jì)算資源的空閑時(shí)間。CAISA3.0架構(gòu)通過(guò)數(shù)據(jù)計(jì)算與數(shù)據(jù)流動(dòng)的重疊,壓縮計(jì)算資源的每一個(gè)空閑時(shí)鐘;通過(guò)算力資源的動(dòng)態(tài)平衡,消除流水線的性能瓶頸;通過(guò)數(shù)據(jù)流的時(shí)空映射,最大化復(fù)用芯片內(nèi)的數(shù)據(jù)流帶寬,減少對(duì)外部存儲(chǔ)帶寬的需求。上述設(shè)計(jì)使CNN算法的計(jì)算數(shù)據(jù)在CAISA3.0內(nèi)可以實(shí)現(xiàn)不間斷的持續(xù)運(yùn)算,最高可實(shí)現(xiàn)95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對(duì)于GPU 3倍以上的實(shí)測(cè)算力,從而為用戶(hù)提供更高的算力性?xún)r(jià)比。
2. 高架構(gòu)通用性:流水線動(dòng)態(tài)重組
CAISA3.0架構(gòu)可以通過(guò)流水線動(dòng)態(tài)重組實(shí)現(xiàn)對(duì)不同深度學(xué)習(xí)算法的高性能支持。通過(guò)CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局?jǐn)?shù)據(jù)流網(wǎng)、全局?jǐn)?shù)據(jù)流緩存,以及數(shù)據(jù)流引擎內(nèi)部的人工智能算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計(jì),在數(shù)據(jù)流配置器控制下,CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運(yùn)行狀態(tài)都可以被自動(dòng)化動(dòng)態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。在保證高性能的前提下,支持用戶(hù)使用基于CAISA3.0架構(gòu)的計(jì)算平臺(tái)實(shí)現(xiàn)如目標(biāo)檢測(cè)、分類(lèi)及語(yǔ)義分割等廣泛的人工智能算法應(yīng)用。
3. 高軟件易用性:算法端到端自動(dòng)化部署
RainBuilder編譯工具鏈
專(zhuān)為CAISA3.0架構(gòu)配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動(dòng)化部署,用戶(hù)和開(kāi)發(fā)者無(wú)需了解架構(gòu)的底層硬件配置,簡(jiǎn)單兩步即可實(shí)現(xiàn)算法快速遷移和部署。RainBuilder編譯器可自動(dòng)提取主流AI開(kāi)發(fā)框架(TensorFlow,Caffe,Pytorch,ONNX等)中開(kāi)發(fā)的深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息,并面向CAISA結(jié)構(gòu)進(jìn)行優(yōu)化;工具鏈中的運(yùn)行時(shí)(Runtime)和驅(qū)動(dòng)(Driver)模塊負(fù)責(zé)硬件管理并為用戶(hù)提供標(biāo)準(zhǔn)的API接口,運(yùn)行時(shí)可以基于精確的CAISA性能模型,實(shí)現(xiàn)算法向CAISA架構(gòu)的自動(dòng)化映射,同時(shí)提供可以被高級(jí)語(yǔ)言直接調(diào)用的API接口;最底層的驅(qū)動(dòng)可以實(shí)現(xiàn)對(duì)用戶(hù)透明的硬件控制。RainBuilder工具鏈?zhǔn)褂煤?jiǎn)單,部署方便,通用性強(qiáng),可以讓用戶(hù)快速和低成本的部署和遷移已有算法到CAISA硬件平臺(tái)上。
首款量產(chǎn)數(shù)據(jù)流AI芯片,CAISA帶來(lái)AI芯片研發(fā)新方向
作為全球首款采用數(shù)據(jù)流技術(shù)的AI芯片,CAISA搭載了四個(gè)CAISA 3.0引擎,具有超過(guò)1.6萬(wàn)個(gè)MAC(乘累加)單元,峰值性能可達(dá)10.9TOPs。該芯片采用28nm工藝,通過(guò)PCIe 3.0×4接口與主處理器通信,同時(shí)具有雙DDR通道,可為每個(gè)CAISA引擎提供超過(guò)340Gbps的帶寬。
CAISA芯片架構(gòu)圖
作為一款面向邊緣和云端推理的人工智能芯片,CAISA可實(shí)現(xiàn)最高95.4%的芯片利用率,為客戶(hù)提供更高的算力性?xún)r(jià)比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通過(guò)數(shù)據(jù)流網(wǎng)絡(luò)中算子的不同配置和組合,CAISA芯片可支持絕大多數(shù)的CNN算法。針對(duì)CAISA芯片,鯤云提供RainBuilder 3.0工具鏈,可實(shí)現(xiàn)推理模型在芯片上的端到端部署,使軟件工程師可以方便的完成CAISA芯片在AI應(yīng)用系統(tǒng)中的集成。
鯤云科技發(fā)布數(shù)據(jù)流CAISA芯片
高算力性?xún)r(jià)比的AI計(jì)算平臺(tái)星空加速卡系列產(chǎn)品發(fā)布
發(fā)布會(huì)上,鯤云科技創(chuàng)始人和CEO牛昕宇博士還發(fā)布了基于CAISA芯片的星空系列邊緣和數(shù)據(jù)中心計(jì)算平臺(tái),X3加速卡和X9加速卡,并公布了由人工智能產(chǎn)業(yè)技術(shù)聯(lián)盟(AIIA)測(cè)試的包括ResNet-50, YOLO v3等在內(nèi)的主流深度學(xué)習(xí)網(wǎng)絡(luò)的實(shí)測(cè)性能。
星空X3加速卡是搭載單顆CAISA 芯片的數(shù)據(jù)流架構(gòu)深度學(xué)習(xí)推斷計(jì)算平臺(tái),為工業(yè)級(jí)半高半長(zhǎng)單槽規(guī)格的PCIe板卡。得益于其輕量化的規(guī)格特點(diǎn),X3加速卡可以與不同類(lèi)型的計(jì)算機(jī)設(shè)備進(jìn)行適配,包括個(gè)人電腦、工業(yè)計(jì)算機(jī)、網(wǎng)絡(luò)視頻錄像機(jī)、工作站、服務(wù)器等,滿(mǎn)足邊緣和高性能場(chǎng)景中的AI計(jì)算需求。相較于英偉達(dá)邊緣端旗艦產(chǎn)品Xavier,X3可實(shí)現(xiàn)1.48-4.12倍的實(shí)測(cè)性能提升。
星空X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習(xí)推斷板卡,峰值性能43.6TOPS,主要滿(mǎn)足高性能場(chǎng)景下的AI計(jì)算需求。同英偉達(dá)旗艦產(chǎn)品T4相對(duì),X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在實(shí)測(cè)性能方面,X9在ResNet50可達(dá)5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測(cè)分割網(wǎng)絡(luò),實(shí)測(cè)性能相較T4有1.83-3.91倍性能提升。在達(dá)到最優(yōu)實(shí)測(cè)性能下,X9處理延時(shí)相比于T4降低1.83-32倍。實(shí)測(cè)性能以及處理延時(shí)的大幅領(lǐng)先,讓數(shù)據(jù)流架構(gòu)為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線。
鯤云科技通過(guò)CAISA數(shù)據(jù)流架構(gòu)提高芯片利用率,同樣的實(shí)測(cè)性能,對(duì)芯片峰值算力的要求可大幅降低3-10倍,從而降低芯片的制造成本,為客戶(hù)提供更高的算力性?xún)r(jià)比。目前星空X3加速卡已經(jīng)實(shí)現(xiàn)量產(chǎn),星空X9加速卡將于今年8月推出市場(chǎng)。鯤云科技成為國(guó)內(nèi)首家在發(fā)布會(huì)現(xiàn)場(chǎng)披露Benchmark的AI芯片公司。
商業(yè)落地先行,鯤云加速卡實(shí)現(xiàn)多領(lǐng)域規(guī)模落地
作為技術(shù)驅(qū)動(dòng)的AI芯片公司,鯤云科技自成立以來(lái)一直注重商業(yè)落地,目前鯤云科技已與多家行業(yè)巨頭達(dá)成戰(zhàn)略合作,成為英特爾全球旗艦FPGA合作伙伴,在技術(shù)培訓(xùn)、營(yíng)銷(xiāo)推廣以及應(yīng)用部署等方面進(jìn)行合作;與浪潮、戴爾達(dá)成戰(zhàn)略簽約,在AI計(jì)算加速方面開(kāi)展深入合作;與山東產(chǎn)業(yè)技術(shù)研究院共建山東產(chǎn)研鯤云人工智能研究院,推進(jìn)人工智能芯片及應(yīng)用技術(shù)的規(guī)?;涞?。明星產(chǎn)品“星空”加速卡已在電力、教育、航空航天、智能制造、智慧城市等領(lǐng)域落地。自2016年成立至今,鯤云科技已經(jīng)完成了天使輪,Pre-A輪及A輪融資,設(shè)有深圳、山東、倫敦研發(fā)中心。2018年成立人工智能創(chuàng)新應(yīng)用研究院,定位于建立人工智能產(chǎn)業(yè)化技術(shù)平臺(tái),支持人工智能最新技術(shù)在各垂直領(lǐng)域快速實(shí)際落地,啟動(dòng)鯤云高校計(jì)劃,開(kāi)展人工智能課程培訓(xùn)和科研合作。除與Intel合作進(jìn)行人工智能課程培訓(xùn)外,鯤云人工智能應(yīng)用創(chuàng)新研究院已同帝國(guó)理工學(xué)院、哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、天津大學(xué)、香港城市大學(xué)等成立聯(lián)合實(shí)驗(yàn)室,在定制計(jì)算、AI芯片安全、工業(yè)智能等領(lǐng)域開(kāi)展前沿研究合作。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )