外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

近日,海外權(quán)威產(chǎn)品測評機構(gòu)ServeTheHome(簡稱STH)對浪潮人工智能開發(fā)資源平臺AIStation進行了深度體驗,并發(fā)布測評報告。STH專注于服務(wù)器、存儲、網(wǎng)絡(luò)和高端硬件測評,是海外專業(yè)的測評機構(gòu),這也是浪潮AIStation在海外市場的測評首秀。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

海外專業(yè)測評機構(gòu)STH發(fā)布浪潮AIStation測評文章

AIStation是浪潮面向深度學習開發(fā)、線上推理發(fā)布的人工智能開發(fā)資源平臺,可實現(xiàn)容器化部署、可視化開發(fā)、集中化管理等,旨在實現(xiàn)精準的資源管理和調(diào)度、敏捷的數(shù)據(jù)整合及加速、流程化的AI場景及業(yè)務(wù)整合。此次,STH的編輯以管理員身份和用戶身份對浪潮AIStation進行了全面的體驗,并在測評報告中詳盡地闡釋了AIStation的功能和應(yīng)用價值。STH表示,浪潮AIStation能夠?qū)崿F(xiàn)對AI資源的精細化管理,可以有效打通開發(fā)環(huán)境、計算資源與數(shù)據(jù)資源,提升開發(fā)效率。

下面是STH資深編輯Patrick Kennedy的測評敘述:

我們通常將構(gòu)建和運行AI集群,即通過訓練和推理來管理所有計算資源、用戶、數(shù)據(jù)和模型視為一項挑戰(zhàn)。做好AI集群運營可能并不像發(fā)現(xiàn)一種解決深度學習問題的新方法那樣備受追捧,但對于在組織內(nèi)擴展共享資源至關(guān)重要。浪潮AIStation旨在管理該生命周期。我們花了一些時間親手操作了該解決方案,以了解其運作方式。我也找機會向浪潮AI負責人劉軍提出了有關(guān)新產(chǎn)品的幾個問題。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

浪潮AIStation登陸界面

一、浪潮AIStation實操背景介紹

浪潮在中國山東省擁有一個測試集群,我用Cisco VPN進行了訪問。雖然不知道確切位置,但我想濟南(山東省第二大城市和省會)的這座浪潮大廈就是測試群集的所在地,這與2019年我們參觀的浪潮智能工廠不在同一個園區(qū)。我們的許多讀者都來自中國以外的國家,而且也沒去過山東,這么說吧,濟南的人口與紐約差不多。

如果您聽說過紐約但沒聽說過濟南,那正是我要重點介紹AIStation的原因。浪潮是全球排名前三的服務(wù)器供應(yīng)商,中國市場上大約一半的AI服務(wù)器都來自浪潮。浪潮面向超大規(guī)模用戶,其主要能力之一是AI服務(wù)器,例如我們最近評測的浪潮系統(tǒng)NF5468M5和浪潮NF5488M5。AIStation也是浪潮產(chǎn)品,可幫助管理大量的AI訓練和推理服務(wù)器、數(shù)據(jù)以及用戶。

從根本上說AIStation是基于Kubernetes的集群解決方案。浪潮所做的是統(tǒng)一運行AI集群時需要解決的許多常見工具和任務(wù)。例如,它可以管理用戶、組、權(quán)限和配額,可以管理與每個用戶或組關(guān)聯(lián)的數(shù)據(jù)以及該數(shù)據(jù)的權(quán)限和存儲,還可以管理開發(fā)工作以及在集群上調(diào)度資源。此外,我們還將介紹作業(yè)、用戶和節(jié)點層面上的一些監(jiān)控和警報。

二、AIStation實操:管理員視角

屏幕截圖就不在這里一一展示了,選擇一部分重點界面進行介紹。在了解用戶在系統(tǒng)中看到的內(nèi)容之前,我想先談一下管理方面。該解決方案基于Kubernetes和容器,非?,F(xiàn)代化。如果將其與許多傳統(tǒng)的GPU/HPC/AI調(diào)度系統(tǒng)進行比較,您將更能體會其現(xiàn)代架構(gòu)的理念。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

集群監(jiān)控

AIStation在后臺開始運行后,大部分日常管理工作都可以使用腳本或通過Web GUI完成??梢陨钊氩榭锤鱾€節(jié)點的負載、硬件配置,甚至可實現(xiàn)從用戶到容器再到它們在單個GPU級別運行的硬件的追蹤鏈。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

集群監(jiān)控>節(jié)點監(jiān)控

盡管我們的測試集群只有幾個節(jié)點,但我們聽說AIStation已經(jīng)部署了數(shù)百個節(jié)點和上千個節(jié)點的集群。隨著節(jié)點數(shù)量的增加,創(chuàng)建資源組變得更加重要。AIStation可以創(chuàng)建多個資源組,將其指定用于開發(fā)、訓練或通用,也可以為該組設(shè)置一些更高級別的管理和預(yù)留權(quán)限。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

資源管理>創(chuàng)建資源組

除了創(chuàng)建資源組之外,創(chuàng)建用戶和用戶組可能更重要。AIStation可以創(chuàng)建用戶或與現(xiàn)有的用戶目錄工具集成,然后為用戶授予訪問不同資源、存儲配額、GPU配額等的權(quán)限。這很重要,因為公司可能不會想讓一個實習生100%使用整個集群或訪問敏感的訓練數(shù)據(jù)/模型,而會把優(yōu)先權(quán)給到深度學習專家組成的內(nèi)部咨詢小組。AIStation的主要價值主張是通過單個系統(tǒng)進行全部管理。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

系統(tǒng)管理>用戶管理>用戶

管理員還可以根據(jù)權(quán)限訪問整個集群。例如,遇到作業(yè)運行緩慢的問題,管理員可以使用監(jiān)控工具查找他們的作業(yè)以及有問題的容器,甚至可以直接進入硬件查看是否有潛在的硬件問題。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

開發(fā)環(huán)境>詳情

AIStation還具有相當全面的可視化界面,用于監(jiān)控集群,界面上可以看到CPU、GPU和內(nèi)存的利用率等信息。在集群生命周期管理方面,這類數(shù)據(jù)可幫助管理員查看資源配置情況以及系統(tǒng)容量。例如,如果集群以50%的CPU、60%的GPU、95%的內(nèi)存運行,這就充分說明下一代節(jié)點需要更多的內(nèi)存容量。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

報表管理>資源統(tǒng)計

管理員用戶還可以查看已完成的任務(wù),以查看用戶先前運行的內(nèi)容,包括作業(yè)是否成功。在某些情況下,人們會在公司GPU集群上挖掘加密貨幣。此類功能可根據(jù)已運行的內(nèi)容進行審核跟蹤,這項功能非常重要。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

訓練管理>已完成任務(wù)

除了上述功能之外,另一個重要功能是管理用戶在系統(tǒng)中擁有的資源。接下來,我們會從用戶的角度進行詳細闡述。

三、AIStation實操:用戶視角

每個用戶都可以訪問一組資源。登錄AIStation時可以看到儀表板。許多使用限制是通過管理板塊中顯示的用戶、組和資源組功能定義的。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

浪潮AIStation用戶界面

開發(fā)人員如果要開始訓練任務(wù),可以查看可訓練的鏡像。這些鏡像很重要,因為在系統(tǒng)中創(chuàng)建任務(wù)時,它們就是可能正在使用的鏡像。它可以是來自NVIDIA GPU Cloud的鏡像或更加標準的鏡像。AIStation還具有組鏡像甚至用戶鏡像的功能,讓用戶可以更輕松地選擇容器鏡像。用戶可以看到個人、組和公共鏡像。管理員可以將鏡像定義為個人鏡像或公共鏡像,將敏感鏡像的查看權(quán)限僅開放給特定組或員工,這點也非常重要。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

鏡像管理

浪潮AIStation支持多種框架,用戶可以使用Tensorflow、Pytorch、Paddlepaddle或其他框架。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

訓練管理>訓練任務(wù)>創(chuàng)建訓練任務(wù)

數(shù)據(jù)管理在AI集群中極為重要,AIStation能夠定義和存儲數(shù)據(jù)集。從用戶的角度來看,他們可以查看哪些數(shù)據(jù)集可供使用。用戶能夠?qū)⑷萜麋R像、節(jié)點/物理資源和訓練數(shù)據(jù)相關(guān)聯(lián)。而管理員可以對這些數(shù)據(jù)集設(shè)置權(quán)限。這一點很重要,因為有些數(shù)據(jù)集只有指定用戶才能查閱、使用和下載。

在AIStation中還可以加載Jupyter筆記本,直接編輯python文件,并且可以將筆記本保存在集群的存儲后臺,并輕松與其他用戶共享。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

開發(fā)平臺>詳情

啟動任務(wù)后,AIStation平臺將集成許多可視化工具。例如,您可以啟動Tensorboard、Visdom或Netscope等工具,從下拉菜單中顯示可視化效果;用戶可以直接從Web GUI進入容器的終端。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

用戶開發(fā)平臺可視化Tensorboard

訓練作業(yè)可能要花數(shù)小時或數(shù)天,用戶可隨時查看當前作業(yè)狀態(tài)進度、檢查結(jié)果以及待處理的作業(yè)及其歷史。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

訓練管理>已完成作業(yè)

可以看到這種解決方案支持一家公司的諸多用戶及具有多代GPU的節(jié)點。這里沒有顯示其他一些功能,例如針對管理員和用戶的電子郵件警報和通知,但這種解決方案顯然是旨在運行公司的整個AI操作。因此,我想向AIStation的業(yè)務(wù)負責人詢問更多信息,了解其進入市場的戰(zhàn)略。

四、對話浪潮劉軍

上市策略方面,我向浪潮的AI和HPC業(yè)務(wù)負責人劉軍提出了一些問題。這個名字聽起來可能很耳熟,那是因為他之前也曾幫我們做過專訪。

外媒專評AIStation:AI集群運營與AI算法創(chuàng)新同樣重要

浪潮人工智能與高性能計算總經(jīng)理 劉軍

Patrick Kennedy: 浪潮如何規(guī)劃AIStation的上市?

劉軍:AIStation有直接銷售和渠道銷售兩種銷售方式,我們在全球有數(shù)十個渠道合作伙伴出售AIStation。

PK: AIStation可以集成其他服務(wù)器供應(yīng)商的集群節(jié)點嗎?

劉軍:是的,AIStation能夠集成其他供應(yīng)商的集群節(jié)點。

PK: AIStation的銷售是否針對特定行業(yè)?

劉軍:自2019年4月發(fā)布以來,已實際應(yīng)用于金融、教育、互聯(lián)網(wǎng)和智慧城市等行業(yè)。

PK: 只面向大型組織、服務(wù)提供商嗎?初創(chuàng)企業(yè)等較小的組織是銷售目標嗎?

劉軍:AIStation專為深度學習開發(fā)領(lǐng)域而設(shè)計,適用于金融、互聯(lián)網(wǎng)、通信、交通、醫(yī)療和教育等行業(yè)的大小型企業(yè)。

PK: 許可模式是怎樣的?

劉軍:按GPU服務(wù)器節(jié)點出售。

PK: 升級許可證需要購買新密鑰,還是客戶憑借現(xiàn)有密鑰從浪潮注冊服務(wù)器上獲得新權(quán)限?(這里提醒讀者,Web GUI上有一個許可證密鑰頁面,上文未展示)

劉軍:用戶可享受三年內(nèi)AIStation的免費升級服務(wù),然后需要購買新密鑰進行升級。

PK: 針對該解決方案,浪潮未來會提供其他新的服務(wù)嗎?

劉軍:未來AIStation將支持更多的AI加速器,并實現(xiàn)資源管理、調(diào)度、監(jiān)控、優(yōu)化等方面的異構(gòu)加速。我們將建立一個更全面的AI開發(fā)生態(tài)系統(tǒng),為行業(yè)主流AI開發(fā)工具、開發(fā)框架和深度學習模型提供一個集成的開發(fā)平臺。

再次感謝劉軍耐心為我們的讀者解答問題。

最后的話

我想強調(diào)一下在此展示AIStation的操作視圖和上市策略的原因。AIStation發(fā)布第一年即獲得不俗的軟件銷售額。要是看到他們投資公司的AI管理軟件平臺第一年就獲得如此成績,投資者們一定會激動不已。重點是,盡管浪潮將其作為新產(chǎn)品發(fā)布,但實際上它已經(jīng)擁有很多付費客戶,這些客戶已經(jīng)在使用此解決方案來管理其AI集群和開發(fā)團隊。

結(jié)合當前的功能,再想想異構(gòu)加速器的概念,就能馬上明白該解決方案的前景。它與現(xiàn)有的其他一些集群管理解決方案相比,不同之處在于它甚至可以供大型組織使用,并且全部基于Kubernetes,而Kubernetes正迅速成為下一代服務(wù)的主要工具。

總而言之,如果您是一家只有2-3人的小型初創(chuàng)公司,那么可能并不需要該解決方案,但隨著組織中集群的增多,當調(diào)度和管理成為一項更大的挑戰(zhàn)時,浪潮AIStation的價值便更加凸顯出來。

(來源:浪潮服務(wù)器微信)

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )