進入 21 世紀后,虛擬機技術進入相對成熟階段,由于虛擬機的“笨重”,開發(fā)者們開始追求一種更加輕便的虛擬化技術。2010 年,由 NASA 和 Rackspace 聯(lián)合開發(fā)的開源平臺 OpenStack 誕生,幫助服務商和企業(yè)實現(xiàn)云基礎架構(gòu)服務。它將開源、開放的思想帶到了云原生領域,并為云原生發(fā)展掀開了新篇章。
2020 年,OpenStack 基金會更名為開放基礎設施基金會 OIF,OpenStack 從“云”拓展到了“開放基礎設施”。
緊接著,OpenStack 從最初的虛擬化管理 Nova 和對象存儲 Swift ,逐漸發(fā)展到包含虛擬化管理、SDN、SDS 服務編排和容器管理等功能覆蓋全面的開源項目集合。同時緊跟云原生技術演進潮流,與容器、Kubernetes、AI 相關的更多開源技術緊密合作。2021 年 11 月,OIF 基金會宣布了開放基礎設施的新標準 LOKI —— Linux、OpenStack、Kubernetes 等組成的開放基礎設施管理軟件。
在今年 4 月,OIF 發(fā)布了 OpenStack Yoga 版本,并宣布,待下一個被稱為終結(jié)者的 Zed 版本發(fā)布之后,OpenStack 將以穩(wěn)定的狀態(tài)成為企業(yè)IT的生產(chǎn)級工具。這意味著云原生逐漸進入后OpenStack 時代,2017 年起,各大云廠商都陸續(xù)開始包裝和提供容器的商業(yè)化服務,提供基于 Kubernetes 的商業(yè)服務產(chǎn)品,容器技術逐漸走向成熟和標準化、商業(yè)化,成為虛擬化的新代表產(chǎn)品,圍繞容器發(fā)展的云原生逐漸走向普適的階段,已經(jīng)應用容器的企業(yè)正在進行著云原生的新一輪技術演進。
一、后 OpenStack 時代的 Kubernetes :從“解決難用”到“用的好”
數(shù)字化轉(zhuǎn)型的加速增加了企業(yè)對于云原生的需求,容器技術覆蓋率提高,IDC預測,容器軟件市場在近幾年呈爆發(fā)式增長,并且未來五年仍然會保持超過 40% 的復合增長率。
進而,企業(yè)對容器管理的需求會直線提升,容器管理成為企業(yè)數(shù)字化轉(zhuǎn)型的主戰(zhàn)場。據(jù) Gartner 預測,到 2025 年,成熟經(jīng)濟體中 85% 的大型企業(yè)將更多地使用容器管理。
如今在大多企業(yè)的業(yè)務場景中,企業(yè)組織需要確保多個容器可同時協(xié)同工作,這方面的工作大部分都是又編排引擎完成。隨著 Kubernetes 的興起與演進,目前已經(jīng)克服了容器編排過程中許多技術挑戰(zhàn)。
或許因為 Kubernetes 想要解決的問題太多,所以導致其復雜度很高,于是不少企業(yè)也在應用其他容器管理解決方案。然而市場數(shù)據(jù)證明,Kubernetes 依舊是大多企業(yè)的選擇。CNCF 最近的一份報告顯示,Kubernetes 在全球已擁有近 600 萬個企業(yè)用戶,成為云上應用程序主要的部署模式。
盡管 Kubernetes 覆蓋率高,但這也并不意味著已經(jīng)在應用它的用戶滿意,常被吐槽“難用但還很需要”。在 Kubernetes 的實際使用過程中,經(jīng)常會遇見一些“難用”問題,比如創(chuàng)建容器時間過長、低吞吐量/ RPS /突發(fā)并發(fā)、容器擴展速度慢、集群擴展速度慢、Sidecar 資源開銷、資源利用率低等,為此,英特爾提出了創(chuàng)新的“SW+HW 功能解析”解決方案,開發(fā)工作主要集中在資源編排(Orchestration)和可觀測行(Observability)兩方面:
基于快照+熱代碼塊來創(chuàng)建容器;
? 分片式多調(diào)度器;
? 彈性 POD 的自動擴展;
? 基于遙測的快速預測,用于實時擴展的決策;
? 動態(tài)插入/刪除 POD 中的 Sidecar 容器;
? 鏈接設備的親和調(diào)度/分配(NUMA, GPU+Smart NIC 等);
? 實時 “節(jié)點資源變化” 反饋給 Kubernetes 調(diào)度器。
以上提到的這些技術都符合 Kubernetes 的 API 規(guī)范并可與現(xiàn)有的 API 兼容,確保用戶在不修改已有 Kubernetes 代碼的情況下便能安裝使用。為了方便用戶測試、評估這些技術,英特爾還直接提供了容器鏡像的方式讓用戶可以通過Operator等標準的 Kubernetes 應用部署方法來安裝部署。
解決完容器“難用”問題,就要接著考慮如何“用得好”的問題?!坝玫暮谩钡那疤崾沁x對架構(gòu)。在后 OpenStack 時代,企業(yè)使用云原生架構(gòu)的目的是追求敏捷、彈性、高性能和效率。要想達到這些目的,單純依靠軟件層面的優(yōu)化是不夠的,以Serverless為例,很多部署中會出現(xiàn)的問題,比如函數(shù)冷啟動等,都需要通過硬件層面的優(yōu)化來解決。
隨著數(shù)據(jù)逐漸擴散至邊緣場景,越來越多的企業(yè)期望通過云原生架構(gòu)實現(xiàn)云邊端一體化協(xié)同的基礎設施,英特爾一直在為此做出努力,聚焦企業(yè)發(fā)展不同階段的不同需求,針對性提出架構(gòu)優(yōu)化方案。
其次,企業(yè)部分廣泛存在的AI訴求也對“用得好”提出了挑戰(zhàn)。如今幾乎每個應用功能都離不開 AI,然而 AI 模型從開發(fā)進入到生產(chǎn)部署階段面臨著多重困難和挑戰(zhàn)。一般而言,AI 模型需要經(jīng)過大量的調(diào)試和測試,通常需要 2-3 天才能部署上線;而且 AI 線上服務計算資源通常較固定,對于突發(fā)需求資源響應慢,又面臨著業(yè)務擴展難的問題。
作為云原生的核心技術, Kubernetes 能夠管理云平臺中多個主機上的容器化應用,能夠完成 AI 資源的統(tǒng)一部署、規(guī)劃、更新、維護,有效提高 AI 資源管理率。此外,在基于 Kubernetes 的 AI 開發(fā)平臺建設實踐中,使用 CPU 服務器可有效利用空置資源、空閑時間,并通過 Kubernetes 的彈性資源調(diào)度分配給其它應用。而且 CPU 作為通用算力提供者,在采購成本、使用難度等方面有著重要優(yōu)勢,不僅支持 AI 運算,還可用于其他應用負載。
在 Kubernetes 發(fā)布初期,針對 CPU 和內(nèi)存的管理與分配做的比較簡單,隨著新版本的發(fā)布,逐步有一些新的功能加進來(如 CPU Manager、Topology Manager 等),但 Kubernetes 缺省的 CPU Manager、Topology Manager 仍無法了解服務器級硬件的復雜內(nèi)部架構(gòu)和 CPU 本身的能力,這就可能會導致 CPU 的資源分配決策和計算性能無法達到最優(yōu)。對于英特爾? 至強? 可擴展處理器來說,其架構(gòu)復雜、功能強大,如果想要在上面部署 Kubernetes 集群來高效支撐云業(yè)務,就需要對其拓撲結(jié)構(gòu)和 CPU 的強大功能暴露給 Kubernetes集群,這時英特爾? CRI-RM 因此而生。
在英特爾研發(fā)團隊的不懈努力下,如今英特爾? CRI-RM 助力下的 CPU 在 AI 場景中能夠更顯威力。英特爾? CRI-RM 是英特爾初創(chuàng)的一個開源項目,其目的是通過在節(jié)點上的動態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調(diào)度器,實現(xiàn)在節(jié)點層面上的最優(yōu)任務編排,把英特爾平臺的特性完美的適配到 Kubernetes 的集群環(huán)境里。
浪潮在 AIStation V3 中應用了英特爾? CRI-RM 組件,該組件可以插在 Kubelet 和 CR 之間,截取來自 Kubelet CRI 協(xié)議的請求, 扮演 CR 的非透明代理,跟蹤所有集群節(jié)點容器狀態(tài),能夠更好 地將處理器、內(nèi)存、IO 外設、內(nèi)存控制器等資源分配給應用負載。在 Tensorflow 等測試用例中,這一優(yōu)化被證明能夠?qū)崿F(xiàn)高達 57.76% 的性能提升。這意味著在未對硬件配置進行更新的前提下,CRI-RM 的應用會帶來大幅度的性能提升,使得用戶無需在進行硬件投入便能夠獲得可觀的 AI 訓練性能提升,從而提高基礎設施的利用效率,并節(jié)約了總體擁有成本。
通過浪潮的實踐,我們基本就能夠看出,英特爾的軟件開發(fā)和創(chuàng)新的起點就是充分利用硬件資源潛能來優(yōu)化應用,加速應用負載使其在英特爾平臺上以達到更好的開發(fā)和用戶體驗。又比如 QAT 加速卡,在云原生領域的各種網(wǎng)絡傳輸模塊中,它便有效提速了安全加解密(TLS)和壓縮/解壓縮的處理性能,從而幫助軟件獲得更好的性能。
二、企業(yè)當下需要的是“一站式”容器解決方案
用過 OpenStack 的人都知道,版本升級是 OpenStack 商業(yè)化應用的最大痛點。每年兩次版本升級令企業(yè)真的有點吃不消,舊操作系統(tǒng)無法滿足新版本的升級需求,用戶輕易不敢進行升級。雖然說 OpenStack 將在 Zed 版本之后,從“A”開始重新命名,每年兩次大版本升級改為每年一次大版本升級,但這依舊滿足不了如今企業(yè)在數(shù)字化轉(zhuǎn)型過程中上云的需求。
隨著技術發(fā)生變革,用戶需要的是一套能從產(chǎn)品端到服務端的一站式解決方案來滿足需求。因為這些需求的存在,越來越多的團隊會基于 Kubernetes 構(gòu)建上層抽象,增加更多的擴展能力,以“應用”為中心構(gòu)建高可擴展的云原生平臺。
比如青云科技開源的KubeSphere項目,在 Kubernetes 之上構(gòu)建的面向云原生應用的分布式操作系統(tǒng),完全開源,支持多云與多集群管理,提供全棧的 IT 自動化運維能力,簡化企業(yè)的 DevOps 工作流。它的架構(gòu)可以非常方便地使第三方應用與云原生生態(tài)組件進行“即插即用”的集成。此外,KubeSphere 還開源了 KubeKey 幫助企業(yè)一鍵在公有云或數(shù)據(jù)中心快速搭建 Kubernetes 集群,提供單節(jié)點、多節(jié)點、集群插件安裝,以及集群升級與運維。
基于對企業(yè)用戶的需求洞察,青云科技在發(fā)展 KubeSphere 的社區(qū)的同時,還圍繞 KubeSphere 這一核心產(chǎn)品開發(fā)了企業(yè)級容器平臺—— KubeSphere 企業(yè)版。目前已經(jīng)在金融、運營商、工業(yè)、教育、能源、交通物流、零售電商和政府等行業(yè)積累了大量成功經(jīng)驗。像中金蒼穹容器平臺、易方達基金 PaaS 平臺、云天化集團容器云平臺、中移金科容器云平臺都是 KubeSphere 企業(yè)版的優(yōu)秀實踐。
為了真正幫助企業(yè)更好地落地云原生應用場景,青云科技廣泛聯(lián)合云原生生態(tài)體系各層面合作伙伴,打造開放共生的云原生生態(tài)圈。硬件層面的生態(tài)合作是其中重要的一部分,因為在當前的云原生生態(tài)環(huán)境下,云原生容器化平臺上的軟件應用效率和硬件技術之前的關系更加緊密,其運行更需要調(diào)動硬件的加速能力。于是擁有獨特硬件黑科技優(yōu)勢的英特爾成為了青云科技的合作伙伴,為 KubeSphere 企業(yè)版提供了許多支持。
英特爾幫 KubeSphere 企業(yè)版實現(xiàn)了網(wǎng)絡功能增強,通過開發(fā)并開源 Multus 的 CNI 插件、提供“將多個接口添加到 Pod”的功能,成功解決了因 Kubernetes 缺乏支持多個網(wǎng)絡接口能力,而受制于單一網(wǎng)絡解決方案的企業(yè)用戶的需求。如今的 KubeSphere 企業(yè)版在優(yōu)化后的 Intel Multus 解決方案的助力下,實現(xiàn)了更強大、更多元的網(wǎng)絡管理和擴展能力,支持用戶在創(chuàng)建應用負載時可以自定義選擇多塊網(wǎng)卡,同時支持網(wǎng)卡資源池管理。
圖:應用負載選擇多網(wǎng)卡
此外,為了檢測 Kubernetes Cluster 中每個 Node 的特性能力,英特爾還開發(fā)了 NFD(Node Feature Discovery),而 KubeSphere 企業(yè)版深度集成了 NFD,使其節(jié)點管理得到增強。KubeSphere 企業(yè)版通過把節(jié)點更詳細的 Label 發(fā)送到 KubeSphere 企業(yè)版 Master Scheduler 之上,應用負載獲得了更精準的調(diào)度,使其更充分地利用硬件資源。
圖:測試結(jié)果-Node Feature Discovery啟動成功
另外值得一提的是,CPU Manager 給 KubeSphere 企業(yè)版帶來的性能提升表現(xiàn)十分亮眼。當我們測試部署不同的 Redis pod 會發(fā)現(xiàn),開啟 CPU Manager 后的 Redis 的讀寫性能與開啟前的讀寫性能相比,Redis 性能最高可以提升超過 9%。
圖:Redis 性能測試圖
三、容器好用,但也需要“注意安全”
虛擬化技術突破了操作系統(tǒng)與物理硬件的局限,在異構(gòu)資源整合、集中管理、提高硬件利用率等方面具有很強的優(yōu)勢,但這同時也增加了發(fā)生系統(tǒng)安全問題的概率,虛擬化的安全直接影響著云原生架構(gòu)的安全,間接影響著企業(yè)數(shù)字化轉(zhuǎn)型成果及業(yè)務發(fā)展。
作為云原生虛擬化常用的技術,容器確實好用,但是容器安全問題也一直是行業(yè)內(nèi)備受詬病的問題。傳統(tǒng)的容器基于 NameSpace 和 Cgroup 進行隔離,在帶來輕量簡潔的同時,也帶來了許多安全隱患。容器作為一種相對于虛擬機來說更加輕量的虛擬化技術,容器雖然能夠提供一個與系統(tǒng)中其他進程資源相隔離的執(zhí)行環(huán)境,但還是與宿主機系統(tǒng)共享內(nèi)核的,很容易因為隔離性不足而產(chǎn)生安全隱患。尤其是在多租戶的場景下,一旦容器里的應用逃逸到內(nèi)核,后果將不堪設想。
據(jù) Red Hat 公司調(diào)查數(shù)據(jù)顯示:有 94% 的受訪者在過去 12 個月內(nèi)遭遇過 Kubernetes 安全事件。而 Akamai 日前也進行了一項實驗,將一個簡單的 Docker 容器蜜罐用于攻擊測試,結(jié)果顯示該容器在 24 小時內(nèi)被攻擊者用于四起不同的犯罪活動。這些數(shù)據(jù)都在告訴我們,解決企業(yè)容器安全問題刻不容緩。
所以很多廠商在構(gòu)建企業(yè)級容器管理平臺時都會著重考慮容器安全問題,像我們剛剛提到的KubeSphere 企業(yè)版,它的一大亮點就是“安全加固”。在英特爾容器解決方案加持下的 KubeSphere 企業(yè)版,深度集成了 Kata Containers,用戶可以在創(chuàng)建符合自身業(yè)務需求的運行時,通過 KubeSphere 企業(yè)版的管理頁面進行統(tǒng)一管理。
圖:一鍵選擇Kata
Kata Containers 的核心亮點就是采用輕量級虛擬化作為容器的隔離,使得它兼具容器的速度和虛擬機的安全隔離,這一點解決了長期以來困擾容器發(fā)展的安全隔離性不足問題,大大促進了云原生的發(fā)展。
作為符合 OCI 標準的輕量級 VM,可無縫地與 Docker 及 Kubernetes 對接。Kata Containers 運行的應用負載具備獨立內(nèi)核,同時借助英特爾? VT 技術,具備其他輕量級 VM 所不具備的優(yōu)異性能。它整合了英特爾的 Clear Containers 和 Hyper.sh 的 runV,在能夠充分利用英特爾? 架構(gòu)平臺性能優(yōu)勢的同時,還支持其他架構(gòu)的硬件。
Kata Containers 的隔離原理就是在請求創(chuàng)建容器實例時,首先啟動一個輕量化虛擬機,然后將容器鏡像掛載到虛擬機里,從而在這個虛擬機里啟動和運行這個容器應用程序。其本質(zhì)是一個虛擬機實例,但拉起虛擬機的過程和運行在虛擬機里這個事實對用戶是透明的,這種方式并不改變用戶使用容器的習慣。
Kata containers 可以被用在很多場景,目前云服務提供商 CSP 們的使用場景主要包括安全容器實例服務、容器運行時的業(yè)務隔離等。感興趣的開發(fā)者可以參閱公開的應用案例集: 目前 Kata Containers 2.0 已經(jīng)發(fā)布,社區(qū)正在醞釀 Kata Containers 3.0 的規(guī)劃和開發(fā),其主要開發(fā)方向?qū)⒕劢褂趦?yōu)化性能、加強安全、提高可用性和穩(wěn)定性方面。
另外,一個基于 Kata Containers 的典型用例也十分值得大家去了解——機密容器 (Confidential containers),它是一個基于硬件TEE的技術方案,目前是 CNCF 的沙箱項目。機密容器是機密計算(Confidential Computing)的一個具體實現(xiàn),其主要目標是對數(shù)據(jù)在使用中的保護,隨著云計算的大規(guī)模部署,機密計算旨在允許將云提供商從可信計算基礎(TCB)中移除,以便只有硬件和受保護的應用程序本身在可信邊界內(nèi),這使租戶可以放心地、安全地把業(yè)務負載轉(zhuǎn)移到公有云上去。
要知道,英特爾? SGX 一直是業(yè)內(nèi)機密計算方案的主要推動者。英特爾? SGX 在內(nèi)存空間中“開辟”出了一個可信的、受到嚴密保護的安全“飛地”,可通過嚴格的訪問控制和加密操作去保障數(shù)據(jù)完整性、數(shù)據(jù)機密性和代碼完整性,確保主機操作系統(tǒng)、BIOS 等高等級應用和底層基礎系統(tǒng)都不能對其隨意訪問。即便應用、底層基礎系統(tǒng)在惡意攻擊中受損,“飛地”也可通過基于硬件的、增強型的安全防護來阻斷攻擊。
同時英特爾? SGX 的鑒權(quán)能力可在阻斷攻擊的同時證明自己的運行未被篡改。如果需要實現(xiàn)數(shù)據(jù)“可用不可見”,英特爾? SGX 也能以“飛地”機制為機密計算中的數(shù)據(jù)與代碼提供安全島。
“飛地”空間越大,其能承載和提供保護的應用程序和核心數(shù)據(jù)也就越多,于是英特爾對 SGX 技術進行了全面強化,在配置了面向單路和雙路的第三代英特爾? 至強? 可擴展處理器的系統(tǒng)中,目前雙路系統(tǒng)中最高可支持1TB容量的“飛地”空間,能夠讓用戶在云上實現(xiàn)更大數(shù)據(jù)量的機密計算,輕松應對更多安全挑戰(zhàn)。
四、寫在最后
隨著人工智能、大數(shù)據(jù)等創(chuàng)新技術席卷大多數(shù)行業(yè)和地域,疫情防護常態(tài)化暴露出來的企業(yè)“數(shù)字缺陷”加快了數(shù)字化轉(zhuǎn)型速度。企業(yè)想要成功實現(xiàn)數(shù)字化轉(zhuǎn)型,構(gòu)建云原生技術架構(gòu),就一定要利用好容器技術。
在后 OpenStack 時代,云原生未來的發(fā)展趨勢就是將管理基礎設施(計算、網(wǎng)絡、存儲)的負擔卸載給云服務提供商(公共云/私有云/邊緣云),以便開發(fā)人員可以專注于應用程序的業(yè)務邏輯而不是基礎設施,從而以更低的資本性支出和管理支出、更快地使應用上市。如果更具象一點,則是將大型復雜的單體應用程序分解為小的模塊化執(zhí)行單元,以便于修改程序或添加功能,更好地代碼重用,更少地維護開銷。
作為云原生發(fā)展的基石,容器技術將再次順應云原生發(fā)展潮流,解決上述的這些需求。隨著技術的演進,企業(yè)勢必會越來越重視如何使容器技術更好地為業(yè)務帶來價值這件事。那在這個過程中,勢必會遇見各種各樣的挑戰(zhàn),面對挑戰(zhàn),我們需要的做的就是迎難而上。
對正處在數(shù)字化轉(zhuǎn)型關鍵期的企業(yè)來說,在降本增效的大目標下,應用英特爾等廠商提供的商用解決方案也是很不錯的選擇,不僅能夠幫助企業(yè)降低人力成本,還能夠大大地提高管理效率。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 這里不止“羊毛月”,少年也在以電商助農(nóng)
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務體系高效協(xié)同 “中醫(yī)+”健康服務未來可期
- 國產(chǎn)手機大勝,蘋果銷量大跌,難怪急哄哄降價千元
- 走出群山,長賽道“攀登者”vivo
- 三線結(jié)構(gòu)光與升降LDS激光雷達 石頭自清潔掃拖機器人G30導航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機械手掃拖機器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術全球吸睛
- 科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開
- 打造個人辦公新范式,科大訊飛召開辦公智能體產(chǎn)品升級發(fā)布會
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。