華為計算戰(zhàn)略再出新措,全面啟動數據基礎設施戰(zhàn)略

原標題:華為計算戰(zhàn)略再出新措,全面啟動數據基礎設施戰(zhàn)略

不鳴則已一鳴驚人,這就是華為。

還記得兩個月前華為在全聯接大會上的一系列操作嗎?發(fā)布全新計算戰(zhàn)略,開放鯤鵬主板接口規(guī)范和設備管理規(guī)范、開源服務器操作系統(tǒng)、開源GaussDB OLTP單機版數據庫……那時我就說很快華為還會有更多后續(xù)動作。今天,它來了。

11月19日,華為在深圳召開2019全球數據基礎設施論壇。會上,華為重磅宣布全面啟動數據基礎設施戰(zhàn)略,并開源數據虛擬化引擎HetuEngine (河圖引擎)。

繼計算戰(zhàn)略之后,又宣布數據基礎設施戰(zhàn)略,華為是何用意?數據基礎設施戰(zhàn)略什么內涵,和計算戰(zhàn)略又是什么關系?數據虛擬化引擎能給用戶帶去什么?

01

計算的主體是數據

數據將成為未來世界的關鍵生產資料,這一點相信已經沒有人再懷疑。

打開快手,會收到你感興趣的內容推送,背后就是數據在驅動;大港油田發(fā)現新的油氣層,離不開大數據和AI技術的支撐;華為每年近300萬人次出差能做到“說走就走”,免去申請、報銷等復雜的流程,是因為通過數據更有效、更合理的方式流轉代替了員工的跑腿。

然而一個不得不承認的現實是,像這樣被利用起來的數據太少了,一方面是數據生產的速度太快,另一方面則是因為存儲、計算資源是有限的。

不信?舉幾個例子,從1080P提升到4K、8K,視頻數據量將提升40倍,從4K到4k VR要增加6倍以上;未來每輛自動駕駛汽車每天就會產生高達64TB的數據;深圳一個城市有超過200萬攝像頭,每天將生產80PB數據,平均保存30天,而且大家希望保存的時間還要更長。

華為GIV 2025預測,全球數據量將從2018年的33ZB快速增長到2025年的180ZB。這其中,產生的數據中僅有不到2%被保存,而被保存的數據中僅有不到10%被應用。

數據增長和存儲資源、計算資源有限之間的矛盾可以說愈演愈烈。解決這一問題唯一的辦法就是在存儲、計算等基礎設施上下功夫。

于是,華為宣布了數據基礎設施戰(zhàn)略。未來,華為將圍繞數據“采-存-算-管-用”的全生命周期,通過提供融合、智能、開放的數據基礎設施,使能各行各業(yè)客戶釋放數據價值,讓智能無所不及。

02

換個角度理解計算戰(zhàn)略

該如何理解數據基礎設施戰(zhàn)略?其實早在華為發(fā)布計算戰(zhàn)略時,對于數據部分就已經有相應的描述,即在智能數據與存儲領域,通過融合存儲、大數據、數據庫、AI等技術,圍繞數據的全生命周期,讓數據的每比特成本最優(yōu)、讓數據的每比特價值最大。

對比兩次表述來看,異曲同工。因此在我看來,數據基礎設施戰(zhàn)略并不是又一個全新的概念,而是華為整體計算戰(zhàn)略的一部分,華為在以一個更具象、更小的切口來落地計算戰(zhàn)略,畢竟計算戰(zhàn)略非常宏大。有了數據這個抓手,能更好的發(fā)揮華為整體計算戰(zhàn)略的能力。

事實也確實如此,如華為Cloud & AI產品與服務總裁侯金龍在演講中所說,數據基礎設施戰(zhàn)略是從數據角度對計算戰(zhàn)略的再度思考。

當然,除了戰(zhàn)略目標,此次華為帶來的還有實踐理念和落地工具。其中最核心的是依托鯤鵬計算產業(yè),打造“融合、智能、開放”的數據基礎設施,讓數據系統(tǒng)從孤立走向融合,從復雜走向智能,從封閉走向開放。這也是此次大會取名全球數據基礎設施論壇的出發(fā)點。

融合,顧名思義打破孤立,主要針對基礎設施層。數據應用主要涉及兩個部分:存儲與分析。傳統(tǒng)煙囪式IT業(yè)務系統(tǒng)面臨兩個挑戰(zhàn):存的時候數據孤立,且多副本,成本高利用難;分析的時候需要大量數據搬遷,效率低。融合就是要打破這其中的墻。

總結起來,有4堵墻:

一、存儲內部系統(tǒng)墻:通過一套架構實現生產、分析、備份、歸檔統(tǒng)一管理,一份數據在各個系統(tǒng)中可以平滑流動,進而減少拷貝,TCO可降低30%以上。

二、數據庫與存儲鏈路墻通過算子下推實現近數據計算,減少存儲層與計算層之間的數據交換,數據訪問和處理性能提升2倍。

三、大數據與存儲配置墻通過存算分離實現資源靈活配置,計算不足擴計算,存儲不足擴存儲,并通過彈性EC、數據縮減技術減少冗余,整體TCO降低30%以上。

四、數據庫與大數據協(xié)同墻通過協(xié)同分析實現數據0搬遷,數據庫和大數據共享一份數據,分析效率提升100%。

智能,主要解決運維難題。架構正變得越來越復雜,靠人越來越捉襟見肘,即便是經驗豐富的老工程師也越來越感覺吃力,這是人工智能被廣泛提及的基礎。華為基于AI芯片、存儲和華為云的三層架構,通過云上訓練和云下推理,能夠讓系統(tǒng)越用越快、越用越省。

具體體現在三個方面:

  • 依托昇騰處理器的AI能力,自動學習和識別IO流,提升Cache預取命中率,系統(tǒng)整體性能提升20%。
  • 依托鯤鵬處理器的多核算力,根據不同的數據類型,實時優(yōu)化數據縮減算法,TCO降低25%。
  • 結合華為云自身大規(guī)模運維運營經驗,當前可以實現提前14天預測硬盤故障,提前60天預測性能瓶頸,提前365天預測容量不足,其中30%的故障可以自我修復。

開放,解決數據應用難題。業(yè)務類型日益增多,跨平臺、跨數據源協(xié)同分析場景增多,找數難、取數難、用數難日益突出。比如

找數難:傳統(tǒng)企業(yè)數據類型越來越多,結構化、半結構化、非結構化數據并存,缺少統(tǒng)一數據目錄和全局數據視圖,要在眾多異構數據源中找到特定數據,就像大海撈針。

取數難:一個典型的分析業(yè)務通常依賴跨地域跨平臺數據協(xié)同,需要從多個業(yè)務系統(tǒng)獲取數據,這要經過多部門間協(xié)調、核實才能獲取。

用數難:多業(yè)務分析需要多引擎協(xié)同,這將依賴多種數據訪問技術,需要開發(fā)人員掌握多種開發(fā)工具和語言,這導致開發(fā)門檻變高,開發(fā)周期變長。為了屏蔽數據類型差異、地域差異、語法差異,讓數據治理更簡單,華為推出了“河圖引擎”。

融合、智能、開放,基礎設施、運維、數據,數據應用基礎設施的方方面面,華為此次都給出了自己的觀察,并提供了相應的解決方案。

03

河圖治水,河圖引擎治數

這里重點講講河圖引擎(HetuEngine)。“大禹得河圖后始見清明”,大禹通過河圖掌握河流山川復雜的地形地貌,順利完成治水大業(yè)。華為取名河圖就是想數據治理簡單,使用簡單,讓開發(fā)者像使用數據庫一樣使用大數據,復用現有的生態(tài)、工具和技能,進而提升開發(fā)效率。

眾所周知,數據庫已經是非常成熟的產品,標準化語言,目錄清晰、接口統(tǒng)一,使用便捷。這也是河圖致力實現的目標。

目前,河圖引擎具備4個核心能力:

一個目錄:通過元數據在線感知,構建超過1000個異地異構數據源全局虛擬數據視圖,打破數據孤島。數據全局可視,解決企業(yè)找數難問題。

一個入口:通過開放的連接框架、5000節(jié)點SQL引擎,實現30種異地異構數據源統(tǒng)一SQL訪問,秒級獲取。數據全局可得,解決企業(yè)取數難問題。

一份數據通過CarbonData技術,實現一份數據多場景分析,多應用共享,數據0搬遷。數據全局可用,解決企業(yè)用數難問題。

統(tǒng)一安全:對于用戶最重視的數據安全性問題,河圖引擎通過細粒度動態(tài)授權、敏感數據自動感知技術,能夠實現異地異構數據源集中式安全配置與管控。數據全局可控,數據授權時間從天到秒,解決企業(yè)數據安全與合規(guī)問題。

據悉,開源版本的河圖引擎叫OpenHetu,并將于2020年6月上線。華為將開源內核,開發(fā)者可以基于開源代碼進行定制,包括數據源擴展、SQL執(zhí)行策略等,實現應用快速對接,提升開發(fā)效率。總的目標,讓合作伙伴用得好,用的放心。

回過頭再看華為計算戰(zhàn)略,毫無疑問,其正在快速、穩(wěn)步的推進。還是之前的判斷,這還只是華為計算戰(zhàn)略的開始,未來還會有更多后續(xù)。但值得強調的是,相比之前,華為這次找到了一個更好的切入點,它就是數據。所以,接下來華為計算戰(zhàn)略的落地進程肯定會走的更實、更快,拭目以待。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-11-19
華為計算戰(zhàn)略再出新措,全面啟動數據基礎設施戰(zhàn)略
解決這一問題唯一的辦法就是在存儲、計算等基礎設施上下功夫。

長按掃碼 閱讀全文