從GaussDB(DWS) 的技術(shù)演進,看數(shù)據(jù)倉庫的積淀與新生

數(shù)據(jù)驅(qū)動著現(xiàn)代商業(yè)的發(fā)展。今天,無論在制造、零售、物流,還是在互聯(lián)網(wǎng)、金融等行業(yè),數(shù)據(jù)都變得比以往任何時候更為重要。

海量且多樣的數(shù)據(jù)浪潮對數(shù)據(jù)處理和分析提出了更高的要求,也使得數(shù)據(jù)倉庫走向了多元化的發(fā)展之路,傳統(tǒng)數(shù)倉、數(shù)據(jù)集市、實時數(shù)倉等相繼誕生。此外,隨著云計算的興起和滲透,云數(shù)倉成為了數(shù)倉技術(shù)演進的新階段,并且逐漸成為了眾多企業(yè)的共同選擇。

與時俱進的“數(shù)據(jù)倉庫”

“數(shù)據(jù)倉庫”的概念并非近些年才出現(xiàn),關(guān)于它的起源,眾說紛紜,有一種說法指出“數(shù)據(jù)倉庫”的概念最早可以追溯到上世紀(jì) 60 年代,當(dāng)時的數(shù)據(jù)主要是手工處理的紙質(zhì)文檔和統(tǒng)計報表;80 年代中后期,隨著計算機技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,數(shù)據(jù)倉庫開始逐漸成為企業(yè)級分析的重要工具;直到 90 年代 Bill Inmon 推出《建立數(shù)據(jù)倉庫》,正式定義了數(shù)據(jù)倉庫的概念——數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合;進入21世紀(jì)后,數(shù)據(jù)倉庫開始與大數(shù)據(jù)、數(shù)據(jù)挖掘、機器學(xué)習(xí)、云計算等技術(shù)的相結(jié)合,走上了集成發(fā)展之路。

隨著技術(shù)的不斷發(fā)展和產(chǎn)業(yè)實踐的深入,數(shù)據(jù)倉庫逐漸成為了企業(yè)信息管理中不可或缺的部分。在實際應(yīng)用中,數(shù)據(jù)倉庫已經(jīng)被廣泛應(yīng)用于各個領(lǐng)域,如客戶關(guān)系管理、商業(yè)智能、金融風(fēng)險評估等。例如,在客戶關(guān)系管理方面,數(shù)據(jù)倉庫可以幫助企業(yè)更好地了解其客戶,從而提高客戶滿意度和忠誠度。在商業(yè)智能方面,數(shù)據(jù)倉庫可以幫助企業(yè)快速地分析大量的數(shù)據(jù),從而為企業(yè)決策提供支持;在金融風(fēng)險評估方面,數(shù)據(jù)倉庫可以幫助銀行和金融機構(gòu)更好地評估風(fēng)險和制定策略等等。

一些大型科技公司,基于自身業(yè)務(wù)訴求,也走上了數(shù)據(jù)倉庫的研發(fā)之路。比如華為云早在 2011 年就開始做數(shù)據(jù)倉庫——GaussDB(DWS) 的預(yù)研,在經(jīng)受了海量自有業(yè)務(wù)數(shù)據(jù)的考驗后,于 2015 年推向市場,面向金融、政府傳統(tǒng)一體機等企業(yè)級核心數(shù)倉場景提供服務(wù),2017 年 GaussDB(DWS) 上云,進一步提升了服務(wù)能力與服務(wù)范疇。

據(jù)華為云數(shù)倉 GaussDB(DWS)資深產(chǎn)品專家黃海燕介紹,GaussDB(DWS)是華為云數(shù)據(jù)生產(chǎn)線上的一個明星產(chǎn)品,是支持實時入庫、實時分析、批量運算、交互式查詢的一站式分析平臺,具備傳統(tǒng)數(shù)倉的超大規(guī)模、高性能、高并發(fā)等優(yōu)勢,同時也具備云原生數(shù)倉的存算分離、彈性伸縮、Serverless、湖倉一體和數(shù)智融合等能力。

歷時 12 年,從內(nèi)到外、從本地部署到云端服務(wù),GaussDB(DWS) 逐漸探索出了適應(yīng)云時代多場景需求的云數(shù)倉之路。

GaussDB(DWS)的 Serverless 之路

2017 年,華為云開始加速拓展業(yè)務(wù),推出了更多云計算服務(wù),GaussDB(DWS) 也全面上云。上云之后帶來的最直接的價值在于可以減少客戶企業(yè)的硬件投資和運維成本,提高整體的運營效益。但是由于企業(yè)的業(yè)務(wù)規(guī)模不同,負(fù)載差異非常大。黃海燕表示,小一點的可能只有幾十 GB 的數(shù)據(jù)集,大的則有數(shù)百 TB 甚至更多的數(shù)據(jù)集。業(yè)務(wù)規(guī)模的差異對數(shù)倉服務(wù)的彈性也提出了更高的要求。

針對這個問題,華為云 GaussDB(DWS) 在一開始就將數(shù)倉服務(wù)傳統(tǒng)的一體機模式轉(zhuǎn)換成了彈性計算服務(wù) ECS+彈性存儲服務(wù) EVS 上的存算分離模式,實現(xiàn)了計算存儲獨立的擴容和擴展,能夠?qū)崿F(xiàn)計算升降配、存儲彈性擴容,同時也支持在數(shù)據(jù)擴容之間的數(shù)據(jù)重分布,且不影響業(yè)務(wù)的中斷。

隨著業(yè)務(wù)場景的不斷深入, ECS+EVS 彈性擴展的方式在面對一些數(shù)據(jù)量大但計算要求不高的場景,比如車聯(lián)網(wǎng)、互聯(lián)網(wǎng)日志、企業(yè)核心數(shù)倉的長周期歷史數(shù)據(jù)時,依然存在掣肘。

對此, GaussDB(DWS) 團隊在 ECS+EVS 的基礎(chǔ)上又做了一層對象存儲 OBS 的冷數(shù)據(jù)管理,將車聯(lián)網(wǎng)、長周期歷史數(shù)據(jù)等放到 OBS 上,在不擴展計算的情況下,通過這種方式實現(xiàn)冷熱數(shù)據(jù)的管理,進而達到計算和存儲的平衡。最終集成為 ECS+EVS+OBS 冷熱數(shù)據(jù)管理的方式,GaussDB(DWS) 基于本地盤進行性能加速,將 OBS 作為冷數(shù)據(jù)區(qū),數(shù)據(jù)存儲異構(gòu)擴展至 OBS,利用分層存儲的方式,實現(xiàn)數(shù)據(jù)按需選擇存儲和計算引擎、冷熱數(shù)據(jù)遷移動態(tài)切換等,進而在不影響數(shù)倉體驗的前提下,達到成本最優(yōu)。

“后來我們發(fā)現(xiàn) ECS+EVS+OBS 冷熱數(shù)據(jù)管理的方式依然有覆蓋不到的場景,比如說有一些場景它需要在跑批量的時候同時能夠跑并發(fā)的查詢,還希望一份數(shù)據(jù)實現(xiàn)多樣化的分析和存儲。因為有一部分熱數(shù)據(jù)在 EVS 上,很多時候沒有辦法高效地擴展分析,所以后面我們把所有的數(shù)據(jù)都放在 OBS 上,原來的 EVS 作為數(shù)據(jù)的緩存,OBS 數(shù)據(jù)可以供多個集群、數(shù)據(jù)湖或者是 AI 去分析,再通過原先的 EVS 轉(zhuǎn)換成一個角色,做數(shù)據(jù)分析加速??梢岳斫獬晌覀兺瑫r支持了三種模式,這三種模式不是相互替代的關(guān)系,而是各有其應(yīng)用的場景和特點。”黃海燕提到。

基于上述三種 Serverless 模式, GaussDB(DWS)成功為 1700+ 客戶提供了不同業(yè)務(wù)場景下的數(shù)據(jù)倉庫服務(wù)。黃海燕表示:“現(xiàn)在云上有很多彈性的場景,比如說互聯(lián)網(wǎng),在我們歸納來說我們認(rèn)為有兩大類的彈性場景”。

首先是長周期的彈性場景,主要有幾種類型:第一種是在固定的時間點上有一個潮汐波動,比如“雙十一”、“618”這類促銷節(jié)點;第二種是隨著企業(yè)規(guī)模的擴大,用戶量、數(shù)據(jù)量、計算量也會遞增;第三種是業(yè)務(wù)具備明顯的長周期時間特征,比如銀行在月末、季末、年末有結(jié)算的需求,計算量會比平時要大,游戲行業(yè)在周末時業(yè)務(wù)量會比平時更大。

其次是短周期的,即短期內(nèi)有多樣化的訴求。比如銀行 00:00-8:00 是批量的運行高峰,8:00-18:00 在批量運行的同時會有一些對報表、經(jīng)營數(shù)據(jù)的交互式查詢,18:00 后是業(yè)務(wù)的低峰期,整體呈現(xiàn)一個潮汐波動。

Serverless 的極致彈性擴縮容,很好地滿足了長、短周期彈性場景下的業(yè)務(wù)需求,但是存算分離的架構(gòu)也可能會帶來網(wǎng)絡(luò)開銷變大、數(shù)據(jù)處理效率變低、性能下降等問題,對此 GaussDB(DWS) 團隊也做出了較多的探索。

首先,在 ECS+EVS+OBS 的模式下,數(shù)據(jù)統(tǒng)一存放在 OBS 上,EVS 充當(dāng)緩存(磁盤緩存+內(nèi)存緩存)的角色,由于磁盤緩存相對而言成本較低,且大小可控,所以 GaussDB(DWS) 做了一個大比例的磁盤緩存,用戶可以根據(jù)對性能或者成本的要求調(diào)整比例,理論上如果要追求極致性能,可以不斷調(diào)大磁盤緩存,直到滿足業(yè)務(wù)需求。

其次是計算下推,把查詢的邏輯直接下推到 OBS,用戶如果要從 OBS 上查數(shù)據(jù),直接從源端進行數(shù)據(jù)過濾,從而減少網(wǎng)絡(luò)傳輸對內(nèi)存的占用,帶來性能的提升。

最后是 I/O 管控,GaussDB(DWS) 采用多個 I/O 調(diào)度的代理和線程,直接從 OBS 上 Road 數(shù),充分把 OBS 的帶寬利用起來,避免負(fù)載低時 OBS 用不上,負(fù)載高時互相爭搶的問題,進而實現(xiàn)性能的最大化。

除了在 Serverless 方向的探索外,GaussDB(DWS) 在湖倉一體與數(shù)智融合上同樣取得了一些突破。

“湖倉一體+數(shù)智融合”的未來暢想

對于“湖倉一體”的探索,華為云做的比較早,只不過當(dāng)時主要是通過外表技術(shù)實現(xiàn)數(shù)據(jù)共享,比如對于 Spark 或 Hive 的表,在數(shù)倉里建一張外表和它對應(yīng),從而查詢 Spark 和 Hive 里的數(shù)據(jù)。但是這種方式隨著數(shù)據(jù)規(guī)模的增加,維護成本也會倍增。

外表技術(shù)本質(zhì)上只能訪問數(shù)據(jù),并不知道元數(shù)據(jù)長什么樣,如果元數(shù)據(jù)內(nèi)容統(tǒng)一的話,對用戶來講就不需要建這個外表?;谶@個思路,GaussDB(DWS) 引入了 External schema 的概念,通過創(chuàng)建一個 External schema,然后以 schema.table 的方式去訪問 Hive 和 Spark 的元數(shù)據(jù),和正常 SQL 一致,還可以和 GaussDB(DWS) 的內(nèi)表做關(guān)聯(lián)分析,從而使得 GaussDB(DWS) 的優(yōu)化器能力和執(zhí)行引擎能力更強。

“未來華為云這邊,整個 EI 平臺會建立一個 LakeFormation 的統(tǒng)一存儲管理的組件服務(wù),它會統(tǒng)一管起來所有的數(shù)倉和數(shù)據(jù)湖里面的各種組件的元數(shù)據(jù),真正實現(xiàn)元數(shù)據(jù)意義上的共享,元數(shù)據(jù)的共享是比數(shù)據(jù)共享難度更高,或者說是真正有更大價值的東西。”華為云數(shù)倉GaussDB(DWS) 技術(shù)專家齊天表示。

此外,為了解決多種數(shù)據(jù)庫插件或引擎的調(diào)度問題,GaussDB(DWS) 還提供了一個叫做 External Connection 的能力,可以直接調(diào)用外部的計算引擎,用于計算共享數(shù)據(jù)或者是它們的自有數(shù)據(jù),從而用一個或者一套引擎實現(xiàn)計算的統(tǒng)一。數(shù)據(jù)共享、元數(shù)據(jù)共享以及計算統(tǒng)一,是 GaussDB(DWS) 數(shù)倉一體的三大技術(shù)特征,并由此打破數(shù)據(jù)孤島效應(yīng),解決企業(yè)的 IT 資源分散、數(shù)據(jù)不通、應(yīng)用孤立等問題。

在實現(xiàn)多平臺的數(shù)據(jù)拉通之后,面向未來,華為云數(shù)倉又提出了“數(shù)智融合”的概念。據(jù)了解,數(shù)智融合本質(zhì)上是把數(shù)據(jù)和 AI 這兩條原本完全割裂的生產(chǎn)線融合到一起,從而實現(xiàn) 1+1>2 的效能。

當(dāng)前 GaussDB(DWS) 對數(shù)智融合的探索主要在兩大場景:一是對于批量數(shù)據(jù),GaussDB(DWS) 可以將它們存儲在 OBS 上,通過 OBS 實現(xiàn)和 AI 之間的數(shù)據(jù)共享,從而在不影響數(shù)倉體驗的前提下,融入 AI 的自動化批量數(shù)據(jù)處理的能力;二是即席查詢場景,GaussDB(DWS) 針對數(shù)據(jù)訪問的插件做了優(yōu)化,進而讓 AI 生產(chǎn)線能夠更好、更快速地從中獲取數(shù)據(jù)等。

縱觀數(shù)據(jù)倉庫的演進之路,不難看出,從誕生的那一刻起,它就不斷在與新技術(shù)、新場景相融合,并獲得生機,從而持續(xù)釋放數(shù)據(jù)的價值,推動產(chǎn)業(yè)發(fā)展。GaussDB(DWS) 的全面 Serverless 化、湖倉一體和數(shù)智融合等特征,是華為云對于新時代數(shù)據(jù)倉庫技術(shù)演進方向的重要判斷,同樣也是數(shù)據(jù)倉庫技術(shù)順應(yīng)時代、發(fā)展迭代的結(jié)果。隨著 AI 新時代的到來,數(shù)智融合之后的數(shù)據(jù)倉庫技術(shù)又將會迸發(fā)出怎樣的力量,值得期待。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )