StarRocks上新,“One Data、All Analytics”還有多遠?

K.K在《未來十二大趨勢》中認為,我們正處于一個數(shù)據(jù)流動的時代。商業(yè)乃數(shù)據(jù)之商業(yè)。歸根結底,你在處理的都是數(shù)據(jù)。

的確,當數(shù)據(jù)成為新的核心生產(chǎn)要素之際,數(shù)據(jù)分析就猶如最重要的生產(chǎn)工具之一,決定著企業(yè)在數(shù)字化時代生產(chǎn)力水平。近年來,無論國外的Snowflake、Databricks,還是國內StarRocks、PingCAP,大批數(shù)據(jù)分析型公司涌現(xiàn),都旨在滿足越來越多的數(shù)據(jù)分析需求,幫助各種企業(yè)充分釋放數(shù)據(jù)生產(chǎn)力。

這其中,StarRocks就是數(shù)據(jù)分析領域一顆冉冉升起的新星。在短短幾年時間里,StarRocks在Github獲得star 6300+,成為同類開源數(shù)據(jù)庫項目里增長最快的,并且在2022年底正式捐贈給 Linux Foundation,吸引到全球開發(fā)者和用戶參與未來社區(qū)的建設。

正如StarRocks TSC Member、鏡舟科技 CTO 張友東所言,StarRocks希望通過技術創(chuàng)新來簡化數(shù)據(jù)技術棧,通過一個引擎實現(xiàn)全場景的“One Data、All Analytics”愿景。

為何需要“One Data,All Analytics”

當前,人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等數(shù)字化技術在不斷提升企業(yè)生產(chǎn)力的同時,隨之而來就是復雜性的持續(xù)提升。這種復雜性在數(shù)據(jù)領域體現(xiàn)的尤為明顯,尤其是數(shù)據(jù)技術與業(yè)務場景的不斷融合,復雜性困擾著諸多身處數(shù)字化轉型的企業(yè)。

復雜性首先體現(xiàn)在數(shù)據(jù)本身,數(shù)據(jù)正加速走向海量化和多樣化。過去,一家企業(yè)往往以結構化數(shù)據(jù)為主,數(shù)據(jù)規(guī)模通常是TB級別;現(xiàn)在,文本數(shù)據(jù)、軌跡數(shù)據(jù)、日志數(shù)據(jù)等非結構化數(shù)據(jù)大幅增加,PB級數(shù)據(jù)量正成為越來越多企業(yè)的常態(tài)。

其次,企業(yè)如今的業(yè)務場景日趨復雜,隨之而來的就是數(shù)據(jù)棧相關技術、工具、產(chǎn)品大量增加。從過去單一的數(shù)據(jù)倉庫,到現(xiàn)在指標平臺、交互式分析、實時分析、流計算等等,企業(yè)面臨的數(shù)據(jù)棧環(huán)境復雜程度遠勝以往,并且隨著AI相關技術融入,這種復雜性還在持續(xù)增加。

第三,數(shù)據(jù)消費需求的復雜性大幅提升。過去,數(shù)據(jù)消費僅僅是管理層少數(shù)人的“權力”;現(xiàn)在,“人人用數(shù)”已經(jīng)成為眾多企業(yè)追求的目標。例如,有些走在前沿的互聯(lián)網(wǎng)、金融等企業(yè),甚至一名普通業(yè)務員工都是數(shù)據(jù)消費者,并且在日常業(yè)務中隨時會進行數(shù)據(jù)分析。

因此,在海量數(shù)據(jù)環(huán)境成為既定事實的情況下,企業(yè)在數(shù)據(jù)領域所面臨的復雜性挑戰(zhàn)將是數(shù)字化轉型中一道必須面臨的難題。在張友東看來,“One Data,All Analytics”是化解數(shù)據(jù)分析復雜性的關鍵,而StarRocks3.0版本的推出,為實現(xiàn)“One Data,All Analytics”目標前進了一大步。

StarRocks 3.0,產(chǎn)品大進階

眾所周知,數(shù)據(jù)分析類產(chǎn)品擁有多年歷史。在大數(shù)據(jù)興起之前,Teradata、Greenplum等傳統(tǒng)數(shù)據(jù)倉庫一直占據(jù)著主流市場位置;隨著大數(shù)據(jù)興起,以Hadoop 為代表的大數(shù)據(jù)平臺迅速成為數(shù)據(jù)分析的基礎平臺;如今,云原生、湖倉一體等技術的興起,加速推動著數(shù)據(jù)分析產(chǎn)品的創(chuàng)新。

當前,數(shù)據(jù)分析類相關的公司眾多。不過,StarRocks用出色表現(xiàn)吸引了業(yè)界的大量關注。自從2021年9月份正式開源以來,StarRocks已成長為開源領域的明星項目,獲得了全球開發(fā)者的認可。在筆者看來,StarRocks之所以在短時間即獲得階段性的成功,關鍵在于產(chǎn)品的迭代速度和創(chuàng)新能力。

從開源至今,StarRocks已經(jīng)歷了三個大版本的迭代,從1.0版本主打性能,到2.0版本圍繞融合統(tǒng)一,再到現(xiàn)在3.0版本圍繞湖倉一體的創(chuàng)新,StarRocks成為當下數(shù)據(jù)分析領域現(xiàn)象級的產(chǎn)品。

以數(shù)據(jù)倉庫架構為例,存算分離是大勢所趨。隨著云原生等技術的高速發(fā)展,通過存算分離架構,計算、存儲等資源可以更好地彈性化,以應對業(yè)務對于資源的使用,從而實現(xiàn)成本、效率的最優(yōu)化。StarRocks 3.0同樣采用了存算分離架構,架構設計高度抽象且極簡,無需依賴復雜組件,具有極強的擴展性和彈性;并且支持Multi-Warehouse,多個Warehouse共享一份數(shù)據(jù),不同 Warehouse 應用在不同工作負載,計算資源可以進行物理隔離,內部按需獨立彈性伸縮。

“存算分離架構真正帶來兩大價值:降本增效和彈性伸縮。像在存儲層面,采用存算分離架構后的StarRocks 3.0整體存儲成本可以下降80%,而計算節(jié)點則因為無狀態(tài),可以通過快速彈性、跨可用區(qū)部署等方式來提高計算的可用性,并且計算資源能夠進行物理隔離,按需獨立彈性伸縮?!睆堄褨|介紹道。

另外,湖倉走向一體化也是數(shù)據(jù)分析產(chǎn)品的一大重要趨勢。通常,企業(yè)在經(jīng)歷了多年的數(shù)字化轉型之后,都會存在著數(shù)據(jù)倉庫和數(shù)據(jù)湖兩種數(shù)據(jù)分析技術棧,它們各具特點與優(yōu)勢,數(shù)據(jù)倉庫往往具備數(shù)據(jù)質量高、性能出色、實時分析強等優(yōu)勢,而數(shù)據(jù)湖則可以存儲各種不同類型的數(shù)據(jù),擴展性和開放性強。因此,融合數(shù)據(jù)倉庫與數(shù)據(jù)湖的各自優(yōu)勢就成為業(yè)界努力的方向。

當前,業(yè)界并不缺少湖倉相關的解決方案。比如在湖上性能不滿足,采用湖上建倉的方案加速查詢;再如數(shù)據(jù)倉庫擴展查詢外部數(shù)據(jù)湖能力等。

張友東直言,這些方案更像是一種組合式方案,并沒有真正做到湖倉一體,“湖倉一體意味著一套架構滿足所有數(shù)據(jù)分析的需求,也即One Data,All Analytics?!?/p>

以StarRocks 3.0的湖倉一體化架構為例,實現(xiàn)了數(shù)據(jù)統(tǒng)一存儲管理,一份數(shù)據(jù)作為 Single source of truth;另外,強大的分析引擎可以基于一份數(shù)據(jù),滿足包括BI 報表、交互式分析、實時分析、ETL 數(shù)據(jù)加工等場景的查詢訴求;更加關鍵的是,具備按需數(shù)據(jù)加工/查詢加速的能力。

“未來數(shù)據(jù)分析演進的趨勢肯定是湖倉一體,用戶無需關注建湖還是建倉,核心目標是低成本、高效的解決數(shù)據(jù)分析問題?!睆堄褨|補充道。

此外,隨著數(shù)據(jù)量和業(yè)務復雜性的大幅提升,使得ETL成為一件極為辛苦的工作,通常需要耗費大量人力、精力在ETL相關工作上。對此,StarRocks 3.0也在瞄準No ETL的方向,在整個數(shù)據(jù)管理中減少ETL的工作量,并且通過物化視圖讓用戶盡量不感知ETL,從全鏈路層面致力于簡化ETL的pipeline。

毫無疑問,StarRocks 3.0版本的推出是StarRocks項目發(fā)展的一個關鍵節(jié)點。這意味著StarRocks 產(chǎn)品力已經(jīng)實現(xiàn)重要的突破,可以助力用戶實現(xiàn)全場景的數(shù)據(jù)分析架構統(tǒng)一,也為自身帶來了更加廣闊的市場空間。

多個頭部客戶青睞,StarRocks未來值得期待

隨著數(shù)據(jù)驅動型應用大量涌現(xiàn),數(shù)據(jù)分析、數(shù)據(jù)消費需求也隨之產(chǎn)生。Gartner認為,數(shù)據(jù)分析已成為企業(yè)數(shù)字化轉型中致力于建設的核心能力。因此,數(shù)據(jù)分析賽道未來具有極為光明的前景。

毫無疑問,從StarRocks的社區(qū)發(fā)展、用戶群、商業(yè)生態(tài)建設等情況拉看,StarRocks正處于一個高速發(fā)展的極端,未來值得更多的期待。

其一,得益于對于開源理念的堅持,StarRocks 開源社區(qū)一直處于非?;钴S的狀態(tài),為后續(xù)的發(fā)展帶來了十足的生命力。目前,社區(qū)開發(fā)工作由鏡舟科技主導推進,并且貢獻了70%以上的核心代碼;此外,阿里云、騰訊、火山引擎、滴滴出行等頭部企業(yè)已經(jīng)積極參與到社區(qū)之中,并且持續(xù)給社區(qū)貢獻了物化視圖、CN 彈性節(jié)點等諸多重要特性。

其二,得益于行業(yè)頭部客戶的積極參與和產(chǎn)品創(chuàng)新力的提升,StarRocks產(chǎn)品在金融、零售、物流、制造和互聯(lián)網(wǎng)等多個行業(yè)頭部用戶的復雜業(yè)務場景中得到錘煉。據(jù)悉,目前有超過 300家市值10億美金以上的大型用戶在生產(chǎn)環(huán)境使用 StarRocks,場景覆蓋 BI 報表、交互式探尋分析、實時分析、湖倉分析等一系列場景,未來有望在場景應用中持續(xù)推動產(chǎn)品創(chuàng)新與快速迭代。

其三,StarRocks 重視商業(yè)生態(tài)的建設。除了頭部行業(yè)用戶使用之外,StarRocks目前與國內各大云服務商均有合作,致力于借助云計算這個大生態(tài)來推動開源項目的商業(yè)化,讓產(chǎn)品走向更加廣泛的市場群體,在市場競爭中獲得成長。

“相比于北美等發(fā)達市場,中國市場的數(shù)據(jù)分析還有巨大的潛力空間,StarRocks希望通過技術創(chuàng)新幫助更多用戶實現(xiàn)One Data,All Analytics?!睆堄褨|最后表示道。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2023-12-05
StarRocks上新,“One Data、All Analytics”還有多遠?
StarRocks上新,“OneData、AllAnalytics”還有多遠?

長按掃碼 閱讀全文