在5G、物聯(lián)網(wǎng)、人工智能等技術(shù)的推動下,企業(yè)數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,數(shù)據(jù)間的關(guān)聯(lián)復(fù)雜度也隨之劇增。在處理這些雜關(guān)聯(lián)數(shù)據(jù)時(shí),傳統(tǒng)關(guān)系型數(shù)據(jù)庫運(yùn)算效率較低,難以進(jìn)一步挖掘海量關(guān)系數(shù)據(jù)背后的價(jià)值。
為了更好地利用數(shù)據(jù)間的連接,企業(yè)需要一種將實(shí)體間的關(guān)系進(jìn)行存儲、靈活拓展數(shù)據(jù)模型的數(shù)據(jù)庫技術(shù),這時(shí)圖數(shù)據(jù)庫出現(xiàn)了。
Gartner指出,圖分析是未來公司可持續(xù)競爭力唯一且最有效的數(shù)據(jù)處理手段。Forrester則將圖形數(shù)據(jù)平臺確定為一種新興技術(shù),使企業(yè)能夠生成快速解決復(fù)雜問題所需的見解。
清華大學(xué)鄭緯民院士認(rèn)為,圖數(shù)據(jù)庫以事物和事物間關(guān)系的數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),專門針對復(fù)雜關(guān)聯(lián)深鏈查詢優(yōu)化,成為了近年崛起速度最快的數(shù)據(jù)庫技術(shù)。
“全球圖數(shù)據(jù)庫市場尚未定型,現(xiàn)在布局正當(dāng)其時(shí),我們要牢牢把握住這一難得的發(fā)展機(jī)遇。”
1.圖數(shù)據(jù)庫揭示事務(wù)之間的關(guān)聯(lián)關(guān)系
在企業(yè)的眾多業(yè)務(wù)場景當(dāng)中,企業(yè)用戶開始關(guān)注事物之間的關(guān)聯(lián)關(guān)系,希望發(fā)現(xiàn)隱藏的關(guān)系,這是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫很難做到的。
解決這一問題的圖數(shù)據(jù)庫的基本含義是以“圖”這種數(shù)據(jù)結(jié)構(gòu)做為邏輯結(jié)構(gòu),存儲和查詢數(shù)據(jù)。在圖數(shù)據(jù)庫中,圖將實(shí)體表現(xiàn)為節(jié)點(diǎn),實(shí)體與其他實(shí)體連接的方式表現(xiàn)為聯(lián)系(邊),可以用這一通用的、富有表現(xiàn)力的結(jié)構(gòu)來建模各種場景。
首先,圖數(shù)據(jù)庫是一種NoSQL數(shù)據(jù)庫,也可稱為面向/基于圖的數(shù)據(jù)庫,是基于圖模型的數(shù)據(jù)庫。由于提供了對關(guān)聯(lián)數(shù)據(jù)最直接的表達(dá),以及圖模型對異構(gòu)數(shù)據(jù)天然的包容力,因此圖數(shù)據(jù)庫技術(shù)未來必將成為最熱門的技術(shù)之一,為企業(yè)存儲和分析大規(guī)模圖數(shù)據(jù)提供強(qiáng)有力的支持。
其次,圖數(shù)據(jù)庫和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫就是圖和表的差別。圖數(shù)據(jù)庫是用點(diǎn)和邊來表達(dá)數(shù)據(jù)之間的關(guān)系,是更自然的存儲方式,更專注于對象之間的關(guān)聯(lián),能夠直接揭示事物之間的關(guān)聯(lián)關(guān)系。因此,相較于關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫在處理關(guān)聯(lián)關(guān)系上性能提升2~4個(gè)數(shù)量級。
第三,圖數(shù)據(jù)庫的功能是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的一個(gè)拓展,相比較關(guān)系型數(shù)據(jù)庫僅支持表結(jié)構(gòu),圖數(shù)據(jù)支持的圖結(jié)構(gòu)更為靈活。圖數(shù)據(jù)庫在基于圖的數(shù)據(jù)增加、刪除、查詢、修改等方面做了不同于其他數(shù)據(jù)庫的設(shè)計(jì)。
目前,市場上根據(jù)圖數(shù)據(jù)庫底層存儲模式對圖數(shù)據(jù)庫產(chǎn)品進(jìn)行分類,可以分為原生(Native)圖存儲和非原生(Non-Native)圖存儲兩種。
其中原生圖存儲數(shù)據(jù)存儲模式專門為存儲和處理圖而設(shè)計(jì)優(yōu)化,可支持各類圖算法的快速遍歷;非原生圖存儲則采用關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫或其它通用數(shù)據(jù)存儲策略存儲數(shù)據(jù),未專門優(yōu)化存儲方式。
從技術(shù)上看,行業(yè)專家介紹,圖數(shù)據(jù)庫的發(fā)展主要有兩個(gè)階段:
第一個(gè)階段主要是解決關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的存儲、查詢和分析問題,能支持上層應(yīng)用對關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的OLTP業(yè)務(wù)需求,以及離線大規(guī)模圖數(shù)據(jù)的OLAP業(yè)務(wù)需求。
第二階段的圖數(shù)據(jù)庫不光滿足OLTP業(yè)務(wù)和離線OLAP業(yè)務(wù),實(shí)現(xiàn)實(shí)時(shí)大規(guī)模圖數(shù)據(jù)的OLAP業(yè)務(wù)。
2.圖數(shù)據(jù)庫成為發(fā)達(dá)國家布局的熱門領(lǐng)域
大數(shù)據(jù)時(shí)代,企業(yè)業(yè)務(wù)的增長使得數(shù)據(jù)量劇增以及數(shù)據(jù)關(guān)聯(lián)的復(fù)雜化,同時(shí),企業(yè)對數(shù)據(jù)價(jià)值的期望度也更高。圖數(shù)據(jù)庫將成為數(shù)據(jù)庫的熱門發(fā)展方向之一。
經(jīng)歷了多年的飛速發(fā)展,圖技術(shù)到了爆發(fā)式增長的邊緣。
Gartner 預(yù)計(jì)到2022 年全球圖處理及圖數(shù)據(jù)庫市場將以每年100% 的速度迅猛增長,2020 年保守估計(jì)市場將達(dá)到80 億美元。
圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域近期發(fā)展最快的領(lǐng)域之一,據(jù)Gartner預(yù)言,圖數(shù)據(jù)庫很快約占到數(shù)據(jù)庫領(lǐng)域10%市場。
DB Engines近年數(shù)據(jù)庫流行趨勢也顯示,圖數(shù)據(jù)庫相較其他主流數(shù)據(jù)庫受歡迎程度遙遙領(lǐng)先。
圖1 三大圖數(shù)據(jù)庫進(jìn)幾年的發(fā)展態(tài)勢
國內(nèi)外新興的圖數(shù)據(jù)庫初創(chuàng)企業(yè)融資規(guī)模不斷擴(kuò)大,在國內(nèi)一些企業(yè)的融資額達(dá)到數(shù)千萬美元級別。眾多互聯(lián)網(wǎng)企業(yè)紛紛布局圖數(shù)據(jù)庫領(lǐng)域。
2021年Cypher 圖查詢語言已經(jīng)正式進(jìn)入ISO 標(biāo)準(zhǔn),行業(yè)標(biāo)準(zhǔn)的出現(xiàn)也是技術(shù)成熟化的一個(gè)標(biāo)志。
鄭瑋民院士認(rèn)為,當(dāng)前,圖數(shù)據(jù)庫正在成為發(fā)達(dá)國家在數(shù)據(jù)庫領(lǐng)域競相布局的新興熱門領(lǐng)域,并已形成初步的市場規(guī)模,正處于快速發(fā)展之中。
盡管在傳統(tǒng)數(shù)據(jù)庫時(shí)代,國外企業(yè)一直占據(jù)國內(nèi)數(shù)據(jù)庫市場的絕對份額,但在圖數(shù)據(jù)庫時(shí)代,我們有機(jī)會與國外企業(yè)同期起步。“全球圖數(shù)據(jù)庫市場尚未定型,現(xiàn)在布局正當(dāng)其時(shí),我們要牢牢把握住這一難得的發(fā)展機(jī)遇。”
近年來,市場對圖技術(shù)的認(rèn)知程度和需求在上升。
目前市場上主要圖數(shù)據(jù)庫用戶大多在像全球五百強(qiáng)企業(yè)這樣的大企業(yè),一方面大企業(yè)的數(shù)據(jù)體量和復(fù)雜度更高,對圖技術(shù)的需求更早更強(qiáng)烈;另一方面,這些大企業(yè)有足夠的資源嘗試新技術(shù),是技術(shù)應(yīng)用中的創(chuàng)新者。
從需求端來說,市場上熟悉分布式圖數(shù)據(jù)庫技術(shù)的企業(yè)還非常少,從整個(gè)數(shù)據(jù)庫市場來看,只有不到5%的用戶使用了圖數(shù)據(jù)庫,使用圖計(jì)算的則更少。
從供給端來說,雖然市場上出現(xiàn)了各種圖數(shù)據(jù)庫產(chǎn)品,包括開源和非開源的,但是真正的原生圖數(shù)據(jù)庫產(chǎn)品并不多,成熟的自研的商業(yè)化原生圖數(shù)據(jù)庫產(chǎn)品和圖計(jì)算產(chǎn)品更是屈指可數(shù)。
3.行業(yè)應(yīng)用潛力巨大
圖數(shù)據(jù)庫應(yīng)用涉及眾多行業(yè),如社交、電商、金融、零售、公安、物聯(lián)網(wǎng)等行業(yè),也應(yīng)用在更多的應(yīng)用場景中。
在幾乎每個(gè)行業(yè),都有許多“吃螃蟹者”,首先應(yīng)用圖數(shù)據(jù)庫,受惠于企業(yè)業(yè)務(wù)的發(fā)展。
在金融領(lǐng)域,應(yīng)用機(jī)器學(xué)習(xí)算法和知識圖譜的智能風(fēng)控系統(tǒng)在風(fēng)險(xiǎn)識別能力和大規(guī)模運(yùn)算方面具有突出優(yōu)勢,逐漸成為金融領(lǐng)域風(fēng)控反欺詐的主要手段。同時(shí)國內(nèi)金融監(jiān)管的知識圖譜迅速發(fā)展,出現(xiàn)了如集團(tuán)派系知識圖譜、產(chǎn)業(yè)鏈知識圖譜、擔(dān)保鏈知識圖譜、反洗錢知識圖譜等應(yīng)用。
利用圖數(shù)據(jù)庫和知識圖譜平臺打造的“公安大腦”,針對公安破案時(shí)所需的人、事、地、物、組織構(gòu)建的社會關(guān)系網(wǎng)和系統(tǒng)中凝結(jié)警察專家研判經(jīng)驗(yàn)規(guī)則和知識,分析推演出案件研判結(jié)果,幫助普通警察快速實(shí)現(xiàn)基于自然語言交互的人案關(guān)系雙向可視化自助推演分析,提供精準(zhǔn)和效率雙提升的高危團(tuán)伙和高危人員預(yù)測預(yù)警,助力警察破案事半功倍。
在電信領(lǐng)域,AT&T、Orange、Verizon,以及中國的三大運(yùn)營商等,依靠圖數(shù)據(jù)庫來管理網(wǎng)絡(luò),控制訪問并支持客戶畫像。中國移動移動云知識圖譜項(xiàng)目將實(shí)現(xiàn)了一站式端到端的知識圖譜解決方案,通過在線云的方式讓用戶可以自己構(gòu)建知識圖譜和完成各種應(yīng)用。
在汽車制造領(lǐng)域,沃爾沃、戴姆勒和豐田等頂級汽車制造商依靠圖數(shù)據(jù)庫推動創(chuàng)新制造解決方案。eBay、沃爾瑪使用圖數(shù)據(jù)庫實(shí)現(xiàn)商品實(shí)時(shí)推薦,給買家更好的購物體驗(yàn)。
萬豪和雅高酒店等頂級酒店公司使用圖數(shù)據(jù)庫來管理復(fù)雜且快速變化的庫存。Facebook、Twitter、Linkedin等社交應(yīng)用用圖數(shù)據(jù)庫來管理社交關(guān)系,實(shí)現(xiàn)好友推薦。
在發(fā)展階段上,行業(yè)專家普遍認(rèn)為,分布式圖數(shù)據(jù)庫市場剛剛度過了萌芽期,開始進(jìn)入了快速發(fā)展期,但尚未到達(dá)成熟期。
不過大量涌現(xiàn)的圖計(jì)算需求,正成為圖數(shù)據(jù)庫發(fā)展的強(qiáng)勁動力。
4.圖數(shù)據(jù)庫市場格局還沒有成型
市場對圖技術(shù)的認(rèn)知程度和需求在上升。目前,市場上圖數(shù)據(jù)庫產(chǎn)品不斷增加,進(jìn)入DB-Engines Graph數(shù)據(jù)庫監(jiān)控范圍的產(chǎn)品就達(dá)到32款。如下圖是2021年8月DB-Engines圖數(shù)據(jù)庫排行。
圖2 DB-Engines Graph數(shù)據(jù)庫2021年8月排行
雖然圖數(shù)據(jù)庫市場的參與者如意增加,但是市場格局還遠(yuǎn)沒有定型。目前,國內(nèi)進(jìn)入圖數(shù)據(jù)庫市場的企業(yè)和產(chǎn)品可以分為三類:
第一類:開源系統(tǒng)及其發(fā)行版。
相關(guān)調(diào)查數(shù)據(jù)顯示,開源圖數(shù)據(jù)庫的市場占比達(dá)到68.4%。目前,市場上的開源圖數(shù)據(jù)庫數(shù)量眾多,發(fā)展參次不齊。
Neo4j是最流行的高度可擴(kuò)展的開源本地圖數(shù)據(jù)庫之一。Neo4j的Graph平臺經(jīng)過優(yōu)化,可以存儲、映射、分析和遍歷連接的數(shù)據(jù)網(wǎng)絡(luò),發(fā)現(xiàn)不可見的上下文和隱藏的關(guān)系。
通過直觀地映射數(shù)據(jù)點(diǎn)及其之間的連接,Neo4j支持智能實(shí)時(shí)應(yīng)用程序,包括人工智能、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)、實(shí)時(shí)推薦、主數(shù)據(jù)管理、欺詐識別、身份和訪問管理等。
Neo4j有社區(qū)版和企業(yè)版2個(gè)版本社。其中社區(qū)版是學(xué)習(xí)Neo4j和不需要大量擴(kuò)展或?qū)I(yè)服務(wù)與支持的小型項(xiàng)目的理想選擇。開源的社區(qū)版本只支持單機(jī),不支持分布式,在 GPL3 許可的開源社區(qū)版中提供。
社區(qū)版最多支持 320 億個(gè)節(jié)點(diǎn)、320 億個(gè)關(guān)系和 640 億個(gè)屬性。數(shù)以萬計(jì)的社區(qū)部署和 600 多個(gè)客戶利用與 Neo4j 連接的數(shù)據(jù)來分析和揭示人員、流程、位置和系統(tǒng)是如何相互關(guān)聯(lián)的。
企業(yè)版具有與社區(qū)版相同的功能,具有企業(yè)級可用性,管理以及向上和向外擴(kuò)展功能。企業(yè)版可以部署成高可用集群,從而可以解決高并發(fā)量的問題。
Forrester在其報(bào)告中認(rèn)為,Neo4j 企業(yè)版包括聚類、多數(shù)據(jù)中心、高級安全功能、圖形分析、視覺圖形發(fā)現(xiàn)和探索等。
在國內(nèi)市場,圖數(shù)據(jù)庫研發(fā)商歐若數(shù)網(wǎng)最近宣布已完成800萬美元Pre-A輪融資。其核心產(chǎn)品是分布式圖數(shù)據(jù)庫Nebula Graph2.0版本已具備云端架構(gòu),方便用戶隨時(shí)調(diào)取服務(wù),面向社交、支付、金融等領(lǐng)域。
第二類是自主研發(fā)系統(tǒng)。
令人欣喜的是,目前我國圖數(shù)據(jù)庫領(lǐng)域展現(xiàn)良好的上升勢頭,出現(xiàn)了許多自主研發(fā)的圖數(shù)據(jù)庫與知識圖譜平臺,未來將是中國圖數(shù)據(jù)庫應(yīng)用的主導(dǎo)力量。
作為國內(nèi)領(lǐng)先的大數(shù)據(jù)與人工智能軟件供應(yīng)商,星環(huán)科技向市場提供基于自主研發(fā)的分布式圖數(shù)據(jù)庫StellarDB與知識圖譜平臺Sophon KG,并得到了廣泛的應(yīng)用。
星環(huán)圖數(shù)據(jù)庫StellarDB是國內(nèi)第一款自研分布式圖數(shù)據(jù)庫,用于快速查找數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,并提供強(qiáng)大的算法分析能力。StellarDB克服了海量關(guān)聯(lián)圖數(shù)據(jù)存儲的難題,通過自定義圖存儲格式和集群化存儲,實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫無法提供的低延時(shí)多層關(guān)系查詢,在社交網(wǎng)絡(luò)、公安、金融領(lǐng)域都有巨大應(yīng)用潛力,可以幫助用戶快速開發(fā)欺詐檢測、推薦引擎、社交網(wǎng)絡(luò)分析、知識圖譜等應(yīng)用。
在功能上,StellarDB可以提供高性能的圖存儲、計(jì)算、分析、查詢和展示服務(wù);具備10+層的深度鏈路分析能力,提供豐富的圖分析算法和深度圖算法;支持標(biāo)準(zhǔn)圖查詢語言并兼容OpenCypher,且具備海量數(shù)據(jù)3D圖展示能力。
在性能上,StellarDB 可支持萬億邊規(guī)模圖數(shù)據(jù)存儲,具備查詢速度快、分析能力強(qiáng)、穩(wěn)定性高的特點(diǎn)。
2021年Transwarp StellarDB通過了信通院圖數(shù)據(jù)庫基礎(chǔ)能力評測,這是繼2019年知識圖譜通過信通院大數(shù)據(jù)產(chǎn)品能力評測后再獲權(quán)威認(rèn)可。
在2021年8月愛分析發(fā)布的《2021愛分析數(shù)據(jù)智能平臺廠商全景報(bào)告》,星環(huán)科技憑借成熟的數(shù)據(jù)智能解決方案和落地能力入選“數(shù)據(jù)存儲與處理”、“圖分析”兩大場景的代表廠商。
第三類是云服務(wù)商。
在圖數(shù)據(jù)庫方面,亞馬遜云科技、微軟,以及中國的阿里云、騰訊云、百度等都有積極的布局,也推出推出了自己的產(chǎn)品。云服務(wù)商將在云應(yīng)用環(huán)境下不斷發(fā)展壯大。
2020年,騰訊云就發(fā)布分布式圖數(shù)據(jù)庫產(chǎn)品騰訊云數(shù)圖TGDB(Tencent GraphDatabase)。騰訊云數(shù)圖以原生方式實(shí)現(xiàn)屬性圖,高效存儲關(guān)聯(lián)數(shù)據(jù),支持大圖的高效查詢和關(guān)聯(lián)分析。通過支持PageRank、社群發(fā)現(xiàn)、相似度計(jì)算、模糊子圖匹配等社群發(fā)現(xiàn)算法實(shí)現(xiàn)高性能圖計(jì)算。同時(shí),高可用、高健壯也是騰訊云數(shù)圖的一大性能優(yōu)勢。
亞馬遜的Amazon Neptune是一項(xiàng)快速、可靠且完全托管的圖數(shù)據(jù)庫服務(wù),核心是專門構(gòu)建的高性能圖數(shù)據(jù)庫引擎,進(jìn)行了優(yōu)化以存儲數(shù)十億個(gè)關(guān)系并將圖形查詢延遲降低到毫秒級。
Amazon Neptune支持常見的圖形模型 Property Graph 和 W3C 的 RDF 及其關(guān)聯(lián)的查詢語言 Apache TinkerPop Gremlin 和 SPARQL,支持圖形使用案例,如建議引擎、欺詐檢測、知識圖譜、藥物開發(fā)和網(wǎng)絡(luò)安全。
Forrester在其報(bào)告中認(rèn)為,客戶喜歡該平臺的易于設(shè)置、完全管理的產(chǎn)品、AWS 生態(tài)系統(tǒng)的一部分、其技術(shù)支持和性能。
2020年,阿里云圖數(shù)據(jù)庫GDB于2020年3月正式在發(fā)布商用,產(chǎn)品使用、運(yùn)維成本,僅為外國圖數(shù)據(jù)庫產(chǎn)品的40%,支持Gremlin、Cypher語言,使其能更好的兼容開源社區(qū)中的圖查詢、圖計(jì)算代碼,降低用戶的開發(fā)成本;支持?jǐn)?shù)據(jù)存儲模式自由(Schema-free),可以滿足圖數(shù)據(jù)結(jié)構(gòu)跟隨業(yè)務(wù)靈活調(diào)整。
速度和支持?jǐn)?shù)據(jù)規(guī)模是圖數(shù)據(jù)庫的核心,隨著技術(shù)的不斷進(jìn)步,圖數(shù)據(jù)庫應(yīng)用將不斷擴(kuò)大,自主研發(fā)的圖數(shù)據(jù)庫產(chǎn)品更能贏得用戶。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )