AWS張俠深度解析“數(shù)據(jù)湖”的數(shù)據(jù)洞察能力

3月30日,數(shù)字時(shí)代,企業(yè)海量數(shù)據(jù)隱藏的價(jià)值被空前重視,企業(yè)的信息和數(shù)據(jù)流被認(rèn)為是“企業(yè)的血液流”。與此同時(shí),“把企業(yè)的數(shù)據(jù)化資產(chǎn)使用好”、“如何從大量數(shù)據(jù)中獲得信息洞察未來(lái)”,這些成為企業(yè)和業(yè)內(nèi)專(zhuān)家不懈追求的能力。

近日AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問(wèn)張俠向媒體介紹了“AWS數(shù)據(jù)湖”在實(shí)現(xiàn)“企業(yè)數(shù)據(jù)洞察”中的最新技術(shù)成果和應(yīng)用表現(xiàn)。

張俠表示,數(shù)據(jù)本身的價(jià)值在于從里面提取出真正有用的“信息”,把這些信息歸類(lèi)樹(shù)立成“知識(shí)”,然后用這些知識(shí)來(lái)指導(dǎo)企業(yè)的“行動(dòng)”, 幫企業(yè)來(lái)運(yùn)營(yíng)業(yè)務(wù)、幫客戶實(shí)現(xiàn)業(yè)務(wù)需求、提高客戶滿意度等等,最終為企業(yè)創(chuàng)造更多的價(jià)值。

“數(shù)據(jù)湖”老概念煥發(fā)新活力

“數(shù)據(jù)湖”這個(gè)概念早在2011年就被提出,發(fā)展至今已經(jīng)走過(guò)9個(gè)年頭。“我把數(shù)據(jù)湖的發(fā)展分為兩個(gè)階段”,張俠表示,“前期數(shù)據(jù)湖只是一個(gè)初級(jí)的概念,有一些開(kāi)源的應(yīng)用;得益于云計(jì)算提供的海量存儲(chǔ)、高性能計(jì)算的能力,大概從四年前開(kāi)始,數(shù)據(jù)湖進(jìn)入第二階段,隨著各項(xiàng)元素的逐一到位,AWS數(shù)據(jù)湖基本上成熟。”

那么,數(shù)據(jù)湖究竟是什么?

在張俠看來(lái),數(shù)據(jù)湖是一個(gè)中心數(shù)據(jù)存儲(chǔ)的容器,這個(gè)容器可以存儲(chǔ)格式化、非格式化的各種各樣的數(shù)據(jù);這些數(shù)據(jù)非常容易被快速縮放、有各種方法和工具對(duì)這些數(shù)據(jù)進(jìn)行查詢、可以做各種各樣的分析。

通俗的講,本來(lái)數(shù)據(jù)很多是結(jié)構(gòu)型數(shù)據(jù)、交易型數(shù)據(jù),比如什么東西多少價(jià)格、什么人多大年齡,這些都是很規(guī)矩的放在一個(gè)一個(gè)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的小格子里的,但是現(xiàn)在有一套方法,這套方法把任何類(lèi)型的數(shù)據(jù)庫(kù),結(jié)構(gòu)型的、非結(jié)構(gòu)型的,非結(jié)構(gòu)型的包括電子郵件、視頻的、音頻的、圖形的、一些文章、一些照片等等,都可以直接把它存下來(lái),我們利用現(xiàn)在云計(jì)算時(shí)代海量存儲(chǔ)的能力和各種新的查詢的能力,還有各種數(shù)據(jù)分析和處理的能力,直接對(duì)這些原始的數(shù)據(jù)來(lái)做查詢,這就是數(shù)據(jù)湖的時(shí)代。

張俠也強(qiáng)調(diào),數(shù)據(jù)湖特別適用做一些數(shù)據(jù)科學(xué)家、數(shù)據(jù)研究人員要用的探索性質(zhì)的數(shù)據(jù)查詢和分析。原來(lái)有一類(lèi)數(shù)據(jù)科學(xué)家是做那種數(shù)據(jù)挖掘的,這一類(lèi)數(shù)據(jù)科學(xué)家要做的工作,數(shù)據(jù)湖尤其適用,因?yàn)閿?shù)據(jù)湖對(duì)所有數(shù)據(jù)都能兼容、保持靈活性特別適合做探索性、預(yù)測(cè)性、研究性、前瞻性的服務(wù)。

AWS數(shù)據(jù)湖三大元素

在幫助企業(yè)構(gòu)建數(shù)據(jù)湖上,AWS推出了一系列關(guān)鍵服務(wù)。張俠介紹,數(shù)據(jù)湖的操作步驟通常包括:把數(shù)據(jù)設(shè)置、存儲(chǔ);再把數(shù)據(jù)按需要移動(dòng)、加載到不同地方;然后把數(shù)據(jù)清理好,建成數(shù)據(jù)目錄。這些數(shù)據(jù)要安全的、合規(guī)的存好、管好,需要的時(shí)候使用工具把這些數(shù)據(jù)拿出來(lái)做各種分析。

基于此,目前AWS數(shù)據(jù)湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

張俠介紹:“Amazon S3,可以存所有各類(lèi)的數(shù)據(jù),它有11個(gè)9的數(shù)據(jù)持久性,它是在云上面三個(gè)可用區(qū)存了六份,互為備份。它后端還有一個(gè)冷存儲(chǔ)叫Amazon Glacier (glacier的意思是冰河) 。如果這個(gè)數(shù)據(jù)不常用,我們可以轉(zhuǎn)到那里面,費(fèi)用可以降低很多,只是多需要三四個(gè)小時(shí)把它拿出來(lái)。冷存儲(chǔ)還有一個(gè)深度的冷存儲(chǔ)Deep Archive。除了這個(gè)以外,在我開(kāi)始講之前,還有一個(gè)叫Amazon DynamoDB,是一個(gè)非關(guān)系型數(shù)據(jù)庫(kù),存鍵值這類(lèi)的數(shù)據(jù)。在游戲里面比如每個(gè)玩家是第幾級(jí)、有多少血、用什么樣的武器,這樣的數(shù)都是鍵值配對(duì)的數(shù)。全球有大量這樣的數(shù)據(jù)都存儲(chǔ)在Amazon DynamoDB這樣的非關(guān)系型數(shù)據(jù)庫(kù)。“

AWS Glue則是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)服務(wù)及元數(shù)據(jù)目錄。它讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWSGlue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。AWSGlue消除了ETL作業(yè)基礎(chǔ)設(shè)施方面的所有重復(fù)勞動(dòng),讓AmazonS3數(shù)據(jù)湖中的數(shù)據(jù)集可以被發(fā)現(xiàn)、可用于查詢和分析,極大地縮短分析項(xiàng)目中做ETL和數(shù)據(jù)編目階段的時(shí)間,讓ETL變得很容易。

AWS Lake Formation則能把建立數(shù)據(jù)湖的這套工作自動(dòng)化,幫助企業(yè)客戶來(lái)操作,可以使很多企業(yè)在短短的幾天時(shí)間內(nèi)就完成數(shù)據(jù)湖的建設(shè)工作。

目前AWS Lake Formation尚未在中國(guó)正式推出。

AWS數(shù)據(jù)湖的應(yīng)用

據(jù)張俠介紹,AWS數(shù)據(jù)湖已經(jīng)在全球范圍內(nèi)得到廣泛應(yīng)用。

以亞馬遜自己為例,亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫(kù)最大的用戶,它使用了75PB的數(shù)據(jù)庫(kù),用了7500多個(gè)數(shù)據(jù)庫(kù)的例子,整個(gè)亞馬遜里面1000多個(gè)不同的團(tuán)隊(duì),從運(yùn)營(yíng)、電商、市場(chǎng)營(yíng)銷(xiāo)、庫(kù)存,幾乎業(yè)務(wù)的很多方面原來(lái)都是基于Oracle的數(shù)據(jù)庫(kù)。亞馬遜在過(guò)去一年半到兩年的時(shí)間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫(kù),去年11月份亞馬遜全部遷移了Oracle的數(shù)據(jù)庫(kù),遷移到亞馬遜自己相對(duì)應(yīng)的產(chǎn)品。

“這個(gè)遷移解決了原來(lái)擴(kuò)展困難、費(fèi)用昂貴等等一系列的問(wèn)題,減少了數(shù)據(jù)庫(kù)費(fèi)用成本60%,減少了管理費(fèi)用70%,增加的性能高達(dá)40%。”張俠介紹道。

此外,金融行業(yè)領(lǐng)域,美國(guó)納斯達(dá)克交易所也是用了AWS數(shù)據(jù)湖產(chǎn)品。通過(guò)使用數(shù)據(jù)湖每天處理500億條的付款,使用數(shù)據(jù)湖把產(chǎn)品上市時(shí)間縮短了1/3,有很好的服務(wù)能力。

張俠表示:“AWS數(shù)據(jù)湖一個(gè)很大的優(yōu)勢(shì)是把所有這些服務(wù)整合在一起,統(tǒng)一的接口、統(tǒng)一的標(biāo)準(zhǔn),包括像無(wú)服務(wù)器計(jì)算,用了AWS Glue以后,這邊接了AWS Lambda,再接了AWS Step Functions,亞馬遜那些其他的服務(wù)早都做好了這種無(wú)服務(wù)器的接口,所以一下子全部都打通了,這是數(shù)據(jù)湖得以廣泛有效應(yīng)用的其中一個(gè)原因。”

張俠強(qiáng)調(diào):“所以我個(gè)人認(rèn)為,數(shù)據(jù)湖到了一個(gè)真的要好好研究、使用的階段了。數(shù)據(jù)湖在中國(guó)處于一個(gè)發(fā)展相對(duì)早期的階段,這個(gè)時(shí)機(jī)非常重要,在經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型時(shí)代,數(shù)據(jù)湖的應(yīng)用、作用性越來(lái)越強(qiáng),下一代互聯(lián)網(wǎng)、電商、5G、邊緣計(jì)算等都發(fā)展起來(lái)以后,與之相對(duì)應(yīng)的我們更要走數(shù)據(jù)湖對(duì)數(shù)據(jù)的存儲(chǔ)、分析的道路,所以我們覺(jué)得如果利用這個(gè)時(shí)機(jī)把這些知識(shí)很好的提供給我們公眾和行業(yè)的有關(guān)人員,中國(guó)的使用甚至是這些相關(guān)的服務(wù)都能更好的發(fā)展起來(lái),那是我們非常喜聞樂(lè)見(jiàn)的。”

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-03-30
AWS張俠深度解析“數(shù)據(jù)湖”的數(shù)據(jù)洞察能力
【TechWeb】3月30日,數(shù)字時(shí)代,企業(yè)海量數(shù)據(jù)隱藏的價(jià)值被空前重視,企業(yè)的信息和數(shù)據(jù)流被認(rèn)為是“企業(yè)的血液流&r

長(zhǎng)按掃碼 閱讀全文