大數(shù)據(jù)的夢想與現(xiàn)實(shí)(上):大數(shù)據(jù)技術(shù)篇

本報(bào)告來自于 弘則彌道(上海)投資咨詢有限公司,36大數(shù)據(jù)在此只做分享,不代表本站觀點(diǎn)。

云計(jì)算是大數(shù)據(jù)的一種應(yīng)用形式


代表性運(yùn)營企業(yè)的數(shù)據(jù)結(jié)構(gòu)

從數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性來看, 電信運(yùn)營商、 電商以及互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)分布上圖所示。

與互聯(lián)網(wǎng)企業(yè)以及電商的數(shù)據(jù)分布不同 , 電信運(yùn)營商在目前的運(yùn)營模式和IT支撐模式下, 仍會(huì)以結(jié)構(gòu)化數(shù)據(jù)為主。 隨著流量經(jīng)營以及與 OTT業(yè)務(wù)的交叉經(jīng)營等新型商業(yè)模式的成熟和發(fā)展, 逐步會(huì)增加非結(jié)構(gòu)化數(shù)據(jù)以及混合結(jié)構(gòu)數(shù)據(jù)的比重。

傳統(tǒng)BI的數(shù)據(jù)處理方式越來越無法滿足海量數(shù)據(jù)分析場景

傳統(tǒng)BI以集中數(shù)據(jù)為基礎(chǔ), 進(jìn)而通過集中的分析能力開展各種分析應(yīng)用 , 代表企業(yè)有銀行以及其他BI系統(tǒng), 這種方式需要數(shù)據(jù)比較全、 產(chǎn)品規(guī)范并且對數(shù)據(jù)集中程度要求比較高, 可以開展全面的精確性的分析應(yīng)用;

缺點(diǎn)是周期比較長, 數(shù)據(jù)質(zhì)量要求比較高。 新興的互聯(lián)網(wǎng)企業(yè)是以應(yīng)用為主, 基于單一數(shù)據(jù)源展開分析, 同時(shí)采用數(shù)據(jù)源與分析能力迭代式的集中 , 以平臺促進(jìn)應(yīng)用和數(shù)據(jù)的建設(shè), 這種模式建設(shè)速度快, 對環(huán)境要求較為寬松, 適合于專門化、 趨勢性的分析服務(wù)。

企業(yè)傳統(tǒng)IT架構(gòu)體系

企業(yè)通過CRM、 ERP和財(cái)務(wù)系統(tǒng)等應(yīng)用程序 , 創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)集成工具用于從企業(yè)應(yīng)用程序和事務(wù)型數(shù)據(jù)庫中 ETL (Extract- Transform – Load)提取、 轉(zhuǎn)換和加載過程后 , 數(shù)據(jù)最終被模式化到整齊的結(jié)構(gòu)化數(shù)據(jù)庫中。

從時(shí)間或成本效益上看,傳統(tǒng)架構(gòu)必須將數(shù)據(jù)組織成關(guān)系表(整齊的行和列數(shù)據(jù)),傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫才可以處理。 由于需要的時(shí)間和人力成本,對于海量的非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用,傳統(tǒng)的數(shù)據(jù)管理工具都無法實(shí)現(xiàn)大數(shù)據(jù)的處理和分析工作。

大數(shù)據(jù)解決方案

Hadoop, NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫不是相互排斥的,這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于大數(shù)據(jù)解決方案中。

Hadoop 架構(gòu)-海量靜態(tài)數(shù)據(jù)處理的最佳工具

優(yōu)點(diǎn):高效處理和分析大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)

缺點(diǎn):技術(shù)框架不成熟,實(shí)時(shí)處理數(shù)據(jù)能力差

應(yīng)用場景:歷史數(shù)據(jù)分析

客戶從日志文件、 社交媒體供稿和內(nèi)部數(shù)據(jù)存儲(chǔ)等來源獲得非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。 它將數(shù)據(jù)打碎成“部分” , 這些“部分”被載入到商用硬件的多個(gè)節(jié)點(diǎn)組成的文件系統(tǒng) 。Hadoop的默認(rèn)文件存儲(chǔ)系統(tǒng)是Hadoop分布式文件系統(tǒng)。 文件系統(tǒng)( 如HDFS)善于存儲(chǔ)大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù), 因?yàn)樗鼈儾恍枰獙?shù)據(jù)組織成關(guān)系型的行和列 。 一旦數(shù)據(jù)被加載到集群中 , 它就準(zhǔn)備好通過MapReduce 框架進(jìn)行分析。

NoSQL-非結(jié)構(gòu)化數(shù)據(jù)庫應(yīng)對高并發(fā)應(yīng)用場景

NoSQL(Not Any SQL) , 泛指非關(guān)系型的數(shù)據(jù)庫。 傳統(tǒng)的關(guān)系數(shù)據(jù)庫在應(yīng)付web2. 0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2. 0純動(dòng)態(tài)網(wǎng)站已經(jīng)顯得力不從心。 NoSQL與傳統(tǒng)數(shù)據(jù)庫最大的區(qū)別是在于數(shù)據(jù)存儲(chǔ)方式不太一樣, 在大量數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。

大數(shù)據(jù)應(yīng)用場景下所需要的可擴(kuò)展性和高并發(fā)對數(shù)據(jù)庫提出了新的要求

大規(guī)模并行計(jì)算-數(shù)據(jù)庫一體機(jī)實(shí)時(shí)動(dòng)態(tài)處理解決方案

SAP HANA完全在內(nèi)存中運(yùn)行數(shù)據(jù), 而其他則采用混合的方式, 即用較便宜但低性能的磁盤內(nèi)存處理“冷” 數(shù)據(jù), 用動(dòng)態(tài) RAM或閃存處理“熱” 數(shù)據(jù)。

Oracle Exadata數(shù)據(jù)庫一體機(jī)是一個(gè)把硬件和軟件根據(jù)合理的配臵整合在一起的 Oracle數(shù)據(jù)庫 。 Exadata 是Oracle和Sun Microsystems聯(lián)合推出的產(chǎn)品。

大數(shù)據(jù)市場規(guī)??焖贁U(kuò)大,現(xiàn)階段硬件和服務(wù)占比較高

2013年大數(shù)據(jù)行業(yè)整體市場規(guī)模為 186 億美元, 硬件和服務(wù)占比偏高的原因是目前軟件大部分都是以開源的形式存在, 在整體生態(tài)圈未建立之前, 軟件市場處于多種技術(shù)體系競爭俄狀況。

大數(shù)據(jù)和云計(jì)算拉動(dòng)X86服務(wù)器市場

互聯(lián)網(wǎng)公司對硬件的需求帶動(dòng)直銷市場的發(fā)展。 2013年全球服務(wù)器市場收入同比減少 4. 4%, ODM 直銷( ODM Direct) 服務(wù)器的需求同比增長57%,, 占整個(gè)市場的 5. 7%。ODM 直銷服務(wù)器80% 的收入來自美國 , 包 括 Google 、 Amazon 、Facebook 和Rackspace。

國內(nèi) OEM廠商的機(jī)會(huì), 國內(nèi) BAT 更傾向于 OEM 廠商。 在IBM、 Dell 等國際大廠承受不住價(jià)格壓力之后,浪潮、 曙光、 華為等國內(nèi)廠商紛紛抓住機(jī)會(huì)上位。 2013 年從IDC 中國 x86 市場報(bào)告來看, 在整個(gè)市場出貨量同比增長僅為 12% 的情況下,以互聯(lián)網(wǎng)企業(yè)為主體的媒體行業(yè)出貨量增長達(dá)到 48%。

互聯(lián)網(wǎng),政府,金融和電信仍然是需求最旺盛的行業(yè)

國內(nèi)廠商愿意忍受較低的利潤率, 在競爭十分激烈的互聯(lián)網(wǎng)市場中占據(jù)優(yōu)勢, 快速提升出貨量; 國產(chǎn)高端高配服務(wù)器在電信、 金融、 政府行業(yè)的滲透率在今年有所提升, 促進(jìn)營業(yè)額的快速攀升。

中國服務(wù)器保持穩(wěn)定增長,國產(chǎn)品牌份額持續(xù)擴(kuò)張

IDC中國企業(yè)級系統(tǒng)研究經(jīng)理彭振飛說: “2013年前期政府及相關(guān)行業(yè)的采購需求延遲, 但是第四季度其需求有所回升, 另外由于十二五規(guī)劃中的多個(gè)重大項(xiàng)目或?qū)⒃?014年落地, 相信政府及相關(guān)行業(yè)市場將會(huì)保持中速增長。 ”

數(shù)據(jù)庫一體機(jī)和大數(shù)據(jù)一體機(jī)

Pivotal:基于Greenplum的大數(shù)據(jù)解決方案提供商

EMC公司作為全球領(lǐng)先企業(yè)存儲(chǔ)服務(wù)提供商 , 率先布局大數(shù)據(jù)和云計(jì) 算 , 在 3 月 中 旬 舉 辦 EMC 和VMWare年度戰(zhàn)略會(huì)議上宣布成立的新公司 -Pivotal 。 Pivotal 的定位是一家下一代云計(jì)算和大數(shù)據(jù)應(yīng) 用 相 結(jié) 合 的 公 司 , 2012 年 ,Pivotal 目標(biāo)市場規(guī)模分別為 60億美元, 而在 2017 年目標(biāo)市場規(guī)模有望增加至200億美元。

Oracle和SAP憑借基礎(chǔ)應(yīng)用工具的優(yōu)勢售賣數(shù)據(jù)庫一體機(jī)

2013財(cái)年 Oracle數(shù)據(jù)庫一體機(jī)貢獻(xiàn)10億美元收入, 占總收入380億美元的比例為 2. 6%。

2013財(cái)年 SAP HANA開始和華為合作推出數(shù)據(jù)庫一體機(jī), 在歐洲獲得突破, SAP HANA銷售收入從2012財(cái)年5. 05億歐元提升至2013財(cái)年6. 42億歐元, 增長幅度達(dá)到 27%, 遠(yuǎn)高于公司 8%的收入增速。

IT架構(gòu)重構(gòu)削弱傳統(tǒng)OEM廠商地位,短期內(nèi)渠道商獲得增量性市場

分銷商和運(yùn)維商切入系統(tǒng)集成領(lǐng)域, 傳統(tǒng)OEM商的地位被弱化。 如美國 Synnex 者, 代理計(jì)算機(jī)部件。 在2010 年前 , Synnex 先后成為 Google 、 Facebook 、Rackspace 的供應(yīng)商, 更在加入Open Compute 項(xiàng)目( OCP) 后, 成立了專門的定制服務(wù)器業(yè)務(wù)分部 HyveSolutions 。 2013 年9 月 , Synnex 還以 5 億美元收購了 IBM全球客戶服務(wù)處理外包( Business ProcessOutsourcing) 。 目前的 6 家Open Compute解決方案提供商中 , 渠道商出身的除了 Hyve Solutions , 還有Avnet。 其他四家分別是AMAX、 Penguin Computing、Racklive, 以及知名 ODM 廣達(dá)。

互聯(lián)網(wǎng)企業(yè)主導(dǎo)的硬件重構(gòu)將成為最終解決方案。 集成系統(tǒng)只能作為短期內(nèi)解決方案, 和互聯(lián)網(wǎng)公司聯(lián)合開發(fā)開源系統(tǒng)的廠商有望成為 IT架構(gòu)變革的受益者。

大數(shù)據(jù)IT工具市場規(guī)模并不大,主要集中在新興成長公司

大數(shù)據(jù)的應(yīng)用目前主要是互聯(lián)網(wǎng)公司使用較多 , 互聯(lián)網(wǎng)公司往往采用自己研發(fā)的技術(shù)體系 , 對第三方工具依賴不高 , 基礎(chǔ)工具 類 公 司 如Cloudera(Hadoop) 和 MongoDB(NoSQL) 在美國發(fā)展較為順利 。

2013年美國大數(shù)據(jù)服務(wù)主要集中在傳統(tǒng)IT龍頭

工具類公司技術(shù)是最重要的核心競爭力

MongoDB和Cloudera, 分別是NoSQL市場和Hadoop市場的重量級大公司 。 近日 , 兩家公司提出要共享營銷和銷售渠道, 聲稱目的只有一個(gè):為客戶提供大數(shù)據(jù)整體解決方案, 消除客戶的疑慮。

Splunk:機(jī)器數(shù)據(jù)的挖掘者

Splunk 是機(jī)器數(shù)據(jù)的引擎。 使用 Splunk 可收集、 索引和利用所有應(yīng)用程序、 服務(wù)器和設(shè)備( 物理、 虛擬和云中 ) 生成的快速移動(dòng)型計(jì)算機(jī)數(shù)據(jù) 。 從一個(gè)位臵搜索并分析所有實(shí)時(shí)和歷史數(shù)據(jù)。

Splunk由于其軟件的通用性,在各行業(yè)客戶拓展速度非???/b>

Splunk公司客戶數(shù)量已經(jīng)從2008年450個(gè)增長到目前7000個(gè)( 90個(gè)國家) 。 Splunk在2013年才宣布進(jìn)軍中國市場, 先后在北京、 上海設(shè)立了辦事機(jī)構(gòu), 開始正式運(yùn)作國內(nèi)業(yè)務(wù)。 但早在2008年, Splunk就通過代理商在國內(nèi)提供服務(wù), 包括精誠集團(tuán), 上海天旦網(wǎng)絡(luò)科技發(fā)展有限公司和北京華夏威科軟件技術(shù)有限公司 。 客戶主要集中在政府、電信、 金融和教育領(lǐng)域。Splunk中國專區(qū)>>>

Tableau:數(shù)據(jù)可視化工具的領(lǐng)航者

Tableau是一家專門為企業(yè)提供商務(wù)智能BI解決方案的大數(shù)據(jù)和云計(jì)算公司 。 Tableau公司將數(shù)據(jù)運(yùn)算與美觀的圖表完美地嫁接在一起。它的程序很容易上手, Tableau的主要受眾人群是非技術(shù)人員 , 使得他們可以輕易的對已有的數(shù)據(jù)進(jìn)行可視化、 可交互的即時(shí)展示與分析。tableau中國專區(qū)

BI市場格局,數(shù)據(jù)可視化近兩年發(fā)展迅速

接下篇:大數(shù)據(jù)的夢想與現(xiàn)實(shí)(下):大數(shù)據(jù)的應(yīng)用篇

End.

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-07-24
大數(shù)據(jù)的夢想與現(xiàn)實(shí)(上):大數(shù)據(jù)技術(shù)篇
云計(jì)算是大數(shù)據(jù)的一種應(yīng)用形式

長按掃碼 閱讀全文