當(dāng)下,中國(guó)已經(jīng)成為全球最大的數(shù)據(jù)生產(chǎn)國(guó),其中物聯(lián)網(wǎng)的數(shù)據(jù)產(chǎn)生量備受關(guān)注。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《2019 年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)全景圖譜》顯示,預(yù)計(jì) 2025 年,物聯(lián)網(wǎng)數(shù)據(jù)占比將增加到 21%,增速最快。而物聯(lián)網(wǎng)數(shù)據(jù)本身價(jià)值密度小、數(shù)據(jù)體量大、數(shù)據(jù)時(shí)效性高、數(shù)據(jù)質(zhì)量低等特點(diǎn),使得物聯(lián)網(wǎng)數(shù)據(jù)分析面臨著諸多的關(guān)鍵挑戰(zhàn),很難發(fā)揮其真正的效用。
7月18日,在【 DevRun 開發(fā)者沙龍——華為云深圳金蝶專場(chǎng)】上,華為云為開發(fā)者分享了“以孿生模型驅(qū)動(dòng)的 IoT 數(shù)據(jù)分析如何使能行業(yè)”的相關(guān)技術(shù)原理、實(shí)踐經(jīng)驗(yàn)和對(duì)應(yīng)方法論,為物聯(lián)網(wǎng)數(shù)據(jù)分析帶來(lái)新的機(jī)遇。
以下內(nèi)容經(jīng)由 InfoQ 編輯整理自【 DevRun 開發(fā)者沙龍——華為云深圳金蝶專場(chǎng)】中張少偉老師的分享。
1.如何做好 IoT 數(shù)據(jù)分析
物聯(lián)網(wǎng)數(shù)據(jù)主要是指?jìng)鞲衅骱驮O(shè)備發(fā)過來(lái)的數(shù)據(jù)。這些數(shù)據(jù)一部分是對(duì)現(xiàn)實(shí)環(huán)境參數(shù)的采集值,一部分是設(shè)備的一些常規(guī)信息值,比如:狀態(tài)、故障信息、錯(cuò)誤代碼、運(yùn)行情況等。物聯(lián)網(wǎng)數(shù)據(jù)在任何情況下都會(huì)產(chǎn)生數(shù)據(jù),無(wú)需人為參與就會(huì)不斷涌現(xiàn)出新的數(shù)據(jù),其數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于傳統(tǒng)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)。這就使得企業(yè)經(jīng)常面臨高成本的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理環(huán)節(jié)低效、低質(zhì)量的數(shù)據(jù)等問題,那么該如何對(duì)這些大量的、源源不斷的 IoT 數(shù)據(jù)做好分析呢?
華為云提出了四點(diǎn)解決方案:
構(gòu)建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)、構(gòu)建數(shù)字孿生的基礎(chǔ)
數(shù)字孿生,是充分利用物理模型、傳感器更新、運(yùn)行歷史等數(shù)據(jù),集成多學(xué)科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中完成映射,從而反映相對(duì)應(yīng)的實(shí)體裝備的全生命周期過程。簡(jiǎn)單來(lái)說(shuō),數(shù)字孿生就是對(duì)物理世界進(jìn)行數(shù)字化的實(shí)時(shí)映射。
那么如何打通物理世界與數(shù)字世界的關(guān)聯(lián),如何更好地理解設(shè)備從而快捷高效地分析數(shù)據(jù),成為物聯(lián)網(wǎng)企業(yè)急需的基礎(chǔ)業(yè)務(wù)。張少偉認(rèn)為,構(gòu)建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)的基礎(chǔ),現(xiàn)實(shí)世界的設(shè)備不是離散的,而是具有空間、組織、人等復(fù)雜關(guān)系與上下文存在的。
以智能樓宇的行業(yè)開發(fā)為例,在實(shí)際應(yīng)用開發(fā)中,由于每個(gè)樓宇、樓層的設(shè)備為離散的物理設(shè)備,如果需要按照樓宇、樓層等為單位進(jìn)行統(tǒng)計(jì)并監(jiān)控設(shè)備,就需要對(duì)樓宇、設(shè)備之間的關(guān)系進(jìn)行標(biāo)注關(guān)聯(lián)。于是可以將 IoT 數(shù)據(jù)放置于一個(gè)上下文關(guān)系中理解,將數(shù)據(jù)以下圖所示的層次結(jié)構(gòu)管理再去做數(shù)據(jù)分析。這樣之前 ID 為 XXX 的溫度傳感器讀數(shù)多少,在建模后可以直接用“302 房間的溫度多少?”來(lái)表達(dá)。
物聯(lián)網(wǎng)數(shù)據(jù)處理的關(guān)鍵是對(duì)時(shí)序數(shù)據(jù)的處理
物聯(lián)網(wǎng)數(shù)據(jù)具備顯著的時(shí)序特征:按照時(shí)間維度上報(bào)、存儲(chǔ)、查詢數(shù)據(jù)。因此在做物聯(lián)網(wǎng)數(shù)據(jù)分析時(shí),要對(duì)時(shí)序數(shù)據(jù)做充分的考慮,比如某些物聯(lián)網(wǎng)設(shè)備可能產(chǎn)生巨量數(shù)據(jù),最大限度的壓縮是減少成本的直接手段;怎樣滿足海量設(shè)備高并發(fā),實(shí)時(shí)寫入的要求;面對(duì)長(zhǎng)時(shí)間積累的物聯(lián)網(wǎng)數(shù)據(jù),如何滿足高性能查詢,特別是經(jīng)常做時(shí)間維度的聚合查詢;以及在時(shí)間的維度上對(duì)海量的物聯(lián)網(wǎng)產(chǎn)生的時(shí)序數(shù)據(jù)做時(shí)間維度的查詢計(jì)算等。
將數(shù)據(jù)時(shí)效性分層處理,獲得綜合處理效率最大化
在數(shù)據(jù)接入后,可以將物聯(lián)網(wǎng)數(shù)據(jù)總結(jié)為冷數(shù)據(jù)、熱數(shù)據(jù)、溫?cái)?shù)據(jù)。冷數(shù)據(jù)是對(duì)于離線類不經(jīng)常訪問的歸檔數(shù)據(jù),在需要時(shí)對(duì)數(shù)據(jù)做批處理;熱數(shù)據(jù)是需要被計(jì)算節(jié)點(diǎn)實(shí)時(shí)處理和分析的數(shù)據(jù),對(duì)時(shí)效性非常敏感;溫?cái)?shù)據(jù)是近期需要頻繁處理的數(shù)據(jù)。將這些數(shù)據(jù)進(jìn)行如下圖所示的分層處理,以實(shí)現(xiàn)綜合處理的效率最大化。
高效的數(shù)據(jù)清洗,為數(shù)據(jù)分析輸入高質(zhì)量的數(shù)據(jù)
在做物聯(lián)網(wǎng)分析時(shí),因?yàn)槲锫?lián)網(wǎng)數(shù)據(jù)質(zhì)量的問題,物聯(lián)網(wǎng)數(shù)據(jù)清洗是一項(xiàng)重要的環(huán)節(jié),如下圖所示。物聯(lián)網(wǎng)數(shù)據(jù)中,經(jīng)常出現(xiàn)一些典型的問題,比如缺值、數(shù)據(jù)的異常跳變、重復(fù)數(shù)據(jù)、格式差異、噪音干擾等,數(shù)據(jù)清洗環(huán)節(jié)可以幫助數(shù)據(jù)分析的開發(fā)者改善數(shù)據(jù)質(zhì)量。此外,在做數(shù)據(jù)清洗的過程中,有兩點(diǎn)非常重要,第一個(gè)是實(shí)時(shí)性,上文提到物聯(lián)網(wǎng)數(shù)據(jù)實(shí)時(shí)性要求比較高,這里同樣希望可以進(jìn)行實(shí)時(shí)的數(shù)據(jù)清洗;另外數(shù)據(jù)清洗可以適應(yīng) IoT 非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)特征,通過清洗再提供相對(duì)高質(zhì)量的數(shù)據(jù)。
2.華為云 IoT 一站式物聯(lián)網(wǎng)數(shù)據(jù)分析服務(wù)——IoTA
基于以上四點(diǎn),華為云推出以資產(chǎn)模型為驅(qū)動(dòng)的一站式物聯(lián)網(wǎng)數(shù)據(jù)分析服務(wù)——IoTA,基于物聯(lián)網(wǎng)資產(chǎn)模型,整合大數(shù)據(jù)分析領(lǐng)域的最佳實(shí)踐,實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)集成、清洗、存儲(chǔ)、分析、可視化,為開發(fā)者打造一站式數(shù)據(jù)開發(fā)體驗(yàn),并與華為云物聯(lián)網(wǎng)相關(guān)云服務(wù)(比如設(shè)備接入)無(wú)縫對(duì)接,降低開發(fā)門檻,縮短開發(fā)周期,快速實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)價(jià)值變現(xiàn)。結(jié)構(gòu)如下圖所示。
左邊是兩種類型的數(shù)據(jù)源,一種是 IoT 設(shè)備實(shí)時(shí)采集的物聯(lián)網(wǎng)數(shù)據(jù),實(shí)時(shí)數(shù)據(jù)源;另一種是 IoT 子系統(tǒng)中需要批量導(dǎo)入的數(shù)據(jù)。
中間是華為云的 IoT 數(shù)據(jù)分析服務(wù) IoTA,大概分為幾個(gè)板塊:首先是數(shù)據(jù)清洗的功能板塊,通過 Data Pipeline 即數(shù)據(jù)管道實(shí)現(xiàn),能夠把數(shù)據(jù)從管道里面進(jìn)行相應(yīng)的處理,并提供了一些清洗算子,例如轉(zhuǎn)換、刪除、去重、插值、降噪等,將原始數(shù)據(jù)變?yōu)楦哔|(zhì)量數(shù)據(jù)。為了降低數(shù)據(jù)清洗開發(fā)的難度,華為云 IoTA 提供圖形化的 IDE 環(huán)境,開發(fā)者通過簡(jiǎn)單的拖拽即可完成。其次是溫冷分層存儲(chǔ)功能和資產(chǎn)模型。IoTA 的溫冷分層存儲(chǔ)集成了時(shí)序和對(duì)象存儲(chǔ),幫助開發(fā)者以分層的方式管理數(shù)據(jù)。資產(chǎn)模型功能可以讓開發(fā)者快速地進(jìn)行建模,描述物理空間中的對(duì)象,一旦模型構(gòu)建起來(lái),后面就可以基于該模型進(jìn)行相應(yīng)的數(shù)據(jù)分析。右邊是數(shù)據(jù)分析板塊,華為云 IoTA 集成了時(shí)序分析、流分析以及離線分析,提供相應(yīng)的計(jì)算引擎,最后是提供面向特定行業(yè)的行業(yè)分析套件,提供面向行業(yè)場(chǎng)景化的分析能力封裝。
需要強(qiáng)調(diào)的是,華為云 IoTA 具備五個(gè)關(guān)鍵價(jià)值:
簡(jiǎn)化數(shù)據(jù)開發(fā)過程,降低門檻,加速業(yè)務(wù)上線
之前,數(shù)據(jù)開發(fā)過程的技術(shù)門檻較高,很多物聯(lián)網(wǎng)領(lǐng)域的中小企業(yè)因?yàn)槿狈I(yè)數(shù)據(jù)分析領(lǐng)域的人才,實(shí)施起來(lái)較為困難,比如應(yīng)該選擇什么樣的數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)?Lamda or Kappa or 其他 ?公有云上的大數(shù)據(jù) PaaS 服務(wù)琳瑯滿目,選擇哪些組件最適合我的 IoT 項(xiàng)目呢?在這個(gè)過程中,華為云 IoTA 提供了一站式的物聯(lián)網(wǎng)數(shù)據(jù)分析,讓開發(fā)者做到開箱即用,包括數(shù)據(jù)集成,數(shù)據(jù)清洗,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)建模,數(shù)據(jù)分析,數(shù)據(jù)可視化,整個(gè)過程縮短開發(fā)周期 40% 以上;在技術(shù)選型上,IoTA 充分考慮當(dāng)前技術(shù)趨勢(shì),利用比如存算分離,孿生建模,Serverless,實(shí)時(shí)清洗等技術(shù),使用戶無(wú)需感知復(fù)雜技術(shù),減少高端技術(shù)人員雇傭費(fèi)用。
通過資產(chǎn)建模,將 IoT 數(shù)據(jù)轉(zhuǎn)化為有語(yǔ)義的數(shù)據(jù)
區(qū)別于公有云通用類大數(shù)據(jù)分析相關(guān)服務(wù),華為云 IoT 物聯(lián)網(wǎng)數(shù)據(jù)分析服務(wù)與資產(chǎn)模型深度整合,以 Digital Twin 資產(chǎn)模型為中心驅(qū)動(dòng)數(shù)據(jù)分析,開發(fā)者可以直接使用統(tǒng)一的物聯(lián)網(wǎng)模型數(shù)據(jù),大大提升數(shù)據(jù)分析的效率。通過構(gòu)建物與物,物與空間,物與人等復(fù)雜關(guān)系,將物聯(lián)網(wǎng)數(shù)據(jù)置于模型的“上下文”中去理解;通過“IoT+ 資產(chǎn)模型”,在數(shù)字世界中構(gòu)建與物理世界準(zhǔn)實(shí)時(shí)同步的數(shù)字孿生;基于模型抽象,為數(shù)據(jù)分析提供面向業(yè)務(wù)的接口封裝。
其具備四點(diǎn)核心功能:1. 利用樹狀層級(jí)結(jié)構(gòu)描述復(fù)雜物理對(duì)象的內(nèi)在關(guān)系,比如空間關(guān)系,組合關(guān)系,上下游關(guān)系等;2. 虛測(cè)點(diǎn)支持豐富的計(jì)算算子,比如四則運(yùn)算,科學(xué)計(jì)數(shù)法,三角函數(shù),滑窗,流計(jì)算等;3. 支持定義資產(chǎn)模板,快速?gòu)?fù)制;4. 所見即所得的圖形化編輯方式,簡(jiǎn)化復(fù)雜資產(chǎn)開發(fā)難度。
實(shí)時(shí)數(shù)據(jù)清洗,改善物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量
如下圖所示為華為云 IoTA 的數(shù)據(jù)管道,在這個(gè)數(shù)據(jù)管道中,主要包括五個(gè)功能。第一,提供圖形化的開發(fā)環(huán)境,拖拽即可完成數(shù)據(jù)清洗和預(yù)處理;第二,基于流計(jì)算引擎,滿足對(duì) IoT 數(shù)據(jù)處理高實(shí)時(shí)性要求;第三,含有豐富的 IoT 清洗算子(10+),可以應(yīng)對(duì)各種 IoT 數(shù)據(jù)問題;第四,具備 IoT 數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),為數(shù)據(jù)質(zhì)量打分;第五,靈活的數(shù)據(jù)流轉(zhuǎn)控制,滿足各種數(shù)據(jù)分析應(yīng)用場(chǎng)景的需要。
分層的 IoT 數(shù)據(jù)存儲(chǔ)機(jī)制,降低數(shù)據(jù)存儲(chǔ)和管理成本
華為云 IoTA 將數(shù)據(jù)存儲(chǔ)分為溫?cái)?shù)據(jù)存儲(chǔ)和冷數(shù)據(jù)存儲(chǔ)。溫?cái)?shù)據(jù)存儲(chǔ)采用適用物聯(lián)網(wǎng)數(shù)據(jù)特征的時(shí)序數(shù)據(jù)庫(kù)技術(shù),基于 SSD 存儲(chǔ)介質(zhì),滿足 ms 級(jí)數(shù)據(jù)查詢要求;冷數(shù)據(jù)存儲(chǔ)采用可靠安全的對(duì)象存儲(chǔ),價(jià)格低廉,并結(jié)合 IoTA 離線分析,輕松處理 PB 級(jí)數(shù)據(jù)。另外,用戶在管理溫冷存儲(chǔ)時(shí),可以結(jié)合自己的業(yè)務(wù)需要,只需設(shè)定老化周期,就可進(jìn)行溫?cái)?shù)據(jù)存儲(chǔ)到冷數(shù)據(jù)存儲(chǔ)的自動(dòng)轉(zhuǎn)存,把數(shù)據(jù)管理好。
面向物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)的全面優(yōu)化
針對(duì)實(shí)時(shí)數(shù)據(jù),華為云 IoTA 服務(wù)對(duì)數(shù)據(jù)寫入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)建模、數(shù)據(jù)洞察等模塊都做了優(yōu)化。在數(shù)據(jù)寫入模塊中,華為云 IoTA 支持海量時(shí)間線,并按時(shí)間線做 Hash Partition,所有 Shard 節(jié)點(diǎn)并行寫入,Shard 按照數(shù)據(jù)量自動(dòng)分裂,同時(shí)單實(shí)例支持超 10 萬(wàn)時(shí)間線,最大億級(jí)時(shí)間線。在數(shù)據(jù)存儲(chǔ)中,華為云 IoTA 提供列式存儲(chǔ),不同數(shù)據(jù)類型(如時(shí)間類型,浮點(diǎn)型)采用不同壓縮算法,相比開源 OpenTSDB 壓縮率提升 10 倍。在數(shù)據(jù)建模模塊中,華為云 IoTA 支持按資產(chǎn)模型數(shù)據(jù)格式入庫(kù)存儲(chǔ),并按模型層次快捷檢索測(cè)點(diǎn)時(shí)序數(shù)據(jù)。最后在數(shù)據(jù)洞察模塊中,華為云 IoTA 支持在線時(shí)序數(shù)據(jù)透視,支持折線圖、堆積圖、散點(diǎn)圖多種展現(xiàn)形式,時(shí)間軸、特定周期、定義功能齊全,便捷選擇時(shí)間段數(shù)據(jù),還可進(jìn)行多種數(shù)據(jù)聚合方式展示,如最大值、最小值、平均值等。
3.華為云 IoTA 應(yīng)用實(shí)例
智慧倉(cāng)儲(chǔ)實(shí)時(shí)分析
如下圖所示,在倉(cāng)庫(kù)的進(jìn)出庫(kù)管理中,基于數(shù)據(jù)分析服務(wù)的建模能力與實(shí)時(shí)分析,利用華為公有云 ModelArts 進(jìn)行 AI 推理計(jì)算,并與 RFID 讀寫器設(shè)備配合,對(duì) RFID 數(shù)據(jù)流進(jìn)行識(shí)別檢測(cè),可實(shí)現(xiàn)秒級(jí)判斷出貨物在進(jìn)出庫(kù)過程中的進(jìn)出方向,繼而可自動(dòng)與貨單進(jìn)行校對(duì),實(shí)時(shí)告知倉(cāng)庫(kù)管理人員進(jìn)出貨物的情況。
產(chǎn)線數(shù)字化
下圖所示為我國(guó)某一鋼廠基于華為云的能力進(jìn)行的產(chǎn)線數(shù)字化項(xiàng)目,即產(chǎn)線的數(shù)字孿生。通過 IoTA 服務(wù)對(duì)各個(gè)工藝環(huán)節(jié)建模,幫助其實(shí)現(xiàn)質(zhì)量分析 。在該場(chǎng)景下做產(chǎn)品的質(zhì)量分析面臨的一個(gè)關(guān)鍵環(huán)節(jié)就是時(shí)空對(duì)齊,該如何理解資產(chǎn)建模幫助構(gòu)建時(shí)空關(guān)系的映射呢?想象一個(gè)軋件是一個(gè)很長(zhǎng)的鋼板,而比如這個(gè)鋼板在偏移兩百米的空間位置上有質(zhì)量缺陷,那么我們需要知道為什么該區(qū)域質(zhì)量比較差,產(chǎn)線的各工藝環(huán)節(jié)在處理該區(qū)域的時(shí)刻,當(dāng)時(shí)的工藝參數(shù)分別都是什么?這就是一個(gè)比較復(fù)雜的時(shí)空關(guān)系匹配問題。華為云 IoTA 對(duì)產(chǎn)線進(jìn)行建模,描述產(chǎn)線這一復(fù)雜的物理對(duì)象,將物理空間中的時(shí)空關(guān)系在數(shù)字世界中進(jìn)行建模,繼而給應(yīng)用層開放具備語(yǔ)義的數(shù)據(jù),幫助應(yīng)用層進(jìn)一步的數(shù)據(jù)分析。
4.最后
隨著 5G 應(yīng)用的持續(xù)深化,物聯(lián)網(wǎng)之間的連接將變得更加緊密。然而物聯(lián)網(wǎng)數(shù)據(jù)本身價(jià)值密度小、數(shù)據(jù)體量大、數(shù)據(jù)時(shí)效性高、數(shù)據(jù)質(zhì)量低等特點(diǎn),使得物聯(lián)網(wǎng)數(shù)據(jù)分析面臨著諸多的關(guān)鍵挑戰(zhàn),很難真正為行業(yè)所用。而這,也一直正是華為云 IoT 所致力于解決的問題。
7月25日,DevRun 開發(fā)者沙龍華為云西安專場(chǎng)精彩繼續(xù),屆時(shí)華為云多位資深技術(shù)專家將就 GaussDB 企業(yè)數(shù)據(jù)庫(kù)、云端 IoT 應(yīng)用、云平臺(tái)低代碼應(yīng)用開發(fā)、云 API 助力生態(tài)建設(shè)和云端零代碼 AI 開發(fā)五個(gè)主題做深度分享。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )