近日,阿里云宣布高性能時間序列數(shù)據(jù)庫 (High-Performance Time Series Database , 簡稱 HiTSDB) 正式商業(yè)化。
先跟大家聊一下什么叫時序數(shù)據(jù)。簡單的說,就是時間上分布的一系列數(shù)值,關(guān)鍵字是數(shù)值,我們一般認(rèn)為的時序數(shù)據(jù)是什么時間發(fā)生了什么事情,但是在時序數(shù)據(jù)這個領(lǐng)域里定義的時序數(shù)據(jù)全都是跟數(shù)值有關(guān)的。也就是說,如果只是一個帶有時間戳的一條數(shù)據(jù)并不能叫做時序數(shù)據(jù)。舉個例子,比如像我早上8點半上樓吃了個飯這條記錄,相當(dāng)于一個日志,這個本身不構(gòu)成一個時序數(shù)據(jù),但是如果某個餐廳早上8點半同時有50個人在那里吃飯,這個50加上餐廳的信息再加這個時間點就構(gòu)成了一個時序數(shù)據(jù)。
單值與多值建模
實際上通用的建模方式有兩種,其中的一種是單值。實際上我們是針對不同的東西來建模的,多值的模型是針對數(shù)據(jù)源建模,我們每一行數(shù)據(jù)針對的是一個數(shù)據(jù)源,它的三個被測量的指標(biāo)在同一列上,所以每一個數(shù)據(jù)源,數(shù)據(jù)的來源在每一個時間點上都有一行,這就是多值的模型。
還有一種模型是單值的模型,單值的模型我們是把它測量的精確到時間序列上,也就在時間序列的每個時間點上只有一個值,所以是個單值,也就是說對于多值模型來說它每一行數(shù)據(jù)對應(yīng)的是一個數(shù)據(jù)源,對于單值模型來說它對應(yīng)的是一個時間序列,實際上多值模型對應(yīng)的是一個數(shù)據(jù)源在一個時間點上就會產(chǎn)生一行數(shù)據(jù),而在單值模型里一個數(shù)據(jù)源上面的每一個指標(biāo)會產(chǎn)生一行數(shù)據(jù)。
什么是插值和降精度?
如上前面所講,時間序列會分布在一些時間線上,數(shù)據(jù)源和測量指標(biāo)確定了的話,時間序列是隨著時間軸往后分布的,實際上它的采樣在一個典型的場景里是固定時間間隔的,它中間一些點做處理會牽扯到插值和降精度處理。比如說中間丟失了一個點,比較簡單的方法是中間插一個值,常用的方法是線性插值,就是在時間軸上畫一個直線中間的點就插出來了。
另一個叫降精度,例如我們有個按秒采樣的時間序列,顯示時間范圍是一年的數(shù)據(jù),為了便于查看,需要把時間精度降到一天。比如我們只選這一天中的最大值或者最小值或者平均值,作為這一天的氣溫,也就是最高氣溫,最低氣溫和平均氣溫的概念。用算法或者把時序數(shù)據(jù)轉(zhuǎn)換成精度比較低的時間序列以便于觀察和理解它,這是在傳統(tǒng)數(shù)據(jù)庫里沒有的一種方式。
再一個就是數(shù)據(jù)聚合,也是非常典型的基于設(shè)備的數(shù)據(jù)統(tǒng)計,比如這里有很多設(shè)備指標(biāo)數(shù)據(jù)構(gòu)成的時間線,時序數(shù)據(jù)的聚合是在時間線的維度上的,而不是按點的,在處理平時處理的空間聚合的話,一般是把很多數(shù)據(jù)點按照一個個聚合起來,而實際數(shù)據(jù)處理的時候一般會把它抽象的點連成線就是剛才看的時間序列,每個數(shù)據(jù)源在一個測量值上會產(chǎn)生一行時間線,加上時間序列,如果是根據(jù)某一個維度上的測量的話,在同一維度就能調(diào)成線就把時間序列處理出來了。
舉個例子, 智慧園區(qū)的業(yè)務(wù)系統(tǒng)需要查看一個樓宇的某盞燈的耗電量情況,那么就需要把這盞燈的耗電量數(shù)據(jù)從數(shù)據(jù)庫中查詢并展示出來,如果由于采集的故障導(dǎo)致某個時刻用電量數(shù)據(jù)缺失,那么需要通過特定算法來近似的估算出這個數(shù)據(jù),這個計算補全數(shù)據(jù)的過程就是“插值”。而當(dāng)需要查看這盞燈一年的耗電趨勢情況時,通常只需要計算出每一天的耗電量,進(jìn)行查看,而不需要把每一個時刻采集的數(shù)據(jù)全部輸出出來,這個將原始精度轉(zhuǎn)化為業(yè)務(wù)需求精度的過程就是“降精度”。而如果要統(tǒng)計某一個樓層或者樓宇的用耗電量整體趨勢數(shù)據(jù)時,就需要將所有統(tǒng)計范圍內(nèi)的燈具的耗電量數(shù)據(jù)做“合并統(tǒng)計”,這個類似的統(tǒng)計過程就是Aggregation。
時序數(shù)據(jù)降精度是在時間序列維度上做的。對于關(guān)系數(shù)據(jù)庫來說,首先要把時間序列維度拿出來,然后在中間插值,而實際上 SQL 是按點來操作的。所以如果要做降精度的話,需要用一個值查詢把整條時間序列上的數(shù)據(jù)查詢出來,插好值之后才能做時間序列之間的聚合,那么服務(wù)和 SQL 服務(wù)器之間的吞吐量非常大,相當(dāng)于 SQL 只是一個數(shù)據(jù)通道需要把所有值都拉出來運算一遍,這個查詢性能會非常慢,并且每一次計算都需要重新拉取數(shù)據(jù),相對 HiTSDB,這個性就能差了幾百倍,在空間聚合 Aggregator 支持也非常全面,支持 ADhoc 查詢,HiTSDB 通過引入倒排索引和數(shù)據(jù)分片提升檢索時間序列的效率,通過并行計算架構(gòu),整體計算性能提升非常明顯。
HiTSDB高壓縮技術(shù) 存儲成本降低90%
物聯(lián)網(wǎng)領(lǐng)域是最典型的時序數(shù)據(jù)產(chǎn)生和應(yīng)用的場景,這些場景具備一些特征,技術(shù)數(shù)據(jù)量特別大,比如某個智能設(shè)備的溫度傳感器,首先第一是時間序列會持續(xù)的產(chǎn)生大量的數(shù)據(jù),持續(xù)的產(chǎn)生什么意思呢?因為我們往往對時間序列來說是定時采樣功能,如果每秒測量一次,一天是86400秒,如果24小時都要用,平均每一個傳感器儀表在一個時間點上產(chǎn)生一個數(shù)據(jù)點,一個儀表就產(chǎn)生86400個數(shù)據(jù),如果把全國各個縣都布一個采樣點,那一天數(shù)據(jù)就上億了,實際上大家作為氣象采樣來說每一個縣對應(yīng)一個溫度傳感器顯然有點不夠的,可能我們是每一個街道甚至每個小區(qū)都有這樣的傳感器,那么這個數(shù)據(jù)加起來實際上是一個非常驚人的數(shù)字。
利用HiTSDB 的高壓縮技術(shù),相比較 OpenTSDB 提升10倍左右,通常原始時序數(shù)據(jù)的大小在 200-300 Byte,OpenTSDB 單數(shù)據(jù)點消耗約20 Byte,HiTSDB 單數(shù)據(jù)點消耗約 2Byte,通過 HiTSDB 可以節(jié)約90%以上的數(shù)據(jù)庫存儲成本。
對于物聯(lián)網(wǎng)平臺企業(yè)可以利用HiTSDB 和阿里云的產(chǎn)品能力基于如下的架構(gòu)構(gòu)建云上的物聯(lián)網(wǎng)平臺。
HiTSDB 除了在云上提供高效的時序數(shù)據(jù)服務(wù)能力,企業(yè)可以也可以利用HiTSDB 結(jié)合阿里云工業(yè)大腦和城市大腦的大數(shù)據(jù)方案實現(xiàn)智能制造生產(chǎn)和智慧城市。 利用HiTSDB 的“邊緣+ 中心”的解決方案,可以滿足工業(yè)物聯(lián)網(wǎng)IoT尤其是電力能源行業(yè)的數(shù)據(jù)邊緣端本地存儲分析,逐級數(shù)據(jù)上報 ,以及網(wǎng)絡(luò)不穩(wěn)態(tài)的數(shù)據(jù)數(shù)據(jù)穩(wěn)定上報和中心端的全局設(shè)備數(shù)據(jù)監(jiān)控分析,打通智慧大腦的數(shù)據(jù)通道。
HiTSDB商業(yè)化首發(fā)期間,官網(wǎng)推出85折優(yōu)惠活動。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 科技晚報:劉強東豪捐小學(xué)老師紅包,RTX 5090顯卡震撼登場
- 京東PLUS會員新福利:生活服務(wù)包、180天只換不修、自營免郵秒送,購物更省心!
- 英特爾新處理器酷睿Ultra 200HX系列:性能與功耗的完美平衡,帶來全新體驗
- 傳音控股攜手阿里云打造AI新勢力:通義千問大模型賦能傳音AI手機,創(chuàng)新科技引領(lǐng)未來
- 云從科技回應(yīng)被美列入黑名單:否認(rèn)指控并表示業(yè)務(wù)不受影響,獨立自主是關(guān)鍵
- RTX 5090顯卡震撼來襲:一卡兩倍強,價格也翻倍!國行售價起價16499元
- 戴爾重塑PC品牌:別出心裁的命名慣例,是否引領(lǐng)新潮流?
- 劉強東回饋家鄉(xiāng),教師每人獲萬元紅包,年貨滿滿暖人心
- AI Agent引爆新風(fēng)口:數(shù)萬億市場待挖掘,未來已來!
- OpenAI奧特曼談AI定價:揭秘AGI門檻,理性剖析AI新時代
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。