引言
云計(jì)算的出現(xiàn)為企業(yè)的管理、業(yè)務(wù)開(kāi)展、資源整合等帶來(lái)了極大的便利性,也是數(shù)字化建設(shè)的核心基建之一。而高可用性和穩(wěn)定性是衡量一家云服務(wù)廠商最核心的標(biāo)準(zhǔn)之一。
環(huán)信作為全球領(lǐng)先的互聯(lián)網(wǎng)消息云服務(wù)商,提供全面SLA 99.95%的全球公有云方 案,以及SLA99.99% 的全球?qū)S性品桨?。如何做好全球網(wǎng)絡(luò)服務(wù)支撐,構(gòu)建超低 延時(shí)的SD-GMN 網(wǎng)絡(luò),保持全球用戶100毫秒以內(nèi)的最佳用戶體驗(yàn)。本次將向您講述服務(wù)背后的技術(shù)故事,包括環(huán)信全球?qū)崟r(shí)消息網(wǎng)絡(luò)的的整體規(guī)劃、運(yùn)維監(jiān)測(cè)和服務(wù)、技術(shù)迭代以及持續(xù)優(yōu)化。
目錄
一、全球?qū)崟r(shí)消息網(wǎng)絡(luò)的主要挑戰(zhàn)
二、環(huán)信全球?qū)崟r(shí)消息網(wǎng)絡(luò)整體規(guī)劃
三、運(yùn)維監(jiān)測(cè)和服務(wù)
四、擁抱邊緣計(jì)算和持續(xù)迭代優(yōu)化
五、結(jié)語(yǔ)
一、全球?qū)崟r(shí)消息網(wǎng)絡(luò)的主要挑戰(zhàn)
環(huán)信作為國(guó)內(nèi)最早提供全球消息云服務(wù)的廠商,在提供全球?qū)崟r(shí)消息網(wǎng)絡(luò)方面面臨諸多挑戰(zhàn), 主要包括新興市場(chǎng)國(guó)家基礎(chǔ)設(shè)施差、延時(shí)高, 以及 DNS 錯(cuò)誤等問(wèn)題。其中,消息的到達(dá)率和消息的延遲是最重要的核心指標(biāo)之一。
面對(duì)國(guó)內(nèi)用戶的時(shí)候,基于國(guó)內(nèi)的 5G 基礎(chǔ)設(shè)施的領(lǐng)先性,消息延遲基本不算問(wèn)題, 國(guó)內(nèi)整體網(wǎng)絡(luò)延時(shí)整體可控。根據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示:“國(guó)內(nèi)最慢的重慶市時(shí)延中值 84ms,那收發(fā)消息單次往返就是 84ms,再加上幾十毫秒的服務(wù)器處理時(shí)間,整體 時(shí)間控制在 100ms 左右,用戶幾乎感受不到延遲帶來(lái)的交互問(wèn)題?!?/p>
以上數(shù)據(jù)來(lái)自 speedtest.cn
早在2014年當(dāng)環(huán)信向海外客戶提供服務(wù)之時(shí),受制于國(guó)外網(wǎng)絡(luò)基礎(chǔ)設(shè)施良莠不齊, 我們會(huì)發(fā)現(xiàn)海外的整體網(wǎng)絡(luò)延遲差異巨大,無(wú)法跟國(guó)內(nèi)一樣通過(guò)部署3線、8 線 bgp 的機(jī)房就能基本可用,或者使用自己攢的多線機(jī)房方案。環(huán)信全球?qū)崟r(shí)消息定義我們 收發(fā)的消息每次延時(shí)都是在 1s 內(nèi),一旦超過(guò) 1s 我們就會(huì)感覺(jué)到有明顯的延遲。因此 我們的目標(biāo)就是單個(gè)客戶端發(fā)送消息到達(dá)服務(wù)器端不能超過(guò) 100ms。最終這個(gè)問(wèn)題就演變成了我們?cè)诿鎸?duì)海外網(wǎng)絡(luò)的情況下如何進(jìn)行解決處理來(lái)達(dá)到這個(gè)標(biāo)準(zhǔn)。
以上數(shù)據(jù)來(lái)自
https://www.cable.co.uk/broadband/world-wide-speed-league/2022/worldwide_speed_league_data.xlsx
從上面數(shù)據(jù)雖然無(wú)法看出各個(gè)國(guó)家的手機(jī)網(wǎng)絡(luò)延時(shí),以及由于某些國(guó)家的網(wǎng)絡(luò)出口原 因?qū)е陆Y(jié)果并不完全準(zhǔn)確,但是大體上我們可以看出來(lái)網(wǎng)絡(luò)慢的都是一些新興市場(chǎng)的 國(guó)家和地區(qū)。這些地區(qū)主要是非洲、南美、中亞以及西亞等地區(qū)。
我們?cè)賮?lái)計(jì)算一下網(wǎng)絡(luò)的傳輸速率,由于國(guó)際網(wǎng)絡(luò)基本都是光纖來(lái)進(jìn)行傳遞的。光纖 延時(shí)計(jì)算:t=n*L/c,c 為光速,其中光速約為 c=30 萬(wàn)公里 / 秒;光纖的材料是二氧 化硅,其折射率 n 為 1.44 左右,計(jì)算延遲的時(shí)候可以近似認(rèn)為1.5。我們用這個(gè)公式可以計(jì)算下北京到上海的延遲:最快就是 11ms 往返。但是實(shí)際情況可能就是這個(gè)數(shù) 字要乘以 2或乘以 3的數(shù)值。因?yàn)檫@里會(huì)有各個(gè)路由節(jié)點(diǎn)的損耗,以及光纖從北京到 上海可能并不是直線,而比如中美海底光纜這樣的,由于有標(biāo)注整體的長(zhǎng)度,因此很 容易計(jì)算整體延時(shí)。
以下這個(gè)網(wǎng)站是根據(jù) Wikipedia 整理的現(xiàn)在已有和在建的海底光纜。這里我們可以比 較清楚的看到, 國(guó)際光纜主要是在亞洲和北美之間的太平洋,北美和歐洲之間的大西 洋。(數(shù)據(jù)來(lái)源參考網(wǎng)址:
https://cablemap.info/_default.aspx )
現(xiàn)在,我們已經(jīng)找到了核心問(wèn)題,同時(shí)定義好了目標(biāo),那就擼起袖子加油干吧!
從以上信息中我們可以看到,我們需要解決的是三個(gè)問(wèn)題:
- 更近的數(shù)據(jù)中心
- 非發(fā)達(dá)國(guó)家的 Last mile 優(yōu)化
- 路徑選擇
最后我們也將介紹一下聲網(wǎng)環(huán)信集團(tuán)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施矩陣。
二、環(huán)信全球?qū)崟r(shí)消息網(wǎng)絡(luò)整體規(guī)劃
第一:更近的數(shù)據(jù)中心
因?yàn)樗芯W(wǎng)絡(luò)傳輸?shù)难訒r(shí)最終都是跟光纖距離有關(guān),所以我們需要將數(shù)據(jù)中心盡可能 的離用戶更近。于是我們分別在北美、歐洲、東南亞選取了 3 個(gè)地點(diǎn)作為海外的核心 數(shù)據(jù)中心,分別覆蓋各自本地的區(qū)域。非洲地區(qū)因?yàn)闅v史原因,非洲國(guó)家的出口網(wǎng)絡(luò) 很多都是繞道英國(guó)、法國(guó)這些發(fā)達(dá)國(guó)家。
有一種聲音認(rèn)為代理也可以解決,可是代理并不能解決實(shí)際數(shù)據(jù)傳輸?shù)木嚯x問(wèn)題,只 能是提升網(wǎng)絡(luò)的穩(wěn)定性。
因此我們?cè)诔龊5倪x擇上就選擇了如下幾個(gè)區(qū)域:
新加坡:覆蓋東南亞、東亞、南亞、非地中海區(qū)域的西亞國(guó)家、南非、大洋洲
德國(guó):覆蓋歐洲、西亞、北非、東非、西非、中亞
美國(guó) : 覆蓋北美、南美
基本上環(huán)信數(shù)據(jù)中心到這些地區(qū)都控制在 10000里以內(nèi),這樣往返加上 Last mile 的速度,基本上單程收或發(fā)消息的中值我們可以控制在100ms 內(nèi)。
新加坡數(shù)據(jù)中心主要覆蓋的地區(qū):
德國(guó)數(shù)據(jù)中心覆蓋的地區(qū):
美國(guó)數(shù)據(jù)中心覆蓋的地區(qū):
環(huán)信全球?qū)崟r(shí)消息網(wǎng)絡(luò) SD-GMN 實(shí)測(cè)數(shù)據(jù)展示:
第二: Last mile優(yōu)化
這里分為兩個(gè)問(wèn)題點(diǎn):
一個(gè)是本地跨運(yùn)營(yíng)商的,比如印度當(dāng)?shù)鼗旧厦總€(gè)邦都有自己的運(yùn)營(yíng)商,比較好的是他們基本都跟 AWS 這些大的運(yùn)營(yíng)商進(jìn)行 IX(Internet Exchange Point,互聯(lián)網(wǎng)交 換)。但問(wèn)題點(diǎn)是一旦超過(guò) IX 的容量就會(huì)產(chǎn)生擁塞。
環(huán)信的 IM SDK 不光使用 AWS GA 這些服務(wù),同時(shí)也使用自己的 FPA(終端網(wǎng)絡(luò)加速) 方案。而 FPA 使用的方式是在主要的邦都使用本地的運(yùn)營(yíng)商來(lái)進(jìn)行接入,這樣在網(wǎng)絡(luò) 高峰時(shí)期會(huì)更可靠,畢竟 IX 通常的帶寬上限都不太高。
另外一個(gè)問(wèn)題點(diǎn)是手機(jī)網(wǎng)絡(luò)的不穩(wěn)定性。這個(gè)問(wèn)題在一些新興市場(chǎng)國(guó)家中尤為明顯。而 FPA 可以有效的進(jìn)行弱網(wǎng)對(duì)抗,有效的避免了終端網(wǎng)絡(luò)不穩(wěn)定性。同時(shí) FPA 也提 供了水晶球的展示,這樣方便觀測(cè)來(lái)自各個(gè)地區(qū),各個(gè)運(yùn)營(yíng)商的接入情況。
第三: 路徑選擇
路徑選擇分為兩步:
1、找到離用戶最快的接入地址
這個(gè)我們可以看到很多友商都會(huì)使用智能 DNS 這樣的方式來(lái)進(jìn)行處理。這樣的準(zhǔn) 確性并不太高。這里主要會(huì)產(chǎn)生如下問(wèn)題。
- 用戶自定義 DNS Server 跟他自己的運(yùn)營(yíng)商不匹配,雖然現(xiàn)在 bind 有擴(kuò)展是支持傳遞用戶 IP 的,但是還是有很多 DNS Server 是不支持的。
- 有些 DNS Server 地址對(duì)于智能 DNS 服務(wù)提供商會(huì)有誤判。
- DNS 解析本身耗時(shí)。
環(huán)信首先會(huì)使用實(shí)際出口的 IP 來(lái)進(jìn)行作為判斷依據(jù),因此我們?nèi)虿渴鹆松习賯€(gè) 邊緣的解析節(jié)點(diǎn)保證就近接入。這些解析不光是按照運(yùn)營(yíng)商,地域這些來(lái)進(jìn)行分 配地址,同時(shí)也會(huì)根據(jù) RTT,傳輸大小來(lái)進(jìn)行智能的調(diào)配。
同時(shí)為了解決一些新興市場(chǎng)國(guó)家弱網(wǎng)的情況,我們同時(shí)支持 tcp 和 udp 不同的方 式來(lái)進(jìn)行獲取。
2、支持多條路徑
環(huán)信 IM SDK 支持多種路徑選擇,于是產(chǎn)生了路徑選擇的問(wèn)題。前期在環(huán)信IM SDK 里其實(shí)默認(rèn)包含了
3 種路徑,包括直連、GA、FPA 這 3 種不同的方案,后期我們也將增加新的鏈路路徑。
比如我們很多友商都是接入了 AWS GA,AWS 也顯示了他們 102 個(gè)加速節(jié)點(diǎn)的地址。但是我們也看到了這里有一些不合理的地方。比如我們前面列的那些網(wǎng)絡(luò)速度慢的 地區(qū),AWS 基本沒(méi)有做覆蓋,作為創(chuàng)業(yè)公司在前期可以正常使用可能問(wèn)題不明顯, 但 對(duì)于真正要面向全球化的公司后期就有點(diǎn)力不從心了。
就算用 Azure 和 google cloud platform 也是一樣,這幾家主要覆蓋歐美、日 韓和新加坡地區(qū)。而這些區(qū)域其實(shí)就算直連,它們的網(wǎng)絡(luò)延時(shí)也都挺好。
下面這個(gè)是 AWS GA 網(wǎng)絡(luò)加速節(jié)點(diǎn):
除了 AWS GA,還有一些廠商在新興市場(chǎng)國(guó)家擁有更多的節(jié)點(diǎn):
環(huán)信相對(duì)于友商的核心優(yōu)勢(shì)是除了會(huì)用到這些公有云廠商的節(jié)點(diǎn),我們也使用自建的 Agora FPA 網(wǎng)絡(luò),我們自建的終端加速網(wǎng)絡(luò)覆蓋了全球 230 多個(gè)國(guó)家和地區(qū)。當(dāng)我們 SDK 支持多條路徑選擇的時(shí)候,我們就需要有相應(yīng)的路徑選擇能力,這些能力使我們 掌握了更多的調(diào)度主動(dòng)權(quán)。
但這些都是需要我們有足夠的數(shù)據(jù)來(lái)支撐和驗(yàn)證 :
- 我們使用了 250+ 的 FPA 節(jié)點(diǎn)來(lái)采集延遲數(shù)據(jù)。
- 用戶主動(dòng)上報(bào)來(lái)的延遲數(shù)據(jù)。
我們也建立了全球 250+ 節(jié)點(diǎn)的監(jiān)測(cè)網(wǎng)絡(luò),這樣從全球 200 個(gè)國(guó)家到我們核心機(jī)房的 延時(shí)和丟包率我們都可以做到實(shí)時(shí)監(jiān)測(cè),這些數(shù)據(jù)將作為我們鏈路調(diào)度的核心依據(jù)。
在 2022 年上半年的時(shí)候,太平洋海底爆發(fā)了地震,導(dǎo)致從南美到新加坡的海底光纜 出現(xiàn)了異常。當(dāng)時(shí)環(huán)信的監(jiān)控系統(tǒng)迅速的發(fā)現(xiàn)了這個(gè)異常情況,我們就迅速的切換了 南美到新加坡的路徑,不從太平洋走,而是改道歐洲,再到亞洲。這樣雖然整體的延 時(shí)提高了,但是根據(jù)監(jiān)控和客戶反饋幾乎沒(méi)有發(fā)生丟包現(xiàn)象。
我們也同時(shí)迅速報(bào)告了相關(guān)的大運(yùn)營(yíng)商,他們也很快的修改了整個(gè)路由走向,大家都 是一樣犧牲了延時(shí)來(lái)保證了穩(wěn)定性。
在 2022 年下半年,某海外運(yùn)營(yíng)商從歐洲到新加坡突然完全不可用,而當(dāng)時(shí)很多使用 了我們多鏈路的客戶就基本沒(méi)有影響,只是有可能在第一次連接的時(shí)候產(chǎn)生失敗后會(huì) 立刻重試后面的鏈路,保證了整體服務(wù)的可用性。我們也立刻告知了大運(yùn)營(yíng)商,但是 這次運(yùn)營(yíng)商由于對(duì)端鏈路宣告的原因一直過(guò)了 1 個(gè)多小時(shí)才恢復(fù)。
綜上所述,如何來(lái)調(diào)度顯得至關(guān)重要,網(wǎng)絡(luò)調(diào)度里最核心的部分就是延遲和丟包,而 延遲主要是由路由走向來(lái)決定的。
環(huán)信通過(guò)建立了對(duì)應(yīng)的監(jiān)測(cè)節(jié)點(diǎn)來(lái)監(jiān)測(cè)主干網(wǎng)絡(luò)的情況。通常情況下,來(lái)的路由和去 的路由走向是不一樣的,所以通過(guò)使用 fping 來(lái) ping 全球所有的網(wǎng)段,這種結(jié)果并 不完全準(zhǔn)確,最后我們通過(guò)模擬客戶網(wǎng)絡(luò)來(lái) ping 過(guò)來(lái)會(huì)更準(zhǔn)確,這樣就完成雙向的 路由統(tǒng)計(jì),同時(shí)我們也會(huì)使用用戶上報(bào)的方式來(lái)查看各個(gè)網(wǎng)段情況。
第四:基礎(chǔ)設(shè)施矩陣,機(jī)房全球分布、五地三中心資源覆蓋
基礎(chǔ)資源選點(diǎn):集團(tuán) SD-RTN? 在全球部署了 250+ 數(shù)據(jù)中心,覆蓋全球 200多個(gè)國(guó) 家與地區(qū),對(duì)于主要區(qū)域的最低要求是五地三中心的資源覆蓋,每個(gè)區(qū)域采用核心節(jié)點(diǎn) +POP 點(diǎn)的方式。這樣一旦某區(qū)域其中一個(gè)或兩個(gè)機(jī)房發(fā)生故障,依靠技術(shù)可以將 故障城市的流量全部切換到運(yùn)行正常的機(jī)房。
供應(yīng)鏈管理:不依賴單家供應(yīng)商的基礎(chǔ)資源 ( 包括:機(jī)房、硬件、網(wǎng)絡(luò)等 ),當(dāng)一家 供應(yīng)商出現(xiàn)問(wèn)題,可以快速切換到其他服務(wù)正常的供應(yīng)商。
眾所周知,基礎(chǔ)設(shè)施會(huì)因?yàn)橥话l(fā)的網(wǎng)絡(luò)擁塞、硬件故障、不可抗力等因素導(dǎo)致或大或 小的一段時(shí)間的不可用。在這樣的前提下,集團(tuán) SD-RTN? 大網(wǎng)的架構(gòu)師團(tuán)隊(duì)從設(shè)計(jì) 之初就充分考慮到了基礎(chǔ)設(shè)施的不穩(wěn)定因素。如果要用幾個(gè)關(guān)鍵詞來(lái)描述 SD-RTN? , 那就是全球覆蓋、故障實(shí)時(shí)感知與智能調(diào)度、超低延時(shí)、彈性能力、異地多活、超高 并發(fā),而一旦基礎(chǔ)設(shè)施出現(xiàn)故障,SD-RTN? 的故障實(shí)時(shí)感知與智能調(diào)度能力以及異 地多活的構(gòu)建方式將發(fā)揮重要作用,保障服務(wù)的高可用。
1、故障實(shí)時(shí)感知與智能調(diào)度:從全球來(lái)看,公網(wǎng)網(wǎng)絡(luò)的波動(dòng)是較為頻繁的, SD-RTN? 的網(wǎng)絡(luò)嗅探服務(wù)能夠?qū)崟r(shí)的感知網(wǎng)絡(luò)的質(zhì)量,結(jié)合 AI Ops ( 智能運(yùn)維 ) 的分析能力,能夠?qū)崿F(xiàn)分鐘級(jí)的用戶遷移,保障用戶的音視頻體驗(yàn)。
2、異地多活: SD-RTN? 大網(wǎng)將全球資源劃分為多個(gè) Region ( 區(qū)域 ),在 Region 內(nèi)依然能夠做到最低 N+3 ( 即:在最大的 3 個(gè)資源集群不可用的情況下,剩余的 資源依然能夠承接當(dāng)前 Region 的負(fù)載 ) 資源冗余的要求,不僅如此,Region 之 間依然能夠形成互補(bǔ)的態(tài)勢(shì),某個(gè) Region 故障時(shí),可以通過(guò)互補(bǔ) Region 進(jìn)行 承接。
3、靈活的彈性擴(kuò)縮容能力: SD-RTN? 大網(wǎng)的每個(gè) Region 至少具備 200% 的實(shí)時(shí) 彈性擴(kuò)縮容能力,具備應(yīng)對(duì)突發(fā)事件的能力,配合智能調(diào)度能夠充分合理的進(jìn)行資 源使用。
三、運(yùn)維監(jiān)測(cè)和服務(wù)
隨著微服務(wù)化的浪潮,運(yùn)維復(fù)雜度在迅速增加,傳統(tǒng)運(yùn)維已經(jīng)捉襟見(jiàn)肘,為此,環(huán)信 投入了巨大的資源和人力解決了傳統(tǒng)運(yùn)維的痛點(diǎn),從運(yùn)維監(jiān)測(cè)的角度來(lái)看,我們主要 從以下幾個(gè)方面來(lái)梳理:
1. 從最終的效果來(lái)作為評(píng)判標(biāo)準(zhǔn),選取業(yè)務(wù)上最核心的指標(biāo)
1.1 用戶連接 5 秒失敗率。
1.2 用戶收發(fā)消息 1 秒失敗率。
1.3 在線用戶數(shù)。
1.4 在線消息數(shù)。
1.5 以上數(shù)據(jù)再通過(guò)運(yùn)營(yíng)商,國(guó)家地區(qū)等多種維度來(lái)進(jìn)行分類。
2. 梳理收發(fā)消息的完整調(diào)用鏈
但是隨著業(yè)務(wù)越來(lái)越復(fù)雜,基礎(chǔ)組件也越來(lái)越多,微服務(wù)化又會(huì)導(dǎo)致現(xiàn)在單個(gè) api 的整體調(diào)用鏈會(huì)非常冗長(zhǎng)。而由于虛擬化、容器化,導(dǎo)致現(xiàn)在的網(wǎng)絡(luò)問(wèn)題點(diǎn)也是越 來(lái)越多,運(yùn)維在做研發(fā)評(píng)審的時(shí)候也要重點(diǎn)關(guān)注。
因此我們一般分為網(wǎng)絡(luò)監(jiān)控,基礎(chǔ)監(jiān)控和調(diào)用鏈的監(jiān)控。
2.1 網(wǎng)絡(luò)監(jiān)控
我們需要確定各個(gè)節(jié)點(diǎn)之間的延時(shí)和丟包率,以及帶寬的使用率,這個(gè)是需要 做到秒級(jí)。
- 內(nèi)部延時(shí)和丟包,這里要特別注意要區(qū)分好物理層網(wǎng)絡(luò)的丟包延時(shí)以及虛擬容 器層網(wǎng)絡(luò)的丟包和延時(shí)。
- 外部網(wǎng)絡(luò)供應(yīng)商的延時(shí)和丟包。這個(gè)在監(jiān)控的時(shí)候要注意區(qū)分大小包以及不同的協(xié)議。對(duì)于有多個(gè)運(yùn)營(yíng)商組成起來(lái)的線路,最好是分段去監(jiān)測(cè),這樣后期可以快速判斷。
2.2 基礎(chǔ)監(jiān)控
- 服務(wù)器級(jí)別,操作系統(tǒng)級(jí)別。這里需要注意的是 Linux 有些監(jiān)控指標(biāo)我們需要多個(gè)角度去判斷。
- 基 礎(chǔ) 組 件 級(jí) 別 監(jiān) 控,包 括 Redis、 tendis、 kafka、 rabbitmq、 nginx、 haproxy、consul 等 等,得 益 于 整 個(gè) prometheus 的 生 態(tài) 非 常 好,都 有 對(duì) 應(yīng) 的 exporter 來(lái)監(jiān)控。但是其實(shí)問(wèn)題不是在監(jiān)控, 而是在部署架構(gòu)上就需要考 慮好高可用和快速的擴(kuò)縮容上。
- 應(yīng)用服務(wù)自身的 qps, 負(fù)載,jvm, 以及內(nèi)部邏輯核心指標(biāo)的上報(bào)接口的采集 和監(jiān)控。
2.3 調(diào)用鏈監(jiān)控
- 需要有一個(gè)統(tǒng)一的 traceid 來(lái)覆蓋整個(gè)調(diào)用流程。
- 調(diào)用流程需要包含 connect、read、response 的時(shí)間,以及請(qǐng)求次數(shù)。
- 要進(jìn)行抽樣,但是要保證單一鏈條完整性。
3. 第三方撥測(cè)
3.1 從外部角度來(lái)模擬監(jiān)控。
3.2 覆蓋多種場(chǎng)景和地域。
4. 全時(shí)區(qū)服務(wù)
針對(duì)不同時(shí)區(qū)客戶的需求,環(huán)信建立了全時(shí)區(qū)運(yùn)維保障團(tuán)隊(duì),7*24H 值班,及時(shí) 處理和反饋。并在印度、美國(guó)和國(guó)內(nèi)建立了一支英文的技術(shù)專家團(tuán)隊(duì),為海外客戶 提供英文的技術(shù)和方案支持。
四、擁抱邊緣計(jì)算和持續(xù)迭代優(yōu)化
1. 真正的邊緣計(jì)算
相對(duì)于傳統(tǒng)的管理方便的數(shù)據(jù)中心,環(huán)信正在利用邊緣計(jì)算來(lái)持續(xù)優(yōu)化網(wǎng)絡(luò)服務(wù)。我們看到了諸如 Mastodon 這些項(xiàng)目,就是從一個(gè)星形的網(wǎng)絡(luò)架構(gòu)變成一個(gè)網(wǎng)狀的網(wǎng)絡(luò)架構(gòu)。這樣對(duì)于最終用戶的收發(fā)消息的延時(shí)就會(huì)有極大的提高。舉個(gè)例子,原 先一個(gè)阿根廷的用戶發(fā)送消息到阿根廷的用戶,網(wǎng)絡(luò)上會(huì)匯總到美國(guó)集群,然后再 分發(fā)下來(lái)。這樣整個(gè)延時(shí)就得 200ms 以上了。但是如果是一個(gè)網(wǎng)狀架構(gòu),那它可 能就是使用阿根廷的邊緣節(jié)點(diǎn)就直接傳輸了。
但這并不是說(shuō)不需要中心端了, 中心端會(huì)依舊保留,包括一些管理功能,離線功能 等。在邊緣計(jì)算的實(shí)踐方面最近環(huán)信在和國(guó)內(nèi)某頭部運(yùn)營(yíng)商相關(guān)項(xiàng)目上做了一些非 常重大的落地。
2. 自動(dòng)化運(yùn)維
如今行業(yè)都有一個(gè)共識(shí),即運(yùn)維復(fù)雜度在迅速增加,然而傳統(tǒng)運(yùn)維已經(jīng)捉襟見(jiàn)肘, 為此,環(huán)信持續(xù)迭代整個(gè)監(jiān)控和報(bào)警系統(tǒng)。從早期的 Ganglia、nagios、zabbix 搭配 opentsdb、in?uxdb,到現(xiàn)在的 Prometheus 一統(tǒng)天下。
為了解決傳統(tǒng)運(yùn)維的痛點(diǎn):7*24H 不間斷保障 ; 高一致性和高質(zhì)量的執(zhí)行結(jié)果 ; 統(tǒng) 一高效的運(yùn)維效率。環(huán)信引入了 stackstorm 自動(dòng)化執(zhí)行框架來(lái)保證常見(jiàn)的故障可 以自動(dòng)化高一致性的處理完成。
同時(shí),我們投入了巨大的資源和人力在 AIOps 的落地上。AIOps ( 智能運(yùn)維 ) 能在1分 鐘 之 內(nèi) ( 包 含 了 數(shù) 據(jù) 聚 合 、上 報(bào) 、判 斷 、執(zhí) 行 、恢 復(fù) 等 整 體 端 到 端 時(shí) 間 ) 識(shí) 別 機(jī) 房 異 常并且自動(dòng)運(yùn)維。我們?cè)诰唧w實(shí)現(xiàn)中主要是快速識(shí)別問(wèn)題點(diǎn),這個(gè)原先是非常依賴業(yè) 務(wù)運(yùn)維人員的經(jīng)驗(yàn),以前我們內(nèi)部統(tǒng)計(jì)的時(shí)候就發(fā)現(xiàn)找到問(wèn)題原因平均時(shí)間為10多 分鐘,而現(xiàn)在真正處理故障或者規(guī)避故障在幾分鐘內(nèi)就能迅速完成。
五、結(jié)語(yǔ)
目前環(huán)信已經(jīng)服務(wù)了 30 多萬(wàn)家國(guó)內(nèi)用戶和數(shù)百家海外頭部客戶,作為 2013 年國(guó)內(nèi)最早的即時(shí)通訊云服務(wù)商,我們?cè)缭?2014 年就最先在硅谷設(shè)立了團(tuán)隊(duì)提供海外服務(wù)支持,環(huán)信國(guó)內(nèi)和海外用戶積累以及技術(shù)口碑的建立與我們的持續(xù)技術(shù)迭代優(yōu)化息息相關(guān)。
“寫代碼,是一件愉快的事”,這不僅是環(huán)信官網(wǎng)上的一句 slogan,也是環(huán)信在成功 路上不可缺少的一種特質(zhì)。對(duì)于環(huán)信的團(tuán)隊(duì)來(lái)說(shuō),技術(shù)的創(chuàng)新不僅僅是一份工作、一 個(gè) KPI,更是一種理想追求。日拱一卒無(wú)有盡,環(huán)信一直在為了用戶體驗(yàn)努力前進(jìn)!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )