科技讓美更簡單,在美圖,2.4億月活躍用戶一起變美。作為一家以“美”為內(nèi)核、以人工智能為驅(qū)動的科技公司,美圖打造的美圖秀秀、美顏相機、Wink等移動互聯(lián)網(wǎng)產(chǎn)品,深受廣大用戶的喜愛。
基于對影像科技的研發(fā)創(chuàng)新專注,美圖持續(xù)領跑影像賽道,滿足了用戶在圖片美化、拍照攝影、視頻美化等影像美的需求,并產(chǎn)出著月均約60億的照片和視頻。在面向用戶的前端,美圖深入洞察前沿趨勢,了解用戶需求,不斷探索更多“變美”的功能,迭代產(chǎn)品,致力于讓用戶“美”實時在線。不過面對用戶遍及全球、產(chǎn)品線眾多、服務發(fā)布頻率高的現(xiàn)狀,要做到業(yè)務穩(wěn)如泰山并不容易,這有賴于一個穩(wěn)固的大后方為業(yè)務運行提供保障。
2019年,美圖全量業(yè)務搬上華為云,將業(yè)務底座升級為云原生基礎設施,實現(xiàn)性能、彈性伸縮能力的極大提升,從而輕松應對超10億用戶量級的海量突發(fā)業(yè)務請求。美圖高級技術總監(jiān)王關勝指出,兩年多以來,美圖攜手華為云聯(lián)合共創(chuàng)積累了豐富的云上綜合治理經(jīng)驗,并希望與行業(yè)展開技術交流,共同探索長效運維新思路。日前,華為云聯(lián)創(chuàng)營?云上綜合治理研討班走進廈門,美圖分享了云上綜合治理實踐,為行業(yè)企業(yè)用好云、管好云、提升云效能提供了有益借鑒。
穩(wěn)定、效率、成本,做美圖服務最穩(wěn)的大后方
易變性、不確定性、復雜性、模糊性,“烏卡(VUCA)”一詞描繪了當今世界的時代特征,亦體現(xiàn)在數(shù)字化轉型的過程中?!拔覀兯龅姆€(wěn)定性保障工作,就是在和VUCA做對抗,即在一個復雜的、不確定性的環(huán)境下,去追求確定性的結果。”美圖高級運維經(jīng)理石鵬道出了SRE的挑戰(zhàn)和目標,并指出了美圖SRE(Site Reliability Engineer,站點可用性工程師)的核心工作職責,在穩(wěn)定性、效率和成本之間的“矛盾”中尋求平衡,從而做美圖服務最穩(wěn)的大后方。
很明顯,保障線上服務的穩(wěn)定性,建設工具/平臺/基礎設施提升效率,用技術手段控制、優(yōu)化服務的運行成本,成為美圖SRE開展工作的中心。
其中,“全生命周期覆蓋”成為貫穿三大目標的一個關鍵詞。在穩(wěn)定性保障方面,從故障的預防到故障的發(fā)現(xiàn)、定位,再到故障的恢復與改進,SRE要做的事情就是要在建設/演練/OnCall,到應急響應,再到復盤/改進/OnCall的過程中不斷迭代和優(yōu)化;在效率提升方面,美圖構建了Dev-X-Ops的工具體系,X意在覆蓋了更長的應用生命周期的鏈條和場景,并打破輪子眾多、工具間數(shù)據(jù)割裂、不成體系的瓶頸;在成本優(yōu)化方面,從財務角度進行云服務的預算制定、成本核算、成本歸集和成本優(yōu)化變得越來越重要,只有完成成本管控的流程閉環(huán),才能實現(xiàn)對云服務的精細化管理、客觀評價和科學決策。
所以,美圖的確定性運維體系構建出一個清晰的思路和路線,即從數(shù)據(jù)化到自動化、體系化,再到智能化的演變,美圖SRE希望不斷拓寬能力邊界,進行運維生命周期的左移和上移,即更早介入保障、更關注上層業(yè)務,下層則交給華為云的一站式運維平臺,實現(xiàn)多維度實時監(jiān)控和問題的快速診斷與修復,從被動應對到主動出擊,不僅用好云、管好云,更在提升云效能上做到更進一步。
3大方向、2個基礎、1些探索,美圖的云上綜合治理實踐
為此,美圖圍繞“3大方向、2個基礎、1些探索”進行了一系列云上綜合治理的實踐。
首先,美圖做的就是圍繞穩(wěn)定性、效率和成本3大核心方向梳理流程和體系、開發(fā)工具、搭建平臺。在穩(wěn)定性方面,美圖面向用戶端和服務端梳理出了全面的質(zhì)量監(jiān)控體系,建設了監(jiān)控大盤,從而擁有一個全局視角來查看整個業(yè)務各個鏈路環(huán)節(jié)的狀態(tài);并附以圖文告警快速感知服務整體狀態(tài)、縮短故障定位時間;當然,監(jiān)的目的是為了更好地控,進一步地,美圖搭建了應急響應平臺,把對服務的干預手段抽象為原子性的動作,并對這些動作進行編排,形成應對不同場景的保障預案。在效率提升上,得益于華為云提供的OpenAPI與一鍵WarRoom機制等,從而實現(xiàn)運維效率工具的自動化覆蓋和敏捷響應,命令行&移動端工具的建設大幅降低了使用門檻,并實現(xiàn)隨時隨地處理運維信息。在成本優(yōu)化方面,F(xiàn)inOps的探索讓成本管控貫穿在服務的整個周期中,為此,美圖建設了MTCC平臺,并與OKR掛鉤,從目標、人員、流程和工具多方面入手來進行成本的可視化、分析和優(yōu)化。
其次,圍繞運維元數(shù)據(jù)和團隊建設,美圖深化了2個基礎建設。CMDB+Service Directory的構建,用統(tǒng)一的運維元數(shù)據(jù)串聯(lián)工具系統(tǒng)、打破數(shù)據(jù)壁壘,從而形成統(tǒng)籌的能力;打造學習型組織,開展SRE-Pharos項目,推進AB崗覆蓋,不斷強化團隊健壯性。
再者,在云上綜合治理方面,美圖亦進行了一些有意思的探索。例如利用機器人來自動化發(fā)布監(jiān)控告警和服務巡檢報告;建立SRE權威消息發(fā)布通道來樹立和強化團隊品牌;創(chuàng)建SRE官方群組來收斂固定運維支撐的渠道;構建穩(wěn)定性運營平臺來挖掘、分析穩(wěn)定性數(shù)據(jù),解讀隱藏在數(shù)據(jù)背后的含義。
總之而言,面對人手不足的問題,在華為云的助力下通過效率工具的開發(fā)和流程梳理,美圖大幅提升了治理效率;面對穩(wěn)定性壓力大的挑戰(zhàn),監(jiān)控大盤、應急響應平臺的建設和監(jiān)控告警治理等,讓美圖云上綜合治理的自動化水平顯著提高;面對工具不稱手的問題,通過建設運維元數(shù)據(jù)、借助華為云能力,提供了更易用和高效的工具;面對成本管控壓力大的挑戰(zhàn),F(xiàn)inOps體系推進、借助OKR共同推進目標,構建了相對完善的成本管控系統(tǒng)。
數(shù)據(jù)庫運維和治理,為云端確定性加碼
作為存放數(shù)據(jù)的“倉庫”,數(shù)據(jù)庫的穩(wěn)定是保障系統(tǒng)穩(wěn)定運行的重中之重。在數(shù)據(jù)庫穩(wěn)定性治理方面,美圖亦進行了大量探索與實踐。
在研討班上,美圖DBA負責人肖維分享了美圖云上數(shù)據(jù)庫運維和治理實踐。美圖通過平臺層DBA小秘書、操作平臺MTDAS、云管平臺實現(xiàn)對后端資源全生命周期的管控。同時深入建設數(shù)據(jù)庫容災系統(tǒng),并且已經(jīng)介入到SRE的編排系統(tǒng),針對不同場景,只需要輸入相關參數(shù),系統(tǒng)就會自行處理工單系統(tǒng),依據(jù)故障診斷系統(tǒng)和日志系統(tǒng),并做出相應預案。此外,面對數(shù)據(jù)的持續(xù)擴張帶來的容量管理難題,美圖DBA建立了智能壓測系統(tǒng),更準確的做好云上的容量管理。 在大規(guī)模數(shù)據(jù)庫集群,美圖DBA搭建異常檢測、異常分析和異常處理體系,為快速定位問題、解決故障、恢復業(yè)務提供基礎能力。這其中,異常檢測,實現(xiàn)對監(jiān)控指標的數(shù)據(jù)變化進行快速識別;異常分析,則針對異常業(yè)務變化進行量化分析;異常處理,是通過自動擴容、SQL限流、相關預案處理等操作實現(xiàn)。系統(tǒng)之間嚴密的配合,保證了美圖云上服務的持續(xù)穩(wěn)定運行。
從組織、流程到工具,看得出,美圖的云上綜合治理進行了諸多前瞻性的實踐,在DBA的治理中同樣得到體現(xiàn)。從上云以來,美圖尤為重視數(shù)據(jù)庫穩(wěn)定性治理,并設立了DBRE(數(shù)據(jù)庫可靠性工程師),組成SRE團隊的重要成員,并與產(chǎn)品一起開發(fā)解決方案,在華為云的助力下致力于相關數(shù)據(jù)庫指標的可觀察性。
從IT治理到云上綜合治理,雖然IT的架構進行了改變,但治理的體系一脈相承,目標一致,并同樣具備較高的復雜性。好在華為云提供了全流程專業(yè)服務,并有一套完善的云上治理架構支撐,這為美圖不斷夯實云端系統(tǒng)穩(wěn)定性提供了保障。
雖非生于云,但長在云上的未來美圖,攜手華為云不斷創(chuàng)新與能力升級,在用好云、管好云、提升云效能的基礎上,精準洞察年輕用戶需求,并深入探索更多“變美”功能與創(chuàng)新,聚焦產(chǎn)品、聚焦用戶、聚焦服務,與華為云一起用云上綜合治理的確定性讓用戶一直“美”下去。
當然,隨著業(yè)務發(fā)展,云上綜合治理沒有終點,是一項復雜的工程。秉承“智者·同行·創(chuàng)想”的理念,華為云聯(lián)創(chuàng)營為行業(yè)客戶、伙伴打造了一個技術交流的陣地,共探云上綜合治理新思路、新路徑,讓企業(yè)云上創(chuàng)新不止步。
- 2024年第四季度中國大陸云服務支出達到111億美元,阿里華為騰訊居前三
- 華為張修征:發(fā)揮“大雜燴”優(yōu)勢,四個方面投入推動AI應用落地
- 華為云重磅發(fā)布CloudMatrix 384超節(jié)點,多項性能全面突破
- 鯤鵬開源開放創(chuàng)新成效卓著,計算產(chǎn)業(yè)革新行勝于言
- 浪潮云“分布式智能云”戰(zhàn)略正式發(fā)布 目標年內(nèi)分布式智能云節(jié)點破千個
- IDC:2025年亞太地區(qū)云支出將達到2500億美元
- 亞馬遜云科技在Amazon Bedrock提供完全托管的DeepSeek-R1模型
- 正受科技與IBM攜手合作,共推制造業(yè)數(shù)智化轉型
- 世界第一!阿里云PolarDB登頂全球數(shù)據(jù)庫性能及性價比排行榜
- 阿里官宣巨投3800億:云與AI硬件基礎設施加速構建,人形伴侶機器人賽道迎新機遇?
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。