鼎茂科技助力制造業(yè)央企客戶,實現(xiàn)70+業(yè)務(wù)系統(tǒng)監(jiān)控告警管理及運維處置體系的一站式升級
2024-07-12 16:52:25AI云資訊16840
全棧監(jiān)控+統(tǒng)一告警+智能值守解決方案
全棧監(jiān)控+統(tǒng)一告警+智能值守解決方案,旨在為經(jīng)歷IT系統(tǒng)規(guī)模激增和復(fù)雜性加劇的企業(yè)提供一站式、全方位的運維監(jiān)控管理服務(wù)。該方案通過全面覆蓋系統(tǒng)各層次的監(jiān)控,統(tǒng)一整合告警管理,以及智能化的自動值守,確保運維過程的高效和系統(tǒng)運行的穩(wěn)定。
全棧監(jiān)控對基礎(chǔ)設(shè)施、中間件、服務(wù)、應(yīng)用、調(diào)用鏈等各種IT資源進行立體化監(jiān)控,實時監(jiān)測系統(tǒng)的運行狀態(tài)和性能指標,及時發(fā)現(xiàn)潛在的風險和異常,并通過統(tǒng)一告警管理,將所有告警信息集中治理,避免信息孤島和重復(fù)告警的問題,提高了告警的準確性和響應(yīng)的及時性。同時,智能值守系統(tǒng)實現(xiàn)了7*24小時自動化值守和智能應(yīng)急處置,能夠在接收到告警后自動響應(yīng),給出相關(guān)的解決方案建議,并跟進處置狀態(tài),減少了對人工干預(yù)的依賴,提高了問題處置的效率和準確性。
通過該解決方案,企業(yè)能夠?qū)崿F(xiàn)“全面立體監(jiān)控,實時發(fā)現(xiàn)異常,提升告警質(zhì)量,支撐快速響應(yīng)”的監(jiān)控管理目標,確保IT系統(tǒng)的高效、穩(wěn)定運行。
案例背景 >
經(jīng)過多年的沉淀,案例客戶在運維方面已經(jīng)布局搭建了部分運維監(jiān)控工具,由于各個運維點位建設(shè)初期并沒有整體規(guī)劃,這些運維監(jiān)控工具的監(jiān)控手段比較單一、技術(shù)相對落后,且運維數(shù)據(jù)相對分散,缺乏互聯(lián)互通和協(xié)同工作機制,不具備統(tǒng)一的一體化管理能力。此外,現(xiàn)有運維團隊受限于自身技能與工具能力,在應(yīng)對系統(tǒng)故障時無法保證及時性與高效性。
案例客戶為了應(yīng)對70余套業(yè)務(wù)系統(tǒng)以及數(shù)百個系統(tǒng)節(jié)點所帶來的運維壓力,迫切需要一套完整且專業(yè)的智能運維體系以提升運維管理能力,實現(xiàn)一體化和精細化運維管控,全面保障IT系統(tǒng)的穩(wěn)定運行。
01 需求分析
01.1 面臨的問題
·運維手段不足-管理盲點范圍大
由于監(jiān)控工具技術(shù)較為陳舊,導致無法兼容部分設(shè)備類型、軟件版本的監(jiān)控;而使用開源技術(shù)則意味著需要持續(xù)投入人力進行開發(fā)維護,因此目前僅實現(xiàn)了對于服務(wù)器和日志的部分監(jiān)控,應(yīng)用性能、中間件和數(shù)據(jù)庫等監(jiān)控缺失,在監(jiān)控的覆蓋面、指標覆蓋度和實時性等方面的不足,導致無法實時反應(yīng)系統(tǒng)運行情況,故障發(fā)現(xiàn)比較滯后,甚至出現(xiàn)晚于用戶上報的情況。已無法滿足當前復(fù)雜系統(tǒng)的運維監(jiān)控需求。
·運維數(shù)據(jù)分散-排查處置效率低
監(jiān)控數(shù)據(jù)與其產(chǎn)生的告警分散在各工具平臺中,缺乏統(tǒng)一的管理視圖與關(guān)聯(lián)匯總的告警信息,在面對大量告警時,運維人員無法快速識別重要告警,并判斷問題影響范圍;故障排查時,各專業(yè)組難以進行整體性的關(guān)聯(lián)分析和故障溯源。
·智能決策缺失-管理協(xié)作靠人工
故障分析與處置環(huán)境完全依賴人工。在業(yè)務(wù)系統(tǒng)出現(xiàn)異常時,一線運維人員由于經(jīng)驗與技能的不足,往往需要尋求二、三線運維人員的協(xié)助,溝通與人力成本較大,而故障處理的用時過長,增加業(yè)務(wù)受影響的周期。
01.2 項目建設(shè)目標
·監(jiān)控全方位100%覆蓋
針對全棧軟、硬件性能指標通過多渠道多方式的監(jiān)控采集,且具備自定義腳本上報數(shù)據(jù)的能力,建設(shè)一套平臺全面覆蓋各種監(jiān)控類型,包括但不限于用戶體驗監(jiān)控、應(yīng)用性能監(jiān)控和基礎(chǔ)資源監(jiān)控(包括服務(wù)器、中間件和數(shù)據(jù)庫等)。此外,補全日志數(shù)據(jù)的實時采集與監(jiān)控。確保運維團隊能在第一時間感知系統(tǒng)異常。
·構(gòu)建統(tǒng)一運維數(shù)據(jù)視圖
通過統(tǒng)一平臺融合運維大數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),打通監(jiān)控、告警和資產(chǎn)等數(shù)據(jù)。從業(yè)務(wù)視角出發(fā),對核心骨干鏈路、核心業(yè)務(wù)應(yīng)用、監(jiān)控告警等信息重點展示,提供運維數(shù)據(jù)可視化洞察,幫助運維人員全方位掌握IT系統(tǒng)運行狀況。
·提升告警質(zhì)量、加速故障響應(yīng)
對日常出現(xiàn)的大量相同或相似告警事件進行壓縮,使運維人員的工作更聚焦于問題與故障的發(fā)現(xiàn)與溯源。使用告警處置跟蹤,故障識別與自動升級,一鍵拉會并啟動應(yīng)急指揮室等自動化、智能化手段應(yīng)對告警事件,節(jié)省人工干預(yù)的時間和精力,并能夠在故障發(fā)生后快速響應(yīng)和處理,降低故障對系統(tǒng)穩(wěn)定性和業(yè)務(wù)連續(xù)性的影響。
02解決方案及思路
02.1 建設(shè)思路
該方案內(nèi)置基礎(chǔ)資源監(jiān)控、應(yīng)用性能監(jiān)控與用戶體驗監(jiān)控模塊,實現(xiàn)集基礎(chǔ)環(huán)境、服務(wù)器、存儲、網(wǎng)絡(luò)、操作系統(tǒng)、中間件、數(shù)據(jù)庫等于一體的統(tǒng)一監(jiān)控覆蓋。
方案以鼎茂科技自研的ARCANA平臺(多模態(tài)數(shù)據(jù)智能分析與決策平臺)作為統(tǒng)一數(shù)據(jù)底座,匯聚性能指標與日志等運維大數(shù)據(jù);通過ARC-IOC(數(shù)智運營中心)使用低代碼方式快速構(gòu)建運維監(jiān)控管理可視化視圖;通過Di-Logger(智能日志中心)對日志進行監(jiān)控與分析,將經(jīng)由各監(jiān)控模塊與日志平臺生成的告警推送給Di-Alert(智能告警中心),實現(xiàn)告警壓縮與處置流轉(zhuǎn),并由Di-Robot(智能值守中心)跟進告警的處置,形成故障發(fā)現(xiàn)、分析、處置的閉環(huán)。
02.2 方案實施
Step1 部署全棧監(jiān)控模塊(基礎(chǔ)資源監(jiān)控、應(yīng)用性能監(jiān)控、用戶體驗監(jiān)控、日志監(jiān)控)
·使用各監(jiān)控模塊,圍繞業(yè)務(wù)價值構(gòu)建多維度的運維監(jiān)控體系,實現(xiàn)業(yè)務(wù)系統(tǒng)與基礎(chǔ)資源的全方位實時監(jiān)控,擴大監(jiān)控覆蓋度、提升監(jiān)控指標靈活性;設(shè)置及時準確的監(jiān)控告警機制,在問題初現(xiàn)端倪的第一時間進行告警;
·利用Di-Logger的日志分析能力,對日志進行實時檢測,對日志中隱藏的異常進行告警。
Step2 部署云原生數(shù)智底座(ARCANA平臺)
·通過ARCANA平臺提供統(tǒng)一運維門戶,集成所有運維監(jiān)控管理工具形成統(tǒng)一運維入口。對運維大數(shù)據(jù)進行匯聚分析,提供低代碼、可視化編輯的運維監(jiān)控大屏、移動端視圖等,形成個性化運維界面;
·基于底座搭載的豐富功能模塊,可快速實現(xiàn)各項智能運維能力擴展。
Step3 搭載智能告警功能模塊(Di-Alert)
·由Di-Alert承接告警統(tǒng)一、告警壓縮、告警視圖的主要能力。對海量告警進行關(guān)聯(lián)壓縮,以告警拓撲視圖的形式對關(guān)聯(lián)告警進行通知和播報。
Step4 構(gòu)建個性化運維可視化視圖(ARC-IOC)
·基于整合運維數(shù)據(jù),包括交易-業(yè)務(wù)-服務(wù)-基礎(chǔ)組件-基礎(chǔ)設(shè)施的全棧指標、日志數(shù)據(jù)、告警信息,資產(chǎn)信息和事件工單等,以業(yè)務(wù)系統(tǒng)為核心,形成業(yè)務(wù)運行狀態(tài)、系統(tǒng)健康狀態(tài)等的可視化洞察。
Step5 搭載智能值守功能模塊(Di-Robot)
·由Di-Robot承載故障值守和應(yīng)急管理等能力。實現(xiàn)自動化告警判斷與故障升級,高效組織應(yīng)急響應(yīng),提供故障場景下的智能決策。
03項目成果
03.1 實現(xiàn)70+套業(yè)務(wù)系統(tǒng)的監(jiān)控全覆蓋
通過基礎(chǔ)資源監(jiān)控的替換,實現(xiàn)當前管理機制中所存在的操作系統(tǒng)監(jiān)控不全、指標遺漏,以及數(shù)據(jù)庫、中間件等監(jiān)控缺失等管理盲點的改善。通過建設(shè)覆蓋所有業(yè)務(wù)系統(tǒng)的應(yīng)用性能監(jiān)控和用戶體驗監(jiān)控,直觀反映業(yè)務(wù)健康狀態(tài),提供故障的感知能力。
03.2 提供所有業(yè)務(wù)系統(tǒng)的全局監(jiān)控視圖,和IT系統(tǒng)拓撲視圖
通過全局視圖,監(jiān)視所有應(yīng)用的健康狀況;通過IT系統(tǒng)拓撲視圖,查看應(yīng)用相關(guān)的主機、網(wǎng)絡(luò)、中間件和數(shù)據(jù)庫等的性能情況,可下鉆的拓撲視圖至指標趨勢詳情或日志明細,為分析故障影響范圍、排查問題根因提供有力支撐。
03.3 實現(xiàn)告警壓縮與處置流程線上化
針對各類監(jiān)控所產(chǎn)生的大量告警事件,進行告警收斂、壓縮、降噪等處置,屏蔽告警風暴,聚焦有效告警,提升告警可讀性,并改善多源告警分散管理的現(xiàn)狀,實現(xiàn)統(tǒng)一告警分派、通知、認領(lǐng)、開單、處置、結(jié)單的告警處置流程閉環(huán)。
03.4 以業(yè)務(wù)視角組建運維管理大屏
實現(xiàn)客戶全量運維數(shù)據(jù)資產(chǎn)沉淀,以統(tǒng)一數(shù)據(jù)融合平臺的形式,將當前多數(shù)據(jù)通道、多數(shù)據(jù)類型、多數(shù)據(jù)格式、多數(shù)據(jù)標準并存的運維數(shù)據(jù),以業(yè)務(wù)視角設(shè)計運維管理故事線,并形成統(tǒng)一運維大屏作為日常運維管理的數(shù)據(jù)檢閱工具。
03.5 實現(xiàn)自動化、智能化運維值守與應(yīng)急處理
實現(xiàn)7*24的自動值守,啟用了數(shù)十類故障自動升級與處置規(guī)則,幫助一線運維人員在常見系統(tǒng)故障發(fā)生后及時響應(yīng)。在排障過程中,可以通過故障應(yīng)急駕駛艙所提供的故障處置最佳實踐、歷史故障處理記錄,輔助應(yīng)急響應(yīng)決策,提高故障應(yīng)急效率。
04客戶收益
鼎茂科技幫助該客戶實現(xiàn)了監(jiān)控體系的全面升級,并對監(jiān)控生成的告警進行治理與壓縮,對于故障告警進行高效處置,使用可視化大屏展示業(yè)務(wù)健康狀態(tài)和核心指標趨勢等重要信息。整體提高了故障發(fā)現(xiàn)到定位的時效性,提升故障處置效率。
即時收益:
·達成重要(業(yè)務(wù))系統(tǒng)、資產(chǎn)、指標100%的監(jiān)控覆蓋率;
·統(tǒng)一去除無效告警并進行智能分析降噪,實現(xiàn)超過90%的告警壓縮率;
·實現(xiàn)自動化故障響應(yīng),提升一線運維人員的故障處置率至90%以上。
擴展性收益:
·解決方案能夠快速擴展覆蓋新增的業(yè)務(wù)系統(tǒng)或軟硬件資產(chǎn),輕松應(yīng)對業(yè)務(wù)增長所帶來的增長需求;
·并提供了全面運維數(shù)據(jù)的采集、治理與分析能力,為后續(xù)更多智能化運維分析場景落地提供了基礎(chǔ)。相關(guān)文章
- 鼎茂科技助力制造業(yè)央企客戶,實現(xiàn)70+業(yè)務(wù)系統(tǒng)監(jiān)控告警管理及運維處置體系的一站式升級
- 鼎茂科技簽約入駐企知道科創(chuàng)空間,加速企業(yè)數(shù)字化戰(zhàn)略轉(zhuǎn)型
- 鼎茂科技案例入選ITSS《2022-2023中國智能運維實踐年度報告(第三期)》
- 鼎茂科技3項產(chǎn)品入選《2023高質(zhì)量數(shù)字化轉(zhuǎn)型產(chǎn)品及服務(wù)全景圖》
- 聚焦AI大模型,鼎茂科技×百度智能云聯(lián)合專場研討,助力智能運維產(chǎn)業(yè)進階
- 鼎茂科技【可觀測指標中心】獲2023國際服貿(mào)會創(chuàng)新案例獎
- 鼎茂科技再次入選Gartner報告,獲評中國AIOps市場指南代表廠商
- 鼎茂科技入選權(quán)威機構(gòu)中國信通院發(fā)布的年度榜單
- 鼎茂科技和阿里云完成產(chǎn)品集成認證,深度發(fā)力云上智能運維建設(shè)
- 鼎茂科技-上海人工智能研究院AIOps聯(lián)合實驗室成立
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案