人工智能的成熟應(yīng)用正在解決越來(lái)越多的工程實(shí)踐難題,我國(guó)高度重視人工智能領(lǐng)域的產(chǎn)業(yè)發(fā)展,力圖把握先發(fā)優(yōu)勢(shì)。將人工智能、大數(shù)據(jù)等技術(shù)應(yīng)用于IT運(yùn)維領(lǐng)域的智能運(yùn)維正在迎來(lái)重大發(fā)展機(jī)遇。根據(jù)Gartner預(yù)測(cè),到2023年智能運(yùn)維在全球企業(yè)中的使用率從2018年的5%增長(zhǎng)至30%。
互聯(lián)網(wǎng)行業(yè)智能運(yùn)維實(shí)踐現(xiàn)狀
目前,互聯(lián)網(wǎng)行業(yè)智能運(yùn)維現(xiàn)狀可概括為傳統(tǒng)行業(yè)運(yùn)維瓶頸問(wèn)題凸顯,智能運(yùn)維發(fā)展穩(wěn)中有進(jìn),落地成效初現(xiàn)。
互聯(lián)網(wǎng)行業(yè)運(yùn)維瓶頸問(wèn)題凸顯。第一,互聯(lián)網(wǎng)業(yè)務(wù)與信息系統(tǒng)可用性高度相關(guān),穩(wěn)定性要求高。2019年8月,日本某互聯(lián)網(wǎng)廠商云服務(wù)器出現(xiàn)異常,多款手游、購(gòu)物平臺(tái)無(wú)法正常連線,業(yè)務(wù)全面中斷,上百萬(wàn)用戶受到影響。第二,信息系統(tǒng)復(fù)雜且規(guī)模龐大,運(yùn)行維護(hù)難度提升。隨著互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,新舊系統(tǒng)交疊,業(yè)務(wù)功能往往涉及多個(gè)系統(tǒng)與應(yīng)用,其背后的系統(tǒng)邏輯與架構(gòu)復(fù)雜程度提升。同時(shí),數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),簡(jiǎn)單的手工運(yùn)維難以支撐。第三,業(yè)務(wù)迭代快速頻繁,IT運(yùn)維管理風(fēng)險(xiǎn)劇增。當(dāng)前,應(yīng)用研發(fā)模式已逐步從瀑布式開發(fā)、敏捷開發(fā)向研發(fā)運(yùn)營(yíng)一體化(DevOps)轉(zhuǎn)變,根據(jù)Puppet與DORA在2019年的調(diào)查顯示,DevOps精英團(tuán)隊(duì)與低效團(tuán)隊(duì)相比,代碼部署頻率高208倍。頻繁的部署發(fā)布為運(yùn)維的變更管理、故障管理帶來(lái)更多風(fēng)險(xiǎn)與挑戰(zhàn)。可見,傳統(tǒng)的IT運(yùn)維模式已難以滿足要求,亟須探索新的方式來(lái)解決運(yùn)維問(wèn)題。
互聯(lián)網(wǎng)行業(yè)智能運(yùn)維發(fā)展穩(wěn)中有進(jìn)。為應(yīng)對(duì)不斷增加的運(yùn)維難題,互聯(lián)網(wǎng)行業(yè)IT運(yùn)維經(jīng)歷了從手工、腳本化、工具化到自動(dòng)化、智能化的發(fā)展過(guò)程。面對(duì)互聯(lián)網(wǎng)行業(yè)業(yè)務(wù)規(guī)模擴(kuò)張、系統(tǒng)復(fù)雜、用戶量增多以及業(yè)務(wù)形態(tài)變遷等問(wèn)題,手工運(yùn)維、腳本化運(yùn)維等方式受到了極大挑戰(zhàn),運(yùn)維難度大大提升。在自動(dòng)化運(yùn)維階段,大量的重復(fù)性運(yùn)維工作轉(zhuǎn)為自動(dòng)化操作,有效解決了部分人力成本和效率問(wèn)題。與此同時(shí),隨著微服務(wù)、容器化等新技術(shù)的應(yīng)用深入,產(chǎn)品迭代快速、頻繁,企業(yè)開始DevOps實(shí)踐,通過(guò)將軟件全生命周期的工具全鏈路打通,結(jié)合自動(dòng)化、跨團(tuán)隊(duì)的線上協(xié)作能力,使版本發(fā)布周期大幅縮短,效能獲得提升。然而,在故障處理、變更管理、容量管理等過(guò)程中,仍需要人員按經(jīng)驗(yàn)判斷進(jìn)行處理、決策,這阻礙了運(yùn)維質(zhì)量與效率的進(jìn)一步提升。智能運(yùn)維應(yīng)運(yùn)而生并成為必然趨勢(shì),通過(guò)對(duì)智能運(yùn)維的探索應(yīng)用,可以有效降低運(yùn)維難度與成本,使傳統(tǒng)運(yùn)維人員專注自身的業(yè)務(wù)邏輯,提高開發(fā)和迭代效率,并且充分利用人工智能領(lǐng)域的技術(shù)成果,使機(jī)器能夠代替人作出決策。
互聯(lián)網(wǎng)行業(yè)智能運(yùn)維落地成效初現(xiàn)。國(guó)際上,眾多知名互聯(lián)網(wǎng)企業(yè)正結(jié)合自身業(yè)務(wù)場(chǎng)景進(jìn)行智能運(yùn)維的成熟實(shí)踐。例如,從2011年至2017年,知名視頻網(wǎng)站Netflix與卡內(nèi)基梅隆大學(xué)合作,通過(guò)人工智能的方法解決網(wǎng)絡(luò)視頻運(yùn)維的各領(lǐng)域難題,包括視頻體驗(yàn)問(wèn)題智能分析、視頻傳輸智能優(yōu)化、資源預(yù)測(cè)與智能調(diào)度、視頻用戶體驗(yàn)改善等;2018年,微軟在云服務(wù)平臺(tái)Azure中集成智能運(yùn)維組件,實(shí)現(xiàn)對(duì)硬件故障的預(yù)測(cè)、智能發(fā)布與部署等;2020年,IBM強(qiáng)勢(shì)發(fā)布Watson AIOPs,實(shí)現(xiàn)對(duì)IT異常事件的主動(dòng)檢測(cè)、診斷和自動(dòng)修復(fù)等。國(guó)內(nèi)方面,從2018年開始,我國(guó)智能運(yùn)維快速發(fā)展落地,目前眾多大型互聯(lián)網(wǎng)企業(yè)已具備面向多場(chǎng)景的智能運(yùn)維綜合解決方案,如百度Noah、阿里智能運(yùn)維平臺(tái)、騰訊藍(lán)鯨智云、華為eService等。Gartner報(bào)告顯示,2019年我國(guó)智能運(yùn)維及相關(guān)分析軟件市場(chǎng)規(guī)模為24.05億元人民幣,同比增長(zhǎng)11.29%,超過(guò)全球相關(guān)市場(chǎng)規(guī)模年增長(zhǎng)率,正處于迅猛發(fā)展之中。
互聯(lián)網(wǎng)行業(yè)智能運(yùn)維典型應(yīng)用場(chǎng)景
智能運(yùn)維主要基于實(shí)際運(yùn)維場(chǎng)景進(jìn)行實(shí)踐落地,專注于解決特定幾類運(yùn)維問(wèn)題,典型應(yīng)用場(chǎng)景可以劃分為針對(duì)歷史事件的場(chǎng)景、針對(duì)當(dāng)前事件的場(chǎng)景與針對(duì)未來(lái)事件的場(chǎng)景三大類。
第一,歷史事件追蹤。歷史事件追蹤場(chǎng)景主要指通過(guò)對(duì)歷史數(shù)據(jù)、日志、事件的分析挖掘,智能識(shí)別歷史趨勢(shì)、異常事件、調(diào)用鏈等關(guān)聯(lián)關(guān)系,從而進(jìn)一步輸出形成診斷規(guī)則庫(kù)、故障傳播圖與知識(shí)圖譜等。具體的應(yīng)用場(chǎng)景主要有:瓶頸分析、故障關(guān)聯(lián)關(guān)系挖掘、模塊間調(diào)用鏈分析等。在離線狀態(tài)下,針對(duì)歷史事件場(chǎng)景的主要作用包括:基于對(duì)歷史數(shù)據(jù)、日志的分析,發(fā)現(xiàn)制約系統(tǒng)軟、硬件性能的瓶頸點(diǎn),并進(jìn)行優(yōu)化;所形成的運(yùn)維知識(shí)圖譜、故障傳播關(guān)系圖,能夠作為根因分析、故障定位的基礎(chǔ),幫助高效、準(zhǔn)確識(shí)別故障。目前,運(yùn)維知識(shí)圖譜等場(chǎng)景的實(shí)踐能夠有效提升運(yùn)維工作的效率與質(zhì)量。例如,騰訊互娛能夠通過(guò)對(duì)運(yùn)維知識(shí)圖譜的構(gòu)建與應(yīng)用,滿足游戲中用戶復(fù)雜查詢和智能問(wèn)答等多場(chǎng)景需求,提高故障定位的準(zhǔn)確率。
第二,當(dāng)前事件監(jiān)測(cè)。當(dāng)前事件監(jiān)測(cè)場(chǎng)景主要體現(xiàn)在對(duì)故障與異常事件的及時(shí)、有效處理,通過(guò)機(jī)器學(xué)習(xí)、AI算法等智能化方式支撐業(yè)務(wù)的穩(wěn)定運(yùn)行。具體的應(yīng)用場(chǎng)景主要包括:故障巡檢、異常檢測(cè)、根因分析、多維度分析、故障止損等,覆蓋了問(wèn)題發(fā)現(xiàn)、定位、分析與解決的完整流程。
針對(duì)當(dāng)前事件的主要作用:在發(fā)現(xiàn)階段,互聯(lián)網(wǎng)行業(yè)通過(guò)對(duì)海量數(shù)據(jù)的統(tǒng)一監(jiān)控與智能化異常檢測(cè),實(shí)現(xiàn)運(yùn)維問(wèn)題的及時(shí)發(fā)現(xiàn)與快速響應(yīng);在定位階段,為避免在短時(shí)間內(nèi)涌現(xiàn)大量告警,將根本問(wèn)題淹沒(méi)的情況,通過(guò)對(duì)告警數(shù)據(jù)進(jìn)行合并收斂及根因分析,能夠快速準(zhǔn)確定位故障根源,精準(zhǔn)施策;在分析階段,通過(guò)對(duì)事件的智能化多維分析與關(guān)聯(lián)分析,實(shí)現(xiàn)運(yùn)維系統(tǒng)的智能決策,輸出自動(dòng)化解決方案;在解決階段,通過(guò)成熟的智能決策配合自學(xué)習(xí)的運(yùn)維工作流程和自動(dòng)化等能力,實(shí)現(xiàn)故障止損、自愈,對(duì)運(yùn)維問(wèn)題進(jìn)行處置解決。
目前,針對(duì)當(dāng)前事件的智能運(yùn)維場(chǎng)景已在互聯(lián)網(wǎng)行業(yè)實(shí)踐落地并取得一定成果。例如,百度在告警系統(tǒng)中實(shí)現(xiàn)智能異常檢測(cè)與告警收斂的功能,已達(dá)到異常檢測(cè)準(zhǔn)確率90%、召回率99%,告警時(shí)效性為2秒,告警信息量削減85%。此外,美團(tuán)針對(duì)故障診斷提供智能化運(yùn)維能力,對(duì)故障進(jìn)行完整的標(biāo)記、運(yùn)營(yíng)、管理和跟蹤等工作,即時(shí)物流業(yè)務(wù)IT運(yùn)維的故障識(shí)別定位時(shí)間從15分鐘降至5秒鐘,線上故障監(jiān)控覆蓋率從80%提升至96%。
第三,事件預(yù)測(cè)。事件預(yù)測(cè)類場(chǎng)景主要通過(guò)對(duì)歷史事件與當(dāng)前事件的分析挖掘,訓(xùn)練數(shù)據(jù)模型,進(jìn)而對(duì)即將發(fā)生的事件進(jìn)行預(yù)測(cè),實(shí)現(xiàn)運(yùn)維問(wèn)題解決的主動(dòng)性、前瞻性,規(guī)避可能產(chǎn)生的風(fēng)險(xiǎn),創(chuàng)造更多的業(yè)務(wù)價(jià)值。具體應(yīng)用場(chǎng)景主要包括:容量預(yù)測(cè)、故障預(yù)測(cè)等。
針對(duì)預(yù)測(cè)事件類場(chǎng)景主要有以下作用:預(yù)測(cè)容量情況,通過(guò)對(duì)資源重要監(jiān)控指標(biāo)項(xiàng)的分析、預(yù)測(cè),及時(shí)了解指標(biāo)走勢(shì),提前建立準(zhǔn)確的容量評(píng)估模型,實(shí)現(xiàn)容量管理的提前、合理規(guī)劃;預(yù)測(cè)軟硬件故障情況,提前處置,包括隔離上下層故障、維修/更新機(jī)器設(shè)備等。
在故障預(yù)測(cè)方面,阿里巴巴智能數(shù)據(jù)中心已能夠提前30天根據(jù)機(jī)器設(shè)備屬性的突變模式進(jìn)行判斷,主動(dòng)維修或更新可能發(fā)生故障的機(jī)器,避免產(chǎn)生問(wèn)題后的被動(dòng)應(yīng)對(duì)。目前,在誤報(bào)率僅有0.08%的情況下,故障召回率相比業(yè)界平均水平提升25%以上。
互聯(lián)網(wǎng)行業(yè)智能運(yùn)維發(fā)展趨勢(shì)及思考
產(chǎn)業(yè)融合助力智能運(yùn)維實(shí)踐向全行業(yè)推進(jìn)。我國(guó)高度關(guān)注人工智能等新型信息技術(shù)與各產(chǎn)業(yè)的深度融合與發(fā)展。2019年發(fā)布的《工業(yè)和信息化部關(guān)于加快培育共享制造新模式新業(yè)態(tài)促進(jìn)制造業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》中指出,支持平臺(tái)企業(yè)積極應(yīng)用人工智能等技術(shù),不斷提升共享制造全流程的智能化水平。由于互聯(lián)網(wǎng)行業(yè)業(yè)務(wù)種類多樣,且與傳統(tǒng)行業(yè)有著密切的關(guān)系,例如,電子商務(wù)對(duì)應(yīng)零售行業(yè)、互聯(lián)網(wǎng)金融對(duì)應(yīng)金融行業(yè)、在線教育對(duì)應(yīng)教育行業(yè)等,因此能夠總結(jié)智能運(yùn)維的最佳實(shí)踐與通用場(chǎng)景,以產(chǎn)品或服務(wù)的形式與其他行業(yè)共享技術(shù),帶動(dòng)全行業(yè)智能運(yùn)維水平的共同提升。
新基建與智能運(yùn)維發(fā)展協(xié)同發(fā)力。當(dāng)前,我國(guó)大力發(fā)展新型基礎(chǔ)設(shè)施建設(shè)。在《合肥市推進(jìn)新型基礎(chǔ)設(shè)施建設(shè)實(shí)施方案(2020-2022年)》中提到,應(yīng)以融合基礎(chǔ)設(shè)施培育新興業(yè)態(tài),賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),發(fā)揮5G、人工智能等賦能效應(yīng),積極推廣遠(yuǎn)程運(yùn)維服務(wù)等智能制造新模式。一方面,5G技術(shù)助力數(shù)據(jù)的實(shí)時(shí)、海量接入,為智能運(yùn)維的統(tǒng)一監(jiān)控、機(jī)器學(xué)習(xí)算法等實(shí)現(xiàn)提供有力支撐。另一方面,隨著新基建的發(fā)展,IT運(yùn)維團(tuán)隊(duì)正在面臨更為新型的網(wǎng)絡(luò)環(huán)境與高擴(kuò)展性的部署環(huán)境,如:云計(jì)算、容器、Serverless平臺(tái)等,智能運(yùn)維的成熟應(yīng)用可以有效保障各類基礎(chǔ)設(shè)施的穩(wěn)定運(yùn)行,為數(shù)字經(jīng)濟(jì)轉(zhuǎn)型打下堅(jiān)實(shí)基礎(chǔ)。
智能運(yùn)維生態(tài)布局逐漸完善。未來(lái),我國(guó)將進(jìn)一步推進(jìn)智能運(yùn)維領(lǐng)域的“政產(chǎn)學(xué)研用”結(jié)合,形成健全、多元的生態(tài)格局,打造智能運(yùn)維實(shí)踐創(chuàng)新引擎。以下是三點(diǎn)建議:第一,加大政策與標(biāo)準(zhǔn)規(guī)范支持力度。目前,我國(guó)已針對(duì)人工智能領(lǐng)域出臺(tái)較多政策與規(guī)范,如《新一代人工智能發(fā)展規(guī)劃》《加快培育共享制造新模式新業(yè)態(tài)促進(jìn)制造業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》等中均對(duì)人工智能應(yīng)用提出明確要求。后續(xù)還應(yīng)在IT運(yùn)維、智能運(yùn)維領(lǐng)域發(fā)布相關(guān)指南與標(biāo)準(zhǔn)規(guī)范,全方位針對(duì)運(yùn)維服務(wù)發(fā)展進(jìn)行要求、指導(dǎo)。第二,建立企業(yè)交流平臺(tái),合作共贏。由于智能運(yùn)維發(fā)展時(shí)間較短,相關(guān)的社區(qū)組織數(shù)量較少,企業(yè)間的交流十分有限,缺乏溝通的平臺(tái)與機(jī)制,因此,全行業(yè)應(yīng)積極搭建交流合作平臺(tái),共享智能運(yùn)維最佳實(shí)踐,激發(fā)行業(yè)創(chuàng)新思維。第三,加強(qiáng)學(xué)科體系建設(shè)及人才培養(yǎng)。目前,清華大學(xué)、南京大學(xué)等高校已成立專門的實(shí)驗(yàn)室、團(tuán)隊(duì),研究與智能運(yùn)維相關(guān)的機(jī)器學(xué)習(xí)算法和工具,但仍只是少數(shù),各高校、學(xué)術(shù)機(jī)構(gòu)需加大對(duì)智能運(yùn)維理論研究及人才培養(yǎng)的力度,不斷向產(chǎn)業(yè)側(cè)輸出科研成果及高端人才,從而使智能運(yùn)維實(shí)踐創(chuàng)新升級(jí)。
從目前來(lái)看,我國(guó)智能運(yùn)維實(shí)踐仍具有較大發(fā)展空間,它需要多種技術(shù)與文化思想的共同發(fā)展與進(jìn)步,不能一蹴而就。深入探索智能運(yùn)維實(shí)踐的最終目的不是取代運(yùn)維人員,而是幫助運(yùn)維人員提高運(yùn)維工作質(zhì)量、提升效率,解放雙手實(shí)現(xiàn)突破與創(chuàng)新。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。