2015年5月28日,黑色星期四,滬指一日連續(xù)下破整數關口,上證指數收盤下跌6.5%,深成指下跌6.19%,創(chuàng)業(yè)板下跌5.39%,創(chuàng)4個月來單日最大跌幅,全國股民人均賠兩萬!正當股民們心灰意冷,打算出去看看世界的時候,攜程掛了!
從11:09分開始,到晚上22:45分恢復,此次攜程網站崩潰時間共持續(xù)了近12個小時。事后攜程的官網解釋:經攜程技術排查,確認此次事件是由于員工錯誤操作導致。由于攜程涉及的業(yè)務、應用及服務繁多,驗證應用與服務之間的功能是否正常運行,花了較長時間。
從攜程的聲明來看,導致此次事件的直接原因是員工誤操作造成,但有一個現(xiàn)象非常形象地描述了目前IT運維的真實狀況:
系統(tǒng)出現(xiàn)故障后
1、業(yè)務使用者最先發(fā)現(xiàn)應用受到影響,開始抓狂和投訴。
2、繼而運營監(jiān)控的各種大屏幕會出現(xiàn)流量的異樣圖、系統(tǒng)告警圖。
3、最后輪到攻城獅們手忙腳亂進行troubleshooting,挨個設備的各種telnet/ssh抓取信息。
4、可以定位故障的,對癥解決;不明所以的,嘗試重新啟動設備或者切換備份方案。
5、提交故障報告、問責、致歉、危機公關等等
目前的IT運維系統(tǒng),可以查看鏈路狀態(tài),監(jiān)控設備資源利用率,故障告警,但從業(yè)務的角度來說,還缺乏一種手段對這些數據進行系統(tǒng)性的分析,呈現(xiàn)出更明確更有意義的結論,以便在突發(fā)事件時,啟動預案、快速定位和給出指導性建議。
攜程事件再次向我們表明了新常態(tài)下,系統(tǒng)可靠性的重要作用,據統(tǒng)計,這次宕機給攜程網造成的直接損失超過數百萬美元,股價暴跌11%。云計算、大數據、互聯(lián)網+ 的空前繁榮,讓IT運維面臨前所未有的挑戰(zhàn),如何及時全面的掌握網絡、主機、數據庫、存儲、桌面等各類資源的運行情況?如何使我們的運維工作未雨綢繆,做到防患于未然呢?
【IT運維人員八種痛】
東華網智認為,互聯(lián)網+時代,系統(tǒng)化的運維管理對企業(yè)有著不可估量的作用,規(guī)?;腎T系統(tǒng)和復雜的業(yè)務系統(tǒng)穩(wěn)定運行是信息部門的重要職責,如果發(fā)生故障不能及時準備定位,引發(fā)業(yè)務中斷,給企業(yè)帶來的損失是巨大的,同時,企業(yè)IT治理、流程規(guī)范、智能巡檢將有效減少違規(guī)操作、消弭隱患,降低故障發(fā)生機率。換言之,企業(yè)需要一套清晰、智能化的運維管理系統(tǒng)來幫助IT人員提高對整個業(yè)務系統(tǒng)的把控能力,而東華網智正是致力于精細化IT服務管理,幫助企業(yè)建立健全IT運維管理體系,實現(xiàn)IT“監(jiān).管.控”一體化,全面提升IT服務質量。
【東華IT服務綜合管理解決方案技術架構】
“監(jiān)”之綜合監(jiān)控
對IT基礎架構和業(yè)務系統(tǒng)的實時監(jiān)控,能夠幫助管理人員準確定位故障,及時處理問題,并在警戒閾值達到前,將系統(tǒng)隱患扼殺于搖籃。東華IT綜合監(jiān)控范圍涵蓋機房動力環(huán)境、網絡設備、服務器、數據庫、中間件、虛擬化資源、桌面終端、通用服務等IT資源的運行狀態(tài)及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等遠程非代理監(jiān)測和Agent代理監(jiān)測,根據管理規(guī)模不同支持分布式采集和集中管理模式,提供7X24不間斷監(jiān)測服務。系統(tǒng)將復雜的技術指標、監(jiān)控狀態(tài)等以圖形化方式展現(xiàn)給客戶,支持機房、辦公區(qū)域、場所的3D可視化展現(xiàn),大大提高用戶的操作便捷性及工作效率。
“管”之性能管理
系統(tǒng)不宕機、應用可訪問只是保障業(yè)務連續(xù)性的入門級要求,在“永遠在線”的互聯(lián)網+時代,最終用戶的應用體驗成為關鍵要素。東華網智強調“業(yè)務服務視角”,分段監(jiān)測業(yè)務系統(tǒng)的每個過程環(huán)節(jié),快速解析應用問題并將問題范圍定位到具體的應用組件,幫助運維者實現(xiàn)對業(yè)務應用問題的監(jiān)測、定位和診斷,達到先于用戶發(fā)現(xiàn)問題,提前建立緊急預案,保障業(yè)務可用性,提高用戶體驗。
“控”之流程把控
攜程宕機的問題最終定位為“員工誤操作”,實際是流程管控和權限設置不當,“人為因素”在很多IT事故中不是小概率事件,必須要依賴必要的IT手段將流程僵化再優(yōu)化,將人為因素將至最低,操作是否合規(guī),變更是否合理,訪問是否越權,數據是否備份,一切全部由流程鐵律進行約束。東華網智IT運維管理系統(tǒng)的目的正是通過建立一套標準的運維服務流程,圍繞事件管理、問題管理、變更管理、配置管理、發(fā)布管理、服務級別管理等ITIL最佳實踐,幫助用戶實現(xiàn)IT運維服務的流程化、規(guī)范化管理,最終讓IT的“精確化”制約人力的“隨機化”。
5.28攜程的重大故障雖然是一次災難,但也為所有的企業(yè)敲響了警鐘,安全生產重于泰山,一個誤操作帶來的可能就是毀滅性的損失。在互聯(lián)網企業(yè)各項業(yè)務都依賴IT系統(tǒng)的今天,做好IT系統(tǒng)的運維管理工作無疑是保障業(yè)務正常運行的核心所在。
專業(yè)的事一定要交給專業(yè)的系統(tǒng)來做,讓5.28事件不再重演,讓企業(yè)長青!
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網頁分享至朋友圈。