檢測、發(fā)現(xiàn)和糾正網(wǎng)絡故障從來都不是容易的事情。過去是客戶端服務器“統(tǒng)治”、應用運行在指定服務器、最終用戶通過以太網(wǎng)、租用WAN鏈路或其他服務連接的時代,彼時網(wǎng)絡故障管理已經比較麻煩了,而現(xiàn)在大型數(shù)據(jù)中心和云網(wǎng)絡讓網(wǎng)絡故障管理更具挑戰(zhàn)性。
技術在變化,但最終結果是最重要的。這里的問題是:用戶是否在接受所需的服務質量?答案取決于應用和網(wǎng)絡性能?,F(xiàn)在的應用通常在公共、私有或混合云上運行,應用作為負載轉移在服務器之間遷移。服務器和數(shù)據(jù)存儲之間的吞吐量取決于其他應用放在共享鏈路的負載。
網(wǎng)絡性能取決于連接用戶到應用的網(wǎng)絡的類型和容量。本地用戶可能通過以太網(wǎng)或無線網(wǎng)絡連接,遠程用戶則通過各種WAN技術連接,包括公共互聯(lián)網(wǎng)或蜂窩網(wǎng)絡等。每種連接都需要專門的方法來維持所需的性能。任何這些位置(應用或網(wǎng)絡)的故障都可能降低客戶滿意度。
云故障檢測
很多拓撲結構和設計(其中包括虛擬化服務器、多個虛擬局域網(wǎng)和覆蓋網(wǎng)絡)讓云故障檢測和網(wǎng)絡故障管理變得更加復雜。一個租戶的應用出現(xiàn)性能問題可能與影響另一個租戶的問題并沒有什么關聯(lián),但它們可能來自同一來源。每個租戶的應用可能在相同超載或配置錯誤的服務器上執(zhí)行,或者兩個租戶的覆蓋網(wǎng)絡通過相同超載或故障鏈接來路由。
海量的服務器、網(wǎng)絡組件和鏈接是故障的一大來源?,F(xiàn)代硬件極為可靠,盡管每個組件有多年故障平均時間,但對于數(shù)千獨立的設備來說,依舊會有硬件故障發(fā)生。
配置錯誤是另一個問題來源,該問題可由網(wǎng)絡故障管理進行跟蹤。服務器和網(wǎng)絡設備不斷添加、升級或取代。大型云計算通常包括來自不同供應商的組件,甚至來自同一供應商的相同組件也可能運行著不同的軟件版本。在這種環(huán)境中,任何變更都可能導致錯誤的出現(xiàn),同時,對一個組件的改變還可能影響到其他組件。
簡單地檢測和報告錯誤已經不夠,每個錯誤可能導致幾十份錯誤報告。鏈路故障會在鏈路兩端的交換機生成硬件故障指示,并且每次鏈路故障和恢復時都會發(fā)出新報告。2層和3層網(wǎng)絡協(xié)議路由會改變,在備用路由流量水平接近最大數(shù)值時鏈路流量監(jiān)控也會變化。同時,應用性能監(jiān)控器會從通過該鏈路路由流量的每個應用報告問題。
故障相關性及其在網(wǎng)絡中的作用
沒有哪個網(wǎng)絡管理員能夠整理完單一故障生成的海量報告,并快速發(fā)現(xiàn)其根本原因。對此,故障相關性軟件很重要,這是每個主流系統(tǒng)供應商網(wǎng)絡管理產品的重要組成部分。
故障相關性產品利用各種機制來發(fā)現(xiàn)問題,其中包括SNMP trap、TL1消息、應用日志和SYSLOG條目。SNMP和特定產品輪詢監(jiān)控器運行在服務器、交換機和鏈路。相關性工具還可監(jiān)控設備問題、電源電壓和磁盤可用空間來預測未來的問題。
網(wǎng)絡故障管理軟件必須提供對網(wǎng)絡準確的且最新的視圖。該軟件必須保持更新(無論是通過手動或者通過網(wǎng)絡映射),以追蹤添加的、移除的或更新的組件。它必須維護每種組件的內部型號,介紹其配置和功能,并包含網(wǎng)絡運營政策的描述。當添加應用時,還必須更新服務水平協(xié)議(SLA)等信息。
此外,故障相關性軟件必須與云編排軟件來交互,追蹤正在運行的應用、它們在哪些服務器運行和VLAN以及與每個租戶相關的覆蓋網(wǎng)絡。網(wǎng)絡故障管理軟件還必須不斷根據(jù)SLAN監(jiān)控應用性能水平。
當出現(xiàn)問題時,相關性軟件會獲取所有接收到的故障指示,并利用有關的網(wǎng)絡拓撲以及在故障出現(xiàn)前數(shù)據(jù)如何移動的信息來確定根本原因,并為網(wǎng)絡管理人員提供簡要的報告。
SDN網(wǎng)絡
云計算與SDN技術管理的數(shù)據(jù)中心面臨著與依靠傳統(tǒng)技術的數(shù)據(jù)中心相同的潛在問題。它們都需要故障相關性軟件,但SDN架構需要將相關性軟件內置到網(wǎng)絡控制器或與其緊密連接。
這種差異的原因是Spanning Tree和Open Shortest Path First等傳統(tǒng)協(xié)議在網(wǎng)絡設備內部部署。它們在鏈路或端口問題阻止流量時根據(jù)需要重新路由流量。通過SDN,所有路由都由控制器來確定,故障相關性軟件必須告知控制器問題的類型,以便它能夠確定備用路由。
OpenFlow兼容的白盒交換機支持各種供應商的操作系統(tǒng),每個都有自己的檢測和故障報告方法。Big Switch和Pica8的操作系統(tǒng)都支持SNMP,但Big Switch的控制器和交換機操作系統(tǒng)利用OpenFlow消息來與設備進行通信。相關性軟件通過接口與控制器通信,從設備處接收消息,并輪詢其狀態(tài)。
無線網(wǎng)絡和廣域網(wǎng)
Wi-Fi依靠一組專門的工具來診斷問題。Wi-Fi連接可受到很多問題的影響,例如信號干擾、墻壁或阻止信號的固態(tài)物體,以及安全漏洞?,F(xiàn)在有各種故障排除產品,包括免費軟件和專業(yè)的軟件產品。還需要專門的硬件產品來診斷某些類型的問題。
在網(wǎng)絡服務提供商擁有和管理的WAN連接的情況下,關鍵參數(shù)是吞吐量和往返時間,這方面也有免費和專業(yè)產品可供選擇。
滿足最終用戶性能要求需要應用性能的各方面都正常運行。在出現(xiàn)問題時,網(wǎng)絡故障管理和故障檢測產品必須能夠查明原因,使它們可快速被修復以及恢復正常運作。