Register的記者Simon Sharwood前兩天說澳大利亞稅務局(ATO)關于HPE 3PAR存儲的兩次宕機事件分析報告出來了。這估計是該記者最后一次報道這事了吧。
原來他前前后后寫過好幾篇文章追蹤報導,說一直要追蹤到調查報告出爐。
關于這事,HPE發(fā)言人也給記者發(fā)了一個官方的解釋:
現在,這個調查報告終于出來了,發(fā)表在ATO的官網上,鏈接如下:
https://www.ato.gov.au/uploadedFiles/Content/CR/downloads/js39322_ATO-systems-report_w.pdf
大家也可以點擊文后的<閱讀原文>鏈接直接打開。
這份報告一共22頁,還是有一些詳細的信息。
比如,大家仔細看備注,發(fā)現HPE 3PAR的設備型號居然是高端全閃存陣列3PAR 20850,HPE推薦用這個當時(2015年)這個最新的型號來替換EMC的存儲。兩次出事的居然是高端存儲,而且還是全閃。
但出事的原因,好像交代得不太清楚,最少說了下面幾點吧:
1、SAN光纖問題。應該是3par 20850后面的磁盤框的SAS光纜有問題。第一和第二次都是由于光纖的問題觸發(fā)的故障。至于為什么光纖會造成故障,報告也沒有講得太清楚。
2、硬盤的固件問題。可惜報告沒有點名是那個廠商的硬盤。由于3par 20850是AFA,因此肯定是SSD盤。我知道三星應該是3par的SSD供貨商之一,不知道這個是否是三星的SSD。固件的bug造成3par陣列不能復位SSD,這個原因里面提了。
當然,里面還提到了監(jiān)控沒有搞配好,導致故障前的警告沒有第一時間自動回傳給HPE。另外,這是一個turn key的項目,外包給了HPE,用戶自己關注不夠,而且可靠性設計不夠好,更關注性能和成本了。比如備份的配置也放在同一個陣列,造成陣列故障的時候,備份也不能用。
(怎么感覺有點想西安地鐵壞電纜的事件似的,看來HPE有低價中標的嫌疑)
但是,我看其一共用了兩臺3par的陣列,一個在悉尼數據中心,一個在悉尼西數據中心,采用異步復制的技術。雖然不能自動切換,但是一個數據中心故障后應該可以手工切換到另外一個中心才對啊?報告說沒有進行過切換的演練,但是好像也沒有做切換嘗試,可能怕數據不完全一致吧?因為畢竟是異步復制(估計距離太遠)。
文章最后說,要繼續(xù)加強可靠性設計。今年年底要改成下圖4陣列的形態(tài)。
看來客戶還是覺得HP XP7(OEM自HDS)要更可靠性些,因此,打算上兩套XP7做生產存儲,分布放在兩個數據中心,做異步復制。原來的3par存儲作為開發(fā)測試環(huán)境使用,也做異步復制。但同一個數據中心內,XP7和3PAR做同步復制。
大家可能奇怪,XP7和3par是不同的平臺,怎么能做同步復制?剛開始我也沒有想明白,后來我像通了,應該是利好了HP XP7的異構虛擬化功能,把3par接管過去,采用卷鏡像的方式來實現異構的同步復制。
另外,ATO已經把WEB服務器遷移到公有云上了,因為他們覺得公有云更安全一些。以后估計更多的應用會遷移到公有云。
據說現在3par的存儲已經全部更換了,老的存儲HPE 3PAR要拿回去再分析。也許有新的故障診斷發(fā)現也不一定。但我估計ATO的事件真相可能永遠都不會大白于天下,但也無所謂,這份22頁的報告還是看出ATO的一些改進的措施,其他用戶如果關注關注存儲的可靠性問題,也是可以仔細閱讀,也許會有一些啟發(fā)。
其實,上一套陣列雙活加異地復制的兩地三中心方案就比較理想了,這些故障也許都能避免。
分享到微信 ×
打開微信,點擊底部的“發(fā)現”,
使用“掃一掃”即可將網頁分享至朋友圈。