就在攜程癱瘓前一天,支付寶也出現(xiàn)無(wú)法正常使用的情況。5月27日傍晚,杭州、北京、上海、武漢等地用戶反映支付寶無(wú)法正常使用。
前不久的5月11日,網(wǎng)易也突然出現(xiàn)大面積服務(wù)癱瘓問(wèn)題,網(wǎng)易新聞、云音樂(lè)、網(wǎng)易游戲等多款服務(wù)均無(wú)法使用。
有人說(shuō)“互聯(lián)網(wǎng)黑色五月”來(lái)了。連續(xù)多日,互聯(lián)網(wǎng)大公司、主流產(chǎn)品如此頻繁發(fā)生安全事件,讓人感慨:貌似強(qiáng)大的互聯(lián)網(wǎng)產(chǎn)業(yè)在安全風(fēng)險(xiǎn)面前何等脆弱。
近年來(lái),網(wǎng)絡(luò)故障情況多有發(fā)生。2013年7月22日,微信故障影響輻射全國(guó)及海外。事故原因與支付寶類似:騰訊微信團(tuán)隊(duì)稱,故障系市政道路施工致機(jī)房光纜被挖斷,影響服務(wù)器連接所致,令全國(guó)30%的用戶受到影響。
遭遇威脅并不可怕,可怕的是,當(dāng)遭遇威脅時(shí),沒(méi)有一套完備的預(yù)案措施。
假如攜程有一個(gè)完善備份
如果備份做好了,攜程會(huì)這樣嗎?
360安全專家林偉對(duì)早報(bào)記者分析稱,如果是一般的系統(tǒng)故障,一旦出現(xiàn)故障,按照預(yù)案,系統(tǒng)會(huì)自動(dòng)用備份恢復(fù)數(shù)據(jù),然后人工進(jìn)行檢測(cè)和修訂。系統(tǒng)恢復(fù)大約需要幾分鐘到半個(gè)多小時(shí)的時(shí)間。
一般情況下,互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)會(huì)有三四個(gè)備份,包括本地服務(wù)器同城機(jī)房、跨城機(jī)房、云端以及內(nèi)網(wǎng)。即使其中一份出現(xiàn)問(wèn)題,也會(huì)有別的備份補(bǔ)上。
“像攜程這樣規(guī)模的企業(yè)訪問(wèn)量很大,但是其數(shù)據(jù)存儲(chǔ)量不會(huì)太大,多做幾個(gè)備份也不會(huì)有多大的成本。”林偉說(shuō)。
一位攜程技術(shù)人員告訴早報(bào)記者,“備份也一并被黑了。”
前藝龍信息安全負(fù)責(zé)人說(shuō),在各個(gè)行業(yè)內(nèi),金融機(jī)構(gòu)對(duì)于BCP/BCM(業(yè)務(wù)連續(xù)性)是最重視的?;ヂ?lián)網(wǎng)公司和傳統(tǒng)的金融機(jī)構(gòu)并不是一個(gè)量級(jí)的,還需要 進(jìn)一步努力。比如,大型銀行的重要系統(tǒng),一套運(yùn)行、一套熱備、一套測(cè)試,所有數(shù)據(jù)做到同城和異地備份,恢復(fù)時(shí)間是以小時(shí)計(jì)算的。互聯(lián)網(wǎng)公司講究快速迭代、 靈活性、可擴(kuò)展性,而可能會(huì)犧牲穩(wěn)定性和安全性。
光纜也該“備份”
5月28日,據(jù)新華社“我在現(xiàn)場(chǎng)”客戶端,光纜承建方中國(guó)電信杭州公司給阿里巴巴發(fā)函,由于市政建設(shè)工程在電信管道上方野蠻施工,導(dǎo)致電信管道內(nèi)4條大光纜中斷,影響阿里巴巴集團(tuán)業(yè)務(wù)。5月27日20:40至5月28日03:57,光纜陸續(xù)搶通。
按照一般情況,大型企業(yè)為了保證機(jī)房數(shù)據(jù)安全,都會(huì)實(shí)行“雙光纜”保護(hù)。一旦其中一條光纜出現(xiàn)故障(比如地震、洪水等),可以迅速接入另一條光纜。
并且,兩條光纜應(yīng)該保持一定距離。在2013年微信宕機(jī)事件中,騰訊與運(yùn)營(yíng)商把雙光纜放在了同一管道中。打個(gè)比方,現(xiàn)在是一條路上開了兩輛車,這條路斷了,兩輛車都開不過(guò)去。
一位運(yùn)營(yíng)商人士當(dāng)時(shí)坦承,他們?yōu)楹芏嗥髽I(yè)客戶所建的雙光纜都是單路由,但也并非不會(huì)做雙路由,“只要出得起錢,就能做。”
騰訊之前在廣東采用“雙光纜同路由”的機(jī)房發(fā)生過(guò)QQ連接故障的教訓(xùn),所以目前騰訊一些重要機(jī)房已經(jīng)按要求換成“雙光纜雙路由”,以保萬(wàn)全。
淘寶已完成“異地多活”
不過(guò)值得注意的是,到5月27日晚上7時(shí),支付寶服務(wù)恢復(fù)正常。也就是說(shuō),在光纜搶修完成之前,支付寶就已經(jīng)憑借自己能力給用戶提供服務(wù)。
支付寶稱,支付寶的異地多活系統(tǒng)架構(gòu)在此次意外中發(fā)揮了巨大作用。斷網(wǎng)發(fā)生后,支付寶緊急將用戶請(qǐng)求切換至國(guó)內(nèi)其他機(jī)房。
據(jù)阿里技術(shù)保障部微博,此次受光纜挖斷影響的不止支付寶,還包括淘寶。
那么,為何淘寶用戶沒(méi)受影響,而支付寶用戶受影響呢?阿里技術(shù)保障部稱,淘寶于去年8月完成異地多活的架構(gòu)改造,經(jīng)歷了“雙十一”的洗禮,技術(shù)已經(jīng)非 常成熟,所以能及時(shí)切走流量,用戶沒(méi)有任何感知,業(yè)務(wù)毫發(fā)無(wú)損。而支付寶目前正在部署異地雙活的階段,等到架構(gòu)完全改造完成后,將不會(huì)出現(xiàn)此類問(wèn)題。
所謂異地多活,一位專家解釋道,與傳統(tǒng)的災(zāi)備技術(shù)相比,異地多活系統(tǒng)的特點(diǎn)是:在不同地點(diǎn)的數(shù)據(jù)中心都可以同時(shí)支持業(yè)務(wù),且每個(gè)地點(diǎn)發(fā)生的交易都是真 實(shí)業(yè)務(wù)流量,而不是常見(jiàn)的一主一備。若主中心沒(méi)問(wèn)題,備份中心永遠(yuǎn)都是“備胎”。在傳統(tǒng)災(zāi)備方案中,一般提的都是同城災(zāi)備、異地災(zāi)備、兩地三中心。
這種多活數(shù)據(jù)中心的好處是:因?yàn)樗械臄?shù)據(jù)中心都在支持交易,所以能節(jié)約IT成本;另外傳統(tǒng)方式中備份系統(tǒng)都不在真實(shí)的交易活動(dòng)狀態(tài),所以很難判斷它的狀態(tài)到底怎么樣,在出現(xiàn)問(wèn)題時(shí),都不一定敢切過(guò)去。
可以比較的是2013年工商銀行ATM機(jī)宕機(jī)事件。2013年6月23日上午,中國(guó)工商銀行在全國(guó)多地的柜臺(tái)、ATM、網(wǎng)銀業(yè)務(wù)出現(xiàn)故障,用戶報(bào)告無(wú)法正常使用。故障持續(xù)至少近1個(gè)小時(shí),波及北京、上海等多個(gè)城市。
當(dāng)時(shí),一位IT業(yè)內(nèi)人士告訴早報(bào)記者,銀行等金融機(jī)構(gòu)的容災(zāi)系統(tǒng)不會(huì)輕易啟用整體切換,因?yàn)榍袚Q成本非常高。一般,非極端情況(如地震、機(jī)房著火等) 不會(huì)進(jìn)行切換。另一位專家稱,大部分公司和網(wǎng)站都是沒(méi)有備份的。小部分公司做了同城災(zāi)備,還有一些公司做了異地災(zāi)備,比較難的就是異地雙活。大規(guī)模的“異 地多活”,目前在全球僅谷歌、Facebook等少數(shù)幾家互聯(lián)網(wǎng)公司實(shí)現(xiàn)。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。