計算產(chǎn)業(yè)正在迎來一場智能化的變革,AI普及驅(qū)動服務(wù)器產(chǎn)品升級。同時,服務(wù)器及數(shù)據(jù)中心的智能化管理和運維也成為大勢所趨。
智能時代,人工智能與實體經(jīng)濟深度融合,算力的重要性不言而喻。不管是人工智能技術(shù)本身的進步還是企業(yè)的數(shù)字化變革都離不開計算力的支撐。而另一方面,計算本身也深受人工智能技術(shù)的影響,在計算產(chǎn)業(yè)的各個環(huán)節(jié),包括基礎(chǔ)設(shè)施、運營以及管理等各個方面,都能看到人工智能的“身影”。
智能計算與加速
根據(jù)OpenAI最新的分析,近年來人工智能訓(xùn)練任務(wù)所需求的算力每3.43個月就會翻倍,這一數(shù)字大大超越了芯片產(chǎn)業(yè)長期存在的摩爾定律(每18個月芯片的性能翻一倍)。自2012至2018的6年時間里,業(yè)界對于算力的需求增長了超過300000倍。
AI、5G、物聯(lián)網(wǎng)等不同類型工作負載帶來了計算的多樣性趨勢,如何組合不同的計算資源高效地應(yīng)對不同的計算需求,是提升計算ROI的關(guān)鍵。特別是AI的廣泛應(yīng)用對算力需求增長不斷加快,而CPU技術(shù)的提升已經(jīng)遭遇瓶頸,隨著摩爾定律逐漸失效,我們必須依靠多種計算架構(gòu)的組合解決算力瓶頸,以應(yīng)對AI負載的增長。
未來的世界會是一個開放的、多元化的世界,而標準化的計算平臺已經(jīng)無法滿足數(shù)字化技術(shù)對計算的要求。為了應(yīng)對算力爆炸的趨勢,AI服務(wù)器引入了智能加速引擎,包含了GPU、FPGA加速卡、智能融合網(wǎng)卡和推理卡加速部件,突破傳統(tǒng)服務(wù)器單機性能過度依賴CPU,大幅度提升服務(wù)器的系統(tǒng)級性能。
隨著應(yīng)用和數(shù)據(jù)的多樣化,計算平臺呈現(xiàn)出向異構(gòu)計算演進的趨勢,異構(gòu)計算芯片大規(guī)模于眾多應(yīng)用場景中。在“成就智慧計算”的戰(zhàn)略下,新華三提供了CPU、GPU、FPGA、ASIC等多種強大的計算能力,滿足智能化計算的所有場景,加速百行百業(yè)數(shù)字化變革。
新華三服務(wù)器產(chǎn)品不光集成了對異構(gòu)計算的支持,還搭載了新華三自主研發(fā)的人工智能平臺AIOS,AIOS能夠幫助用戶實現(xiàn)AI的部署、池化、管理、推理、訓(xùn)練等各個環(huán)節(jié)的人工智能落地整體解決方案。
AI計算已經(jīng)成為主流的計算形態(tài),并對人工智能服務(wù)器市場產(chǎn)生重要影響。根據(jù)IDC的數(shù)據(jù),2019年中國AI服務(wù)器出貨量為79318臺,同比增長46.7%。2019年人工智能基礎(chǔ)架構(gòu)市場規(guī)模達到20.9億美元,同比增長58.7%。中國AI服務(wù)器市場在2018-2023年的年復(fù)合增長率為37.9%,也就是到2023年,AI服務(wù)器市場規(guī)模將達到2019年的3.6倍。
AI服務(wù)器不僅出貨量增長速度更高、技術(shù)創(chuàng)新更快,而且單機配置也在不斷提高,單臺AI服務(wù)器可以提供更高的計算力。當(dāng)前人工智能服務(wù)器正在快速成熟和完善中,如果結(jié)合整個人工智能技術(shù)和服務(wù)的發(fā)展,我們看到未來人工智能服務(wù)器會重點在低功耗設(shè)計、智能邊緣計算、軟硬件平臺融合等領(lǐng)域產(chǎn)生新的突破。
智能管理與運維
具備支撐AI計算的服務(wù)器產(chǎn)品是計算產(chǎn)業(yè)智能化升級的一個方面,另外不管是服務(wù)器產(chǎn)品還是數(shù)據(jù)中心實現(xiàn)智能化管理和運維也是AI賦能的重要體現(xiàn)。
隨著算力需求的增加,數(shù)據(jù)中心建設(shè)規(guī)模越來越大,從幾萬臺服務(wù)器到幾十萬甚至上百萬。這就需要IT基礎(chǔ)設(shè)施具備快速部署、快速上線及便捷管理的能力,海量服務(wù)器的管理場景變得越來越復(fù)雜,傳統(tǒng)運維領(lǐng)域面臨許多新的挑戰(zhàn)。
眾所周知,傳統(tǒng)數(shù)據(jù)中心主要依靠人工操作來解決日常運維問題,人力不僅低效而且穩(wěn)定性不高,造成海量服務(wù)器的部署、運維、管理成本高昂。此外,傳統(tǒng)運維模式中,運維人員主要是被動式地等待問題發(fā)生,再進行故障處理,傳統(tǒng)運維模式下人均維護效率為50-100臺。隨著數(shù)據(jù)中心規(guī)模越來越大,故障將發(fā)生地更加頻繁,故障之間的關(guān)聯(lián)將更加復(fù)雜,傳統(tǒng)的維護效率會進一步降低。
AI時代,數(shù)據(jù)中心服務(wù)器越來越多承載大數(shù)據(jù)、人工智能等業(yè)務(wù)場景,數(shù)據(jù)中心自身也需要適應(yīng)新的智能化業(yè)務(wù)的需求。智能化數(shù)據(jù)中心的建設(shè)應(yīng)該是基于海量數(shù)據(jù),利用人工智能的技術(shù),將人工總結(jié)運維規(guī)則的過程變?yōu)樽詣訉W(xué)習(xí)的過程,實現(xiàn)智能化的故障發(fā)現(xiàn)、診斷、處置、預(yù)防。
Gartner于2016年提出了智能運維的概念(Algorithmic IT Operations,AIOps),相比人工運維中的不足,智能運維管理不僅能夠簡化流程、提高效率以及綜合管理能力,也能大大降低人為產(chǎn)生的故障率,未來數(shù)據(jù)中心智能管理必將全面替代純?nèi)斯み\維及自動化半人工運維。
例如新華三創(chuàng)新性地推出了U-Center統(tǒng)一運維平臺,變被動響應(yīng)式監(jiān)測為自動智能運維,通過AI和運維的結(jié)合,80%以上系統(tǒng)的問題不需要人工干預(yù)自動解決。未來甚至能夠在計算資源或者網(wǎng)絡(luò)資源、存儲資源遇到瓶頸時給用戶建議,在出現(xiàn)瓶頸之前盡快部署資源幫助解決用戶的問題。
此外,智能服務(wù)器通過增加AI智能管理引擎,可提供包含資產(chǎn)管理、能效管理、部署管理、故障管理等智能管理特性,讓海量部署的服務(wù)器管理更加智能化,提升管理與運維效率。數(shù)據(jù)中心通過將傳統(tǒng)服務(wù)器升級為智能服務(wù)器,實現(xiàn)由點到面的算力進化,最終實現(xiàn)無人值守的自動化、智能化數(shù)據(jù)中心基礎(chǔ)設(shè)施。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。