盡管人工智能的概念自50年代以來一直存在,但它在IT領(lǐng)域的主流應(yīng)用程序剛剛開始出現(xiàn)。根據(jù)Gartner的研究,到2021年,深度學(xué)習(xí)和人工智能等工作量將成為數(shù)據(jù)中心設(shè)計(jì)和架構(gòu)的重要因素。
AI應(yīng)用程序?qū)⒂绊懨恳粋€(gè)垂直行業(yè)和工業(yè)領(lǐng)域,因此采取積極的措施來規(guī)劃、構(gòu)建和培育數(shù)據(jù)中心的深度學(xué)習(xí)(deep learning)和人工智能實(shí)踐非常重要。
大多數(shù)組織還沒有實(shí)施AI。在大多數(shù)情況下,超大規(guī)模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而絕大多數(shù)終端用戶都在起步階段就舉步維艱。
Gartner研究總監(jiān)Chirag Dekate表示:“由于這是個(gè)持續(xù)變化的目標(biāo),很難初始化開發(fā)AI和深度學(xué)習(xí)環(huán)境的實(shí)踐。這個(gè)想法是驚人的,但是當(dāng)您著手開發(fā)和設(shè)計(jì)解決方案時(shí),您就開始遇到問題了,而且這是很多最終用戶當(dāng)前所處的位置。”
來自存儲(chǔ)的挑戰(zhàn)
深度學(xué)習(xí)和AI應(yīng)用程序需要大量的數(shù)據(jù)來訓(xùn)練、測試和驗(yàn)證神經(jīng)網(wǎng)絡(luò)算法,這可能為數(shù)據(jù)中心管理員帶來存儲(chǔ)挑戰(zhàn)。
Dekate表示:“如果您的機(jī)器學(xué)習(xí)算法基于回歸,您可以使用有限的數(shù)據(jù)集,但是對(duì)于更先進(jìn)的高價(jià)值神經(jīng)網(wǎng)絡(luò)生態(tài)系統(tǒng),您會(huì)逐漸遇到規(guī)模問題。傳統(tǒng)的網(wǎng)絡(luò)連接存儲(chǔ)架構(gòu)可以交付即時(shí)的結(jié)果,方便部署和開箱即用的效率,但它們也會(huì)在I/O擴(kuò)展和延遲方面顯示出問題。
部分初創(chuàng)公司正在嘗試高帶寬并行文件系統(tǒng),以增加吞吐量并實(shí)現(xiàn)規(guī)?;?,但這些還都只能算是外圍方法,Dekate表示。
并行文件系統(tǒng)涉及從元數(shù)據(jù)服務(wù)器到存儲(chǔ)目標(biāo)的許多移動(dòng)部件,必須進(jìn)行優(yōu)化、調(diào)整和調(diào)試以最高效率運(yùn)行。他說:“它們[并行文件系統(tǒng)]是非常復(fù)雜的,需要經(jīng)歷嚴(yán)苛的考驗(yàn)。”
然而,大數(shù)據(jù)分析——另一項(xiàng)需要大量數(shù)據(jù)的計(jì)劃——已經(jīng)為許多IT組織提供了一個(gè)平臺(tái),能夠重新調(diào)整存儲(chǔ)策略。
供職于451 Research的研究經(jīng)理Christian Perry表示:“當(dāng)AI成為企業(yè)可部署的現(xiàn)實(shí)時(shí),從存儲(chǔ)的角度來看,由于大數(shù)據(jù)和分析的原因,容量方面已經(jīng)解決了。物聯(lián)網(wǎng)也被寄予期望在特定組織驅(qū)動(dòng)大規(guī)模應(yīng)用的規(guī)劃,我認(rèn)為基礎(chǔ)設(shè)施已經(jīng)具有處理大型存儲(chǔ)需求的能力。”
來自網(wǎng)絡(luò)的挑戰(zhàn)
深度學(xué)習(xí)框架的有限性產(chǎn)生了規(guī)模方面的挑戰(zhàn)——對(duì)于可擴(kuò)展性的網(wǎng)絡(luò)架構(gòu),性能明顯超出單一計(jì)算節(jié)點(diǎn)。為了規(guī)?;蕴峁└叩男剩芾韱T必須升級(jí)和改進(jìn)他們的網(wǎng)絡(luò),但大多數(shù)人還沒有將此舉當(dāng)做他們的首要任務(wù)。
Dekate說:“如果您仔細(xì)觀察深度學(xué)習(xí)算法,會(huì)發(fā)現(xiàn)它們的溝通密集度非常之高。嘗試為這樣一個(gè)聊天應(yīng)用程序堆棧構(gòu)建解決方案對(duì)于組織如何著手開始將是非常困難的。”
隨著數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)師為AI準(zhǔn)備其基礎(chǔ)架構(gòu),他們必須優(yōu)先考慮可擴(kuò)展性,這將需要高帶寬、低延遲的網(wǎng)絡(luò)和像InfiniBand或Omni-Path這樣的創(chuàng)新型架構(gòu)。
關(guān)鍵是為實(shí)現(xiàn)自動(dòng)化而保證所有選項(xiàng)的開放性,Perry說。自動(dòng)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理技術(shù)的市場正在快速成熟,這表明自動(dòng)化在數(shù)據(jù)中心行業(yè)越來越被廣泛地接受。
Perry說:“還有自動(dòng)化功能已經(jīng)具備應(yīng)用條件,這將有助于為AI的引入奠定基礎(chǔ)。”
來自計(jì)算方面的挑戰(zhàn)
數(shù)據(jù)中心的計(jì)算端對(duì)AI應(yīng)用程序的實(shí)施面臨著異常嚴(yán)峻的挑戰(zhàn)?;贑PU的環(huán)境可以處理絕大多數(shù)機(jī)器學(xué)習(xí)和AI工作負(fù)載,從隨機(jī)森林回歸(random forest regression)到集群。但當(dāng)IT深入到深度學(xué)習(xí)能力之中,這需要遍歷多個(gè)大型數(shù)據(jù)集并部署可擴(kuò)展的神經(jīng)網(wǎng)絡(luò)算法,那么基于CPU的生態(tài)系統(tǒng)可能還不夠。為了提供計(jì)算能力,IT部門必須集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技術(shù)。
“您需要混合或異構(gòu)架構(gòu),其核心處理器由專用加速器填充,為您的應(yīng)用程序提供更大的計(jì)算密度和更高的吞吐量,”Dekate說。
實(shí)施GPU還使管理員能夠優(yōu)化數(shù)據(jù)中心基礎(chǔ)架構(gòu)以實(shí)現(xiàn)功率效率。當(dāng)管理員將基于GPU的生態(tài)系統(tǒng)進(jìn)行單一節(jié)點(diǎn)特別擴(kuò)大時(shí),它們對(duì)電源的需求將更加迫切。
Google等超大規(guī)模供應(yīng)商已認(rèn)識(shí)到這一需求;該公司負(fù)責(zé)AI業(yè)務(wù)的機(jī)構(gòu)DeepMind將將其數(shù)據(jù)中心冷卻所需的能源降低了40%。但是,在更廣泛的市場中幾乎所有的企業(yè)數(shù)據(jù)中心都缺乏Google具備的資源,將無法復(fù)制這一模式來解決效率問題。
對(duì)于具有傳統(tǒng)生態(tài)系統(tǒng)的大多數(shù)企業(yè)來說,實(shí)施這些創(chuàng)新技術(shù)不僅復(fù)雜—同時(shí)價(jià)格昂貴。例如,搭載了最新Xeon Phi的芯片價(jià)格高達(dá)6,294美元—它是英特爾迄今為止最昂貴的芯片。而想要整合深度學(xué)習(xí)能力的IT團(tuán)隊(duì)不僅僅需要一個(gè)芯片,他們需要高密度的加速卡。這些高密度計(jì)算配置可用于超大規(guī)模環(huán)境,醫(yī)療保健機(jī)構(gòu)、金融服務(wù)等。
Dekate說:“我們已經(jīng)看到高密度產(chǎn)品的應(yīng)用—大約2個(gè)CPU配上8個(gè)GPU的比例密度。這代表著在此環(huán)境中,某一服務(wù)器節(jié)點(diǎn)上某一服務(wù)器單元的成本可能高達(dá)15萬美元。”
有辦法減輕這些技術(shù)的高價(jià)格標(biāo)簽。許多組織使用公有云,在某些情況下,使用IBM Watson,在進(jìn)行任何深層的內(nèi)部承諾之前,測試AI應(yīng)用程序的可靠性。
此外,服務(wù)器更新的時(shí)間范圍遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的三年更新時(shí)間表,Perry說?,F(xiàn)在,許多組織每五到七年更新服務(wù)器。因此,他們的IT預(yù)算也得到擴(kuò)展,可以應(yīng)用到能夠滿足內(nèi)部所需的高價(jià)基礎(chǔ)設(shè)施之上。
Perry說:“我們已經(jīng)看到這在融合基礎(chǔ)架構(gòu)上的應(yīng)用,而且超級(jí)融合基礎(chǔ)架構(gòu)也正在應(yīng)用。沒錯(cuò),這都是非常昂貴的門檻,但轉(zhuǎn)型是非常值得的。”
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。