現(xiàn)在,云計算和大數(shù)據(jù)無疑都是很火的概念,業(yè)內(nèi)對他們的探討也愈演愈烈,那么云計算與大數(shù)據(jù)的不期而遇又產(chǎn)生了怎樣的聯(lián)系呢?有人說云計算和大數(shù)據(jù)是雙胞胎,兩個是不同的個體,互相依賴又相輔相成,也有人說大數(shù)據(jù)是來攪局的。
云計算 VS 大數(shù)據(jù)
有人說云計算和大數(shù)據(jù)是雙胞胎,兩個是不同的個體,互相依賴又相輔相成,也有人說大數(shù)據(jù)是來攪局的。
對此,IBM全球高級副總裁、系統(tǒng)與科技部(STG)總經(jīng)理Rod Adkins認為,當(dāng)前全球IT領(lǐng)域有了令人振奮的發(fā)展趨勢和挑戰(zhàn),現(xiàn)在每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機會;數(shù)據(jù)中心的挑戰(zhàn)也為IT提供了新機會,比如云計算,能降低數(shù)據(jù)中心成本;IBM希望通過智慧的運算,實現(xiàn)智慧的地球的愿景。
英特爾亞太研發(fā)有限公司總經(jīng)理、軟件與服務(wù)事業(yè)部中國區(qū)總經(jīng)理何京翔認為,大數(shù)據(jù)本身其實是信息革命的一個新引領(lǐng)。在未來幾年隨著物聯(lián)網(wǎng)的發(fā)展,可能會有2100億個RFID或者集群,在我們的環(huán)境之中,如果未來的移動互聯(lián)、物聯(lián)網(wǎng)如果變成現(xiàn)實,我們的生活會被傳感器、會被數(shù)據(jù)采集裝置所擁抱,這時候數(shù)據(jù)量將更大。這些數(shù)據(jù)量僅僅是數(shù)據(jù),并不能解決問題,它要從數(shù)據(jù)變成信息、變成智能、變成商業(yè)價值,這才能夠體現(xiàn)出真正的大數(shù)據(jù)的價值。
VMware全球高級副總裁范承工認為,在過去三年當(dāng)中,看到大數(shù)據(jù)的發(fā)展從無到有,市場上大家說大數(shù)據(jù)的趨勢,三年前可能還沒有人說這個詞,現(xiàn)在已經(jīng)如火如荼。然而,現(xiàn)在除了數(shù)據(jù)本身發(fā)生了改變,云計算也使數(shù)據(jù)變得更加分散,在這樣的趨勢下,傳統(tǒng)數(shù)據(jù)庫對于海量數(shù)據(jù)的需求、快的需求、開發(fā)者數(shù)據(jù)多樣化的需求難以滿足,使各種各樣的解決方案大行其道。
EMC的大數(shù)據(jù)和存儲專家、EMC資深產(chǎn)品經(jīng)理李君鵬認為,大數(shù)據(jù)本身就是一個問題集,云技術(shù)是目前解決大數(shù)據(jù)問題集最重要有效的手段。云計算提供了基礎(chǔ)架構(gòu)平臺,大數(shù)據(jù)應(yīng)用在這個平臺上運行。目前公認處理大數(shù)據(jù)集最有效手段的分布式處理,也是云計算思想的一種具體體現(xiàn)。
對于大數(shù)據(jù)給云計算帶來的影響,Teradata技術(shù)總監(jiān)Stephen Brobst表示,公有云架構(gòu)對數(shù)據(jù)倉庫沒有影響,因為企業(yè)的CIO不會無緣無故把財務(wù)數(shù)據(jù)或者客戶數(shù)據(jù)放到云上,那樣很危險。然而,是私有云架構(gòu)確實有影響:第一,通過私有云,可以鞏固數(shù)據(jù)集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數(shù)據(jù)集成,實現(xiàn)業(yè)務(wù)價值。
大數(shù)據(jù)和云計算應(yīng)用各不同
其實云計算與大數(shù)據(jù)的不同之處在于應(yīng)用的不同,主要在兩個方面:
第一,在概念上兩者有所不同,云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為基礎(chǔ)架構(gòu),才能得以順暢運營。
第二,大數(shù)據(jù)和云計算的目標(biāo)受眾不同,云計算是賣給CIO的技術(shù)和產(chǎn)品,是一個進階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務(wù)上以更有競爭力的方式戰(zhàn)勝對手。
大數(shù)據(jù)不僅僅是Hadoop
Hadoop是Apache基金會發(fā)起和研發(fā)的,是目前業(yè)界公認的開放平臺之一。授權(quán)公司可以發(fā)布自己相應(yīng)的Hadoop版本。以Hadoop為代表的分布式系統(tǒng),是大數(shù)據(jù)系統(tǒng)必要組成部分。必要性體現(xiàn)在現(xiàn)在的大數(shù)據(jù)中很多數(shù)據(jù)是機器產(chǎn)生的數(shù)據(jù),或者是物聯(lián)網(wǎng)各種各樣的探測器、電腦產(chǎn)生的日志,這些是人為產(chǎn)生的,而且數(shù)量巨大,不適合把它直接放到數(shù)據(jù)庫中去,而Hadoop就提供了全新的方式,可以輕松進行平面擴展,把這些數(shù)據(jù)放在庫里進行任意的數(shù)據(jù)分析。Hadoop成功的建立了這個環(huán)境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
然而,大數(shù)據(jù)不僅僅是Hadoop,在對數(shù)據(jù)進行分析時,用戶可以把數(shù)據(jù)放池子里,Hadoop則把這些數(shù)據(jù)分成幾百個、幾千個節(jié)點,這是在特定的某些應(yīng)用場景必須進行的部分。但是更多的應(yīng)用場景是需要實時的反應(yīng),互動的反應(yīng),這時候就需要其他技術(shù),包括內(nèi)存類檢索技術(shù),甚至在數(shù)據(jù)產(chǎn)生時要進行實時反應(yīng)的技術(shù)。這些技術(shù)都結(jié)合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。
各大廠商應(yīng)對大數(shù)據(jù)
不論大數(shù)據(jù)時代是否真的來臨,作為企業(yè)級服務(wù)廠商都應(yīng)該走在受眾的前面,應(yīng)對大數(shù)據(jù)。
1.IBM:4V理論+大數(shù)據(jù)分析平臺
IBM基于大數(shù)據(jù)提出了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的4V理論,幫助企業(yè)直觀認知和準(zhǔn)確把握大數(shù)據(jù)特質(zhì)。
IBM早在2007年11月就推出了藍云計算平臺,藍云基于IBMAlmaden研究中心(AlmadenResearchCenter)的云基礎(chǔ)架構(gòu),包括Xen和PowerVM虛擬化、Linux操作系統(tǒng)映像以及Hadoop文件系統(tǒng)與并行構(gòu)建。
此外,IBM還有大數(shù)據(jù)分析平臺——InfoSphere。InfoSphere是IBM進軍大數(shù)據(jù)領(lǐng)域的強有力武器,其包括 BigInsights和Streams,二者互補,Biglnsights基于Hadoop,對大規(guī)模的靜態(tài)數(shù)據(jù)進行分析,它提供多節(jié)點的分布式計算,可以隨時增加節(jié)點,提升數(shù)據(jù)處理能力;而Streams采用內(nèi)存計算方式分析實時數(shù)據(jù)。InfoSphere大數(shù)據(jù)分析平臺還集成了數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)集成、業(yè)務(wù)流程管理等組件。
2.英特爾:硬件+軟件 火力很猛
硬件上,英特爾從CPU、存儲、內(nèi)存一切的技術(shù)考慮怎么樣使得新一代的系統(tǒng)架構(gòu),以及數(shù)據(jù)中心的解決方案能夠更適合大數(shù)據(jù)的要求。
軟件上,英特爾提供優(yōu)化的中間件。以Hadoop為例,英特爾在Hadoop系統(tǒng),在Hbase、HDFS上都做了增強和優(yōu)化,使它們在英特爾的平臺上,在英特爾的硬件上性能得到顯著的提高,并推出了Intel Hadoop Manager2.0。
據(jù)介紹,Intel Hadoop Manager2.0 優(yōu)化了Hadoop的處理能力,把擬數(shù)據(jù)采集到數(shù)據(jù)處理縮短到近于實時處理,且在英特爾平臺上性能會成倍增長。
3.VMware:虛擬化架構(gòu)+云平臺
VMware公司大中華區(qū)總裁宋家瑜認為,云的平臺才是唯一能解決爆炸性大數(shù)據(jù)使用的需求,把關(guān)鍵應(yīng)用移到云平臺已經(jīng)是一個必然趨勢。因此,VMware把嘗試著把大數(shù)據(jù)應(yīng)用到虛擬環(huán)境的云端。
VMware推出的開源項目Serenget,支持企業(yè)在云端和虛擬環(huán)境中,在vSphere上部署和管理Hadoop。據(jù)介紹,在這樣的環(huán)境下,Hadoop部署時間可以從很多天縮短到10分鐘。
此外,VMware在統(tǒng)一的vSphere虛擬化架構(gòu)之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式,滿足用戶的海量、快速及靈活的大數(shù)據(jù)處理需求,并為開發(fā)者、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和商務(wù)用戶提供數(shù)據(jù)分析及可視化的數(shù)據(jù)展示。VMware還公布了一個大數(shù)據(jù)分析平臺 UAP(Universal Analytics Platform),其中包括Greenplum database、Hadoop和Chorus分析軟件,幫助客戶同時分析處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
4.EMC:EMC HADOOP
EMC發(fā)布了EMC HADOOP版本,它主要進行實時、非結(jié)構(gòu)化的數(shù)據(jù)處理。EMC的產(chǎn)品系列在HADOOP包括三個方面:Greenplum HD社區(qū)版;Greenplum企業(yè)版;Greenplum HD Data Computing Appliance。
據(jù)介紹,在Greenplum HD中有一些核心的技術(shù)創(chuàng)新:可插拔I/O,可以用Isilon OneFS奪存儲系統(tǒng),也可以用Atmos等,提高效率和性能;實時處理可以實時數(shù)據(jù)交互和分析處理;在容錯方面,消除名稱節(jié)點的單點鼓掌,作業(yè)跟蹤其及其他關(guān)鍵組件方面有很多優(yōu)化。它最大的亮點是Greenplum Database與Apache HADOOP強強聯(lián)合,這樣的一個一體機實現(xiàn)了結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)之間無縫的集成。
此外,甲骨文也推出了大數(shù)據(jù)機,為企業(yè)提供一種處理海量非結(jié)構(gòu)化數(shù)據(jù)的方法,集成了硬件、存儲和軟件,包括Apache Hadoop軟件的開源代碼分發(fā)、新的甲骨文NoSQL數(shù)據(jù)庫和用于統(tǒng)計分析的R語言開源代碼分發(fā)。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。