大數(shù)據(jù)(Big data)近年來快速成長,根據(jù)麥肯錫全球研究中心在2011年5月發(fā)表的全球大數(shù)據(jù)研究報告指出,全球資料量光是在2010年就增加了70億GB,相當(dāng)於4千座美國國會圖書館典藏資料的總和。
如何產(chǎn)生、消費和儲存大數(shù)據(jù),已經(jīng)成為近年來企業(yè)IT應(yīng)用的重要趨勢。如在eBay上,平均每天有將近1億名用戶查詢商品數(shù)百萬次,更有上百萬件商品在線上交易,導(dǎo)致eBay資料庫每天新增的資料,超過1.5兆筆,每天增加的資料量超過50TB,這些大數(shù)據(jù)如果沒有作進(jìn)一步的分析應(yīng)用,勢必會影響eBay的企業(yè)營運。
DIGITIMES舉辦之「大數(shù)據(jù)煉金術(shù)」論壇活動,於1/17在臺北六福皇宮盛大舉辦。多位產(chǎn)學(xué)專家專業(yè)演講,逾400名聽眾報名參加!
應(yīng)用大數(shù)據(jù) 提高企業(yè)競爭力
至於制造業(yè),其實也會產(chǎn)生許多大數(shù)據(jù),但宇清數(shù)位智慧總經(jīng)理郭仲仁指出,許多企業(yè)卻不見得會重新檢視這些資訊,其實只要經(jīng)過大數(shù)據(jù)技術(shù)分析,透過細(xì)微的觀察分析及萃取,就可能從中找到提高生產(chǎn)力及縮短產(chǎn)品交期的資訊。
如晶圓代工、面板等產(chǎn)業(yè),都會碰到等待時間不能超過特定時間的壓力,偏偏有30~40%的機(jī)器,會有這方面的問題。如果有任何一種等待因素需要有三個共同部門負(fù)責(zé),結(jié)果其實就可能不會有人負(fù)責(zé),唯有讓每一種等待因素都能被該負(fù)責(zé)的部門看到,才會有人愿意進(jìn)一步的去分析每一種因素的相關(guān)數(shù)據(jù)。
郭仲仁認(rèn)為,如果能找到一種大數(shù)據(jù)的分析方法,能夠混和資料采礦過程,蒐集相關(guān)資料掌握下游如何影響上游,進(jìn)行相關(guān)分析,讓客戶找到重點,并找到真正可以操作的KPI,才會有很大的機(jī)會,找到改善的重點及方法,而這也才是大數(shù)據(jù)分析應(yīng)用的價值所在。
擴(kuò)展企業(yè)IT架構(gòu) 駕馭大數(shù)據(jù)
企業(yè)如果能夠駕馭大數(shù)據(jù),自然能夠提升競爭力,但戴爾臺灣分公司企業(yè)解決方案市場開發(fā)經(jīng)理陳毅達(dá)指出,目前的資料,卻已經(jīng)超越傳統(tǒng)資料庫或現(xiàn)有資料管理工具能夠處里的范圍。因為在爆炸性的資料增長過程中,結(jié)構(gòu)性資料的成長相當(dāng)緩慢,反觀非結(jié)構(gòu)性的資料,包括視訊、網(wǎng)頁、智慧型手機(jī)、消費資料、位置資料、財務(wù)服務(wù)資料,以及社會媒體資料等,陳毅達(dá)指出,至少有80%的數(shù)據(jù),屬於非結(jié)構(gòu)化資料,大約500萬億個文檔,而且資料量每兩年增加一倍。
但目前的資料庫解決方案,卻主要是用來設(shè)計儲存結(jié)構(gòu)化資料,除了只能針對已知問題的回答速度進(jìn)行優(yōu)化外,架構(gòu)本身往往就決定了內(nèi)容形式,對於新資料型態(tài)與新問題,都有適應(yīng)上的困難,加上擴(kuò)展成本高昂,企業(yè)勢必得尋求不同以往的資料處理解決方案,才能面對爆炸性的資料增長。
優(yōu)化大數(shù)據(jù) 創(chuàng)造資料價值
事實上,資料成長的速度,確實相當(dāng)驚人。根據(jù)IDC統(tǒng)計,數(shù)位世界的資訊容量將會從2009年的0.8ZB,在2020年成長到35ZB,等於每15秒就成長1PB,年復(fù)合成長率高達(dá)40%,而且這些數(shù)據(jù)資料不僅巨大而且不同,如何優(yōu)化資料,方便且容易的搜尋到所需要的資訊,也變得更加困難。
麗臺科技新事業(yè)處軟體產(chǎn)品部業(yè)務(wù)副總經(jīng)理萬蕙如指出,前各產(chǎn)業(yè)平均資料儲存量,以證券投資、銀行居首,其次則是制造業(yè)、通訊媒體、國營事業(yè)、政府機(jī)構(gòu)等,整個產(chǎn)業(yè)生態(tài),需要更快速即時獲取針對特定商業(yè)工作項目或流程的綜合細(xì)部資訊。
因為在資訊暴增的時代,企業(yè)營運所面對的挑戰(zhàn),包括一直在更新的大量資料、更快速回應(yīng)大量終端用戶的需求,多數(shù)工作者都需要迅速且有效率地查詢正確資訊,如何能更即時正確地傳遞關(guān)鍵資訊,以加強特定作業(yè)流程的產(chǎn)出與績效,已是當(dāng)前企業(yè)IT部門必須面對的問題。
萬蕙如認(rèn)為,企業(yè)想要優(yōu)化大數(shù)據(jù),應(yīng)該要考量資訊搜尋技術(shù)的新世代應(yīng)用。如Search-Based Applicatioin(SBA),是一種使用最新進(jìn)的搜索暨索引(Search and Index)技術(shù)作為結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)資訊,匯整分析功能開發(fā)之基底平臺的應(yīng)用軟體,這種資訊分析的新方法,可同時提供支援特定工作或流程,而量身訂做的定量和定性資料圖表分析,可全面強化企業(yè)日常業(yè)務(wù)即時決策的準(zhǔn)確性。
應(yīng)用虛擬化技術(shù) 提升大數(shù)據(jù)處理效能
除了資訊搜索技術(shù)外,虛擬化技術(shù)在大數(shù)據(jù)時代,也變得更加重要。事實上,虛擬化環(huán)境目前面對的最主要挑戰(zhàn)之一,其實就是大數(shù)據(jù)時代的來臨,讓資料的儲存及備份,變得更加困難。但群暉科技軟體開發(fā)部經(jīng)理張成鈺指出,大數(shù)據(jù)對虛擬化儲存,是挑戰(zhàn)也是機(jī)會,只要能克服資料保護(hù)效率,做好多重復(fù)制的環(huán)境布署操作,仍能提供非常完整的資料保護(hù)虛擬環(huán)境。
張成鈺表示,虛擬化的好處之一,就是IT資源的處理效能可以更好,因為再強的實體主機(jī),運作效能還是有上限,其實儲存設(shè)置也有強大的運算能力,可以分散運算工作,用來解決虛擬化環(huán)境的效能瓶頸。
要強化虛擬環(huán)境操作的效能,張成鈺指出,除了產(chǎn)品應(yīng)該專為虛擬環(huán)境量身打造,完整支援主流的虛擬化解決方案外,主要的虛擬儲存進(jìn)階功能,也相當(dāng)重要,如儲存設(shè)備就需要面對傳輸效能的問題。張成鈺指出,固態(tài)硬碟(SSD)可讓虛擬化儲存在面對大數(shù)據(jù)的挑戰(zhàn)時,提供效能提升的重要幫助。如藉由安裝SSD進(jìn)行快取,可大幅提升讀取效能,關(guān)鍵在於系統(tǒng)是否無須在成本與效能上妥協(xié),使用少量的SSD,即可達(dá)到效能升級。
善用云端服務(wù) 處理大數(shù)據(jù)
事實上,在大數(shù)據(jù)時代,企業(yè)不僅要考量資料的儲存及應(yīng)用,傳輸技術(shù)也非常重要,尤其在云端運算時代,許多企業(yè)會將資料存放在云端,如果云端端服務(wù)業(yè)者,無法提供高品質(zhì)的資料傳輸服務(wù),企業(yè)就很難即時存取資料,用來作進(jìn)一步的規(guī)劃。
臺灣恩悌悌業(yè)務(wù)部資深副理林志鴻指出,如果企業(yè)選擇將資料儲存在各地分公司或企業(yè)總部機(jī)房,勢必會有人力、物力及金錢方面的投資成本,但如果將資料放在云端,在大數(shù)據(jù)時代,就需要大頻寬,才能縮短傳輸時間,如NTT在2012年正式啟用的ASE海纜,配合這幾年在香港、東京、新加坡及馬來西亞投資的機(jī)房建設(shè),才能提供亞太地區(qū)所需要的高速資料傳輸服務(wù)。
此外,云端服務(wù)業(yè)者在資料派送服務(wù)的優(yōu)化技術(shù),也會影響大數(shù)據(jù)的應(yīng)用。林志鴻表示,類似Youtube、PPS的串流技術(shù),許多云端服務(wù)業(yè)者已經(jīng)開始提供,可以提高傳輸效率,縮短資料傳輸?shù)臅r間,可以減輕對頻寬的壓力。
駕馭大數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù)
大數(shù)據(jù)不只是需要儲存及傳輸,也需要做更深入的分析,才能讓大數(shù)據(jù)更多的價值。淡江大學(xué)統(tǒng)計系副教授陳景祥指出,有沒有必要使用全部資料,是許多企業(yè)可以思考的問題。思考的方向首先就是成本,而且除了有形的金錢成本外,時間及人力資源等無形成本,也都需要一并考量;其次是精確度會受到多少影響,造成的決策風(fēng)險會有多高,最後則是軟硬體方面的限制,是否真的有足夠的能力使用全部資料,進(jìn)行統(tǒng)計分析。
陳景祥強調(diào),企業(yè)若要進(jìn)行資料探勘,一定要先有目標(biāo)設(shè)定,光是只有資料,是無法透過資料探勘獲得所需要的資訊。其他還要考量的重點,還包括目前的科技限制,軟硬體及人力時間成本等。值得注意的是,企業(yè)得到資料探勘結(jié)果後,并不是到此為止。陳景祥強調(diào),資料探勘只是輔助,并非全部自動化,後續(xù)還是需要人力來執(zhí)行歸納分析,才能真正發(fā)揮大數(shù)據(jù)的價值。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。