越來(lái)越多的人開(kāi)始重視“數(shù)據(jù)技術(shù)(DT )”, 也就是從傳統(tǒng)IT的以事務(wù)處理技術(shù)為核心,逐步轉(zhuǎn)向?qū)W⒂跀?shù)據(jù)本身。“數(shù)字化”,“物聯(lián)網(wǎng)”和“云計(jì)算”讓一切皆可“量化”,所有的系統(tǒng)和設(shè)備每時(shí)每刻都在產(chǎn)生大量的、不同格式的、混雜的數(shù)據(jù)。利用好這些數(shù)據(jù),可以讓我們更全面的了解我們身處的世界。
甲骨文公司副總裁及企業(yè)績(jī)效、商務(wù)智能和大數(shù)據(jù)業(yè)務(wù)中國(guó)區(qū)總經(jīng)理 高禮強(qiáng)
利用大數(shù)據(jù)的關(guān)鍵在于縮短業(yè)務(wù)人員和數(shù)據(jù)之間的距離。我觀察到國(guó)內(nèi)越來(lái)越多的客戶在計(jì)劃實(shí)施大數(shù)據(jù)項(xiàng)目,他們其中大多數(shù)都有在“小”數(shù)據(jù)時(shí)代建設(shè)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)、數(shù)據(jù)挖掘(Data Mining)和商業(yè)智能(Business Intelligence)的經(jīng)驗(yàn),但由于缺少對(duì)大數(shù)據(jù)思維變革的理解,往往事倍功半。究其原因,主要是忽略了大數(shù)據(jù)所要處理的,不僅有傳統(tǒng)結(jié)構(gòu)化的高價(jià)值密度的業(yè)務(wù)數(shù)據(jù),還包括規(guī)模巨大且結(jié)構(gòu)多樣化的低價(jià)值密度數(shù)據(jù)。因此,做大數(shù)據(jù)分析所采用的分析策略和技術(shù)手段,必然有所不同。打個(gè)比方,如果我們傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析項(xiàng)目主要做的是1+1=2的因果關(guān)系分析,那么大數(shù)據(jù)其實(shí)更需要做的是A+B+C+D=?的關(guān)聯(lián)度分析。換言之,傳統(tǒng)的數(shù)據(jù)分析項(xiàng)目做的通常是可以預(yù)知的事情,提高的是業(yè)務(wù)管理效率,而大數(shù)據(jù)探索是要尋找潛在的業(yè)務(wù)規(guī)律,和可能帶來(lái)的業(yè)務(wù)創(chuàng)新。
因果關(guān)系示意圖 關(guān)聯(lián)關(guān)系示意圖
可視化探索+關(guān)聯(lián)性分析 =“全數(shù)據(jù)”洞察
在“小”數(shù)據(jù)時(shí)代,做好數(shù)據(jù)關(guān)聯(lián)關(guān)系分析和因果分析已屬不易。數(shù)據(jù)很難得到,收集整理過(guò)程也往往耗費(fèi)巨大。從了解需求、建立假設(shè)、創(chuàng)建模型,再通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證假設(shè)。由于一切都始于假設(shè),這些分析就都有受偏見(jiàn)影響的可能,而且極易導(dǎo)致錯(cuò)誤。
如果用這樣的方法去做大數(shù)據(jù)項(xiàng)目,通過(guò)數(shù)據(jù)整合、治理、清洗、建模、挖掘分析和展現(xiàn)的過(guò)程,業(yè)務(wù)用戶距離數(shù)據(jù)仍然是比較遙 遠(yuǎn)的。而一旦人們依賴主觀的經(jīng)驗(yàn)對(duì)低價(jià)值大數(shù)據(jù)進(jìn)行清洗,必然客觀上會(huì)導(dǎo)致數(shù)據(jù)價(jià)值的無(wú)辜流失。所以,對(duì)于大數(shù)據(jù)項(xiàng)目來(lái)說(shuō),如果你能對(duì)大數(shù)據(jù)有基于全數(shù)據(jù) (而不是清洗后的數(shù)據(jù))的可視化探索洞察,就能在理解數(shù)據(jù)關(guān)聯(lián)基礎(chǔ)上,更好地進(jìn)行高效的數(shù)據(jù)價(jià)值發(fā)現(xiàn)。甲骨文作為數(shù)據(jù)管理與業(yè)務(wù)分析軟件領(lǐng)域的市場(chǎng)領(lǐng)導(dǎo) 者,為客戶提供最全面、集成度最高的大數(shù)據(jù)解決方案,幫助各種規(guī)模的企業(yè)組織發(fā)現(xiàn)大數(shù)據(jù)的關(guān)聯(lián)價(jià)值,幫助更好制定和調(diào)整業(yè)務(wù)戰(zhàn)略、優(yōu)化運(yùn)營(yíng)、抓住新的市場(chǎng)機(jī)遇。甲骨文的大數(shù)據(jù)信息探索工具Endeca和新一代的面向Hadoop技術(shù)的甲骨文大數(shù)據(jù)發(fā)現(xiàn)(Oracle Big Data Discovery, Oracle BDD)是強(qiáng)大的可視化大數(shù)據(jù)探索工具,是集發(fā)現(xiàn)、探索、轉(zhuǎn)變、挖掘、展現(xiàn)和共享為一體的端到端大數(shù)據(jù)關(guān)聯(lián)分析平臺(tái)。
汽車(chē)行業(yè)大數(shù)據(jù)應(yīng)用:實(shí)現(xiàn)高效售后服務(wù)
為了方便大家理解,我這里與大家分享兩個(gè)生動(dòng)的Oracle BDD的應(yīng)用案例。我們有一個(gè)汽車(chē)集團(tuán)的用戶,這個(gè)企業(yè)的大數(shù)據(jù)系統(tǒng)非常復(fù)雜,匯集了包括零部件采購(gòu)數(shù)據(jù)、產(chǎn)成品數(shù)據(jù)、庫(kù)存數(shù)據(jù)、銷(xiāo)售數(shù)據(jù)、售后維修維護(hù)數(shù)據(jù)、售后T&M開(kāi)銷(xiāo)數(shù)據(jù)、客服中心受理數(shù)據(jù)、客戶網(wǎng)上投訴數(shù)據(jù)、多個(gè)汽車(chē)論壇的互聯(lián)網(wǎng)輿情數(shù)據(jù)等等。
我們的客戶通過(guò)Oracle BDD進(jìn)行大數(shù)據(jù)探索,可以成功地了解到哪些問(wèn)題和哪些部件的關(guān)聯(lián)性高、哪些問(wèn)題和維修量關(guān)聯(lián)性高等有價(jià)值的信息。當(dāng)客戶的業(yè)務(wù)分析師進(jìn)入BDD的應(yīng)用界面,首先可以看到所有220個(gè)數(shù)據(jù)屬性(維度)的面貌,包括生產(chǎn)了多少車(chē)、有多少車(chē)在庫(kù)、有多少車(chē)在修、花費(fèi)多少人工在修、各種產(chǎn)成是多少等等。在這些基本信息之外,也會(huì)看到各種從非結(jié)構(gòu)化數(shù)據(jù)中提煉出的“云標(biāo)簽”屬性,即客戶哪些抱怨比較多、哪些車(chē)存在哪些問(wèn)題,而且是通過(guò)不同大大小小的標(biāo)簽文字來(lái)直觀地表達(dá)出來(lái),那些大一些的標(biāo)簽代表發(fā)生概率比較高的數(shù)據(jù)對(duì)象。
其中有一個(gè)典型的場(chǎng)景,客戶發(fā)現(xiàn)一些用戶常常抱怨汽車(chē)冒煙的問(wèn)題,于是就在BDD的搜索框中輸入“冒煙”,BDD實(shí)時(shí)搜索關(guān)聯(lián)出所有與冒煙有關(guān)的信息,包括冒黑煙冒白煙、哪些車(chē)冒煙、哪些用戶投訴汽車(chē)冒煙、已有汽車(chē)維修記錄中有多少是和冒煙有關(guān)的、冒煙車(chē)集中在哪個(gè)時(shí)間段、冒煙和哪些部件有關(guān)、導(dǎo)致冒煙的部件是哪些供應(yīng)商的、維修冒煙車(chē)的成本是多少等等一系列關(guān)聯(lián)的信息結(jié)果。通過(guò)這些數(shù)據(jù),他們可以馬上發(fā)現(xiàn)關(guān)聯(lián)最多的是兩家配件供應(yīng)商,在過(guò)去一個(gè)月左右的時(shí)間里,幾個(gè)型號(hào)的零件,以及類(lèi)似的客戶抱怨數(shù)據(jù)。這就讓業(yè)務(wù)人員迅速將客戶的投訴和配件供應(yīng)商以及相關(guān)零件批次關(guān)聯(lián)起來(lái)。像BDD這種用戶自助式的靈活的關(guān)聯(lián)探索分析,用其它的大數(shù)據(jù)分析工具是很難做到的。
醫(yī)療大數(shù)據(jù)應(yīng)用應(yīng)用:用大數(shù)據(jù)破解疑難病癥
我要和大家分享的另外一個(gè)Oracle BDD案例,是個(gè)醫(yī)院大數(shù)據(jù)項(xiàng)目。這個(gè)醫(yī)院的大數(shù)據(jù)系統(tǒng)涵蓋了醫(yī)院信息系統(tǒng)HIS和臨床信息系統(tǒng)CIS兩大系統(tǒng),具體包括了門(mén)診管理、收費(fèi)與帳務(wù)管理、醫(yī)囑管理、門(mén)診電子病歷、臨床記錄與文檔、醫(yī)療質(zhì)量控制、病案管理等二十多個(gè)應(yīng)用子系統(tǒng),也是包括了結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的200多個(gè)數(shù)據(jù)屬性(維度)。我們可以在下面圖片中看到當(dāng)前消化道科的患者人數(shù)為3830人,這些患者住院人次為4160、平均住院天數(shù)7.97天、31天再住院人數(shù)80、再住院率1.92%。
Oracle BDD案例——醫(yī)院大數(shù)據(jù)系統(tǒng)截屏
醫(yī)院各科室的業(yè)務(wù)用戶可以根據(jù)訪問(wèn)權(quán)限,方便靈活地以自助的探索形式,通過(guò)搜索,關(guān)聯(lián)、篩選、鉆取等操作來(lái)發(fā)現(xiàn)自己所關(guān)心 的數(shù)據(jù)結(jié)果,并實(shí)時(shí)地形成各種分析圖表。譬如某個(gè)醫(yī)生遇到了一個(gè)罕見(jiàn) 病例,患者可能得了克羅恩病,但這名醫(yī)生卻沒(méi)有關(guān)聯(lián)的醫(yī)治經(jīng)驗(yàn),BDD可以怎么幫助他呢?醫(yī)生只要在BDD的搜索框里輸入克羅恩病,BDD就會(huì)搜索尋找出 有關(guān)聯(lián)的所有信息,包括醫(yī)院曾經(jīng)接診過(guò)哪些克羅恩病患者、哪些醫(yī)生診治過(guò)克羅恩病患者、克羅恩病患者做了哪些化驗(yàn)、醫(yī)生都開(kāi)了什么藥、是否有病情嚴(yán)重者住院或手術(shù)、這些患者中是否有回診等等。從下圖中你會(huì)發(fā)現(xiàn)醫(yī)院過(guò)去曾經(jīng)接知過(guò)31位克羅恩病患者,83%是男性,40歲以上的患者占了87%,100%住院治療,平均14天,住院而且克羅恩病患者的再住院率是2.78%。
醫(yī)院大數(shù)據(jù)系統(tǒng)病例探析分析界面截屏
這些關(guān)聯(lián)的信息恰恰給了醫(yī)生最好的參考,也輔助醫(yī)生做出判斷的預(yù)測(cè)。醫(yī)生可以瀏覽所有患者的電子病例和用藥情況做為參考和借鑒。可以說(shuō),Oracle BDD正在大大地提高了大數(shù)據(jù)在醫(yī)院門(mén)診醫(yī)治、醫(yī)療質(zhì)量控制、醫(yī)療科研、流行病防治、資源使用效率和醫(yī)院的管理水平和效率。
Oracle BDD能夠使大數(shù)據(jù)關(guān)聯(lián)性分析化繁為簡(jiǎn),同時(shí)還能加快數(shù)據(jù)價(jià)值的獲取速度。BDD還支持地理位置服務(wù)和語(yǔ)言情感分析,讓信息的關(guān)聯(lián)進(jìn)一步拓展到空間和情感。通過(guò)Oracle BDD可讓包括分析團(tuán)隊(duì)和業(yè)務(wù)用戶在內(nèi)的更多人員輕松訪問(wèn),實(shí)現(xiàn)大數(shù)據(jù)關(guān)聯(lián)分析的普及化。
如果您正在實(shí)施的大數(shù)據(jù)項(xiàng)目還沒(méi)有獲得成效,或是正在計(jì)劃實(shí)施一個(gè)大數(shù)據(jù)項(xiàng)目,相信您可以從甲骨文大數(shù)據(jù)解決方案中找到一種便捷有效的方式,從龐雜的大數(shù)據(jù)系統(tǒng)中獲取有價(jià)值的商業(yè)洞察。