2016年7月17號在北大舉行的第五屆中國大數(shù)據(jù)應(yīng)用論壇上,中國新一代IT產(chǎn)業(yè)推進聯(lián)盟技術(shù)分委會秘書長魯四海做了題為《大數(shù)據(jù)技術(shù)及行業(yè)應(yīng)用》的分享。他分享內(nèi)容分為三個部分:第一,行業(yè)的趨勢、技術(shù)發(fā)展是什么樣的;第二大數(shù)據(jù)在傳統(tǒng)行業(yè)落地的困難,大數(shù)據(jù)要用起來最終還是落在傳統(tǒng)行業(yè),因為IT技術(shù)的發(fā)展不能自娛自樂;第三,傳統(tǒng)行業(yè)如何落地大數(shù)據(jù)。
大數(shù)據(jù)產(chǎn)業(yè)發(fā)展趨勢
首先來看,現(xiàn)在的大數(shù)據(jù)產(chǎn)業(yè)正在發(fā)生著哪些變化。第一,首席數(shù)據(jù)官開始崛起。第二,可視化是推動大數(shù)據(jù)普及的一個重要的手段。大數(shù)據(jù)的真實用戶,我們認為是業(yè)務(wù)不應(yīng)該是IT人員。第三,大數(shù)據(jù)還有一個趨勢就是智能化嵌入,一個是終端的嵌入,一個是在服務(wù)端的嵌入。第四是機器學(xué)習(xí)迎來上揚的趨勢,它已經(jīng)是未來數(shù)據(jù)準(zhǔn)備和預(yù)測分析的必要工作。第五,開源應(yīng)用會持續(xù)加速。第六,數(shù)據(jù)服務(wù)逐漸形成發(fā)展規(guī)模,這個主要有三個原因:一是數(shù)據(jù)這個事我們沒有必要做一些重復(fù)的工作;二是數(shù)據(jù)服務(wù)促進共享。三是擁有數(shù)據(jù)的企業(yè)找到了一種創(chuàng)收的方式。第七,算法市場正在興起,數(shù)據(jù)要去解決問題,中間需要一個算法模型來支撐。第八,互聯(lián)網(wǎng)、金融、健康保持熱度,智慧城市、企業(yè)數(shù)據(jù)化、產(chǎn)業(yè)互聯(lián)網(wǎng)將成為新的增長點。
從前面的趨勢我們也可以看出,傳統(tǒng)行業(yè)將是大數(shù)據(jù)的主戰(zhàn)場。數(shù)據(jù)對傳統(tǒng)企業(yè)的巨大價值不用贅述,具體體現(xiàn)在四個方向:一是在決策模式上,在數(shù)據(jù)這個時代,以從流程為中心轉(zhuǎn)向數(shù)據(jù)為中心;二是運營模式上,不再是以產(chǎn)品和服務(wù)為中心,轉(zhuǎn)向以用戶為中心;三是協(xié)作模式上面,原來是以供應(yīng)鏈為基礎(chǔ)的,現(xiàn)在是生態(tài)鏈為中心。四是企業(yè)組織模式上,原來是以層級為中心,現(xiàn)在是以員工為中心。
傳統(tǒng)行業(yè)落地大數(shù)據(jù)的挑戰(zhàn)
但是傳統(tǒng)行業(yè)落地大數(shù)據(jù)也是有很多挑戰(zhàn)的。比如我們之前在做咨詢過程當(dāng)中就遇到過這樣的情況。有的IT項目交付的時候被推倒重來,大數(shù)據(jù)項目也可能出現(xiàn)這種情況。一個是需求之前是不準(zhǔn)確的,二是我們這個系統(tǒng)建設(shè)速度跟不上需求的變化。?
都說大數(shù)據(jù)的是驅(qū)動創(chuàng)新的最佳方式,其實創(chuàng)新還是有蠻多坑的。比如說,這兩年大家都在講小米的參與感。都去學(xué)人家微博微信的營銷,然后以對人家的微博微信進行數(shù)據(jù)分,然后套到自己的產(chǎn)品上,結(jié)果一點成效都沒有。但人家走量最多的紅米首發(fā)選擇了QQ空間,也得到了QQ空間的大力支持。依據(jù)數(shù)據(jù)創(chuàng)新最大的風(fēng)險在于,認識片面性和數(shù)據(jù)片性。
有的企業(yè)會通過投資收購方式去發(fā)展公司業(yè)務(wù),投資者們達成明確而廣泛的共識,差不多很多時候都是錯的,因為大家在追逐熱點,熱點就有可能導(dǎo)致說大家都過獨木橋。其實很多時候是在做重復(fù)性的研究,這個產(chǎn)業(yè)我們需要協(xié)作。
其實數(shù)據(jù)是很核心的一塊,我們做大數(shù)據(jù)首先解決數(shù)據(jù)的問題。數(shù)據(jù)分成兩塊來看,分為內(nèi)部和外部。內(nèi)部的數(shù)據(jù),一個是現(xiàn)在還有沒有數(shù)據(jù)。我們剛才聽到了去哪兒網(wǎng)可以通過一些技術(shù)手段,收集他的數(shù)據(jù)。那么一般的組織是不是能夠達到呢?再就是數(shù)據(jù)質(zhì)量如何。數(shù)據(jù)的質(zhì)量就要分成兩塊,數(shù)據(jù)的有用性和數(shù)據(jù)的可用性。?
談完數(shù)據(jù)就討論技術(shù),目前我們問三個問題,你的技術(shù)路線,走開源的還是閉源的。第二是私有部署還是使用SaaS的工具去解決你的問題。第三這點更細節(jié),走Hadoop還是走MPP這條線,這跟企業(yè)數(shù)據(jù)特點是有很大關(guān)系的,比如說你的數(shù)據(jù)以結(jié)構(gòu)化為主的,那MPP的模式就更適合你。
技術(shù)真的只是工具,數(shù)據(jù)其實是大數(shù)據(jù)分析過程當(dāng)中的材料。只有材料、只有工具這能做出產(chǎn)品么?不行的,還有一個東西,它需要配方、需要生產(chǎn)的方法,這個就是算法模型。但是算法模型有幾個問題一是對于法的人要求非常高;需要做大量的訓(xùn)練;你開發(fā)出來一個模型之后,應(yīng)用效果也需要檢驗。
團隊,至少有三個方向,首先是業(yè)務(wù)專家,他解決的問題是數(shù)據(jù)的可用性。然后就是IT專家,那樣解決怎么存數(shù)據(jù)、獲數(shù)據(jù)、管理數(shù)據(jù)。還有就是統(tǒng)計專家,他去開發(fā)一些模型。目前是這幾種比較存在形式。還有一種是技術(shù)導(dǎo)向型的,再一個是以應(yīng)用、業(yè)務(wù)為導(dǎo)向的。
如果完全自建團隊,團隊建設(shè)周期需要考慮;如果是合外部服務(wù)商一起合作,那么服務(wù)商的選擇就極其重要了,在大數(shù)據(jù)初級階段,大數(shù)據(jù)企業(yè)良莠不濟。
傳統(tǒng)行業(yè)如何落地大數(shù)據(jù)
前面說到大數(shù)據(jù)應(yīng)用的主戰(zhàn)場是傳統(tǒng)行業(yè),面對這么多的挑戰(zhàn),如何讓大數(shù)據(jù)落地,核心是三個問題:未來走到哪里,從哪里開始,演進步驟是啥。
我們先看未來走到哪里。大數(shù)據(jù)的發(fā)展最終是智慧化,所以未來應(yīng)該是以服務(wù)的方式嵌入到具體的業(yè)務(wù)中去。所以未來企業(yè)都應(yīng)該有一個大數(shù)據(jù)服務(wù)平臺,這個大數(shù)據(jù)服務(wù)平臺通過實時的計算處理,實時響應(yīng)各業(yè)務(wù)系統(tǒng)所需要的數(shù)據(jù)服務(wù)。大數(shù)據(jù)服務(wù)平臺需要的數(shù)據(jù)、算法模型又從哪里來呢?答案就是大數(shù)據(jù)分析平臺,分析平臺包括數(shù)據(jù)準(zhǔn)備、存儲管理、計算處理、分析挖掘、人機交互等內(nèi)容。也就是從未來的企業(yè)大數(shù)據(jù)平臺包括大數(shù)據(jù)分析平臺和服務(wù)平臺。分析平臺著重是離線數(shù)據(jù)的加工處理、算法模型的研發(fā)以及實現(xiàn)挖掘結(jié)果的交互;而服務(wù)平臺著重在在線數(shù)據(jù)服務(wù),直接為各業(yè)務(wù)環(huán)節(jié)提供在線的數(shù)據(jù)服務(wù)。如下圖所示:
企業(yè)級大數(shù)據(jù)應(yīng)用邏輯架構(gòu)參考圖
要實現(xiàn)這樣的大數(shù)據(jù)架構(gòu),難度、復(fù)雜度都非常高,所以需要分步實現(xiàn)。有觀點說先把大數(shù)據(jù)分析平臺建起來,按照數(shù)據(jù)準(zhǔn)備、存儲管理、計算處理、分析挖掘、人機交互一層一層地建,然后建設(shè)數(shù)據(jù)服務(wù)平臺。這種方式從技術(shù)的角度看是非常完美的,但實際操作難度大,而且容易出現(xiàn)平臺使用率偏低的問題。原因主要有兩個:一個是信心,一個數(shù)據(jù)。先說信心,這種方案前期大量的基礎(chǔ)建設(shè),在人、財、物上大最的投入,卻看不到應(yīng)用效果,同時在看不到效果的情況下要求業(yè)務(wù)部門進行大量的配合工作,都會讓大家信心、動力不足。數(shù)據(jù),這各路方案比較重視基礎(chǔ)能力建設(shè),但是現(xiàn)在是不是數(shù)據(jù)能夠接入進來,取決于兩個面,一企業(yè)內(nèi)部數(shù)據(jù)化是不是達到一定的基礎(chǔ),二外部數(shù)據(jù)是不是已準(zhǔn)備好了。我們認大數(shù)據(jù)落地應(yīng)該是融入到業(yè)務(wù)場景里面去的,通過對一些企業(yè)大數(shù)據(jù)應(yīng)用的調(diào)研,我們發(fā)現(xiàn)大數(shù)據(jù)應(yīng)用可以分為這感知、探索、起步、發(fā)展、融合這五個發(fā)展階段。如下圖所示:
大數(shù)據(jù)應(yīng)用5個演進階段示意圖
感知階段,通過引入一些外部咨詢、數(shù)據(jù)服務(wù)讓整個組織感知大數(shù)據(jù)對業(yè)務(wù)發(fā)展的作用,通過培訓(xùn)提升組織對大數(shù)據(jù)的認識。然后在內(nèi)部實現(xiàn)一些簡單的報表實際應(yīng)用到業(yè)務(wù)中去。
探索階段,建設(shè)輕量級數(shù)據(jù)分析平臺,實現(xiàn)核心業(yè)務(wù)數(shù)據(jù)分析,從而推動組織內(nèi)部的數(shù)據(jù)化。開始數(shù)據(jù)應(yīng)用、團隊建設(shè)等方面的探索,可以引入外部團隊進行數(shù)據(jù)戰(zhàn)略的規(guī)劃。
起步階段,拓寬數(shù)據(jù)分析應(yīng)用范圍,在織織數(shù)據(jù)化發(fā)展到一起基礎(chǔ)的前提下,建設(shè)數(shù)據(jù)治理體系,著手建設(shè)企業(yè)級大數(shù)據(jù)分析平臺。
發(fā)展階段,推動組織內(nèi)部全面數(shù)據(jù)化,建設(shè)面向業(yè)務(wù)用戶的大數(shù)據(jù)分析平臺。如果說起步階段更多是IT部門的參與,為業(yè)務(wù)部門所需要的數(shù)據(jù)服務(wù)還更多需要IT部門的配合;發(fā)展階段業(yè)務(wù)部門將有更多的自主能力,IT部門更多進行后臺支持,進行數(shù)據(jù)質(zhì)量、平臺的維護。
融合階段,是大數(shù)據(jù)應(yīng)用最終目標(biāo),通過數(shù)據(jù)服務(wù)平臺的建設(shè),將數(shù)據(jù)服務(wù)融合到業(yè)務(wù)各個環(huán)節(jié),實現(xiàn)用數(shù)據(jù)驅(qū)動業(yè)務(wù)。
最后給大家?guī)c建議:
第一,制定數(shù)據(jù)戰(zhàn)略。這個戰(zhàn)略不僅僅是口號,應(yīng)面巾是有相應(yīng)的機制、制度出來。?
第二,建立數(shù)據(jù)化計劃。首先得有數(shù)據(jù),要把企業(yè)實現(xiàn)數(shù)據(jù)化之后才能更好的做數(shù)據(jù)的分析,而且在這個過程當(dāng)中很重要的一點是要保證數(shù)據(jù)的質(zhì)量。?
第三,建立數(shù)據(jù)平臺。重點考慮,這個數(shù)據(jù)放到這之后能夠找得到,還有就是被讀得懂;重客戶參與,讓業(yè)務(wù)人員參與進來。?
第四,量體裁衣建立數(shù)據(jù)團隊。?
第五,定制好外部數(shù)據(jù)服務(wù)戰(zhàn)略。?
第六,活數(shù)據(jù),動態(tài)模型。只有動態(tài)更新的數(shù)據(jù)才是最有價值的數(shù)據(jù)。模型上也要下功夫,數(shù)據(jù)是材料,平臺是機床,而算法模型則是生產(chǎn)方法和工藝,是競爭的核心。
魯四海還是首席數(shù)據(jù)官聯(lián)盟發(fā)起人,在分享中也提到他們7月14號發(fā)布《中國大數(shù)據(jù)企業(yè)排行榜》,包括有產(chǎn)業(yè)地圖、行業(yè)分析、大數(shù)據(jù)企業(yè)評價指標(biāo)體系和五十多個維度的排行榜,為各位在選擇大數(shù)據(jù)技術(shù)路線、產(chǎn)品、服務(wù)選擇以及服務(wù)商判斷方面提供一些參考。