大數(shù)據(jù)有多火?這樣的答案可能有千百種,也從反向證明了大數(shù)據(jù)真的太火,因為所有人都知道。眾所周知,在Gartner報告中,常常會看到炒作周期這個詞匯。這意味著有很多技術(shù),雖然人人皆知,但是距離實際應(yīng)用落地還有一段距離,這就是炒作期。
大數(shù)據(jù)從0到1分幾步?
然而,大數(shù)據(jù)應(yīng)該過了炒作期,我們更應(yīng)該關(guān)注的是大數(shù)據(jù)的落地,關(guān)注從零到一的過程。正是因為幾百TB甚至幾PB的數(shù)據(jù)限制沒有任何意義,才讓數(shù)據(jù)的處理過程顯得更為重要。
首先我們要分清大數(shù)據(jù)與傳統(tǒng)的統(tǒng)計分析的區(qū)別,首先,大數(shù)據(jù)的體量更大,在大數(shù)據(jù)分析過程中,也采用全體分析,而非抽樣形式;其次,在分析過程中,大數(shù)據(jù)更注重相關(guān)性,而非因果關(guān)系;最后,在大數(shù)據(jù)時代,因為數(shù)據(jù)的更新速度快,人們更注重效率,而非絕對的精確。
這些變化讓大數(shù)據(jù)不得不面臨處理方法的變化。一般來講,大數(shù)據(jù)的處理流程有四步,分別是:采集、導入和預(yù)處理、統(tǒng)計和分析,然后是數(shù)據(jù)挖掘。
數(shù)據(jù)的采集,在大數(shù)據(jù)處理中一直都是第一步。在生活中可以映射到方方面面,每一次的搜索痕跡、注冊信息都是數(shù)據(jù),而物聯(lián)網(wǎng)的發(fā)展也將為未來數(shù)據(jù)的采 集提供幫助。而在數(shù)據(jù)采集過程中,如何處理好峰值將是面臨的首要問題,而這就要依靠合理的分流、公有云、兩地三中心等IT架構(gòu)方法來解決問題。
數(shù)據(jù)傳輸需要解決峰值過高問題
數(shù)據(jù)的導入和預(yù)處理,常常是與第一步數(shù)據(jù)的采集合在一起進行,通過數(shù)據(jù)庫來對數(shù)據(jù)進行集中存儲??梢詫⒔Y(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)存儲,數(shù)據(jù)導入過程中,最重要的特點是每秒導入的數(shù)據(jù)量比較大。
數(shù)據(jù)的統(tǒng)計與分析已經(jīng)成為近年來的一種新興職業(yè),收到很多企業(yè)的青睞。尤其在可視化分析領(lǐng)域,通過對數(shù)據(jù)的計算將計算結(jié)果用圖片等形式類進行呈現(xiàn),得出一個直觀的結(jié)論。這樣的分析方法與用戶的交互性較強,數(shù)據(jù)的顯示體現(xiàn)多維性,同時能夠最直觀的得出數(shù)據(jù)特點。
數(shù)據(jù)挖掘往往是大數(shù)據(jù)處理的最后一步,數(shù)據(jù)挖掘往往是已經(jīng)設(shè)定好一個主體,為了找到某個答案而進行分析和計算,從而達到預(yù)測的效果。數(shù)據(jù)挖掘的定義是從海量數(shù)據(jù)中找到有意義的模式或知識,數(shù)據(jù)挖掘也成為數(shù)據(jù)的終極目的。
數(shù)據(jù)挖掘
大數(shù)據(jù)實現(xiàn)從“0”到“1”要分幾步走?從數(shù)據(jù)的處理來看,這個過程需要經(jīng)歷四步,當然可能有些數(shù)據(jù)處理過程中將數(shù)據(jù)采集和導入集中在一起,或者沒有預(yù)設(shè)一個主體進行數(shù)據(jù)挖掘,都體現(xiàn)了大數(shù)據(jù)時代的特點。