作為一個生活平淡的人,你是否設(shè)想過在完成了某一天的無聊工作后,會在自家的廚房里聽到警察的敲門聲,然后被告知你可能跟一周后即將發(fā)生的一起兇殺案件相關(guān)?作為一個生活平淡的人,你是否設(shè)想過在完成了某一天的無聊工作后,會在自家的廚房里聽到警察的敲門聲,然后被告知你可能跟一周后即將發(fā)生的一起兇殺案件相關(guān)?
在湯姆·克魯斯主演的電影《少數(shù)派報告》(MinorityReport)中,神秘的先知計算機系統(tǒng)能夠預(yù)知犯罪活動,甚至可以精確到時間、地點及卷入其中的人物,讓警方能夠提前行動加以阻止。
而在現(xiàn)實中,這并非小說家的憑空想象。美國洛杉磯因警員比例過低,一直是全美犯罪率最高的地區(qū)之一。2012年,該警察局開始進行了一項嘗試,由加州大學(xué)人類學(xué)與數(shù)學(xué)系聯(lián)合組成的一個實驗室,為該局提供了一套類似先知的計算器系統(tǒng)。這套系統(tǒng)把洛杉磯市發(fā)案最高的福德希爾地區(qū)劃分為幾個區(qū)域,通過分析過去的1300多萬起案件,找到了發(fā)案與日期、天氣、交通狀況以及其他相關(guān)事件之間的某種關(guān)系,進而能夠預(yù)測出哪個區(qū)域在未來數(shù)小時內(nèi)可能發(fā)生案件。
現(xiàn)在,洛杉磯警察局有一組專門的警員每天會駕駛著警車按照計算器發(fā)出的巡邏指令前往不同的區(qū)域。盡管這些熟練的經(jīng)驗豐富的警員仍然不適應(yīng)被一堆二進制的代碼所指揮,但是在不增加警員的前提下,先知已經(jīng)使該地區(qū)財產(chǎn)犯罪下降了12%,盜竊案件下降了26%。
美國的另外一所大學(xué)——麻省理工學(xué)院正在進行另外一項研究,他們與當?shù)匾患覌D女醫(yī)院合作,把該醫(yī)院所有心臟病患者的病例和心電圖錄入計算機,從而創(chuàng)建了一個計算器程序。當有病人來這里看病時,這個程序可利用心臟病患者的心電圖,預(yù)測在未來一年內(nèi)患者心臟病發(fā)作的機率。美國咨詢界的翹楚麥肯錫咨詢公司將這些現(xiàn)象總結(jié)為一個概念——大數(shù)據(jù)(BigData),并預(yù)言這項技術(shù)將成為人類未來生產(chǎn)力的指向標。隨后,英國牛津大學(xué)教授維克托·邁爾-舍恩伯(ViktorMayer-Schonberger)的著作《大數(shù)據(jù)時代》在全球暢銷,讓大數(shù)據(jù)這個概念開始深入人心。
很難準確地描述什么是大數(shù)據(jù)。維克托教授說:它應(yīng)該是一種思維方式,這也是一個新的改變,從因果性到相關(guān)性的轉(zhuǎn)變,也就是不問原因,而是直接由數(shù)據(jù)得出結(jié)果。
他說,在過去我們問的更多的是為什么,對人類來說,這其實是一個很大的挑戰(zhàn)。比如心臟病發(fā)作這項研究,盡管醫(yī)學(xué)界已經(jīng)研究了幾十年,但是仍然很難找出發(fā)病的具體因果關(guān)系,但是現(xiàn)在,只需要建立一個足夠大的心電圖數(shù)據(jù)庫,并且找到數(shù)據(jù)與心臟病發(fā)作的對應(yīng)關(guān)系,就可以作出準確的預(yù)測。
搜集和分析數(shù)據(jù),從表面上看,這就是大數(shù)據(jù)的開發(fā)者們正在做的工作,這并不是什么新的技術(shù)。北京締元信公司CEO秦雯說:但是互聯(lián)網(wǎng)的發(fā)展使我們在過去的數(shù)年內(nèi)制造的數(shù)據(jù)超過了人類歷史上的數(shù)據(jù)總量,更重要的是,隨著全息攝影技術(shù)、傳感技術(shù)以及谷歌眼鏡這樣的新技術(shù)的誕生,我們收集數(shù)據(jù)的能力變得前所未有地強大,數(shù)據(jù)的爆炸性增長為更全面和精確的分析工作提供了可能性,這正是這個時代的價值。
整合無序的資源
6300多年以前,古埃及人通過太陽升起和下落之間的時間規(guī)律制做了太陽歷,預(yù)測太陽在某一天何時會升起,將單向前進的時間劃分為365天為一個周期。2200多年以前,中國人通過觀察候鳥遷徙和植物發(fā)芽制作了二十四節(jié)氣,大致預(yù)測了一年之中的天氣變化情況,讓農(nóng)業(yè)的播種和收割時間變得有規(guī)律可循。
北京締元信數(shù)據(jù)公司CEO秦雯認為,從廣義上看,這些都是根據(jù)過去的數(shù)據(jù)進行的預(yù)測,但是與現(xiàn)在大數(shù)據(jù)的含義相比,這些預(yù)測顯得過于廣泛,而且規(guī)律更容易掌握?,F(xiàn)在的大數(shù)據(jù)更多的是分析由人類行為所構(gòu)成的現(xiàn)象,比如華爾街的股票走勢、洛杉磯的犯罪發(fā)生情況、淘寶網(wǎng)上即將熱銷的商品,而在過去這些都是不可預(yù)測的。
1966年,美國交通事故死亡人數(shù)高達5萬人,達到了歷史的峰值。美國國會要求聯(lián)邦政府立即建立一套有效的交通事故記錄系統(tǒng),分析確定交通事故及其造成死亡的原因,以期望找到最能夠避免事故的交通規(guī)劃方式。
這在當時看起來僅僅是一種前途未知的嘗試,因為一起交通事故的數(shù)據(jù)可能是完全獨立且無序的,一年的數(shù)據(jù)、一個地區(qū)的數(shù)據(jù)也看不出太多章法。然而隨著跨年度、跨地區(qū)的數(shù)據(jù)越來越多,群體的行為特點就會在數(shù)據(jù)上呈現(xiàn)一種秩序、關(guān)聯(lián)、穩(wěn)定,更多規(guī)律就會浮出水面。現(xiàn)在,美國的汽車保有量是中國的3倍,而交通事故死亡人數(shù)僅僅是中國的一半。
這種做法最符合現(xiàn)在的大數(shù)據(jù)含義,而且也是人類最早在大數(shù)據(jù)方面獲得的甜頭。
英特爾中國研究院首席工程師吳甘沙說,大數(shù)據(jù)并不僅僅是大量的數(shù)據(jù),而是在看似無序和不關(guān)聯(lián)的數(shù)據(jù)之間找到某種關(guān)聯(lián),發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性,是大數(shù)據(jù)做前人之未做、前人所不能的機會,也正是大數(shù)據(jù)最主要的特點。
比如,你如果知道人們在晨洗之后多長時間會走出家門,再從供水系統(tǒng)的數(shù)據(jù)中找到用水的高峰時間,就能準確地預(yù)測到今天早晨哪個區(qū)域哪個時間路上的交通最擁擠,同樣可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關(guān)燈的時間,加上偏移量來估計出堵車時點。他說。
數(shù)中自有黃金屋
締元信是一家網(wǎng)絡(luò)監(jiān)測公司,其主要業(yè)務(wù)是為互聯(lián)網(wǎng)站的站長提供訪問量統(tǒng)計報告。自2008年開始,他們致力于開發(fā)一套數(shù)據(jù)分析系統(tǒng),希望通過關(guān)鍵詞設(shè)置分析人們在互聯(lián)網(wǎng)上瀏覽的內(nèi)容,以獲知他們的審美取向和使用偏好,進而知道他們正在成為哪種商品的潛在購買者。
這項工作并不像它看起來那樣容易。秦雯說,因為你并非要刻意地監(jiān)視某一個人,全中國有5億多網(wǎng)民,每天他們要在網(wǎng)頁上點擊上百億次鼠標,每一次鼠目標點擊對你的監(jiān)測服務(wù)器來說都是一樣的,它并不知道這是坐在高檔寫字樓里的公司白領(lǐng)還是書房里的中學(xué)生操作了這一次點擊。
這項服務(wù)現(xiàn)在正變得炙手可熱,無論是在淘寶、京東還是亞馬遜,你都會在打開網(wǎng)頁的的同時,看到那些你似乎很需要的廣告,而并非過去那樣毫無指向的信息。
盡管如此,無論是締元信還是淘寶或者美國的亞馬遜,現(xiàn)在對于大數(shù)據(jù)的開發(fā)都非常初級,大數(shù)據(jù)的開發(fā)遠遠不是為了做廣告。秦雯說:大數(shù)據(jù)是人類剛剛獲得的一個富礦,而我們目前只開發(fā)了它表面的一小層。
的確有更多的人在利用這一思路淘金。保羅?霍廷是英國的一名80后外匯交易員,他從三位信息學(xué)教授那里獲得靈感,認為Twitter上每天兩億多條信息能直接反映人們的情緒,而這種情緒將是宏觀經(jīng)濟走向的晴雨表。
霍廷依據(jù)分析結(jié)果決定如何處理手中數(shù)以百萬美元計的股票。原則很簡單:如果所有人似乎都高興,買入;如果大家的焦慮情緒上升,拋售。隨后他推出了一款利用Twitter關(guān)鍵詞檢索來預(yù)測公眾情緒進而判斷股票走勢的對沖基金DerwentCapital,并大膽承諾,公司推出的交易策略可以獲得的年回報率高達15~20%。結(jié)果表明,人們在網(wǎng)上的情緒變化會在2~6天后影響到指數(shù)的變化,霍廷的公司今年第一季度獲得7%的收益率。
在國家層面,2012年,尚在經(jīng)濟危機陰影下的英國政府就撥款10萬英鎊,并邀請英國股市排名前100的大企業(yè)共同出資,建立一個國家級的公開數(shù)據(jù)研究組織。英國內(nèi)閣部長弗朗西斯?莫德證實說,其實英國政府早有意帶頭建立英國數(shù)據(jù)銀行,政府想算清楚究竟這個國家或政府創(chuàng)造了什么。他表示,英國不只是要成為世界首個完全公布政府數(shù)據(jù)的國家,英國還應(yīng)該成為一個國際榜樣,去探索那些公開數(shù)據(jù)在商業(yè)創(chuàng)新和刺激經(jīng)濟增長方面的潛力。
被忽視的個人價值
數(shù)據(jù)的產(chǎn)生變得更加個人化,無論是亞馬遜、谷歌還是那些尚隱藏在大學(xué)里的實驗室,他們研究的數(shù)據(jù)組都是由個人創(chuàng)造的。每當我們打電話、發(fā)短信,在互聯(lián)網(wǎng)上使用搜索工具或者旅行、購物,這些行為都在為這個世界提供著新的數(shù)據(jù)。這些內(nèi)容使得這個世界上的數(shù)據(jù)正在以每天250萬TB的速度增加。
互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,加快了信息化向社會經(jīng)濟各方面、大眾日常生活的滲透。有資料顯示,1998年全球網(wǎng)民平均每月使用流量是1MB(兆字節(jié)),2003年是100MB,2008年是1GB(1GB等于1024MB),2014年將是10GB。
你使用餐具是用左手還是右手?吃飯的時候習(xí)慣喝湯嗎?在加油站等待時是否會下車?你在早晨洗臉之后多久會走出家門?這些看起來毫無意義的問題正在變成一種有形的價值。因為當千萬個甚至更多的如你一樣的人被制作成為統(tǒng)計數(shù)字和圖表之后,這些數(shù)學(xué)符號就有可能被其他的個人、企業(yè)甚至是政府有效使用。
正如吳甘沙所說,普通人早晨的洗漱習(xí)慣很有可能成為那些導(dǎo)航地圖生產(chǎn)者所需要的數(shù)據(jù),而這些產(chǎn)品則會反過來讓每個人的生活變得更便捷、更可支配。
來自麥肯錫的報告顯示:互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量將伴隨著安裝在汽車、零售、物流、安全、應(yīng)用工具領(lǐng)域傳感器數(shù)量的增加而增長。此外,報告還指出,在今后的五年里,全世界互聯(lián)網(wǎng)傳感器的部署將以30%的速度增加。到2020年,在美國,基于地理位置服務(wù)LBS將催生8000億美元的市場空間,其中,個人的位置應(yīng)用服務(wù)將產(chǎn)生7000億美元的市場,基于位置的移動游戲、方位共享及出于社交網(wǎng)絡(luò)安全考慮的定位跟蹤是個人市場的主要應(yīng)用。另一方面,企業(yè)將擁有1000億美元的市場,主要應(yīng)用聚焦于移動端的廣告推送、基于手機位置的自動收費及基于位置的商業(yè)智能服務(wù)。
秦雯堅信,未來的數(shù)據(jù)會像現(xiàn)在的石油或者其他金屬那樣成為一種商品,在世界各地會誕生數(shù)據(jù)交易所。
你會看到這樣的場景,一個小公司的經(jīng)營者拿著信用卡走進交易所說,我想要購買香港地區(qū)所有人刷牙習(xí)慣的數(shù)據(jù)。秦雯說。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。