似乎所有人都在關(guān)注大數(shù)據(jù),甚至包括美國聯(lián)邦政府。美國聯(lián)邦貿(mào)易委員會(FTC)去年年底向數(shù)據(jù)經(jīng)紀(jì)行業(yè)的9家公司發(fā)出命令,要求他們提供對客戶數(shù)據(jù)收集和使用情況的信息。FTC的行動明確表明,雖然大數(shù)據(jù)的興起提供了很多商業(yè)利益,但也帶來重大的隱私問題。
為什么要使用大數(shù)據(jù)?
大數(shù)據(jù)不同于過去的數(shù)據(jù)倉庫,因為它幾乎分析所有類型的數(shù)據(jù)文件或格式,包括圖像、視頻以及從社交媒體收集的數(shù)據(jù)。大數(shù)據(jù)的另一個特點是它沒有像服務(wù)器對數(shù)據(jù)存儲的一對一的關(guān)系,而是依賴虛擬化架構(gòu),從大型內(nèi)容商店和檔案中提取內(nèi)容作為單一全球資源。
在企業(yè)管理人員和業(yè)務(wù)線經(jīng)理中,使用大數(shù)據(jù)的最大動機是形成更準(zhǔn)確、詳細(xì)的預(yù)測或者推測,從而為企業(yè)提供潛在的優(yōu)勢。大數(shù)據(jù)帶來的業(yè)務(wù)優(yōu)勢很廣泛,從新產(chǎn)品開發(fā)和改進到最佳定價,再到篩選求職簡歷和設(shè)計有效的營銷活動等。事實上,政治運動已經(jīng)開始利用大數(shù)據(jù)分析:2012年奧巴馬競選就利用了大數(shù)據(jù)分析來確定可能投票的選民,然后影響他們,通過他們來籌集競選資金,并獲得選票,這是奧巴馬獲得最終勝利的關(guān)鍵戰(zhàn)略。
大數(shù)據(jù)隱私問題
FTC最近采取的行動是專門針對數(shù)據(jù)經(jīng)紀(jì)公司:這種公司收集和分析特定消費者行為數(shù)據(jù),然后將分析結(jié)果賣給希望提高營銷和銷售業(yè)績的公司。然而,需要承認(rèn)的是,使用大數(shù)據(jù)帶來越來越多的隱私問題,這并不僅限于這些傳統(tǒng)的數(shù)據(jù)經(jīng)紀(jì)公司。經(jīng)濟學(xué)人信息部(經(jīng)濟學(xué)人集團內(nèi)獨立的業(yè)務(wù)部)公布了使用大數(shù)據(jù)最多的19個行業(yè)領(lǐng)域,包括制造業(yè)、IT和技術(shù)、金融服務(wù)、專業(yè)服務(wù)、醫(yī)療保健、制藥和生物技術(shù)以及消費品等。毫無疑問,大數(shù)據(jù)革命已經(jīng)開始。
根據(jù)大數(shù)據(jù)的特點,以及大數(shù)據(jù)使用的業(yè)務(wù)動機,最關(guān)鍵的隱私問題是,簡單地說,數(shù)據(jù)的質(zhì)量或者準(zhǔn)確性;以及企業(yè)使用這些數(shù)據(jù)來作出決定而可能會對個人產(chǎn)生的負(fù)面影響。例如,從社交媒體獲取的個人信息的準(zhǔn)確性?從社交媒體或者其他網(wǎng)絡(luò)來源的信息可以用于篩選或者排名求職申請,或者提高醫(yī)療保險的價格嗎?基本的個人資料,例如年齡、婚姻狀況、教育或者就業(yè)情況通常都是未經(jīng)驗證的。在免費電子郵件服務(wù)中同樣也沒有這些驗證,幾乎所有用戶都會點選接受使用條款和私隱聲明,表明同意放棄用于數(shù)據(jù)匯總的一定程度的隱私權(quán)利。
另一個質(zhì)量問題是,當(dāng)收集互聯(lián)網(wǎng)搜索字詞或短語時,可能會對它們存在誤解。企業(yè)利用大數(shù)據(jù)不佳的例子包括使用互聯(lián)網(wǎng)搜索詞條來評估產(chǎn)品定價,或者潛在目標(biāo)客戶。要知道,在家庭計算機中可能有多個用戶,并且有很多原因某人在網(wǎng)上搜索與他們無關(guān)的主題。這種類型的數(shù)據(jù)收集、分析和使用可能產(chǎn)生有問題的分析結(jié)果,從而導(dǎo)致錯誤的決策,而最終造成個人和分析數(shù)據(jù)的企業(yè)兩敗俱傷的局面。這種缺乏對大數(shù)據(jù)質(zhì)量的控制將我們指向另一個隱私保護原則,即收集符合且適合既定目標(biāo)的個人數(shù)據(jù)。
大數(shù)據(jù)隱私的最佳做法
企業(yè)處理大數(shù)據(jù)的最佳做法仍然還沒有確定,但已經(jīng)有一些經(jīng)驗可供我們借鑒,確保在不犧牲個人數(shù)據(jù)隱私的情況下,推動大數(shù)據(jù)創(chuàng)新。
有效使用大數(shù)據(jù)的第一步是正確地采購和管理云服務(wù),這是使大數(shù)據(jù)符合成本效益的先決條件:大多數(shù)企業(yè)不能或者不會投資于支持大數(shù)據(jù)計劃所需要的IT基礎(chǔ)設(shè)施,而是依賴云計算應(yīng)用、基礎(chǔ)設(shè)施和處理能力。此外,即使是那些愿意投資的企業(yè)也會發(fā)現(xiàn),沒有云計算提供的靈活性,他們將舉步維艱。這也暴露了很多企業(yè)的薄弱環(huán)節(jié),即普遍不能確保云計算中數(shù)據(jù)的安全性和隱私性。企業(yè)執(zhí)行標(biāo)準(zhǔn)的一般安全合同條款并不夠。對于特定數(shù)據(jù)隱私控制,云服務(wù)供應(yīng)商和云服務(wù)用戶明確各自必須承擔(dān)的責(zé)任。還必須對云服務(wù)進行持續(xù)的檢測和審計,同時通過相關(guān)指標(biāo)來顯示數(shù)據(jù)完整、保密和可用。使用云計算服務(wù)的完美的數(shù)據(jù)保護資源是云安全聯(lián)盟(Cloud Security Alliance),其官網(wǎng)上有很多指導(dǎo)性文件可供參考。
從過往的經(jīng)驗來看,在部署云服務(wù)時,最好在公共云執(zhí)行大數(shù)據(jù)原型,然后轉(zhuǎn)移到私有云。為什么?公共云部署,顧名思義,是在第三方環(huán)境內(nèi),并可能受到不信任各方的訪問。而私有云部署直接受組織或者企業(yè)的控制和管理,即使數(shù)據(jù)計算設(shè)施可能位于企業(yè)外部,但私有云部署只能由受信任的各方來訪問。
更好地利用大數(shù)據(jù)的下一個戰(zhàn)略是部署融合存儲。融合存儲更有效,并能夠降低錯誤的可能性,而這些錯誤可能影響數(shù)據(jù)質(zhì)量或準(zhǔn)確性。融合存儲與數(shù)據(jù)質(zhì)量和準(zhǔn)確性相關(guān)的關(guān)鍵特征是重復(fù)數(shù)據(jù)刪除,它還具有成本效益的優(yōu)勢。
另一種最佳做法是正確地清洗數(shù)據(jù),以幫助避免一些上述隱私問題。Emory University數(shù)據(jù)倉庫專家Amy Dean表示:在盡可能早的時候,對數(shù)據(jù)進行過濾、清理、刪減、一致化、匹配、連接和診斷。鑒于數(shù)據(jù)質(zhì)量對分析的影響,Dean建議對多樣的不同的數(shù)據(jù)進行衡量或者評估。Dean還建議,為了查詢,數(shù)據(jù)來源應(yīng)該有鏈接或可用,這樣有問題的任何數(shù)據(jù)元素都可以追溯到其源頭。
最終,確保個人數(shù)據(jù)準(zhǔn)確性(進而確保更好的數(shù)據(jù)隱私)的最好辦法是鼓勵和要求消費者查看、審查和糾正收集到的有關(guān)自己的信息,而不只是企業(yè)自己動手。此外,消費者審查過程要易用,而且不需要消費者花錢的。對于早期大數(shù)據(jù)使用者,這是很艱巨的工作,因為他們通常收集大量甚至他們從未使用的數(shù)據(jù),操作起來會很復(fù)雜。并且,企業(yè)可能也擔(dān)心消費者看到他們收集了如此詳細(xì)的個人信息。但這種透明度是讓消費者決定采用大數(shù)據(jù),建立信心的最佳方式。信譽報告實體一直以來讓消費者訪問、審查和糾正數(shù)據(jù),這是長期有效的做法,這也是美國監(jiān)管部門對該行業(yè)的要求。同樣,隱私提示、網(wǎng)站聲明(其中包含回答問題的詳細(xì)聯(lián)系方式)能夠?qū)崿F(xiàn)更好的透明度,也是處理錯誤數(shù)據(jù)的方法。
最富爭議的企業(yè)隱私觀念是取得同意或者允許收集和使用個人數(shù)據(jù)。如果時光可以倒流,一切重新開始,這將是個理想的基本規(guī)則。然而,尋求個人的同意來收集個人數(shù)據(jù)已經(jīng)為時已晚,因為已經(jīng)有大量個人數(shù)據(jù)被收集和廣泛共享。不爭的事實是,我們不可能確定所有可能收集了個人數(shù)據(jù)的企業(yè)。
有種辦法可以幫助個人重新獲得對其個人數(shù)據(jù)的控制,即允許他們完全刪除和清除自己的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)用戶并不樂于提供該功能,并且,這是對消費者是否能意識到和相信使用其數(shù)據(jù)能夠帶來優(yōu)勢的嚴(yán)峻考驗。監(jiān)管部門在考慮保護消費者隱私權(quán)利的時候,必然會要求提供刪除數(shù)據(jù)的能力。隨著大數(shù)據(jù)使用的不斷發(fā)展,在企業(yè)大數(shù)據(jù)部署的技術(shù)設(shè)計和架構(gòu)階段,企業(yè)應(yīng)該考慮提供允許個人刪除特定數(shù)據(jù)字段的功能。
同樣的,從保護個人隱私權(quán)利的角度來看,使用個人數(shù)據(jù)的更好的辦法就是對所有個人數(shù)據(jù)匿名化處理。然而,匿名化的概念(即刪除任何可識別的字段或?qū)傩?并沒有被證明是可行的。早在2000年, Latanya Sweeney博士(現(xiàn)為哈佛大學(xué)教授)就表明只需要三個信息就可以確定87%的美國人:ZIP代碼、出生日期和性別,而這些信息都可以在公共記錄中找到??紤]到這些研究結(jié)果,即使部署了匿名化系統(tǒng),我們?nèi)匀荒軌蛑匦麓_定任何居住在美國的個人消費者的身份。
考慮到所有這些問題和戰(zhàn)略,在蓬勃發(fā)展的大數(shù)據(jù)領(lǐng)域,保護個人隱私權(quán)利的解決辦法是,確保可靠的準(zhǔn)確的個人數(shù)據(jù),并對其進行適當(dāng)?shù)慕庾g。同時,企業(yè)應(yīng)該將上述隱私原則納入其大數(shù)據(jù)開發(fā)和使用中,只有這樣,企業(yè)才能夠獲得最好的結(jié)果,或者說,最少的消費者抵觸情緒。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。