何在保證基因數(shù)據(jù)和醫(yī)療記錄安全的同時(shí),運(yùn)用云端強(qiáng)大的計(jì)算能力分析找出基因和疾病之間有意義的關(guān)聯(lián)?
未來(lái)醫(yī)學(xué)的夢(mèng)想是理解DNA和疾病之間的聯(lián)系,并以此為基礎(chǔ)為患者制定個(gè)性化的治療方案。但是,科學(xué)家意識(shí)到這樣的「?jìng)€(gè)性化」或「精準(zhǔn)」醫(yī)學(xué)有一個(gè)難題:如何在保證基因數(shù)據(jù)和醫(yī)療記錄安全的同時(shí),能夠運(yùn)用云端強(qiáng)大的計(jì)算能力分析找出基因和疾病之間有意義的關(guān)聯(lián)。
目前,一項(xiàng)新興的數(shù)據(jù)加密技術(shù)也許可以解決這一難題。
加州大學(xué)圣地亞哥分校(以下簡(jiǎn)稱(chēng)UCSD)正在探討如何結(jié)合加密技術(shù)進(jìn)行基因數(shù)據(jù)分析,他們?cè)谳^小的數(shù)據(jù)集中應(yīng)用一個(gè)被稱(chēng)作「同態(tài)加密(homomorphic encryption)」的方法,10分鐘內(nèi)就能找到與疾病相關(guān)的基因變異。盡管在實(shí)際工作中,計(jì)算機(jī)從由成百上千DNA片段組成的全基因組數(shù)據(jù)集里找出與疾病相關(guān)的基因變異要花費(fèi)數(shù)小時(shí)時(shí)間,但是,密碼技術(shù)專(zhuān)家還是值得鼓勵(lì)。
同態(tài)加密是一種加密形式,它允許人們對(duì)密文進(jìn)行特定的代數(shù)運(yùn)算得到仍然是加密的結(jié)果,將其解密所得到的結(jié)果與對(duì)明文進(jìn)行同樣的運(yùn)算結(jié)果一樣。換言之,這項(xiàng)技術(shù)令人們可以在加密的數(shù)據(jù)中進(jìn)行諸如檢索、比較等操作,得出正確的結(jié)果,而在整個(gè)處理過(guò)程中無(wú)需對(duì)數(shù)據(jù)進(jìn)行解密。其意義在于,真正從根本上解決將數(shù)據(jù)及其操作委托給第三方時(shí)的保密問(wèn)題,例如對(duì)于各種云計(jì)算的應(yīng)用。
這一直是密碼學(xué)領(lǐng)域的一個(gè)重要課題,以往人們只找到一些部分實(shí)現(xiàn)這種操作的方法。而2009年9月克雷格·金特里(Craig Gentry)的論文從數(shù)學(xué)上提出了「全同態(tài)加密」的可行方法,即可以在不解密的條件下對(duì)加密數(shù)據(jù)進(jìn)行任何可以在明文上進(jìn)行的運(yùn)算,使這項(xiàng)技術(shù)取得了決定性的突破。人們正在此基礎(chǔ)上研究更完善的實(shí)用技術(shù),這對(duì)信息技術(shù)產(chǎn)業(yè)具有重大價(jià)值。
——摘自維基百科
UCSD的一名計(jì)算機(jī)科學(xué)家Xiaoqian Jiang說(shuō)道,「這是一個(gè)可預(yù)見(jiàn)的結(jié)果,但挑戰(zhàn)依然存在」。
醫(yī)生和研究人員認(rèn)為,理解基因和疾病之間的關(guān)系需要從數(shù)以百萬(wàn)計(jì)人群中收集數(shù)據(jù),包括基因方面和生理方面的數(shù)據(jù)。有些規(guī)劃項(xiàng)目已經(jīng)啟動(dòng),比如,美國(guó)總統(tǒng)奧巴馬發(fā)起的精準(zhǔn)醫(yī)學(xué)項(xiàng)目以及英國(guó)的十萬(wàn)基因組項(xiàng)目。如此龐雜的任務(wù)可能需要利用互聯(lián)網(wǎng)云端主機(jī)的處理能力,但是,過(guò)去幾年里網(wǎng)絡(luò)安全漏洞暴露了在云端存儲(chǔ)大量敏感數(shù)據(jù)的巨大隱患。美國(guó)國(guó)家衛(wèi)生研究院的基因型與表型數(shù)據(jù)庫(kù)(dbGaP)有一個(gè)有關(guān)醫(yī)療和基因數(shù)據(jù)的目錄,它的管理人員非常擔(dān)心安全問(wèn)題,他們禁止數(shù)據(jù)庫(kù)的用戶(hù)在可聯(lián)網(wǎng)的電腦上儲(chǔ)存數(shù)據(jù)。
同態(tài)加密可以解決這種擔(dān)憂(yōu),從而讓研究者用數(shù)學(xué)加密的方式把資料儲(chǔ)存在云端。該技術(shù)會(huì)把本地電腦上的數(shù)據(jù)進(jìn)行加密,然后再把加密后的數(shù)據(jù)上傳到云端。加密數(shù)據(jù)的計(jì)算也可以在云端進(jìn)行,計(jì)算的結(jié)果加密后再傳會(huì)本地的計(jì)算機(jī)。即便有人在此過(guò)程中竊取了加密的數(shù)據(jù),但這些加密數(shù)據(jù)里包含的隱藏內(nèi)容仍然是安全的。
UCSD的計(jì)算機(jī)科學(xué)家Lucila Ohno-Machado認(rèn)為:「如果能確保這項(xiàng)技術(shù)由作用,那么對(duì)于解決保護(hù)個(gè)人隱私的前提下進(jìn)行海量數(shù)據(jù)的運(yùn)算和存儲(chǔ)的難題至關(guān)重要,這簡(jiǎn)直可以提升我們的信心?!?/p>
1978年,同態(tài)數(shù)據(jù)加密技術(shù)被首次提出,不同于其他方式,這一技術(shù)可以在云端處理加密的數(shù)據(jù),從本質(zhì)上說(shuō),云永遠(yuǎn)不會(huì)真正「看到」數(shù)據(jù)處理。另一個(gè)不同點(diǎn)則是,該技術(shù)還能給出未加密狀態(tài)下的相同數(shù)據(jù)處理結(jié)果。
直到2009年,IBM沃森研究中心的密碼學(xué)家Craig Gentry論證了對(duì)同態(tài)加密數(shù)據(jù)可以進(jìn)行任何形式的運(yùn)算可能性。此時(shí),這一理念還很大程度上停留在理論層面。該方法通過(guò)將每個(gè)數(shù)據(jù)點(diǎn)轉(zhuǎn)換為一塊加密的信息或密文,但加密后的數(shù)據(jù)量比原始數(shù)據(jù)更大也更復(fù)雜。每個(gè)未加密的字節(jié)被加密成幾兆字節(jié)的數(shù)據(jù),相當(dāng)于一張數(shù)碼照片的大小。
固然這是一個(gè)突破,但加密前后如此大的容量差異也讓這項(xiàng)技術(shù)無(wú)法真正應(yīng)用起來(lái),要知道數(shù)據(jù)存儲(chǔ)的硬件成本是很高的。
從那時(shí)起,密碼學(xué)家們開(kāi)發(fā)出了各種系統(tǒng)來(lái)解決這些問(wèn)題。比如同時(shí)加密許多數(shù)據(jù)片段,這樣就可以對(duì)數(shù)據(jù)進(jìn)行并行處理;也有人提出把數(shù)據(jù)直接加密成單一的密文,而不是首先轉(zhuǎn)換成字節(jié),這種創(chuàng)新比對(duì)每一個(gè)數(shù)據(jù)片段單獨(dú)運(yùn)算要節(jié)約大量計(jì)算時(shí)間和計(jì)算內(nèi)存。IBM研究中心的密碼學(xué)家Shai Halevi說(shuō)道,與2009年相比現(xiàn)在同態(tài)加密數(shù)據(jù)的運(yùn)算速度提高了150,000倍。一個(gè)更直接的數(shù)據(jù)對(duì)比則是:相同的運(yùn)算量,2012年要花費(fèi)一天半而現(xiàn)在只要5分鐘。
2015年3月中旬,致力于數(shù)據(jù)集成分析的iDASH協(xié)會(huì)組織舉辦了一個(gè)主題為隱私和安全的學(xué)術(shù)會(huì)議,五個(gè)團(tuán)隊(duì)透露利用同態(tài)加密技術(shù)可以在10分鐘內(nèi)檢測(cè)400人的數(shù)據(jù),并且可以從染色體上已知的可能產(chǎn)生變異的311個(gè)位點(diǎn)中找出與疾病相關(guān)的變異基因。現(xiàn)在分析一個(gè)含有5000個(gè)DNA堿基對(duì)的典型基因片段需要花費(fèi)30分鐘;但對(duì)于較大的序列數(shù)據(jù),比如100000個(gè)堿基對(duì)(其含量大約相當(dāng)于整個(gè)基因組數(shù)據(jù)的0.003%),卻要花費(fèi)幾個(gè)小時(shí),而且要比分析未加密數(shù)據(jù)多消耗100倍的內(nèi)存。密碼學(xué)家表示這一結(jié)果仍顯示了技術(shù)的重大進(jìn)展;Jiang評(píng)論道「三年前,人們認(rèn)為這是不可能的,但我們對(duì)困難的挑戰(zhàn)表明解決這一難題并非不可能?!?/p>
但是某些數(shù)據(jù)管理員對(duì)此仍持懷疑態(tài)度。Steven Sherry負(fù)責(zé)管理dbGap,他同時(shí)也是美國(guó)國(guó)家生物技術(shù)信息中心的主管。他說(shuō),即使密碼系統(tǒng)能起到作用,也未必會(huì)保護(hù)研究人員的電腦,也不能增加數(shù)據(jù)分析的靈活性。他傾向于把數(shù)據(jù)訪問(wèn)權(quán)限局限在一個(gè)由科學(xué)家組成的小圈子里,這些科學(xué)家要保證使用數(shù)據(jù)時(shí)遵守相應(yīng)的制度。他接著說(shuō):「我們并沒(méi)有關(guān)注加密方法,因?yàn)樗鼪](méi)有證明同時(shí)具備安全和實(shí)用性?!?/p>
但是一些密碼學(xué)家已經(jīng)開(kāi)始在生物醫(yī)學(xué)領(lǐng)域部署使用有限的同態(tài)加密技術(shù)。一個(gè)HIV研究中心以及瑞士一家醫(yī)院的生物樣本庫(kù)采用了類(lèi)似的方案。瑞士聯(lián)邦理工學(xué)院的Jean-Pierre Hubaux進(jìn)一步指出:「人們現(xiàn)在很擔(dān)心不久以后,因?yàn)榛驍?shù)據(jù)泄漏而產(chǎn)生的各種丑聞事件?!?/p>
而這也恰巧是未來(lái)技術(shù)發(fā)展的方向。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。