7月 25 日,號稱“中國第一家大數(shù)據(jù)安全公司”瀚思科技(HanSight,以下簡稱瀚思)舉辦了 B 輪融資發(fā)布會,宣布獲得1億元人民幣融資,本輪融資由國科嘉和基金和 IDG 資本領(lǐng)投,南京高科等 A 輪投資方繼續(xù)跟投。
事實(shí)上,7月17日,在中關(guān)村軟件園的瀚思公司的一個會議室中,CEO 高瀚昭和聯(lián)合創(chuàng)始人董昕面對雷鋒網(wǎng)等十幾家媒體,已經(jīng)提前宣布了融資的事,但那天,他倆提到的主要關(guān)鍵詞卻是人工智能與安全。
瀚思成立于 2014 年,該公司的創(chuàng)始團(tuán)隊(duì)認(rèn)為,傳統(tǒng)以防御為核心的安全策略已經(jīng)過時,信息安全正在變成一個大數(shù)據(jù)分析問題,大規(guī)模的安全數(shù)據(jù)需要被有效地關(guān)聯(lián)、分析和挖掘。
高瀚昭認(rèn)為,人工智能的方法作為手段之一,可以將大數(shù)據(jù)抽絲剝繭,實(shí)現(xiàn)讓安全可見、可知、可控的安全智能。
第一,要有平臺搜集數(shù)據(jù);第二,要有能力分析哪些數(shù)據(jù)可以深挖安全風(fēng)險(xiǎn);第三,針對不同業(yè)務(wù)場景與數(shù)據(jù),面臨不同情況,基于機(jī)器學(xué)習(xí)和人工智能,能做出不同的處置方式。
直白地說,以數(shù)據(jù)驅(qū)動安全的瀚思認(rèn)為,要達(dá)到上述目標(biāo),需要具備三個能力:
所謂“數(shù)據(jù)驅(qū)動安全”,最關(guān)鍵的還是“安全”,也因此,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))曾問過一些安全企業(yè),你們都說要做反欺詐,要做安全,要搞數(shù)據(jù)分析,你們的數(shù)據(jù)從哪里來?
一部分人什么都要,什么都做,干脆數(shù)據(jù)也自己搞,一部分人不想陷入與以“大數(shù)據(jù)”為定位的數(shù)據(jù)公司的競爭中,或者說,這也不是他們的優(yōu)勢,所以選擇了與數(shù)據(jù)公司合作,自己再駐扎到客戶中,客戶給什么數(shù)據(jù),他們分析什么數(shù)據(jù)。
瀚思雖然號稱為“大數(shù)據(jù)安全公司”,他們并不走第一條路,暫時也沒有和數(shù)據(jù)公司合作,他們選擇了只分析客戶的數(shù)據(jù),一來解決了搜集數(shù)據(jù)的難題,二來將火力集中在第二個和第三個能力上——即搞清楚哪些數(shù)據(jù)可以深挖安全風(fēng)險(xiǎn),又有哪些處置方式可以應(yīng)對。
不過,有意思的是,瀚思的兩位核心技術(shù)主導(dǎo)者——創(chuàng)始人高瀚昭和首席科學(xué)家萬曉川雖然都在著名的趨勢科技公司工作十幾年,曾帶領(lǐng)團(tuán)隊(duì)研發(fā)了基于沙箱的檢測技術(shù)和防御產(chǎn)品,但瀚思決絕地和沙箱技術(shù)告了別。
即使這兩位核心技術(shù)人員曾在沙箱產(chǎn)品上于2013 年擊敗了 FireEye 的同類產(chǎn)品,但你要允許技術(shù)者勇于否定自己過去引以為傲的成果。
董昕的原話是這樣的:
“與殺毒引擎相對應(yīng)的一系列安全產(chǎn)品,比如沙箱,F(xiàn)ireEye 在前幾年一直推崇這么一個東西,它也在一定程度上可以發(fā)現(xiàn)一系列的未知病毒或者惡意文件。它的做法是讓這個文件在一個虛擬機(jī)中執(zhí)行一下,跑起來看看有沒有惡意的行為,比如修改注冊表、訪問一些不該訪問的網(wǎng)站、試圖記錄鍵盤敲擊等,從而判斷文件到底是惡意的還是非惡意的。
但是,類似沙箱的一個重大的缺陷是,畢竟運(yùn)營在虛擬機(jī)里,實(shí)際運(yùn)行性能非常差,幾分鐘才能跑出一條結(jié)果。而我們目前用的深度學(xué)習(xí)技術(shù),不需執(zhí)行任何文件,也就是說——一個二進(jìn)制文件可以直接以0和1的二進(jìn)制碼的形式,輸入給機(jī)器,機(jī)器再自動判斷到底是惡意還是不是惡意的。”
李飛飛曾在 TED 的演講臺上稱,給出了 62000張貓的圖片,機(jī)器能否在下一張時,判斷出圖片上的是不是一只貓?董昕一聽,很有認(rèn)同感——如果認(rèn)識了 62000 個病毒、當(dāng)?shù)?62001 個文件出現(xiàn)時,我們能不能自動判斷它是否是惡意文件?
貓還是長成那樣的貓,病毒卻不一定是以前的病毒。
于是,他們捋出了一條思路:靠識別圖像的方式來識別每個二進(jìn)制的文件,在海量的 GPU 集群里實(shí)現(xiàn)對上千萬樣本的學(xué)習(xí),形成了一整套模型,從而靠深度學(xué)習(xí)的模型來識別新的、未知的文件,“有99%的置信區(qū)間來判斷它到底是不是惡意”。
然后,瀚思火速地將這套技術(shù)落地為“DeepSenseBeta(深感)”引擎,并稱其速度比沙箱快10倍,3 個月內(nèi)不更新可以保持 90 %的檢測率。
將已經(jīng)訓(xùn)練的圖像識別、人臉識別或者圖像識別的模型遷移到二進(jìn)制的圖點(diǎn)后,董昕稱,花了很多錢,燒了很多電,用了很長時間進(jìn)行模型訓(xùn)練,平均訓(xùn)練出一個模型可能至少需要一個月甚至幾個月。訓(xùn)練出模型后通過部署瀚思的流量檢測設(shè)備,就可以實(shí)時地從企業(yè)外聯(lián)的網(wǎng)絡(luò)端口將文件抽取二進(jìn)制的文件,跑到模型里進(jìn)行優(yōu)化檢測,如果發(fā)現(xiàn)異常,就會告警。
隨后,瀚思順理成章地將深感引擎+流量監(jiān)測設(shè)備結(jié)合成了一款萬兆網(wǎng)絡(luò)流量智能分析引擎(瀚思 NTA 網(wǎng)絡(luò)流量分析)。
這種部署代價比較低。因?yàn)椴恍枰兕~外裝一系列的終端殺毒軟件,也不需要裝非常重的探針,只需要在客戶網(wǎng)絡(luò)側(cè)部署流量采集設(shè)備。
將整個網(wǎng)絡(luò)以包的形式進(jìn)行截取、存儲、還原,而且是長周期,比如以月計(jì)、以日計(jì)算,而不像以前只是實(shí)時地檢測某一個高峰。這樣的好處是,可以嵌入更復(fù)雜的機(jī)器學(xué)習(xí)和模型,從而發(fā)現(xiàn)更難以挖掘的一系列網(wǎng)絡(luò)攻擊或者是危險(xiǎn)行為。
董昕對雷鋒網(wǎng)介紹,在實(shí)際的業(yè)務(wù)場景中,NTA 在企業(yè)網(wǎng)絡(luò)中一路“通關(guān)而上”,從 DNS 解析?直到 HTTP 下載?件內(nèi)容均可實(shí)時看到,這樣做的好處是,時刻有一雙眼睛盯著,狠辣地發(fā)現(xiàn)每一條疑似威脅的線索。隨時檢測惡意程序和異常流量,一旦發(fā)現(xiàn)有什么不對勁,事后還原、 檢索任意時間點(diǎn)的傳輸現(xiàn)場。
在宣布獲得 B 輪融資時,瀚思推出了新一代 HanSight Enterprise3,除了上述的各類引擎,HanSight Enterprise3 疊加了分析編程語言HAL HanSight Analysis Language ,即提供用戶一個編程工具,通過腳本、交互的分析方式直接進(jìn)行分析引擎的操作,且開始逐步支撐自然語言處理。
大概就是一個這樣的場景:
安全人員大吼一聲:過去 24 小時,有什么人意圖不軌?
引擎從海量數(shù)據(jù)中檢索,將統(tǒng)計(jì)結(jié)果一一呈上。
此外,HanSight Enterprise3 集成了用戶與行為智能安全分析引擎 ,發(fā)現(xiàn)企業(yè)最不愛說又受傷很深的“內(nèi)鬼”行為。
比如,一個員工在刷了公司的門禁卡后很快就開始連公司的虛擬專用網(wǎng)絡(luò)。
這兩個過程分別來看都是正常的。但是有邏輯問題:在企業(yè)的內(nèi)部,員工不需要連接虛擬專用網(wǎng)絡(luò),直接登錄企業(yè)內(nèi)網(wǎng)即可,所以,這有可能是一次密碼盜用情況。
至此,瀚思完整地闡述了他們在“第二個能力”和“第三個能力”上的建設(shè)。
不過,在第三個能力,即面臨不同情況,基于機(jī)器學(xué)習(xí)和人工智能能做出不同的處置方式上,可能目前大家印象最深刻的機(jī)器能做到的還是拒絕、放行或者拉小黑屋的幾種操作。
機(jī)器學(xué)習(xí)和人工智能未來能否真的成為“智能守衛(wèi)者”,也是“智能安全”探索的答案。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。