“用大數(shù)據(jù)和人工智能服務企業(yè),這片市場相對更加藍海,門檻和壁壘更高”?;鹗瘎?chuàng)造創(chuàng)始人兼CEO楊紅飛如是說道。
獲國際醫(yī)藥巨頭青睞
火石創(chuàng)造將自己定位成“智能醫(yī)健大數(shù)據(jù)服務平臺”,要用人工智能和大數(shù)據(jù)賦能企業(yè)的研發(fā)、營銷、銷售和戰(zhàn)略制定。楊紅飛認為,要做好這件事情,必須先組建一支復合型的技術(shù)團隊。
火石創(chuàng)造的技術(shù)團隊主要由三類人員構(gòu)成:一、負責研發(fā)和IT架構(gòu)的技術(shù)人員;二、算法專家;三、擁有深厚醫(yī)學背景和產(chǎn)業(yè)經(jīng)驗的技術(shù)人才。
楊紅飛對雷鋒網(wǎng)表示,和服務于疾病的醫(yī)療AI企業(yè)不同,火石創(chuàng)造的醫(yī)學人才不僅具備醫(yī)學專業(yè)知識,還對企業(yè)經(jīng)營有著深刻的理解。他說道:“我們的創(chuàng)始團隊都是做產(chǎn)業(yè)出身的,過去自己做過企業(yè)經(jīng)營,有比較深入的體會。”
正因如此,國際醫(yī)藥巨頭默沙東在先后接觸了IBM、微軟等多家企業(yè)后,最終選擇和火石創(chuàng)造達成戰(zhàn)略合作,共同開發(fā)醫(yī)學指南機器輔助閱讀系統(tǒng)。
“客戶洞察”是默沙東醫(yī)學部的重要日常工作之一。默沙東希望利用人工智能技術(shù)對已出版的歷年英文醫(yī)學指南與文獻進行機器閱讀,并深度挖掘出未被滿足的臨床需求、亟待完善的數(shù)據(jù)需求、競品醫(yī)學信息、最新臨床經(jīng)驗、近期被關注的話題等等。從而更好的了解客戶需求,為客戶提供更為精準的醫(yī)學服務并造福于病患。
幾經(jīng)篩選之后,既懂醫(yī)療行業(yè),又對數(shù)據(jù)和算法有深入了解的火石創(chuàng)造成了最佳選項,二者一拍即合。
什么是醫(yī)學指南機器輔助閱讀系統(tǒng)?
“醫(yī)學指南機器輔助閱讀系統(tǒng)能夠幫助用戶快速閱讀所需的指南信息,了解特定疾病治療領域的發(fā)展趨勢。”火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士表示,這套系統(tǒng)將導入當前已發(fā)布并可收集到的醫(yī)學指南文本,同時加載近10年發(fā)布的疾病相關文獻與經(jīng)過編輯的疾病醫(yī)學知識庫,輔助用戶挖掘價值信息,具體包括診斷標準、治療流程、藥物使用情況、治療療程、高頻文獻等。通過用戶的使用與反饋信息,系統(tǒng)運用自學習機制,不斷提高系統(tǒng)的信息挖掘和有效信息推薦的能力。
該醫(yī)學指南機器輔助閱讀系統(tǒng)的具體功能包括:
推薦醫(yī)學文獻中近期出現(xiàn)的高頻、熱點詞匯,并輸出參考文獻列表。系統(tǒng)將引導用戶輸入關注的內(nèi)容,并快速定位相關段落,根據(jù)內(nèi)容重要性和出現(xiàn)頻率進行推薦。當用戶聚焦于某一推薦段落閱讀時,系統(tǒng)將高亮段落中的重點醫(yī)學詞匯,提示用戶關注。此外,系統(tǒng)還可以智能化輸出標準化的指標比對情況,以及提供用戶自定義對比。最終,在可視化交互界面中出現(xiàn)直觀的對比結(jié)果。
對已有醫(yī)學指南的質(zhì)量進行評估:用戶在系統(tǒng)中提交醫(yī)學指南后,需要選擇指南的年份、疾病種類和打分敏感度,隨后打分輔助系統(tǒng)會依據(jù)火石創(chuàng)造所設計的,基于打分規(guī)則模型,給出23個評分點的分值。
楊紅飛表示,這套系統(tǒng)的推出得益于默沙東和火石創(chuàng)造的親密協(xié)作。默沙東的醫(yī)學科研人員主要負責幫助火石創(chuàng)造建立對產(chǎn)品的理解和認知,比如人是如何閱讀醫(yī)學指南的,他的閱讀邏輯是什么,他們需要在醫(yī)學指南中提取哪些關鍵信息,如何將這些信息互相比對;以及如何找到信息變更的依據(jù)等?;鹗瘎?chuàng)造則負責具體的技術(shù)實現(xiàn)。
用到了哪些技術(shù)?
據(jù)火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士介紹,醫(yī)學指南機器輔助閱讀系統(tǒng)的核心技術(shù)主要包括:
1.疾病知識庫的建立;
2.詞語特性的抽取 ;
3.語義理解;
4.系統(tǒng)的自學習功能(智能化識別)
周俊博士表示,實體識別與關系抽取是疾病知識庫構(gòu)建的一大技術(shù)難點。目前,流行的實體識別方法主要有基于規(guī)則(Pattern-based)的方法、基于深度學習的LSTM + CRF,以及BPS方法。
基于規(guī)則的方法要對識別的實體類型設計人工規(guī)則,通過多次迭代驗證來修改這些規(guī)則,逐漸提升識別的準確率,也可利用標注好的訓練樣本來自動篩選這些規(guī)則?;谏疃葘W習的方法可以把實體識別和關系抽取放到一起,作為一個端到端的系統(tǒng),用一套網(wǎng)絡同時識別出實體和關系,或用LSTM網(wǎng)絡提取特征,作為CRF的輸入,即在輸出端用CRF對結(jié)果校正。用端到端的神經(jīng)網(wǎng)絡方法可以省去規(guī)則方法的大量的特征工程,簡化開發(fā)過程,但是要求有大量的標注樣本才能夠達到好的效果。
為此,火石創(chuàng)造計劃用一些半監(jiān)督訓練的方法(如GAN),和對樣本需求量更少、效果更好的NTM網(wǎng)絡對LSTM網(wǎng)絡進行修改,并利用遷移學習的方法,先在其他場景下的大量樣本下進行訓練,再把結(jié)果遷移到當前的數(shù)據(jù)集。
另外,目前業(yè)內(nèi)的全文檢索方式都是通過關鍵詞匹配的方式去檢索的,但是意義相似關鍵詞不同的內(nèi)容可能無法檢索出?;鹗?a href=http://www.90chu.com/index.php?m=content&c=index&a=infolist&typeid=1&siteid=1&type=keyword&serachType=2&key=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD style='color:#57A306' target='_blank'>人工智能數(shù)據(jù)挖掘平臺利用word2vec和fasttext,訓練了一個醫(yī)療健康語義模型?,F(xiàn)在已經(jīng)可以完成一些簡單的語義級別的搜索,比方搜索機器學習,人工智能的相關內(nèi)容會被檢索出,機器能自動計算出他們的相關性。
周俊博士向雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))介紹,火石創(chuàng)造的醫(yī)學指南機器輔助閱讀系統(tǒng)目前已經(jīng)從Pubmed、Web Of Science、Springer、Wiley Interscience、 Science Direct等文獻數(shù)據(jù)庫中,采集了200多萬條相關醫(yī)學文獻;同時還通過醫(yī)學詞匯字典和文獻中的自學習獲取了幾十萬條相關詞條。周俊博士坦言,這套系統(tǒng)目前還不夠完善,未來火石創(chuàng)造會繼續(xù)給機器輸入,或者讓它在文獻中自動挖掘更多的詞匯。
借助這套系統(tǒng),醫(yī)生和醫(yī)藥企業(yè)的醫(yī)學指南閱讀人員,包括醫(yī)藥新藥研發(fā)人員、醫(yī)藥推廣/銷售人員,可以更加方便快捷地抓取自己想要的信息。
與默沙東達成戰(zhàn)略合作是對火石創(chuàng)造的一次充分認可,但火石創(chuàng)造對未來還有著更多的憧憬。
用AI賦能企業(yè)和政府
為了解決醫(yī)健行業(yè)中的數(shù)據(jù)之困,火石創(chuàng)造利用人工智能與大數(shù)據(jù)技術(shù)構(gòu)建全球醫(yī)健產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)地圖 HSMAP為企業(yè)和政府賦能。通過自主研發(fā)的Spider智能數(shù)據(jù)源構(gòu)建系統(tǒng)和Darwin數(shù)據(jù)智能處理引擎,覆蓋全球635個官方數(shù)據(jù)源,10萬個數(shù)據(jù)采集點的數(shù)據(jù)合作和交換機制,以及基于全球主要搜索引擎的數(shù)據(jù)獲取框架和機制。
據(jù)雷鋒網(wǎng)了解,目前 火石創(chuàng)新創(chuàng)業(yè)地圖HSMAP 已有 229萬+創(chuàng)業(yè)公司、6萬+研究機構(gòu)、5萬+投資機構(gòu)、1400萬+專利、230萬+產(chǎn)品、1000萬+位創(chuàng)業(yè)者、22萬+臨床試驗及 2000萬+文獻數(shù)據(jù)。
火石創(chuàng)造CEO楊紅飛表示,未來火石創(chuàng)造將通過核心產(chǎn)品產(chǎn)業(yè)大腦系統(tǒng),與各區(qū)域政府建立合作,一方面在業(yè)務上成為政府大健康產(chǎn)業(yè)發(fā)展所依賴的戰(zhàn)略合作伙伴,實現(xiàn)第一階段的營收;另一方面從戰(zhàn)略上形成區(qū)域大健康產(chǎn)業(yè)數(shù)據(jù)的分級采集網(wǎng)絡,使得系統(tǒng)運行產(chǎn)生源源不短的數(shù)據(jù)流,不斷完善產(chǎn)業(yè)數(shù)據(jù)。
同時通過企業(yè)大數(shù)據(jù)情報系統(tǒng)產(chǎn)品,以及后續(xù)企業(yè)AI中心產(chǎn)品和服務,向大健康企業(yè)輸入大數(shù)據(jù)和人工智能技術(shù),建立企業(yè)對火石的技術(shù)和數(shù)據(jù)依賴。
通過各項業(yè)務的開展,最終形成生命健康產(chǎn)業(yè)的協(xié)同網(wǎng)絡和數(shù)據(jù)平臺。平臺可以精準的實現(xiàn)產(chǎn)業(yè)的多邊組合和協(xié)作,發(fā)揮信息發(fā)布、鏈接、資源整合、以及中間信用服務等功能。
楊紅飛表示,從信息到數(shù)據(jù),從數(shù)據(jù)到資源,從資源到交易,是火石平臺化發(fā)展的路徑。在完善數(shù)據(jù)服務之后,火石將進一步鏈接、整合各方資源,形成基于數(shù)據(jù)的精準匹配。而要做到這些,不僅是要有先進的技術(shù)能力、完整且實時在線的數(shù)據(jù)庫,還需要有較強的運營能力?;鹗瘜⒉粩嗉哟蠹夹g(shù)研發(fā)投入,鍛造核心競爭力。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。