另外,SAP還宣稱該程序包將與Hadoop、SAP Data Integrator和SAP BusinessObjects BI套件進(jìn)行集成。
新的程序包由SAP和Cloudera、Hitachi Data Systems、Hortonworks、HP、IBM等多家合作廠商共同推出,將為客戶提供一套高級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案,以對(duì)來(lái)自多種數(shù)據(jù)源的大型數(shù)據(jù)集進(jìn)行實(shí)時(shí)分析。
Hadoop是基于Java的免費(fèi)編程框架,通過(guò)使用多臺(tái)機(jī)器對(duì)分布式計(jì)算環(huán)境中的大型數(shù)據(jù)集進(jìn)行處理,屬于Apache軟件基金會(huì)贊助的項(xiàng)目。
該程序包能夠使SAP用戶運(yùn)用多種方式將Hadoop集成到現(xiàn)有BI和數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中。
企業(yè)可以使用數(shù)據(jù)集成器從Hadoop分布式文檔系統(tǒng)(HDFS)或Hive數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),然后將相關(guān)數(shù)據(jù)載入HANA或Sybase IQ中。同時(shí),BI用戶仍然可以繼續(xù)使用他們現(xiàn)有的報(bào)表和分析工具。
客戶還可以在Sybase IQ和Hadoop環(huán)境中運(yùn)行查詢;BusinessObjects BI用戶可以查詢Hive數(shù)據(jù)庫(kù),直接開(kāi)發(fā)Hadoop環(huán)境。
SAP大數(shù)據(jù)策略負(fù)責(zé)人David Yonker稱,SAP支持Hadoop和HANA的集成。
Hadoop一次性掃描或處理大量數(shù)據(jù)的能力出色。Yonker說(shuō):如果你想要掃描幾PB的數(shù)據(jù),它確實(shí)很管用。但是是否實(shí)時(shí)呢?不,但是已經(jīng)不錯(cuò)了。
相較而言,HANA這樣的內(nèi)存數(shù)據(jù)庫(kù)可讀取所有數(shù)據(jù),不僅僅限于與特定查詢相關(guān)的子集。
正因如此,二者應(yīng)該有機(jī)結(jié)合。它們匹配得很好。
Yonker舉例,日本有一家生物信息公司Mitsui Knowledge Industry,目前正在進(jìn)行整合Hadoop和SAP HANA的POC項(xiàng)目,以開(kāi)發(fā)癌癥治療法,原理在于不同的人由于DNA不同所作出的反應(yīng)也不一樣。
該項(xiàng)目的流程包括使用Hadoop對(duì)病人的數(shù)據(jù)進(jìn)行分析,然后將它們與正常的數(shù)據(jù)鏈進(jìn)行比對(duì)。由于數(shù)據(jù)量之大,這一流程大概需要兩天的時(shí)間。
你必須讀取所有的DNA數(shù)據(jù),包括健康的和病變的,而無(wú)法只讀取某個(gè)子集。但在使用了Hadoop之后,兩天的時(shí)間縮短到了20分鐘,而且估計(jì)還將減半。
下一步就是使用HANA將其與其他病人的DNA樣本進(jìn)行比對(duì)。這一步,你是在與1000萬(wàn)到2000萬(wàn)的DNA樣本比對(duì)。這是高級(jí)的迭代查詢,也就是說(shuō)你需要在系統(tǒng)中運(yùn)行1000萬(wàn)到2000萬(wàn)次查詢。
今年SAP可謂在Hadoop系統(tǒng)上大做文章。6月的時(shí)候,SAP發(fā)布了BusinessObjects 4.0和Feature Pack 3,同時(shí)宣布支持HiveQL——一種在Hadoop中使用的簡(jiǎn)單的SQL式查詢語(yǔ)言。
SAP BI市場(chǎng)副總裁Jason Rose說(shuō)道:現(xiàn)在,在大家一直使用的同一款信息設(shè)計(jì)工具中,我們對(duì)HiveQL進(jìn)行支持;這樣一來(lái),你就可以將Hadoop中的信息引入并搭配到BI環(huán)境中去。
原文鏈接:http://www.searchbi.com.cn/showcontent_67114.htm
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。