在生成式AI的浪潮中,數(shù)據(jù)的重要性日益凸顯。大模型在實際業(yè)務場景的落地過程中,必須有海量數(shù)據(jù)的支撐:經(jīng)過訓練、推理和分析等一系列復雜的數(shù)據(jù)處理過程,才能最終產(chǎn)生業(yè)務價值。事實上,大模型本身就是數(shù)據(jù)處理后的產(chǎn)物,以數(shù)據(jù)驅動的決策與創(chuàng)新需要通過更智能的平臺解決數(shù)據(jù)多模處理、實時分析等問題,這正是以阿里云為代表的企業(yè)推動 “Data+AI”融合戰(zhàn)略的核心動因。
那么,“Data+AI” 對于數(shù)據(jù)處理究竟意味著什么?從字面意義來理解,Data+AI是指將數(shù)據(jù)和人工智能結合起來,支持數(shù)據(jù)從收集、準備到模型開發(fā)、部署、迭代、監(jiān)控的全流程。與傳統(tǒng)數(shù)據(jù)管理模式相比,Data+AI更側重AI原生化、一體化、多?;壤砟睢?/p>
從數(shù)據(jù)工程與業(yè)務實踐的角度來看,由離線數(shù)據(jù)處理到實時數(shù)據(jù)處理,再到今天的Data+AI時代,數(shù)據(jù)處理的底層邏輯到底發(fā)生了怎樣的變化?為何多模處理能力變得越來越重要?我們邀請了在學術界和產(chǎn)業(yè)界均有豐富經(jīng)驗的周文超博士,他現(xiàn)在是阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部AnalyticDB PostgreSQL及生態(tài)工具部負責人。周文超博士從數(shù)據(jù)管理平臺變化角度出發(fā),結合阿里云DMS+X底層技術構建路徑,深入分析Data+AI智能平臺構建的現(xiàn)狀與未來。他認為,今天的數(shù)據(jù)處理正在向多模融合方向發(fā)展,一站式的多模處理能力將是未來數(shù)據(jù)管理的標配。
智能升級加速
數(shù)據(jù)管理平臺機遇與挑戰(zhàn)并存
生成式AI重塑一切,很多工作的生產(chǎn)效率得到了極大提升,當AI內(nèi)容生產(chǎn)和代碼生成表現(xiàn)出接近甚至趕超人類的能力時,原有的數(shù)據(jù)管理模式也面臨著巨大變革。與過去相比,今天的數(shù)據(jù)處理在數(shù)據(jù)量、數(shù)據(jù)類型、處理深度,以及與AI計算的融合等方面,都發(fā)生了顯著的變化。這些變化不僅提高了數(shù)據(jù)處理的效率和準確性,還為AI的創(chuàng)新發(fā)展提供了有力的支持。
生成式AI雖然帶來了前所未有的機遇,讓企業(yè)在流程化、個性化服務創(chuàng)新過程中找到新的路徑,但也存在著諸多挑戰(zhàn)。面對Data+AI融合趨勢的數(shù)據(jù)處理難點,周文超博士概括了三點:第一,數(shù)據(jù)的多模態(tài)化;第二,算力的多元融合;第三,數(shù)據(jù)處理的實時性。
數(shù)據(jù)的多模態(tài):數(shù)據(jù)類型不再局限于傳統(tǒng)的結構化數(shù)據(jù),而是包括了圖片、文檔、圖、時序、交易等多種模態(tài)的數(shù)據(jù),比如:IoT設備數(shù)據(jù)、車機圖像數(shù)據(jù)等,這些多模數(shù)據(jù)是數(shù)據(jù)處理和分析的一大挑戰(zhàn)。
算力的多元融合:算力也朝著多模態(tài)和異構方向發(fā)展。過去,無論是在操作系統(tǒng)、數(shù)據(jù)庫、離線數(shù)據(jù)處理還是實時數(shù)據(jù)處理中,主要關注的是以CPU為核心的算力。然而,隨著大模型的出現(xiàn),GPU、FPGA、ASIC等硬件逐漸加入到算力矩陣中。特別是GPU,原本用于圖形加速和比特幣等領域,現(xiàn)在因其能處理更多向量數(shù)據(jù),并且可用于矩陣乘法,在算力領域扮演著越來越重要的角色。另外,如何在多樣化的算力硬件上合理分配計算任務,以及如何更好地調度和結合不同的異構算力,成為Data+AI領域需要攻克的另一個重要挑戰(zhàn)。
數(shù)據(jù)處理的實時性:實時性也是數(shù)據(jù)處理領域的一個難點。從最初的離線數(shù)據(jù)處理,到現(xiàn)今的實時數(shù)據(jù)處理,我們見證了數(shù)據(jù)處理走向實時化的過程。過去,數(shù)據(jù)主要以批次形式處理,一天或一周進行一次分析或訓練。后來隨著實時分析場景的增加,需要分鐘級甚至秒級的數(shù)據(jù)處理能力,例如:在數(shù)據(jù)監(jiān)控平臺上,用戶希望每秒或每分鐘都在更新數(shù)據(jù),以便實時了解當前情況。同理,Data+AI也是相同的邏輯。如果幾個月才能進行一次訓練,那么最近的數(shù)據(jù)將如何處理?因此,數(shù)據(jù)管理平臺對實時數(shù)據(jù)的處理,也成為企業(yè)必須要面對的一個重要課題。
只有解決了上述問題,Data+AI的落地場景才會變得更加豐富,數(shù)據(jù)驅動企業(yè)智能化升級才會成為可能。
阿里云DMS+X一站式數(shù)據(jù)管理平臺設計原理
準確來講,Data+AI所有數(shù)據(jù)處理的背后主要源于三個核心要素,即數(shù)據(jù)、模型與算法、算力,正是這“三駕馬車”成為數(shù)據(jù)管理智能平臺能否提升業(yè)務效率的關鍵。
換言之,真正滿足用戶需求的Data+AI智能平臺具有明顯的Data Gravity (數(shù)據(jù)重力)傾向。如何理解Data Gravity概念?用一句話概括,就是讓更多的模型、算法和算力向數(shù)據(jù)靠近,而不是來回遷移數(shù)據(jù)。因為,搬數(shù)據(jù)這件事,成本高昂,不能再像二十年前一樣,把不同數(shù)據(jù)進行聚攏,再進行數(shù)據(jù)下發(fā)?,F(xiàn)在,基本都是近存計算、存內(nèi)計算,計算向存儲靠近,向數(shù)據(jù)偏移。
此種背景下,阿里云瑤池數(shù)據(jù)庫推出的Data+AI一站式多模數(shù)據(jù)管理平臺做出幾個重要改變:一、是一體化,打破數(shù)據(jù)生態(tài)和部署域的壁壘;二、讓數(shù)據(jù)價值獲取的路徑變短。
所謂“一體化”,是指為用戶打造一個統(tǒng)一的數(shù)據(jù)管理與開發(fā)平臺,以優(yōu)化數(shù)據(jù)資產(chǎn)的可見性和利用效率。首先,通過一個集中化的界面,讓用戶能夠清晰地查看所有分散在不同來源(如OLTP數(shù)據(jù)庫、OLAP數(shù)據(jù)庫、云存儲及自有IDC等)的數(shù)據(jù)資產(chǎn),從而更有效地管理數(shù)據(jù)并控制存儲成本,同時獲得全局性的數(shù)據(jù)概覽,這一理念體現(xiàn)在阿里云在DMS+X平臺中提出的OneMeta+OneOps概念上。其中,OneMeta實現(xiàn)了數(shù)據(jù)資產(chǎn)的統(tǒng)一元數(shù)據(jù)管理,包括數(shù)據(jù)的來源、表結構等關鍵信息;而OneOps強調了開發(fā)平臺的統(tǒng)一性,支持從離線到在線、從OLAP到Spark再到AI等多種數(shù)據(jù)處理場景。通過OneOps概念,DMS+X整合了數(shù)據(jù)操作、開發(fā)運維以及針對大型語言模型等操作,形成一個統(tǒng)一的操作平臺,讓用戶能夠在這個平臺上完成所有與數(shù)據(jù)相關的操作,從數(shù)據(jù)清洗、編排到調用AI模型,從而縮短數(shù)據(jù)價值獲取的路徑,使數(shù)據(jù)價值的挖掘變得更加簡單和高效。
值得一提的是,不同數(shù)據(jù)生態(tài)的打通也是DMS+X一大亮點。眾所周知,OLTP數(shù)據(jù)庫和OLAP數(shù)據(jù)庫本身數(shù)據(jù)存儲和處理形式不同,中間免不了要進行復雜的ETL轉換。秉承Zero-ETL理念,DMS+X在數(shù)據(jù)轉換通路上做了很多工作,讓用戶無需通過物理復制就能在無感知狀態(tài)中將ETL效率提升5-10倍。
與此同時,讓數(shù)據(jù)價值它的獲取路徑變得短,或者說讓用戶獲取價值更簡單,也是DMS+X智能平臺提供的一個重要價值。為了將數(shù)據(jù)適配到AI處理的需求,DMS+X還進行了數(shù)據(jù)的AI ready化處理,如向量化等,使數(shù)據(jù)更易于被大型語言模型等AI技術理解和處理。此外,DMS+X還提供了Notebook、任務編排、以及結合百煉等智能開發(fā)平臺的一系列功能,幫助用戶更容易地生成帶有業(yè)務屬性的數(shù)據(jù)處理流程,進一步提升數(shù)據(jù)價值的挖掘效率。
從目前應用現(xiàn)狀來看,阿里云DMS+X的用戶主要是互聯(lián)網(wǎng)、零售、游戲以及泛娛樂領域,這些領域的企業(yè)本身就有核心的數(shù)據(jù)資產(chǎn),希望通過數(shù)據(jù)處理能力的提升拓展AI邊界,構建AI原生能力,進而實現(xiàn)數(shù)據(jù)資產(chǎn)的價值最大化。大體來看,企業(yè)智能化升級還處于剛剛起步的階段,未來隨著Data+AI融合速度的加快,其他傳統(tǒng)領域也一定會全面跟進。
當然,部署Data+AI融合戰(zhàn)略的企業(yè)不只阿里云一家。與同類競品相比,阿里云“Data+AI”驅動的DMS+X一站式多模數(shù)據(jù)管理平臺之所以成為各行各業(yè)實現(xiàn)數(shù)據(jù)價值新底座,是“厚積薄發(fā)”的結果。比如:生成式AI強調的三層架構(底層基礎設施層、中間模型層以及上層應用),阿里云很早就已提出IaaS+PaaS+MaaS全棧產(chǎn)品矩陣。過去幾年,不管是IaaS(計算、存儲、網(wǎng)絡安全)、PaaS(中間件,數(shù)據(jù)庫,計算平臺),還是MaaS(通義系大模型),都已做到業(yè)內(nèi)領先。
具體到數(shù)據(jù)庫,經(jīng)過十余年的應用實踐以及技術迭代,阿里云瑤池擁有業(yè)界最全面的數(shù)據(jù)庫產(chǎn)品布局,涵蓋云原生關系型數(shù)據(jù)庫PolarDB、云原生數(shù)據(jù)倉庫AnalyticDB、云原生多模數(shù)據(jù)庫Lindorm等多款明星產(chǎn)品,可滿足用戶不同業(yè)務需要。技術方面,瑤池旗下的自研數(shù)據(jù)庫擁有三層解耦、多主多寫、HTAP、Serverless等全球首創(chuàng)或業(yè)內(nèi)領先的創(chuàng)新能力。其中,PolarDB已完成全球首個大規(guī)模商用、基于共享存儲的云原生多主數(shù)據(jù)庫實踐,并憑此成功摘得了中國首個ACM SIGMOD和IEEE ICDE的工業(yè)賽道“最佳論文獎”。
未來:AI就緒,迎接Gen AI時代
盡管在底層技術平臺支撐上,人類已經(jīng)做好了AI就緒的準備,但距離真正的Gen AI時代到來,還有一段距離。周文超博士總結認為,大模型應用層將在未來占據(jù)主導地位,尤其是模型的推理應用,其價值將遠超訓練過程。在此背景下,阿里云瑤池數(shù)據(jù)庫DMS+X發(fā)展規(guī)劃也會變得更加清晰,將聚焦于支持更宏大的推理場景,通過提升用戶體驗和性價比來推動技術進步。
具體而言,DMS+X將致力于讓用戶在使用過程中更加便捷、高效,并通過資源混部、垂直領域數(shù)據(jù)的存儲與計算優(yōu)化等手段,進一步提升資源使用效率。同時,還會更積極地探索如何更高效地使用CPU、GPU、FPGA等算力資源,以期在未來技術落地中發(fā)揮重要作用。這些努力不僅體現(xiàn)了阿里云瑤池數(shù)據(jù)庫對未來技術趨勢的深刻洞察,也彰顯了企業(yè)在推動AI技術發(fā)展方面的堅定決心和不懈努力。
而從技術人生的視角來看,以周文超博士為代表的研發(fā)團隊,正以長期主義心態(tài),將戰(zhàn)略愿景轉化為實際行動,致力于為用戶帶來更高效、更便捷的智能數(shù)據(jù)平臺體驗,推動著AI技術的持續(xù)進步和應用的快速拓展。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。