如果您與數(shù)據(jù)領(lǐng)域有過(guò)哪怕一丁點(diǎn)兒關(guān)系,我想您已經(jīng)感受過(guò)混亂的數(shù)據(jù)生態(tài)系統(tǒng)的細(xì)微差別。毫無(wú)疑問(wèn),數(shù)據(jù)世界已經(jīng)經(jīng)歷了它自己的發(fā)展過(guò)程,事實(shí)上,它已經(jīng)取得了長(zhǎng)足的進(jìn)步。
如今,由于數(shù)據(jù)生成量巨大,即使是小公司也幾乎無(wú)法想象手動(dòng)寫(xiě)入、讀取和管理數(shù)據(jù)。如果成功識(shí)別出其中的模式,那么每次點(diǎn)擊、每次瀏覽和每個(gè)事件都會(huì)產(chǎn)生重大且可能有益的業(yè)務(wù)成果。
想象一下,這些事件的數(shù)量增加數(shù)倍,達(dá)到數(shù)百萬(wàn)甚至數(shù)十億的規(guī)模。如何處理如此大量的數(shù)據(jù),并確保數(shù)據(jù)不僅占用昂貴的空間,還體現(xiàn)出其存在的價(jià)值?
數(shù)據(jù)堆棧的演變
數(shù)據(jù)堆棧一直處于不斷演變的狀態(tài),以適應(yīng)數(shù)據(jù)增長(zhǎng)的速度。實(shí)際上,增長(zhǎng)的不是數(shù)據(jù),而是數(shù)據(jù)始終存在于宇宙中。增長(zhǎng)來(lái)自于我們的技術(shù)能力,隨著時(shí)間的推移,這些技術(shù)能力已經(jīng)發(fā)展到可以捕獲各種數(shù)據(jù)流。例如,如今的物聯(lián)網(wǎng)設(shè)備甚至可以檢測(cè)呼吸和運(yùn)動(dòng)來(lái)調(diào)節(jié)通風(fēng)能力。
然而,雖然捕捉和記錄數(shù)據(jù)的感官能力已顯著增強(qiáng),但處理、管理和理解數(shù)據(jù)的能力卻沒(méi)有以同樣的速度進(jìn)步。所以,我們有眼睛、耳朵、皮膚、舌頭和鼻子,但我們?nèi)匀蝗狈σ粋€(gè)能夠理解和操作來(lái)自這些渠道的輸入的完善的大腦。
如果流行的數(shù)據(jù)堆棧是人類……
一 數(shù)據(jù)的基奠:傳統(tǒng)數(shù)據(jù)堆棧
數(shù)據(jù)一直存在,未來(lái)也不會(huì)缺少數(shù)據(jù)生成。作為一個(gè)行業(yè),我們明白,這些無(wú)處不在的數(shù)據(jù)可以而且應(yīng)該被利用來(lái)優(yōu)化資源和投資回報(bào)。
這里要注意的關(guān)鍵點(diǎn)是,利用數(shù)據(jù)的主要目的過(guò)去是、將來(lái)也將是提升企業(yè)競(jìng)爭(zhēng)力和投資回報(bào)。
為了實(shí)現(xiàn)數(shù)據(jù)的可操作,第一個(gè)具體的基礎(chǔ)是傳統(tǒng)數(shù)據(jù)堆棧。那時(shí)它還不是“傳統(tǒng)的”;它是數(shù)據(jù)堆棧。這在某種程度上改變了觀點(diǎn)。十年或二十年后,當(dāng)今流行的堆棧很容易落入傳統(tǒng)或遺留的范疇。
傳統(tǒng)數(shù)據(jù)堆棧是什么?它為什么會(huì)過(guò)時(shí)?
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)數(shù)據(jù)堆是本地?cái)?shù)據(jù)系統(tǒng)的別稱,組織管理自己的基礎(chǔ)設(shè)施和硬件,這不僅需要大量人工,而且在脆弱性(抗變化性)、高維護(hù)成本、缺乏可擴(kuò)展性(每次堆棧需要擴(kuò)展時(shí)都要提供新的基礎(chǔ)設(shè)施或硬件)、自下而上的維護(hù)造成的僵化、從頭開(kāi)始開(kāi)發(fā)以及極其復(fù)雜的根本原因分析或缺乏根本原因分析方面也是一種負(fù)擔(dān)。
由于傳統(tǒng)數(shù)據(jù)堆棧中的組件(無(wú)論是倉(cāng)庫(kù)還是大數(shù)據(jù)集群)彼此緊密耦合,因此將邏輯需求與原始物理數(shù)據(jù)分離極其困難,從而減慢業(yè)務(wù)、恢復(fù)和 RCA 能力。
人工密集和緊密耦合也是傳統(tǒng)數(shù)據(jù)堆棧及其支持的數(shù)據(jù)管道高度脆弱的原因。轉(zhuǎn)換作業(yè)不僅因?yàn)榧夹g(shù)陳舊而緩慢,還因?yàn)楣艿啦环€(wěn)定,在遇到動(dòng)態(tài)數(shù)據(jù)或事件時(shí)會(huì)中斷,而眾所周知,數(shù)據(jù)是不斷變化的。
當(dāng)然,我們來(lái)談?wù)労诵膯?wèn)題。數(shù)據(jù)堆棧的整個(gè)目標(biāo)是促進(jìn)業(yè)務(wù)。維護(hù)和擴(kuò)展傳統(tǒng)數(shù)據(jù)堆棧所產(chǎn)生的成本對(duì)數(shù)據(jù)團(tuán)隊(duì)的投資回報(bào)率造成了重大打擊。即使我們假設(shè)堆棧產(chǎn)生的價(jià)值是有用的,并在正確的時(shí)間到達(dá)業(yè)務(wù)團(tuán)隊(duì),過(guò)渡的保障費(fèi)用也會(huì)吞噬一半以上的價(jià)值。
因此,就質(zhì)量、數(shù)量,尤其是時(shí)間敏感性和投資回報(bào)率而言,傳統(tǒng)數(shù)據(jù)堆棧的表現(xiàn)一直遠(yuǎn)非一流,而這些對(duì)于企業(yè)而言至關(guān)重要。但有總比沒(méi)有好,它讓我們看到了更細(xì)微的問(wèn)題,這些問(wèn)題比存儲(chǔ)在大量物理文件和文件夾中、沉睡在地下室深處的數(shù)據(jù)問(wèn)題高出一個(gè)層次。
二 數(shù)據(jù)的進(jìn)階:現(xiàn)代數(shù)據(jù)堆棧
事實(shí)就是如此。我們無(wú)法否認(rèn)現(xiàn)代數(shù)據(jù)堆棧相對(duì)于傳統(tǒng)數(shù)據(jù)堆棧狀態(tài)帶來(lái)的令人印象深刻的演變。最大的成就可能是革命性的向云的轉(zhuǎn)變,這不僅使數(shù)據(jù)更易于訪問(wèn),而且更易于恢復(fù)。 現(xiàn)代數(shù)據(jù)堆棧是多個(gè)點(diǎn)解決方案的集合,這些解決方案由用戶拼接在一起,以實(shí)現(xiàn)從物理數(shù)據(jù)到業(yè)務(wù)洞察的主動(dòng)流動(dòng)。我們都看到了圍繞現(xiàn)代數(shù)據(jù)堆棧的炒作,以及它如何讓數(shù)據(jù)用戶沉浸在潛力和可能性中。
但實(shí)際情況是,現(xiàn)代數(shù)據(jù)堆棧只是一組不連貫的解決方案,它針對(duì)的是管道不堪重負(fù)的傳統(tǒng)數(shù)據(jù)堆棧問(wèn)題的各個(gè)部分,并將所有數(shù)據(jù)轉(zhuǎn)儲(chǔ)到中央湖,最終造成了跨行業(yè)難以管理的數(shù)據(jù)沼澤。
從總體上看,數(shù)據(jù)沼澤并不比地下室里的物理文件好。數(shù)據(jù)沼澤中充斥著豐富、有用但處于休眠狀態(tài)的數(shù)據(jù),由于這些數(shù)據(jù)的語(yǔ)義孤立且不可信,企業(yè)無(wú)法將其投入運(yùn)營(yíng)。
語(yǔ)義不可信源于現(xiàn)代數(shù)據(jù)堆棧的混亂,其中有太多的工具、集成和不穩(wěn)定的管道,以至于真實(shí)而清晰的語(yǔ)義在網(wǎng)絡(luò)中丟失了。需要另一個(gè)級(jí)別的語(yǔ)義來(lái)理解低級(jí)語(yǔ)義,這只會(huì)使問(wèn)題進(jìn)一步復(fù)雜化。
隨著數(shù)據(jù)生態(tài)系統(tǒng)逐漸發(fā)展成為復(fù)雜且孤立的系統(tǒng),每隔一天就會(huì)有源源不斷的點(diǎn)解決方案加入到這個(gè)瘋狂的組合中,非專家級(jí)的最終用戶陷入了混亂。毫不奇怪,它被稱為 MAD(機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù))格局。下面的這張信息圖立即指出了現(xiàn)代數(shù)據(jù)堆棧的問(wèn)題;無(wú)需多言(一張圖片勝過(guò)千言萬(wàn)語(yǔ)!)。
現(xiàn)代數(shù)據(jù)堆棧生態(tài)表現(xiàn)為選擇困境、集成開(kāi)銷、維護(hù)開(kāi)銷、專業(yè)知識(shí)開(kāi)銷和資源開(kāi)銷。無(wú)數(shù)點(diǎn)解決方案組成的混亂生態(tài)系統(tǒng)最終會(huì)造成數(shù)據(jù)孤島,而不是解決它們。
三 當(dāng)前解決方案:數(shù)據(jù)優(yōu)先堆棧
與現(xiàn)代數(shù)據(jù)堆棧相反
現(xiàn)代數(shù)據(jù)堆棧的出現(xiàn)幫助我們克服了本地部署和人工密集型挑戰(zhàn)帶來(lái)的阻力。然而,現(xiàn)代數(shù)據(jù)堆棧也是一把雙刃劍,它帶來(lái)了新的問(wèn)題,甚至是我們?cè)跀?shù)據(jù)生態(tài)體系中樹(shù)一片一片長(zhǎng)出葉子時(shí)沒(méi)有預(yù)料到的問(wèn)題。
數(shù)據(jù)優(yōu)先堆棧是一項(xiàng)里程碑式的創(chuàng)新,其靈感來(lái)自過(guò)去十年來(lái) Uber、Google 和 Airbnb 等幾家數(shù)據(jù)優(yōu)先組織開(kāi)展的數(shù)據(jù)優(yōu)先運(yùn)動(dòng)。但數(shù)據(jù)優(yōu)先意味著什么呢?
顧名思義,數(shù)據(jù)優(yōu)先就是將數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)的決策放在首位,同時(shí)通過(guò)抽象或智能設(shè)計(jì)架構(gòu)降低其他一切的優(yōu)先級(jí)。如果我們從相反的方向來(lái)看——“數(shù)據(jù)最后”,就會(huì)更容易理解這一點(diǎn)。
當(dāng)前的做法(包括 現(xiàn)代數(shù)據(jù)堆棧)是“數(shù)據(jù)最后”的實(shí)現(xiàn),需要花費(fèi)大量的精力、資源和時(shí)間來(lái)管理、處理和維護(hù)數(shù)據(jù)基礎(chǔ)設(shè)施。數(shù)據(jù)和數(shù)據(jù)應(yīng)用程序?qū)嶋H上在這種轉(zhuǎn)變中消失了,并成為以數(shù)據(jù)為中心的團(tuán)隊(duì)的最后關(guān)注點(diǎn),為數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者創(chuàng)造了極具挑戰(zhàn)性的業(yè)務(wù)雷區(qū)。
投資回報(bào)時(shí)間 (TTROI)
在過(guò)去的十年中,由于技術(shù)水平低下、創(chuàng)新有限,尤其是我們對(duì)數(shù)據(jù)世界的洞察或理解非常有限,組織花了數(shù)年時(shí)間才構(gòu)建數(shù)據(jù)優(yōu)先堆棧。
如今,企業(yè)能否很好地掌握數(shù)據(jù)是決定競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。許多數(shù)據(jù)優(yōu)先型組織早就明白這一點(diǎn),并致力于實(shí)現(xiàn)數(shù)據(jù)優(yōu)先型的重大項(xiàng)目。然而,復(fù)制它們并不是解決方案,因?yàn)樗鼈兊臄?shù)據(jù)堆棧是針對(duì)其特定的內(nèi)部架構(gòu)而設(shè)計(jì)的。
只有根據(jù)企業(yè)的內(nèi)部基礎(chǔ)設(shè)施構(gòu)建的數(shù)據(jù)優(yōu)先堆棧才是真正數(shù)據(jù)優(yōu)先的。
與普遍的觀念相反,建立數(shù)據(jù)優(yōu)先堆棧需要數(shù)年時(shí)間,但隨著近幾年新存儲(chǔ)和計(jì)算工具以及創(chuàng)新技術(shù)的出現(xiàn),這種想法已不再適用。在幾周內(nèi)(而不是幾個(gè)月和幾年內(nèi))建立數(shù)據(jù)優(yōu)先堆棧并從中獲取價(jià)值并非不可能。
無(wú)中斷
輕松過(guò)渡到數(shù)據(jù)優(yōu)先堆棧是可行的,因?yàn)閿?shù)據(jù)優(yōu)先堆棧不會(huì)造成破壞,因?yàn)樗哪康牟皇峭品吞鎿Q現(xiàn)有工具或之前的大量數(shù)據(jù)投資。它通過(guò)在復(fù)雜子系統(tǒng)之上提供統(tǒng)一的控制平面來(lái)促進(jìn)現(xiàn)有的設(shè)計(jì)架構(gòu)。隨著時(shí)間的推移,這些子系統(tǒng)可以根據(jù)用戶的過(guò)渡難易程度或偏好被數(shù)據(jù)優(yōu)先堆棧原生構(gòu)建塊取代。
四 數(shù)據(jù)優(yōu)先堆棧的定義因素
1.統(tǒng)一架構(gòu)的內(nèi)部質(zhì)量高
我們習(xí)慣于認(rèn)為“高質(zhì)量”的東西價(jià)格更高。但當(dāng)涉及到架構(gòu)和內(nèi)部質(zhì)量的其他方面時(shí),這種關(guān)系就顛倒了。高內(nèi)部質(zhì)量可以更快地交付新功能,因?yàn)楦蓴_更少。”
統(tǒng)一方法會(huì)毫不留情地削減插入數(shù)據(jù)生態(tài)系統(tǒng)的移動(dòng)部件。更多工具會(huì)帶來(lái)更多垃圾(債務(wù)),并使問(wèn)題更加復(fù)雜。統(tǒng)一方法會(huì)組合功能以實(shí)現(xiàn)單一管理平面。
創(chuàng)建真正統(tǒng)一的架構(gòu)的關(guān)鍵是清理雜亂,并采用一組簡(jiǎn)約的構(gòu)建塊。這些塊可以按任何必要的順序組合在一起,以構(gòu)建更大、更精細(xì)的解決方案,這些解決方案具有松散耦合和緊密集成的組件。
統(tǒng)一架構(gòu)只需進(jìn)行少量調(diào)整即可為非常具體的數(shù)據(jù)應(yīng)用程序提供支持。最終目標(biāo)是擁有精心策劃的自助服務(wù)層,讓用戶擺脫復(fù)雜、孤立和隔離子系統(tǒng)的復(fù)雜性,以便他們可以專注于手頭的問(wèn)題——數(shù)據(jù)。
2.聲明式可管理
真正的數(shù)據(jù)優(yōu)先堆棧會(huì)將重點(diǎn)放在數(shù)據(jù)和數(shù)據(jù)應(yīng)用程序上,而不是將工作分散到底層操作(例如提取、集成、編排、低級(jí)存儲(chǔ)細(xì)節(jié)等)。此外,數(shù)據(jù)工程團(tuán)隊(duì)花費(fèi)更多時(shí)間來(lái)修復(fù)管道,而不是創(chuàng)建新管道以推動(dòng)業(yè)務(wù)機(jī)會(huì)。聲明式管理系統(tǒng)可大幅消除脆弱性范圍,并按需提供 RCA 鏡頭。
聲明式管理數(shù)據(jù)質(zhì)量、治理、安全性和語(yǔ)義曾被認(rèn)為是不可能的,但得益于最新的革命性數(shù)據(jù)契約理念,數(shù)據(jù)領(lǐng)域的聲明式功能可以輕松實(shí)現(xiàn)。最棒的是,契約不會(huì)破壞任何現(xiàn)有的基礎(chǔ)設(shè)施。
3.快速回顧合同
數(shù)據(jù)合同是對(duì)數(shù)據(jù)的期望。這些期望可以是業(yè)務(wù)含義、數(shù)據(jù)質(zhì)量或數(shù)據(jù)安全。它是數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者之間的協(xié)議,用于記錄并以聲明方式確保滿足數(shù)據(jù)期望。
請(qǐng)關(guān)注此處以深入了解合同。
具有統(tǒng)一架構(gòu)思想并輔以契約式握手的數(shù)據(jù)開(kāi)發(fā)平臺(tái)是聲明式數(shù)據(jù)生態(tài)系統(tǒng)的目標(biāo),因此也是數(shù)據(jù)優(yōu)先堆棧的真正推動(dòng)者。
4.最先進(jìn)的開(kāi)發(fā)者體驗(yàn)
數(shù)據(jù)優(yōu)先堆棧的主要最終用戶無(wú)疑是數(shù)據(jù)開(kāi)發(fā)人員。數(shù)據(jù)開(kāi)發(fā)人員在處理數(shù)據(jù)和構(gòu)建數(shù)據(jù)應(yīng)用程序時(shí)的經(jīng)驗(yàn)對(duì)于資源優(yōu)化和業(yè)務(wù)時(shí)間表至關(guān)重要。數(shù)據(jù)優(yōu)先堆棧提升了開(kāi)發(fā)人員的體驗(yàn)并抽象了低級(jí)資源管理任務(wù),同時(shí)又不損害其靈活性,使數(shù)據(jù)開(kāi)發(fā)人員可以完全自由地以聲明方式管理不太具戰(zhàn)略性的操作。
合同在策劃最佳開(kāi)發(fā)人員體驗(yàn)方面也發(fā)揮著關(guān)鍵作用。“我們需要結(jié)束沒(méi)有數(shù)據(jù)合同的數(shù)據(jù)工程行業(yè)的災(zāi)難。”數(shù)據(jù)合同的最佳位置在哪里?為什么數(shù)據(jù)工程師要放棄數(shù)千個(gè)待處理的請(qǐng)求,去考慮合同對(duì)他們?nèi)粘sw驗(yàn)的影響?
通過(guò)在數(shù)據(jù)環(huán)境中分布的合同握手的簡(jiǎn)單哲學(xué),合同幾乎完全符合價(jià)值金字塔:
提高數(shù)據(jù)生態(tài)系統(tǒng)的功能能力
改善協(xié)作體驗(yàn)
改善數(shù)據(jù)工程師、數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者的個(gè)人體驗(yàn)
此后,啟用 Data-First 堆棧,用戶可以專注于核心數(shù)據(jù)和核心數(shù)據(jù)應(yīng)用程序,而不必陷入集成和維護(hù)的細(xì)節(jié)中。
5.價(jià)值在幾周內(nèi)實(shí)現(xiàn),而不是幾年
全面數(shù)據(jù)優(yōu)先堆棧,最初的發(fā)展速度很慢,但一旦克服了最初的幾周,其價(jià)值就會(huì)立即實(shí)現(xiàn),因?yàn)檎嬲臄?shù)據(jù)優(yōu)先堆棧正如其名稱所言:它將數(shù)據(jù)和指標(biāo)放在首位,并將流程直接與業(yè)務(wù)效益聯(lián)系起來(lái)。如果你仔細(xì)想想,數(shù)據(jù)優(yōu)先就是效益優(yōu)先的同義詞。
五 數(shù)據(jù)優(yōu)先堆棧的結(jié)果
數(shù)據(jù)優(yōu)先堆棧的最終目標(biāo)是創(chuàng)建數(shù)據(jù)產(chǎn)品。盡管這應(yīng)該是任何數(shù)據(jù)堆棧、數(shù)據(jù)團(tuán)隊(duì)或數(shù)據(jù)計(jì)劃的理想目標(biāo),但創(chuàng)建真正有助于實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的有價(jià)值數(shù)據(jù)的最終目標(biāo)卻不知何故在普遍的數(shù)據(jù)堆棧的復(fù)雜性中被遺忘了。
數(shù)據(jù)優(yōu)先堆棧可消除干擾,重新將注意力集中在數(shù)據(jù)和數(shù)據(jù)應(yīng)用程序上。當(dāng)數(shù)據(jù)通過(guò)數(shù)據(jù)優(yōu)先堆棧的組件傳輸時(shí),典型的輸出是數(shù)據(jù)產(chǎn)品,簡(jiǎn)而言之,它是持續(xù)可靠地為用戶增加價(jià)值的數(shù)據(jù)單元。數(shù)據(jù)產(chǎn)品具有一些獨(dú)特的品質(zhì)或?qū)傩裕蛊渑c一般數(shù)據(jù)區(qū)分開(kāi)來(lái)。
如果數(shù)據(jù)產(chǎn)品具備上述特質(zhì),它很容易就成為一個(gè)簡(jiǎn)單的電子表格、存儲(chǔ)中的文件、一個(gè)表、一個(gè)數(shù)據(jù)庫(kù)、存儲(chǔ)在ML特征存儲(chǔ)中的特征......你明白了。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。