大數(shù)據(jù)應(yīng)用正在從概念走向現(xiàn)實(shí),而企業(yè)在大數(shù)據(jù)應(yīng)用開發(fā)時(shí),軟件的彈性(Resilient)正在成為決定大數(shù)據(jù)應(yīng)用成敗的關(guān)鍵因素。彈性差的應(yīng)用無法應(yīng)對大規(guī)模的數(shù)據(jù)集,在測試和運(yùn)營中也缺乏透明度,而且也不安全。
避免大數(shù)據(jù)應(yīng)用在生產(chǎn)環(huán)境中掉鏈子的最佳辦法就是在開發(fā)階段就開發(fā)彈性應(yīng)用,例如:魯棒、經(jīng)過測試、可改變、可審計(jì)、高安全、可監(jiān)控。
可以說,開發(fā)出彈性大數(shù)據(jù)應(yīng)用既是一個(gè)技術(shù)工作,也是一個(gè)哲學(xué)問題。Concurrent的Supreet Oberoi近日撰文提出大數(shù)據(jù)應(yīng)用開發(fā)八大基本原則,IT經(jīng)理網(wǎng)編譯如下:
一、為彈性大數(shù)據(jù)應(yīng)用描繪一個(gè)藍(lán)圖
第一步是為企業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)建一個(gè)系統(tǒng)的架構(gòu)和方法,要處理什么數(shù)據(jù)?那些類型的分析最重要?軟件架構(gòu)需要承載那些指標(biāo)、審計(jì)、安全和運(yùn)營功能?
另外一些需要考慮的問題:那些技術(shù)最關(guān)鍵?哪些技術(shù)只是圖一時(shí)之便?你的藍(lán)圖需要準(zhǔn)確評估當(dāng)前架構(gòu)的問題所在。
二、數(shù)據(jù)規(guī)模不再是問題
如果應(yīng)用無法處理更大規(guī)模的數(shù)據(jù)集,那么它就缺乏彈性,彈性應(yīng)用應(yīng)當(dāng)能夠處理任意規(guī)模的數(shù)據(jù)集(包括數(shù)據(jù)深度、廣度、頻度等),數(shù)據(jù)彈性還只對新技術(shù)的兼容,缺乏彈性的應(yīng)用需要不斷配置修改應(yīng)用來適應(yīng)不斷更新的大數(shù)據(jù)技術(shù),對于企業(yè)來說是時(shí)間、資源和金錢上的無底洞。
三、透明度
對于復(fù)雜應(yīng)用來說,查找擴(kuò)展性等彈性相關(guān)問題還很難實(shí)現(xiàn)自動化。關(guān)鍵是鎖定問題的根源所在:是代碼、數(shù)據(jù)還是架構(gòu)抑或網(wǎng)絡(luò)問題?并非每個(gè)應(yīng)用都要具備這種透明度,但大一些的平臺應(yīng)當(dāng)具備足夠的透明度,讓所有開發(fā)者和運(yùn)營人員都能在問題發(fā)生時(shí)立刻找到根源并采取措施。
一旦發(fā)現(xiàn)問題,最為關(guān)鍵的是將找到應(yīng)用行為對應(yīng)的代碼——最好是通過發(fā)現(xiàn)問題的監(jiān)控應(yīng)用。大多數(shù)情況下,訪問代碼會涉及到多個(gè)開發(fā)人員,執(zhí)行起來流程將非常曲折。
四、抽象,事關(guān)高效和簡潔
彈性應(yīng)用總是面向未來的,通常采用抽象層來簡化開發(fā)、提升效率,允許采用不同的技術(shù)實(shí)現(xiàn)。作為架構(gòu)的一部分,彈性開發(fā)的抽象層能夠避免開發(fā)者陷入技 術(shù)實(shí)現(xiàn)的細(xì)節(jié)泥潭中。簡潔性則能方便數(shù)據(jù)科學(xué)家使用應(yīng)用訪問所有類型的數(shù)據(jù)源。如果沒有抽象技術(shù),產(chǎn)品的生產(chǎn)力會大打折扣,修改成本增高,而用戶則為復(fù)雜 性所困擾。
五、安全:審計(jì)與合規(guī)
彈性應(yīng)用能自我審計(jì),能夠顯示誰使用了應(yīng)用,誰有權(quán)限使用,訪問了哪些數(shù)據(jù)以及政策如何實(shí)施。在應(yīng)用開發(fā)階段就將這些功能考慮進(jìn)去是應(yīng)對日益增長的大數(shù)據(jù)隱私、安全、治理和控制挑戰(zhàn)的關(guān)鍵所在。
六、完整度與測試驅(qū)動的開發(fā)
彈性應(yīng)用的一個(gè)基本要求就是不能遺失任何數(shù)據(jù),數(shù)據(jù)完整性的喪失往往會導(dǎo)致嚴(yán)重的后果,例如金融企業(yè)會因?yàn)槌绦虼a弄丟了一兩行交易數(shù)據(jù)而在反洗錢或金融欺詐調(diào)查中遭受處罰。
七、數(shù)據(jù)便攜性
不斷發(fā)展的業(yè)務(wù)需求驅(qū)動技術(shù)不斷做出改變,因此,大數(shù)據(jù)應(yīng)用也應(yīng)當(dāng)能夠在多個(gè)平臺和產(chǎn)品上運(yùn)行。最終的目標(biāo)是讓最終用戶能夠通過SQL和標(biāo)準(zhǔn)API 訪問數(shù)據(jù)(無論是否實(shí)時(shí))。例如,一個(gè)先進(jìn)的大數(shù)據(jù)平臺應(yīng)當(dāng)允許原本由Hadoop存儲MapReduce處理的數(shù)據(jù),轉(zhuǎn)移到Spark或Tez中進(jìn)進(jìn)行 處理,而且這個(gè)過程不需要或盡可能少地改動代碼。
八、不要搞個(gè)人“巫術(shù)”
大數(shù)據(jù)應(yīng)用的開發(fā)不應(yīng)當(dāng)依賴某個(gè)高手的個(gè)人才華,代碼應(yīng)當(dāng)在多個(gè)開發(fā)者之間分享、評估和保有。這個(gè)策略讓整個(gè)團(tuán)隊(duì),而不是個(gè)人,對應(yīng)用質(zhì)量負(fù)責(zé)。