數(shù)字化轉(zhuǎn)型的今天,京東物流業(yè)務(wù)呈現(xiàn)出復(fù)雜多變的特性,涉及眾多場景、多元化渠道與日益增長的數(shù)據(jù)量。針對市場對于數(shù)據(jù)即時性和靈活性的迫切需求,京東物流推出了一站式敏捷 BI 解決方案,以應(yīng)對分散且高并發(fā)的數(shù)據(jù)處理挑戰(zhàn)。本次分享的是京東物流如何通過其一站式敏捷 BI 產(chǎn)品,實現(xiàn)數(shù)據(jù)的快速集成、即時分析及自服務(wù)報告,從而在激烈的市場競爭中贏得優(yōu)勢,進一步提升業(yè)務(wù)效率和決策質(zhì)量。通過這些實踐,我們將見證數(shù)據(jù)驅(qū)動的力量如何在京東物流的業(yè)務(wù)流程中展現(xiàn),以及如何幫助企業(yè)在數(shù)字化的道路上更快前進。
業(yè)務(wù)背景
1. 業(yè)務(wù)背景
數(shù)據(jù)來源多
數(shù)據(jù)來源極為多樣化,包括線上數(shù)據(jù)、線下數(shù)據(jù),甚至是手工提報的數(shù)據(jù)。這種多元化的數(shù)據(jù)來源導(dǎo)致數(shù)據(jù)管理和分析過程十分復(fù)雜,尤其是在不同來源的數(shù)據(jù)需要被整合和分析時。由于來源的多樣性,確保數(shù)據(jù)質(zhì)量和一致性成為了一個挑戰(zhàn)。
需求變化快
由于京東物流的業(yè)務(wù)覆蓋范圍廣,員工眾多,從總部到各個地區(qū)層級,每一個層級都可能產(chǎn)生獨特的數(shù)據(jù)需求。這些需求經(jīng)常變化,且每個層級都可能定義自己的數(shù)據(jù)指標(biāo)或分析某些特定的數(shù)據(jù)細節(jié)。這種快速變化的需求環(huán)境要求數(shù)據(jù)系統(tǒng)必須具備高度的靈活性和快速響應(yīng)能力。
做數(shù)耗時長
傳統(tǒng)的數(shù)據(jù)處理方式,如員工手工在 Excel 中處理數(shù)據(jù),導(dǎo)致數(shù)據(jù)處理時間長,效率低下。此外,數(shù)據(jù)處理的成本高,數(shù)據(jù)口徑不一致等問題也隨之產(chǎn)生。
2. 復(fù)雜的“中國式報表”
物流和傳統(tǒng)企業(yè)中常見的中國式復(fù)雜報表帶來的挑戰(zhàn)如下:
受眾多樣性
各個層次、各種角色的成員都是報表的使用者,不同角色的用戶關(guān)心的信息內(nèi)容不同,樣式不同,使用方式不同。
數(shù)據(jù)計算復(fù)雜
查詢、分析條件復(fù)雜,且報表中往往存在復(fù)雜的統(tǒng)計運算,如 Sumif 函數(shù)、匯總、同比、環(huán)比、達成狀態(tài)等。對于參數(shù)頁面布局、參數(shù)控件類型等都有較高要求。
報表樣式復(fù)雜
不追求圖表式的直觀可視化效果,而是體現(xiàn)信息的豐富度,因此在樣式上使用了較多的數(shù)據(jù)透視、多層表頭、不完全劃分、分欄等,樣式非常復(fù)雜。
多數(shù)據(jù)源
數(shù)據(jù)源分散,數(shù)據(jù)信息來自不同的業(yè)務(wù)系統(tǒng),技術(shù)路線和數(shù)據(jù)結(jié)構(gòu)都有很大差異。
治理難度大
需要從數(shù)據(jù)源、數(shù)據(jù)指標(biāo)體系兩方面入手,且業(yè)務(wù)多層級聯(lián)動共同拉齊數(shù)據(jù)認(rèn)知,為治理帶來很大困難。
研發(fā)資源消耗大
面向分析場景需求個性化程度高、不固化、不明確,研發(fā)側(cè)支持有資源瓶頸。
大數(shù)據(jù)技術(shù)挑戰(zhàn)大
大數(shù)據(jù)量、實時在線交互分析、系統(tǒng)執(zhí)行復(fù)雜度不確定、響應(yīng)時間和用戶體驗很難預(yù)判保證。
3. 建設(shè)平臺工具以解決實際業(yè)務(wù)問題
(1)業(yè)務(wù)場景的數(shù)據(jù)化挑戰(zhàn)
監(jiān)控與預(yù)警的需求:質(zhì)量改善、工單處理、異常處理崗位對 KPI 達成與工單量變化的敏感度。
數(shù)據(jù)時效性:在考核、復(fù)盤、經(jīng)營運營及責(zé)任追究等方面的高標(biāo)準(zhǔn)要求。
人力資源局限:現(xiàn)有支持體系難以滿足眾多一線員工的復(fù)雜需求。
(2)數(shù)據(jù)處理的現(xiàn)狀與困境
繁瑣的數(shù)據(jù)獲取與處理:員工需從各自業(yè)務(wù)系統(tǒng)下載并處理數(shù)據(jù),效率低下。
報表的生成與分享:數(shù)據(jù)分析后需制作報表,進而進行分享與下達,流程繁雜。
(3)UData:創(chuàng)新的解決方案
敏捷 BI 的引入:一個自助式、集成式的敏捷商業(yè)智能(BI)解決方案。
數(shù)據(jù)集成:集成各類指標(biāo)與模型至數(shù)據(jù)地圖,簡化標(biāo)準(zhǔn)化數(shù)據(jù)源的獲取。
自助式內(nèi)容分析:為非專業(yè)人士提供易于操作的數(shù)據(jù)分析工具,減少對技術(shù)的依賴。
數(shù)據(jù)準(zhǔn)備:簡化數(shù)據(jù)之間的關(guān)聯(lián)、篩選與聚合操作,提高工作效率。
中國式報表與在線 Excel 插件 A. 數(shù)據(jù)與報表的融合:通過插件將數(shù)據(jù)語言與在線 Excel 結(jié)合,順應(yīng)用戶線下習(xí)慣。
辦公協(xié)同系統(tǒng)的整合:報表生成后,通過推送、郵件、訂閱等方式實現(xiàn)辦公自動化,確保信息流暢傳遞。
4.產(chǎn)品方法論與解決方案
1. 產(chǎn)品規(guī)劃第一步:產(chǎn)品價值主張
產(chǎn)品規(guī)劃的第一步為確定產(chǎn)品的價值主張:強調(diào)任何產(chǎn)品都需從其價值主張出發(fā),這是產(chǎn)品成功的基石。
(1)三個邏輯的概述
價值發(fā)現(xiàn):識別目標(biāo)用戶群體,明確產(chǎn)品解決的具體場景及需求,并構(gòu)建核心競爭力。
價值共創(chuàng):探討如何與合作伙伴共同創(chuàng)造價值,包括共創(chuàng)方案和流程機制的構(gòu)建。
價值獲取:確定價值落地的模式,包括衡量標(biāo)準(zhǔn)和方法。
(2)價值發(fā)現(xiàn)
用戶需求的深入分析:通過監(jiān)控3萬多數(shù)據(jù)業(yè)務(wù)人員的日常行為,揭示其重復(fù)性使用 Excel 等工具的頻繁性和模式。
系統(tǒng)化建設(shè)的不足:指出目前數(shù)據(jù)體系化建設(shè)的不足,以及數(shù)據(jù)標(biāo)準(zhǔn)化沉淀的限制。
(3)價值共創(chuàng)的策略
建立多元異構(gòu)查詢支持:強調(diào)需要支持多樣化的數(shù)據(jù)查詢和交互式數(shù)據(jù)獲取。
降低技術(shù)門檻:目標(biāo)是打造一個低門檻、自助式、交互式的工具,特別強調(diào)點選式的操作和在線化的 Excel 功能。
業(yè)務(wù)層共建:與業(yè)務(wù)部門共建數(shù)據(jù)集,提高數(shù)據(jù)標(biāo)準(zhǔn)化程度,并通過重點項目共建和數(shù)據(jù)分析師培養(yǎng)專項計劃提升整體數(shù)據(jù)理解和應(yīng)用能力。
(4)價值獲取與效果衡量
衡量指標(biāo)的設(shè)定:通過覆蓋度、滲透率和工作時長節(jié)省等指標(biāo)衡量產(chǎn)品上線后的效果。
實驗觀測:運用 AB 實驗等方法觀測業(yè)務(wù)數(shù)據(jù)分析的效率和效果。
2. UData 一站式敏捷 BI 產(chǎn)品架構(gòu)
構(gòu)筑商業(yè)智能產(chǎn)品架構(gòu)的過程中,我們面臨的挑戰(zhàn)源自業(yè)務(wù)系統(tǒng)的多樣性及數(shù)據(jù)庫類型的復(fù)雜性。為了應(yīng)對這一挑戰(zhàn),聯(lián)邦查詢技術(shù)被引入以實現(xiàn)跨數(shù)據(jù)源的統(tǒng)一查詢,這不僅強化了數(shù)據(jù)處理的能力,而且增強了系統(tǒng)的靈活性和響應(yīng)速度。在此基礎(chǔ)上,數(shù)據(jù)管理的角色顯得尤為重要,它要求我們能夠清晰地識別并定位標(biāo)準(zhǔn)化的數(shù)據(jù)集,確保數(shù)據(jù)的準(zhǔn)確性和可靠性。
進一步地,數(shù)據(jù)的準(zhǔn)備、分析和系統(tǒng)共享被強調(diào)為系統(tǒng)內(nèi)特別核心的能力。這些能力不僅加強了數(shù)據(jù)的實用性,也為后續(xù)的決策提供了堅實的支持。
此外,利用商業(yè)智能工具和沉淀的標(biāo)準(zhǔn)化數(shù)據(jù)資產(chǎn),通過開放 API 支持其他系統(tǒng)調(diào)用內(nèi)部數(shù)據(jù),這一策略極大地提高了整體架構(gòu)的效率和靈活性。
總體而言,在構(gòu)建商業(yè)智能產(chǎn)品時,必須認(rèn)真考慮和實施跨數(shù)據(jù)源查詢、數(shù)據(jù)管理以及數(shù)據(jù)服務(wù)等關(guān)鍵功能,以確保系統(tǒng)的強大、可靠和高效。
3. Udata 1.0-產(chǎn)品特性
(1)快速集成多樣數(shù)據(jù)資源:該平臺能夠迅速融合各類數(shù)據(jù)資源,突破了傳統(tǒng)數(shù)據(jù)處理的局限性,為用戶提供了一個全面而綜合的數(shù)據(jù)視圖。
(2)簡化數(shù)據(jù)配置:轉(zhuǎn)變了常規(guī)的數(shù)據(jù)處理方式,用戶無需撰寫復(fù)雜的 SQL 語句,而是通過直觀的點選式界面進行數(shù)據(jù)配置,大幅降低了技術(shù)門檻,提高了操作的便捷性。
(3)數(shù)據(jù)加速與聯(lián)邦查詢支持:軟件底層采用了先進的查詢引擎,支持聯(lián)邦查詢,這意味著即使數(shù)據(jù)分散在不同的系統(tǒng)和平臺上,也能實現(xiàn)快速、高效的數(shù)據(jù)檢索和處理。
(4)類 Excel 的操作簡化
線上數(shù)據(jù)選擇與創(chuàng)建:用戶可以在線選擇并創(chuàng)建自己的數(shù)據(jù)集,簡化了數(shù)據(jù)處理步驟。
配置在線復(fù)雜報表:在數(shù)據(jù)集基礎(chǔ)上,用戶能夠配置類似于中國式的復(fù)雜報表,這些報表既輕量級又易于操作,適應(yīng)了用戶對靈活性和復(fù)雜性的雙重需求。
(5)輕量級訪問與快速集成
工具提供了輕量級的訪問方式,使用戶能夠迅速而方便地處理和分析數(shù)據(jù)。
支持快速集成到包括辦公系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)和電子郵件等在內(nèi)的各種平臺,增強了其實用性和廣泛的應(yīng)用范圍。
一些不足
系統(tǒng)穩(wěn)定性問題
隨著 1.0 版本在更廣泛領(lǐng)域的應(yīng)用,系統(tǒng)穩(wěn)定性成為一個顯著的問題,影響了用戶體驗和操作的連貫性。
性能問題
數(shù)據(jù)處理的效率和速度是評估系統(tǒng)性能的關(guān)鍵指標(biāo),性能瓶頸會導(dǎo)致做數(shù)耗時長,進而影響決策速度和業(yè)務(wù)流程。
應(yīng)用性問題
隨著需求的快速變化和數(shù)據(jù)來源的多樣化,系統(tǒng)需要靈活適應(yīng)不斷變化的環(huán)境和需求,應(yīng)用性的不足可能會限制系統(tǒng)的廣泛應(yīng)用和擴展 Spark 完成歷史數(shù)據(jù)的回補。
基于用戶價值公式思考產(chǎn)品優(yōu)化空間
當(dāng)前系統(tǒng)的挑戰(zhàn)主要為以下幾大方面:
系統(tǒng)穩(wěn)定性:在廣泛應(yīng)用過程中,系統(tǒng)穩(wěn)定性常常受到挑戰(zhàn),影響了用戶的連續(xù)使用體驗。
系統(tǒng)性能:頻繁出現(xiàn)的性能問題減緩了數(shù)據(jù)處理速度,影響了整體效率。
易用性問題:隨著用戶規(guī)模的提升,用戶需求多種多樣,系統(tǒng)的易用性和產(chǎn)品體驗暴露出一些問題,影響了其廣泛應(yīng)用的可能性。
優(yōu)化策略與方法論:
用戶價值公式:提出了一種評估產(chǎn)品價值的公式,即新體驗減去舊體驗和遷移成本后的剩余價值,以此作為優(yōu)化的基礎(chǔ)。
舊體驗與新體驗的對比:分析用戶的舊體驗,如手工操作 Excel 的熟悉性與穩(wěn)定性,以及新體驗所帶來的自助式分析和自動化更新的便利性。
新體驗中的挑戰(zhàn):識別新體驗中存在的問題,如數(shù)據(jù)穩(wěn)定性和同步的及時性問題,以及用戶面臨的遷移成本。
具體應(yīng)對策略為:
改善數(shù)據(jù)穩(wěn)定性:采取措施解決數(shù)據(jù)丟失和同步問題,提高數(shù)據(jù)穩(wěn)定性。
降低遷移成本:通過簡化操作和提供培訓(xùn),降低用戶的學(xué)習(xí)成本,使遷移過程更加平滑。
增強系統(tǒng)性能和應(yīng)用性:優(yōu)化系統(tǒng)架構(gòu),提高性能,擴展應(yīng)用范圍以適應(yīng)不斷變化的用戶需求。
產(chǎn)品邏輯梳理
(1)數(shù)據(jù)處理鏈路的核心組成
數(shù)據(jù)源的多樣性:強調(diào)了數(shù)據(jù)源包含實時與離線數(shù)據(jù),以及明細層與匯總層數(shù)據(jù),其中明細層數(shù)據(jù)量龐大,而匯總層數(shù)據(jù)經(jīng)過聚合后較小。
數(shù)據(jù)集與數(shù)據(jù)源的區(qū)分:討論了數(shù)據(jù)集作為數(shù)據(jù)處理和管理的結(jié)果,它代表了加工處理后的數(shù)據(jù)結(jié)果集,這有助于提高可視化的效率。
(2)數(shù)據(jù)集的構(gòu)建方式與分析能力
構(gòu)建數(shù)據(jù)集的多樣方式:包括點選式操作生成 SQL,直接編寫 SQL,以及問答式的自然語言處理技術(shù)。
數(shù)據(jù)分析能力:探討了提供的分析能力,包括不同類型的數(shù)據(jù)報告和報告來源,以及系統(tǒng)易用性的考量。
(3)系統(tǒng)優(yōu)化的邏輯與方法
產(chǎn)品和系統(tǒng)邏輯接入的標(biāo)準(zhǔn):討論了優(yōu)化新版本系統(tǒng)時考慮的產(chǎn)品與系統(tǒng)邏輯接入的標(biāo)準(zhǔn)和方式。
數(shù)據(jù)準(zhǔn)備與校驗:強調(diào)了數(shù)據(jù)準(zhǔn)備過程中的校驗工作的重要性。
架構(gòu)梳理與模塊界定:強調(diào)了對系統(tǒng)架構(gòu)、模塊邊界以及前后臺關(guān)系的重新梳理和界定,以確保 BI 產(chǎn)品的穩(wěn)定性和高效性。
7. Udata 產(chǎn)品升級
(1)穩(wěn)定性提升
①穩(wěn)定性專項的實施
問題收集與記錄:系統(tǒng)地記錄和識別用戶報告的 bug 和問題,如系統(tǒng)打不開或數(shù)據(jù)不一致等,以便于后續(xù)分析。
高頻問題識別:通過持續(xù)記錄,識別頻繁出現(xiàn)的問題,然后進行分類,以了解哪些類型的問題是經(jīng)常發(fā)生的及其影響范圍。
②分類與復(fù)盤
問題分類:將識別的問題進行分類,為進一步的分析和解決提供清晰的方向。
定期復(fù)盤:定期回顧問題,深入挖掘根本原因,并基于這些原因制定解決策略。
③監(jiān)測指標(biāo)的定義與優(yōu)化措施
監(jiān)測指標(biāo)定義:定義關(guān)鍵的監(jiān)測指標(biāo),如故障率和可用性,包括數(shù)據(jù)問題、共享問題和操作問題等,這有助于更準(zhǔn)確地監(jiān)控和評估系統(tǒng)穩(wěn)定性。
性能優(yōu)化:識別和解決導(dǎo)致查詢失敗的底層引擎問題,以及相關(guān)的性能問題,確保系統(tǒng)的穩(wěn)定運行。
(2)性能提升
①性能問題及其對用戶體驗的影響
性能問題的表現(xiàn):用戶在嘗試打開報表時經(jīng)常遭遇長時間的加載延遲,有時甚至無法加載完成,這種延時和不確定性嚴(yán)重影響了用戶的體驗。
問題的重要性:強調(diào)性能問題不僅是一個技術(shù)問題,而且對用戶體驗有顯著影響,需要被優(yōu)先解決。
②性能優(yōu)化策略
性能診斷:通過性能診斷,識別導(dǎo)致報表加載緩慢的原因,可能是數(shù)據(jù)接入問題、復(fù)雜的 SQL 查詢,或不必要的數(shù)據(jù)引入等。
數(shù)據(jù)物化策略:實施數(shù)據(jù)物化,將大表拆分為小表,減小查詢的數(shù)據(jù)量級,從而提高查詢效率。
緩存策略:引入主動和被動緩存,基于歷史訪問行為優(yōu)化緩存命中率,進一步提升查詢效率。
③數(shù)據(jù)報表的分類與管理
分級和分類:對數(shù)據(jù)報表進行分類和分級,明確每個報表的服務(wù)場景和性能要求,實現(xiàn)精細化管理。
發(fā)布時的約束:在數(shù)據(jù)報表發(fā)布時增加邊界約束,確保每個報表在發(fā)布前都能滿足既定的性能標(biāo)準(zhǔn)。
④綜合優(yōu)化視角
技術(shù)與運營結(jié)合:強調(diào)性能優(yōu)化不僅涉及技術(shù)問題,也包括產(chǎn)品運營的思路及用戶的引導(dǎo)和約束。
用戶教育:提倡對用戶進行教育,使其更加理解如何有效地利用系統(tǒng),編寫高效的 SQL,減輕系統(tǒng)負擔(dān)。
⑤數(shù)據(jù)集創(chuàng)建后的性能評估
評分機制:在數(shù)據(jù)集創(chuàng)建完成后,系統(tǒng)將基于性能和效率等關(guān)鍵指標(biāo)對其進行評分,以確保每個數(shù)據(jù)集都符合既定的標(biāo)準(zhǔn)。
優(yōu)化建議提供:對于評分不高或有改進空間的數(shù)據(jù)集,系統(tǒng)會提出具體的優(yōu)化建議,指導(dǎo)用戶如何改進數(shù)據(jù)集的性能和效率。
基于 StarRocks 的引擎升級帶來極致查詢性能
①性能優(yōu)化的核心引擎與合作
核心引擎選擇:采用基于 StarRocks 的核心引擎進行性能優(yōu)化,并與社區(qū)進行戰(zhàn)略合作,為優(yōu)化提供技術(shù)支持。
StarRocks 的優(yōu)化特性:介紹 StarRocks 支持的向量化執(zhí)行,物化視圖加速查詢和 CBO 優(yōu)化等特性,以及通過這些特性實現(xiàn)的性能提升。
②算子聚合下推優(yōu)化
數(shù)據(jù)處理鏈路:描述數(shù)據(jù)從消息隊列到不同數(shù)據(jù)庫和引擎的處理鏈路,以及在StarRocks查詢時面臨的挑戰(zhàn)。
下推優(yōu)化策略:實施算子聚合下推,將聚合和排序等操作下推到底層數(shù)據(jù)引擎(如CK、 MySQL)執(zhí)行,減少 StarRocks 引擎的壓力和網(wǎng)絡(luò)帶寬消耗。
③性能提升的實際效果
查詢效率提升:通過優(yōu)化,六張表的聚合關(guān)聯(lián)查詢時間從 30 秒降至 6 秒,顯著提升了查詢效率。
網(wǎng)絡(luò)帶寬優(yōu)化:減少了數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸量,從而降低了網(wǎng)絡(luò)帶寬消耗。
(3)易用性提升
①易用性提升的重要性
1.0 版本的問題:指出前一版本因快速迭代而存在的問題,如系統(tǒng)高耦合、操作鏈路不清晰、設(shè)計復(fù)雜,以及展示形式單一。
2.0 版本的目標(biāo):明確了新版本的目標(biāo)是提升易用性,降低用戶的理解和操作門檻,讓數(shù)據(jù)分析任務(wù)像協(xié)同辦公文檔一樣簡單。
②ERRC 方法的應(yīng)用
移除(E):識別并移除多余的無效概念和步驟,以減少用戶學(xué)習(xí)成本和操作復(fù)雜性。
減少(R):簡化頁面信息和操作步驟,去除冗余操作,使用戶的操作更加直觀和高效。
增加(R):增強系統(tǒng)的性能診斷和校驗,建立清晰的系統(tǒng)邊界,提供駕駛艙功能等,以滿足不同用戶的場景需求。
創(chuàng)造(C):創(chuàng)新數(shù)據(jù)探索能力,如引入問答式 DataGPT,以提供更高級的用戶體驗和分析能力。
③2.0 版本框架優(yōu)化
低門檻目標(biāo):降低用戶的理解和操作門檻,清晰可理解的系統(tǒng)概念,簡潔的操作鏈路。
性能校驗與診斷:在系統(tǒng)中增加性能的校驗和診斷,確保系統(tǒng)穩(wěn)定可靠。
場景區(qū)隔與功能增強:根據(jù)不同用戶的使用場景提供區(qū)隔化的服務(wù),同時增加駕駛艙等功能以提升系統(tǒng)的實用性和靈活性。
創(chuàng)新性能力:通過創(chuàng)新問答式數(shù)據(jù)探索能力,提高數(shù)據(jù)分析的效率和準(zhǔn)確性。
④舊版菜單的問題
繁雜性:描述舊版菜單內(nèi)容繁雜,各種功能雜陳在一起,導(dǎo)致用戶難以快速找到所需功能。
用戶體驗:由于菜單的復(fù)雜性,用戶在系統(tǒng)中的導(dǎo)航和任務(wù)完成過程變得不直觀,影響了用戶體驗。
⑤新版本的導(dǎo)航優(yōu)化
二級導(dǎo)航引入:提出在新版本中引入二級導(dǎo)航的方式,使結(jié)構(gòu)更為清晰和直觀。
內(nèi)容合并與精簡:對導(dǎo)航內(nèi)容進行合并和精簡,清楚地定義每部分的功能和定位,以便用戶更容易理解和使用。
信息架構(gòu)清晰:通過優(yōu)化信息架構(gòu),確保用戶在進入系統(tǒng)后能迅速、清晰地了解如何完成任務(wù)。
⑥基于席克定律的改造
席克定律(Hick's Law):引入席克定律,說明面對過多選擇時,用戶做出決策的時間增長。
菜單優(yōu)化:根據(jù)用戶的使用習(xí)慣和流程對菜單進行重新排列,減少或隱藏非常用功能,以減少用戶的選擇負擔(dān)和干擾,加快反應(yīng)時間。
⑦數(shù)據(jù)準(zhǔn)備的操作優(yōu)化
舊版本的操作復(fù)雜性:指出舊版本在數(shù)據(jù)準(zhǔn)備環(huán)節(jié)存在許多步驟和冗余概念,導(dǎo)致用戶理解和操作門檻高。
新版本的簡化流程:新版本將數(shù)據(jù)準(zhǔn)備的操作從 11 步精簡至 6 步,大幅提升了用戶理解和處理數(shù)據(jù)的效率。
⑧應(yīng)用菲茨定律(Fitts’ Law)優(yōu)化用戶操作
菲茨定律概念:引入菲茨定律,解釋目標(biāo)越大且越近,用戶到達的速度越快,出錯幾率越低。
改造點:基于菲茨定律,縮短用戶到達路徑,提供更合理的引導(dǎo)流程,減少用戶的操作步驟,提高用戶轉(zhuǎn)化和操作效率。
⑨提升用戶體驗的綜合策略
精簡操作步驟:通過減少操作步驟和去除冗余概念,簡化用戶的操作流程,降低理解門檻。
優(yōu)化引導(dǎo)流程:改進用戶的引導(dǎo)流程,確保用戶可以更直觀、更快速地完成任務(wù),提升整體用戶體驗。
⑩舊版本數(shù)據(jù)準(zhǔn)備界面的問題
集成度過高:指出舊版本的數(shù)據(jù)準(zhǔn)備頁面集成了選擇數(shù)據(jù)集、管理和創(chuàng)建操作,導(dǎo)致頁面復(fù)雜且難以理解。
缺乏用戶引導(dǎo):操作過程中缺少必要的引導(dǎo),使用戶在完成任務(wù)時感到困惑和不便。
?新版本交互體驗優(yōu)化
操作與反饋分離:新版本中,數(shù)據(jù)集的操作與結(jié)果反饋被清晰地分離,確保用戶可以立即得到操作反饋。
明確的操作指示:在界面上清楚地列出可進行的操作,增加用戶在操作過程中的清晰度和方向性。
?泰斯勒定律的應(yīng)用
復(fù)雜度守恒概念:引入泰斯勒定律,解釋系統(tǒng)中固有復(fù)雜性的存在,并強調(diào)其無法被完全消除,只能通過設(shè)計進行轉(zhuǎn)移和平衡。
復(fù)雜度轉(zhuǎn)移改造:為了提升用戶體驗,將系統(tǒng)的固有復(fù)雜度從用戶側(cè)轉(zhuǎn)移到研發(fā)側(cè),通過后端復(fù)雜的處理來為前端用戶提供簡潔明了的操作體驗。
應(yīng)用實踐案例
1. 實現(xiàn)業(yè)務(wù)報表的線上化、數(shù)據(jù)更新自動化
(1)應(yīng)用效果概述
系統(tǒng)線上化:介紹了通過 UData 系統(tǒng)實現(xiàn)報表線上化,替代了以前頻繁且耗時的手工制作過程。
實時更新:強調(diào)了一次性設(shè)置后的長期效益,報表可以實時更新,顯著提升數(shù)據(jù)處理效率。
(2)《618 大促小時戰(zhàn)報》效率提升案例
優(yōu)化前狀況:每天手工制作報表 10 次,每次需耗時 30 分鐘,僅能提供整點數(shù)據(jù)。
優(yōu)化后成果:通過 UData 線上制作一次,耗時 1 小時,報表永久有效且實時更新。
效率對比:通過線上化和自動化處理,實現(xiàn)了 80% 的工作效率提升。
(3)省區(qū)日常運營監(jiān)控效率提升案例
優(yōu)化前狀況:每天手工制作報表 1 次,每次需耗時 2 小時。
優(yōu)化后成果:通過 UData 線上制作一次,耗時 2 小時,但報表永久有效,無需重復(fù)制作。
效率對比:通過自動化和長期有效性,實現(xiàn)了 96% 的工作效率提升。
2. 典型案例
(1)項目概述與目標(biāo)
項目持續(xù)期:介紹了項目實施了半年多時間,目標(biāo)是通過數(shù)據(jù)處理優(yōu)化分揀員的工作效率。
優(yōu)化目標(biāo):明確項目旨在降低分揀員在數(shù)據(jù)處理上的時長,并提升其有效工作時間。
(2)成效展示
數(shù)據(jù)處理時長的降低:報告在半年的時間里,分揀員在數(shù)據(jù)處理上的時長下降了 37%,顯示出數(shù)據(jù)產(chǎn)品優(yōu)化的顯著效果。
有效工作時長的提升:同時,分揀員的有效工作時間實現(xiàn)了持續(xù)上升,其中在半年期間有效工作時長上升了 10%,反映出工作效率的整體提升。
(3)分析與結(jié)論
效率提升分析:分析發(fā)現(xiàn)數(shù)據(jù)產(chǎn)品優(yōu)化導(dǎo)致分揀員數(shù)據(jù)處理時間減少,使他們能夠更多地投入到實際工作中,從而提升了整體工作效率。
綜合效益:強調(diào)了通過精細化的數(shù)據(jù)管理和流程優(yōu)化,項目不僅提升了個體工作效率,也為整體操作流程帶來了效率提升。
3. 升級規(guī)劃:ABI 能力進階
(1)數(shù)據(jù)資產(chǎn)平臺與 ABI 能力進階
問答式報表能力:介紹了未來 ABI(問答式商業(yè)智能)能力的進階,即通過問答式交互返回報表和數(shù)據(jù)趨勢,簡化數(shù)據(jù)獲取過程。
移動端應(yīng)用:強調(diào)了在數(shù)據(jù)資產(chǎn)平臺上結(jié)合 DataGPT 和 AIGC 技術(shù),使用戶能夠在移動端輕松獲取所需數(shù)據(jù)。
(2)數(shù)據(jù)資產(chǎn)集約管理
管理組成:描述數(shù)據(jù)資產(chǎn)集約管理包含知識庫、標(biāo)準(zhǔn)指標(biāo)體系和實時數(shù)倉模型,形成一個全面的數(shù)據(jù)管理體系。
DataGPT 作為釋放窗口:將 DataGPT 作為數(shù)據(jù)資產(chǎn)價值釋放的輕量化窗口,使用自然語言作為查詢門檻,使所有員工都能輕松進行數(shù)據(jù)查詢。
(3)大模型 AIGC 的作用
業(yè)務(wù)與技術(shù)語言轉(zhuǎn)化:大模型 AIGC 為業(yè)務(wù)語言和技術(shù)語言的相互轉(zhuǎn)化提供能力支持,使非技術(shù)人員也能通過自然語言獲取復(fù)雜數(shù)。
助力數(shù)據(jù)普惠化:通過這種能力加持,推進數(shù)據(jù)的普惠化,使數(shù)據(jù)查詢和分析不再局限于數(shù)據(jù)科學(xué)家或技術(shù)人員。
04
Q&A
Q1:我想詳細了解您提到的基于問答形式獲取數(shù)據(jù)源碼的方法,以及您正在開發(fā)的 data GPT 是如何運作的。
A1:我們所提的是通過問答方式創(chuàng)建數(shù)據(jù)集,而非直接獲取數(shù)據(jù)源。傳統(tǒng)上,構(gòu)建數(shù)據(jù)集主要有兩種方法:一是基于配置的拖拉拽方式,二是編寫 SQL 語句。我們現(xiàn)在正嘗試通過問答形式來構(gòu)建數(shù)據(jù)集。具體而言,用戶可以用自然語言告訴系統(tǒng)他們需要哪種類型的數(shù)據(jù)集,以及數(shù)據(jù)集應(yīng)包含哪些信息。系統(tǒng)將根據(jù)用戶的描述生成所需的數(shù)據(jù)集。這一過程的核心是 NLP(自然語言處理)技術(shù),它能夠?qū)⒆匀徽Z言指令轉(zhuǎn)換為 SQL 語句,從而建立相應(yīng)的數(shù)據(jù)集。
Q2:如果我想查詢特定年份的某項指標(biāo)或數(shù)據(jù)情況,系統(tǒng)是否能自動生成相關(guān)報告和結(jié)果展示?具體實現(xiàn)方式是怎樣的?
A2:目前,我們正在探索兩種方案。第一種方案是結(jié)合大模型來實現(xiàn)。在這種方法中,我們將數(shù)據(jù)資產(chǎn)指標(biāo)的定義以及一些語義信息輸入模型,以幫助模型更好地理解例如京東物流的數(shù)據(jù)資產(chǎn),包括表格的元數(shù)據(jù)等。當(dāng)你提出問題時,它可以通過 SQL 返回結(jié)果。但是,這個方法的問題在于,有時候回答的準(zhǔn)確率可能不高,特別是在數(shù)據(jù)底層質(zhì)量不高的情況下,對數(shù)據(jù)的理解可能會有誤差,導(dǎo)致生成的 SQL 可能不太準(zhǔn)確。這需要一個持續(xù)優(yōu)化和調(diào)整的過程。我們目前正在嘗試優(yōu)化這種方法,但只限于小范圍的數(shù)據(jù)資產(chǎn)。
第二種方案是采用配置化的方法。這種方法不依賴于大模型,而是依賴于一個后臺的數(shù)據(jù)模型配置策略。你只需要指定相關(guān)表格,只要查詢范圍在這個表格或其支持范圍內(nèi),系統(tǒng)就能順利地將查詢轉(zhuǎn)換成 SQL 并返回結(jié)果。這種方法比較直接和穩(wěn)定,但如果基于大模型,則需要持續(xù)的運維和調(diào)整,因為大模型需要不斷地接收相關(guān)領(lǐng)域的數(shù)據(jù)以提高其準(zhǔn)確性。最重要的是,系統(tǒng)能否理解用戶用業(yè)務(wù)語言提出的問題,并將其轉(zhuǎn)換成數(shù)據(jù)語言的過程。
Q3:我希望未來的 BI(商業(yè)智能)工具可以更加敏捷,用戶無需編寫腳本或 SQL,只需要輸入一段話,系統(tǒng)就能理解并生成報表或圖表。這是否可行?
A3:這確實是一個很好的想法,目前行業(yè)內(nèi)已有多方探索這一方向。一些產(chǎn)品已經(jīng)初步實現(xiàn)了這一功能,它們通過部署大型 AI 模型并向其提供相關(guān)的指標(biāo)數(shù)據(jù)來進行訓(xùn)練,使其能夠根據(jù)用戶輸入生成基本的報表。此外,許多第三方創(chuàng)業(yè)公司也在嘗試相關(guān)技術(shù)。然而,大部分尚未利用大模型,因為完全依賴大模型來解決這一問題是相當(dāng)困難的。雖然當(dāng)前有一定的進展,但實現(xiàn)用戶簡單輸入即可生成復(fù)雜報表和圖表的目標(biāo),還需要更多的技術(shù)突破和創(chuàng)新。
Q4:我想了解一下異構(gòu)數(shù)據(jù)源融合的問題。我目前所在的公司使用的互聯(lián)互通工具并不好用,我想知道如何在一個腳本中實現(xiàn)異構(gòu)數(shù)據(jù)源的簡單融合?
A4:確實,技術(shù)上是有可能實現(xiàn)異構(gòu)數(shù)據(jù)源融合的,但實際業(yè)務(wù)場景中很少需要在一個 SQL 中同時關(guān)聯(lián)例如 ES(Elasticsearch)表和 MySQL 表。雖然理論上這種技術(shù)是存在的,但成本相對較高。我之前提到的 Starrocks 引擎可以查詢 Hive 數(shù)據(jù),甚至直接連接 HDFS,其查詢速度比許多其他工具更快。它也可以查詢 MySQL 和 ES。但它并不支持同一次查詢中同時跨庫關(guān)聯(lián)查詢這些數(shù)據(jù)源。實際上,這種需求并不常見,也不需要花費太多時間去優(yōu)化或?qū)崿F(xiàn)。如果你們公司確實有大量異構(gòu)數(shù)據(jù)源的融合需求,可能需要先從數(shù)據(jù)治理方面入手,找到更有效的方法和工具來解決這個問題。
Q5:您好,老師。我注意到您將報表制作成在線 Excel 格式。我想了解制作這種 Excel 功能的研發(fā)成本是否很高?因為它包含了許多復(fù)雜的功能和函數(shù)。同時,實際制作這個在線 Excel 的成本控制如何?
A5:是的,我們確實將報表制作成了在線 Excel 格式。不過,我們并沒有自己從頭開始研發(fā)這些復(fù)雜的功能和函數(shù),而是主要通過集成一些第三方插件來實現(xiàn)的。因此,實際投入是可控的,成本并不會特別高。我們購買了第三方的插件,并在此基礎(chǔ)上將其與我們的前端鏈路相結(jié)合。這樣做的主要目的是模仿 Excel 的效果,同時確保工具的使用門檻對用戶來說更低,讓他們能夠更容易地操作和理解。
Q6:在數(shù)據(jù)產(chǎn)品領(lǐng)域,我們面臨哪些常見問題和挑戰(zhàn)?特別是關(guān)于 BI 工具和數(shù)據(jù)跨庫問題。
A6:這里主要有兩個問題。首先,關(guān)于 BI 工具,我們的定位是針對兩種不同的場景。京東內(nèi)部已經(jīng)有一些類似于 Tableau 的 BI 工具,它們適合總部的分析師和 BI 工程師使用,但對于一線工作人員來說,這些工具過于復(fù)雜,因為至少需要一定的數(shù)據(jù)庫操作和 SQL 知識。因此,我們針對兩種不同的用戶群體有不同的解決方案。
其次,關(guān)于數(shù)據(jù)跨庫的問題,我認(rèn)為在數(shù)據(jù)建設(shè)上應(yīng)該采用體系化的方法。所有業(yè)務(wù)系統(tǒng)都是分散和多樣化的。我們需要從業(yè)務(wù)系統(tǒng)中集中數(shù)據(jù),建立一個數(shù)據(jù)部門或數(shù)據(jù)中心。首先是數(shù)據(jù)融合:將 OLTP(在線事務(wù)處理)轉(zhuǎn)換為 OLAP(在線分析處理),在數(shù)倉中集成數(shù)據(jù)后進行分析應(yīng)用。理論上,我們應(yīng)該將所有數(shù)據(jù)統(tǒng)一入倉,在數(shù)倉里分層建模,然后有標(biāo)準(zhǔn)化的口徑沉淀,再接入 BI 系統(tǒng)。這是最合理的鏈路。
我有兩個建議:第一個是標(biāo)準(zhǔn)化數(shù)據(jù)。從數(shù)倉定義好,盡可能全面地接入 BI 工具,以便它可以靈活地支持業(yè)務(wù)需求和變化。第二個建議是讓 BI 工具支持更多類似于低代碼可視化的組件,這樣業(yè)務(wù)方可以更靈活、豐富地搭建頁面,提高可視化能力。這樣的整體解決方案,包括嵌入式組件,可以嵌入到他們自己的業(yè)務(wù)系統(tǒng)中,減少將數(shù)據(jù)接過去處理后再定制頁面的成本。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。