當(dāng)前位置：首頁 >文章發(fā)布 > 正文

京東物流一站式敏捷BI平臺建設(shè)方法論

來源：一個數(shù)據(jù)人的自留地作者：佚名 2024-02-20 15:46:32

針對市場對于數(shù)據(jù)即時性和靈活性的迫切需求，京東物流推出了一站式敏捷 BI 解決方案，以應(yīng)對分散且高并發(fā)的數(shù)據(jù)處理挑戰(zhàn)。

數(shù)字化轉(zhuǎn)型的今天，京東物流業(yè)務(wù)呈現(xiàn)出復(fù)雜多變的特性，涉及眾多場景、多元化渠道與日益增長的數(shù)據(jù)量。針對市場對于數(shù)據(jù)即時性和靈活性的迫切需求，京東物流推出了一站式敏捷 BI 解決方案，以應(yīng)對分散且高并發(fā)的數(shù)據(jù)處理挑戰(zhàn)。本次分享的是京東物流如何通過其一站式敏捷 BI 產(chǎn)品，實現(xiàn)數(shù)據(jù)的快速集成、即時分析及自服務(wù)報告，從而在激烈的市場競爭中贏得優(yōu)勢，進一步提升業(yè)務(wù)效率和決策質(zhì)量。通過這些實踐，我們將見證數(shù)據(jù)驅(qū)動的力量如何在京東物流的業(yè)務(wù)流程中展現(xiàn)，以及如何幫助企業(yè)在數(shù)字化的道路上更快前進。

業(yè)務(wù)背景

1. 業(yè)務(wù)背景

數(shù)據(jù)來源多

數(shù)據(jù)來源極為多樣化，包括線上數(shù)據(jù)、線下數(shù)據(jù)，甚至是手工提報的數(shù)據(jù)。這種多元化的數(shù)據(jù)來源導(dǎo)致數(shù)據(jù)管理和分析過程十分復(fù)雜，尤其是在不同來源的數(shù)據(jù)需要被整合和分析時。由于來源的多樣性，確保數(shù)據(jù)質(zhì)量和一致性成為了一個挑戰(zhàn)。

需求變化快

由于京東物流的業(yè)務(wù)覆蓋范圍廣，員工眾多，從總部到各個地區(qū)層級，每一個層級都可能產(chǎn)生獨特的數(shù)據(jù)需求。這些需求經(jīng)常變化，且每個層級都可能定義自己的數(shù)據(jù)指標(biāo)或分析某些特定的數(shù)據(jù)細節(jié)。這種快速變化的需求環(huán)境要求數(shù)據(jù)系統(tǒng)必須具備高度的靈活性和快速響應(yīng)能力。

做數(shù)耗時長

傳統(tǒng)的數(shù)據(jù)處理方式，如員工手工在 Excel 中處理數(shù)據(jù)，導(dǎo)致數(shù)據(jù)處理時間長，效率低下。此外，數(shù)據(jù)處理的成本高，數(shù)據(jù)口徑不一致等問題也隨之產(chǎn)生。

2. 復(fù)雜的“中國式報表”

物流和傳統(tǒng)企業(yè)中常見的中國式復(fù)雜報表帶來的挑戰(zhàn)如下：

受眾多樣性

各個層次、各種角色的成員都是報表的使用者，不同角色的用戶關(guān)心的信息內(nèi)容不同，樣式不同，使用方式不同。

數(shù)據(jù)計算復(fù)雜

查詢、分析條件復(fù)雜，且報表中往往存在復(fù)雜的統(tǒng)計運算，如 Sumif 函數(shù)、匯總、同比、環(huán)比、達成狀態(tài)等。對于參數(shù)頁面布局、參數(shù)控件類型等都有較高要求。

報表樣式復(fù)雜

不追求圖表式的直觀可視化效果，而是體現(xiàn)信息的豐富度，因此在樣式上使用了較多的數(shù)據(jù)透視、多層表頭、不完全劃分、分欄等，樣式非常復(fù)雜。

多數(shù)據(jù)源

數(shù)據(jù)源分散，數(shù)據(jù)信息來自不同的業(yè)務(wù)系統(tǒng)，技術(shù)路線和數(shù)據(jù)結(jié)構(gòu)都有很大差異。

治理難度大

需要從數(shù)據(jù)源、數(shù)據(jù)指標(biāo)體系兩方面入手，且業(yè)務(wù)多層級聯(lián)動共同拉齊數(shù)據(jù)認(rèn)知，為治理帶來很大困難。

研發(fā)資源消耗大

面向分析場景需求個性化程度高、不固化、不明確，研發(fā)側(cè)支持有資源瓶頸。

大數(shù)據(jù)技術(shù)挑戰(zhàn)大

大數(shù)據(jù)量、實時在線交互分析、系統(tǒng)執(zhí)行復(fù)雜度不確定、響應(yīng)時間和用戶體驗很難預(yù)判保證。

3. 建設(shè)平臺工具以解決實際業(yè)務(wù)問題

(1)業(yè)務(wù)場景的數(shù)據(jù)化挑戰(zhàn)

監(jiān)控與預(yù)警的需求：質(zhì)量改善、工單處理、異常處理崗位對 KPI 達成與工單量變化的敏感度。

數(shù)據(jù)時效性：在考核、復(fù)盤、經(jīng)營運營及責(zé)任追究等方面的高標(biāo)準(zhǔn)要求。

人力資源局限：現(xiàn)有支持體系難以滿足眾多一線員工的復(fù)雜需求。

(2)數(shù)據(jù)處理的現(xiàn)狀與困境

繁瑣的數(shù)據(jù)獲取與處理：員工需從各自業(yè)務(wù)系統(tǒng)下載并處理數(shù)據(jù)，效率低下。

報表的生成與分享：數(shù)據(jù)分析后需制作報表，進而進行分享與下達，流程繁雜。

(3)UData：創(chuàng)新的解決方案

敏捷 BI 的引入：一個自助式、集成式的敏捷商業(yè)智能(BI)解決方案。

數(shù)據(jù)集成：集成各類指標(biāo)與模型至數(shù)據(jù)地圖，簡化標(biāo)準(zhǔn)化數(shù)據(jù)源的獲取。

自助式內(nèi)容分析：為非專業(yè)人士提供易于操作的數(shù)據(jù)分析工具，減少對技術(shù)的依賴。

數(shù)據(jù)準(zhǔn)備：簡化數(shù)據(jù)之間的關(guān)聯(lián)、篩選與聚合操作，提高工作效率。

中國式報表與在線 Excel 插件 A. 數(shù)據(jù)與報表的融合：通過插件將數(shù)據(jù)語言與在線 Excel 結(jié)合，順應(yīng)用戶線下習(xí)慣。

辦公協(xié)同系統(tǒng)的整合：報表生成后，通過推送、郵件、訂閱等方式實現(xiàn)辦公自動化，確保信息流暢傳遞。

4.產(chǎn)品方法論與解決方案

1. 產(chǎn)品規(guī)劃第一步:產(chǎn)品價值主張

產(chǎn)品規(guī)劃的第一步為確定產(chǎn)品的價值主張：強調(diào)任何產(chǎn)品都需從其價值主張出發(fā)，這是產(chǎn)品成功的基石。

(1)三個邏輯的概述

價值發(fā)現(xiàn)：識別目標(biāo)用戶群體，明確產(chǎn)品解決的具體場景及需求，并構(gòu)建核心競爭力。

價值共創(chuàng)：探討如何與合作伙伴共同創(chuàng)造價值，包括共創(chuàng)方案和流程機制的構(gòu)建。

價值獲取：確定價值落地的模式，包括衡量標(biāo)準(zhǔn)和方法。

(2)價值發(fā)現(xiàn)

用戶需求的深入分析：通過監(jiān)控3萬多數(shù)據(jù)業(yè)務(wù)人員的日常行為，揭示其重復(fù)性使用 Excel 等工具的頻繁性和模式。

系統(tǒng)化建設(shè)的不足：指出目前數(shù)據(jù)體系化建設(shè)的不足，以及數(shù)據(jù)標(biāo)準(zhǔn)化沉淀的限制。

(3)價值共創(chuàng)的策略

建立多元異構(gòu)查詢支持：強調(diào)需要支持多樣化的數(shù)據(jù)查詢和交互式數(shù)據(jù)獲取。

降低技術(shù)門檻：目標(biāo)是打造一個低門檻、自助式、交互式的工具，特別強調(diào)點選式的操作和在線化的 Excel 功能。

業(yè)務(wù)層共建：與業(yè)務(wù)部門共建數(shù)據(jù)集，提高數(shù)據(jù)標(biāo)準(zhǔn)化程度，并通過重點項目共建和數(shù)據(jù)分析師培養(yǎng)專項計劃提升整體數(shù)據(jù)理解和應(yīng)用能力。

(4)價值獲取與效果衡量

衡量指標(biāo)的設(shè)定：通過覆蓋度、滲透率和工作時長節(jié)省等指標(biāo)衡量產(chǎn)品上線后的效果。

實驗觀測：運用 AB 實驗等方法觀測業(yè)務(wù)數(shù)據(jù)分析的效率和效果。

2. UData 一站式敏捷 BI 產(chǎn)品架構(gòu)

構(gòu)筑商業(yè)智能產(chǎn)品架構(gòu)的過程中，我們面臨的挑戰(zhàn)源自業(yè)務(wù)系統(tǒng)的多樣性及數(shù)據(jù)庫類型的復(fù)雜性。為了應(yīng)對這一挑戰(zhàn)，聯(lián)邦查詢技術(shù)被引入以實現(xiàn)跨數(shù)據(jù)源的統(tǒng)一查詢，這不僅強化了數(shù)據(jù)處理的能力，而且增強了系統(tǒng)的靈活性和響應(yīng)速度。在此基礎(chǔ)上，數(shù)據(jù)管理的角色顯得尤為重要，它要求我們能夠清晰地識別并定位標(biāo)準(zhǔn)化的數(shù)據(jù)集，確保數(shù)據(jù)的準(zhǔn)確性和可靠性。

進一步地，數(shù)據(jù)的準(zhǔn)備、分析和系統(tǒng)共享被強調(diào)為系統(tǒng)內(nèi)特別核心的能力。這些能力不僅加強了數(shù)據(jù)的實用性，也為后續(xù)的決策提供了堅實的支持。

此外，利用商業(yè)智能工具和沉淀的標(biāo)準(zhǔn)化數(shù)據(jù)資產(chǎn)，通過開放 API 支持其他系統(tǒng)調(diào)用內(nèi)部數(shù)據(jù)，這一策略極大地提高了整體架構(gòu)的效率和靈活性。

總體而言，在構(gòu)建商業(yè)智能產(chǎn)品時，必須認(rèn)真考慮和實施跨數(shù)據(jù)源查詢、數(shù)據(jù)管理以及數(shù)據(jù)服務(wù)等關(guān)鍵功能，以確保系統(tǒng)的強大、可靠和高效。

3. Udata 1.0-產(chǎn)品特性

(1)快速集成多樣數(shù)據(jù)資源：該平臺能夠迅速融合各類數(shù)據(jù)資源，突破了傳統(tǒng)數(shù)據(jù)處理的局限性，為用戶提供了一個全面而綜合的數(shù)據(jù)視圖。

(2)簡化數(shù)據(jù)配置：轉(zhuǎn)變了常規(guī)的數(shù)據(jù)處理方式，用戶無需撰寫復(fù)雜的 SQL 語句，而是通過直觀的點選式界面進行數(shù)據(jù)配置，大幅降低了技術(shù)門檻，提高了操作的便捷性。

(3)數(shù)據(jù)加速與聯(lián)邦查詢支持：軟件底層采用了先進的查詢引擎，支持聯(lián)邦查詢，這意味著即使數(shù)據(jù)分散在不同的系統(tǒng)和平臺上，也能實現(xiàn)快速、高效的數(shù)據(jù)檢索和處理。

(4)類 Excel 的操作簡化

線上數(shù)據(jù)選擇與創(chuàng)建：用戶可以在線選擇并創(chuàng)建自己的數(shù)據(jù)集，簡化了數(shù)據(jù)處理步驟。

配置在線復(fù)雜報表：在數(shù)據(jù)集基礎(chǔ)上，用戶能夠配置類似于中國式的復(fù)雜報表，這些報表既輕量級又易于操作，適應(yīng)了用戶對靈活性和復(fù)雜性的雙重需求。

(5)輕量級訪問與快速集成

工具提供了輕量級的訪問方式，使用戶能夠迅速而方便地處理和分析數(shù)據(jù)。

支持快速集成到包括辦公系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)和電子郵件等在內(nèi)的各種平臺，增強了其實用性和廣泛的應(yīng)用范圍。

一些不足

系統(tǒng)穩(wěn)定性問題

隨著 1.0 版本在更廣泛領(lǐng)域的應(yīng)用，系統(tǒng)穩(wěn)定性成為一個顯著的問題，影響了用戶體驗和操作的連貫性。

性能問題

數(shù)據(jù)處理的效率和速度是評估系統(tǒng)性能的關(guān)鍵指標(biāo)，性能瓶頸會導(dǎo)致做數(shù)耗時長，進而影響決策速度和業(yè)務(wù)流程。

應(yīng)用性問題

隨著需求的快速變化和數(shù)據(jù)來源的多樣化，系統(tǒng)需要靈活適應(yīng)不斷變化的環(huán)境和需求，應(yīng)用性的不足可能會限制系統(tǒng)的廣泛應(yīng)用和擴展 Spark 完成歷史數(shù)據(jù)的回補。

基于用戶價值公式思考產(chǎn)品優(yōu)化空間

當(dāng)前系統(tǒng)的挑戰(zhàn)主要為以下幾大方面：

系統(tǒng)穩(wěn)定性：在廣泛應(yīng)用過程中，系統(tǒng)穩(wěn)定性常常受到挑戰(zhàn)，影響了用戶的連續(xù)使用體驗。

系統(tǒng)性能：頻繁出現(xiàn)的性能問題減緩了數(shù)據(jù)處理速度，影響了整體效率。

易用性問題：隨著用戶規(guī)模的提升，用戶需求多種多樣，系統(tǒng)的易用性和產(chǎn)品體驗暴露出一些問題，影響了其廣泛應(yīng)用的可能性。

優(yōu)化策略與方法論：

用戶價值公式：提出了一種評估產(chǎn)品價值的公式，即新體驗減去舊體驗和遷移成本后的剩余價值，以此作為優(yōu)化的基礎(chǔ)。

舊體驗與新體驗的對比：分析用戶的舊體驗，如手工操作 Excel 的熟悉性與穩(wěn)定性，以及新體驗所帶來的自助式分析和自動化更新的便利性。

新體驗中的挑戰(zhàn)：識別新體驗中存在的問題，如數(shù)據(jù)穩(wěn)定性和同步的及時性問題，以及用戶面臨的遷移成本。

具體應(yīng)對策略為：

改善數(shù)據(jù)穩(wěn)定性：采取措施解決數(shù)據(jù)丟失和同步問題，提高數(shù)據(jù)穩(wěn)定性。

降低遷移成本：通過簡化操作和提供培訓(xùn)，降低用戶的學(xué)習(xí)成本，使遷移過程更加平滑。

增強系統(tǒng)性能和應(yīng)用性：優(yōu)化系統(tǒng)架構(gòu)，提高性能，擴展應(yīng)用范圍以適應(yīng)不斷變化的用戶需求。

產(chǎn)品邏輯梳理

(1)數(shù)據(jù)處理鏈路的核心組成

數(shù)據(jù)源的多樣性：強調(diào)了數(shù)據(jù)源包含實時與離線數(shù)據(jù)，以及明細層與匯總層數(shù)據(jù)，其中明細層數(shù)據(jù)量龐大，而匯總層數(shù)據(jù)經(jīng)過聚合后較小。

數(shù)據(jù)集與數(shù)據(jù)源的區(qū)分：討論了數(shù)據(jù)集作為數(shù)據(jù)處理和管理的結(jié)果，它代表了加工處理后的數(shù)據(jù)結(jié)果集，這有助于提高可視化的效率。

(2)數(shù)據(jù)集的構(gòu)建方式與分析能力

構(gòu)建數(shù)據(jù)集的多樣方式：包括點選式操作生成 SQL，直接編寫 SQL，以及問答式的自然語言處理技術(shù)。

數(shù)據(jù)分析能力：探討了提供的分析能力，包括不同類型的數(shù)據(jù)報告和報告來源，以及系統(tǒng)易用性的考量。

(3)系統(tǒng)優(yōu)化的邏輯與方法

產(chǎn)品和系統(tǒng)邏輯接入的標(biāo)準(zhǔn)：討論了優(yōu)化新版本系統(tǒng)時考慮的產(chǎn)品與系統(tǒng)邏輯接入的標(biāo)準(zhǔn)和方式。

數(shù)據(jù)準(zhǔn)備與校驗：強調(diào)了數(shù)據(jù)準(zhǔn)備過程中的校驗工作的重要性。

架構(gòu)梳理與模塊界定：強調(diào)了對系統(tǒng)架構(gòu)、模塊邊界以及前后臺關(guān)系的重新梳理和界定，以確保 BI 產(chǎn)品的穩(wěn)定性和高效性。

7. Udata 產(chǎn)品升級

(1)穩(wěn)定性提升

①穩(wěn)定性專項的實施

問題收集與記錄：系統(tǒng)地記錄和識別用戶報告的 bug 和問題，如系統(tǒng)打不開或數(shù)據(jù)不一致等，以便于后續(xù)分析。

高頻問題識別：通過持續(xù)記錄，識別頻繁出現(xiàn)的問題，然后進行分類，以了解哪些類型的問題是經(jīng)常發(fā)生的及其影響范圍。

②分類與復(fù)盤

問題分類：將識別的問題進行分類，為進一步的分析和解決提供清晰的方向。

定期復(fù)盤：定期回顧問題，深入挖掘根本原因，并基于這些原因制定解決策略。

③監(jiān)測指標(biāo)的定義與優(yōu)化措施

監(jiān)測指標(biāo)定義：定義關(guān)鍵的監(jiān)測指標(biāo)，如故障率和可用性，包括數(shù)據(jù)問題、共享問題和操作問題等，這有助于更準(zhǔn)確地監(jiān)控和評估系統(tǒng)穩(wěn)定性。

性能優(yōu)化：識別和解決導(dǎo)致查詢失敗的底層引擎問題，以及相關(guān)的性能問題，確保系統(tǒng)的穩(wěn)定運行。

(2)性能提升

①性能問題及其對用戶體驗的影響

性能問題的表現(xiàn)：用戶在嘗試打開報表時經(jīng)常遭遇長時間的加載延遲，有時甚至無法加載完成，這種延時和不確定性嚴(yán)重影響了用戶的體驗。

問題的重要性：強調(diào)性能問題不僅是一個技術(shù)問題，而且對用戶體驗有顯著影響，需要被優(yōu)先解決。

②性能優(yōu)化策略

性能診斷：通過性能診斷，識別導(dǎo)致報表加載緩慢的原因，可能是數(shù)據(jù)接入問題、復(fù)雜的 SQL 查詢，或不必要的數(shù)據(jù)引入等。

數(shù)據(jù)物化策略：實施數(shù)據(jù)物化，將大表拆分為小表，減小查詢的數(shù)據(jù)量級，從而提高查詢效率。

緩存策略：引入主動和被動緩存，基于歷史訪問行為優(yōu)化緩存命中率，進一步提升查詢效率。

③數(shù)據(jù)報表的分類與管理

分級和分類：對數(shù)據(jù)報表進行分類和分級，明確每個報表的服務(wù)場景和性能要求，實現(xiàn)精細化管理。

發(fā)布時的約束：在數(shù)據(jù)報表發(fā)布時增加邊界約束，確保每個報表在發(fā)布前都能滿足既定的性能標(biāo)準(zhǔn)。

④綜合優(yōu)化視角

技術(shù)與運營結(jié)合：強調(diào)性能優(yōu)化不僅涉及技術(shù)問題，也包括產(chǎn)品運營的思路及用戶的引導(dǎo)和約束。

用戶教育：提倡對用戶進行教育，使其更加理解如何有效地利用系統(tǒng)，編寫高效的 SQL，減輕系統(tǒng)負擔(dān)。

⑤數(shù)據(jù)集創(chuàng)建后的性能評估

評分機制：在數(shù)據(jù)集創(chuàng)建完成后，系統(tǒng)將基于性能和效率等關(guān)鍵指標(biāo)對其進行評分，以確保每個數(shù)據(jù)集都符合既定的標(biāo)準(zhǔn)。

優(yōu)化建議提供：對于評分不高或有改進空間的數(shù)據(jù)集，系統(tǒng)會提出具體的優(yōu)化建議，指導(dǎo)用戶如何改進數(shù)據(jù)集的性能和效率。

基于 StarRocks 的引擎升級帶來極致查詢性能

①性能優(yōu)化的核心引擎與合作

核心引擎選擇：采用基于 StarRocks 的核心引擎進行性能優(yōu)化，并與社區(qū)進行戰(zhàn)略合作，為優(yōu)化提供技術(shù)支持。

StarRocks 的優(yōu)化特性：介紹 StarRocks 支持的向量化執(zhí)行，物化視圖加速查詢和 CBO 優(yōu)化等特性，以及通過這些特性實現(xiàn)的性能提升。

②算子聚合下推優(yōu)化

數(shù)據(jù)處理鏈路：描述數(shù)據(jù)從消息隊列到不同數(shù)據(jù)庫和引擎的處理鏈路，以及在StarRocks查詢時面臨的挑戰(zhàn)。

下推優(yōu)化策略：實施算子聚合下推，將聚合和排序等操作下推到底層數(shù)據(jù)引擎(如CK、 MySQL)執(zhí)行，減少 StarRocks 引擎的壓力和網(wǎng)絡(luò)帶寬消耗。

③性能提升的實際效果

查詢效率提升：通過優(yōu)化，六張表的聚合關(guān)聯(lián)查詢時間從 30 秒降至 6 秒，顯著提升了查詢效率。

網(wǎng)絡(luò)帶寬優(yōu)化：減少了數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸量，從而降低了網(wǎng)絡(luò)帶寬消耗。

(3)易用性提升

①易用性提升的重要性

1.0 版本的問題：指出前一版本因快速迭代而存在的問題，如系統(tǒng)高耦合、操作鏈路不清晰、設(shè)計復(fù)雜，以及展示形式單一。

2.0 版本的目標(biāo)：明確了新版本的目標(biāo)是提升易用性，降低用戶的理解和操作門檻，讓數(shù)據(jù)分析任務(wù)像協(xié)同辦公文檔一樣簡單。

②ERRC 方法的應(yīng)用

移除(E)：識別并移除多余的無效概念和步驟，以減少用戶學(xué)習(xí)成本和操作復(fù)雜性。

減少(R)：簡化頁面信息和操作步驟，去除冗余操作，使用戶的操作更加直觀和高效。

增加(R)：增強系統(tǒng)的性能診斷和校驗，建立清晰的系統(tǒng)邊界，提供駕駛艙功能等，以滿足不同用戶的場景需求。

創(chuàng)造(C)：創(chuàng)新數(shù)據(jù)探索能力，如引入問答式 DataGPT，以提供更高級的用戶體驗和分析能力。

③2.0 版本框架優(yōu)化

低門檻目標(biāo)：降低用戶的理解和操作門檻，清晰可理解的系統(tǒng)概念，簡潔的操作鏈路。

性能校驗與診斷：在系統(tǒng)中增加性能的校驗和診斷，確保系統(tǒng)穩(wěn)定可靠。

場景區(qū)隔與功能增強：根據(jù)不同用戶的使用場景提供區(qū)隔化的服務(wù)，同時增加駕駛艙等功能以提升系統(tǒng)的實用性和靈活性。

創(chuàng)新性能力：通過創(chuàng)新問答式數(shù)據(jù)探索能力，提高數(shù)據(jù)分析的效率和準(zhǔn)確性。

④舊版菜單的問題

繁雜性：描述舊版菜單內(nèi)容繁雜，各種功能雜陳在一起，導(dǎo)致用戶難以快速找到所需功能。

用戶體驗：由于菜單的復(fù)雜性，用戶在系統(tǒng)中的導(dǎo)航和任務(wù)完成過程變得不直觀，影響了用戶體驗。

⑤新版本的導(dǎo)航優(yōu)化

二級導(dǎo)航引入：提出在新版本中引入二級導(dǎo)航的方式，使結(jié)構(gòu)更為清晰和直觀。

內(nèi)容合并與精簡：對導(dǎo)航內(nèi)容進行合并和精簡，清楚地定義每部分的功能和定位，以便用戶更容易理解和使用。

信息架構(gòu)清晰：通過優(yōu)化信息架構(gòu)，確保用戶在進入系統(tǒng)后能迅速、清晰地了解如何完成任務(wù)。

⑥基于席克定律的改造

席克定律(Hick's Law)：引入席克定律，說明面對過多選擇時，用戶做出決策的時間增長。

菜單優(yōu)化：根據(jù)用戶的使用習(xí)慣和流程對菜單進行重新排列，減少或隱藏非常用功能，以減少用戶的選擇負擔(dān)和干擾，加快反應(yīng)時間。

⑦數(shù)據(jù)準(zhǔn)備的操作優(yōu)化

舊版本的操作復(fù)雜性：指出舊版本在數(shù)據(jù)準(zhǔn)備環(huán)節(jié)存在許多步驟和冗余概念，導(dǎo)致用戶理解和操作門檻高。

新版本的簡化流程：新版本將數(shù)據(jù)準(zhǔn)備的操作從 11 步精簡至 6 步，大幅提升了用戶理解和處理數(shù)據(jù)的效率。

⑧應(yīng)用菲茨定律(Fitts’ Law)優(yōu)化用戶操作

菲茨定律概念：引入菲茨定律，解釋目標(biāo)越大且越近，用戶到達的速度越快，出錯幾率越低。

改造點：基于菲茨定律，縮短用戶到達路徑，提供更合理的引導(dǎo)流程，減少用戶的操作步驟，提高用戶轉(zhuǎn)化和操作效率。

⑨提升用戶體驗的綜合策略

精簡操作步驟：通過減少操作步驟和去除冗余概念，簡化用戶的操作流程，降低理解門檻。

優(yōu)化引導(dǎo)流程：改進用戶的引導(dǎo)流程，確保用戶可以更直觀、更快速地完成任務(wù)，提升整體用戶體驗。

⑩舊版本數(shù)據(jù)準(zhǔn)備界面的問題

集成度過高：指出舊版本的數(shù)據(jù)準(zhǔn)備頁面集成了選擇數(shù)據(jù)集、管理和創(chuàng)建操作，導(dǎo)致頁面復(fù)雜且難以理解。

缺乏用戶引導(dǎo)：操作過程中缺少必要的引導(dǎo)，使用戶在完成任務(wù)時感到困惑和不便。

?新版本交互體驗優(yōu)化

操作與反饋分離：新版本中，數(shù)據(jù)集的操作與結(jié)果反饋被清晰地分離，確保用戶可以立即得到操作反饋。

明確的操作指示：在界面上清楚地列出可進行的操作，增加用戶在操作過程中的清晰度和方向性。

?泰斯勒定律的應(yīng)用

復(fù)雜度守恒概念：引入泰斯勒定律，解釋系統(tǒng)中固有復(fù)雜性的存在，并強調(diào)其無法被完全消除，只能通過設(shè)計進行轉(zhuǎn)移和平衡。

復(fù)雜度轉(zhuǎn)移改造：為了提升用戶體驗，將系統(tǒng)的固有復(fù)雜度從用戶側(cè)轉(zhuǎn)移到研發(fā)側(cè)，通過后端復(fù)雜的處理來為前端用戶提供簡潔明了的操作體驗。

應(yīng)用實踐案例

1. 實現(xiàn)業(yè)務(wù)報表的線上化、數(shù)據(jù)更新自動化

(1)應(yīng)用效果概述

系統(tǒng)線上化：介紹了通過 UData 系統(tǒng)實現(xiàn)報表線上化，替代了以前頻繁且耗時的手工制作過程。

實時更新：強調(diào)了一次性設(shè)置后的長期效益，報表可以實時更新，顯著提升數(shù)據(jù)處理效率。

(2)《618 大促小時戰(zhàn)報》效率提升案例

優(yōu)化前狀況：每天手工制作報表 10 次，每次需耗時 30 分鐘，僅能提供整點數(shù)據(jù)。

優(yōu)化后成果：通過 UData 線上制作一次，耗時 1 小時，報表永久有效且實時更新。

效率對比：通過線上化和自動化處理，實現(xiàn)了 80% 的工作效率提升。

(3)省區(qū)日常運營監(jiān)控效率提升案例

優(yōu)化前狀況：每天手工制作報表 1 次，每次需耗時 2 小時。

優(yōu)化后成果：通過 UData 線上制作一次，耗時 2 小時，但報表永久有效，無需重復(fù)制作。

效率對比：通過自動化和長期有效性，實現(xiàn)了 96% 的工作效率提升。

2. 典型案例

(1)項目概述與目標(biāo)

項目持續(xù)期：介紹了項目實施了半年多時間，目標(biāo)是通過數(shù)據(jù)處理優(yōu)化分揀員的工作效率。

優(yōu)化目標(biāo)：明確項目旨在降低分揀員在數(shù)據(jù)處理上的時長，并提升其有效工作時間。

(2)成效展示

數(shù)據(jù)處理時長的降低：報告在半年的時間里，分揀員在數(shù)據(jù)處理上的時長下降了 37%，顯示出數(shù)據(jù)產(chǎn)品優(yōu)化的顯著效果。

有效工作時長的提升：同時，分揀員的有效工作時間實現(xiàn)了持續(xù)上升，其中在半年期間有效工作時長上升了 10%，反映出工作效率的整體提升。

(3)分析與結(jié)論

效率提升分析：分析發(fā)現(xiàn)數(shù)據(jù)產(chǎn)品優(yōu)化導(dǎo)致分揀員數(shù)據(jù)處理時間減少，使他們能夠更多地投入到實際工作中，從而提升了整體工作效率。

綜合效益：強調(diào)了通過精細化的數(shù)據(jù)管理和流程優(yōu)化，項目不僅提升了個體工作效率，也為整體操作流程帶來了效率提升。

3. 升級規(guī)劃：ABI 能力進階

(1)數(shù)據(jù)資產(chǎn)平臺與 ABI 能力進階

問答式報表能力：介紹了未來 ABI(問答式商業(yè)智能)能力的進階，即通過問答式交互返回報表和數(shù)據(jù)趨勢，簡化數(shù)據(jù)獲取過程。

移動端應(yīng)用：強調(diào)了在數(shù)據(jù)資產(chǎn)平臺上結(jié)合 DataGPT 和 AIGC 技術(shù)，使用戶能夠在移動端輕松獲取所需數(shù)據(jù)。

(2)數(shù)據(jù)資產(chǎn)集約管理

管理組成：描述數(shù)據(jù)資產(chǎn)集約管理包含知識庫、標(biāo)準(zhǔn)指標(biāo)體系和實時數(shù)倉模型，形成一個全面的數(shù)據(jù)管理體系。

DataGPT 作為釋放窗口：將 DataGPT 作為數(shù)據(jù)資產(chǎn)價值釋放的輕量化窗口，使用自然語言作為查詢門檻，使所有員工都能輕松進行數(shù)據(jù)查詢。

(3)大模型 AIGC 的作用

業(yè)務(wù)與技術(shù)語言轉(zhuǎn)化：大模型 AIGC 為業(yè)務(wù)語言和技術(shù)語言的相互轉(zhuǎn)化提供能力支持，使非技術(shù)人員也能通過自然語言獲取復(fù)雜數(shù)。

助力數(shù)據(jù)普惠化：通過這種能力加持，推進數(shù)據(jù)的普惠化，使數(shù)據(jù)查詢和分析不再局限于數(shù)據(jù)科學(xué)家或技術(shù)人員。

Q&A

Q1：我想詳細了解您提到的基于問答形式獲取數(shù)據(jù)源碼的方法，以及您正在開發(fā)的 data GPT 是如何運作的。

A1：我們所提的是通過問答方式創(chuàng)建數(shù)據(jù)集，而非直接獲取數(shù)據(jù)源。傳統(tǒng)上，構(gòu)建數(shù)據(jù)集主要有兩種方法：一是基于配置的拖拉拽方式，二是編寫 SQL 語句。我們現(xiàn)在正嘗試通過問答形式來構(gòu)建數(shù)據(jù)集。具體而言，用戶可以用自然語言告訴系統(tǒng)他們需要哪種類型的數(shù)據(jù)集，以及數(shù)據(jù)集應(yīng)包含哪些信息。系統(tǒng)將根據(jù)用戶的描述生成所需的數(shù)據(jù)集。這一過程的核心是 NLP(自然語言處理)技術(shù)，它能夠?qū)⒆匀徽Z言指令轉(zhuǎn)換為 SQL 語句，從而建立相應(yīng)的數(shù)據(jù)集。

Q2：如果我想查詢特定年份的某項指標(biāo)或數(shù)據(jù)情況，系統(tǒng)是否能自動生成相關(guān)報告和結(jié)果展示?具體實現(xiàn)方式是怎樣的?

A2：目前，我們正在探索兩種方案。第一種方案是結(jié)合大模型來實現(xiàn)。在這種方法中，我們將數(shù)據(jù)資產(chǎn)指標(biāo)的定義以及一些語義信息輸入模型，以幫助模型更好地理解例如京東物流的數(shù)據(jù)資產(chǎn)，包括表格的元數(shù)據(jù)等。當(dāng)你提出問題時，它可以通過 SQL 返回結(jié)果。但是，這個方法的問題在于，有時候回答的準(zhǔn)確率可能不高，特別是在數(shù)據(jù)底層質(zhì)量不高的情況下，對數(shù)據(jù)的理解可能會有誤差，導(dǎo)致生成的 SQL 可能不太準(zhǔn)確。這需要一個持續(xù)優(yōu)化和調(diào)整的過程。我們目前正在嘗試優(yōu)化這種方法，但只限于小范圍的數(shù)據(jù)資產(chǎn)。

第二種方案是采用配置化的方法。這種方法不依賴于大模型，而是依賴于一個后臺的數(shù)據(jù)模型配置策略。你只需要指定相關(guān)表格，只要查詢范圍在這個表格或其支持范圍內(nèi)，系統(tǒng)就能順利地將查詢轉(zhuǎn)換成 SQL 并返回結(jié)果。這種方法比較直接和穩(wěn)定，但如果基于大模型，則需要持續(xù)的運維和調(diào)整，因為大模型需要不斷地接收相關(guān)領(lǐng)域的數(shù)據(jù)以提高其準(zhǔn)確性。最重要的是，系統(tǒng)能否理解用戶用業(yè)務(wù)語言提出的問題，并將其轉(zhuǎn)換成數(shù)據(jù)語言的過程。

Q3：我希望未來的 BI(商業(yè)智能)工具可以更加敏捷，用戶無需編寫腳本或 SQL，只需要輸入一段話，系統(tǒng)就能理解并生成報表或圖表。這是否可行?

A3：這確實是一個很好的想法，目前行業(yè)內(nèi)已有多方探索這一方向。一些產(chǎn)品已經(jīng)初步實現(xiàn)了這一功能，它們通過部署大型 AI 模型并向其提供相關(guān)的指標(biāo)數(shù)據(jù)來進行訓(xùn)練，使其能夠根據(jù)用戶輸入生成基本的報表。此外，許多第三方創(chuàng)業(yè)公司也在嘗試相關(guān)技術(shù)。然而，大部分尚未利用大模型，因為完全依賴大模型來解決這一問題是相當(dāng)困難的。雖然當(dāng)前有一定的進展，但實現(xiàn)用戶簡單輸入即可生成復(fù)雜報表和圖表的目標(biāo)，還需要更多的技術(shù)突破和創(chuàng)新。

Q4：我想了解一下異構(gòu)數(shù)據(jù)源融合的問題。我目前所在的公司使用的互聯(lián)互通工具并不好用，我想知道如何在一個腳本中實現(xiàn)異構(gòu)數(shù)據(jù)源的簡單融合?

A4：確實，技術(shù)上是有可能實現(xiàn)異構(gòu)數(shù)據(jù)源融合的，但實際業(yè)務(wù)場景中很少需要在一個 SQL 中同時關(guān)聯(lián)例如 ES(Elasticsearch)表和 MySQL 表。雖然理論上這種技術(shù)是存在的，但成本相對較高。我之前提到的 Starrocks 引擎可以查詢 Hive 數(shù)據(jù)，甚至直接連接 HDFS，其查詢速度比許多其他工具更快。它也可以查詢 MySQL 和 ES。但它并不支持同一次查詢中同時跨庫關(guān)聯(lián)查詢這些數(shù)據(jù)源。實際上，這種需求并不常見，也不需要花費太多時間去優(yōu)化或?qū)崿F(xiàn)。如果你們公司確實有大量異構(gòu)數(shù)據(jù)源的融合需求，可能需要先從數(shù)據(jù)治理方面入手，找到更有效的方法和工具來解決這個問題。

Q5：您好，老師。我注意到您將報表制作成在線 Excel 格式。我想了解制作這種 Excel 功能的研發(fā)成本是否很高?因為它包含了許多復(fù)雜的功能和函數(shù)。同時，實際制作這個在線 Excel 的成本控制如何?

A5：是的，我們確實將報表制作成了在線 Excel 格式。不過，我們并沒有自己從頭開始研發(fā)這些復(fù)雜的功能和函數(shù)，而是主要通過集成一些第三方插件來實現(xiàn)的。因此，實際投入是可控的，成本并不會特別高。我們購買了第三方的插件，并在此基礎(chǔ)上將其與我們的前端鏈路相結(jié)合。這樣做的主要目的是模仿 Excel 的效果，同時確保工具的使用門檻對用戶來說更低，讓他們能夠更容易地操作和理解。

Q6：在數(shù)據(jù)產(chǎn)品領(lǐng)域，我們面臨哪些常見問題和挑戰(zhàn)?特別是關(guān)于 BI 工具和數(shù)據(jù)跨庫問題。

A6：這里主要有兩個問題。首先，關(guān)于 BI 工具，我們的定位是針對兩種不同的場景。京東內(nèi)部已經(jīng)有一些類似于 Tableau 的 BI 工具，它們適合總部的分析師和 BI 工程師使用，但對于一線工作人員來說，這些工具過于復(fù)雜，因為至少需要一定的數(shù)據(jù)庫操作和 SQL 知識。因此，我們針對兩種不同的用戶群體有不同的解決方案。

其次，關(guān)于數(shù)據(jù)跨庫的問題，我認(rèn)為在數(shù)據(jù)建設(shè)上應(yīng)該采用體系化的方法。所有業(yè)務(wù)系統(tǒng)都是分散和多樣化的。我們需要從業(yè)務(wù)系統(tǒng)中集中數(shù)據(jù)，建立一個數(shù)據(jù)部門或數(shù)據(jù)中心。首先是數(shù)據(jù)融合：將 OLTP(在線事務(wù)處理)轉(zhuǎn)換為 OLAP(在線分析處理)，在數(shù)倉中集成數(shù)據(jù)后進行分析應(yīng)用。理論上，我們應(yīng)該將所有數(shù)據(jù)統(tǒng)一入倉，在數(shù)倉里分層建模，然后有標(biāo)準(zhǔn)化的口徑沉淀，再接入 BI 系統(tǒng)。這是最合理的鏈路。

我有兩個建議：第一個是標(biāo)準(zhǔn)化數(shù)據(jù)。從數(shù)倉定義好，盡可能全面地接入 BI 工具，以便它可以靈活地支持業(yè)務(wù)需求和變化。第二個建議是讓 BI 工具支持更多類似于低代碼可視化的組件，這樣業(yè)務(wù)方可以更靈活、豐富地搭建頁面，提高可視化能力。這樣的整體解決方案，包括嵌入式組件，可以嵌入到他們自己的業(yè)務(wù)系統(tǒng)中，減少將數(shù)據(jù)接過去處理后再定制頁面的成本。

免責(zé)聲明：本文系網(wǎng)絡(luò)轉(zhuǎn)載，版權(quán)歸原作者所有。本文所用圖片、文字如涉及作品版權(quán)問題，請聯(lián)系刪除！本文內(nèi)容為原作者觀點，并不代表本網(wǎng)站觀點。

編輯：喬帥臣

關(guān)鍵詞：數(shù)字化轉(zhuǎn)型 BI平臺京東物流