數(shù)據(jù)質(zhì)量是數(shù)據(jù)的生命線,在麥吉利夫雷的《數(shù)據(jù)質(zhì)量工程實踐》一書中提出了改進數(shù)據(jù)質(zhì)量的十步法,如下所示:
在10個步驟中,第3步的評估數(shù)據(jù)質(zhì)量主要依賴數(shù)據(jù)質(zhì)量維度進行測量。數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)的某個可觀測的特性,術(shù)語”維度“可以類比于測量物理對象的維度(如長度、寬度、高度等)。數(shù)據(jù)質(zhì)量維度提供了定義數(shù)據(jù)質(zhì)量要求的一組詞匯,通過這些維度定義可以評估初始數(shù)據(jù)質(zhì)量和持續(xù)改進的成效。
比如數(shù)據(jù)質(zhì)量有個維度叫準(zhǔn)確性,指數(shù)據(jù)要準(zhǔn)確反映其所建模的“真實世界”實體,例如員工的身份數(shù)據(jù)必須與身份證件上的信息保持一致。
英國著名數(shù)學(xué)家、物理學(xué)家Load kelvin說:”無法度量則無法改進“ ,可以這么說,數(shù)據(jù)質(zhì)量維度提供了一種測量數(shù)據(jù)質(zhì)量的方式,數(shù)據(jù)質(zhì)量維度評價最具價值的收益是作為數(shù)據(jù)質(zhì)量問題的具體證據(jù),為后續(xù)的根本原因分析、數(shù)據(jù)的糾正和預(yù)防未來錯誤的合適改進提供基礎(chǔ)。
我們平時工作中接觸到的數(shù)據(jù)質(zhì)量維度很多,包括一致性,準(zhǔn)確性,有效性,完整性,完備性、及時性等等,但如果要你列出所有的數(shù)據(jù)質(zhì)量維度,并且”完全窮盡、相互獨立“,估計很少人能回答出來,一方面可能沒系統(tǒng)化思考過,另一方面估計也區(qū)分不清楚完整性、一致性、合理性等維度概念的差別。
我查閱了相關(guān)資料(見文末參考文獻),發(fā)現(xiàn)有人對數(shù)據(jù)質(zhì)量維度已經(jīng)進行了系統(tǒng)研究,綜合了相關(guān)研究成果后,這里以洛申的《數(shù)據(jù)質(zhì)量改進實踐指南》為基準(zhǔn),給出理想中的數(shù)據(jù)質(zhì)量維度框架,大家通過這個框架,可以更加清晰、全面的理解數(shù)據(jù)質(zhì)量維度定義和度量方法,從而奠定數(shù)據(jù)質(zhì)量管理工作的基礎(chǔ)。
為了輔助理解,文末也附上了華為等其它相關(guān)數(shù)據(jù)質(zhì)量維度框架的簡要說明,大家可以據(jù)此進行拓展閱讀。
一、數(shù)據(jù)質(zhì)量維度框架
該框架以”完全窮盡、相互獨立“為原則,對數(shù)據(jù)質(zhì)量維度進行層次結(jié)構(gòu)的邏輯分類,一級分類為內(nèi)在維度、上下文維度和定性維度:
內(nèi)在維度:將那些僅與數(shù)值本身有關(guān)而與數(shù)據(jù)元或記錄無關(guān)的測量方法稱為內(nèi)在維度,內(nèi)在維度與數(shù)據(jù)值本身有關(guān),而與具體的上下文無關(guān)。
例如,指定溫度的有效范圍(如-50-110度)對數(shù)值來說是內(nèi)在的,無論應(yīng)用在哪些場景。
內(nèi)在維度包括二級分類,即準(zhǔn)確性、可溯性、結(jié)構(gòu)一致性和語義一致性。
上下文維度:如果測量評判的是一個數(shù)據(jù)元與其他數(shù)據(jù)元或從一條記錄到其它記錄的一致性或有效性,則可以將其稱為上下文維度,因為這些測量依賴于上下文。上下文維度依賴于系統(tǒng)和流程中作為業(yè)務(wù)規(guī)則執(zhí)行的各類業(yè)務(wù)方針。
例如“指定唯一關(guān)聯(lián)單個實體的標(biāo)識符”的要求是一項信息方針,該方針轉(zhuǎn)換成數(shù)據(jù)質(zhì)量規(guī)則就涉及唯一識別、標(biāo)識符匿名、不可識別性等。
上下文維度括二級分類,即完整性、一致性、及時性、可訪性、合理性及唯一性。
定性維度:在獲取定量測量結(jié)果能力不足的情況下,需要引入另外一些維度,定性維度可以評價更高階的監(jiān)督,審查信息滿足定義的期望指數(shù)和需求的程度。
二、數(shù)據(jù)質(zhì)量維度規(guī)則
在十大數(shù)據(jù)質(zhì)量維度分類下,我總結(jié)出了具體的29個規(guī)則類型,每種規(guī)則類型可以根據(jù)規(guī)則的適用范圍區(qū)分為單屬性,跨屬性、跨記錄和跨實體四種,如下圖所示:
規(guī)則類型一般包括類型名稱、類型描述、度量指標(biāo)及符合性閾值等屬性來形成具體的稽核規(guī)則,下面舉個例子說明:
準(zhǔn)確性維度分類中存在一個規(guī)則類型,名稱叫“值域約束類”,描述是“屬性值必須滿足已定義的枚舉值的約束”,度量指標(biāo)是“符合約束的記錄/總記錄”,符合性閾值可以定義為一個固定比例值,比如針對“性別”字段,枚舉約束是“男,女”,度量指標(biāo)是“字段的值屬于“男”或“女”的記錄/總記錄數(shù)”,符合性閾值是“90%”。
三、數(shù)據(jù)質(zhì)量維度詳述
1、準(zhǔn)確性
維度定義:
準(zhǔn)確性是較難評價的維度之一,因為它指的是數(shù)據(jù)值與確定的正確信息源的一致程度,可能存在許多潛在的正確信息源,例如一個數(shù)據(jù)庫,一個數(shù)據(jù)集或者某個人工錄入的結(jié)果,很多情況下,沒有正確信息的權(quán)威來源。
規(guī)則類型:
(1)值域約束類:屬性值必須滿足已定義的枚舉值的約束,比如合同的合同主類型及子類型必須是合同類型基礎(chǔ)數(shù)據(jù)中定義的枚舉值。
(2)精度約束類:屬性值的精度符合定義的精確度或細(xì)節(jié)說明。
(3)值的約束類:屬性值必須支持為該屬性值定義的可接受值,比如限定年齡必須在0-200歲之間,日期必須符合yyyymmdd格式要求。
(4)事實參照標(biāo)準(zhǔn)類:存在事實數(shù)據(jù)或者事實參考標(biāo)準(zhǔn)數(shù)據(jù),與該事實或事實參考標(biāo)準(zhǔn)對比一直的約束。比如中國電信公司的信息必須與國家法人數(shù)據(jù)庫中的信息保持一致。
2、可溯性
維度定義:
數(shù)據(jù)的可信性對于企業(yè)的所有參與者都是至關(guān)重要的,可塑性測量的一個特征是擁有識別任何新增或更新的數(shù)據(jù)來源的能力。
規(guī)則類型:
(5)可溯源類:所有屬性都應(yīng)包括可識別的最初來源和日期。
3、結(jié)構(gòu)一致性
維度定義:
在同一數(shù)據(jù)集或者在與相關(guān)聯(lián)的數(shù)據(jù)模型中,相似的屬性值的表示具有一致性。
規(guī)則類型:
(6)格式規(guī)范類:屬性必須符合企業(yè)規(guī)定的長度和類型標(biāo)準(zhǔn)。
(7)格式一致性類:相同的屬性必須具有相同的數(shù)據(jù)類型、長度以及樣式。
(8)屬性文檔化類:在元數(shù)據(jù)庫中定義和描述的數(shù)據(jù)屬性。
4、語義一致性
維度定義:
指的是一個數(shù)據(jù)模型中不同屬性間定義,以及不同的企業(yè)數(shù)據(jù)集中命名相似的屬性定義的一致性,它描述了相似數(shù)據(jù)對象共享一致名稱與含義的程度。
規(guī)則類型:
(9)屬性定義類:所有的屬性命名和定義已經(jīng)文檔標(biāo)準(zhǔn)化。
(10)屬性名稱符合類:屬性名稱符合標(biāo)準(zhǔn)程度。
(11)屬性名稱歧義類:不存在兩個屬性共用一個名稱。
(12)語義一致性:命名相似的屬性指的是同一個業(yè)務(wù)概念。
5、完整性
維度定義:
指的是某些屬性必須賦予某數(shù)據(jù)集中的數(shù)據(jù)值,完整性可以定義為單個屬性的要求,也可以依賴于一條記錄或一個數(shù)據(jù)集中跨多條記錄的其他屬性的值。
規(guī)則類型:
(13)屬性不可為空類:屬性值不允許出現(xiàn)空值,比如員工工號不可為空。
(14)單表不可為空類:在本實體的一個或多個屬性值滿足某個條件時,屬性值不允許出現(xiàn)空值。
(15)跨表不可為空類:在其它實體的一個或多個屬性值滿足某個條件時,屬性值不允許出現(xiàn)空值。
6、一致性
維度定義:
在當(dāng)前數(shù)據(jù)背景下,或在某個時間序列上,與數(shù)值一致性的期望指數(shù)相關(guān)的約束。在任何企業(yè)環(huán)境中,一致性與數(shù)據(jù)層次結(jié)構(gòu)的不同層次有關(guān),表范圍內(nèi)、數(shù)據(jù)庫范圍內(nèi)、不同應(yīng)用間,以及外部提供的數(shù)據(jù)范圍內(nèi),由于跨業(yè)務(wù)范圍數(shù)據(jù)整合呈現(xiàn)日漸增長趨勢,必須制定相關(guān)的規(guī)則來確保一致性。
規(guī)則類型:
(16)單表等值一致性類:某一屬性與本實體其它屬性計算值相等的約束,比如合同的RMB簽約金額必須等于USD簽約金額與匯率的乘積。
(17)單表邏輯一致性類:某一屬性值與本實體其他屬性滿足邏輯關(guān)系約束(大于或小于),比如合同關(guān)閉日期不能早于注冊日期。
(18)外關(guān)聯(lián)約束類:引用其他業(yè)務(wù)對象屬性時,所維護的屬性值必須在其他業(yè)務(wù)對象中存在的約束,比如合同的簽約客戶必須為客戶主數(shù)據(jù)中定義的法人客戶。
(19)跨表等值一致約束類:某一屬性值與其他實體的一個或多個屬性值的函數(shù)計算結(jié)果相等的約束,比如賬單表的總金額與賬單明細(xì)表的科目金額之和一致。
(20)跨表邏輯一致約束類:某一屬性值滿足其他實體的一個或多個屬性值的函數(shù)關(guān)系的約束(大于或小于),比如客戶表中客戶的入網(wǎng)日期早于客戶訂購產(chǎn)品表中的產(chǎn)品訂購日期。
7、及時性
維度定義:
指信息相對于真實實體而言的最新程度,流通性可以度量信息的“新鮮程度”。
規(guī)則類型:
(21)屬性及時性約束類:屬性必須在規(guī)定的時間周期內(nèi)刷新,比如產(chǎn)品價格必須每24小時刷新一次。
(22)單表及時性約束類:在本實體的一個或多個屬性值的滿足某個條件時,屬性值要在一個指定時間周期內(nèi)刷新。
(23)跨表及時性約束類:在其它實體的一個或多個屬性值的滿足某個條件時,本實體的屬性值要在一個指定時間周期內(nèi)刷新。
8、可訪性
維度定義:
指信息可訪問性的時間期望指數(shù),可訪性可以用期望使用信息的時間與信息準(zhǔn)備就緒的時間之間的差進行測量。
規(guī)則類型:
(24)可訪問性類:可訪問信息的時間與信息準(zhǔn)備就緒的時間之差。
(25)響應(yīng)時間類:請求者從發(fā)出請求到接收到信息的時間之差。
9、合理性
維度定義:
指對數(shù)據(jù)值一致性或合理性期望指數(shù)相關(guān)的綜合評述。
規(guī)則類型:
(26)通用合理性類:數(shù)據(jù)滿足合理的期望指數(shù),比如司機的年齡不小于18歲。
(27)時態(tài)合理性類:新值需與基于先前值的期望指數(shù)一致,即數(shù)據(jù)集的某個統(tǒng)計(合計、總計、平均等)的值應(yīng)該與歷史數(shù)據(jù)集的統(tǒng)計值的差異在合理范圍,比如當(dāng)日新增用戶數(shù)不應(yīng)高于過去30天平均值的20%。
(28)協(xié)議合理性類:定義服務(wù)水平協(xié)議、安全協(xié)議及績效相關(guān)的文檔,應(yīng)評測與協(xié)議的符合性。
10、唯一性
維度定義:
指對核心概念對象的唯一命名和表示,以及通過識別屬性值將含有實體數(shù)據(jù)的數(shù)據(jù)實例鏈接在一起的能力。
規(guī)則類型:
(29)記錄唯一類:記錄不重復(fù),存在可識別的業(yè)務(wù)主鍵進行唯一性判斷,是對數(shù)據(jù)集內(nèi)部是否存在相似或重復(fù)記錄的約束規(guī)則,比如法人客戶中國移動通信股份有限公司只能存在唯一一筆。
定性維度的規(guī)則類型包括權(quán)威源符合度、服務(wù)水平協(xié)議符合度、與數(shù)據(jù)標(biāo)準(zhǔn)的符合度、可理解性等等。
針對每個數(shù)據(jù)質(zhì)量維度都進行評估代價很大,每個企業(yè)都應(yīng)根據(jù)自己的業(yè)務(wù)需求、優(yōu)先級、可行性來選擇最有意義的維度組合來進行測量,數(shù)據(jù)質(zhì)量維度的評估結(jié)果用于確定數(shù)據(jù)質(zhì)量的基線、監(jiān)測和改進。
四、其它數(shù)據(jù)質(zhì)量維度框架
1、麥吉利夫雷的《數(shù)據(jù)質(zhì)量工程實踐》
2、洛申的《數(shù)據(jù)質(zhì)量改進實踐指南》
3、DAMA2
4、華為數(shù)據(jù)之道
5、數(shù)據(jù)治理:工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型之道
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。