欧美两性人xxxx高清免费_国产婷婷综合在线视频中文_国产免费久久精品99reswag_在厨房乱子伦在线观看_一边写作业一边c她

取消
搜索歷史
熱搜詞
原創(chuàng)
活動(dòng)
產(chǎn)業(yè)創(chuàng)新
轉(zhuǎn)型理念
ENI專訪
當(dāng)前位置:首頁(yè) >文章發(fā)布 > 正文
如何量化數(shù)據(jù)質(zhì)量|從單獨(dú)的數(shù)據(jù)質(zhì)量指標(biāo)到統(tǒng)一的質(zhì)量分值
來(lái)源:數(shù)據(jù)驅(qū)動(dòng)智能  作者: 王建峰 2024-08-23 13:42:22
測(cè)量數(shù)據(jù)質(zhì)量并不是一個(gè)新領(lǐng)域。數(shù)據(jù)分析工具已經(jīng)上市很多年,旨在幫助數(shù)據(jù)工程師更好地了解他們的數(shù)據(jù)中有什么以及他們可能需要修復(fù)什么。

測(cè)量數(shù)據(jù)質(zhì)量并不是一個(gè)新領(lǐng)域。數(shù)據(jù)分析工具已經(jīng)上市很多年,旨在幫助數(shù)據(jù)工程師更好地了解他們的數(shù)據(jù)中有什么以及他們可能需要修復(fù)什么。在數(shù)據(jù)分析的早期,盡管此類工具可以提供豐富的功能來(lái)查看數(shù)據(jù)集的質(zhì)量,但回答這些簡(jiǎn)單的問(wèn)題并不容易:

•這個(gè)數(shù)據(jù)集的整體質(zhì)量有多好?

•這兩個(gè)數(shù)據(jù)集哪一個(gè)數(shù)據(jù)質(zhì)量更好?

•與上個(gè)月相比,該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量如何?

即使在使用早期的單一數(shù)據(jù)分析工具時(shí),您也可以使用不同的功能從不同角度查看數(shù)據(jù),從而評(píng)估數(shù)據(jù)集的質(zhì)量:

您可以使用數(shù)據(jù)分析器收集的統(tǒng)計(jì)數(shù)據(jù)來(lái)確定在數(shù)據(jù)集中檢測(cè)到的哪些值或格式在每一列中應(yīng)被視為有效或無(wú)效。

您可以將每列的域有效性定義為有效值的最小/最大范圍,或者將其指向參考值列表。

您可以檢測(cè)或分配每一列的數(shù)據(jù)類,并搜索與預(yù)期數(shù)據(jù)類不匹配的值。

您可以查看缺失的值。

您可以識(shí)別主鍵候選并搜索意外的重復(fù)值。

您可以識(shí)別表之間的主外鍵 (PK-FK) 關(guān)系,并在外鍵列中搜索關(guān)系主鍵上未找到的孤立值。

您可以定義數(shù)據(jù)規(guī)則來(lái)對(duì)數(shù)據(jù)設(shè)置任何非平凡的額外期望。

盡管這些特征本身都很強(qiáng)大,可以為專家提供有趣的單獨(dú)指標(biāo)但它們的結(jié)果并不適合回答本文介紹中列出的簡(jiǎn)單問(wèn)題。主要原因是人們不擅長(zhǎng)將多維指標(biāo)相互比較,尤其是當(dāng)這些結(jié)果不包含完全相同的指標(biāo),或者從具有不同行數(shù)、列數(shù)或應(yīng)匹配不同約束/規(guī)則的不同數(shù)據(jù)集計(jì)算得出時(shí)。

由于數(shù)據(jù)湖、數(shù)據(jù)科學(xué)、數(shù)據(jù)治理以及所有這些圍繞數(shù)據(jù)的新型活動(dòng)的出現(xiàn),數(shù)據(jù)目錄變得越來(lái)越重要,數(shù)據(jù)質(zhì)量不僅對(duì)專家用戶來(lái)說(shuō)很重要,而且需要讓非專家也能理解。

在之前的文章中,我展示了如何自動(dòng)采集、分析、分類、管理大量數(shù)據(jù)集,并將其提供給數(shù)據(jù)科學(xué)家或數(shù)據(jù)分析師等消費(fèi)者。這些用戶需要以自助服務(wù)模式找到具有正確質(zhì)量的正確數(shù)據(jù)集。對(duì)于這種情況,顯然需要一個(gè)更簡(jiǎn)單的指標(biāo)來(lái)很好地了解數(shù)據(jù)集的質(zhì)量水平,而不必查看詳細(xì)信息,即使這些詳細(xì)信息在第二次查看時(shí)仍然可用。

但是如何設(shè)計(jì)一個(gè)好的數(shù)據(jù)質(zhì)量分?jǐn)?shù)呢?

鑒于數(shù)據(jù)質(zhì)量可以從很多不同的角度看待,并且可以通過(guò)不同的指標(biāo)進(jìn)行衡量,因此計(jì)算質(zhì)量分?jǐn)?shù)的公式并不明顯。為了更好地理解如何計(jì)算質(zhì)量分?jǐn)?shù),讓我們首先看一下對(duì)此類分?jǐn)?shù)的要求:

數(shù)據(jù)質(zhì)量分?jǐn)?shù)應(yīng)該簡(jiǎn)單易懂:當(dāng)在目錄中查看大量數(shù)據(jù)集時(shí),應(yīng)該能夠快速識(shí)別高質(zhì)量或低質(zhì)量的數(shù)據(jù)集,而無(wú)需查看詳細(xì)信息。

數(shù)據(jù)質(zhì)量分?jǐn)?shù)不應(yīng)該取決于數(shù)據(jù)集的行數(shù)、列數(shù)或設(shè)置的約束:例如,如果通過(guò)分析數(shù)據(jù)集的所有行來(lái)計(jì)算大型數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分?jǐn)?shù),那么該分?jǐn)?shù)應(yīng)該大致相同,就像在較小的樣本上計(jì)算一樣——假設(shè)采樣足夠好,具有統(tǒng)計(jì)代表性。

數(shù)據(jù)質(zhì)量分?jǐn)?shù)應(yīng)該與其他數(shù)據(jù)質(zhì)量分?jǐn)?shù)具有可比性,即使每個(gè)分?jǐn)?shù)使用的指標(biāo)不同和/或比較的數(shù)據(jù)集具有不同的行數(shù)和列數(shù)。

數(shù)據(jù)質(zhì)量分?jǐn)?shù)應(yīng)該是標(biāo)準(zhǔn)化的:它應(yīng)該提供一個(gè)明確的最低和最高分?jǐn)?shù)范圍,以便用戶可以看到數(shù)據(jù)集的數(shù)據(jù)質(zhì)量與理想質(zhì)量相差多遠(yuǎn)。

為了定義一個(gè)公式,將各種數(shù)據(jù)質(zhì)量函數(shù)計(jì)算出的不同指標(biāo)轉(zhuǎn)換為符合這些要求的分?jǐn)?shù),我們首先需要形式化我們對(duì)一般數(shù)據(jù)質(zhì)量概念和具體數(shù)據(jù)質(zhì)量分?jǐn)?shù)的理解。

數(shù)據(jù)質(zhì)量有很多定義。但一個(gè)簡(jiǎn)單的定義可能是:測(cè)量數(shù)據(jù)集的數(shù)據(jù)質(zhì)量就是測(cè)量數(shù)據(jù)集與您對(duì)數(shù)據(jù)的期望的匹配程度。

這意味著數(shù)據(jù)質(zhì)量分?jǐn)?shù)只能取決于您對(duì)數(shù)據(jù)的期望,而不是一些原始的發(fā)現(xiàn)。

這聽(tīng)起來(lái)可能很明顯,但這意味著如果我們?cè)谀骋涣兄邪l(fā)現(xiàn)大量缺失值,但我們確實(shí)預(yù)計(jì)該列中會(huì)有缺失值,或者我們不關(guān)心那里的缺失值,那么數(shù)據(jù)集的數(shù)據(jù)質(zhì)量得分不應(yīng)該因?yàn)榘l(fā)現(xiàn)缺失值而降低。這也意味著,如果我們對(duì)數(shù)據(jù)沒(méi)有具體的期望,那么無(wú)論數(shù)據(jù)中有什么,數(shù)據(jù)質(zhì)量得分都應(yīng)該是最大的。這些簡(jiǎn)單而明顯的事實(shí)對(duì)于建立分?jǐn)?shù)的架構(gòu)非常重要。

約束和數(shù)據(jù)質(zhì)量問(wèn)題的概念

讓我們定義一些在數(shù)據(jù)質(zhì)量分?jǐn)?shù)計(jì)算中起重要作用的概念:

我們對(duì)數(shù)據(jù)的期望就是所謂的約束。約束可以用不同的形式來(lái)表達(dá):

它可以是設(shè)置在列上的簡(jiǎn)單標(biāo)志,以指示此列中的值不應(yīng)為空,或者應(yīng)不同,或者不應(yīng)有符號(hào)。

它可以是列的域有效性的定義,設(shè)置為最終的最小或最大允許值,或者指向定義列的可接受域的參考值列表的指針?biāo)梢允欠峙浣o列的數(shù)據(jù)類,它不僅描述列的內(nèi)容,還可以用來(lái)識(shí)別不符合列預(yù)期域的值。

它可以是兩個(gè)數(shù)據(jù)集之間的已識(shí)別關(guān)系,設(shè)置多列之間的相關(guān)性或功能依賴性。

它可以是一個(gè)表達(dá)非平凡類型約束的數(shù)據(jù)規(guī)則,甚至可能涉及多個(gè)表。

無(wú)論何時(shí),只要數(shù)據(jù)不滿足任一約束條件,就會(huì)存在數(shù)據(jù)質(zhì)量問(wèn)題。

數(shù)據(jù)質(zhì)量問(wèn)題是指針對(duì)數(shù)據(jù)集的單個(gè)單元格、單個(gè)行、單個(gè)列或一組列或整個(gè)數(shù)據(jù)集報(bào)告的特定數(shù)據(jù)質(zhì)量問(wèn)題類型。數(shù)據(jù)質(zhì)量問(wèn)題報(bào)告的數(shù)據(jù)質(zhì)量問(wèn)題類型取決于數(shù)據(jù)未滿足的約束類型。

可以以一定的頻率在列或數(shù)據(jù)集上檢測(cè)到數(shù)據(jù)質(zhì)量問(wèn)題。相對(duì)頻率(以具有質(zhì)量問(wèn)題的列/數(shù)據(jù)集的所有值的百分比計(jì)算)就是我們所說(shuō)的問(wèn)題的普遍性。

例如,如果數(shù)據(jù)集有 100 行,并且在標(biāo)記為必填或不可空的列中檢測(cè)到 15 個(gè)缺失值,則該列將報(bào)告問(wèn)題類型為“缺失值”的數(shù)據(jù)質(zhì)量問(wèn)題,發(fā)生率為15%。

隱式或顯式約束以及數(shù)據(jù)質(zhì)量問(wèn)題的置信度概念

除了普遍性之外,數(shù)據(jù)質(zhì)量問(wèn)題還可能與置信度相關(guān)。置信度表示所報(bào)告的問(wèn)題是真實(shí)問(wèn)題的概率。

為了更好地理解這個(gè)概念,你需要明白,并非所有對(duì)數(shù)據(jù)設(shè)置的約束都是由人指定或確認(rèn)的明確約束——我們將這種指定或確認(rèn)的約束稱為顯式約束。

如果數(shù)據(jù)質(zhì)量?jī)H基于明確的約束來(lái)衡量,那么我們就不需要置信度的概念,因?yàn)樗杏扇酥付ǘ承?shù)據(jù)不遵守的約束都會(huì)導(dǎo)致置信度 100% 的數(shù)據(jù)質(zhì)量問(wèn)題——我們確信該問(wèn)題是一個(gè)真正的問(wèn)題,因?yàn)橛腥艘呀?jīng)指定任何不滿足此約束的事物都應(yīng)被視為數(shù)據(jù)質(zhì)量問(wèn)題。

但如果我們只考慮明確的約束,那么所有數(shù)據(jù)集的得分都會(huì)從 100% 開(kāi)始,直到有人花時(shí)間查看并指定約束。這會(huì)導(dǎo)致要么有大量數(shù)據(jù)集具有高質(zhì)量的假象,要么導(dǎo)致需要管理員仔細(xì)審查每個(gè)攝取的數(shù)據(jù)集,這對(duì)于大量導(dǎo)入來(lái)說(shuō)并不好。

因此,在數(shù)據(jù)質(zhì)量分析期間,系統(tǒng)可能會(huì)根據(jù)數(shù)據(jù)中看到的內(nèi)容嘗試猜測(cè)一些約束。例如,如果一列的大多數(shù)數(shù)據(jù)不為空,或者它們使用相同的格式或具有任何可識(shí)別的模式(即使某些值不遵循這些模式),則系統(tǒng)可能會(huì)假設(shè)存在隱式約束,并且不滿足該約束的值可能是數(shù)據(jù)質(zhì)量問(wèn)題。

由于隱式約束是系統(tǒng)根據(jù)數(shù)據(jù)中看到的內(nèi)容推斷出來(lái)的,因此它與置信度的概念相關(guān),確定系統(tǒng)對(duì)這是一個(gè)真實(shí)約束的確定程度。

例如,如果某列中 95% 的值都是 5 位數(shù)字,但 5% 的值格式完全不同,則系統(tǒng)可能會(huì)(根據(jù)設(shè)置)假設(shè)此列存在隱式約束,即值應(yīng)為 5 位數(shù)字,置信度為 95%。如果用戶查看并確認(rèn)此隱式約束,則它將成為顯式約束,置信度為 100%。

檢測(cè)到的質(zhì)量問(wèn)題的普遍性和置信度都將用于計(jì)算實(shí)際質(zhì)量分?jǐn)?shù)。

將其整合成統(tǒng)一的質(zhì)量得分

現(xiàn)在我們已經(jīng)介紹了在數(shù)據(jù)質(zhì)量分?jǐn)?shù)中發(fā)揮作用的所有重要概念,讓我們通過(guò)一個(gè)簡(jiǎn)單的示例來(lái)了解如何計(jì)算分?jǐn)?shù):

假設(shè)有一個(gè)簡(jiǎn)單的數(shù)據(jù)集,有 3 列 6 行,并且已識(shí)別出以下數(shù)據(jù)質(zhì)量問(wèn)題:

\

第 1 行違反了數(shù)據(jù)規(guī)則。由于數(shù)據(jù)規(guī)則是由用戶指定的,因此它是一個(gè)顯式約束,問(wèn)題的置信度為100%。

第 3 行是重復(fù)行,但沒(méi)有明確的約束表明不應(yīng)允許重復(fù)行。然而,根據(jù)數(shù)據(jù),分析確定該數(shù)據(jù)集不應(yīng)出現(xiàn)重復(fù)行的可能性為 70%。=> 數(shù)據(jù)集上有一個(gè)隱式約束,以70% 的置信度表明不應(yīng)有任何重復(fù)記錄。

第 2 行和第 Col1 列的單元格不滿足置信度為 80% 的隱式約束,該約束定義了有效域應(yīng)該是什么。例如,如果分析確定了此列的推斷數(shù)據(jù)類,置信度為 80%,并且該單元格中的值與數(shù)據(jù)類不匹配,則可能出現(xiàn)這種情況。

列 Col 2已設(shè)置顯式約束,表明此列中的所有值應(yīng)不同,但分析發(fā)現(xiàn)其中有 20% 的重復(fù)值。這導(dǎo)致置信度為 100%且普遍率為 20% 的數(shù)據(jù)質(zhì)量問(wèn)題。

除此之外,第 4 行第 2 列的值缺失,并且存在90% 的置信度隱含約束,即此列中不應(yīng)出現(xiàn)缺失值。

最后,第 5 行/第 3 列的單元格似乎是此列的異常值,置信度為 60%。異常值始終是隱式約束,因?yàn)闆](méi)有硬性規(guī)則定義某個(gè)值是否為異常值。

單個(gè)單元格的數(shù)據(jù)質(zhì)量評(píng)分

請(qǐng)注意,單個(gè)單元格、列或行可能存在多個(gè)數(shù)據(jù)質(zhì)量問(wèn)題,并且如果可能的話,該問(wèn)題不應(yīng)重復(fù)計(jì)算:如果單個(gè)值同時(shí)違反其預(yù)期數(shù)據(jù)類和預(yù)期格式,則不應(yīng)對(duì)列或數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分?jǐn)?shù)進(jìn)行雙重標(biāo)記,因?yàn)橹挥幸粋€(gè)值是無(wú)效的,無(wú)論該值有多少個(gè)問(wèn)題。

基于此,數(shù)據(jù)集中單個(gè)單元格的得分可以計(jì)算為該值完全沒(méi)有問(wèn)題的概率。這可以計(jì)算為 100% 減去單元格上檢測(cè)到的每個(gè)問(wèn)題的置信度。為了說(shuō)明這一點(diǎn):如果我們例如 90% 確信某個(gè)單元格存在問(wèn)題,那么值沒(méi)有問(wèn)題的概率就是 100–90=10%。如果問(wèn)題的置信度為 100%(對(duì)于明確約束),那么值沒(méi)有問(wèn)題的概率就是 100–100=0%

對(duì)于在數(shù)據(jù)集中各個(gè)單元上報(bào)告的數(shù)據(jù)質(zhì)量問(wèn)題,計(jì)算單元分?jǐn)?shù)的公式如下。

\

僅考慮單元格級(jí)別報(bào)告的問(wèn)題的單個(gè)細(xì)胞質(zhì)量評(píng)分,假如某個(gè)區(qū)域出現(xiàn)2個(gè)問(wèn)題,一個(gè)置信度為80%,另一個(gè)置信度為60%,那么根據(jù)概率定律,第一個(gè)問(wèn)題不是真實(shí)的概率為100%-80%=20%,第二個(gè)問(wèn)題不是真實(shí)的概率為100%-60%=40%,而所有問(wèn)題都不是真實(shí)的、該區(qū)域沒(méi)有數(shù)據(jù)質(zhì)量問(wèn)題的概率只有20%乘以40%=8%。

現(xiàn)在回想一下,我在本文開(kāi)頭提到過(guò),數(shù)據(jù)質(zhì)量問(wèn)題也可以針對(duì)整行、整列或整組數(shù)據(jù)集進(jìn)行報(bào)告。我們需要將這些問(wèn)題的影響分布到單元格的分?jǐn)?shù)上。

對(duì)于針對(duì)整行報(bào)告的問(wèn)題,這很容易,因?yàn)槿绻撔袩o(wú)效,我們可以假設(shè)該行的所有值都是無(wú)效的。此類問(wèn)題對(duì)單元格分?jǐn)?shù)的影響可以按以下方式計(jì)算:

\

僅考慮行級(jí)報(bào)告的問(wèn)題的單元格質(zhì)量得分,conf(pb[row])在這里表示針對(duì)正在測(cè)量的單元格的行報(bào)告的一行級(jí)數(shù)據(jù)質(zhì)量問(wèn)題的置信度。

但是,完整列報(bào)告的問(wèn)題需要根據(jù)問(wèn)題的普遍性在該列的所有值之間平均分配。普遍性告訴我們,n%的值受到該問(wèn)題的影響,盡管我們不知道哪些值存在問(wèn)題,哪些值不存在問(wèn)題。因此,每個(gè)值的分?jǐn)?shù)都會(huì)降低一個(gè)因子,該因子等于普遍性乘以問(wèn)題真實(shí)性的置信度,如以下公式所示:

\

僅考慮列級(jí)別報(bào)告的問(wèn)題的質(zhì)量得分,conf(pb[col])表示針對(duì)被測(cè)量單元格的列報(bào)告的一個(gè)列級(jí)數(shù)據(jù)質(zhì)量問(wèn)題的置信度,而prev(pb[col])表示其普遍性 - 即列中存在該問(wèn)題的值的百分比。

針對(duì)整個(gè)數(shù)據(jù)集報(bào)告的數(shù)據(jù)質(zhì)量問(wèn)題的影響在所有單元中以相同的方式分布:

\

質(zhì)量得分僅考慮數(shù)據(jù)集級(jí)別報(bào)告的問(wèn)題,考慮到細(xì)胞本身、其列、其行或數(shù)據(jù)集上報(bào)告的所有問(wèn)題,單個(gè)細(xì)胞的最終數(shù)據(jù)質(zhì)量得分可以計(jì)算如下:

\

考慮所有問(wèn)題的細(xì)胞質(zhì)量得分

某列的數(shù)據(jù)質(zhì)量分?jǐn)?shù)

上述公式為計(jì)算數(shù)據(jù)集中每個(gè)單元格標(biāo)準(zhǔn)化為 0% 到 100% 之間的數(shù)據(jù)質(zhì)量得分奠定了基礎(chǔ)?;诖?,計(jì)算任何列的數(shù)據(jù)質(zhì)量得分變得像計(jì)算該列每個(gè)值的數(shù)據(jù)質(zhì)量得分的平均值一樣簡(jiǎn)單。

\

某一行的數(shù)據(jù)質(zhì)量分?jǐn)?shù)

以相同的方式,可以通過(guò)對(duì)行中每個(gè)單元格計(jì)算的分?jǐn)?shù)取平均值來(lái)計(jì)算數(shù)據(jù)集中任意行的分?jǐn)?shù)。

\

數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分?jǐn)?shù)

計(jì)算數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分?jǐn)?shù)就變得像計(jì)算每列分?jǐn)?shù)的平均值或每行分?jǐn)?shù)的平均值一樣簡(jiǎn)單。

\

注意,這也與計(jì)算所有單元格得分的平均值相同。由于公式的對(duì)稱性,所有這些計(jì)算都將返回相同的結(jié)果,這使其變得優(yōu)雅。

例子:

讓我們將這些公式應(yīng)用到我們之前的具體例子上:

\

免責(zé)聲明:本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)聯(lián)系刪除!本文內(nèi)容為原作者觀點(diǎn),并不代表本網(wǎng)站觀點(diǎn)。
編輯:?jiǎn)處洺?/span>
活動(dòng) 直播間  | CIO智行社

分享到微信 ×

打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。

明溪县| 璧山县| 云和县| 丹江口市| 陇南市| 宁城县| 黄大仙区| 延寿县| 江山市| 色达县| 昌都县| 金门县| 大余县| 永昌县| 都匀市| 普格县| 庄浪县| 霍山县| 乐昌市| 施甸县| 贺兰县| 伊宁县| 武强县| 疏附县| 丰台区| 定日县| 安康市| 色达县| 岳西县| 紫金县| 彰武县| 讷河市| 城口县| 伊金霍洛旗| 临泽县| 砀山县| 泰宁县| 乐东| 乌审旗| 榆社县| 新竹县|