欧美两性人xxxx高清免费_国产婷婷综合在线视频中文_国产免费久久精品99reswag_在厨房乱子伦在线观看_一边写作业一边c她

大數(shù)據(jù)與統(tǒng)計(jì)新思維
來源:36大數(shù)據(jù)  作者:佚名 2016-06-12 13:29:09
在計(jì)算機(jī)科學(xué)、電子商務(wù)等領(lǐng)域已率先在大數(shù)據(jù)技術(shù)開發(fā)與應(yīng)用方面做出不俗成就的時(shí)候,以數(shù)據(jù)為研究對(duì)象的統(tǒng)計(jì)學(xué)該如何應(yīng)對(duì)? 無動(dòng)于衷還是盲目追從? 正確的態(tài)度應(yīng)該是理性對(duì)待、積極跟進(jìn)、改變思維、謀求發(fā)展。

譯著《大數(shù)據(jù)時(shí)代》( 英國 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《駕馭大數(shù)據(jù)》( 美國 Bill Franks 著) ,以及我國學(xué)者涂子沛、郭曉科的《大數(shù)據(jù)》等幾本書引起了廣泛的關(guān)注,其他各種媒體關(guān)于大數(shù)據(jù)的討論也層出不窮,大數(shù)據(jù)已成為流行語。有人認(rèn)為,大數(shù)據(jù)是 一場(chǎng)新的革命,將橫掃一切領(lǐng)域,重構(gòu)世界。不少國家已將大數(shù)據(jù)作為國家發(fā)展戰(zhàn)略,而商業(yè)領(lǐng)域更是將其視為下一個(gè)投資的寶庫。毫無疑問,大數(shù)據(jù)時(shí)代已經(jīng)來 臨,它正在悄悄地改變著人們的行為與思維,難以阻擋,無法抗拒。在計(jì)算機(jī)科學(xué)、電子商務(wù)等領(lǐng)域已率先在大數(shù)據(jù)技術(shù)開發(fā)與應(yīng)用方面做出不俗成就的時(shí)候,以數(shù) 據(jù)為研究對(duì)象的統(tǒng)計(jì)學(xué)該如何應(yīng)對(duì)? 無動(dòng)于衷還是盲目追從? 正確的態(tài)度應(yīng)該是理性對(duì)待、積極跟進(jìn)、改變思維、謀求發(fā)展。

\

一 對(duì)大數(shù)據(jù)的初步認(rèn)識(shí)

到底什么是大數(shù)據(jù),不同的學(xué)科領(lǐng)域、不同行業(yè)的從業(yè)人員肯定會(huì)有不同的理解。與傳統(tǒng)意義上的數(shù)據(jù)相比,大數(shù)據(jù)的“大”與“數(shù)據(jù)”都有了新的 含義,絕不僅僅是體量的問題,更重要的是數(shù)據(jù)的內(nèi)涵問題?;蛟S,“大”與“數(shù)據(jù)”根本就不能分開,只有把“大數(shù)據(jù)”當(dāng)作一個(gè)整體概念來理解才有意義。那么 從統(tǒng)計(jì)學(xué)的角度,我們?cè)撊绾蝸砝斫獯髷?shù)據(jù)?筆者認(rèn)為大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn) 代信息技術(shù)與工具可以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類型 的 數(shù) 據(jù)。有 人 用 4V( Volume,Variety、Velocity 和 Value) 來形容大數(shù)據(jù)的特征,最根本之處就是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。通俗地說,大數(shù)據(jù)就是一切可記錄信號(hào)的集合。

如果說,傳統(tǒng)統(tǒng)計(jì)研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù),那么現(xiàn)在我們面對(duì)的數(shù)據(jù)則是一切可以記錄和存儲(chǔ)、源源不斷擴(kuò)充、超大容量的各種 類型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別,具有什么樣的統(tǒng)計(jì)學(xué)意義? 我們知道,樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過程偏離方案,數(shù)據(jù)就不能滿足要求。基于樣本數(shù)據(jù)所進(jìn) 行的分析,其空間十分有限———通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數(shù)據(jù)的不可擴(kuò)充性缺點(diǎn)就暴露無疑。而大數(shù)據(jù)是一 切可以通過現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù),不僅所蘊(yùn)含的信息量巨大,而且不受各種框框的限制———任何種類的數(shù)據(jù)都來者不拒、也無法抵拒。不難發(fā)現(xiàn),大數(shù) 據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點(diǎn)是,具有巨大的數(shù)據(jù)選擇空間,可以進(jìn)行多維、多角度的數(shù)據(jù)分析。更為重要的是,由于大數(shù)據(jù)的大體量與多樣性,樣本不足以呈現(xiàn)的 某些規(guī)律,大數(shù)據(jù)可以體現(xiàn); 樣本不足以捕捉的某些弱小信息,大數(shù)據(jù)可以覆蓋; 樣本中被認(rèn)為異常的值,大數(shù)據(jù)得以認(rèn)可。這將極大地提高我們認(rèn)識(shí)現(xiàn)象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機(jī)會(huì)。

這里,我們自然就想到了大量觀察與大數(shù)據(jù)這兩個(gè)概念中的“大”的區(qū)別。對(duì)于傳統(tǒng)的統(tǒng)計(jì)研究方法而言,大量觀察法是基礎(chǔ),是收集數(shù)據(jù)的基本理 論依據(jù),其主要思想是要對(duì)足夠量的個(gè)體進(jìn)行調(diào)查觀察,以確保有足夠的微觀基礎(chǔ)來消除或削弱個(gè)體差異對(duì)整體特征的影響,足以歸納出關(guān)于總體的數(shù)量規(guī)律。所 以,這里的“大”是足夠的意思。大量觀察法的極端情況就是普查,但限于各種因素不能經(jīng)常進(jìn)行,所以一般情況下只能進(jìn)行抽樣調(diào)查,這就需要精確計(jì)算最小的樣 本量?;诖罅坑^察法獲得的樣本數(shù)據(jù)才符合大數(shù)法則或大數(shù)定律,才能用以推斷總體。而大數(shù)據(jù)則指不限量的數(shù)據(jù),是基于現(xiàn)代信息技術(shù)的一切可以記錄的全體數(shù) 據(jù),其特征之一就是盡量多地包含數(shù)據(jù),它與樣本容量無關(guān),只與信息來源的數(shù)量與儲(chǔ)存容量有關(guān)。因此,這里的“大”是全體的意思。

可見,統(tǒng)計(jì)學(xué)的研究對(duì)象沒有變,變的是數(shù)據(jù)的來源、體量、類型、速度與量化的方式。這種變化對(duì)統(tǒng)計(jì)研究帶來了什么樣的挑戰(zhàn)? 《大數(shù)據(jù)時(shí)代》提出了三個(gè)最顯著的變化: 一是樣本等于總體,二是不再追求精確性,三是相關(guān)分析比因果分析更重要。這些觀點(diǎn)具有很強(qiáng)的震撼力,迫使我們對(duì)現(xiàn)有的統(tǒng)計(jì)研究思維進(jìn)行反思。盡管這些觀點(diǎn) 值得進(jìn)一步商榷,但至少告訴我們這樣一個(gè)道理: 統(tǒng)計(jì)研究對(duì)象的基礎(chǔ)變了,統(tǒng)計(jì)思維也要跟著變化,否則統(tǒng)計(jì)研究的對(duì)象只是全部數(shù)據(jù)的 5%,而且越來越少,那又怎么能說統(tǒng)計(jì)學(xué)是一門關(guān)于數(shù)據(jù)的科學(xué)呢? 又怎么去完善和發(fā)展開展數(shù)據(jù)分析研究的統(tǒng)計(jì)方法論呢?

二 統(tǒng)計(jì)思維的變化

改變統(tǒng)計(jì)思維,是大數(shù)據(jù)時(shí)代的必然要求。否則,統(tǒng)計(jì)學(xué)科就有可能被大數(shù)據(jù)的潮流所吞沒,至少會(huì)被邊緣化,失去一次重要的參與推動(dòng)歷史變革的 機(jī)遇。當(dāng)然,統(tǒng)計(jì)思維的變化應(yīng)該以一個(gè)永恒不變的主題為前提,那就是通過數(shù)據(jù)分析去揭示事物的真相,這個(gè)真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也 就是說,數(shù)據(jù)分析要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來面目,以達(dá)到求真的目的。如果說,我們?cè)瓉硐抻诟鞣N條件只能根據(jù)有限的樣本數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的,那么 現(xiàn)在我們則可以在很多方面借助大數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的,關(guān)鍵就看我們開展數(shù)據(jù)分析的能力有多大,或者說利用大數(shù)據(jù)、從一切數(shù)據(jù)中提取有價(jià)值信息的能力有多大 ———因?yàn)榇髷?shù)據(jù)無疑增加了統(tǒng)計(jì)分析的難度,而這又首先取決于我們統(tǒng)計(jì)思維能否適應(yīng)大數(shù)據(jù)時(shí)代的變化。正如邁爾 – 舍恩伯格所說: 大數(shù)據(jù)發(fā)展的核心動(dòng)力就是人類測(cè)量、記錄和分析世界的渴望。

那么,統(tǒng)計(jì)思維應(yīng)該發(fā)生怎樣的變化? 筆者認(rèn)為主要要有如下三大變化:

( 一) 認(rèn)識(shí)數(shù)據(jù)的思維要變化

前面已經(jīng)提到,與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)不僅體量大、變化快,而且其來源、類型和量化方式都發(fā)生了根本性的變化,使得數(shù)據(jù)雜亂、多樣、不規(guī)整。

首先,從來源上看,傳統(tǒng)的數(shù)據(jù)收集因?yàn)榫哂泻軓?qiáng)的針對(duì)性,因此數(shù)據(jù)的提供者大多是確定的,身份特征是可識(shí)別的,有的還可以進(jìn)行事后核對(duì)。但 大數(shù)據(jù)通常來源于物聯(lián)網(wǎng),不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生,而是人們一切可記錄的信號(hào)( 當(dāng)然,任何信號(hào)的產(chǎn)生都有其目的,但它們是發(fā)散的) ,并且身份識(shí)別十分困難。從某種意義上講,大數(shù)據(jù)來源的微觀基礎(chǔ)是很難追溯的。

其次,從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù),即定量數(shù)據(jù)加上少量專門設(shè)計(jì)的定性數(shù)據(jù),格式化,有標(biāo)準(zhǔn),可以用常規(guī)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表 加以表現(xiàn)。但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),包括了一切可記錄、可存儲(chǔ)的信號(hào),多樣化、無標(biāo)準(zhǔn)、難以用傳統(tǒng)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加 以表現(xiàn)。同時(shí),不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識(shí)別方式,相互之間也沒用統(tǒng)一的數(shù)據(jù)分類標(biāo)準(zhǔn)。再者,現(xiàn)在有的數(shù)據(jù)庫是非關(guān)系型的數(shù)據(jù)庫,不需要預(yù)先設(shè)定記 錄結(jié)構(gòu)即可自動(dòng)包容大量各種各樣的數(shù)據(jù)。

第三,從量化方式上看,傳統(tǒng)數(shù)據(jù)的量化處理已經(jīng)有一整套較為完整的方式與過程,量化的結(jié)果可直接用于各種運(yùn)算與分析。但大數(shù)據(jù)中大量的非結(jié) 構(gòu)化數(shù)據(jù)如何量化( 結(jié)構(gòu)化) 、如何從中提取信息、如何與結(jié)構(gòu)化數(shù)據(jù)對(duì)接是一個(gè)嶄新的問題。正如Franks 所說: “幾乎沒有哪種分析過程能夠直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,也無法直接從非結(jié)構(gòu)化的數(shù)據(jù)中得出結(jié)論。”更為重要的是,“量化”的含義恐怕也不一樣了,即此 “量化”不一定等同于彼“量化”,量化結(jié)果的表現(xiàn)形式自然也不相同。顯然,我們不能套用已有的方式去量化非結(jié)構(gòu)化數(shù)據(jù)。

可以說,大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的,但我們不能因此而回避它、拒絕它,只能接納它、包容它。我們需要將統(tǒng)計(jì)研究的對(duì)象范圍從結(jié)構(gòu)型 數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù),需要重新思考數(shù)據(jù)的定義和分類方法,并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計(jì)分析方法。從某種意義上講,沒有無用的數(shù)據(jù),只有未被欣賞的數(shù)據(jù),關(guān) 鍵是我們從哪個(gè)角度看數(shù)據(jù)。

( 二) 收集數(shù)據(jù)的思維要變化

收集數(shù)據(jù)是開展統(tǒng)計(jì)分析的前提,“沒有黏土,如何做磚?”以往,收集統(tǒng)計(jì)數(shù)據(jù)的思維是先確定統(tǒng)計(jì)分析研究的目的,然后需要什么數(shù)據(jù)就收集什 么數(shù)據(jù),所以要精心設(shè)計(jì)調(diào)查方案,嚴(yán)格執(zhí)行每個(gè)流程,但往往是投入大而數(shù)據(jù)量有限。現(xiàn)在,我們擁有了大數(shù)據(jù),就等于擁有了超大量可選擇的數(shù)據(jù)———備選 “黏土”的體量與種類都極大地增加了,所要做的最重要的工作就是比較與選擇,因此我們的思維應(yīng)該是如何充分利用大數(shù)據(jù),凡是大數(shù)據(jù)源中能找到的數(shù)據(jù)就不再 需要進(jìn)行專門的調(diào)查。

但是,由于大數(shù)據(jù)來源與種類的多樣性,以及數(shù)據(jù)增加的快速性,我們?cè)谙硎軘?shù)據(jù)的豐富性的同時(shí)也不得不面臨這樣一些困境: 存儲(chǔ)能力夠不夠,分析能力夠不夠( 是否及時(shí)、充分) ,如何甄別數(shù)據(jù)的真?zhèn)?,如何選擇關(guān)聯(lián)物,如何提煉和利用數(shù)據(jù),如何確定分析節(jié)點(diǎn)? 現(xiàn)在 TB 級(jí)的數(shù)據(jù)庫已經(jīng)很多,PB 級(jí)的數(shù)據(jù)庫也不少見,以后還會(huì)出現(xiàn) EB、甚至 ZB、YB級(jí)的數(shù)據(jù)庫。今天的大數(shù)據(jù),明天就不再是大數(shù)據(jù)。這樣一來,電子存儲(chǔ)能力能否跟得上數(shù)據(jù)增加的速度就成為首要的問題。如果讓數(shù)據(jù)庫自動(dòng)更新就有 可能失去一些寶貴的數(shù)據(jù)信息,而到了一定級(jí)別以后擴(kuò)充存儲(chǔ)容量或?qū)?shù)據(jù)進(jìn)行拷貝,其代價(jià)是十分巨大的,因此我們不得不對(duì)數(shù)據(jù)進(jìn)行分類、篩選,有針對(duì)地刪除 那些垃圾數(shù)據(jù)、不重要或次重要的數(shù)據(jù)。如果說以前有針對(duì)地獲得數(shù)據(jù)叫做收集,那么今后有選擇地刪除數(shù)據(jù)就意味著收集。也就是說,大數(shù)據(jù)時(shí)代的數(shù)據(jù)收集將更 多的是從已有的超大量數(shù)據(jù)中進(jìn)行再過濾、再選擇。因此,我們要做好丟棄一部分?jǐn)?shù)據(jù)的準(zhǔn)備。

當(dāng)然,并不是任何數(shù)據(jù)都可以從現(xiàn)成的大數(shù)據(jù)中獲得,這里存在一個(gè)針對(duì)性、安全性和成本比較問題。因此,我們既要繼續(xù)采用傳統(tǒng)的方式方法去收 集特定需要的數(shù)據(jù),又要善于利用現(xiàn)代網(wǎng)絡(luò)信息技術(shù)和各種數(shù)據(jù)源去收集一切相關(guān)的數(shù)據(jù),并善于從大數(shù)據(jù)中進(jìn)行再過濾、再選擇。問題在于什么是無用的或不重要 的數(shù)據(jù)? 該如何過濾與選擇數(shù)據(jù)? 這就需要對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行重要性分析、真?zhèn)蝿e和關(guān)聯(lián)物定位。

此外,大的數(shù)據(jù)庫可能需要將信息分散在不同的硬盤或電腦上,這樣一來,在不能同步更新數(shù)據(jù)信息的情況下如何選擇、調(diào)用和匹配數(shù)據(jù)又是一個(gè)問題。因此從某種意義上講,從大數(shù)據(jù)中收集數(shù)據(jù)就是識(shí)別、整理、提煉、汲取( 刪除) 、分配和存儲(chǔ)元數(shù)據(jù)的過程。

( 三) 分析數(shù)據(jù)的思維要變化

基于上述兩個(gè)變化,數(shù)據(jù)分析的思維必然要跟著變化,那就是要主動(dòng)利用現(xiàn)代信息技術(shù)與各種軟件工具從大數(shù)據(jù)中挖掘出有價(jià)值的信息,并在這個(gè)過程中豐富和發(fā)展統(tǒng)計(jì)分析方法。

關(guān)于數(shù)據(jù)分析思維的變化,特別需要強(qiáng)調(diào)三點(diǎn):

第一,傳統(tǒng)的統(tǒng)計(jì)分析過程是“定性—定量—再定性”,第一個(gè)定性是為了找準(zhǔn)定量分析的方向,主要靠經(jīng)驗(yàn)判斷,這在數(shù)據(jù)短缺、分析運(yùn)算手段有 限的情況下很重要?,F(xiàn)在我們是在大數(shù)據(jù)中找礦,直接依賴數(shù)據(jù)分析做出判斷,因此基礎(chǔ)性的工作就是找到“定量的回應(yīng)”,這在存儲(chǔ)能力大為增強(qiáng)、分析技術(shù)與分 析速度大為提高的今天,探測(cè)“定量的回應(yīng)”變得越來越簡(jiǎn)單,所要做的就是直接從各種“定量的回應(yīng)”中找出那些真正的、重要的數(shù)量特征和數(shù)量關(guān)系,得出可以 作為判斷或決策依據(jù)的結(jié)論,因此統(tǒng)計(jì)分析的過程可以簡(jiǎn)化為“定量—定性”,從而大大提高得到新的定性結(jié)論的可能性。

第二,傳統(tǒng)的統(tǒng)計(jì)實(shí)證分析,一般都要先根據(jù)研究目的提出某種假設(shè),然后通過數(shù)據(jù)的收集與分析去驗(yàn)證該假設(shè)是否成立,其分析思路是“假設(shè)—驗(yàn) 證”,但這種驗(yàn)證往往由于受到假設(shè)的局限、指標(biāo)選擇的失當(dāng)、所需數(shù)據(jù)的缺失而得不出真正的結(jié)論。特別是,一旦假設(shè)本身不科學(xué)、不符合實(shí)際,那么分析結(jié)論就 毫無用處、甚至扭曲事實(shí)真相。事實(shí)證明,很多這樣的實(shí)證分析純粹是為了湊合假設(shè)?,F(xiàn)在,我們有了大數(shù)據(jù),可以不受任何假設(shè)的限制而從中去尋找關(guān)系、發(fā)現(xiàn)規(guī) 律,然后再加以總結(jié)、形成結(jié)論。也就是說,分析的思路是“發(fā)現(xiàn)—總結(jié)”。這將極大地豐富統(tǒng)計(jì)分析的資源與空間,有助于發(fā)現(xiàn)更多意外的“發(fā)現(xiàn)”。

第三,傳統(tǒng)的統(tǒng)計(jì)推斷分析,通常是基于分布理論,以一定的概率為保證,根據(jù)樣本特征去推斷總體特征,其邏輯關(guān)系是“分布理論—概率保證—總 體推斷”,推斷的評(píng)判標(biāo)準(zhǔn)與具體樣本無關(guān),但推斷是否正確卻取決于樣本的好壞。現(xiàn)在,大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù),總體特征不再需要根據(jù)分布理論進(jìn)行推斷,只 需進(jìn)行計(jì)數(shù)或計(jì)量處理即可。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實(shí)際分布來判斷其中出現(xiàn)某類情況的可能性有多大,其邏輯關(guān)系變成了“實(shí)際分布—總體特征—概率 判斷”,也即概率不再是事先預(yù)設(shè),而是基于實(shí)際分布得出的判斷。按照邁爾 -舍恩伯格的觀點(diǎn),這個(gè)概率判斷就可用于預(yù)測(cè)了。

伴隨著上述三大變化,統(tǒng)計(jì)分析評(píng)價(jià)的標(biāo)準(zhǔn)又該如何變化? 傳統(tǒng)統(tǒng)計(jì)分析的評(píng)價(jià)標(biāo)準(zhǔn)無非兩個(gè)方面,一是可靠性評(píng)價(jià),二是有效性評(píng)價(jià),而這兩種評(píng)價(jià)都因抽樣而生。所謂可靠性評(píng)價(jià)是指用樣本去推斷總體有多大的把握程 度,是以概率來度量的———有時(shí)表現(xiàn)為置信水平,有時(shí)表現(xiàn)為顯著性水平。特別是在假設(shè)檢驗(yàn)和模型擬合度評(píng)價(jià)中,顯著性水平怎么定是一個(gè)難題,一直存在爭(zhēng) 議,因?yàn)樗鶇⒄盏姆植碱愋筒煌浣y(tǒng)計(jì)量就不同,顯著性評(píng)價(jià)的臨界值就不同,而臨界值又與顯著性水平的高低直接相關(guān)。然而在大數(shù)據(jù)的背景下,大數(shù)據(jù)在一定程 度上就是全體數(shù)據(jù),我們可以對(duì)全體數(shù)據(jù)進(jìn)行計(jì)數(shù)或計(jì)量分析,這就不存在以樣本推斷總體的問題了,那么這時(shí)還有沒有可靠性的問題? 還要不要確定置信水平?怎么確定? 依據(jù)是什么? 如何比較來自不同容量數(shù)據(jù)庫的分析結(jié)論的可靠性?

所謂有效性評(píng)價(jià)指的是真實(shí)性,即誤差大小。這里又有兩個(gè)相關(guān)的概念: 準(zhǔn)確性與精確性。準(zhǔn)確性一般是指一個(gè)觀察值與真實(shí)值的吻合程度,通常情況下是無法做出測(cè)度的; 而精確性一般指樣本統(tǒng)計(jì)量分布的離散程度,以抽樣分布的標(biāo)準(zhǔn)差來衡量。很顯然,精確性是針對(duì)樣本數(shù)據(jù)而言的。也就是說樣本數(shù)據(jù)既有精確性問題又有準(zhǔn)確性問 題,樣本數(shù)據(jù)中的誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進(jìn)行計(jì)算和控制,而非抽樣誤差只能通過各種方式加以識(shí)別或判斷, 但多數(shù)情況下由于樣本量不是太大而可以得到較好的防范。但對(duì)于大數(shù)據(jù),由于它是全體數(shù)據(jù),因而不再有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的 真實(shí)性只表現(xiàn)為準(zhǔn)確性而非精確性。然而由于大數(shù)據(jù)是超大量數(shù)據(jù),再加上混雜性與多樣性,因此其非抽樣誤差很難防范與控制,這就使得準(zhǔn)確性評(píng)價(jià)問題變得更為 困難———如何測(cè)度? 標(biāo)準(zhǔn)怎樣?

編輯:張路麒
關(guān)鍵字:     新思維  大數(shù)據(jù)   
分享按鈕 综艺| 怀来县| 新绛县| 株洲市| 凤城市| 巴楚县| 定西市| 科技| 黑河市| 青海省| 绍兴县| 许昌市| 资源县| 府谷县| 普定县| 文昌市| 滨州市| 监利县| 彰武县| 霍邱县| 北海市| 山丹县| 理塘县| 岑巩县| 阿拉善左旗| 崇礼县| 依安县| 通榆县| 太仆寺旗| 玉林市| 昌图县| 朔州市| 汪清县| 鸡泽县| 师宗县| 衡阳市| 安义县| 永顺县| 九寨沟县| 曲周县| 大名县|