數(shù)據(jù)清洗

 新聞資訊     |      2019-07-01 22:05:02

最近在看數(shù)據(jù)分析方面的資料,里面提到了“數(shù)據(jù)清洗”,數(shù)據(jù)清洗是在數(shù)據(jù)統(tǒng)計(jì)工作完成之后進(jìn)行的,我更愿意理解為數(shù)據(jù)校核,但它和校核又不同,數(shù)據(jù)校核僅僅是對(duì)數(shù)據(jù)的真實(shí)性、有效性進(jìn)行校驗(yàn),但數(shù)據(jù)清洗需要對(duì)不符合要求的數(shù)據(jù)進(jìn)行過濾,過濾的對(duì)象主要是殘缺的數(shù)據(jù),錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類。一般來說,數(shù)據(jù)清洗的過程都是由計(jì)算機(jī)來完成的。但其模型和算法又是通過人工設(shè)定的。

那這些又跟我們的工作有什么關(guān)系呢?我們知道,調(diào)度中心匯總了各種各樣的數(shù)據(jù),我們要對(duì)這些數(shù)據(jù)進(jìn)行分析,就要考慮由于設(shè)備、網(wǎng)絡(luò)、管網(wǎng)等種種原因,會(huì)造成某些數(shù)據(jù)殘缺、失效、重復(fù),所以我們也要進(jìn)行數(shù)據(jù)清洗的工作。過濾掉那些不符合要求的數(shù)據(jù)。對(duì)于殘缺的,重復(fù)的數(shù)據(jù),我們可以利用EXCEL進(jìn)行篩選,可對(duì)于錯(cuò)誤的數(shù)據(jù),就需要人工依靠經(jīng)驗(yàn)去辨別,往往一個(gè)分析結(jié)果出來,明顯異常,我們就會(huì)考慮某個(gè)數(shù)據(jù)是不是錯(cuò)了,這個(gè)時(shí)候,再回到原始數(shù)據(jù)中去查找。顯而易見,這種方式是費(fèi)時(shí)費(fèi)力的。為了避免這種低效的工作方法,我們可以創(chuàng)建一個(gè)篩選模型,設(shè)定每個(gè)數(shù)據(jù)的標(biāo)準(zhǔn)范圍,當(dāng)超出這個(gè)范圍時(shí),讓該數(shù)據(jù)突出顯示。在硬件條件允許時(shí),我們甚至利用不同的算法模型進(jìn)行交叉比對(duì)。讓異常數(shù)據(jù)無所遁形。

數(shù)據(jù)分析對(duì)我們每個(gè)人的工作都有幫助,數(shù)據(jù)分析的應(yīng)用場(chǎng)景十分廣泛,也存在數(shù)據(jù)分析師這個(gè)職業(yè),但有人預(yù)言,數(shù)據(jù)分析師這個(gè)職業(yè)是遲早要消失的,因?yàn)樗且豁?xiàng)技能,應(yīng)該會(huì)被越來越的人掌握,正如PPT一樣,很多人都會(huì)做PPT,所以也不會(huì)存在“PPT制作師”這個(gè)職業(yè)了。

(調(diào)度中心  邱石磊)