快捷導(dǎo)航

用Python進(jìn)行數(shù)據(jù)清洗以及值處理

更新時(shí)間：2023年07月10日 10:34:40 作者：Python與Excel之交

這篇文章主要介紹了用Python進(jìn)行數(shù)據(jù)清洗以及值處理,數(shù)據(jù)分析中，數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大，致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、異常值等異常數(shù)據(jù)，如果忽視這些異常數(shù)據(jù)，可能導(dǎo)致分析結(jié)果的準(zhǔn)確性,需要的朋友可以參考下

數(shù)據(jù)清洗

數(shù)據(jù)分析中，數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大，致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù)，如果忽視這些異常數(shù)據(jù)，可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。

用以下數(shù)據(jù)為例，進(jìn)行講解數(shù)據(jù)清洗常用方式：

示例數(shù)據(jù)

下面的操作只做示例，具體數(shù)據(jù)的清洗方式要根據(jù)數(shù)據(jù)特性進(jìn)行選擇！

重復(fù)值處理

重復(fù)值處理，一般采用直接刪除重復(fù)值的方式。在pandas中，可以用duplicated函數(shù)進(jìn)行查看和drop_duplicates函數(shù)刪除重復(fù)數(shù)據(jù)。

如下所示，可以通過duplicated函數(shù)查看重復(fù)的數(shù)據(jù):

查看重復(fù)值

需要?jiǎng)h除重復(fù)值時(shí)，可直接用drop_duplicates函數(shù)完成：

刪除重復(fù)值

缺失值處理

缺失值與重復(fù)值一樣，都是數(shù)據(jù)中比較常見的問題，必須進(jìn)行處理才能進(jìn)行下一步分析，保證分析的準(zhǔn)確性。缺失值在數(shù)據(jù)中一般用NaN表示，在處理缺失值時(shí)，一般采用刪除和填補(bǔ)方式進(jìn)行處理。但在實(shí)際中，缺失值的處理是一件非常困難的事情，刪除和填補(bǔ)方式都無法解決，最后只能留著。

在pandas中，其有多種方式查看和處理缺失值的方法。

查看缺失值

最為基礎(chǔ)的可以通過isnull和notnul，或者info函數(shù)來實(shí)現(xiàn)。

用info函數(shù)可以很清楚的知道每一列的缺失值情況，進(jìn)而做出判斷處理：

在這里插入圖片描述

isnull函數(shù)為判斷序列元素是否為缺失，notnul函數(shù)判斷序列元素是否不為缺失，二者在本質(zhì)上是一樣的。而二者在數(shù)據(jù)量龐大時(shí)，效果很差。所以一般不會(huì)單獨(dú)使用，而是配合其它方法進(jìn)行使用。

在這里插入圖片描述

查看某列缺失值所在的行：

在這里插入圖片描述

isnull函數(shù)配合sum函數(shù)計(jì)算每列缺失值的個(gè)數(shù)：

在這里插入圖片描述

在多數(shù)查看缺失值中，經(jīng)常會(huì)采用計(jì)算缺失值在列中占比的方式，判斷缺失對(duì)數(shù)據(jù)具有多大的影響，從而選擇是刪除數(shù)據(jù)還是填補(bǔ)數(shù)據(jù)。計(jì)算占比可使用以下方式：

df.apply(lambda x: x.isnull().sum()/x.size)

x.size為各個(gè)數(shù)據(jù)列總行數(shù)：

在這里插入圖片描述

缺失值刪除

刪除缺失值的情形，一般是在不會(huì)影響分析結(jié)果、造成的影響無傷大雅，或者難以填補(bǔ)的時(shí)候采用。

在pandas中，可以直接用dropna函數(shù)進(jìn)行刪除所有含有缺失值的行，或者選擇性刪除含有缺失值到的行：

在這里插入圖片描述

缺失值填補(bǔ)

在無法直接刪除缺失值時(shí)，或者包含缺失值的行具有很多而無法選擇性刪除時(shí)，填補(bǔ)是最佳的選擇，但填補(bǔ)的方式要根據(jù)數(shù)據(jù)來選擇，否則填補(bǔ)的數(shù)據(jù)依然會(huì)影響分析的準(zhǔn)確性。

在pandas中，可以使用fillna函數(shù)完成對(duì)缺失值的填補(bǔ)，例如對(duì)表中的體重列進(jìn)行填補(bǔ)，填補(bǔ)方法為中位數(shù)：

在這里插入圖片描述

或者用平均值填補(bǔ)：

在這里插入圖片描述

也可以用pandas中的ffill函數(shù)對(duì)缺失值進(jìn)行前向填補(bǔ)，但在前向填補(bǔ)時(shí)需要注意各個(gè)列數(shù)據(jù)的情況：

在這里插入圖片描述

但可以看到，體重列的第一行未填補(bǔ)完成，而pandas中提供了bfill函數(shù)進(jìn)行后向填補(bǔ)：

在這里插入圖片描述

數(shù)據(jù)類型轉(zhuǎn)換

數(shù)據(jù)類型關(guān)乎后面的數(shù)據(jù)處理和數(shù)據(jù)可視化，不同的數(shù)據(jù)類型處理和進(jìn)行可視化的用法都不一樣，因此，事先把數(shù)據(jù)的類型轉(zhuǎn)換好，利于后面的相關(guān)步驟。

在pandas中，可以用info和dtypes方法進(jìn)行查看數(shù)據(jù)類型:

在這里插入圖片描述

常用的數(shù)據(jù)類型包括str（字符型）、float（浮點(diǎn)型）和int（整型）。當(dāng)某列數(shù)據(jù)的類型出現(xiàn)錯(cuò)誤時(shí)，可通過astype函數(shù)進(jìn)行強(qiáng)制轉(zhuǎn)換數(shù)據(jù)類型。

例如下面通過astype函數(shù)對(duì)數(shù)值型列轉(zhuǎn)換為字符型：

在這里插入圖片描述

文本處理

在數(shù)據(jù)中，文本在某種程度上可以說是最‘臟’的數(shù)據(jù)，不管在錄入的數(shù)據(jù)，還是爬取的數(shù)據(jù)，總會(huì)出現(xiàn)各種各樣的‘臟’數(shù)據(jù)，處理難度非常高。在處理中，主要是切分字符串、值替換。

pandas提供了df.str.split.str()方法對(duì)字符串的切割，以下通過此方法獲得地級(jí)市名稱：

在這里插入圖片描述

對(duì)于一些多數(shù)詞，可以通過df.str.replace()方法進(jìn)行增加、替換或者刪除：

在這里插入圖片描述

到此這篇關(guān)于用Python進(jìn)行數(shù)據(jù)清洗以及值處理的文章就介紹到這了,更多相關(guān)Python進(jìn)行數(shù)據(jù)清洗內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: