亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

用Python進行數(shù)據(jù)清洗以及值處理

 更新時間:2023年07月10日 10:34:40   作者:Python與Excel之交  
這篇文章主要介紹了用Python進行數(shù)據(jù)清洗以及值處理,數(shù)據(jù)分析中,數(shù)據(jù)清洗是一個必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大,致使數(shù)據(jù)不可避免的出現(xiàn)重復、缺失、異常值等異常數(shù)據(jù),如果忽視這些異常數(shù)據(jù),可能導致分析結(jié)果的準確性,需要的朋友可以參考下

數(shù)據(jù)清洗

數(shù)據(jù)分析中,數(shù)據(jù)清洗是一個必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大,致使數(shù)據(jù)不可避免的出現(xiàn)重復、缺失、格式錯誤等異常數(shù)據(jù),如果忽視這些異常數(shù)據(jù),可能導致分析結(jié)果的準確性。

用以下數(shù)據(jù)為例,進行講解數(shù)據(jù)清洗常用方式:

示例數(shù)據(jù)

下面的操作只做示例,具體數(shù)據(jù)的清洗方式要根據(jù)數(shù)據(jù)特性進行選擇!

重復值處理

重復值處理,一般采用直接刪除重復值的方式。在pandas中,可以用duplicated函數(shù)進行查看和drop_duplicates函數(shù)刪除重復數(shù)據(jù)。

如下所示,可以通過duplicated函數(shù)查看重復的數(shù)據(jù):

查看重復值

需要刪除重復值時,可直接用drop_duplicates函數(shù)完成:

刪除重復值

缺失值處理

缺失值與重復值一樣,都是數(shù)據(jù)中比較常見的問題,必須進行處理才能進行下一步分析,保證分析的準確性。缺失值在數(shù)據(jù)中一般用NaN表示,在處理缺失值時,一般采用刪除填補方式進行處理。但在實際中,缺失值的處理是一件非常困難的事情,刪除填補方式都無法解決,最后只能留著。

在pandas中,其有多種方式查看和處理缺失值的方法。

查看缺失值

最為基礎的可以通過isnullnotnul,或者info函數(shù)來實現(xiàn)。

info函數(shù)可以很清楚的知道每一列的缺失值情況,進而做出判斷處理:

在這里插入圖片描述

isnull函數(shù)為判斷序列元素是否為缺失,notnul函數(shù)判斷序列元素是否不為缺失,二者在本質(zhì)上是一樣的。而二者在數(shù)據(jù)量龐大時,效果很差。所以一般不會單獨使用,而是配合其它方法進行使用。

在這里插入圖片描述

查看某列缺失值所在的行:

在這里插入圖片描述

isnull函數(shù)配合sum函數(shù)計算每列缺失值的個數(shù):

在這里插入圖片描述

在多數(shù)查看缺失值中,經(jīng)常會采用計算缺失值在列中占比的方式,判斷缺失對數(shù)據(jù)具有多大的影響,從而選擇是刪除數(shù)據(jù)還是填補數(shù)據(jù)。計算占比可使用以下方式:

df.apply(lambda x: x.isnull().sum()/x.size)

x.size為各個數(shù)據(jù)列總行數(shù):

在這里插入圖片描述

缺失值刪除

刪除缺失值的情形,一般是在不會影響分析結(jié)果、造成的影響無傷大雅,或者難以填補的時候采用。

在pandas中,可以直接用dropna函數(shù)進行刪除所有含有缺失值的行,或者選擇性刪除含有缺失值到的行:

在這里插入圖片描述

缺失值填補

在無法直接刪除缺失值時,或者包含缺失值的行具有很多而無法選擇性刪除時,填補是最佳的選擇,但填補的方式要根據(jù)數(shù)據(jù)來選擇,否則填補的數(shù)據(jù)依然會影響分析的準確性。

在pandas中,可以使用fillna函數(shù)完成對缺失值的填補,例如對表中的體重列進行填補,填補方法為中位數(shù):

在這里插入圖片描述

或者用平均值填補:

在這里插入圖片描述

也可以用pandas中的ffill函數(shù)對缺失值進行前向填補,但在前向填補時需要注意各個列數(shù)據(jù)的情況:

在這里插入圖片描述

但可以看到,體重列的第一行未填補完成,而pandas中提供了bfill函數(shù)進行后向填補:

在這里插入圖片描述

數(shù)據(jù)類型轉(zhuǎn)換

數(shù)據(jù)類型關(guān)乎后面的數(shù)據(jù)處理和數(shù)據(jù)可視化,不同的數(shù)據(jù)類型處理和進行可視化的用法都不一樣,因此,事先把數(shù)據(jù)的類型轉(zhuǎn)換好,利于后面的相關(guān)步驟。

在pandas中,可以用infodtypes方法進行查看數(shù)據(jù)類型:

在這里插入圖片描述

常用的數(shù)據(jù)類型包括str(字符型)、float(浮點型)int(整型)。當某列數(shù)據(jù)的類型出現(xiàn)錯誤時,可通過astype函數(shù)進行強制轉(zhuǎn)換數(shù)據(jù)類型。

例如下面通過astype函數(shù)對數(shù)值型列轉(zhuǎn)換為字符型:

在這里插入圖片描述

文本處理

在數(shù)據(jù)中,文本在某種程度上可以說是最‘臟’的數(shù)據(jù),不管在錄入的數(shù)據(jù),還是爬取的數(shù)據(jù),總會出現(xiàn)各種各樣的‘臟’數(shù)據(jù),處理難度非常高。在處理中,主要是切分字符串、值替換。

pandas提供了df.str.split.str()方法對字符串的切割,以下通過此方法獲得地級市名稱:

在這里插入圖片描述

對于一些多數(shù)詞,可以通過df.str.replace()方法進行增加、替換或者刪除:

在這里插入圖片描述

到此這篇關(guān)于用Python進行數(shù)據(jù)清洗以及值處理的文章就介紹到這了,更多相關(guān)Python進行數(shù)據(jù)清洗內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python編程實現(xiàn)雙擊更新所有已安裝python模塊的方法

    Python編程實現(xiàn)雙擊更新所有已安裝python模塊的方法

    這篇文章主要介紹了Python編程實現(xiàn)雙擊更新所有已安裝python模塊的方法,涉及Python針對模塊操作命令的相關(guān)封裝與調(diào)用技巧,需要的朋友可以參考下
    2017-06-06
  • python批量下載圖片的三種方法

    python批量下載圖片的三種方法

    用python批量下載一個網(wǎng)頁中的圖片,需要用到擴展庫來解析html代碼
    2013-04-04
  • 用Django實現(xiàn)一個可運行的區(qū)塊鏈應用

    用Django實現(xiàn)一個可運行的區(qū)塊鏈應用

    這篇文章主要介紹了用Django實現(xiàn)一個可運行的區(qū)塊鏈應用,需要的朋友可以參考下
    2018-03-03
  • Python隨手筆記之標準類型內(nèi)建函數(shù)

    Python隨手筆記之標準類型內(nèi)建函數(shù)

    Python提供了一些內(nèi)建函數(shù)用于基本對象類型:cmp(),repr(),str(),type()和等同于repr()的(' ')操作符,本文給大家分享Python隨手筆記之標準類型內(nèi)建函數(shù),對python內(nèi)建函數(shù)相關(guān)知識感興趣的朋友一起學習吧
    2015-12-12
  • Python實現(xiàn)二叉樹前序、中序、后序及層次遍歷示例代碼

    Python實現(xiàn)二叉樹前序、中序、后序及層次遍歷示例代碼

    這篇文章主要給大家介紹了關(guān)于Python實現(xiàn)二叉樹前序、中序、后序及層次遍歷的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家學習或者使用Python具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧
    2019-05-05
  • Python裝飾器用法實例總結(jié)

    Python裝飾器用法實例總結(jié)

    這篇文章主要介紹了Python裝飾器用法,結(jié)合實例形式總結(jié)分析了Python常用裝飾器的概念、功能、使用方法及相關(guān)注意事項,需要的朋友可以參考下
    2018-02-02
  • 極速整理文件Python自動化辦公實用技巧

    極速整理文件Python自動化辦公實用技巧

    當涉及到自動化辦公和文件整理,Python確實是一個強大的工具,在這篇博客文章中,將深入探討極速整理文件!Python自動化辦公新利器這個話題,并提供更加豐富和全面的示例代碼,以便讀者更好地理解和運用這些技巧
    2024-01-01
  • Pandas?缺失數(shù)據(jù)處理代碼匯總

    Pandas?缺失數(shù)據(jù)處理代碼匯總

    這篇文章主要介紹了Pandas?缺失數(shù)據(jù)處理代碼匯總,在pandas中,缺失數(shù)據(jù)顯示為NaN。缺失值有3種表示方法,np.nan,none,pd.NA,更多相關(guān)介紹需要的朋友可以參考下面文章內(nèi)容
    2022-06-06
  • python實現(xiàn)協(xié)同過濾推薦算法完整代碼示例

    python實現(xiàn)協(xié)同過濾推薦算法完整代碼示例

    這篇文章主要介紹了python實現(xiàn)協(xié)同過濾推薦算法完整代碼示例,具有一定借鑒價值,需要的朋友可以參考下。
    2017-12-12
  • Pygame的程序開始示例代碼

    Pygame的程序開始示例代碼

    這篇文章主要介紹了Pygame的程序開始的示例代碼,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-05-05

最新評論