Python Pandas對缺失值的處理方法
Pandas使用這些函數(shù)處理缺失值:
- isnull和notnull:檢測是否是空值,可用于df和series
- dropna:丟棄、刪除缺失值
- axis : 刪除行還是列,{0 or ‘index', 1 or ‘columns'}, default 0
- how : 如果等于any則任何值為空都刪除,如果等于all則所有值都為空才刪除
- inplace : 如果為True則修改當前df,否則返回新的df
- fillna:填充空值
- value:用于填充的值,可以是單個值,或者字典(key是列名,value是值)
- method : 等于ffill使用前一個不為空的值填充forword fill;等于bfill使用后一個不為空的值填充backword fill
- axis : 按行還是列填充,{0 or ‘index', 1 or ‘columns'}
- inplace : 如果為True則修改當前df,否則返回新的df
import pandas as pd
實例:特殊Excel的讀取、清洗、處理
步驟1:讀取excel的時候,忽略前幾個空行
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx", skiprows=2)
studf
Unnamed: 0 | 姓名 | 科目 | 分數(shù) | |
---|---|---|---|---|
0 | NaN | 小明 | 語文 | 85.0 |
1 | NaN | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | NaN | 英語 | 90.0 |
3 | NaN | NaN | NaN | NaN |
4 | NaN | 小王 | 語文 | 85.0 |
5 | NaN | NaN | 數(shù)學(xué) | NaN |
6 | NaN | NaN | 英語 | 90.0 |
7 | NaN | NaN | NaN | NaN |
8 | NaN | 小剛 | 語文 | 85.0 |
9 | NaN | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | NaN | 英語 | 90.0 |
步驟2:檢測空值
studf.isnull()
Unnamed: 0 | 姓名 | 科目 | 分數(shù) | |
---|---|---|---|---|
0 | True | False | False | False |
1 | True | True | False | False |
2 | True | True | False | False |
3 | True | True | True | True |
4 | True | False | False | False |
5 | True | True | False | True |
6 | True | True | False | False |
7 | True | True | True | True |
8 | True | False | False | False |
9 | True | True | False | False |
10 | True | True | False | False |
studf["分數(shù)"].isnull()
0 False 1 False 2 False 3 True 4 False 5 True 6 False 7 True 8 False 9 False 10 False Name: 分數(shù), dtype: bool
studf["分數(shù)"].notnull()
0 True 1 True 2 True 3 False 4 True 5 False 6 True 7 False 8 True 9 True 10 True Name: 分數(shù), dtype: bool
# 篩選沒有空分數(shù)的所有行 studf.loc[studf["分數(shù)"].notnull(), :]
Unnamed: 0 | 姓名 | 科目 | 分數(shù) | |
---|---|---|---|---|
0 | NaN | 小明 | 語文 | 85.0 |
1 | NaN | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | NaN | 英語 | 90.0 |
4 | NaN | 小王 | 語文 | 85.0 |
6 | NaN | NaN | 英語 | 90.0 |
8 | NaN | 小剛 | 語文 | 85.0 |
9 | NaN | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | NaN | 英語 | 90.0 |
步驟3:刪除掉全是空值的列
studf.dropna(axis="columns", how='all', inplace=True)
studf
姓名 | 科目 | 分數(shù) | |
---|---|---|---|
0 | 小明 | 語文 | 85.0 |
1 | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | 英語 | 90.0 |
3 | NaN | NaN | NaN |
4 | 小王 | 語文 | 85.0 |
5 | NaN | 數(shù)學(xué) | NaN |
6 | NaN | 英語 | 90.0 |
7 | NaN | NaN | NaN |
8 | 小剛 | 語文 | 85.0 |
9 | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | 英語 | 90.0 |
步驟4:刪除掉全是空值的行
studf.dropna(axis="index", how='all', inplace=True)
studf
姓名 | 科目 | 分數(shù) | |
---|---|---|---|
0 | 小明 | 語文 | 85.0 |
1 | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | 英語 | 90.0 |
4 | 小王 | 語文 | 85.0 |
5 | NaN | 數(shù)學(xué) | NaN |
6 | NaN | 英語 | 90.0 |
8 | 小剛 | 語文 | 85.0 |
9 | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | 英語 | 90.0 |
步驟5:將分數(shù)列為空的填充為0分
studf.fillna({"分數(shù)":0})
姓名 | 科目 | 分數(shù) | |
---|---|---|---|
0 | 小明 | 語文 | 85.0 |
1 | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | 英語 | 90.0 |
4 | 小王 | 語文 | 85.0 |
5 | NaN | 數(shù)學(xué) | 0.0 |
6 | NaN | 英語 | 90.0 |
8 | 小剛 | 語文 | 85.0 |
9 | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | 英語 | 90.0 |
# 等同于 studf.loc[:, '分數(shù)'] = studf['分數(shù)'].fillna(0)
studf
姓名 | 科目 | 分數(shù) | |
---|---|---|---|
0 | 小明 | 語文 | 85.0 |
1 | NaN | 數(shù)學(xué) | 80.0 |
2 | NaN | 英語 | 90.0 |
4 | 小王 | 語文 | 85.0 |
5 | NaN | 數(shù)學(xué) | 0.0 |
6 | NaN | 英語 | 90.0 |
8 | 小剛 | 語文 | 85.0 |
9 | NaN | 數(shù)學(xué) | 80.0 |
10 | NaN | 英語 | 90.0 |
步驟6:將姓名的缺失值填充
使用前面的有效值填充,用ffill:forward fill
studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")
studf
姓名 | 科目 | 分數(shù) | |
---|---|---|---|
0 | 小明 | 語文 | 85.0 |
1 | 小明 | 數(shù)學(xué) | 80.0 |
2 | 小明 | 英語 | 90.0 |
4 | 小王 | 語文 | 85.0 |
5 | 小王 | 數(shù)學(xué) | 0.0 |
6 | 小王 | 英語 | 90.0 |
8 | 小剛 | 語文 | 85.0 |
9 | 小剛 | 數(shù)學(xué) | 80.0 |
10 | 小剛 | 英語 | 90.0 |
步驟7:將清洗好的excel保存
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)
總結(jié)
以上就是我在處理客戶端真實IP的方法,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,謝謝大家對腳本之家的支持。
相關(guān)文章
Python實現(xiàn)批量將word轉(zhuǎn)html并將html內(nèi)容發(fā)布至網(wǎng)站的方法
這篇文章主要介紹了Python實現(xiàn)批量將word轉(zhuǎn)html并將html內(nèi)容發(fā)布至網(wǎng)站的方法,涉及Python調(diào)用第三方接口進行文件轉(zhuǎn)換及操作數(shù)據(jù)庫等相關(guān)技巧,具有一定參考借鑒價值,需要的朋友可以參考下2015-07-07Python計算一個給定時間點前一個月和后一個月第一天的方法
這篇文章主要介紹了Python計算一個給定時間點前一個月和后一個月第一天的方法,涉及Python使用datetime模塊計算日期時間的相關(guān)操作技巧,需要的朋友可以參考下2018-05-05python使用post提交數(shù)據(jù)到遠程url的方法
這篇文章主要介紹了python使用post提交數(shù)據(jù)到遠程url的方法,涉及Python使用post傳遞數(shù)據(jù)的相關(guān)技巧,需要的朋友可以參考下2015-04-04python語言線程標準庫threading.local解讀總結(jié)
在本篇文章里我們給各位整理了一篇關(guān)于python threading.local源碼解讀的相關(guān)文章知識點,有需要的朋友們可以學(xué)習(xí)下。2019-11-11Python 實現(xiàn)一個顏色色值轉(zhuǎn)換的小工具
這篇文章主要介紹了Python 實現(xiàn)一個顏色色值轉(zhuǎn)換的小工具的相關(guān)資料,需要的朋友可以參考下2016-12-12解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題
這篇文章主要介紹了解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06