Pandas 中的 drop_duplicates()詳解
Pandas 中的 drop_duplicates()
Pandas 中的 drop_duplicates() 函數(shù)用于從 DataFrame 中刪除重復(fù)的行。該函數(shù)有一些參數(shù),允許你進(jìn)行不同方式的重復(fù)行處理。以下是 drop_duplicates() 函數(shù)的主要參數(shù)解析:
subset(可選參數(shù)):
作用:指定要考慮重復(fù)的列。
默認(rèn)值:None,表示考慮整個(gè)行的重復(fù)。
示例:df.drop_duplicates(subset=[‘column1’, ‘column2’])
keep(可選參數(shù)):
作用:指定保留哪些重復(fù)行。
可選值:‘first’:保留第一次出現(xiàn)的重復(fù)行(默認(rèn)值)。
‘last’:保留最后一次出現(xiàn)的重復(fù)行。
False:刪除所有重復(fù)行,不保留任何重復(fù)行。示例:df.drop_duplicates(keep=‘last’)
inplace(可選參數(shù)):
作用:如果設(shè)置為 True,將在原始 DataFrame 上執(zhí)行刪除操作,不返回新的 DataFrame。
默認(rèn)值:False,表示返回一個(gè)新的 DataFrame,原始 DataFrame 不受影響。
示例:df.drop_duplicates(inplace=True)
ignore_index(可選參數(shù)):
作用:如果設(shè)置為 True,刪除后的 DataFrame 將重新索引,以便索引從零開(kāi)始。
默認(rèn)值:False。
示例:df.drop_duplicates(ignore_index=True)
subset 和 keep 參數(shù)的組合:
通常,subset 參數(shù)用于指定要考慮重復(fù)的列,而 keep 參數(shù)用于控制保留哪些重復(fù)行。例如,df.drop_duplicates(subset=[‘column1’, ‘column2’], keep=‘last’) 表示在 ‘column1’ 和 ‘column2’ 列上考慮重復(fù),但保留最后一次出現(xiàn)的重復(fù)行。
drop_duplicates() 函數(shù)通常用于數(shù)據(jù)清洗,以刪除數(shù)據(jù)中的重復(fù)記錄,以便進(jìn)行分析或建模。
你可以根據(jù)具體的需求使用不同的參數(shù)組合來(lái)執(zhí)行不同的重復(fù)行處理操作。
補(bǔ)充:
Pandas-去重函數(shù)drop_duplicates()詳解
Panda DataFrame 對(duì)象提供了一個(gè)數(shù)據(jù)去重的函數(shù) drop_duplicates(),本節(jié)對(duì)該函數(shù)的用法做詳細(xì)介紹。
格式介紹
drop_duplicates()函數(shù)的語(yǔ)法格式如下:
data.drop_duplicates(subset=['a','b','b'],keep='first',inplace=True)
參數(shù)說(shuō)明如下:
subset:表示要進(jìn)去重的列名,默認(rèn)為 None。
keep:有三個(gè)可選參數(shù),分別是 first、last、False,默認(rèn)為 first,表示只保留第一次出現(xiàn)的重復(fù)項(xiàng),刪除其余重復(fù)項(xiàng),last 表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse 則表示刪除所有重復(fù)項(xiàng)。
inplace:布爾值參數(shù),默認(rèn)為 False 表示刪除重復(fù)項(xiàng)后返回一個(gè)副本,若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。
示例數(shù)據(jù)
代碼:
import pandas as pd data = pd.DataFrame({ 'a':[2,1,1,1,1,1,2], 'b':[1,3,2,4,1,1,5], 'c':[1,3,2,4,1,1,3], 'd':[1,3,2,4,1,1,8] }) print (data)
打印結(jié)果
實(shí)際應(yīng)用
1、默認(rèn)保留第一次出現(xiàn)的重復(fù)項(xiàng)
代碼:
import pandas as pd data = pd.DataFrame({ 'a':[2,1,1,1,1,1,2], 'b':[1,3,2,4,1,1,5], 'c':[1,3,2,4,1,1,3], 'd':[1,3,2,4,1,1,8] }) data_del = data.drop_duplicates() print (data_del)
打印結(jié)果
2、刪除所有重復(fù)項(xiàng)
代碼:
import pandas as pd data = pd.DataFrame({ 'a':[2,1,1,1,1,1,2], 'b':[1,3,2,4,1,1,5], 'c':[1,3,2,4,1,1,3], 'd':[1,3,2,4,1,1,8] }) data_del = data.drop_duplicates(keep=False) print (data_del)
打印結(jié)果
3、根據(jù)指定列標(biāo)簽去重
代碼:
import pandas as pd data = pd.DataFrame({ 'a':[2,1,1,1,1,1,2], 'b':[1,3,2,4,1,1,5], 'c':[1,3,2,4,1,1,3], 'd':[1,3,2,4,1,1,8] }) data_del = data.drop_duplicates(subset=['b'],keep=False) print (data_del)
打印結(jié)果
4、指定多列同時(shí)去重
代碼:
import pandas as pd data = pd.DataFrame({ 'a':[2,1,1,1,1,1,2], 'b':[1,3,2,4,1,1,5], 'c':[1,3,2,4,1,1,3], 'd':[1,3,2,4,1,1,8] }) data_del = data.drop_duplicates(subset=['b','c'],keep=False) print (data_del)
打印結(jié)果
到此這篇關(guān)于Pandas 中的 drop_duplicates()的文章就介紹到這了,更多相關(guān)Pandas drop_duplicates()內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python實(shí)現(xiàn)給qq郵箱發(fā)送郵件的方法
這篇文章主要介紹了Python實(shí)現(xiàn)給qq郵箱發(fā)送郵件的方法,涉及Python郵件發(fā)送的相關(guān)技巧,需要的朋友可以參考下2015-05-05python無(wú)限生成不重復(fù)(字母,數(shù)字,字符)組合的方法
今天小編就為大家分享一篇python無(wú)限生成不重復(fù)(字母,數(shù)字,字符)組合的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12Python實(shí)現(xiàn)解析Html的方法與對(duì)比
在最近需要的需求中,需要?python?獲取網(wǎng)頁(yè)內(nèi)容,并從html中獲取到想要的內(nèi)容,本文主要介紹了兩種常用方法并進(jìn)行了對(duì)比,感興趣的可以了解下2024-03-03Python獲取、格式化當(dāng)前時(shí)間日期的方法
在本篇文章里小編給大家整理的是關(guān)于Python獲取、格式化當(dāng)前時(shí)間日期的方法,對(duì)此有需要的朋友們可以學(xué)習(xí)參考下。2020-02-02python 自動(dòng)化將markdown文件轉(zhuǎn)成html文件的方法
這篇文章主要介紹了python 自動(dòng)化將markdown文件轉(zhuǎn)成html文件的方法的相關(guān)資料,本文介紹的非常詳細(xì),具有參考借鑒價(jià)值,需要的朋友可以參考下2016-09-09利用Python實(shí)現(xiàn)生成并識(shí)別圖片驗(yàn)證碼
這篇文章主要為大家的詳細(xì)介紹了如何利用Python實(shí)現(xiàn)生成并識(shí)別圖片驗(yàn)證碼,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-02-02