腳本之家服務器常用軟件

快捷導航

DataFrame數據框模糊查詢與去重方式

更新時間：2024年09月10日 14:38:05 作者：呀～吼

數據框模糊查詢通常使用contains函數和正則表達式來實現(xiàn),可以查詢以某個字符開頭、包含或結尾的數據,若數據類型不一致可能會報錯,需統(tǒng)一為str類型,數據框去重則通過drop_duplicates函數實現(xiàn),可指定列進行去重,并有多種處理重復值的方式

1.數據框模糊查詢

數據框查詢使用contains函數+正則表達式來實現(xiàn)。

語法格式如下：

data[data.列名.str.contains()]

data[data.列名.str.contains('^某某')]

data[data.列名.str.contains('某某')]

data[data.列名.str.contains('某某$')]

上述DataFrame模糊查詢是針對某列數據元素格式全為str格式，方可使用該方法！

若遇到下面這樣的報錯：

ValueError: Cannot mask with non-boolean array containing NA / NaN values

可能某列數據元素格式不全是str格式，可能存在int格式等等，因此把某列的數據格式統(tǒng)一成str格式就可以了！

解決方法如下：

data['列名']=data['列名'].apply(str)#把非字符串格式改為字符串格式

data[data.source.str.contains('某某|某某1')]

data[-data.source.str.contains('某某|某某1')]

數據框去重使用drop_duplicates函數可以按某列去重，也可以按多列去重。

語法格式如下：

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

參數解析：

DataFrame：待去重的數據框。
subset：用來指定特定的列。根據指定的列對數據框去重。默認值為None，即DataFrame中一行元素全部相同時才去除。
keep：對重復值的處理方式?？蛇x參數有first,last,False。默認值first，即保留重復數據第一條。若選last為保留重復數據的最后一條，若選False則刪除全部重復數據。
inplace：是否在原數據集上操作。默認值False，返回新數據框(原數據框不改變)。值為True時直接在原數據視圖上刪重，沒有返回值。

data.drop_duplicates(subset='列名',keep='first',inplace=False)

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: