Pandas的Apply函數(shù)具體使用
Pandas最好用的函數(shù)
Pandas是Python
語言中非常好用的一種數(shù)據(jù)結(jié)構(gòu)包,包含了許多有用的數(shù)據(jù)操作方法。而且很多算法相關(guān)的庫函數(shù)的輸入數(shù)據(jù)結(jié)構(gòu)都要求是pandas
數(shù)據(jù),或者有該數(shù)據(jù)的接口。
仔細(xì)看pandas的API說明文檔,就會(huì)發(fā)現(xiàn)有好多有用的函數(shù),比如非常常用的文件的讀寫函數(shù)就包括如下函數(shù):
Format Type | Data Description | Reader | Writer |
---|---|---|---|
text | CSV | read_csv | to_csv |
text | JSON | read_json | to_json |
text | HTML | read_html | to_html |
text | Local clipboard | read_clipboard | to_clipboard |
binary | MS Excel | read_excel | to_excel |
binary | HDF5 Format | read_hdf | to_hdf |
binary | Feather Format | read_feather | to_feather |
binary | Parquet Format | read_parquet | to_parquet |
binary | Msgpack | read_msgpack | to_msgpack |
binary | Stata | read_stata | to_stata |
binary | SAS | read_sas | |
binary | Python Pickle Format | read_pickle | to_pickle |
SQL | SQL | read_sql | to_sql |
SQL | Google Big Query | read_gbq | to_gbq |
讀取數(shù)據(jù)后,對(duì)于數(shù)據(jù)處理來說,有好多有用的相關(guān)操作的函數(shù),但是我認(rèn)為其中最好用的函數(shù)是下面這個(gè)函數(shù):
apply函數(shù)
apply函數(shù)是`pandas`里面所有函數(shù)中自由度最高的函數(shù)。該函數(shù)如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
該函數(shù)最有用的是第一個(gè)參數(shù),這個(gè)參數(shù)是函數(shù),相當(dāng)于C/C++
的函數(shù)指針。
這個(gè)函數(shù)需要自己實(shí)現(xiàn),函數(shù)的傳入?yún)?shù)根據(jù)axis
來定,比如axis = 1
,就會(huì)把一行數(shù)據(jù)作為Series
的數(shù)據(jù)結(jié)構(gòu)傳入給自己實(shí)現(xiàn)的函數(shù)中,我們?cè)诤瘮?shù)中實(shí)現(xiàn)對(duì)Series
不同屬性之間的計(jì)算,返回一個(gè)結(jié)果,則apply
函數(shù)會(huì)自動(dòng)遍歷每一行DataFrame
的數(shù)據(jù),最后將所有結(jié)果組合成一個(gè)Series
數(shù)據(jù)結(jié)構(gòu)并返回。
比如讀取一個(gè)表格:
假如我們想要得到表格中的PublishedTime
和ReceivedTime
屬性之間的時(shí)間差數(shù)據(jù),就可以使用下面的函數(shù)來實(shí)現(xiàn):
import pandas as pd import datetime #用來計(jì)算日期差的包 def dataInterval(data1,data2): d1 = datetime.datetime.strptime(data1, '%Y-%m-%d') d2 = datetime.datetime.strptime(data2, '%Y-%m-%d') delta = d1 - d2 return delta.days def getInterval(arrLike): #用來計(jì)算日期間隔天數(shù)的調(diào)用的函數(shù) PublishedTime = arrLike['PublishedTime'] ReceivedTime = arrLike['ReceivedTime'] # print(PublishedTime.strip(),ReceivedTime.strip()) days = dataInterval(PublishedTime.strip(),ReceivedTime.strip()) #注意去掉兩端空白 return days if __name__ == '__main__': fileName = "NS_new.xls"; df = pd.read_excel(fileName) df['TimeInterval'] = df.apply(getInterval , axis = 1)
有時(shí)候,我們想給自己實(shí)現(xiàn)的函數(shù)傳遞參數(shù),就可以用的apply
函數(shù)的*args
和**kwds
參數(shù),比如同樣的時(shí)間差函數(shù),我希望自己傳遞時(shí)間差的標(biāo)簽,這樣沒次標(biāo)簽更改就不用修改自己實(shí)現(xiàn)的函數(shù)了,實(shí)現(xiàn)代碼如下:
import pandas as pd import datetime #用來計(jì)算日期差的包 def dataInterval(data1,data2): d1 = datetime.datetime.strptime(data1, '%Y-%m-%d') d2 = datetime.datetime.strptime(data2, '%Y-%m-%d') delta = d1 - d2 return delta.days def getInterval_new(arrLike,before,after): #用來計(jì)算日期間隔天數(shù)的調(diào)用的函數(shù) before = arrLike[before] after = arrLike[after] # print(PublishedTime.strip(),ReceivedTime.strip()) days = dataInterval(after.strip(),before.strip()) #注意去掉兩端空白 return days if __name__ == '__main__': fileName = "NS_new.xls"; df = pd.read_excel(fileName) df['TimeInterval'] = df.apply(getInterval_new , axis = 1, args = ('ReceivedTime','PublishedTime')) #調(diào)用方式一 #下面的調(diào)用方式等價(jià)于上面的調(diào)用方式 df['TimeInterval'] = df.apply(getInterval_new , axis = 1, **{'before':'ReceivedTime','after':'PublishedTime'}) #調(diào)用方式二 #下面的調(diào)用方式等價(jià)于上面的調(diào)用方式 df['TimeInterval'] = df.apply(getInterval_new , axis = 1, before='ReceivedTime',after='PublishedTime') #調(diào)用方式三
修改后的getInterval_new
函數(shù)多了兩個(gè)參數(shù),這樣我們?cè)谑褂?code>apply函數(shù)的時(shí)候要自己傳遞參數(shù),代碼中顯示的三種傳遞方式都行。
最后,本篇的全部代碼在下面這個(gè)網(wǎng)頁可以下載:
https://github.com/Dongzhixiao/Python_Exercise/tree/master/pandas_apply
到此這篇關(guān)于Pandas的Apply函數(shù)具體使用的文章就介紹到這了,更多相關(guān)Pandas Apply函數(shù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
基于Python 的進(jìn)程管理工具supervisor使用指南
Supervisor 是基于 Python 的進(jìn)程管理工具,可以輕松管理一些需要以守護(hù)進(jìn)程方式執(zhí)行的程序,也就是后臺(tái)任務(wù),例如用來啟動(dòng)和管理基于 Tornado 寫的 Web 程序。2016-09-09Python中列表索引 A[ : 2 ]與A[ : ,&nb
這篇文章主要介紹了Python中列表索引 A[ : 2 ]與A[ : , 2]的區(qū)別說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-05-05python中DataFrame常用的描述性統(tǒng)計(jì)分析方法詳解
這篇文章主要介紹了python中DataFrame常用的描述性統(tǒng)計(jì)分析方法詳解,描述性統(tǒng)計(jì)分析是通過圖表或數(shù)學(xué)方法,對(duì)數(shù)據(jù)資料進(jìn)行整理、分析,并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間的關(guān)系進(jìn)行估計(jì)和描述的方法,需要的朋友可以參考下2023-07-07Python實(shí)現(xiàn)的銀行系統(tǒng)模擬程序完整案例
這篇文章主要介紹了Python實(shí)現(xiàn)的銀行系統(tǒng)模擬程序,結(jié)合完整實(shí)例形式分析了Python基于面向?qū)ο蟪绦蛟O(shè)計(jì)模擬的銀行系統(tǒng)登錄驗(yàn)證、開戶、找回密碼、掛失、查詢、存取款、轉(zhuǎn)賬等功能相關(guān)操作技巧,需要的朋友可以參考下2019-04-04手把手教你用Python打造互動(dòng)式中秋節(jié)慶祝小程序
中秋節(jié)將至,本文提供了一個(gè)使用Python開發(fā)的中秋節(jié)慶祝小程序教程,通過簡(jiǎn)單的步驟,您可以創(chuàng)建一個(gè)具有節(jié)日祝福、互動(dòng)式燈謎游戲和模擬中秋明月動(dòng)態(tài)背景的小程序,文章詳細(xì)介紹了程序的功能、實(shí)現(xiàn)步驟以及如何運(yùn)行程序,需要的朋友可以參考下2024-09-09python上selenium的彈框操作實(shí)現(xiàn)
這篇文章主要介紹了python上selenium的彈框操作實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-07-07python進(jìn)程和線程用法知識(shí)點(diǎn)總結(jié)
在本篇文章里小編給大家整理了關(guān)于python進(jìn)程和線程用法以及相關(guān)實(shí)例內(nèi)容,需要的朋友們跟著學(xué)習(xí)下。2019-05-05