腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較

更新時間：2021年04月07日 09:51:46 作者：fatjimmy

這篇文章主要介紹了淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

數(shù)據(jù)修改主要以增刪改差為主，這里比較幾種寫法在數(shù)據(jù)處理時間上的巨大差別。

數(shù)據(jù)量大概是500萬行級別的數(shù)據(jù)，文件大小為100M。

1.iloc

iloc是一種速度極其慢的寫法。這里我們對每個csv文件中的每一行循環(huán)再用iloc處理，示例代碼如下：

for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用這種方法對五百萬行的數(shù)據(jù)進行處理大概需要5個小時，實在是很慢。

2.at

at相比于iloc有了很大的性能提升，也是for循環(huán)處理，示例代碼如下：

for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的，用at，程序的速度會有大幅提高，大概10分鐘，但是還不夠。

3.apply(lambda x:...)

想說apply是因為我覺得for循環(huán)速度太慢，想在循環(huán)上對程序進行優(yōu)化。然后網(wǎng)上有人說apply可以大幅度提升速度，然而經(jīng)過測試發(fā)現(xiàn)在我的程序里，使用apply和for差不多吧，性能也一般。

4.直接用series處理

這才是真正優(yōu)化for循環(huán)的方法，以上面at的程序為例，可以改寫為：

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()

將程序都改為series處理，快了很多，最后500萬行的數(shù)據(jù)大概需要37秒能跑完，基本符合預(yù)期。

這里提兩句關(guān)于dataframe屬性篩選，也就是上面df.attr > 0這一部分。首先pandas這個屬性篩選實在是很強大，很方便。

其次是我們屬性篩選的時候不要去修改屬性，而是修改后面的數(shù)字，比如，我們不要這樣寫：

float(df.attr )> 0，而是這樣寫：

df.attr > str(0)，因為df.attr作為屬性是不能隨便動的。

補充：pandas中DataFrame單個數(shù)據(jù)提取效率與修改效率

目標

使用pandas處理金融數(shù)據(jù)及建模中經(jīng)常需要按時間序列順序循DataFrame數(shù)據(jù)，讀取具體位置的數(shù)據(jù)判斷或修改。經(jīng)驗上這種操作要比直接對二維列表或者np.array格式數(shù)據(jù)慢的多，原因可能在于index及columns層次的查找（兩個字典，都不是連續(xù)數(shù)組，每次查找定位都需要時間）和DataFrame中數(shù)據(jù)的內(nèi)存布局，有機會以后再深入研究。

這里做一組數(shù)值實驗對比幾種方法的效率。

生成數(shù)據(jù)

先生成一個二維數(shù)組隨機數(shù)作為DataFrame數(shù)據(jù)，不失一般性，并把列名、行名設(shè)為標記順序的字符串。

import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后從限定范圍內(nèi)隨機生成取值位置，為了方便對比，把隨機坐標與字符串名對應(yīng)起來

columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

讀取測試

首先傳統(tǒng)方法，直接取columns及index中名稱定位

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐標，速度快了一些

t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法，速度和直接取columns及index中名稱定位差不多

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法，比loc快一點，畢竟loc可以切片的

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假設(shè)知道具體橫縱坐標后，我們再比較：

還是從取values開始，也很慢，看來每次從df中取values很耗時

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc試一下，沒什么區(qū)別

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做對比，提升不大，有點失望

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法，還是先取二維數(shù)組來再定位

t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改測試

重復(fù)剛才的過程，把對應(yīng)值改為0作為簡單測試方式，別忘了原始數(shù)據(jù)要備份

取columns及index中名稱定位

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐標

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法，在修改數(shù)值上竟然比loc快這么多

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改，也是不錯的，和讀取相近，看來還都是在每次提取values上耗時

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二維數(shù)組來再定位

df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

總結(jié)

效率上肯定是直接取數(shù)值最優(yōu)的，這次系統(tǒng)性比較做個記錄。代碼寫的有點啰嗦了，不過方便復(fù)制實驗。在建模級別的代碼上我還是習(xí)慣于用第2種方法，主要是鑒于代碼可讀性、維護和修改上。代碼會在key上告訴我這里是什么，直觀易讀。

以前也曾為了提高代碼運行效率寫過先提取二維數(shù)組的，但columns多了就很費勁，重讀還需要轉(zhuǎn)譯一遍。當然也可以把數(shù)據(jù)寫成類，但是感覺和pandas不好融合，從建模和研究效率上沒有太好的解決方案。之后會找時間再研究DataFrame內(nèi)部機制。

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較

1.iloc

2.at

3.apply(lambda x:...)

4.直接用series處理

目標

生成數(shù)據(jù)

讀取測試

修改測試

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具