亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Pandas字符串操作的各種方法及速度測試

 更新時間:2023年08月23日 15:13:24   作者:Dr.?Mandar?Karhade  
這篇文章主要為大家介紹了Pandas字符串操作的各種方法及速度測試,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

引言

由于LLM的發(fā)展, 很多的數(shù)據(jù)集都是以DF的形式發(fā)布的,所以通過Pandas操作字符串的要求變得越來越高了,所以本文將對字符串操作方法進行基準測試,看看它們是如何影響pandas的性能的。因為一旦Pandas在處理數(shù)據(jù)時超過一定限制,它們的行為就會很奇怪。

我們用Faker創(chuàng)建了一個100,000行的測試數(shù)據(jù)。

測試方法

安裝:

!pip install faker

生成測試數(shù)據(jù)的方法很簡答:

import pandas as pd
 import numpy as np
 def gen_data(x):
   from faker import Faker
   fake = Faker()
   outdata = {}
   for i in range(0,x):
     outdata[i] = fake.profile()
   return pd.DataFrame(outdata).T
 n= 100000
 basedata = gen_data(n)

然后把Google Colab將輸出存儲在Google drive中

from google.colab import drive
 drive.mount('/content/drive')

創(chuàng)建了非常簡單的函數(shù)來測試連接兩個字符串的各種方法。

def process(a,b):
   return ''.join([a,b])
 
 def process(a,b):
   return a+b
 
 def process(a,b):
   return f"{a}"
 
 def process(a,b):
   return f"{a}"*100

創(chuàng)建一個空DF,編寫一個函數(shù)將輸出%%timeit作為一行添加到數(shù)據(jù)框中

# add a row to the dataframe using %%timeit output
 def add_to_df(n, m, x, outputdf):
   outputdf.loc[len(outputdf.index)] = [m, n, x]
 
 # output frame
 outputdf = pd.DataFrame(columns=['method', 'n', 'timing'])
 outputdf

然后就是運行上面的每個函數(shù)并將數(shù)據(jù)導出到pandas的代碼。

# get a sample of data
 n = 10000
 suffix = 'fstring_100x'
 data = basedata.copy().sample(n).reset_index()

記錄運行時間

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row in range(len(data)):
   data.at[row ,'newcol'] = process(data.at[row, 'job'], data.at[row, 'company'])
 # 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
 # <TimeitResult : 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)>

完整的函數(shù)調用

m = "Iterating over the rows"
 add_to_df(n = n, m = m, x = vars(_), outputdf = outputdf)

試驗

上面是代碼,下面開始用上面的代碼進行試驗:

Iterrows (pandas原生函數(shù))每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, item in data.iterrows():
   data.at[row ,'newcol'] = process(item['job'], item['company'])

Itertuples(由于不可變而更安全)每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, job, company in data[['job','company']].itertuples():
   data.at[row ,'newcol'] = process(job, company)

使用pandas原生函數(shù)作為字符串相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job + data.company

使用原生函數(shù)pandas. series .add

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job.add(data.company)

使用dataframe.apply

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.apply(lambda row: process(row['job'],row['company']), axis=1)

使用List Map

%%timeit -r 7 -n 1 -o
 data['newcol'] = list(map(process, data.job, data.company))

Pandas矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job, data.company)

numpy數(shù)組矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job.to_numpy(), data.company.to_numpy())

顯式在numpy數(shù)組上使用numpy向量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = np.vectorize(process)(data.job.to_numpy(), data.company.to_numpy())

優(yōu)化后的列表推導式

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 data['newcol'] =[process(i,j) for i,j in list(zip(data.job, data.company)) ]

最后是結果的輸出:

outputdf.to_csv(f"./drive/MyDrive/{n}_{suffix}.csv")

結果

結果如下所示。我用了上面3種不同函數(shù)測試了結果。

原生的字符串加法C = a+b

從1000行擴展到100,000行所需的時間;

可視化對比:

所有矢量化方法都非??欤襭andas標準的str.add對numpy數(shù)組也進行了矢量化。能夠看到Pandas的原生方法一般都是線性的。List-map似乎以N的平方根的速度增長

使用fstring: c = f " {a} "

使用fstring,結果很有趣,有的結果無法解釋。

時間

可視化

從時間上看,長度超過10,000的DF時,向量化是正確執(zhí)行的

下圖是第三個函數(shù),就是*100,這更能說明問題,向量化操作的基本上時間沒有變化

總結

通過上面的測試,我們可以總結一下結果:

1、還是老生常談的問題,不要使用iterrows(), itertuples(),盡量不要使用DataFrame.apply(),因為幾個函數(shù)還是循環(huán)遍歷的。

2、矢量化操作在字符串操作中也是可以使用的,但是為了安全起見,使用Numpy數(shù)組。

3、列表推導式就像它的名字一樣,它還是一個list

4、還有一些奇怪的無法解釋的問題,但是大部分的情況都是可以解釋的

以上就是Pandas字符串操作的各種方法及速度測試的詳細內(nèi)容,更多關于Pandas字符串操作的資料請關注腳本之家其它相關文章!

相關文章

  • Python中報錯 “TypeError: ‘list‘ object is not callable”問題及解決

    Python中報錯 “TypeError: ‘list‘ object is&n

    這篇文章主要介紹了Python中報錯 “TypeError: ‘list‘ object is not callable”問題及解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • python實現(xiàn)摳圖給證件照換背景源碼

    python實現(xiàn)摳圖給證件照換背景源碼

    這篇文章主要為大家詳細介紹了python實現(xiàn)摳圖給證件照換背景源碼,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-08-08
  • python可迭代對象去重實例

    python可迭代對象去重實例

    這篇文章主要介紹了python可迭代對象去重實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • python爬蟲獲取百度首頁內(nèi)容教學

    python爬蟲獲取百度首頁內(nèi)容教學

    在本篇內(nèi)容里小編給大家分享了關于python爬蟲獲取百度首頁內(nèi)容教學,需要的朋友們可以跟著學習下。
    2018-12-12
  • Python人工智能之混合高斯模型運動目標檢測詳解分析

    Python人工智能之混合高斯模型運動目標檢測詳解分析

    運動目標檢測是計算機視覺領域中的一個重要內(nèi)容,其檢測效果將會對目標跟蹤與識別造成一定的影響,本文將介紹用Python來進行混合高斯模型運動目標檢測,感興趣的朋友快來看看吧
    2021-11-11
  • python3?http.client?網(wǎng)絡請求方式

    python3?http.client?網(wǎng)絡請求方式

    這篇文章主要介紹了python3?http.client?網(wǎng)絡請求方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • Python實現(xiàn)提取XML內(nèi)容并保存到Excel中的方法

    Python實現(xiàn)提取XML內(nèi)容并保存到Excel中的方法

    這篇文章主要介紹了Python實現(xiàn)提取XML內(nèi)容并保存到Excel中的方法,涉及Python針對xml文件的讀取、解析以及Excel文件的寫入、保存等相關操作技巧,需要的朋友可以參考下
    2018-09-09
  • Python中range函數(shù)的使用方法

    Python中range函數(shù)的使用方法

    這篇文章主要介紹了Python中range函數(shù)的使用方法,文章基于Python3環(huán)境展開range函數(shù)的使用方法,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-05-05
  • python實現(xiàn)一次創(chuàng)建多級目錄的方法

    python實現(xiàn)一次創(chuàng)建多級目錄的方法

    這篇文章主要介紹了python實現(xiàn)一次創(chuàng)建多級目錄的方法,涉及Python中os模塊makedirs方法的使用技巧,非常簡單實用,需要的朋友可以參考下
    2015-05-05
  • Python表示矩陣的方法分析

    Python表示矩陣的方法分析

    這篇文章主要介紹了Python表示矩陣的方法,結合具體實例形式分析了Python表示矩陣的方法與相關操作注意事項,需要的朋友可以參考下
    2017-05-05

最新評論