python中使用矢量化替換循環(huán)詳解
所有編程語言都離不開循環(huán)。因此,默認情況下,只要有重復操作,我們就會開始執(zhí)行循環(huán)。但是當我們處理大量迭代(數(shù)百萬/十億行)時,使用循環(huán)是一種犯罪。您可能會被困幾個小時,后來才意識到它行不通。這就是在 python 中實現(xiàn)矢量化變得非常關鍵的地方。
什么是矢量化?
矢量化是在數(shù)據(jù)集上實現(xiàn) (NumPy) 數(shù)組操作的技術。在后臺,它將操作一次性應用于數(shù)組或系列的所有元素(不同于一次操作一行的“for”循環(huán))。
接下來我們使用一些用例來演示什么是矢量化。
求數(shù)字之和
##使用循環(huán) import time start = time.time() # iterative sum total = 0 # iterating through 1.5 Million numbers for item in range(0, 1500000): total = total + item print('sum is:' + str(total)) end = time.time() print(end - start) #1124999250000 #0.14 Seconds
## 使用矢量化 import numpy as np start = time.time() # vectorized sum - using numpy for vectorization # np.arange create the sequence of numbers from 0 to 1499999 print(np.sum(np.arange(1500000))) end = time.time() print(end - start) ##1124999250000 ##0.008 Seconds
與使用范圍函數(shù)的迭代相比,矢量化的執(zhí)行時間減少了約 18 倍。在使用 Pandas DataFrame 時,這種差異將變得更加顯著。
數(shù)學運算
在數(shù)據(jù)科學中,在使用 Pandas DataFrame 時,開發(fā)人員使用循環(huán)通過數(shù)學運算創(chuàng)建新的派生列。
在下面的示例中,我們可以看到對于此類用例,用矢量化替換循環(huán)是多么容易。
DataFrame 是行和列形式的表格數(shù)據(jù)。
我們創(chuàng)建一個具有 500 萬行和 4 列的 pandas DataFrame,其中填充了 0 到 50 之間的隨機值。
import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint( 0 , 50 , size=( 5000000 , 4 )), columns=( 'a' , 'b' , 'c' , 'd ' )) df.shape # (5000000, 5) df.head()
創(chuàng)建一個新列“ratio”來查找列“d”和“c”的比率。
## 循環(huán)遍歷 import time start = time.time() # 使用 iterrows 遍歷 DataFrame for idx, row in df.iterrows(): # 創(chuàng)建一個新列 df.at[idx, 'ratio' ] = 100 * (row[ "d" ] / row[ "c" ]) end = time.time() print (end - start) ### 109 秒
## 使用矢量化 start = time.time() df[ "ratio" ] = 100 * (df[ "d" ] / df[ "c" ]) end = time.time() print (end - start) ### 0.12 秒
我們可以看到 DataFrame 的顯著改進,與Python 中的循環(huán)相比,矢量化操作所花費的時間幾乎快 1000 倍。
If-else 語句
我們實現(xiàn)了很多需要我們使用“If-else”類型邏輯的操作。我們可以輕松地將這些邏輯替換為 python 中的矢量化操作。
讓我們看下面的例子來更好地理解它(我們將使用我們在用例 2 中創(chuàng)建的 DataFrame):
想象一下,我們要根據(jù)現(xiàn)有列“a”上的某些條件創(chuàng)建一個新列“e”
## 使用循環(huán) import time start = time.time() # 使用 iterrows 遍歷 DataFrame for idx, row in df.iterrows(): if row.a == 0 : df.at[idx, 'e' ] = row.d elif ( row.a <= 25 ) & (row.a > 0 ): df.at[idx, 'e' ] = (row.b)-(row.c) else : df.at[idx, 'e' ] = row.b + row.c end = time.time() print (end - start) ### 耗時:166 秒
## 矢量化 start = time.time() df[ 'e' ] = df[ 'b' ] + df[ 'c' ] df.loc[df[ 'a' ] <= 25 , 'e' ] = df [ 'b' ] -df[ 'c' ] df.loc[df[ 'a' ]== 0 , 'e' ] = df[ 'd' ]end = time.time() 打?。ńY束 - 開始) ## 0.29007707595825195 秒
與使用 if-else 語句的 python 循環(huán)相比,向量化操作所花費的時間快 600 倍。
解決機器學習/深度學習網(wǎng)絡
深度學習要求我們解決多個復雜的方程式,而且需要解決數(shù)百萬和數(shù)十億行的問題。在 Python 中運行循環(huán)來求解這些方程式非常慢,矢量化是最佳解決方案。
例如,計算以下多元線性回歸方程中數(shù)百萬行的 y 值:
我們可以用矢量化代替循環(huán)。
m1、m2、m3……的值是通過使用與 x1、x2、x3……對應的數(shù)百萬個值求解上述等式來確定的
import numpy as np # 設置 m 的初始值 m = np.random.rand( 1 , 5 ) # 500 萬行的輸入值 x = np.random.rand( 5000000 , 5 )
## 使用循環(huán) import numpy as np m = np.random.rand(1,5) x = np.random.rand(5000000,5) total = 0 tic = time.process_time() for i in range(0,5000000): total = 0 for j in range(0,5): total = total + x[i][j]*m[0][j] zer[i] = total toc = time.process_time() print ("Computation time = "+ str ((toc - tic)) + "seconds" ) ####計算時間 = 27.02 秒
## 矢量化 tic = time.process_time() #dot product np.dot(x,mT) toc = time.process_time() print ( "計算時間 = " + str ((toc - tic)) + "seconds" ) ####計算時間 = 0.107 秒
np.dot 在后端實現(xiàn)向量化矩陣乘法。與 Python 中的循環(huán)相比,它快 165 倍。
結論
python 中的矢量化速度非常快,無論何時我們處理非常大的數(shù)據(jù)集,都應該優(yōu)先于循環(huán)。
隨著時間的推移開始實施它,您將習慣于按照代碼的矢量化思路進行思考。
到此這篇關于python中使用矢量化替換循環(huán)詳解的文章就介紹到這了,更多相關python中使用矢量化替換循環(huán)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Django頁面數(shù)據(jù)的緩存與使用的具體方法
這篇文章主要介紹了Django頁面數(shù)據(jù)的緩存與使用的具體方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-04-04python多個模塊py文件的數(shù)據(jù)共享實例
今天小編就為大家分享一篇python多個模塊py文件的數(shù)據(jù)共享實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01matplotlib實現(xiàn)熱成像圖colorbar和極坐標圖的方法
今天小編就為大家分享一篇matplotlib實現(xiàn)熱成像圖colorbar和極坐標圖的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12python實現(xiàn)微信定時每天和女友發(fā)送消息
這篇文章主要為大家詳細介紹了python實現(xiàn)微信定時每天和女友發(fā)送消息,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-04-04