pandas與pyspark計算效率對比分析
日常工作中,主要還是應(yīng)用HQL和SparkSQL,數(shù)據(jù)量大,分布式計算很快;
本地數(shù)據(jù)處理,一般會使用python的pandas包,api豐富,寫法比較簡單,但只能利用單核性能跑數(shù),數(shù)據(jù)量大可能會比較慢;spark可以利用多核性能;
單機上,這里嘗試構(gòu)造一個大數(shù)據(jù)集分別對pandas和sparksql進行跑批測試:
# 數(shù)據(jù)集構(gòu)造
import pandas as pd
import numpy as np
import pyarrow
import sys
import time
from pyspark.sql import SparkSession
df = pd.DataFrame(columns=['id','sales'])
df['id']= np.random.randint(1,10,800000000)
df['sales']= np.random.randint(30,1000,800000000) # 生成8億數(shù)據(jù)
df = df.append(df) # 數(shù)據(jù)量膨脹一倍
df.to_parquet('parquet_test') # 寫入本地文件
print(sys.getsizeof(df) / 1024 / 1024 / 1024) # 總數(shù)據(jù)占用內(nèi)存:23個g定義pandas計算函數(shù)
pandas的read函數(shù)會將數(shù)據(jù)一次讀入內(nèi)存,本地機器資源不夠可能會有內(nèi)存溢出,這時候要考慮逐塊讀取,分別對每塊進行聚合,再進行累聚合;
def pandas_duration():
start = time.time()
# df.to_csv('data.txt',index=False,sep=',')
df = pd.read_parquet('parquet_test')
mid_time = time.time()
print('pandas讀取數(shù)據(jù)用時:{:.2f}'.format(mid_time-start))
print(df.groupby('id',as_index=False).max()) # 分組求最大值
end = time.time()
print(end-start)定義pyspark讀取計算函數(shù)
# 防止driver內(nèi)存溢出,可以把資源調(diào)大點,筆者電腦64個g就隨意填了個32g,分區(qū)數(shù)結(jié)合實際數(shù)據(jù)大小資源調(diào)整
spark = SparkSession.Builder()\
.master("local[*]")\
.config("spark.sql.shuffle.partitions",24)\
.config("spark.driver.memory","32g")\
.config("spark.driver.maxResultSize","32g")\
.appName('pyspark')\
.getOrCreate()
def pyspark_duration():
start = time.time()
# df.to_csv('data.txt',index=False,sep=',')
spark_df = spark.read.parquet('parquet_test')
mid_time = time.time()
print('spark讀取數(shù)據(jù)用時:{:.2f}'.format(mid_time-start))
spark_df.groupBy('id').agg({"sales":"max"}).show() # 分組求最大值
end = time.time()
print(end-start)查看spark計算時間:
在整個運行過程中,電腦最大內(nèi)存使用14%;(包括其他系統(tǒng)軟件占用),數(shù)據(jù)讀取計算只花了32秒

查看pandas計算時間:
計算巔峰時刻內(nèi)存在80-90%跳動,差點把我機器干爆了,計算耗時105秒,遠大于spark處理32秒

結(jié)論:
小數(shù)據(jù)量通常我們使用pandas處理會更快;對于大量數(shù)據(jù),即使是單機,充分利用多核性能,我們使用spark讀取往往會有更好的表現(xiàn),不用定義分塊讀取聚合,計算更快,內(nèi)存使用表現(xiàn)更好;
數(shù)據(jù)處理&優(yōu)化技巧相關(guān),感興趣的同學(xué)可以點擊下面鏈接:
SparkSQL優(yōu)化:https://blog.csdn.net/me_to_007/article/details/130916946
hive優(yōu)化: https://blog.csdn.net/me_to_007/article/details/126921955
pandas數(shù)據(jù)處理詳解:https://blog.csdn.net/me_to_007/article/details/90141769
到此這篇關(guān)于pandas與pyspark計算效率對比的文章就介紹到這了,更多相關(guān)pandas與pyspark內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于pytorch中全連接神經(jīng)網(wǎng)絡(luò)搭建兩種模式詳解
今天小編就為大家分享一篇關(guān)于pytorch中全連接神經(jīng)網(wǎng)絡(luò)搭建兩種模式詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
NumPy統(tǒng)計函數(shù)的實現(xiàn)方法
這篇文章主要介紹了NumPy統(tǒng)計函數(shù)的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-01-01
Python實現(xiàn)獲取操作系統(tǒng)版本信息方法
這篇文章主要介紹了Python實現(xiàn)獲取操作系統(tǒng)版本信息方法,本文在命令行中獲取操作系統(tǒng)信息,介紹了platform模塊的使用,需要的朋友可以參考下2015-04-04
Python實現(xiàn)遍歷windows所有窗口并輸出窗口標(biāo)題的方法
這篇文章主要介紹了Python實現(xiàn)遍歷windows所有窗口并輸出窗口標(biāo)題的方法,涉及Python調(diào)用及遍歷windows窗口句柄的技巧,具有一定參考借鑒價值,需要的朋友可以參考下2015-03-03
Django中prefetch_related()函數(shù)優(yōu)化實戰(zhàn)指南
我們可以利用Django框架中select_related和prefetch_related函數(shù)對數(shù)據(jù)庫查詢優(yōu)化,這篇文章主要給大家介紹了關(guān)于Django中prefetch_related()函數(shù)優(yōu)化的相關(guān)資料,需要的朋友可以參考下2022-11-11
pandas如何將datetime64[ns]轉(zhuǎn)為字符串日期
這篇文章主要介紹了pandas如何將datetime64[ns]轉(zhuǎn)為字符串日期,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-07-07
解決Python數(shù)據(jù)可視化中文部分顯示方塊問題
這篇文章主要介紹了解決Python數(shù)據(jù)可視化中文部分顯示方塊問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05

