pandas與pyspark計(jì)算效率對(duì)比分析
日常工作中,主要還是應(yīng)用HQL和SparkSQL,數(shù)據(jù)量大,分布式計(jì)算很快;
本地?cái)?shù)據(jù)處理,一般會(huì)使用python的pandas包,api豐富,寫法比較簡(jiǎn)單,但只能利用單核性能跑數(shù),數(shù)據(jù)量大可能會(huì)比較慢;spark可以利用多核性能;
單機(jī)上,這里嘗試構(gòu)造一個(gè)大數(shù)據(jù)集分別對(duì)pandas和sparksql進(jìn)行跑批測(cè)試:
# 數(shù)據(jù)集構(gòu)造 import pandas as pd import numpy as np import pyarrow import sys import time from pyspark.sql import SparkSession df = pd.DataFrame(columns=['id','sales']) df['id']= np.random.randint(1,10,800000000) df['sales']= np.random.randint(30,1000,800000000) # 生成8億數(shù)據(jù) df = df.append(df) # 數(shù)據(jù)量膨脹一倍 df.to_parquet('parquet_test') # 寫入本地文件 print(sys.getsizeof(df) / 1024 / 1024 / 1024) # 總數(shù)據(jù)占用內(nèi)存:23個(gè)g
定義pandas計(jì)算函數(shù)
pandas的read函數(shù)會(huì)將數(shù)據(jù)一次讀入內(nèi)存,本地機(jī)器資源不夠可能會(huì)有內(nèi)存溢出,這時(shí)候要考慮逐塊讀取,分別對(duì)每塊進(jìn)行聚合,再進(jìn)行累聚合;
def pandas_duration(): start = time.time() # df.to_csv('data.txt',index=False,sep=',') df = pd.read_parquet('parquet_test') mid_time = time.time() print('pandas讀取數(shù)據(jù)用時(shí):{:.2f}'.format(mid_time-start)) print(df.groupby('id',as_index=False).max()) # 分組求最大值 end = time.time() print(end-start)
定義pyspark讀取計(jì)算函數(shù)
# 防止driver內(nèi)存溢出,可以把資源調(diào)大點(diǎn),筆者電腦64個(gè)g就隨意填了個(gè)32g,分區(qū)數(shù)結(jié)合實(shí)際數(shù)據(jù)大小資源調(diào)整 spark = SparkSession.Builder()\ .master("local[*]")\ .config("spark.sql.shuffle.partitions",24)\ .config("spark.driver.memory","32g")\ .config("spark.driver.maxResultSize","32g")\ .appName('pyspark')\ .getOrCreate() def pyspark_duration(): start = time.time() # df.to_csv('data.txt',index=False,sep=',') spark_df = spark.read.parquet('parquet_test') mid_time = time.time() print('spark讀取數(shù)據(jù)用時(shí):{:.2f}'.format(mid_time-start)) spark_df.groupBy('id').agg({"sales":"max"}).show() # 分組求最大值 end = time.time() print(end-start)
查看spark計(jì)算時(shí)間:
在整個(gè)運(yùn)行過程中,電腦最大內(nèi)存使用14%;(包括其他系統(tǒng)軟件占用),數(shù)據(jù)讀取計(jì)算只花了32秒
查看pandas計(jì)算時(shí)間:
計(jì)算巔峰時(shí)刻內(nèi)存在80-90%跳動(dòng),差點(diǎn)把我機(jī)器干爆了,計(jì)算耗時(shí)105秒,遠(yuǎn)大于spark處理32秒
結(jié)論:
小數(shù)據(jù)量通常我們使用pandas處理會(huì)更快;對(duì)于大量數(shù)據(jù),即使是單機(jī),充分利用多核性能,我們使用spark讀取往往會(huì)有更好的表現(xiàn),不用定義分塊讀取聚合,計(jì)算更快,內(nèi)存使用表現(xiàn)更好;
數(shù)據(jù)處理&優(yōu)化技巧相關(guān),感興趣的同學(xué)可以點(diǎn)擊下面鏈接:
SparkSQL優(yōu)化:https://blog.csdn.net/me_to_007/article/details/130916946
hive優(yōu)化: https://blog.csdn.net/me_to_007/article/details/126921955
pandas數(shù)據(jù)處理詳解:https://blog.csdn.net/me_to_007/article/details/90141769
到此這篇關(guān)于pandas與pyspark計(jì)算效率對(duì)比的文章就介紹到這了,更多相關(guān)pandas與pyspark內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于pytorch中全連接神經(jīng)網(wǎng)絡(luò)搭建兩種模式詳解
今天小編就為大家分享一篇關(guān)于pytorch中全連接神經(jīng)網(wǎng)絡(luò)搭建兩種模式詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01NumPy統(tǒng)計(jì)函數(shù)的實(shí)現(xiàn)方法
這篇文章主要介紹了NumPy統(tǒng)計(jì)函數(shù)的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-01-01Python實(shí)現(xiàn)獲取操作系統(tǒng)版本信息方法
這篇文章主要介紹了Python實(shí)現(xiàn)獲取操作系統(tǒng)版本信息方法,本文在命令行中獲取操作系統(tǒng)信息,介紹了platform模塊的使用,需要的朋友可以參考下2015-04-04Python實(shí)現(xiàn)遍歷windows所有窗口并輸出窗口標(biāo)題的方法
這篇文章主要介紹了Python實(shí)現(xiàn)遍歷windows所有窗口并輸出窗口標(biāo)題的方法,涉及Python調(diào)用及遍歷windows窗口句柄的技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-03-03Django中prefetch_related()函數(shù)優(yōu)化實(shí)戰(zhàn)指南
我們可以利用Django框架中select_related和prefetch_related函數(shù)對(duì)數(shù)據(jù)庫(kù)查詢優(yōu)化,這篇文章主要給大家介紹了關(guān)于Django中prefetch_related()函數(shù)優(yōu)化的相關(guān)資料,需要的朋友可以參考下2022-11-11pandas如何將datetime64[ns]轉(zhuǎn)為字符串日期
這篇文章主要介紹了pandas如何將datetime64[ns]轉(zhuǎn)為字符串日期,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07解決Python數(shù)據(jù)可視化中文部分顯示方塊問題
這篇文章主要介紹了解決Python數(shù)據(jù)可視化中文部分顯示方塊問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05