亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

pandas與pyspark計算效率對比分析

 更新時間:2023年06月16日 09:39:08   作者:一個散步者的夢  
這篇文章主要介紹了pandas與pyspark計算效率對比,本文給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下

日常工作中,主要還是應(yīng)用HQL和SparkSQL,數(shù)據(jù)量大,分布式計算很快;

本地數(shù)據(jù)處理,一般會使用python的pandas包,api豐富,寫法比較簡單,但只能利用單核性能跑數(shù),數(shù)據(jù)量大可能會比較慢;spark可以利用多核性能;

單機上,這里嘗試構(gòu)造一個大數(shù)據(jù)集分別對pandas和sparksql進行跑批測試:

# 數(shù)據(jù)集構(gòu)造
import pandas as pd
import numpy as np 
import pyarrow
import sys
import time
from pyspark.sql import SparkSession
df = pd.DataFrame(columns=['id','sales'])
df['id']= np.random.randint(1,10,800000000)    
df['sales']= np.random.randint(30,1000,800000000)   # 生成8億數(shù)據(jù)
df = df.append(df)   # 數(shù)據(jù)量膨脹一倍
df.to_parquet('parquet_test')    # 寫入本地文件
print(sys.getsizeof(df) / 1024 / 1024 / 1024)  # 總數(shù)據(jù)占用內(nèi)存:23個g

定義pandas計算函數(shù)

pandas的read函數(shù)會將數(shù)據(jù)一次讀入內(nèi)存,本地機器資源不夠可能會有內(nèi)存溢出,這時候要考慮逐塊讀取,分別對每塊進行聚合,再進行累聚合;

def pandas_duration():
    start = time.time()
    # df.to_csv('data.txt',index=False,sep=',')
    df = pd.read_parquet('parquet_test')
    mid_time = time.time()
    print('pandas讀取數(shù)據(jù)用時:{:.2f}'.format(mid_time-start))
    print(df.groupby('id',as_index=False).max())   # 分組求最大值
    end = time.time()
    print(end-start)

定義pyspark讀取計算函數(shù)

# 防止driver內(nèi)存溢出,可以把資源調(diào)大點,筆者電腦64個g就隨意填了個32g,分區(qū)數(shù)結(jié)合實際數(shù)據(jù)大小資源調(diào)整
spark = SparkSession.Builder()\
    .master("local[*]")\
    .config("spark.sql.shuffle.partitions",24)\
    .config("spark.driver.memory","32g")\
    .config("spark.driver.maxResultSize","32g")\
    .appName('pyspark')\
    .getOrCreate()
def pyspark_duration():
    start = time.time()
    # df.to_csv('data.txt',index=False,sep=',')
    spark_df = spark.read.parquet('parquet_test')
    mid_time = time.time()
    print('spark讀取數(shù)據(jù)用時:{:.2f}'.format(mid_time-start))
    spark_df.groupBy('id').agg({"sales":"max"}).show()  # 分組求最大值
    end = time.time()
    print(end-start)

查看spark計算時間:

在整個運行過程中,電腦最大內(nèi)存使用14%;(包括其他系統(tǒng)軟件占用),數(shù)據(jù)讀取計算只花了32秒

查看pandas計算時間:

計算巔峰時刻內(nèi)存在80-90%跳動,差點把我機器干爆了,計算耗時105秒,遠大于spark處理32秒

結(jié)論:

小數(shù)據(jù)量通常我們使用pandas處理會更快;對于大量數(shù)據(jù),即使是單機,充分利用多核性能,我們使用spark讀取往往會有更好的表現(xiàn),不用定義分塊讀取聚合,計算更快,內(nèi)存使用表現(xiàn)更好;

數(shù)據(jù)處理&優(yōu)化技巧相關(guān),感興趣的同學(xué)可以點擊下面鏈接:

SparkSQL優(yōu)化:https://blog.csdn.net/me_to_007/article/details/130916946

hive優(yōu)化: https://blog.csdn.net/me_to_007/article/details/126921955

pandas數(shù)據(jù)處理詳解:https://blog.csdn.net/me_to_007/article/details/90141769

到此這篇關(guān)于pandas與pyspark計算效率對比的文章就介紹到這了,更多相關(guān)pandas與pyspark內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評論