Python Vaex實(shí)現(xiàn)快速分析100G大數(shù)據(jù)量
pandas處理大數(shù)據(jù)的限制
現(xiàn)在的數(shù)據(jù)科學(xué)比賽提供的數(shù)據(jù)量越來越大,動(dòng)不動(dòng)幾十個(gè)G,甚至上百G,這就要考驗(yàn)機(jī)器性能和數(shù)據(jù)處理能力。
Python中的pandas是大家常用的數(shù)據(jù)處理工具,能應(yīng)付較大數(shù)據(jù)集(千萬行級(jí)別),但當(dāng)數(shù)據(jù)量達(dá)到十億百億行級(jí)別,pandas處理起來就有點(diǎn)力不從心了,可以說非常的慢。
這里面會(huì)有電腦內(nèi)存等性能的因素,但pandas本身的數(shù)據(jù)處理機(jī)制(依賴內(nèi)存)也限制了它處理大數(shù)據(jù)的能力。
當(dāng)然pandas可以通過chunk分批讀取數(shù)據(jù),但是這樣的劣勢(shì)在于數(shù)據(jù)處理較復(fù)雜,而且每一步分析都會(huì)消耗內(nèi)存和時(shí)間。
下面用pandas讀取3.7個(gè)G的數(shù)據(jù)集(hdf5格式),該數(shù)據(jù)集共有4列、1億行,并且計(jì)算第一行的平均值。我的電腦CPU是i7-8550U,內(nèi)存8G,看看這個(gè)加載和計(jì)算過程需要花費(fèi)多少時(shí)間。
數(shù)據(jù)集:
使用pandas讀取并計(jì)算:
看上面的過程,加載數(shù)據(jù)用了15秒,平均值計(jì)算用了3.5秒,總共18.5秒。
這里用的是hdf5文件,hdf5是一種文件存儲(chǔ)格式,相比較csv更適合存儲(chǔ)大數(shù)據(jù)量,壓縮程度高,而且讀取、寫入也更快。
換上今天的主角vaex,讀取同樣的數(shù)據(jù),做同樣的平均值計(jì)算,需要多少時(shí)間呢?
使用vaex讀取并計(jì)算:
文件讀取用了9ms,可以忽略不計(jì),平均值計(jì)算用了1s,總共1s。
同樣是讀取1億行的hdfs數(shù)據(jù)集,為什么pandas需要十幾秒,而vaex耗費(fèi)時(shí)間接近于0呢?
這里主要是因?yàn)閜andas把數(shù)據(jù)讀取到了內(nèi)存中,然后用于處理和計(jì)算。而vaex只會(huì)對(duì)數(shù)據(jù)進(jìn)行內(nèi)存映射,而不是真的讀取數(shù)據(jù)到內(nèi)存中,這個(gè)和spark的懶加載是一樣的,在使用的時(shí)候 才會(huì)去加載,聲明的時(shí)候不加載。
所以說不管加載多大的數(shù)據(jù),10GB、100GB...對(duì)vaex來說都是瞬間搞定。美中不足的是,vaex的懶加載只支持HDF5, Apache Arrow,Parquet, FITS等文件,不支持csv等文本文件,因?yàn)槲谋疚募]辦法進(jìn)行內(nèi)存映射。
可能有的小伙伴不太理解內(nèi)存映射,下面放一段解釋,具體要弄清楚還得自行摸索:
內(nèi)存映射是指硬盤上文件的位置與進(jìn)程邏輯地址空間中一塊大小相同的區(qū)域之間的一一對(duì)應(yīng)。這種對(duì)應(yīng)關(guān)系純屬是邏輯上的概念,物理上是不存在的,原因是進(jìn)程的邏輯地址空間本身就是不存在的。在內(nèi)存映射的過程中,并沒有實(shí)際的數(shù)據(jù)拷貝,文件沒有被載入內(nèi)存,只是邏輯上被放入了內(nèi)存,具體到代碼,就是建立并初始化了相關(guān)的數(shù)據(jù)結(jié)構(gòu)(struct address_space)。
什么是vaex
前面對(duì)比了vaex和pandas處理大數(shù)據(jù)的速度,vaex優(yōu)勢(shì)明顯。雖然能力出眾,不比pandas家喻戶曉,vaex還是個(gè)剛出圈的新人。
vaex同樣是基于python的數(shù)據(jù)處理第三方庫,使用pip
就可以安裝。
官網(wǎng)對(duì)vaex的介紹可以總結(jié)為三點(diǎn):
- vaex是一個(gè)用處理、展示數(shù)據(jù)的數(shù)據(jù)表工具,類似pandas;
- vaex采取內(nèi)存映射、惰性計(jì)算,不占用內(nèi)存,適合處理大數(shù)據(jù);
- vaex可以在百億級(jí)數(shù)據(jù)集上進(jìn)行秒級(jí)的統(tǒng)計(jì)分析和可視化展示;
vaex的優(yōu)勢(shì)在于:
- 性能:處理海量數(shù)據(jù),109 行/秒;
- 惰性:快速計(jì)算,不占用內(nèi)存;
- 零內(nèi)存復(fù)制:在進(jìn)行過濾/轉(zhuǎn)換/計(jì)算時(shí),不復(fù)制內(nèi)存,在需要時(shí)進(jìn)行流式傳輸;
- 可視化:內(nèi)含可視化組件;
- API:類似pandas,擁有豐富的數(shù)據(jù)處理和計(jì)算函數(shù);
- 可交互:配合Jupyter notebook使用,靈活的交互可視化;
安裝vaex
使用pip或者conda進(jìn)行安裝:
讀取數(shù)據(jù)
vaex支持讀取hdf5、csv、parquet等文件,使用read方法。hdf5可以惰性讀取,而csv只能讀到內(nèi)存中。
vaex數(shù)據(jù)讀取函數(shù):
數(shù)據(jù)處理
有時(shí)候我們需要對(duì)數(shù)據(jù)進(jìn)行各種各樣的轉(zhuǎn)換、篩選、計(jì)算等,pandas的每一步處理都會(huì)消耗內(nèi)存,而且時(shí)間成本高。除非說使用鏈?zhǔn)教幚?,但那樣過程就很不清晰。
vaex則全過程都是零內(nèi)存。因?yàn)樗奶幚磉^程僅僅產(chǎn)生expression(表達(dá)式),表達(dá)式是邏輯表示,不會(huì)執(zhí)行,只有到了最后的生成結(jié)果階段才會(huì)執(zhí)行。而且整個(gè)過程數(shù)據(jù)是流式傳輸,不會(huì)產(chǎn)生內(nèi)存積壓。
可以看到上面有篩選和計(jì)算兩個(gè)過程,都沒有復(fù)制內(nèi)存,這里采用了延遲計(jì)算,也就是惰性機(jī)制。如果每個(gè)過程都真實(shí)計(jì)算,消耗內(nèi)存不說,單是時(shí)間成本就很大。
vaex的統(tǒng)計(jì)計(jì)算函數(shù):
可視化展示
vaex還可以進(jìn)行快速可視化展示,即便是上百億的數(shù)據(jù)集,依然能秒出圖。
vaex可視化函數(shù):
結(jié)論
vaex有點(diǎn)類似spark和pandas的結(jié)合體,數(shù)據(jù)量越大越能體現(xiàn)它的優(yōu)勢(shì)。只要你的硬盤能裝下多大數(shù)據(jù),它就能快速分析這些數(shù)據(jù)。
vaex還在快速發(fā)展中,集成了越來越多pandas的功能,它在github上的star數(shù)是5k,成長潛力巨大。
附:hdf5數(shù)據(jù)集生成代碼(4列1億行數(shù)據(jù))
import pandas as pd import vaex df = pd.DataFrame(np.random.rand(100000000,4),columns=['col_1','col_2','col_3','col_4']) df.to_csv('example.csv',index=False) vaex.read('example.csv',convert='example1.hdf5')
注意這里不要用pandas直接生成hdf5,其格式會(huì)與vaex不兼容。
到此這篇關(guān)于Python Vaex實(shí)現(xiàn)快速分析100G大數(shù)據(jù)量的文章就介紹到這了,更多相關(guān)Python Vaex分析100G大數(shù)據(jù)量內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python同時(shí)向控制臺(tái)和文件輸出日志logging的方法
這篇文章主要介紹了Python同時(shí)向控制臺(tái)和文件輸出日志logging的方法,涉及Python日志模塊的相關(guān)使用技巧,需要的朋友可以參考下2015-05-05python?OpenCV實(shí)現(xiàn)圖像特征匹配示例詳解
這篇文章主要為大家介紹了python?OpenCV實(shí)現(xiàn)圖像特征匹配示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04詳解python關(guān)于多級(jí)包之間的引用問題
本文主要介紹了python關(guān)于多級(jí)包之間的引用問題,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-08-08python人工智能自定義求導(dǎo)tf_diffs詳解
這篇文章主要為大家介紹了python人工智能自定義求導(dǎo)tf_diffs詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07python實(shí)現(xiàn)list由于numpy array的轉(zhuǎn)換
下面小編就為大家分享一篇python實(shí)現(xiàn)list由于numpy array的轉(zhuǎn)換方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04python小練習(xí)之爬魷魚游戲的評(píng)價(jià)生成詞云
讀萬卷書不如行萬里路,只學(xué)書上的理論是遠(yuǎn)遠(yuǎn)不夠的,只有在實(shí)戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用Python爬取熱火的魷魚游戲評(píng)價(jià),大家可以在過程中查缺補(bǔ)漏,提升水平2021-10-10