pandas數(shù)據(jù)聚合與分組運(yùn)算的實現(xiàn)
數(shù)據(jù)聚合與分組運(yùn)算
對數(shù)據(jù)集進(jìn)行分組并對各組應(yīng)用一個函數(shù)(無論是聚合還是轉(zhuǎn)換),通常是數(shù)據(jù)分析工作中的重要環(huán)節(jié)。在將數(shù)據(jù)集加載、融合、準(zhǔn)備好之后,通常就是計算分組統(tǒng)計或生成透視表。pandas提供了一個靈活高效的gruopby功能,它使你能以一種自然的方式對數(shù)據(jù)集進(jìn)行切片、切塊、摘要等操作。
關(guān)系型數(shù)據(jù)庫和SQL(Structured Query Language,結(jié)構(gòu)化查詢語言)能夠如此流行的原因之一就是其能夠方便地對數(shù)據(jù)進(jìn)行連接、過濾、轉(zhuǎn)換和聚合。但是,像SQL這樣的查詢語言所能執(zhí)行的分組運(yùn)算的種類很有限。在本章中你將會看到,由于Python和pandas強(qiáng)大的表達(dá)能力,我們可以執(zhí)行復(fù)雜得多的分組運(yùn)算(利用任何可以接受pandas對象或NumPy數(shù)組的函數(shù))。
分組與聚合的原理
在Pandas中,分組是指使用特定的條件將原數(shù)據(jù)劃分為多個組,聚合在這里指的是,對每個分組中的數(shù)據(jù)執(zhí)行某些操作,最后將計算的結(jié)果進(jìn)行整合。
分組與聚合的過程大概分為以下三步:
通過groupby()方法將數(shù)據(jù)拆分成組
groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)
- by:用于確定進(jìn)行分組的依據(jù)。
- axis:表示分組軸的方向。
- sort:表示是否對分組標(biāo)簽進(jìn)行排序,接收布爾值,默認(rèn)為True。
按列名進(jìn)行分組
# 通過列名進(jìn)行分組 import pandas as pd df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'], "data":[2,4,6,8,10,1,14,16,19] }) print(df) ''' key data 0 c 2 1 b 4 2 c 6 3 a 8 4 b 10 5 b 1 6 a 14 7 c 16 8 a 19 ''' # 按照key列進(jìn)行分組 print(df.groupby(by='key')) '''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688> ''' group_obj = df.groupby('key') for i in group_obj: print(i) ''' ('a', key data 3 a 8 6 a 14 8 a 19) ('b', key data 1 b 4 4 b 10 5 b 1) ('c', key data 0 c 2 2 c 6 7 c 16) '''
按Series對象進(jìn)行分組
如果Series對象與Pandas對象的索引長度不相同時,則只會將具有相同索引的部分?jǐn)?shù)據(jù)進(jìn)行分組
import numpy as np import pandas as pd df = pd.DataFrame({ 'key1':['A','A','B','B','A'], 'key2':['one','two','one','two','one'], 'data1':['2','3','4','6','8'], 'data2':['3','5','6','3','7'] }) print(df) ''' key1 key2 data1 data2 0 A one 2 3 1 A two 3 5 2 B one 4 6 3 B two 6 3 4 A one 8 7 ''' se = pd.Series(['a','b','c','a','b']) print(se) ''' 0 a 1 b 2 c 3 a 4 b dtype: object ''' group_obj = df.groupby(se) # 定義series對象進(jìn)行分組 for i in group_obj: print(i) ''' ('a', key data 0 c 2 3 a 8) ('b', key data 1 b 4 4 b 10) ('c', key data 2 c 6) '''
按字典進(jìn)行分組
可以將這個字典傳給groupby,來構(gòu)造數(shù)組
# 通過字典進(jìn)行分組 from pandas import DataFrame,Series num_df = DataFrame({'a':[1,2,3,4,5], 'b':[6,7,8,9,10], 'c':[11,12,13,14,15], 'd':[5,4,3,2,1], 'e':[10,9,8,7,6]}) print(num_df) ''' a b c d e 0 1 6 11 5 10 1 2 7 12 4 9 2 3 8 13 3 8 3 4 9 14 2 7 4 5 10 15 1 6 ''' # 定義分組規(guī)則 mapping = {'a':'第一組','b':'第二組','c':'第一組','d':'第三組','e':'第二組'} by_column = num_df.groupby(mapping, axis=1) for i in by_column: print(i) ''' ('第一組', a c 0 1 11 1 2 12 2 3 13 3 4 14 4 5 15) ('第三組', d 0 5 1 4 2 3 3 2 4 1) ('第二組', b e 0 6 10 1 7 9 2 8 8 3 9 7 4 10 6) '''
按函數(shù)進(jìn)行分組
將函數(shù)作為分組鍵會更加靈活,任何一個被當(dāng)做分組鍵的函數(shù)都會在各個索引值上被調(diào)用一次,返回的值會被用作分組名稱。
使用內(nèi)置函數(shù)len進(jìn)行分組 groupby_obj = df.groupby(len)
比起使用字典或Series,使用Python函數(shù)是一種更原生的方法定義分組映射。任何被當(dāng)做分組鍵的函數(shù)都會在各個索引值上被調(diào)用一次,其返回值就會被用作分組名稱。你可以計算一個字符串長度的數(shù)組,更簡單的方法是傳入len函數(shù):
key_list = ['a', 'a', 'a', 'b', 'b'] num_df.groupby([len, key_list]).min()
到此這篇關(guān)于pandas數(shù)據(jù)聚合與分組運(yùn)算的實現(xiàn)的文章就介紹到這了,更多相關(guān)pandas數(shù)據(jù)聚合與分組運(yùn)算內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python深度學(xué)習(xí)pytorch神經(jīng)網(wǎng)絡(luò)匯聚層理解
通常當(dāng)我們處理圖像時,我們希望逐漸降低隱藏表示的空間分辨率,聚集信息,這樣隨著我們在神經(jīng)網(wǎng)絡(luò)層疊的上升,每個神經(jīng)元對其敏感的感受野(輸入)就越大2021-10-10python通過nmap掃描在線設(shè)備并嘗試AAA登錄(實例代碼)
這篇文章主要介紹了python通過nmap掃描在線設(shè)備并嘗試AAA登錄,本文通過實例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2019-12-12有關(guān)wxpython pyqt內(nèi)存占用問題分析
一直覺得wxpython占用內(nèi)存比較多,在工作中寫的一些小程序應(yīng)用,一對比其它的小程序,發(fā)現(xiàn)內(nèi)存相差確實有點大2014-06-06centos6.5安裝python3.7.1之后無法使用pip的解決方案
今天小編就為大家分享一篇關(guān)于centos6.5安裝python3.7.1之后無法使用pip的解決方案,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2019-02-02升級Python版本后anaconda navigator啟動失敗解決方案(最新推薦)
anaconda navigator啟動失敗,尤其是重裝不解決問題的,大概率是庫沖突,解決方法也很簡單,只需要刪掉引起沖突的庫,感興趣的朋友跟隨小編一起看看吧2023-11-11