Python列表數(shù)據(jù)如何按區(qū)間分組統(tǒng)計各組個數(shù)
Python列表數(shù)據(jù)按區(qū)間分組統(tǒng)計各組個數(shù)
需求描述
遇到一個問題,就是有一個列表數(shù)據(jù),劃分一個固定區(qū)間,統(tǒng)計每個區(qū)間數(shù)量。
解決方案
使用 groupby() 函數(shù)
from itertools import groupby score_list = [6.3, 1.2, 6.2, 5.6, 9.5, 1.6] step = 1 for k, g in groupby(sorted(score_list), key=lambda x: x//step): print('{}-{}: {}'.format(k*step, (k+1)*step+1, len(list(g))))
分組效果
1.0-3.0: 2
5.0-7.0: 1
6.0-8.0: 2
9.0-11.0: 1
Python統(tǒng)計某列不同值的個數(shù)
在數(shù)據(jù)分析和數(shù)據(jù)處理中,統(tǒng)計數(shù)據(jù)往往集中在特定列中不同值的出現(xiàn)次數(shù)。這種統(tǒng)計可以幫助我們了解數(shù)據(jù)的分布。
例如,在處理問卷調(diào)查結(jié)果時,我們可能需要知道有多少受訪者選擇了每一個可能的答案。
Python在這方面提供了多種方法,介紹下如何使用Python進行這種統(tǒng)計。
使用pandas庫進行統(tǒng)計
在Python中,pandas是一個強大的數(shù)據(jù)處理和分析數(shù)據(jù)庫。使用pandas可以輕松地讀取、修改和分析表格數(shù)據(jù)。value_可用于統(tǒng)計列中不同值的數(shù)字counts()方法。
下面是一個簡單的使用例子:
import pandas as pd # 創(chuàng)建一個DataFrame data = {'Category': ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B']} df = pd.DataFrame(data) # 在某個列中統(tǒng)計不同值的數(shù)字。 value_counts = df['Category'].value_counts() print(value_counts)
這個代碼首先導入了pandas庫,并用字典創(chuàng)建了一個包含重復(fù)值的DataFrame。調(diào)用value_counts()方法,我們可以得到每一個不同值的出現(xiàn)次數(shù)。
輸出結(jié)果是一個系列(Series),指數(shù)是不同的值,數(shù)據(jù)是每個值的出現(xiàn)次數(shù)。
統(tǒng)計自定義函數(shù)
假如你想要更大的自由,也可以自定義一個統(tǒng)計函數(shù),而不是使用pandas。
舉例來說,使用Python的標準數(shù)據(jù)結(jié)構(gòu)和內(nèi)建函數(shù)可以達到相同的目的。
下面是一個使用字典和for循環(huán)來實現(xiàn)的例子:
# 創(chuàng)建一個列表 data = ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B'] # 定制函數(shù),不同數(shù)值出現(xiàn)在統(tǒng)計列表中的次數(shù) def count_unique_values(data): counts = {} for value in data: if value in counts: counts[value] += 1 else: counts[value] = 1 return counts # 調(diào)用函數(shù)并打印結(jié)果 value_counts = count_unique_values(data) print(value_counts)
這個自定義函數(shù)遍歷列表中的每個元素,并記錄每個不同值在字典counts中的出現(xiàn)次數(shù)。
如果值已經(jīng)在字典中,增加它的計數(shù),否則,在字典中創(chuàng)建一個新項目。
Counter類使用collections庫
在Python的collections模塊中,有一個Counter類,專門用來統(tǒng)計可哈希對象的數(shù)量。
使用這個類別可以很容易地計算出數(shù)據(jù)中每個值的出現(xiàn)次數(shù)。
下面是如何使用Counter類的例子:
from collections import Counter # 創(chuàng)建一個列表 data = ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B'] # 在Counter類統(tǒng)計列表中,不同值的出現(xiàn)次數(shù) value_counts = Counter(data) print(value_counts)
Counter對象基本上是一個字典形式,它的鍵是數(shù)據(jù)中的值,相應(yīng)的值是這些值出現(xiàn)的次數(shù)。
計數(shù)邏輯已經(jīng)在Counter類中實現(xiàn),非常適合快速獲得不同值的計數(shù)。
將matplotlib與可視化相結(jié)合
有時,數(shù)字結(jié)果沒有圖表那么直觀。在對某一列不同值的數(shù)字進行統(tǒng)計后,可以使用matplotlib庫來可視化統(tǒng)計結(jié)果。
假定我們已經(jīng)有了一個pandasSeries對象value_counts,以下代碼將演示如何將其可視化為條形圖:
import matplotlib.pyplot as plt # 假設(shè)value_counts是通過pandas的value_countscounts()獲得Series對象的方法 # value_counts = df['Category'].value_counts() # 畫圖 value_counts.plot(kind='bar') plt.xlabel('Category') plt.ylabel('Count') plt.title('Category Counts') plt.show()
使用上述方法調(diào)用pandas自帶的plot方法,并指定kind參數(shù)為'bar',我們可以很容易地創(chuàng)建一個條形圖。接著,使用matplotlib設(shè)置標題和軸標簽,并最終顯示圖表。
綜上所述,無論是直接使用pandas庫的現(xiàn)成功能,還是借助collections模塊的Counter類,還是定制函數(shù),Python都提供了多種方法來統(tǒng)計某一列不同值的數(shù)量。根據(jù)數(shù)據(jù)的大小和需求,可以選擇合適的方法。
總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python二叉樹的遍歷操作示例【前序遍歷,中序遍歷,后序遍歷,層序遍歷】
這篇文章主要介紹了Python二叉樹的遍歷操作,結(jié)合實例形式分析了Python針對二叉樹的前序遍歷,中序遍歷,后序遍歷,層序遍歷等相關(guān)操作實現(xiàn)技巧,需要的朋友可以參考下2018-12-12基于python實現(xiàn)在excel中讀取與生成隨機數(shù)寫入excel中
最近接個項目,項目要求是這樣的:在一份已知的excel表格中讀取學生的學號與姓名,再將這些數(shù)據(jù)放到新的excel表中的第一列與第二列,最后再生成隨機數(shù)作為學生的考試成績,具體實現(xiàn)代碼大家參考下本文2018-01-01