Python列表數(shù)據(jù)如何按區(qū)間分組統(tǒng)計(jì)各組個(gè)數(shù)

更新時(shí)間：2024年07月19日 10:46:00 作者：Dxy1239310216

這篇文章主要介紹了Python列表數(shù)據(jù)如何按區(qū)間分組統(tǒng)計(jì)各組個(gè)數(shù),具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

Python列表數(shù)據(jù)按區(qū)間分組統(tǒng)計(jì)各組個(gè)數(shù)

需求描述

遇到一個(gè)問題，就是有一個(gè)列表數(shù)據(jù)，劃分一個(gè)固定區(qū)間，統(tǒng)計(jì)每個(gè)區(qū)間數(shù)量。

解決方案

使用 groupby() 函數(shù)

from itertools import groupby

score_list = [6.3, 1.2, 6.2, 5.6, 9.5, 1.6]
step = 1
for k, g in groupby(sorted(score_list), key=lambda x: x//step):
    print('{}-{}: {}'.format(k*step, (k+1)*step+1, len(list(g))))

分組效果

1.0-3.0: 2
5.0-7.0: 1
6.0-8.0: 2
9.0-11.0: 1

Python統(tǒng)計(jì)某列不同值的個(gè)數(shù)

在數(shù)據(jù)分析和數(shù)據(jù)處理中，統(tǒng)計(jì)數(shù)據(jù)往往集中在特定列中不同值的出現(xiàn)次數(shù)。這種統(tǒng)計(jì)可以幫助我們了解數(shù)據(jù)的分布。

例如，在處理問卷調(diào)查結(jié)果時(shí)，我們可能需要知道有多少受訪者選擇了每一個(gè)可能的答案。

Python在這方面提供了多種方法，介紹下如何使用Python進(jìn)行這種統(tǒng)計(jì)。

使用pandas庫進(jìn)行統(tǒng)計(jì)

在Python中，pandas是一個(gè)強(qiáng)大的數(shù)據(jù)處理和分析數(shù)據(jù)庫。使用pandas可以輕松地讀取、修改和分析表格數(shù)據(jù)。value_可用于統(tǒng)計(jì)列中不同值的數(shù)字counts()方法。

下面是一個(gè)簡單的使用例子：

import pandas as pd

# 創(chuàng)建一個(gè)DataFrame
data = {'Category': ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B']}
df = pd.DataFrame(data)

# 在某個(gè)列中統(tǒng)計(jì)不同值的數(shù)字。
value_counts = df['Category'].value_counts()

print(value_counts)

這個(gè)代碼首先導(dǎo)入了pandas庫，并用字典創(chuàng)建了一個(gè)包含重復(fù)值的DataFrame。調(diào)用value_counts()方法，我們可以得到每一個(gè)不同值的出現(xiàn)次數(shù)。

輸出結(jié)果是一個(gè)系列（Series），指數(shù)是不同的值，數(shù)據(jù)是每個(gè)值的出現(xiàn)次數(shù)。

統(tǒng)計(jì)自定義函數(shù)

假如你想要更大的自由，也可以自定義一個(gè)統(tǒng)計(jì)函數(shù)，而不是使用pandas。

舉例來說，使用Python的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)和內(nèi)建函數(shù)可以達(dá)到相同的目的。

下面是一個(gè)使用字典和for循環(huán)來實(shí)現(xiàn)的例子：

# 創(chuàng)建一個(gè)列表
data = ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B']

# 定制函數(shù)，不同數(shù)值出現(xiàn)在統(tǒng)計(jì)列表中的次數(shù)
def count_unique_values(data):
    counts = {}
    for value in data:
        if value in counts:
            counts[value] += 1
        else:
            counts[value] = 1
    return counts

# 調(diào)用函數(shù)并打印結(jié)果
value_counts = count_unique_values(data)
print(value_counts)

這個(gè)自定義函數(shù)遍歷列表中的每個(gè)元素，并記錄每個(gè)不同值在字典counts中的出現(xiàn)次數(shù)。

如果值已經(jīng)在字典中，增加它的計(jì)數(shù)，否則，在字典中創(chuàng)建一個(gè)新項(xiàng)目。

Counter類使用collections庫

在Python的collections模塊中，有一個(gè)Counter類，專門用來統(tǒng)計(jì)可哈希對象的數(shù)量。

使用這個(gè)類別可以很容易地計(jì)算出數(shù)據(jù)中每個(gè)值的出現(xiàn)次數(shù)。

下面是如何使用Counter類的例子：

from collections import Counter

# 創(chuàng)建一個(gè)列表
data = ['A', 'A', 'B', 'C', 'B', 'A', 'C', 'C', 'B', 'B']

# 在Counter類統(tǒng)計(jì)列表中，不同值的出現(xiàn)次數(shù)
value_counts = Counter(data)

print(value_counts)

Counter對象基本上是一個(gè)字典形式，它的鍵是數(shù)據(jù)中的值，相應(yīng)的值是這些值出現(xiàn)的次數(shù)。

計(jì)數(shù)邏輯已經(jīng)在Counter類中實(shí)現(xiàn)，非常適合快速獲得不同值的計(jì)數(shù)。

將matplotlib與可視化相結(jié)合

有時(shí)，數(shù)字結(jié)果沒有圖表那么直觀。在對某一列不同值的數(shù)字進(jìn)行統(tǒng)計(jì)后，可以使用matplotlib庫來可視化統(tǒng)計(jì)結(jié)果。

假定我們已經(jīng)有了一個(gè)pandasSeries對象value_counts，以下代碼將演示如何將其可視化為條形圖：

import matplotlib.pyplot as plt

# 假設(shè)value_counts是通過pandas的value_countscounts()獲得Series對象的方法
# value_counts = df['Category'].value_counts()

# 畫圖
value_counts.plot(kind='bar')
plt.xlabel('Category')
plt.ylabel('Count')
plt.title('Category Counts')
plt.show()

使用上述方法調(diào)用pandas自帶的plot方法，并指定kind參數(shù)為'bar'，我們可以很容易地創(chuàng)建一個(gè)條形圖。接著，使用matplotlib設(shè)置標(biāo)題和軸標(biāo)簽，并最終顯示圖表。

綜上所述，無論是直接使用pandas庫的現(xiàn)成功能，還是借助collections模塊的Counter類，還是定制函數(shù)，Python都提供了多種方法來統(tǒng)計(jì)某一列不同值的數(shù)量。根據(jù)數(shù)據(jù)的大小和需求，可以選擇合適的方法。