python利用pd.cut()和pd.qcut()對(duì)數(shù)據(jù)進(jìn)行分箱操作
1.cut()可以實(shí)現(xiàn)類似于對(duì)成績進(jìn)行優(yōu)良統(tǒng)計(jì)的功能,來看代碼示例。
假如我們有一組學(xué)生成績,我們需要將這些成績分為不及格(0-59)、及格(60-70)、良(71-85)、優(yōu)(86-100)這幾組。這時(shí)候可以用到cut()
import numpy as np import pandas as pd # 我們先給 scores傳入30個(gè)從0到100隨機(jī)的數(shù) scores = np.random.uniform(0,100,size=30) # 然后使用 np.round()函數(shù)控制數(shù)據(jù)精度 scores = np.round(scores,1) # 指定分箱的區(qū)間 grades = [0,59,70,85,100] cuts = pd.cut(scores,grades) print('\nscores:') print(scores) print('\ncuts:') print(cuts) # 我們還可以計(jì)算出每個(gè)箱子中有多少個(gè)數(shù)據(jù) print('\ncats.value_counts:') print(pd.value_counts(cuts)) ======output:====== scores: [ 6. ?50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4 ?63.4 21.3 17.2 ?3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81. ?82. ?70.2 54.1] cuts: [(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]] Length: 30 Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]] cuts.value_counts: (0, 59] ? ? ?17 (70, 85] ? ? ?8 (59, 70] ? ? ?4 (85, 100] ? ? 1 dtype: int64
默認(rèn)情況下,cat()的區(qū)間劃分是左開右閉,可以傳遞right=False來改變哪一邊是封閉的
代碼示例:
cuts = pd.cut(scores,grades,right=False)
也可以通過向labels選項(xiàng)傳遞一個(gè)列表或數(shù)組來傳入自定義的箱名
代碼示例:
group_names = ['不及格','及格','良','優(yōu)秀'] cuts = pd.cut(scores,grades,labels=group_names)
當(dāng)我們不需要自定義劃分區(qū)間時(shí),而是需要根據(jù)數(shù)據(jù)中最大值和最小值計(jì)算出等長的箱子。
代碼示例:
# 將成績均勻的分在四個(gè)箱子中,precision=2的選項(xiàng)將精度控制在兩位 cuts = pd.cut(scores,4,precision=2)
2.qcut()可以生成指定的箱子數(shù),然后使每個(gè)箱子都具有相同數(shù)量的數(shù)據(jù)
代碼示例:
import numpy as np import pandas as pd # 正態(tài)分布 data = np.random.randn(100) # 分四個(gè)箱子 cuts = pd.qcut(data,4) print('\ncuts:') print(cuts) print('\ncuts.value_counts:') print(pd.value_counts(cuts)) ======output:====== cuts: [(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]] Length: 100 Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] < ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (0.889, 2.834]] cuts.value_counts: (0.889, 2.834] ? ? ? ? ? ? ? ? ? 25 (-0.0723, 0.889] ? ? ? ? ? ? ? ? 25 (-0.745, -0.0723] ? ? ? ? ? ? ? ?25 (-3.1599999999999997, -0.745] ? ?25 dtype: int64
到此這篇關(guān)于python利用pd.cut()和pd.qcut()對(duì)數(shù)據(jù)進(jìn)行分箱操作的文章就介紹到這了,更多相關(guān)python pd.cut()和pd.qcut()分箱操作內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
詳解Python操作RabbitMQ服務(wù)器消息隊(duì)列的遠(yuǎn)程結(jié)果返回
RabbitMQ是一款基于MQ的服務(wù)器,Python可以通過Pika庫來進(jìn)行程序操控,這里我們將來詳解Python操作RabbitMQ服務(wù)器消息隊(duì)列的遠(yuǎn)程結(jié)果返回:2016-06-06簡(jiǎn)單的Apache+FastCGI+Django配置指南
這篇文章主要介紹了簡(jiǎn)單的Apache+FastCGI+Django配置指南,這也是Python上最流行的web框架Django的最流行搭配環(huán)境:)需要的朋友可以參考下2015-07-07Python中分?jǐn)?shù)的相關(guān)使用教程
這篇文章主要介紹了Python中分?jǐn)?shù)的相關(guān)使用教程,主要涉及分?jǐn)?shù)的計(jì)算、約分等簡(jiǎn)單操作,是Python學(xué)習(xí)過程當(dāng)中的基礎(chǔ),需要的朋友可以參考下2015-03-03python計(jì)算無向圖節(jié)點(diǎn)度的實(shí)例代碼
今天小編就為大家分享一篇python計(jì)算無向圖節(jié)點(diǎn)度的實(shí)例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-11-11Pycharm中配置遠(yuǎn)程Docker運(yùn)行環(huán)境的教程圖解
這篇文章主要介紹了Pycharm中配置遠(yuǎn)程Docker運(yùn)行環(huán)境,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06Python深入分析@property裝飾器的應(yīng)用
這篇文章主要介紹了Python @property裝飾器的用法,在Python中,可以通過@property裝飾器將一個(gè)方法轉(zhuǎn)換為屬性,從而實(shí)現(xiàn)用于計(jì)算的屬性,下面文章圍繞主題展開更多相關(guān)詳情,感興趣的小伙伴可以參考一下2022-07-07