快捷導(dǎo)航

python實(shí)現(xiàn)數(shù)據(jù)挖掘中分箱的示例代碼

更新時間：2024年01月02日 09:25:39 作者：python收藏家

數(shù)據(jù)分箱（英語：Data?binning）是一種數(shù)據(jù)預(yù)處理方法,用于最大限度地減少小觀測誤差的影響,本文主要為大家介紹了python實(shí)現(xiàn)數(shù)據(jù)分箱的相關(guān)知識,感興趣的可以了解下

數(shù)據(jù)分箱（英語：Data binning）是一種數(shù)據(jù)預(yù)處理方法，用于最大限度地減少小觀測誤差的影響。原始數(shù)據(jù)值被劃分為稱為bin的小區(qū)間，然后用為該bin計算的一般值替換它們。這對輸入數(shù)據(jù)具有平滑效果，并且在小數(shù)據(jù)集的情況下還可以減少過擬合的機(jī)會。

有兩種常見方法可以將數(shù)據(jù)劃分到箱中：

等頻分箱：分箱具有相等的頻率，每個區(qū)間包含大致相等的實(shí)例數(shù)量。

等寬分箱：分箱具有等寬，每個分箱的范圍被定義為[min + w]，[min +2 w]， [min + n w],

其中w = (max – min)/（箱數(shù)）。

示例

等頻分箱

Input:[5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

等寬分箱

Input: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13, 15, 35, 50, 55, 72]
[92]
[204, 215]

分箱方法的Python實(shí)現(xiàn)

# equal frequency 
def equifreq(arr1, m):	 
	a = len(arr1) 
	n = int(a / m) 
	for i in range(0, m): 
		arr = [] 
		for j in range(i * n, (i + 1) * n): 
			if j >= a: 
				break
			arr = arr + [arr1[j]] 
		print(arr) 

# equal width 
def equiwidth(arr1, m): 
	a = len(arr1) 
	w = int((max(arr1) - min(arr1)) / m) 
	min1 = min(arr1) 
	arr = [] 
	for i in range(0, m + 1): 
		arr = arr + [min1 + w * i] 
	arri=[] 
	
	for i in range(0, m): 
		temp = [] 
		for j in arr1: 
			if j >= arr[i] and j <= arr[i+1]: 
				temp += [j] 
		arri += [temp] 
	print(arri) 

# data to be binned 
data = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] 

# no of bins 
m = 3

print("equal frequency binning") 
equifreq(data, m) 

print("\n\nequal width binning") 
equiwidth(data, 3)

輸出

equal frequency binning
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

equal width binning
[[5, 10, 11, 13, 15, 35, 50, 55, 72], [92], [204, 215]]