python驗證多組數(shù)據(jù)之間有無顯著差異

更新時間：2022年01月02日 15:23:35 作者：fff2zrx?

這篇文章主要介紹了python驗證多組數(shù)據(jù)之間有無顯著差異，利用方差分析和卡方分布驗證多組數(shù)據(jù)之間的某些屬性有無顯著性差異，對于連續(xù)性屬性可以用方差分析，對于離散型屬性可以用卡方檢驗。下面文章詳細內容需要的小伙伴可以參考一下

一、方差分析

1.單因素方差分析

通過箱線圖可以人肉看出10組的訂單量看起來差不多，為了更科學比較10組的訂單量有無顯著差異，我們可以利用方差分析

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('orders~C(label)',data=need_data).fit()
anova_table = anova_lm(model, typ = 2)
print(anova_table)

結果顯示，p值為0.62大于0.05，不能拒絕原假設，所以這10組的訂單量分布沒有顯著差異。

二、卡方檢驗

如果是比較多組之間的非連續(xù)值指標是否存在差異呢？

如檢查上面10組的男女比例是否存在顯著差異

計算各組觀察頻數(shù)：

data2=data1.melt(id_vars=['性別'],value_name='觀察頻數(shù)')
data2.head()

計算總體的男女比例：

rate=(data2.groupby(['性別'])['觀察頻數(shù)'].sum()/data2.groupby(['性別'])['觀察頻數(shù)'].sum().sum()).reset_index()
rate.columns=['性別','rate']
rate

計算各組用戶總數(shù)：

group_sum=data2.groupby(['組別'])['觀察頻數(shù)'].sum().reset_index()
group_sum.columns=['組別','組內用戶數(shù)']
group_sum

計算卡方值：

import math
data3=pd.merge(data2,group_sum,on=['組別'],how='left')
data3=pd.merge(data3,rate,on=['性別'],how='left')
data3['期望頻數(shù)']=data3['組內用戶數(shù)']*data3['rate']
data3['卡方值']=data3.apply(lambda x: math.pow((x.期望頻數(shù)-x.觀察頻數(shù)),2)/x.期望頻數(shù),axis=1)
data3.head()