快捷導(dǎo)航

Python實現(xiàn)繪制置信區(qū)間

更新時間：2024年02月01日 09:22:58 作者：python收藏家

置信區(qū)間是從觀測數(shù)據(jù)的統(tǒng)計量計算的一種估計值,它給出了一個可能包含具有特定置信水平的總體參數(shù)的值范圍,下面我們就來看看如何使用Python繪制置信區(qū)間吧

平均值的置信區(qū)間是總體平均值可能位于其間的值的范圍。如果我預(yù)測明天的天氣在零下100度到+100度之間，我可以100%肯定這是正確的。然而，如果我預(yù)測溫度在20.4到20.5攝氏度之間，我就不那么有信心了。注意置信度如何隨著區(qū)間的減小而減小。這同樣適用于統(tǒng)計置信區(qū)間，但它們也依賴于其他因素。

一個95%的置信區(qū)間，會告訴我，如果我們從我的總體中取無限多個樣本，每次計算區(qū)間，那么在95%的區(qū)間中，區(qū)間將包含真正的總體均值。因此，對于一個樣本，我們可以計算樣本均值，并從中得到一個區(qū)間，該區(qū)間最有可能包含真實的總體均值。

置信區(qū)間（Confidence Interval）的概念是由Jerzy Neyman在1937年發(fā)表的一篇論文中提出的。置信區(qū)間有多種類型，最常用的是：平均值CI，中位數(shù)CI，平均值差異CI，比例CI和比例差異CI。

使用linepot()計算給定底層分布的CI

Seaborn中提供的lineplot（）函數(shù)是一個Python數(shù)據(jù)可視化庫，它最適合顯示一段時間內(nèi)的趨勢，但它也有助于繪制置信區(qū)間。

sns.lineplot(x=None, y=None, hue=None, size=None, style=None, data=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, dashes=True, markers=None, style_order=None, units=None, estimator=’mean’, ci=95, n_boot=1000, sort=True, err_style=’band’, err_kws=None, legend=’brief’, ax=None, **kwargs,)

默認情況下，該圖在每個x值處聚合多個y值，并顯示集中趨勢的估計值和該估計值的置信區(qū)間。

示例

# import libraries 
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt 

# generate random data 
np.random.seed(0) 
x = np.random.randint(0, 30, 100) 
y = x+np.random.normal(0, 1, 100) 

???????# create lineplot 
ax = sns.lineplot(x, y)

在上面的代碼中，變量x將存儲從0（含）到30（不含）的100個隨機整數(shù)，變量y將存儲來自高斯（正態(tài)）分布的100個樣本，該分布以0為中心，擴展/標(biāo)準(zhǔn)偏差為1。NumPy操作通常在逐個元素的基礎(chǔ)上對數(shù)組對進行。在最簡單的情況下，兩個數(shù)組必須具有完全相同的形狀，如上面的示例所示。最后，在seaborn庫的幫助下創(chuàng)建一個默認為95%置信區(qū)間的線圖。置信區(qū)間可以很容易地通過改變位于[0，100]范圍內(nèi)的參數(shù)“ci”的值來改變，這里我沒有傳遞這個參數(shù)，因此它認為默認值為95。

淺藍色陰影表示該點周圍的置信水平，如果置信度較高，則陰影線將更粗。

使用regplot（）計算給定底層分布CI

seaborn.regplot（）幫助繪制數(shù)據(jù)和線性回歸模型擬合。此功能還允許繪制置信區(qū)間。

seaborn.regplot( x, y, data=None, x_estimator=None, x_bins=None, x_ci=’ci’, scatter=True, fit_reg=True, ci=95, n_boot=1000, units=None, order=1, logistic=False, lowess=False, robust=False, logx=False, x_partial=None, y_partial=None, truncate=False, dropna=True, x_jitter=None, y_jitter=None, label=None, color=None, marker=’o’, scatter_kws=None, line_kws=None, ax=None)

基本上，它包括散點圖中的回歸線，并有助于查看兩個變量之間的任何線性關(guān)系。下面的例子將展示如何使用它來繪制置信區(qū)間。

# import libraries 
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt 

# create random data 
np.random.seed(0) 
x = np.random.randint(0, 10, 10) 
y = x+np.random.normal(0, 1, 10) 

# create regression plot 
ax = sns.regplot(x, y, ci=80)

regplot（）函數(shù)的工作方式與lineplot（）相同，默認情況下置信區(qū)間為95%。置信區(qū)間可以通過改變位于[0，100]范圍內(nèi)的參數(shù)“ci”的值來容易地改變。這里我傳遞了ci=80，這意味著繪制的置信區(qū)間不是默認的95%，而是80%。

淡藍色陰影的寬度表示回歸線周圍的置信水平。

使用Bootstrapping計算CI

Bootstrapping是一種使用隨機抽樣和替換的測試/度量。它給出了準(zhǔn)確性的度量（偏差、方差、置信區(qū)間、預(yù)測誤差等）抽樣估計。它允許使用隨機抽樣方法估計大多數(shù)統(tǒng)計量的抽樣分布。它也可以用于構(gòu)建假設(shè)檢驗。

# import libraries 
import pandas 
import numpy 
from sklearn.utils import resample 
from sklearn.metrics import accuracy_score 
from matplotlib import pyplot as plt 

# load dataset 
x = numpy.array([180,162,158,172,168,150,171,183,165,176]) 

# configure bootstrap 
n_iterations = 1000 # here k=no. of bootstrapped samples 
n_size = int(len(x)) 

# run bootstrap 
medians = list() 
for i in range(n_iterations): 
    s = resample(x, n_samples=n_size); 
    m = numpy.median(s); 
    medians.append(m) 

# plot scores 
plt.hist(medians) 
plt.show() 

# confidence intervals 
alpha = 0.95
p = ((1.0-alpha)/2.0) * 100
lower = numpy.percentile(medians, p) 
p = (alpha+((1.0-alpha)/2.0)) * 100
upper = numpy.percentile(medians, p) 

???????print(f"\n{alpha*100} confidence interval {lower} and {upper}")

導(dǎo)入所有必要的庫后，創(chuàng)建一個大小為n=10的樣本S，并將其存儲在變量x中。使用簡單的循環(huán)生成1000個樣本（=k），每個樣本大小m=10（因為m<=n）。這些樣本稱為bootstrapped樣本。計算它們的中位數(shù)并將其存儲在列表“medians”中。借助matplotlib庫繪制1000個bootstrapped樣本的中位數(shù)直方圖，并使用樣本統(tǒng)計量的公式置信區(qū)間計算基于樣本數(shù)據(jù)計算的指定置信水平下統(tǒng)計量總體值的上限和下限。