python數(shù)據(jù)預(yù)處理 :數(shù)據(jù)共線性處理詳解
何為共線性:
共線性問(wèn)題指的是輸入的自變量之間存在較高的線性相關(guān)度。共線性問(wèn)題會(huì)導(dǎo)致回歸模型的穩(wěn)定性和準(zhǔn)確性大大降低,另外,過(guò)多無(wú)關(guān)的維度計(jì)算也很浪費(fèi)時(shí)間
共線性產(chǎn)生原因:
變量出現(xiàn)共線性的原因:
數(shù)據(jù)樣本不夠,導(dǎo)致共線性存在偶然性,這其實(shí)反映了缺少數(shù)據(jù)對(duì)于數(shù)據(jù)建模的影響,共線性僅僅是影響的一部分
多個(gè)變量都給予時(shí)間有共同或相反的演變趨勢(shì),例如春節(jié)期間的網(wǎng)絡(luò)銷(xiāo)售量和銷(xiāo)售額都相對(duì)與正常時(shí)間有下降趨勢(shì)。
多個(gè)變量存在一定的推移關(guān)系,但總體上變量間的趨勢(shì)一致,只是發(fā)生的時(shí)間點(diǎn)不一致,例如廣告費(fèi)用和銷(xiāo)售額之間,通常是品牌廣告先進(jìn)行大范圍的曝光和信息推送,經(jīng)過(guò)一定時(shí)間傳播之后,才會(huì)在銷(xiāo)售額上做出反映。
多變量之間存在線性的關(guān)系。例如y代表訪客數(shù),用x代表展示廣告費(fèi)用,那么二者的關(guān)系很可能是y=2*x + b
如何檢驗(yàn)共線性:
檢驗(yàn)共線性:
容忍度(Tolerance):容忍度是每個(gè)自變量作為因變量對(duì)其他自變量進(jìn)行回歸建模時(shí)得到的殘差比例,大小用1減得到的決定系數(shù)來(lái)表示。容忍度值越小說(shuō)明這個(gè)自變量與其他自變量間越可能存在共線性問(wèn)題。
方差膨脹因子 VIF是容忍度的倒數(shù),值越大則共線性問(wèn)題越明顯,通常以10作為判斷邊界。當(dāng)VIF<10,不存在多重共線性;當(dāng)10<=VIF<100,存在較強(qiáng)的多重共線性;當(dāng)VIF>=100, 存在嚴(yán)重多重共線性。
特征值(Eigenvalue):該方法實(shí)際上就是對(duì)自變量做主成分分析,如果多個(gè)維度的特征值等于0,則可能有比較嚴(yán)重的共線性。
相關(guān)系數(shù):如果相關(guān)系數(shù)R>0.8時(shí)就可能存在較強(qiáng)相關(guān)性
如何處理共線性:
處理共線性:
增大樣本量:增大樣本量可以消除猶豫數(shù)據(jù)量不足而出現(xiàn)的偶然的共線性現(xiàn)象,在可行的前提下這種方法是需要優(yōu)先考慮的
嶺回歸法(Ridge Regression):實(shí)際上是一種改良最小二乘估計(jì)法。通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià)來(lái)獲得更實(shí)際和可靠性更強(qiáng)的回歸系數(shù)。因此嶺回歸在存在較強(qiáng)共線性的回歸應(yīng)用中較為常用。
逐步回歸法(Stepwise Regression):每次引入一個(gè)自變量進(jìn)行統(tǒng)計(jì)檢驗(yàn),然后逐步引入其他變量,同時(shí)對(duì)所有變量的回歸系數(shù)進(jìn)行檢驗(yàn),如果原來(lái)引入的變量由于后面變量的引入而變得不再顯著,那么久將其剔除,逐步得到最有回歸方程。
主成分回歸(Principal Components Regression):通過(guò)主成分分析,將原始參與建模的變量轉(zhuǎn)換為少數(shù)幾個(gè)主成分,么個(gè)主成分是原變量的線性組合,然后基于主成分做回歸分析,這樣也可以在不丟失重要數(shù)據(jù)特征的前提下避開(kāi)共線性問(wèn)題。
人工去除:結(jié)合人工經(jīng)驗(yàn),對(duì)自變量進(jìn)行刪減,但是對(duì)操作者的業(yè)務(wù)能力、經(jīng)驗(yàn)有很高的要求。
部分方法python代碼實(shí)現(xiàn)
import numpy as np import pandas as pd from sklearn.linear_model import Ridge from sklearn.decomposition import PCA from sklearn.linear_model import LinearRegression # 導(dǎo)入數(shù)據(jù) df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv') # 切分自變量 X = df.iloc[:, 1:-1].values # 切分預(yù)測(cè)變量 y = df.iloc[:, [-1]].values # 使用嶺回歸處理 import matplotlib.pyplot as plt plt.figure(figsize=(8,6)) n_alphas = 20 alphas = np.logspace(-1,4,num=n_alphas) coefs = [] for a in alphas: ridge = Ridge(alpha=a, fit_intercept=False) ridge.fit(X, y) coefs.append(ridge.coef_[0]) ax = plt.gca() ax.plot(alphas, coefs) ax.set_xscale('log') handles, labels = ax.get_legend_handles_labels() plt.legend(labels=df.columns[1:-1]) plt.xlabel('alpha') plt.ylabel('weights') plt.axis('tight') plt.show()
只有nox有些許波動(dòng)。
# 主成分回歸進(jìn)行回歸分析 pca_model = PCA() data_pca = pca_model.fit_transform(X) # 得到所有主成分方差 ratio_cumsum = np.cumsum(pca_model.explained_variance_ratio_) # 獲取方差占比超過(guò)0.8的索引值 rule_index = np.where(ratio_cumsum > 0.9) # 獲取最小的索引值 min_index = rule_index[0][0] # 根據(jù)最小索引值提取主成分 data_pca_result = data_pca[:, :min_index+1] # 建立回歸模型 model_liner = LinearRegression() # 訓(xùn)練模型 model_liner.fit(data_pca_result, y) print(model_liner.coef_) #[[-0.02430516 -0.01404814]]
以上這篇python數(shù)據(jù)預(yù)處理 :數(shù)據(jù)共線性處理詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
讓你分分鐘學(xué)會(huì)python條件語(yǔ)句
學(xué)好Python和條件語(yǔ)句,將方便有效提高工作效率,這篇文章主要給大家介紹了關(guān)于python條件語(yǔ)句的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2021-08-08Python的Tornado框架實(shí)現(xiàn)異步非阻塞訪問(wèn)數(shù)據(jù)庫(kù)的示例
Tornado框架的異步非阻塞特性是其最大的亮點(diǎn),這里我們將立足于基礎(chǔ)來(lái)介紹一種簡(jiǎn)單的Python的Tornado框架實(shí)現(xiàn)異步非阻塞訪問(wèn)數(shù)據(jù)庫(kù)的示例:2016-06-06python3常用的數(shù)據(jù)清洗方法(小結(jié))
這篇文章主要介紹了python3常用的數(shù)據(jù)清洗方法(小結(jié)),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10Python3 requests文件下載 期間顯示文件信息和下載進(jìn)度代碼實(shí)例
這篇文章主要介紹了Python3 requests文件下載 期間顯示文件信息和下載進(jìn)度代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08Python中%是什么意思?python中百分號(hào)如何使用?
最近在學(xué)習(xí)python過(guò)程中,發(fā)現(xiàn)了%的一些情況,這里就簡(jiǎn)單介紹一下,,需要的朋友可以參考下2018-03-03python 讀寫(xiě)中文json的實(shí)例詳解
這篇文章主要介紹了 python 讀寫(xiě)中文json的實(shí)例詳解的相關(guān)資料,希望通過(guò)本文能幫助到大家,讓大家掌握這樣的內(nèi)容,需要的朋友可以參考下2017-10-10Pytorch mask_select 函數(shù)的用法詳解
今天小編就為大家分享一篇Pytorch mask_select 函數(shù)的用法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02