腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

如何用Python進(jìn)行回歸分析與相關(guān)分析

更新時間：2023年03月22日 17:14:54 作者：二十六夜.

這篇文章主要介紹了如何用Python進(jìn)行回歸分析與相關(guān)分析,這兩部分內(nèi)容會放在一起講解,文中提供了解決思路以及部分實(shí)現(xiàn)代碼,需要的朋友可以參考下

一、前言

1.1 回歸分析

是用于研究分析某一變量受其他變量影響的分析方法，其基本思想是以被影響變量為因變量，以影響變量為自變量，研究因變量與自變量之間的因果關(guān)系。

1.2 相關(guān)分析

不考慮變量之間的因果關(guān)系而只研究變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。

二、代碼的編寫

2.1 前期準(zhǔn)備

在編寫代碼之前，我們首先要知道需要用到的庫有哪些。分別為：pandas\numpy\statsmodels\patsy。如果沒有安裝這些庫是無法運(yùn)行代碼的，因此需要提前安裝好這幾個庫。安裝方法我在基礎(chǔ)篇的第一章已經(jīng)寫有，可以進(jìn)行參考：如何在Python中導(dǎo)入EXCEL數(shù)據(jù)

然后便可以導(dǎo)入庫和所要處理的數(shù)據(jù)了。

import pandas as pd
import numpy as np
import statsmodels.api as sm
from patsy import dmatrices
data=pd.read_excel(r'D:\雜貨\編碼數(shù)據(jù).xlsx',sheet_name='編碼數(shù)據(jù)')

展示以下我所導(dǎo)入的數(shù)據(jù)的樣式：

我準(zhǔn)備的excel表格的數(shù)據(jù)比較多，在python中輸出出來大概就是這個樣子，至于這些數(shù)字是什么含義不用過多理會，這并不影響本篇方法的介紹。

2.2 編寫代碼

2.2.1 相關(guān)分析

首先介紹最簡單的一個數(shù)據(jù)指標(biāo)：相關(guān)系數(shù)

代碼如下：

v=data['Q1'].corr(data['Q2'])#相關(guān)系數(shù)（求某兩個變量的相關(guān)系數(shù)）
print(v)
v=data.corr()#求所有變量之間的相關(guān)系數(shù)
print(v)

前者是指定求某兩個變量間的相關(guān)系數(shù)，而后者是直接接計(jì)算出所有變量的相關(guān)系數(shù)。

輸出結(jié)果如下：

前者：

后者：

2.2.2 一元線性回歸分析

代碼如下：

x=np.array(data['Q1'])#一元線性回歸分析
y=np.array(data['Q2'])
X=sm.add_constant(x)#向x左側(cè)添加截距列x0=[1,……,1]
model=sm.OLS(y,X)#建立最小二乘估計(jì)
fit=model.fit()#擬合模型
print(fit.summary())

該方法是通過矩陣的形式進(jìn)行運(yùn)算的，首先將要輸入的數(shù)據(jù)x,y轉(zhuǎn)換為矩陣的形式，然后再給自變量x增加一列截距列，形成X矩陣，再進(jìn)行最小二乘估計(jì)，然后擬合結(jié)果。

矩陣形式： $Y=X\beta$

輸出結(jié)果如下：

2.2.3 多元線性回歸分析

vars=['Q1','Q2','Q6','Q7']#多元線性回歸分析
df=data[vars]#將輸入的數(shù)據(jù)轉(zhuǎn)換為矩陣（數(shù)組）形式
y,X=dmatrices('Q1~Q2+Q6+Q7',data=df,return_type='dataframe')
model=sm.OLS(y,X)
fit=model.fit()
print(fit.summary())

多元的代碼的編寫形式與一元的編寫形式實(shí)質(zhì)上差別不大，不同的地方在于第三行代碼，其形式為 y,X=dmatrices('Q1~Q2+Q6+Q7',data=df,return_type='dataframe')，而該行代碼的形式也是固定的，括號中的'Q1~Q2+Q6+Q7'這部分可根據(jù)個人想要模擬的方程形式編寫，Q1為因變量，Q2,Q6,Q7……等部分為自變量，個數(shù)不限；data=df部分是將轉(zhuǎn)換好的矩陣（數(shù)組）賦值給data；而return_type='dataframe'部分可以直接使用，一般不需要更改。

model=sm.OLS(y,X)進(jìn)行最小二乘估計(jì)，fit=model.fit()進(jìn)行模型的擬合，最后輸出的fit.summary()即我們所需要的表格。

輸出結(jié)果如下：

補(bǔ)充：

在此附上關(guān)于多元回歸模型的一些內(nèi)容，可幫助理解矩陣形式的回歸模型。（摘自：《計(jì)量經(jīng)濟(jì)學(xué)基礎(chǔ)》張曉峒）

2.2.4 廣義線性回歸分析

廣義的線性回歸分析包括四種模型，分別為：正態(tài)分布擬合；二項(xiàng)分布擬合；泊松分布擬合；伽馬分布擬合。

本人常用二項(xiàng)分布，因此本篇以二項(xiàng)分布為例進(jìn)行介紹。

代碼如下：

vars2=['Q1','Q2']#廣義線性回歸分析
vars1=['Q6','Q7','Q8','Q9']
glm_binom=sm.GLM(data[vars2],data[vars1],family=sm.families.Binomial())
res=glm_binom.fit()
print(res.summary())

需要注意的是：若在廣義線性回歸分析中的vars2的數(shù)據(jù)換成0-1形式的，則其結(jié)果與logistic回歸分析的結(jié)果一致，即可以說0-1形式的因變量的廣義線性回歸為邏輯回歸。

輸出結(jié)果如下：

2.2.5 logistic回歸分析

代碼如下：

vars1=['Q6','Q7','Q8','Q9']
logit_mod=sm.Logit(data['Q13|3'],data[vars1])#logistic回歸分析，注意：data['Q13|3']的位置里的數(shù)據(jù)必須是0-1形式?。。?
logit_res=logit_mod.fit(disp=0)
print(logit_res.summary())

logistic回歸的代碼的編寫形式與前面幾個回歸差別不大，理解起來不難，就不再重復(fù)講述。但需要注意的是，在使用邏輯回歸時，sm.Logit(data['Q13|3'],data[vars1])中的data['Q13|3']的數(shù)據(jù)必須為0-1形式，亦可說必須為虛擬變量的形式，否則程序會報(bào)錯。這是邏輯回歸本身的含義，具體可自行查找邏輯回歸的資料學(xué)習(xí)。

輸出結(jié)果如下：

三、代碼集合

import pandas as pd
import numpy as np
import statsmodels.api as sm
from patsy import dmatrices
data=pd.read_excel(r'D:\雜貨\編碼數(shù)據(jù).xlsx',sheet_name='編碼數(shù)據(jù)')
pd.set_option('display.max_columns',1000)
pd.set_option("display.width",1000)
pd.set_option('display.max_colwidth',1000)
pd.set_option('display.max_rows',1000)
print(data)
 
v=data['Q1'].corr(data['Q2'])#相關(guān)系數(shù)
print(v)
 
x=np.array(data['Q1'])#一元線性回歸分析
y=np.array(data['Q2'])
X=sm.add_constant(x)#向x左側(cè)添加截距列x0=[1,……,1]
model=sm.OLS(y,X)#建立最小二乘估計(jì)
fit=model.fit()#擬合模型
print(fit.summary())
 
vars=['Q1','Q2','Q6','Q7']#多元線性回歸分析
df=data[vars]
y,X=dmatrices('Q1~Q2+Q6+Q7',data=df,return_type='dataframe')
model=sm.OLS(y,X)
fit=model.fit()
print(fit.summary())
 
vars2=['Q1','Q2']#廣義線性回歸分析
vars1=['Q6','Q7','Q8','Q9']
glm_binom=sm.GLM(data[vars2],data[vars1],family=sm.families.Binomial())
res=glm_binom.fit()
print(res.summary())
 
logit_mod=sm.Logit(data['Q13|3'],data[vars1])#logistic回歸分析，注意：data['Q13|3']的位置里的數(shù)據(jù)必須是0-1形式?。?！
logit_res=logit_mod.fit(disp=0)
print(logit_res.summary())
#若在廣義線性回歸分析中的vars2的數(shù)據(jù)換成0-1形式的，則其結(jié)果與logistic回歸分析的結(jié)果一致。

到此這篇關(guān)于如何用Python進(jìn)行回歸分析與相關(guān)分析的文章就介紹到這了,更多相關(guān)python 數(shù)據(jù)分析回歸數(shù)據(jù)挖掘內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

如何用Python進(jìn)行回歸分析與相關(guān)分析

目錄

一、前言

1.1 回歸分析

1.2 相關(guān)分析

二、代碼的編寫

2.1 前期準(zhǔn)備

2.2 編寫代碼

2.2.1 相關(guān)分析

2.2.2 一元線性回歸分析

2.2.3 多元線性回歸分析

2.2.4 廣義線性回歸分析

2.2.5 logistic回歸分析

三、代碼集合

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

如何用Python進(jìn)行回歸分析與相關(guān)分析

目錄

一、前言

1.1 回歸分析

1.2 相關(guān)分析

二、代碼的編寫

2.1 前期準(zhǔn)備

2.2 編寫代碼

2.2.1 相關(guān)分析

2.2.2 一元線性回歸分析

2.2.3 多元線性回歸分析

2.2.4 廣義線性回歸分析

2.2.5 logistic回歸分析

三、代碼集合

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、前言

二、代碼的編寫