亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

R語言glmnet包lasso回歸中分類變量的處理圖文詳解

 更新時間:2022年11月03日 15:38:23   作者:天橋下的賣藝者  
Lasso回歸又稱為套索回歸,是Robert?Tibshirani于1996年提出的一種新的變量選擇技術(shù),下面這篇文章主要給大家介紹了關(guān)于R語言glmnet包lasso回歸中分類變量的處理的相關(guān)資料,需要的朋友可以參考下

我們在既往文章《手把手教你使用R語言做LASSO 回歸》中介紹了glmnet包進行l(wèi)asso回歸,后臺不少粉絲發(fā)信息向我問到分類變量處理的問題,我后面查了一下資料之前文章分類變量沒有處理,非常抱歉?,F(xiàn)在來重新聊一聊分類變量的處理。

我們導入glmnet包的時候可以看到,還需要導入一個Matrix包,說明這個矩陣包很重要

按照glmnet包的原文如下:

就是告訴我們,除了Cox Model外,其他的表達都支持矩陣形式,在Cox Model的介紹中,函數(shù)樣式為

說明我們應(yīng)該把其他變量變?yōu)榫仃嚨男问?。這樣說得不是很明白,下面我們來舉個例子說明,繼續(xù)使用我們的乳腺癌數(shù)據(jù)(公眾號回復:乳腺癌,可以獲得數(shù)據(jù))我們先導入數(shù)據(jù)和R包

library(glmnet)
library(foreign)
library("survival")
bc <- read.spss("E:/r/Breast cancer survival agec.sav",
                use.value.labels=F, to.data.frame=T)
bc <- na.omit(bc)

我們先來看看數(shù)據(jù):

age表示年齡,pathsize表示病理腫瘤大?。ɡ迕祝?,lnpos表示腋窩淋巴結(jié)陽性,histgrad表示病理組織學等級,er表示雌激素受體狀態(tài),pr表示孕激素受體狀態(tài),status結(jié)局事件是否死亡,pathscat表示病理腫瘤大小類別(分組變量),ln_yesno表示是否有淋巴結(jié)腫大,time是生存時間,后面的agec是我們自己設(shè)定的,不用管它。

接下來刪除缺失變量和把分類變量轉(zhuǎn)成因子

bc$er<-as.factor(bc$er)
bc$pr<-as.factor(bc$pr)
bc$ln_yesno<-as.factor(bc$ln_yesno)
bc$histgrad<-as.factor(bc$histgrad)
bc$pathscat<-as.factor(bc$pathscat)

我們先來進行一個lasso的cox模型

glmnet包只能接受矩陣形式的數(shù)據(jù),我們要分別進行轉(zhuǎn)換

先把結(jié)局和時間提取出來

y<-bc$status
time<-bc$time

把id,結(jié)局變量,時間變量和一個亂七八糟的變量刪掉

data1<-bc[,-c(1,8,11,12)]##把id,結(jié)局變量,時間變量和一個亂七八糟的變量刪掉

把分類變量變成啞變量矩陣形式

model_mat <-model.matrix(~ +er+pr+ln_yesno+histgrad+pathscat-1,data1)###把分類變量變成啞變量矩陣形式

重新組成數(shù)據(jù),也就是我們需要的x

x<-as.matrix(data.frame(age=data1$age,
                        pathsize=data1$pathsize,lnpos=data1$lnpos,model_mat))#重新組合成數(shù)據(jù)

弄好x就可以進行分析了,交叉驗證最好設(shè)一個種子,

set.seed(123)
cv.fit <- cv.glmnet(x,Surv(time,y),family="cox", maxit = 1000)
plot(cv.fit)

maxit = 1000是讓它迭代100次的意思,如果迭代沒到1000次,可能會出現(xiàn)一次報錯,這在官方說明里面也有講到,但我用兩種方法算了一遍,結(jié)果都是一樣的,沒有錯

下圖是官方說明

有興趣的可以試一下這樣算,結(jié)果也是一樣的,但也要先設(shè)一個種子

set.seed(123)
cv.fit1<- cv.glmnet(x,Surv(time,y),family="cox", alpha=1,nfolds=10)
plot(cv.fit1)

取最小值,也都是一樣的

cv.fit$lambda.min
cv.fit1$lambda.min

fit <- glmnet(x, Surv(time,y), family =  "cox", maxit = 1000)
plot(fit)

查看和提取系數(shù)

Coefficients <- coef(fit, s = cv.fit$lambda.min)
Active.Index <- which(Coefficients != 0)
Active.Coefficients <- Coefficients[Active.Index]
Active.Index
Active.Coefficients

上圖標出了最后還剩下的變量(指的是它的位置)和變量的系數(shù),自己對照x看一下就可以了。值得一提的是我看到官方的示例cox模型只取最小的lambda,這樣大家就不用這么糾結(jié)了,還有一個是它沒有預測功能,不能進行預測。

下面來進行Binomial Models,也就是我們的二分類變量模型,其實就是不用時間變量就行了,其他都差不多,繼續(xù)拿乳腺癌數(shù)據(jù)演示,懶得找數(shù)據(jù)了,上一篇文章就是拿乳腺癌來模擬二分類數(shù)據(jù)的(當時沒找到好的數(shù)據(jù))。

fit1 = glmnet(x, y, family = "binomial")
plot(fit1, xvar = "dev", label = TRUE)

換成lambda

plot(fit1, xvar="lambda", label=TRUE)

其實到了這里基本和上一篇差不多了

set.seed(999)
cvfit=cv.glmnet(x,y, family = "binomial")
plot(cvfit)

求出最小值

cvfit$lambda.min#求出最小值
cvfit$lambda.1se#求出最小值一個標準誤的λ值

求出系數(shù)

coef1<-coef(cvfit, s = "lambda.min")
coef2<-coef(cvfit, s = "lambda.1se")
coef1
coef2

有一個已經(jīng)被懟沒有了,只能選coef1了。

到此這篇關(guān)于R語言glmnet包lasso回歸中分類變量處理的文章就介紹到這了,更多相關(guān)R語言lasso回歸分類變量內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:

相關(guān)文章

  • R語言-如何將循環(huán)所得的矩陣組成一個矩陣

    R語言-如何將循環(huán)所得的矩陣組成一個矩陣

    這篇文章主要介紹了R語言實現(xiàn)將循環(huán)所得的矩陣組成一個矩陣的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言時間序列知識點總結(jié)

    R語言時間序列知識點總結(jié)

    在本篇文章里小編給大家整理了一篇關(guān)于R語言時間序列知識點總結(jié)內(nèi)容,有興趣的朋友們可以學習下。
    2021-03-03
  • R語言基本語法知識點

    R語言基本語法知識點

    在本篇文章里小編給大家整理的是一篇關(guān)于R語言基本語法知識點內(nèi)容,有興趣的朋友們可以參考學習下。
    2021-03-03
  • R語言環(huán)狀熱力圖的畫法

    R語言環(huán)狀熱力圖的畫法

    環(huán)狀熱力圖是一種以環(huán)狀布局展示數(shù)據(jù)的可視化方法,本文主要介紹了R語言環(huán)狀熱力圖的畫法,具有一定的參考價值,感興趣的可以了解一下
    2024-02-02
  • R語言 實現(xiàn)將數(shù)據(jù)框中的字符類型數(shù)字轉(zhuǎn)換為數(shù)值

    R語言 實現(xiàn)將數(shù)據(jù)框中的字符類型數(shù)字轉(zhuǎn)換為數(shù)值

    這篇文章主要介紹了R語言 實現(xiàn)將數(shù)據(jù)框中的字符類型數(shù)字轉(zhuǎn)換為數(shù)值,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • R語言matrix生成矩陣的方法

    R語言matrix生成矩陣的方法

    這篇文章主要介紹了R語言matrix生成矩陣的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-03-03
  • R語言 檢驗多重共線性的操作

    R語言 檢驗多重共線性的操作

    這篇文章主要介紹了R語言 檢驗多重共線性的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)

    R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)

    這篇文章主要介紹了R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言 數(shù)據(jù)集行列互換的技巧分享

    R語言 數(shù)據(jù)集行列互換的技巧分享

    這篇文章主要介紹了R語言 數(shù)據(jù)集行列互換的技巧分享,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • R語言對Web數(shù)據(jù)操作實例

    R語言對Web數(shù)據(jù)操作實例

    在本篇文章里小編給大家整理的是一篇關(guān)于R語言對Web數(shù)據(jù)操作實例內(nèi)容,有興趣的朋友們可以學習下。
    2021-05-05

最新評論