基于Python實(shí)現(xiàn)一個(gè)多分類(lèi)的Logistic回歸模型的代碼示例
一、Logistic回歸簡(jiǎn)介
Logistic回歸是一種線性模型,用于二分類(lèi)問(wèn)題。它通過(guò)Sigmoid函數(shù)將線性回歸的輸出映射到(0, 1)區(qū)間內(nèi),從而得到樣本屬于某一類(lèi)的概率。對(duì)于多分類(lèi)問(wèn)題,可以使用Softmax函數(shù)將輸出映射到多個(gè)類(lèi)別上,使得每個(gè)類(lèi)別的輸出概率之和為1。
Logistic回歸模型的一般形式為:
其中,θ 是模型參數(shù),x 是輸入特征。
對(duì)于多分類(lèi)問(wèn)題,假設(shè)有 k 個(gè)類(lèi)別,則Softmax函數(shù)的形式為:
其中,θi 是第 i 個(gè)類(lèi)別的參數(shù)向量。
二、數(shù)據(jù)準(zhǔn)備
在實(shí)現(xiàn)多分類(lèi)Logistic回歸之前,我們需要準(zhǔn)備一些數(shù)據(jù)。這里我們使用經(jīng)典的Iris數(shù)據(jù)集,該數(shù)據(jù)集包含三個(gè)類(lèi)別的鳶尾花,每個(gè)類(lèi)別有50個(gè)樣本,每個(gè)樣本有4個(gè)特征。
以下是數(shù)據(jù)準(zhǔn)備的代碼:
import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加載Iris數(shù)據(jù)集 iris = load_iris() data = pd.DataFrame(data=iris.data, columns=iris.feature_names) data['target'] = iris.target # 顯示數(shù)據(jù)的前5行 print(data.head()) # 劃分訓(xùn)練集和測(cè)試集 X = data[iris.feature_names] # 特征 y = data['target'] # 目標(biāo)變量 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 特征縮放 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)
三、模型訓(xùn)練
在訓(xùn)練多分類(lèi)Logistic回歸模型時(shí),我們需要使用LogisticRegression類(lèi),并指定multi_class='multinomial'參數(shù)以使用多項(xiàng)邏輯回歸。此外,我們還需要指定優(yōu)化算法,這里使用solver='lbfgs'。
以下是模型訓(xùn)練的代碼:
from sklearn.linear_model import LogisticRegression # 創(chuàng)建Logistic回歸模型 model = LogisticRegression(multi_class='multinomial', solver='lbfgs') # 訓(xùn)練模型 model.fit(X_train, y_train) # 輸出模型的訓(xùn)練分?jǐn)?shù) print(f'Training score: {model.score(X_train, y_train)}')
四、模型評(píng)估
訓(xùn)練完模型后,我們需要對(duì)模型進(jìn)行評(píng)估,以了解其在測(cè)試集上的表現(xiàn)。常用的評(píng)估指標(biāo)包括準(zhǔn)確率、混淆矩陣和分類(lèi)報(bào)告。
以下是模型評(píng)估的代碼:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report # 對(duì)測(cè)試集進(jìn)行預(yù)測(cè) y_pred = model.predict(X_test) # 計(jì)算和顯示準(zhǔn)確率 accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}') # 計(jì)算和顯示混淆矩陣 conf_matrix = confusion_matrix(y_test, y_pred) print('Confusion Matrix:\n', conf_matrix) # 計(jì)算和顯示分類(lèi)報(bào)告 print(classification_report(y_test, y_pred))
五、代碼整合與運(yùn)行
以下是完整的代碼示例,可以直接運(yùn)行:
import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, confusion_matrix, classification_report # 加載Iris數(shù)據(jù)集 iris = load_iris() data = pd.DataFrame(data=iris.data, columns=iris.feature_names) data['target'] = iris.target # 顯示數(shù)據(jù)的前5行 print(data.head()) # 劃分訓(xùn)練集和測(cè)試集 X = data[iris.feature_names] # 特征 y = data['target'] # 目標(biāo)變量 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 特征縮放 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 創(chuàng)建Logistic回歸模型 model = LogisticRegression(multi_class='multinomial', solver='lbfgs') # 訓(xùn)練模型 model.fit(X_train, y_train) # 輸出模型的訓(xùn)練分?jǐn)?shù) print(f'Training score: {model.score(X_train, y_train)}') # 對(duì)測(cè)試集進(jìn)行預(yù)測(cè) y_pred = model.predict(X_test) # 計(jì)算和顯示準(zhǔn)確率 accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}') # 計(jì)算和顯示混淆矩陣 conf_matrix = confusion_matrix(y_test, y_pred) print('Confusion Matrix:\n', conf_matrix) # 計(jì)算和顯示分類(lèi)報(bào)告 print(classification_report(y_test, y_pred))
六、結(jié)果分析
運(yùn)行上述代碼后,你將得到模型的訓(xùn)練分?jǐn)?shù)、準(zhǔn)確率、混淆矩陣和分類(lèi)報(bào)告。以下是對(duì)這些結(jié)果的分析:
- 訓(xùn)練分?jǐn)?shù):這是模型在訓(xùn)練集上的準(zhǔn)確率,通常會(huì)比測(cè)試集上的準(zhǔn)確率要高。如果訓(xùn)練分?jǐn)?shù)過(guò)高而測(cè)試分?jǐn)?shù)過(guò)低,可能表明模型出現(xiàn)了過(guò)擬合。
- 準(zhǔn)確率:這是模型在測(cè)試集上的準(zhǔn)確率,是衡量模型性能的重要指標(biāo)。準(zhǔn)確率越高,說(shuō)明模型的性能越好。
- 混淆矩陣:混淆矩陣是一個(gè)表格,用于顯示模型在各個(gè)類(lèi)別上的預(yù)測(cè)結(jié)果。通過(guò)混淆矩陣,我們可以了解模型在各個(gè)類(lèi)別上的表現(xiàn),以及是否存在類(lèi)別混淆的情況。
- 分類(lèi)報(bào)告:分類(lèi)報(bào)告提供了每個(gè)類(lèi)別的精確率、召回率和F1分?jǐn)?shù)等指標(biāo)。精確率表示預(yù)測(cè)為正樣本的實(shí)例中真正為正樣本的比例;召回率表示所有真正的正樣本中被正確預(yù)測(cè)的比例;F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),用于綜合衡量模型的性能。
七、模型優(yōu)化
雖然上述代碼已經(jīng)實(shí)現(xiàn)了一個(gè)基本的多分類(lèi)Logistic回歸模型,但在實(shí)際應(yīng)用中,我們可能還需要對(duì)模型進(jìn)行優(yōu)化,以提高其性能。以下是一些常用的優(yōu)化方法:
- 特征選擇:選擇對(duì)模型性能有重要影響的特征進(jìn)行訓(xùn)練,可以提高模型的準(zhǔn)確性和泛化能力。
- 正則化:通過(guò)添加正則化項(xiàng)來(lái)防止模型過(guò)擬合。Logistic回歸中常用的正則化方法包括L1正則化和L2正則化。
- 調(diào)整超參數(shù):通過(guò)調(diào)整模型的超參數(shù)(如學(xué)習(xí)率、迭代次數(shù)等)來(lái)優(yōu)化模型的性能。
- 集成學(xué)習(xí):將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行組合,以提高模型的準(zhǔn)確性和穩(wěn)定性。常用的集成學(xué)習(xí)方法包括袋裝法(Bagging)和提升法(Boosting)。
八、結(jié)論
本文詳細(xì)介紹了如何使用Python實(shí)現(xiàn)一個(gè)多分類(lèi)的Logistic回歸模型,并給出了詳細(xì)的代碼示例。通過(guò)數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型評(píng)估和結(jié)果分析等步驟,我們了解了多分類(lèi)Logistic回歸的基本實(shí)現(xiàn)流程。此外,本文還介紹了模型優(yōu)化的一些常用方法,以幫助讀者在實(shí)際應(yīng)用中提高模型的性能。希望本文能為初學(xué)者提供有價(jià)值的參考,并在實(shí)踐中不斷提升自己的技能。
以上就是基于Python實(shí)現(xiàn)一個(gè)多分類(lèi)的Logistic回歸模型的代碼示例的詳細(xì)內(nèi)容,更多關(guān)于Python Logistic回歸模型的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
pandas 如何保存數(shù)據(jù)到excel,csv
這篇文章主要介紹了pandas 如何保存數(shù)據(jù)到excel,csv的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07Python函數(shù)的參數(shù)常見(jiàn)分類(lèi)與用法實(shí)例詳解
這篇文章主要介紹了Python函數(shù)的參數(shù)常見(jiàn)分類(lèi)與用法,結(jié)合實(shí)例形式較為詳細(xì)的分析了Python函數(shù)的形參、實(shí)參、默認(rèn)參數(shù)、可變參數(shù)等概念、使用方法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-03-03Python OpenCV實(shí)現(xiàn)識(shí)別信用卡號(hào)教程詳解
本文將介紹如何通過(guò) OpenCV 和 Python 使用模板匹配來(lái)執(zhí)行光學(xué)字符識(shí)別 (OCR),再應(yīng)用我們的模板匹配 OCR 方法來(lái)識(shí)別信用卡類(lèi)型以及 16 位信用卡數(shù)字。代碼具有一定價(jià)值,感興趣的童鞋可以了解一下2021-11-111分鐘快速生成用于網(wǎng)頁(yè)內(nèi)容提取的xslt
這篇文章主要教大家如何1分鐘快速生成用于網(wǎng)頁(yè)內(nèi)容提取的xslt,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-02-02Python裝飾器的應(yīng)用場(chǎng)景代碼總結(jié)
這篇文章主要介紹了Python裝飾器的應(yīng)用場(chǎng)景,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04python 數(shù)據(jù)庫(kù)查詢(xún)返回list或tuple實(shí)例
這篇文章主要介紹了python 數(shù)據(jù)庫(kù)查詢(xún)返回list或tuple實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05Numpy數(shù)據(jù)轉(zhuǎn)換成image并保存的實(shí)現(xiàn)示例
本文主要介紹了Numpy數(shù)據(jù)轉(zhuǎn)換成image并保存的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-12-12