Python機(jī)器學(xué)習(xí)庫sklearn(scikit-learn)的基礎(chǔ)知識和高級用法

更新時間：2023年07月24日 09:44:28 作者：陸理手記

Scikit-Learn是 Python 最流行的機(jī)器學(xué)習(xí)庫之一，它提供了各種工具來實(shí)現(xiàn)、評估和探索各種學(xué)習(xí)算法，用于,各種機(jī)器學(xué)習(xí)任務(wù),在本教程中，我們將介紹 Scikit-Learn 的基礎(chǔ)知識和一些高級用法，并提供一些實(shí)例代碼來幫助我們更好地理解

1. sklearn基礎(chǔ)介紹

sklearn（全名為scikit-learn）是一個建立在NumPy、SciPy和matplotlib等科學(xué)計算庫的基礎(chǔ)上，用于機(jī)器學(xué)習(xí)的Python開源庫。它提供了豐富的工具和函數(shù)，用于處理各種機(jī)器學(xué)習(xí)任務(wù)，包括分類、回歸、聚類、降維、模型選擇、預(yù)處理等。Scikit-Learn支持多種常見的機(jī)器學(xué)習(xí)算法，如線性回歸、邏輯回歸、決策樹、支持向量機(jī)、隨機(jī)森林、K近鄰、聚類算法等。此外，它還提供了各種評估指標(biāo)和模型選擇技術(shù)，如交叉驗(yàn)證、特征選擇、參數(shù)調(diào)優(yōu)等，以幫助用戶選擇和優(yōu)化合適的模型。

有幾個原因使Scikit-Learn成為機(jī)器學(xué)習(xí)領(lǐng)域最受歡迎的庫之一：

簡單易用：Scikit-Learn具有一致的API設(shè)計，易于上手和使用。
豐富的文檔和示例：Scikit-Learn提供了詳細(xì)的文檔和大量的示例代碼，幫助用戶快速入門和理解各種機(jī)器學(xué)習(xí)算法。
高效可擴(kuò)展：Scikit-Learn使用底層的NumPy和SciPy庫進(jìn)行高效的數(shù)值計算，并且可以無縫地與其他Python數(shù)據(jù)科學(xué)庫集成。
健壯穩(wěn)定：Scikit-Learn是一個經(jīng)過廣泛使用和測試的庫，具有良好的代碼質(zhì)量和穩(wěn)定性。

總而言之，Scikit-Learn提供了一個功能強(qiáng)大、易于使用和擴(kuò)展的框架，使Python成為機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域的首選語言之一。

Scikit-Learn是 Python 最流行的機(jī)器學(xué)習(xí)庫之一，它提供了各種工具來實(shí)現(xiàn)、評估和探索各種學(xué)習(xí)算法，用于各種機(jī)器學(xué)習(xí)任務(wù)。

基礎(chǔ)用法包括：

數(shù)據(jù)預(yù)處理：探索數(shù)據(jù)清洗、縮放和編碼分類變量等工具。
訓(xùn)練集和測試集劃分：使用Scikit-Learn的train_test_split函數(shù)將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。
模型訓(xùn)練：應(yīng)用不同的機(jī)器學(xué)習(xí)算法，如線性回歸、邏輯回歸、決策樹和隨機(jī)森林，對數(shù)據(jù)集進(jìn)行訓(xùn)練。
模型評估：使用準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)等評估指標(biāo)評估模型性能。

2. 安裝與導(dǎo)入

首先，確保已經(jīng)正確安裝了 Scikit-Learn。您可以使用以下命令進(jìn)行安裝：

pip install scikit-learn
# 安裝完成后，使用下面的代碼導(dǎo)入 Scikit-Learn
import sklearn

Scikit-Learn中默認(rèn)攜帶了Iris（鳶尾花數(shù)據(jù)集）breast-cancer(乳腺癌數(shù)據(jù)集)，我們可以借助這兩個數(shù)據(jù)集來進(jìn)行sklearn的入門學(xué)習(xí)。本文使用Iris進(jìn)行演示。

3. 數(shù)據(jù)預(yù)處理

在開始機(jī)器學(xué)習(xí)任務(wù)之前，通常需要對數(shù)據(jù)進(jìn)行預(yù)處理。Scikit-Learn 提供了許多用于數(shù)據(jù)預(yù)處理的函數(shù)和類。以下是一些常用的數(shù)據(jù)預(yù)處理方法：

3.1 特征縮放:

特征縮放是指將數(shù)據(jù)集中的特征值進(jìn)行標(biāo)準(zhǔn)化或歸一化的過程。

特征縮放的目的是為了消除特征之間的量綱差異，使得不同特征之間的比較更加合理和準(zhǔn)確。

例如，假設(shè)我們有一個數(shù)據(jù)集，其中包含了三個特征A、B和C。特征A的取值范圍是0到100，特征B的取值范圍是0到10，而特征C的取值范圍是0到1000。如果我們不對這些特征進(jìn)行特征縮放，那么特征A和特征C之間的比較就沒有意義，因?yàn)樗鼈兊牧烤V不同。

因此，在機(jī)器學(xué)習(xí)中，我們通常會對數(shù)據(jù)集中的特征進(jìn)行特征縮放，使得不同特征之間的比較更加合理和準(zhǔn)確。

常用的特征縮放方法包括標(biāo)準(zhǔn)化、歸一化、最大最小值縮放等。標(biāo)準(zhǔn)化是指將特征值除以其最大值和最小值，使得特征值落在0到1之間。歸一化是指將特征值除以其最大值，使得特征值落在0到1之間。這兩種方法都可以消除特征之間的量綱差異，使得不同特征之間的比較更加合理和準(zhǔn)確。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 加載鳶尾花數(shù)據(jù)集
iris = load_iris()
X = iris.data
y = iris.target
# 劃分訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 進(jìn)行特征縮放（默認(rèn)縮放為單位方差）
# scaler = StandardScaler()
# X_train = scaler.fit_transform(X_train)
# X_test = scaler.transform(X_test)
# 進(jìn)行最大最小值縮放
from sklearn.preprocessing import MinMaxScaler
# feature_range:設(shè)置縮放后的值范圍默認(rèn)最小0 最大值1，
scaler = MinMaxScaler(feature_range=(0,0.0000000000001))
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 訓(xùn)練機(jī)器學(xué)習(xí)模型
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X_train, y_train)
# 預(yù)測測試集結(jié)果
y_pred = clf.predict(X_test)
# 輸出模型準(zhǔn)確率
print("模型準(zhǔn)確率：", clf.score(X_test, y_test))

輸出結(jié)果：

# 特征縮放
模型準(zhǔn)確率： 1.0
# 最大最小值縮放
模型準(zhǔn)確率： 0.3

3.2 缺失值處理

當(dāng)數(shù)據(jù)集中存在缺失值時，我們需要進(jìn)行處理以避免影響模型的性能。Scikit-Learn提供了多種填補(bǔ)缺失值的方法，其中最常見的是使用平均值、中位數(shù)或眾數(shù)來填充數(shù)值型特征，使用最常見的類別來填充分類特征。

# 進(jìn)行缺失值處理
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values='NaN', strategy='mean', fill_value=0)
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

3.3 降維

sklearn提供了多種降維方法，包括主成分分析（PCA）、因子分析（FA）、多維標(biāo)度（MDS）、主軸檢驗(yàn)（Pca）等。

主成分分析（PCA）

主成分分析（PCA）是一種線性降維方法，它通過計算數(shù)據(jù)的協(xié)方差矩陣，并對其進(jìn)行特征值分解，從而找到一個或多個主成分，將數(shù)據(jù)降維到較低維度的空間中。PCA可以消除數(shù)據(jù)中的噪聲和冗余信息，從而使得機(jī)器學(xué)習(xí)模型更加穩(wěn)定和準(zhǔn)確。

因子分析（FA）

因子分析（FA）是一種非線性降維方法，它通過計算數(shù)據(jù)的相關(guān)矩陣，并對其進(jìn)行特征值分解，從而找到一組或多組因子，將數(shù)據(jù)降維到較低維度的空間中。FA可以更好地保留數(shù)據(jù)中的信息和結(jié)構(gòu)，從而使得機(jī)器學(xué)習(xí)模型更加穩(wěn)定和準(zhǔn)確。

多維標(biāo)度（MDS）

多維標(biāo)度（MDS）是一種非線性降維方法，它通過計算數(shù)據(jù)的距離矩陣，并對其進(jìn)行特征值分解，從而找到一組或多組多維標(biāo)度，將數(shù)據(jù)降維到較低維度的空間中。MDS可以更好地保留數(shù)據(jù)中的信息和結(jié)構(gòu)，從而使得機(jī)器學(xué)習(xí)模型更加穩(wěn)定和準(zhǔn)確。

主軸檢驗(yàn)（Pca）

主軸檢驗(yàn)（Pca）是一種非線性降維方法，它通過計算數(shù)據(jù)的協(xié)方差矩陣，并對其進(jìn)行特征值分解，從而找到一組或多組主軸，將數(shù)據(jù)降維到較低維度的空間中。Pca可以更好地保留數(shù)據(jù)中的信息和結(jié)構(gòu)，從而使得機(jī)器學(xué)習(xí)模型更加穩(wěn)定和準(zhǔn)確。

以PCA為例：

from sklearn.decomposition import PCA
# 初始化一個 PCA 模型，并指定降到的目標(biāo)維度
pca = PCA(n_components=2)
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

3.4 分類變量編碼

許多機(jī)器學(xué)習(xí)算法只能處理數(shù)值型特征，而無法直接處理分類變量。在這種情況下，我們需要將分類變量進(jìn)行編碼。Scikit-Learn提供了多種編碼分類變量的方法，例如獨(dú)熱編碼和標(biāo)簽編碼。

from sklearn.preprocessing import OneHotEncoder
# 創(chuàng)建一個OneHotEncoder對象
 encoder = OneHotEncoder()
# 假設(shè)X是一個包含分類變量的數(shù)據(jù)集，使用encoder進(jìn)行獨(dú)熱編碼
 X_encoded = encoder.fit_transform(X)

以上示例介紹了Scikit-Learn中基本的數(shù)據(jù)預(yù)處理技術(shù)，涵蓋了缺失值處理、特征縮放和分類變量編碼。根據(jù)具體的需求和數(shù)據(jù)特點(diǎn)，我們可以選擇適當(dāng)?shù)念A(yù)處理技術(shù)來處理數(shù)據(jù)，并準(zhǔn)備好輸入機(jī)器學(xué)習(xí)模型。

4. 模型選擇與訓(xùn)練

模型選擇與訓(xùn)練是機(jī)器學(xué)習(xí)中的關(guān)鍵步驟之一，Scikit-Learn提供了豐富的功能和工具來實(shí)現(xiàn)這些任務(wù)。

4.1 數(shù)據(jù)集劃分

數(shù)據(jù)集劃分是為了使用一部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練，另一部分?jǐn)?shù)據(jù)進(jìn)行模型測試。這樣可以評估模型在新數(shù)據(jù)上的性能，并檢測是否存在過擬合或欠擬合等問題。Scikit-Learn提供了train_test_split函數(shù)來幫助劃分?jǐn)?shù)據(jù)集。

from sklearn.model_selection import train_test_split
# 假設(shè)X是特征矩陣，y是目標(biāo)變量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4.2 建立模型

Scikit-Learn提供了多種機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)，包括線性回歸、邏輯回歸、決策樹、支持向量機(jī)等。使用這些算法之前，我們需要創(chuàng)建一個相應(yīng)的模型對象并設(shè)置相應(yīng)的參數(shù)。

from sklearn.linear_model import LinearRegression
# 創(chuàng)建一個線性回歸模型對象
model = LinearRegression()
# 使用模型對象進(jìn)行訓(xùn)練
model.fit(X_train, y_train)

Scikit-Learn 提供了多種用于分類和回歸任務(wù)的算法和模型。以下是幾個常用的算法：

支持向量機(jī)（SVM）

from sklearn.svm import SVC
# 初始化一個支持向量機(jī)分類器
clf = SVC()
# 使用分類器進(jìn)行訓(xùn)練
clf.fit(X_train, y_train)
# 使用分類器進(jìn)行預(yù)測
y_pred = clf.predict(X_test)

決策樹

from sklearn.tree import DecisionTreeClassifier
# 初始化一個決策樹分類器
clf = DecisionTreeClassifier()
# 使用分類器進(jìn)行訓(xùn)練
clf.fit(X_train, y_train)
# 使用分類器進(jìn)行預(yù)測
y_pred = clf.predict(X_test)

線性回歸

from sklearn.linear_model import LinearRegression
# 初始化一個線性回歸模型
reg = LinearRegression()
# 使用模型進(jìn)行訓(xùn)練
reg.fit(X_train, y_train)
# 使用模型進(jìn)行預(yù)測
y_pred = reg.predict(X_test)

4.3 模型訓(xùn)練與調(diào)參

模型訓(xùn)練：是指使用訓(xùn)練數(shù)據(jù)去估計模型的參數(shù)，從而使模型能夠從數(shù)據(jù)中學(xué)習(xí)到模式和規(guī)律，Scikit-Learn提供了許多模型訓(xùn)練的方法，如fit函數(shù)。

模型調(diào)參：是調(diào)整模型超參數(shù)以達(dá)到最佳性能的過程。超參數(shù)是在模型訓(xùn)練之前設(shè)置的參數(shù)，如正則化參數(shù)、學(xué)習(xí)率等。Scikit-Learn提供了多種調(diào)參方法，包括GridSearchCV和RandomizedSearchCV等。

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
# 創(chuàng)建隨機(jī)森林分類器對象
model = RandomForestClassifier()
# 定義參數(shù)網(wǎng)格
param_grid = {'n_estimators': [100, 200, 300], 'max_depth': [None, 5, 10]}
# 使用GridSearchCV進(jìn)行模型調(diào)參
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)
# 獲取最佳參數(shù)和得分
print("最佳參數(shù):", grid_search.best_params_)
print("最佳得分:", grid_search.best_score_)

通過上述步驟，我們可以根據(jù)實(shí)際問題選擇合適的算法并訓(xùn)練模型，還可以利用交叉驗(yàn)證和超參數(shù)調(diào)優(yōu)來提高模型的性能。Scikit-Learn為模型選擇和訓(xùn)練提供了簡潔而強(qiáng)大的工具，使我們能夠高效地實(shí)現(xiàn)和應(yīng)用各種機(jī)器學(xué)習(xí)算法。

5. 模型評估與調(diào)優(yōu)

在使用機(jī)器學(xué)習(xí)模型時，必須對模型進(jìn)行評估和調(diào)優(yōu)。Scikit-Learn 提供了豐富的評估指標(biāo)和調(diào)優(yōu)方法。

模型評估與選擇是在機(jī)器學(xué)習(xí)中非常重要的步驟之一。Scikit-Learn提供了多種方法來評估模型性能、選擇合適的模型，并分析模型的偏差和方差。

5.1 評估指標(biāo)

評估指標(biāo)用于衡量模型的性能和預(yù)測的準(zhǔn)確性。對于分類問題，常用的評估指標(biāo)包括準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)等。對于回歸問題，則使用均方誤差、均方根誤差、R平方等。Scikit-Learn提供了豐富的評估指標(biāo)來評估模型的性能。

  from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error
   # 假設(shè)y_true是真實(shí)標(biāo)簽，y_pred是模型預(yù)測的標(biāo)簽
# 分類模型評估
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)
  from sklearn.metrics import 
# 回歸模型評估，計算均方誤差
mse = mean_squared_error(y_true, y_pred)

5.2 交叉驗(yàn)證

交叉驗(yàn)證是一種評估模型性能的方法，通過將數(shù)據(jù)集劃分為多個訓(xùn)練集和測試集的子集，在不同的子集上訓(xùn)練和評估模型，并對結(jié)果進(jìn)行平均。Scikit-Learn提供了交叉驗(yàn)證的功能，可以幫助我們更可靠地估計模型的性能。

from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
# 創(chuàng)建決策樹分類器對象
model = DecisionTreeClassifier()
# 使用交叉驗(yàn)證評估模型性能
scores = cross_val_score(model, X, y, cv=5)
# 輸出交叉驗(yàn)證的平均得分
print("平均得分:", scores.mean())

5.3 學(xué)習(xí)曲線

學(xué)習(xí)曲線是用于分析模型的偏差和方差，判斷模型是否過擬合或欠擬合的工具。通過繪制不同訓(xùn)練集大小下的模型得分曲線，可以觀察模型的學(xué)習(xí)情況。Scikit-Learn提供了plot_learning_curve函數(shù)來繪制學(xué)習(xí)曲線。

import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.svm import SVC
# 創(chuàng)建支持向量機(jī)分類器對象
model = SVC()
# 繪制學(xué)習(xí)曲線
train_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 10))
# 繪制平均訓(xùn)練得分和測試得分曲線
plt.plot(train_sizes, np.mean(train_scores, axis=1), 'o-', label='訓(xùn)練集得分')
plt.plot(train_sizes, np.mean(test_scores, axis=1), 'o-', label='測試集得分')
plt.xlabel('訓(xùn)練樣本數(shù)')
plt.ylabel('得分')
plt.legend(loc='best')
plt.show()

通過評估指標(biāo)、交叉驗(yàn)證和學(xué)習(xí)曲線等的分析，我們可以更全面地了解模型的性能和表現(xiàn)，并選擇合適的模型。Scikit-Learn提供了強(qiáng)大的工具和方法來幫助我們評估和選擇最佳的機(jī)器學(xué)習(xí)模型。

6.模型部署與預(yù)測

模型部署與預(yù)測是將訓(xùn)練好的模型轉(zhuǎn)化為可用于實(shí)際預(yù)測的形式的重要步驟，Scikit-Learn提供了保存和加載模型以及用于對新數(shù)據(jù)進(jìn)行預(yù)測的功能。

6.1 模型保存與加載:

在 Scikit-Learn 中，我們可以使用 pickle 或 joblib 來保存和加載訓(xùn)練好的模型。這些工具使我們能夠?qū)⒛Ｐ托蛄谢癁槲募?，并在需要時重新加載。

import pickle
# 假設(shè) model 是訓(xùn)練好的模型
# 保存模型
pickle.dump(model, open('model.pkl', 'wb'))
# 加載模型
loaded_model = pickle.load(open('model.pkl', 'rb'))
from joblib import dump, load
# 保存模型
dump(model, 'model.joblib')
# 加載模型
loaded_model = load('model.joblib')

6.2 新數(shù)據(jù)預(yù)測

在訓(xùn)練好的模型加載后，我們可以使用它來對新數(shù)據(jù)進(jìn)行預(yù)測。這涉及將新數(shù)據(jù)轉(zhuǎn)換為與訓(xùn)練數(shù)據(jù)相同的特征表示，并將其輸入到模型中進(jìn)行預(yù)測。

# 假設(shè) X_new 是新的數(shù)據(jù)樣本
predictions = loaded_model.predict(X_new)

使用以上步驟，我們可以將訓(xùn)練好的模型保存到磁盤，并在需要時加載模型進(jìn)行預(yù)測。這使我們能夠輕松地部署我們的模型并將其用于實(shí)際應(yīng)用。

7. 總結(jié)

看完本教程，您覺得機(jī)器學(xué)習(xí)入門難嗎？我個人認(rèn)為，對于初學(xué)者來說，入門機(jī)器學(xué)習(xí)可能并不難，因?yàn)橛泻芏喱F(xiàn)成的工具和庫可以使用。這些工具提供了豐富的接口和方法，使得我們可以快速上手并構(gòu)建簡單的模型。

然而，如果我們想要更深入地理解機(jī)器學(xué)習(xí)算法的原理，并優(yōu)化模型的性能，就需要一定的數(shù)學(xué)和統(tǒng)計知識。了解線性代數(shù)、概率論和優(yōu)化算法等基礎(chǔ)知識對于理解機(jī)器學(xué)習(xí)算法的原理和調(diào)整模型非常重要。

此外，獲取高質(zhì)量的數(shù)據(jù)也是構(gòu)建優(yōu)質(zhì)模型的關(guān)鍵。優(yōu)質(zhì)的數(shù)據(jù)才能構(gòu)建出優(yōu)質(zhì)的模型，數(shù)據(jù)的質(zhì)量和多樣性對于機(jī)器學(xué)習(xí)模型的性能有很大的影響。因此，數(shù)據(jù)預(yù)處理、特征工程和數(shù)據(jù)清洗等技巧也是需要掌握的。

以上就是Python機(jī)器學(xué)習(xí)庫之sklearn(scikit-learn)基礎(chǔ)知識和高級用法的詳細(xì)內(nèi)容，更多關(guān)于Python機(jī)器學(xué)習(xí)庫Scikit-learn的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: