Python機(jī)器學(xué)習(xí)應(yīng)用之支持向量機(jī)的分類預(yù)測篇
支持向量機(jī)常用于數(shù)據(jù)分類,也可以用于數(shù)據(jù)的回歸預(yù)測
1、Question?
我們經(jīng)常會(huì)遇到這樣的問題,給你一些屬于兩個(gè)類別的數(shù)據(jù)(如子圖1),需要一個(gè)線性分類器將這些數(shù)據(jù)分開,有很多分法(如子圖2),現(xiàn)在有一個(gè)問題,兩個(gè)分類器,哪一個(gè)更好?為了判斷好壞,我們需要引入一個(gè)準(zhǔn)則:好的分類器不僅僅能夠很好的分開已有的數(shù)據(jù)集,還能對(duì)為知的數(shù)據(jù)進(jìn)行兩個(gè)劃分,假設(shè)現(xiàn)在有一個(gè)屬于紅色數(shù)據(jù)點(diǎn)的新數(shù)據(jù)(如子圖3中的綠三角),可以看到此時(shí)黑色的線會(huì)把這個(gè)新的數(shù)據(jù)集分錯(cuò),而藍(lán)色的線不會(huì)。**那么如何評(píng)判兩條線的健壯性?**此時(shí),引入一個(gè)重要的概念——最大間隔(刻畫著當(dāng)前分類器與數(shù)據(jù)集的邊界)(如子圖4中的陰影部分)可以看到藍(lán)色的線最大的間隔大于黑色的線,所以選擇藍(lán)色的線作為我們的分類器。(如子圖5)此時(shí)的分類器是最優(yōu)分類器嗎?或者說,有沒有更好的分類器具有更大的間隔?有的(如子圖6)為了找到最優(yōu)分類器,引入SVM
2、Answer!——SVM
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4) x_fit = np.linspace(0, 3) #使用SVM from sklearn.svm import SVC # SVM 函數(shù) clf = SVC(kernel='linear') clf.fit(X, y) # 最佳函數(shù) w = clf.coef_[0] a = -w[0] / w[1] y_p = a*x_fit - (clf.intercept_[0]) / w[1] # 最大邊距 下邊界 b_down = clf.support_vectors_[0] y_down = a* x_fit + b_down[1] - a * b_down[0] # 最大邊距 上屆 b_up = clf.support_vectors_[-1] y_up = a* x_fit + b_up[1] - a * b_up[0] # 畫散點(diǎn)圖 X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired) # 畫函數(shù) plt.plot(x_fit, y_p, '-c') # 畫邊距 plt.fill_between(x_fit, y_down, y_up, edgecolor='none', color='#AAAAAA', alpha=0.4) # 畫支持向量 plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], edgecolor='b', s=80, facecolors='none')
運(yùn)行結(jié)果
其中帶邊線的是距離當(dāng)前分類器最近的點(diǎn),將這些點(diǎn)稱之為支持向量,支持向量機(jī)為我們?cè)诒姸嗫赡艿姆诸惼髦g進(jìn)行選擇的原則,從而確保對(duì)為知數(shù)據(jù)集具有更高的泛化性
3、軟間隔
在很多時(shí)候,我們拿到是數(shù)據(jù)不想上述那樣分明(如下圖)這種情況并不容易找到上述那樣的最大間隔。于是就有了軟間隔,相對(duì)于硬間隔,我們?cè)试S個(gè)別數(shù)據(jù)出現(xiàn)在間隔帶中。我們知道,如果沒有一個(gè)原則進(jìn)行約束,滿足軟間隔的分類器也會(huì)出現(xiàn)很多條。所以需要對(duì)分錯(cuò)的數(shù)據(jù)進(jìn)行懲罰,SVM函數(shù),有一個(gè)參數(shù)C就是懲罰參數(shù)。懲罰參數(shù)越小,容忍性就越大
——此處C設(shè)置為1
#%%軟間隔 X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.9) x_fit = np.linspace(-2, 4) # 懲罰參數(shù):C=1, clf = SVC(C=1, kernel='linear') clf.fit(X, y) # 最佳函數(shù) w = clf.coef_[0] a = -w[0] / w[1] y_great = a*x_fit - (clf.intercept_[0]) / w[1] # 最大邊距 下邊界 b_down = clf.support_vectors_[0] y_down = a* x_fit + b_down[1] - a * b_down[0] # 最大邊距 上邊界 b_up = clf.support_vectors_[-1] y_up = a* x_fit + b_up[1] - a * b_up[0] # 畫散點(diǎn)圖 plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired) # 畫函數(shù) plt.plot(x_fit, y_great, '-c') # 畫邊距 plt.fill_between(x_fit, y_down, y_up, edgecolor='none', color='#AAAAAA', alpha=0.4) # 畫支持向量 plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], edgecolor='b', s=80, facecolors='none')
運(yùn)行結(jié)果
——當(dāng)將C設(shè)置為0.2時(shí),SVM會(huì)更有包容性,從而兼容更多的錯(cuò)分樣本,結(jié)果如下:
4、超平面
有時(shí),我們得到的數(shù)據(jù)是這樣的(如下圖),這時(shí),可以將二維空間(低維)的數(shù)據(jù)映射到三維空間(高維)中,此時(shí),可以通過一個(gè)超平面對(duì)數(shù)據(jù)進(jìn)行劃分,所以,映射的目的在于使用SVM在高維空間找到超平面的能力
#%%超平面 from sklearn.datasets import make_circles # 畫散點(diǎn)圖 X, y = make_circles(100, factor=.1, noise=.1, random_state=2019) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired) # 數(shù)據(jù)映射 r = np.exp(-(X[:, 0] ** 2 + X[:, 1] ** 2)) ax = plt.subplot(projection='3d') ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap=plt.cm.Paired) ax.set_xlabel('x') ax.set_ylabel('y') ax.set_zlabel('z') x_1, y_1 = np.meshgrid(np.linspace(-1, 1), np.linspace(-1, 1)) z = 0.01*x_1 + 0.01*y_1 + 0.5 ax.plot_surface(x_1, y_1, z, alpha=0.3)
運(yùn)行結(jié)果
使用高斯核函數(shù)實(shí)現(xiàn)這種情形的分類
#%%使用高斯核函數(shù)實(shí)現(xiàn)這種分類:kernel=‘rbf' # 畫圖 X, y = make_circles(100, factor=.1, noise=.1, random_state=2019) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired) clf = SVC(kernel='rbf') clf.fit(X, y) ax = plt.gca() x = np.linspace(-1, 1) y = np.linspace(-1, 1) x_1, y_1 = np.meshgrid(x, y) P = np.zeros_like(x_1) for i, xi in enumerate(x): for j, yj in enumerate(y): P[i, j] = clf.decision_function(np.array([[xi, yj]])) ax.contour(x_1, y_1, P, colors='k', levels=[-1, 0, 0.9], alpha=0.5,linestyles=['--', '-', '--']) plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], edgecolor='b',s=80, facecolors='none');
運(yùn)行結(jié)果
今日告一段落~
到此這篇關(guān)于Python機(jī)器學(xué)習(xí)應(yīng)用之支持向量機(jī)的分類預(yù)測篇的文章就介紹到這了,更多相關(guān)Python 支持向量機(jī)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python機(jī)器學(xué)習(xí)應(yīng)用之基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測篇詳解
- Python機(jī)器學(xué)習(xí)應(yīng)用之基于LightGBM的分類預(yù)測篇解讀
- Python機(jī)器學(xué)習(xí)應(yīng)用之基于天氣數(shù)據(jù)集的XGBoost分類篇解讀
- Python機(jī)器學(xué)習(xí)應(yīng)用之決策樹分類實(shí)例詳解
- Python機(jī)器學(xué)習(xí)應(yīng)用之基于決策樹算法的分類預(yù)測篇
- Python機(jī)器學(xué)習(xí)應(yīng)用之樸素貝葉斯篇
- 在Python中通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)人體姿勢估計(jì)
- Python機(jī)器學(xué)習(xí)之實(shí)現(xiàn)模糊照片人臉恢復(fù)清晰
- Python機(jī)器學(xué)習(xí)應(yīng)用之基于線性判別模型的分類篇詳解
相關(guān)文章
Python實(shí)現(xiàn)視頻畫質(zhì)增強(qiáng)的示例代碼
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實(shí)現(xiàn)對(duì)視頻進(jìn)行畫質(zhì)增強(qiáng)功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以嘗試一下2022-04-04解決已經(jīng)安裝requests,卻依然提示No module named requests問題
今天小編就為大家分享一篇解決已經(jīng)安裝requests,卻依然提示No module named 'requests'問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-05-05教你如何在pycharm中安裝opencv,tensorflow,keras
今天通過本教程教大家如何在pycharm中安裝opencv,tensorflow,keras,本文分步驟給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-08-08Python torch.flatten()函數(shù)案例詳解
這篇文章主要介紹了Python torch.flatten()函數(shù)案例詳解,本篇文章通過簡要的案例,講解了該項(xiàng)技術(shù)的了解與使用,以下就是詳細(xì)內(nèi)容,需要的朋友可以參考下2021-08-08