Python sklearn分類決策樹方法詳解
決策樹模型
決策樹(decision tree)是一種基本的分類與回歸方法。
分類決策樹模型是一種描述對實例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(node)和有向邊(directed edge)組成。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node)和葉結(jié)點(leaf node)。內(nèi)部結(jié)點表示一個特征或?qū)傩?,葉結(jié)點表示一個類。
用決策樹分類,從根結(jié)點開始,對實例的某一特征進(jìn)行測試,根據(jù)測試結(jié)果,將實例分配到其子結(jié)點;這時,每一個子結(jié)點對應(yīng)著該特征的一個取值。如此遞歸地對實例進(jìn)行測試并分配,直至達(dá)到葉結(jié)點。最后將實例分到葉結(jié)點的類中。
用于預(yù)測一個人是否肥胖或不肥胖的決策樹
決策樹學(xué)習(xí)
決策樹學(xué)習(xí)算法包括3部分:特征選擇、樹的生成和樹的剪枝。常用的算法有ID3、 C4.5和CART。
1、特征選擇的目的在于選取對訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是其準(zhǔn)則。常用的準(zhǔn)則如下:
(1)樣本集合D對特征A的信息增益(ID3)
(2)樣本集合D對特征A的信息增益比(C4.5)
(3)樣本集合D的基尼指數(shù)(CART)
2.決策樹的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹的生成往往通過計算信息增益或其他指標(biāo),從根結(jié)點開始,遞歸地產(chǎn)生決策樹。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征,或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。
3.決策樹的剪枝。由于生成的決策樹存在過擬合問題,需要對它進(jìn)行剪枝,以簡化學(xué)到的決策樹。決策樹的剪枝,往往從已生成的樹上剪掉一些葉結(jié)點或葉結(jié)點以上的子樹,并將其父結(jié)點或根結(jié)點作為新的葉結(jié)點,從而簡化生成的決策樹。
使用Scikit-learn進(jìn)行決策樹分類
import numpy as np from sklearn.datasets import load_iris from sklearn import tree import matplotlib.pyplot as plt iris=load_iris() print(iris.feature_names) print(iris.target_names) #劃分?jǐn)?shù)據(jù)集 removed =[0,50,100] new_target = np.delete(iris.target,removed) new_data = np.delete(iris.data,removed, axis=0) #訓(xùn)練分類器 clf = tree.DecisionTreeClassifier() # 定義決策樹分類器 clf=clf.fit(new_data,new_target) prediction = clf.predict(iris.data[removed]) print("Original Labels",iris.target[removed]) print("Labels Predicted",prediction) #繪制決策樹 plt.figure(figsize=(15, 10)) tree.plot_tree(clf, feature_names=iris.feature_names, filled=True) plt.show()
參考鏈接傳送門
到此這篇關(guān)于Python sklearn分類決策樹方法詳解的文章就介紹到這了,更多相關(guān)Python sklearn決策樹內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python list count統(tǒng)計個數(shù)的實現(xiàn)
這篇文章主要介紹了python list count統(tǒng)計個數(shù)的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-02-02在PyTorch中實現(xiàn)高效的多進(jìn)程并行處理
PyTorch是一個流行的深度學(xué)習(xí)框架,一般情況下使用單個GPU進(jìn)行計算時是十分方便的,但是當(dāng)涉及到處理大規(guī)模數(shù)據(jù)和并行處理時,需要利用多個GPU,所以這篇文章我們將介紹如何利用torch.multiprocessing模塊,在PyTorch中實現(xiàn)高效的多進(jìn)程處理,需要的朋友可以參考下2024-07-07NumPy中np.random.rand函數(shù)的實現(xiàn)
np.random.rand是NumPy庫中的一個函數(shù),用于生成隨機(jī)數(shù),本文主要介紹了NumPy中np.random.rand函數(shù)的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2024-07-07Python實現(xiàn)隨機(jī)漫步的詳細(xì)過程
隨機(jī)漫步顧名思義每一步都是隨機(jī)的,假設(shè)有一個點,下一步往哪里走,走多遠(yuǎn),這些都沒有明確的表示,完全是隨機(jī)的,最后走到哪里,是由一系列隨機(jī)決策決定的,這篇文章主要給大家介紹了關(guān)于Python實現(xiàn)隨機(jī)漫步的相關(guān)資料,需要的朋友可以參考下2023-03-03python如何用matplotlib創(chuàng)建三維圖表
這篇文章主要介紹了python如何在matplotlib中創(chuàng)建三維圖表,幫助大家更好的利用python進(jìn)行數(shù)據(jù)分析,感興趣的朋友可以了解下2021-01-01Python使用tkinter庫實現(xiàn)文本顯示用戶輸入功能示例
這篇文章主要介紹了Python使用tkinter庫實現(xiàn)文本顯示用戶輸入功能,結(jié)合實例形式分析了tkinter庫獲取用戶輸入及控件顯示相關(guān)操作技巧,需要的朋友可以參考下2018-05-05