python實現(xiàn)決策樹分類算法

更新時間：2017年12月21日 15:40:23 作者：ahu-lichang

這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)決策樹分類算法，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文實例為大家分享了python實現(xiàn)決策樹分類算法的具體代碼，供大家參考，具體內(nèi)容如下

1、概述

決策樹（decision tree）——是一種被廣泛使用的分類算法。

相比貝葉斯算法，決策樹的優(yōu)勢在于構(gòu)造過程不需要任何領(lǐng)域知識或參數(shù)設(shè)置

在實際應(yīng)用中，對于探測式的知識發(fā)現(xiàn)，決策樹更加適用。

2、算法思想

通俗來說，決策樹分類的思想類似于找對象?，F(xiàn)想象一個女孩的母親要給這個女孩介紹男朋友，于是有了下面的對話：

女兒：多大年紀(jì)了？

母親：26。

女兒：長的帥不帥？

母親：挺帥的。

女兒：收入高不？

母親：不算很高，中等情況。

女兒：是公務(wù)員不？

母親：是，在稅務(wù)局上班呢。

女兒：那好，我去見見。

這個女孩的決策過程就是典型的分類樹決策。

實質(zhì)：通過年齡、長相、收入和是否公務(wù)員對將男人分為兩個類別：見和不見

假設(shè)這個女孩對男人的要求是：30歲以下、長相中等以上并且是高收入者或中等以上收入的公務(wù)員，那么這個可以用下圖表示女孩的決策邏輯

上圖完整表達(dá)了這個女孩決定是否見一個約會對象的策略，其中：

◊綠色節(jié)點表示判斷條件

◊橙色節(jié)點表示決策結(jié)果

◊箭頭表示在一個判斷條件在不同情況下的決策路徑

圖中紅色箭頭表示了上面例子中女孩的決策過程。

這幅圖基本可以算是一顆決策樹，說它“基本可以算”是因為圖中的判定條件沒有量化，如收入高中低等等，還不能算是嚴(yán)格意義上的決策樹，如果將所有條件量化，則就變成真正的決策樹了。

決策樹分類算法的關(guān)鍵就是根據(jù)“先驗數(shù)據(jù)”構(gòu)造一棵最佳的決策樹，用以預(yù)測未知數(shù)據(jù)的類別

決策樹：是一個樹結(jié)構(gòu)（可以是二叉樹或非二叉樹）。其每個非葉節(jié)點表示一個特征屬性上的測試，每個分支代表這個特征屬性在某個值域上的輸出，而每個葉節(jié)點存放一個類別。使用決策樹進(jìn)行決策的過程就是從根節(jié)點開始，測試待分類項中相應(yīng)的特征屬性，并按照其值選擇輸出分支，直到到達(dá)葉子節(jié)點，將葉子節(jié)點存放的類別作為決策結(jié)果。

3、決策樹構(gòu)造

假如有以下判斷蘋果好壞的數(shù)據(jù)樣本：

樣本紅大好蘋果

0 1 1 1

1 1 0 1

2 0 1 0

3 0 0 0

樣本中有2個屬性，A0表示是否紅蘋果。A1表示是否大蘋果。假如要根據(jù)這個數(shù)據(jù)樣本構(gòu)建一棵自動判斷蘋果好壞的決策樹。

由于本例中的數(shù)據(jù)只有2個屬性，因此，我們可以窮舉所有可能構(gòu)造出來的決策樹，就2棵，如下圖所示：