亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

在Python中實現(xiàn)決策樹算法的示例代碼

 更新時間:2023年08月09日 09:03:52   作者:deephub  
決策樹(Decision Tree)是一種常見的機器學習算法,被廣泛應用于分類和回歸任務中,并且再其之上的隨機森林和提升樹等算法一直是表格領域的最佳模型,所以本文將介紹理解其數(shù)學概念,并在Python中動手實現(xiàn),這可以作為了解這類算法的基礎知識

在深入研究代碼之前,我們先要了解支撐決策樹的數(shù)學概念:熵和信息增益

熵:雜質的量度

熵作為度量來量化數(shù)據集中的雜質或無序。特別是對于決策樹,熵有助于衡量與一組標簽相關的不確定性。數(shù)學上,數(shù)據集S的熵用以下公式計算:

 Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數(shù)據集中正標簽的比例,P_neg表示數(shù)據集中負標簽的比例。

更高的熵意味著更大的不確定性或雜質,而更低的熵意味著更均勻的數(shù)據集。

信息增益:通過拆分提升知識

信息增益是評估通過基于特定屬性劃分數(shù)據集所獲得的熵的減少。也就是說它衡量的是執(zhí)行分割后標簽確定性的增加。

數(shù)學上,對數(shù)據集S中屬性a進行分割的信息增益計算如下:

 Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數(shù)據集,A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。

目標是通過選擇使信息增益最大化的屬性,在決策樹中創(chuàng)建信息量最大的分割。

在Python中實現(xiàn)決策樹算法

有了以上的基礎,就可以使用Python從頭開始編寫Decision Tree算法。

首先導入基本的numpy庫,它將有助于我們的算法實現(xiàn)。

 import numpy as np

創(chuàng)建DecisionTree類

 class DecisionTree:
     def __init__(self, max_depth=None):
         self.max_depth = max_depth

定義了DecisionTree類來封裝決策樹。max_depth參數(shù)是樹的最大深度,以防止過擬合。

 def fit(self, X, y, depth=0):
         n_samples, n_features = X.shape
         unique_classes = np.unique(y)
         # Base cases
         if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:
             self.label = unique_classes[np.argmax(np.bincount(y))]
             return

擬合方法是決策樹算法的核心。它需要訓練數(shù)據X和相應的標簽,以及一個可選的深度參數(shù)來跟蹤樹的深度。我們以最簡單的方式處理樹的生長:達到最大深度或者遇到純類。

確定最佳分割屬性,循環(huán)遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計算每個屬性的信息增益。

 best_attribute = None
 best_info_gain = -1
 for feature in range(n_features):
             info_gain = self._information_gain(X, y, feature)
             if info_gain > best_info_gain:
                 best_info_gain = info_gain
                 best_attribute = feature

處理不分割屬性,如果沒有屬性產生正的信息增益,則將類標簽分配為節(jié)點的標簽。

 if best_attribute is None:
             self.label = unique_classes[np.argmax(np.bincount(y))]
             return

分割和遞歸調用,下面代碼確定了分割的最佳屬性,并創(chuàng)建兩個子節(jié)點。根據屬性的閾值將數(shù)據集劃分為左右兩個子集。

 self.attribute = best_attribute
 self.threshold = np.median(X[:, best_attribute])
 left_indices = X[:, best_attribute] <= self.threshold
     right_indices = ~left_indices
     self.left = DecisionTree(max_depth=self.max_depth)
     self.right = DecisionTree(max_depth=self.max_depth)
     self.left.fit(X[left_indices], y[left_indices], depth + 1)
     self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過遞歸調用左子集和右子集的fit方法來構建子樹。

預測方法使用訓練好的決策樹進行預測。如果到達一個葉節(jié)點(帶有標簽的節(jié)點),它將葉節(jié)點的標簽分配給X中的所有數(shù)據點。

 def predict(self, X):
         if hasattr(self, 'label'):
             return np.array([self.label] * X.shape[0])

當遇到非葉節(jié)點時,predict方法根據屬性閾值遞歸遍歷樹的左子樹和右子樹。來自雙方的預測被連接起來形成最終的預測數(shù)組。

 is_left = X[:, self.attribute] <= self.threshold
         left_predictions = self.left.predict(X[is_left])
         right_predictions = self.right.predict(X[~is_left])
         return np.concatenate((left_predictions, right_predictions))

下面兩個方法是決策樹的核心代碼,并且可以使用不同的算法來進行計算,比如ID3 算法使用信息增益作為特征選擇的標準,該標準度量了將某特征用于劃分數(shù)據后,對分類結果的不確定性減少的程度。算法通過遞歸地選擇信息增益最大的特征來構建決策樹,也就是我們現(xiàn)在要演示的算法。

_information_gain方法計算給定屬性的信息增益。它計算分裂后子熵的加權平均值,并從父熵中減去它。

 def _information_gain(self, X, y, feature):
         parent_entropy = self._entropy(y)
         unique_values = np.unique(X[:, feature])
         weighted_child_entropy = 0
         for value in unique_values:
             is_value = X[:, feature] == value
             child_entropy = self._entropy(y[is_value])
             weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy
         return parent_entropy - weighted_child_entropy

熵的計算

 def _entropy(self, y):
         _, counts = np.unique(y, return_counts=True)
         probabilities = counts / len(y)
         return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計算數(shù)據集y的熵,它計算每個類的概率,然后使用前面提到的公式計算熵。

常見的算法還有:

C4.5 是 ID3 的改進版本,C4.5 算法在特征選擇時使用信息增益比,這是對信息增益的一種歸一化,用于解決信息增益在選擇特征時偏向于取值較多的特征的問題。

CART 與 ID3 和 C4.5 算法不同,CART(Classification And Regression Tree)又被稱為分類回歸樹,算法采用基尼不純度(Gini impurity)來度量節(jié)點的不確定性,該不純度度量了從節(jié)點中隨機選取兩個樣本,它們屬于不同類別的概率。

ID3、C4.5 和 CART 算法都是基于決策樹的經典算法,像Xgboost就是使用的CART 作為基礎模型。

總結

以上就是使用Python中構造了一個完整的決策樹算法的全部。決策樹的核心思想是根據數(shù)據的特征逐步進行劃分,使得每個子集內的數(shù)據盡量屬于同一類別或具有相似的數(shù)值。在構建決策樹時,通常會使用一些算法來選擇最佳的特征和分割點,以達到更好的分類或預測效果。

到此這篇關于在Python中實現(xiàn)決策樹算法的示例代碼的文章就介紹到這了,更多相關Python決策樹算法內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • 在Docker上開始部署Python應用的教程

    在Docker上開始部署Python應用的教程

    這篇文章主要介紹了在Docker上開始部署Python應用的教程,Docker是時下最火爆的虛擬機,正在被各大云主機服務商所采用,需要的朋友可以參考下
    2015-04-04
  • Python圖像分割之均勻性度量法分析

    Python圖像分割之均勻性度量法分析

    均勻性度量圖像分割是圖像像素分割的一種方法,當然還有其他很多的方法。本文將主要介紹下其原理和實現(xiàn)代碼,感興趣的小伙伴可以學習一下
    2021-12-12
  • jupyternotebook 撤銷刪除的操作方式

    jupyternotebook 撤銷刪除的操作方式

    這篇文章主要介紹了jupyternotebook 撤銷刪除的操作方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • NumPy隨機數(shù)據分布與Seaborn可視化詳解

    NumPy隨機數(shù)據分布與Seaborn可視化詳解

    數(shù)據分布是指數(shù)據集中所有可能值出現(xiàn)的頻率,并用概率來表示,它描述了數(shù)據取值的可能性,Seaborn 是一個基于 Matplotlib 的 Python 數(shù)據可視化庫,用于創(chuàng)建統(tǒng)計圖表,本文就給大家詳細的介紹一下NumPy隨機數(shù)據分布與Seaborn可視化,需要的朋友可以參考下
    2024-05-05
  • python實現(xiàn)一個猜拳游戲

    python實現(xiàn)一個猜拳游戲

    這篇文章主要為大家詳細介紹了python實現(xiàn)一個猜拳游戲,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-04-04
  • 解決安裝sklearn包失敗問題

    解決安裝sklearn包失敗問題

    這篇文章主要介紹了解決安裝sklearn包失敗問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-10-10
  • PyQt5 QLineEdit輸入的子網字符串校驗QRegExp實現(xiàn)

    PyQt5 QLineEdit輸入的子網字符串校驗QRegExp實現(xiàn)

    這篇文章主要介紹了PyQt5 QLineEdit輸入的子網字符串校驗QRegExp實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-04-04
  • 如何用GAN訓練自己的數(shù)據生成新的圖片

    如何用GAN訓練自己的數(shù)據生成新的圖片

    這篇文章主要介紹了如何用GAN訓練自己的數(shù)據生成新的圖片問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • Python詞法結構

    Python詞法結構

    這篇文章主要介紹了Python詞法結構,變量是一種存儲數(shù)據的載體,也就是一個容器。計算機中的變量是實際存在的數(shù)據或者說是存儲器中存儲數(shù)據的一塊內存空間,變量的值可以被讀取和修改,這是所有計算機和控制的基礎,下面詳細內容,需要的朋友可以參考一下
    2021-10-10
  • Python中如何使用pypandoc進行格式轉換操作

    Python中如何使用pypandoc進行格式轉換操作

    這篇文章主要介紹了Python中如何使用pypandoc進行格式轉換操作,pypandoc是一個強大的文檔轉換工具,它可以將各種標記語言轉換為不同的格式,支持多種輸入和輸出格式,并允許用戶添加自定義樣式、模板和過濾器
    2021-06-06

最新評論