快捷導(dǎo)航

Python執(zhí)行遺傳編程gplearn庫(kù)使用實(shí)例探究

更新時(shí)間：2024年01月26日 10:05:01 作者：程序員小寒

這篇文章主要為大家介紹了Python執(zhí)行遺傳編程gplearn庫(kù)使用實(shí)例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

python gplearn庫(kù)

今天給大家介紹一個(gè)神奇的 python 庫(kù)，gplearn

https://github.com/trevorstephens/gplearn

gplearn 是一個(gè)用于執(zhí)行遺傳編程（Genetic Programming, GP）的 Python 庫(kù)，它建立在 scikit-learn 的接口之上，提供了一種靈活、高效的方法來發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)系。雖然遺傳編程 (GP) 可用于執(zhí)行非常廣泛的任務(wù)，但 gplearn 被有意限制為解決符號(hào)回歸問題。

什么是符號(hào)回歸

符號(hào)回歸的核心目標(biāo)是找到準(zhǔn)確描述數(shù)據(jù)集的數(shù)學(xué)公式。與預(yù)先定義模型結(jié)構(gòu)的傳統(tǒng)回歸技術(shù)（如線性或多項(xiàng)式回歸）不同，符號(hào)回歸會(huì)搜索理想結(jié)構(gòu)及其參數(shù)。這使得它非常適合發(fā)現(xiàn)傳統(tǒng)方法可能錯(cuò)過的隱藏關(guān)系。

假設(shè)你有以下數(shù)據(jù)。

x, y
1, 3
2, 6
3, 12
4, 18

符號(hào)回歸算法可能會(huì)自動(dòng)發(fā)現(xiàn) x 和 y 之間的關(guān)系最好用公式 y = x² + 2 來描述。這個(gè)簡(jiǎn)單的示例演示了符號(hào)回歸如何超越擬合預(yù)定義的直線或曲線；它實(shí)際上發(fā)現(xiàn)了潛在的數(shù)學(xué)關(guān)系。

何時(shí)使用符號(hào)回歸

何時(shí)使用符號(hào)回歸的選擇在很大程度上取決于你的問題和優(yōu)先級(jí)。

可解釋性至關(guān)重要：如果理解變量之間潛在的數(shù)學(xué)關(guān)系至關(guān)重要（例如，在科學(xué)建模、推導(dǎo)物理定律或金融風(fēng)險(xiǎn)建模中），那么符號(hào)回歸的價(jià)值是無價(jià)的。
有限數(shù)據(jù)：符號(hào)回歸適用于數(shù)據(jù)集較小的場(chǎng)景，在這種情況下，傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)可能會(huì)由于尋找模型結(jié)構(gòu)的靈活性增加而過度擬合。
可疑的非線性關(guān)系：如果你認(rèn)為數(shù)據(jù)中存在線性或多項(xiàng)式模型無法輕松捕獲的復(fù)雜的非線性關(guān)系，則符號(hào)回歸可以探索更廣泛的潛在解決方案空間。
領(lǐng)域知識(shí)：如果你對(duì)潛在函數(shù)形式或變量有先驗(yàn)知識(shí)，則可以通過定義特定操作或構(gòu)建塊來指導(dǎo)符號(hào)回歸搜索。

gplearn 的特點(diǎn)

靈活性：它提供不同的適應(yīng)度函數(shù)、選擇方法和遺傳算子，根據(jù)你的具體問題定制搜索過程。
效率：利用 scikit-learn 無縫集成到你現(xiàn)有的機(jī)器學(xué)習(xí)工作流程中。
可定制：你可以定義自己的數(shù)學(xué)構(gòu)建塊，確保發(fā)現(xiàn)的方程與你的領(lǐng)域知識(shí)相符。

庫(kù)的安裝

可以直接使用 pip 進(jìn)行安裝。

pip install gplearn

案例分享

讓我們通過一個(gè)簡(jiǎn)單的例子來看看實(shí)際效果。

import numpy as np
from gplearn.genetic import SymbolicRegressor
import matplotlib.pyplot as plt

# Generating synthetic data
np.random.seed(0)
x = np.linspace(-10, 10, 100)
y = x + np.log2(x**2) + 3*np.sin(x) + np.random.normal(0, 0.1, 100)

# Creating Symbolic Regressor
function_set = [
    'add', 'sub', 'mul', 'div', 'sqrt', 'log', 'abs', 'sin', 'cos', 'tan']
symbolic_regressor = SymbolicRegressor(population_size=5000,
                                       generations=20,
                                       function_set=function_set,
                                       stopping_criteria=0.01,
                                       p_crossover=0.6, p_subtree_mutation=0.2,
                                       p_hoist_mutation=0.05, p_point_mutation=0.1,
                                       max_samples=0.9, verbose=1,
                                       parsimony_coefficient=0.01, random_state=0)

# Fitting the model
symbolic_regressor.fit(x.reshape(-1, 1), y)

# Print the best program
print(symbolic_regressor._program)

# Predictions
y_pred = symbolic_regressor.predict(x.reshape(-1, 1))

# Plotting
plt.figure(figsize=(10, 6))
plt.scatter(x, y, label="Actual Data")
plt.plot(x, y_pred, color='red', label="Symbolic Regression Model")
plt.legend()
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Symbolic Regression Example")
plt.show()

此代碼片段將訓(xùn)練符號(hào)回歸模型并揭示與原始函數(shù)非常相似的方程。