快捷導航

Python執(zhí)行遺傳編程gplearn庫使用實例探究

更新時間：2024年01月26日 10:05:01 作者：程序員小寒

這篇文章主要為大家介紹了Python執(zhí)行遺傳編程gplearn庫使用實例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

python gplearn庫

今天給大家介紹一個神奇的 python 庫，gplearn

https://github.com/trevorstephens/gplearn

gplearn 是一個用于執(zhí)行遺傳編程（Genetic Programming, GP）的 Python 庫，它建立在 scikit-learn 的接口之上，提供了一種靈活、高效的方法來發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)系。雖然遺傳編程 (GP) 可用于執(zhí)行非常廣泛的任務(wù)，但 gplearn 被有意限制為解決符號回歸問題。

什么是符號回歸

符號回歸的核心目標是找到準確描述數(shù)據(jù)集的數(shù)學公式。與預先定義模型結(jié)構(gòu)的傳統(tǒng)回歸技術(shù)（如線性或多項式回歸）不同，符號回歸會搜索理想結(jié)構(gòu)及其參數(shù)。這使得它非常適合發(fā)現(xiàn)傳統(tǒng)方法可能錯過的隱藏關(guān)系。

假設(shè)你有以下數(shù)據(jù)。

x, y
1, 3
2, 6
3, 12
4, 18

符號回歸算法可能會自動發(fā)現(xiàn) x 和 y 之間的關(guān)系最好用公式 y = x² + 2 來描述。這個簡單的示例演示了符號回歸如何超越擬合預定義的直線或曲線；它實際上發(fā)現(xiàn)了潛在的數(shù)學關(guān)系。

何時使用符號回歸

何時使用符號回歸的選擇在很大程度上取決于你的問題和優(yōu)先級。

可解釋性至關(guān)重要：如果理解變量之間潛在的數(shù)學關(guān)系至關(guān)重要（例如，在科學建模、推導物理定律或金融風險建模中），那么符號回歸的價值是無價的。
有限數(shù)據(jù)：符號回歸適用于數(shù)據(jù)集較小的場景，在這種情況下，傳統(tǒng)的機器學習技術(shù)可能會由于尋找模型結(jié)構(gòu)的靈活性增加而過度擬合。
可疑的非線性關(guān)系：如果你認為數(shù)據(jù)中存在線性或多項式模型無法輕松捕獲的復雜的非線性關(guān)系，則符號回歸可以探索更廣泛的潛在解決方案空間。
領(lǐng)域知識：如果你對潛在函數(shù)形式或變量有先驗知識，則可以通過定義特定操作或構(gòu)建塊來指導符號回歸搜索。

gplearn 的特點

靈活性：它提供不同的適應度函數(shù)、選擇方法和遺傳算子，根據(jù)你的具體問題定制搜索過程。
效率：利用 scikit-learn 無縫集成到你現(xiàn)有的機器學習工作流程中。
可定制：你可以定義自己的數(shù)學構(gòu)建塊，確保發(fā)現(xiàn)的方程與你的領(lǐng)域知識相符。

庫的安裝

可以直接使用 pip 進行安裝。

pip install gplearn

案例分享

讓我們通過一個簡單的例子來看看實際效果。

import numpy as np
from gplearn.genetic import SymbolicRegressor
import matplotlib.pyplot as plt

# Generating synthetic data
np.random.seed(0)
x = np.linspace(-10, 10, 100)
y = x + np.log2(x**2) + 3*np.sin(x) + np.random.normal(0, 0.1, 100)

# Creating Symbolic Regressor
function_set = [
    'add', 'sub', 'mul', 'div', 'sqrt', 'log', 'abs', 'sin', 'cos', 'tan']
symbolic_regressor = SymbolicRegressor(population_size=5000,
                                       generations=20,
                                       function_set=function_set,
                                       stopping_criteria=0.01,
                                       p_crossover=0.6, p_subtree_mutation=0.2,
                                       p_hoist_mutation=0.05, p_point_mutation=0.1,
                                       max_samples=0.9, verbose=1,
                                       parsimony_coefficient=0.01, random_state=0)

# Fitting the model
symbolic_regressor.fit(x.reshape(-1, 1), y)

# Print the best program
print(symbolic_regressor._program)

# Predictions
y_pred = symbolic_regressor.predict(x.reshape(-1, 1))

# Plotting
plt.figure(figsize=(10, 6))
plt.scatter(x, y, label="Actual Data")
plt.plot(x, y_pred, color='red', label="Symbolic Regression Model")
plt.legend()
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Symbolic Regression Example")
plt.show()

此代碼片段將訓練符號回歸模型并揭示與原始函數(shù)非常相似的方程。