欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python基于LightGBM進(jìn)行時間序列預(yù)測

 更新時間:2022年03月07日 11:19:07   作者:Python學(xué)習(xí)與數(shù)據(jù)挖掘  
LightGBM是擴展機器學(xué)習(xí)系統(tǒng)。是一款基于GBDT(梯度提升決策樹)算法的分布梯度提升框架。其設(shè)計思路主要集中在減少數(shù)據(jù)對內(nèi)存與計算性能的使用上,以及減少多機器并行計算時的通訊代價。本文將通過LightGBM進(jìn)行時間序列預(yù)測,感興趣的可以了解一下

前言

當(dāng)我們考慮時間序列的增強樹時,通常會想到 M5 比賽,其中前十名中有很大一部分使用了 LightGBM。但是當(dāng)在單變量情況下使用增強樹時,由于沒有大量的外生特征可以利用,它的性能非常的糟糕。

首先需要明確的是M4 比賽的亞軍 DID 使用了增強樹。但是它作為一個元模型來集成其他更傳統(tǒng)的時間序列方法。在 M4 上公開的代碼中,所有標(biāo)準(zhǔn)增強樹的基準(zhǔn)測試都相當(dāng)糟糕,有時甚至還達(dá)不到傳統(tǒng)的預(yù)測方法。下面是Sktime 包和他們的論文所做的出色工作[1]:

任何帶有“XGB”或“RF”的模型都使用基于樹的集成。在上面的列表中 Xgboost 在每小時數(shù)據(jù)集中提供了 10.9 的最佳結(jié)果!然后,但是這些模型只是Sktime 在他們框架中做過的簡單嘗試,而 M4 的獲勝者在同一數(shù)據(jù)集上的得分是 9.3 分……。在該圖表中我們需要記住一些數(shù)字,例如來自 XGB-s 的每小時數(shù)據(jù)集的 10.9 和每周數(shù)據(jù)集中的樹性模型的“最佳”結(jié)果:來自 RF-t-s 的 9.0。

從上圖中就引出了我們的目標(biāo):創(chuàng)建一個基于LightGBM并且適合個人使用的時間序列的快速建模程序,并且能夠絕對超越這些數(shù)字,而且在速度方面可與傳統(tǒng)的統(tǒng)計方法相媲美。

聽起來很困難,并且我們的第一個想法可能是必須優(yōu)化我們的樹。但是提升樹非常復(fù)雜,改動非常費時,并且結(jié)果并不一定有效。但是有一點好處是我們正在擬合是單個數(shù)據(jù)集,是不是可從特征下手呢?

特征

在查看單變量空間中樹的其他實現(xiàn)時都會看到一些特征工程,例如分箱、使用目標(biāo)的滯后值、簡單的計數(shù)器、季節(jié)性虛擬變量,也許還有傅里葉函數(shù)。這對于使用傳統(tǒng)的指數(shù)平滑等方法是非常棒的。但是我們今天目的是必須對時間元素進(jìn)行特征化并將其表示為表格數(shù)據(jù)以提供給樹型模型,LazyProphet這時候就出現(xiàn)了。除此以外,LazyProphet還包含一個額外的特征工程元素:將點”連接”起來。

很簡單,將時間序列的第一個點連接起來,并將一條線連接到中途的另一個點,然后將中途的點連接到最后一個點。重復(fù)幾次,同時更改將哪個點用作“kink”(中間節(jié)點),這就是我們所說的“連接”。

下面張圖能很好地說明這一點。藍(lán)線是時間序列,其他線只是“連接點”:

事實證明,這些只是加權(quán)分段線性基函數(shù)。這樣做的一個缺點是這些線的外推可能會出現(xiàn)偏差。為了解決這個問題,引入一個懲罰從中點到最后點的每條線的斜率的“衰減”因子。

在這個基礎(chǔ)上加滯后的目標(biāo)值和傅里葉基函數(shù),在某些問題上就能夠接近最先進(jìn)的性能。因為要求很少,因因此我們把它稱作“LazyProphet”。

下面我們看看實際的應(yīng)用結(jié)果。

代碼

這里使用的數(shù)據(jù)集都是開源的,并在M-competitions github上發(fā)布。數(shù)據(jù)已經(jīng)被分割為訓(xùn)練和測試集,我們直接使用訓(xùn)練csv進(jìn)行擬合,而測試csv用于使用SMAPE進(jìn)行評估?,F(xiàn)在導(dǎo)入LazyProphet:

pip install LazyProphet

安裝后,開始編碼:

import matplotlib.pyplot as plt
import numpy as np
from tqdm import tqdm
import pandas as pd
from LazyProphet import LazyProphet as lp

train_df = pd.read_csv(r'm4-weekly-train.csv')
test_df = pd.read_csv(r'm4-weekly-test.csv')
train_df.index = train_df['V1']
train_df = train_df.drop('V1', axis = 1)
test_df.index = test_df['V1']
test_df = test_df.drop('V1', axis = 1)

導(dǎo)入所有必要的包后將讀入每周數(shù)據(jù)。創(chuàng)建 SMAPE 函數(shù),它將返回給定預(yù)測和實際值的 SMAPE:

def smape(A, F):
  return 100/len(A) * np.sum(2 * np.abs(F - A) / (np.abs(A) +       np.abs(F)))

對于這個實驗將取所有時間序列的平均值與其他模型進(jìn)行比較。為了進(jìn)行健全性檢查,我們還將獲得的平均 SMAPE,這樣可以確保所做的與比賽中所做的一致。

smapes = []
naive_smape = []
j = tqdm(range(len(train_df)))
for row in j:
  y = train_df.iloc[row, :].dropna()
  y_test = test_df.iloc[row, :].dropna()
  j.set_description(f'{np.mean(smapes)}, {np.mean(naive_smape)}')
  lp_model = LazyProphet(scale=True,
                          seasonal_period=52,
                          n_basis=10,
                          fourier_order=10,
                          ar=list(range(1, 53)),
                          decay=.99,
                          linear_trend=None,
                          decay_average=False)
  fitted = lp_model.fit(y)
  predictions = lp_model.predict(len(y_test)).reshape(-1)
  smapes.append(smape(y_test.values,     pd.Series(predictions).clip(lower=0)))
  naive_smape.append(smape(y_test.values, np.tile(y.iloc[-1], len(y_test))))  
print(np.mean(smapes))
print(np.mean(naive_smape))

在查看結(jié)果之前,快速介紹一下 LazyProphet 參數(shù)。

scale:這個很簡單,只是是否對數(shù)據(jù)進(jìn)行縮放。默認(rèn)值為 True 。

seasonal_period:此參數(shù)控制季節(jié)性的傅立葉基函數(shù),因為這是我們使用 52 的每周頻率。

n_basis:此參數(shù)控制加權(quán)分段線性基函數(shù)。這只是要使用的函數(shù)數(shù)量的整數(shù)。

Fourier_order:用于季節(jié)性的正弦和余弦對的數(shù)量。

ar:要使用的滯后目標(biāo)變量值??梢垣@取多個列表 1-52 。

decay:衰減因子用于懲罰我們的基函數(shù)的“右側(cè)”。設(shè)置為 0.99 表示斜率乘以 (1- 0.99) 或 0.01。

linear_trend:樹的一個主要缺點是它們無法推斷出后續(xù)數(shù)據(jù)的范圍。為了克服這個問題,有一些針對多項式趨勢的現(xiàn)成測試將擬合線性回歸以消除趨勢。None 表示有測試,通過 True 表示總是去趨勢,通過 False 表示不測試并且不使用線性趨勢。

decay_average:在使用衰減率時不是一個有用的參數(shù)。這是一個trick但不要使用它。傳遞 True 只是平均基函數(shù)的所有未來值。這在與 elasticnet 程序擬合時很有用,但在測試中對 LightGBM 的用處不大。

下面繼續(xù)處理數(shù)據(jù):

train_df = pd.read_csv(r'm4-hourly-train.csv')
test_df = pd.read_csv(r'm4-hourly-test.csv')
train_df.index = train_df['V1']
train_df = train_df.drop('V1', axis = 1)
test_df.index = test_df['V1']
test_df = test_df.drop('V1', axis = 1)

smapes = []
naive_smape = []
j = tqdm(range(len(train_df)))
for row in j:
  y = train_df.iloc[row, :].dropna()
  y_test = test_df.iloc[row, :].dropna()
  j.set_description(f'{np.mean(smapes)}, {np.mean(naive_smape)}')
  lp_model = LazyProphet(seasonal_period=[24,168],
                          n_basis=10,
                          fourier_order=10,
                          ar=list(range(1, 25)),
                          decay=.99)
  fitted = lp_model.fit(y)
  predictions = lp_model.predict(len(y_test)).reshape(-1)
  smapes.append(smape(y_test.values, pd.Series(predictions).clip(lower=0)))
  naive_smape.append(smape(y_test.values, np.tile(y.iloc[-1], len(y_test))))  
print(np.mean(smapes))
print(np.mean(naive_smape))

所以真正需要修改是seasonal_period 和ar 參數(shù)。將list傳遞給seasonal_period 時,它將為列表中的所有內(nèi)容構(gòu)建季節(jié)性基函數(shù)。ar 進(jìn)行了調(diào)整以適應(yīng)新的主要季節(jié) 24。

結(jié)果

對于上面的 Sktime 結(jié)果,表格如下:

LazyProphet 擊敗了 Sktime 最好的模型,其中包括幾種不同的基于樹的方法。在每小時數(shù)據(jù)集上輸給給了 M4 的獲勝者,但平均而言總體上優(yōu)于 ES-RNN。這里要意識到的重要一點是,只使用默認(rèn)參數(shù)進(jìn)行了此操作……

boosting_params = {
                  "objective": "regression",
                  "metric": "rmse",
                  "verbosity": -1,
                  "boosting_type": "gbdt",
                  "seed": 42,
                  'linear_tree': False,
                  'learning_rate': .15,
                  'min_child_samples': 5,
                  'num_leaves': 31,
                  'num_iterations': 50
                  }

可以在創(chuàng)建 LazyProphet 類時傳遞你參數(shù)的字典,可以針對每個時間序列進(jìn)行優(yōu)化,以獲得更多收益。

對比一下我們的結(jié)果和上面提到的目標(biāo):

進(jìn)行了零參數(shù)優(yōu)化(針對不同的季節(jié)性稍作修改)

分別擬合每個時間序列

在我的本地機器上在一分鐘內(nèi)“懶惰地”生成了預(yù)測。

在基準(zhǔn)測試中擊敗了所有其他樹方法

目前看是非常成功的,但是成功可能無法完全的復(fù)制,因為他數(shù)據(jù)集的數(shù)據(jù)量要少得多,因此我們的方法往往會顯著降低性能。根據(jù)測試LazyProphet 在高頻率和大量數(shù)據(jù)量上表現(xiàn)的更好,但是LazyProphet還是一個時間序列建模的很好選擇,我們不需要花多長時間進(jìn)行編碼就能夠測試,這點時間還是很值得。

到此這篇關(guān)于Python基于LightGBM進(jìn)行時間序列預(yù)測的文章就介紹到這了,更多相關(guān)Python LightGBM時間序列預(yù)測內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python檢測PE所啟用保護(hù)方式詳解

    Python檢測PE所啟用保護(hù)方式詳解

    Python通過pywin32模塊調(diào)用WindowsAPI接口,可以實現(xiàn)對特定進(jìn)程加載模塊的枚舉輸出并檢測該PE程序模塊所啟用的保護(hù)方式,感興趣的可以了解一下
    2022-10-10
  • Python實現(xiàn)批量下載文件

    Python實現(xiàn)批量下載文件

    之前給大家分享的python 多線程抓取網(wǎng)頁,不過這個只能用python 來抓取到網(wǎng)頁的源代碼,如果你想用做python 下載文件的話,上面的可能就不適合你了,最近我在用python 做文件下載的時候就遇到這個問題了,不過最終得以解決,我把代碼發(fā)出來
    2015-05-05
  • 狀態(tài)機的概念和在Python下使用狀態(tài)機的教程

    狀態(tài)機的概念和在Python下使用狀態(tài)機的教程

    這篇文章主要介紹了狀態(tài)機的概念和在Python下使用狀態(tài)機的教程,本文來自于IBM官方開發(fā)者技術(shù)文檔,需要的朋友可以參考下
    2015-04-04
  • Python同時迭代多個序列的方法

    Python同時迭代多個序列的方法

    這篇文章主要介紹了Python同時迭代多個序列的方法,文中講解非常細(xì)致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-07-07
  • Python3中.whl文件創(chuàng)建及使用

    Python3中.whl文件創(chuàng)建及使用

    本文主要介紹了Python3中.whl文件創(chuàng)建及使用,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-04-04
  • python中l(wèi)ist列表的高級函數(shù)

    python中l(wèi)ist列表的高級函數(shù)

    這篇文章主要為大家詳細(xì)介紹了python中l(wèi)ist列表的高級函數(shù),感興趣的小伙伴們可以參考一下
    2016-05-05
  • Python實現(xiàn)FIFO緩存置換算法

    Python實現(xiàn)FIFO緩存置換算法

    這篇文章主要為大家詳細(xì)介紹了Python實現(xiàn)FIFO(先進(jìn)先出)緩存置換算法,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-05-05
  • Python集合的增刪改查操作

    Python集合的增刪改查操作

    這篇文章主要介紹了Python集合的增刪改查操作,其增刪改查操作要看集合的類型來決定,不可變的數(shù)據(jù)當(dāng)然不能增刪改,只能查詢,可變集合則限制稍微少點。下面和小編一起進(jìn)放入文章了解更多相關(guān)內(nèi)容吧
    2022-03-03
  • python修改文件內(nèi)容的3種方法詳解

    python修改文件內(nèi)容的3種方法詳解

    這篇文章主要介紹了python修改文件內(nèi)容的3種方法詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-11-11
  • python查找特定名稱文件并按序號、文件名分行打印輸出的方法

    python查找特定名稱文件并按序號、文件名分行打印輸出的方法

    這篇文章主要介紹了python查找特定名稱文件并按序號、文件名分行打印輸出的方法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-04-04

最新評論