欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

游戲個(gè)性化數(shù)值因果推斷的應(yīng)用實(shí)踐

 更新時(shí)間:2022年05月18日 11:06:24   作者:字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)  
這篇文章主要為大家介紹了因果推斷在游戲個(gè)性化數(shù)值中的實(shí)踐及應(yīng)用,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

一、背景

在游戲場(chǎng)景內(nèi),通常有著各種各樣的玩法數(shù)值設(shè)計(jì)。由于不同用戶(hù)在偏好、游戲經(jīng)驗(yàn)等方面存在差異,因此同一數(shù)值并不適用于所有用戶(hù)。例如一個(gè)闖關(guān)游戲,對(duì)于新手來(lái)說(shuō),設(shè)置關(guān)卡的難度系數(shù)可以比有豐富經(jīng)驗(yàn)的老玩家低一些。為了讓用戶(hù)能夠有更好的游戲體驗(yàn),我們可以基于算法對(duì)用戶(hù)進(jìn)行個(gè)性化的數(shù)值調(diào)控,從而提升用戶(hù)在游戲內(nèi)的時(shí)長(zhǎng)、留存等。

傳統(tǒng)的監(jiān)督學(xué)習(xí)方式聚焦于響應(yīng)結(jié)果 Y 的預(yù)估,而我們場(chǎng)景更關(guān)注于變量的變化對(duì)于結(jié)果 Y 的影響。在業(yè)界,這類(lèi)問(wèn)題通常會(huì)放在因果推斷(Causal Inference)的框架下進(jìn)行討論,我們通常將變量稱(chēng)為 T(treatment),變量變化帶來(lái)結(jié)果 Y 的變化稱(chēng)為 TE(treatment effect),用來(lái)預(yù)估 TE 的模型稱(chēng)為因果模型(Uplift Model)。

目前業(yè)界中比較常用的因果模型有 meta-learner、dml、因果森林等,但是不同因果模型的優(yōu)劣勢(shì)及實(shí)際表現(xiàn)還沒(méi)有做過(guò)很全面的對(duì)比。因此在我們場(chǎng)景中,我們對(duì)上述這些問(wèn)題進(jìn)行了詳細(xì)的探索。

本文將從理論及實(shí)踐兩方面,對(duì)比及分析不同因果模型的優(yōu)缺點(diǎn)及適用場(chǎng)景,希望能夠?yàn)榇蠹以诤罄m(xù)處理相似問(wèn)題時(shí),提供啟發(fā)及幫助。

二、常見(jiàn)模型介紹

2.1 Meta-learner

meta-learner 是目前主流的因果建模方式之一,其做法是使用基礎(chǔ)的機(jī)器學(xué)習(xí)模型去預(yù)估不同 treatment 的 conditional average treatment effect(CATE),

常見(jiàn)的方法有:s-learner、t-learner。

meta-learner 的思路比較簡(jiǎn)單,本質(zhì)上都是使用 base-learner 去學(xué)習(xí)用戶(hù)在不同 treatment 組中的 Y,再相減得到 te。區(qū)別在于在 s-learner 中,所有 treatment 的數(shù)據(jù)都是在一個(gè)模型中訓(xùn)練,treatment 通常會(huì)作為模型的一個(gè)輸入特征。

而 t-learner 會(huì)針對(duì)每個(gè) treatment 組都訓(xùn)練一個(gè)模型。

2.2 Double machine learning

在 meta-learner 中,中間變量的預(yù)測(cè)誤差導(dǎo)致我們?cè)谶M(jìn)行 uplift 預(yù)估時(shí)天生存在 bias。為了解決該問(wèn)題,DML 引入了殘差擬合、cross fitting 等方式進(jìn)行消偏處理,最終得到了無(wú)偏估計(jì)。

DML 的核心思想就是通過(guò)擬合殘差,來(lái)消除中間變量的 bias 的影響。論文中證實(shí)了誤差的收斂速度快于 n^(-1/4),確保了最終預(yù)估結(jié)果的收斂性。

下圖展示了論文中不使用 DML、使用 DML 但不使用 cross fitting、使用 DML-cross fitting 的效果對(duì)比:

2.3 Generalized Random Forests

GRF 是一種廣義的隨機(jī)森林算法,和傳統(tǒng)的隨機(jī)森林算法的不同點(diǎn)在于,傳統(tǒng)的隨機(jī)森林算法在做 split 時(shí),是找 loss 下降最大的方向進(jìn)行劃分,而 GRF 的思想是找到一種劃分方式,能夠最大化兩個(gè)子節(jié)點(diǎn)對(duì)于干預(yù)效果之間的差異。和隨機(jī)森林相同,GRF 也需要構(gòu)建多棵樹(shù)。在每次建樹(shù)時(shí),也需要隨機(jī)無(wú)放回的進(jìn)行抽樣,抽取出來(lái)的樣本一半用來(lái)建樹(shù)、一半用來(lái)評(píng)估。

GRF 算法延續(xù)了 DML 的思想,在第一階段時(shí),使用任意的機(jī)器模型去擬合殘差。第二階段時(shí),GRF 算法引入了得分函數(shù) Ψ(Oi)、目標(biāo)函數(shù) θ(x)和輔助函數(shù) v(x),其中得分函數(shù)的計(jì)算公式為:

很容易看出,得分函數(shù) Ψ(Oi)其實(shí)就是殘差,由公式 Y = θ(x)T + v(x)得到的。算法尋求滿(mǎn)足局部估計(jì)等式的 θ(x):對(duì)于所有 x,滿(mǎn)足:

其實(shí)本質(zhì)上也是學(xué)習(xí) θ(x),使得實(shí)驗(yàn)組和對(duì)照組數(shù)據(jù)的預(yù)估結(jié)果與真實(shí)值之差最小。

三、評(píng)估方式

目前因果模型常見(jiàn)的評(píng)估方式有兩種:uplift bins 及 uplift curve

3.1 Uplift bins

將訓(xùn)練好的模型分別預(yù)測(cè)實(shí)驗(yàn)組和對(duì)照組的測(cè)試集數(shù)據(jù),可以分別得到兩組人群的 uplift score。按照 uplift score 的降序進(jìn)行排列,分別截取 top10%、top20% .... top100%的用戶(hù),計(jì)算每一分位下兩組人群分值的差異,這個(gè)差異可以近似認(rèn)為是該分位下對(duì)應(yīng)人群的真實(shí) uplift 值。uplift bins 的缺陷在于,只能做一個(gè)定性的分析,無(wú)法比較不同模型效果好壞。

3.2 Qini curve

在 uplift bins 的基礎(chǔ)上,我們可以繪制一條曲線,用類(lèi)似于 AUC 的方式來(lái)評(píng)價(jià)模型的表現(xiàn),這條曲線稱(chēng)為 uplift curve;我們將數(shù)據(jù)組的數(shù)據(jù)不斷細(xì)分,精確到樣本維度時(shí),每次計(jì)算截止前 t 個(gè)樣本的增量時(shí),得到對(duì)應(yīng)的 uplift curve。

計(jì)算公式為:

其中 Y_t^T 代表前 t 個(gè)樣本增量時(shí),實(shí)驗(yàn)組樣本轉(zhuǎn)化量,N_t^T 代表實(shí)驗(yàn)組的累計(jì)到 t 時(shí),實(shí)驗(yàn)組樣本總量,對(duì)照組同理。

如上圖,藍(lán)線代表的 uplift curve,實(shí)黑線代表 random 的效果,兩者之間的面積作為模型的評(píng)價(jià)指標(biāo),其面積越大越好,表示模型的效果比隨機(jī)選擇的結(jié)果好的更多。與 AUC 類(lèi)似,這個(gè)指標(biāo)我們稱(chēng)為 AUUC(Area Under Uplift Curve)。

四、業(yè)務(wù)應(yīng)用

4.1 樣本準(zhǔn)備

因果建模對(duì)于樣本的要求比較高,需要樣本服從 CIA(conditional independence assumption)條件獨(dú)立假設(shè),即樣本特征 X 與 T 相互獨(dú)立。因此在進(jìn)行因果建模前,需要進(jìn)行隨機(jī)實(shí)驗(yàn)進(jìn)行樣本收集,通常是通過(guò) A/B 的方式將用戶(hù)隨機(jī)的分配至不同的 treatment 中,觀測(cè)用戶(hù)在不同 treatment 下的表現(xiàn)。

4.2 樣本構(gòu)造

樣本構(gòu)造與常規(guī)機(jī)器學(xué)習(xí)的樣本構(gòu)造步驟基本一致,但是需要特別關(guān)注以下方面:

特征關(guān)聯(lián):用戶(hù)特征 X 必須嚴(yán)格使用進(jìn)入隨機(jī)實(shí)驗(yàn)組前的特征,例如:用戶(hù) T 日進(jìn)入實(shí)驗(yàn)組,那么用戶(hù)的特征必須使用 T-1 日及以前的特征。這樣做的原因是用戶(hù)進(jìn)入 treatment 后,部分特征可能已經(jīng)受到 treatment 的影響發(fā)生了改變,使用受影響后的特征進(jìn)行模型訓(xùn)練有幾率造成信息泄露,對(duì)模型的效果造成比較大的影響甚至起反向的作用。

目標(biāo)選擇:在某些場(chǎng)景中,treatment 的影響需要一段時(shí)間才能夠產(chǎn)生作用,例如道具數(shù)量的調(diào)整對(duì)用戶(hù)留存的影響可能需要過(guò)一段時(shí)間才能體現(xiàn)。因此在選擇目標(biāo)時(shí),可以選擇更長(zhǎng)周期的目標(biāo),例如相比于次日留存,選擇 7 日留存或 14 日留存會(huì)更優(yōu)。不過(guò)也不是越長(zhǎng)周期越好,因?yàn)樵介L(zhǎng)周期的目標(biāo)有可能導(dǎo)致模型的學(xué)習(xí)成本增加從而效果下降,這種情形在小樣本的場(chǎng)景更為突出。選擇一個(gè)合適的目標(biāo)能夠很大程度上提升模型的線上表現(xiàn)。

4.3 模型訓(xùn)練

在我們的場(chǎng)景中,用戶(hù)每次完成任務(wù)發(fā)放的道具數(shù)量為 treatment,用戶(hù)留存以及用戶(hù)活躍時(shí)長(zhǎng)變化為我們關(guān)注的 uplift。實(shí)驗(yàn)過(guò)程中,我們先后對(duì)比了 s-learner、t-learner 以及 dml 的效果,三種模型選擇的 base-learner 都為 lightgbm。

在實(shí)驗(yàn)的過(guò)程中,我們發(fā)現(xiàn),當(dāng)使用 s-learner 對(duì)活躍時(shí)長(zhǎng)進(jìn)行建模時(shí),無(wú)論如何調(diào)試模型,得到的 treatment effect 都為 0,即用戶(hù)在不同 treatment 下的活躍時(shí)長(zhǎng)預(yù)測(cè)結(jié)果相同。但是當(dāng)我們將模型換成 t-learner 或 dml 時(shí),treatment effect 數(shù)據(jù)恢復(fù)正常。輸出 s-learner 的特征重要度,我們發(fā)現(xiàn) treatment 特征的重要度為 0。我們對(duì)用戶(hù)在不同 treatment 下活躍數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)不同組的活躍數(shù)據(jù)彈性很小,即用戶(hù)在不同 treatment 下的活躍改變很小。

而 s-learner 對(duì)于這種微弱的改動(dòng)敏感度很低,因此效果不佳。而 t-learner 在進(jìn)行訓(xùn)練時(shí),會(huì)針對(duì)每個(gè) treatment 都訓(xùn)練一個(gè)模型,相當(dāng)于顯性的將 treatment 的特征重要度加大,而 dml 在訓(xùn)練過(guò)程中主要關(guān)注訓(xùn)練的殘差,因此這兩類(lèi)模型的效果都要好于 s-learner。這也反映了 s-learner 在數(shù)據(jù)彈性不足時(shí)的效果缺陷,因此在后續(xù)的訓(xùn)練中,我們放棄了 s-learner,主要關(guān)注在 t-learner 以及 dml 上。

后續(xù)在不同指標(biāo)的離線評(píng)估上,dml 模型的效果都要顯著優(yōu)于 t-learner。這也與理論相互印證:t-learner 由于引入中間變量,中間變量的誤差使得對(duì)于最終 uplift 的預(yù)估有偏,而 dml 通過(guò)擬合殘差,最終實(shí)現(xiàn)了無(wú)偏估計(jì)。

4.4 人群分配

根據(jù)訓(xùn)練效果,我們選擇 dml 作為最終的預(yù)估模型,并得到了用戶(hù)在不同 treatment 下的 uplift 值。我們會(huì)根據(jù)用戶(hù)在不同 treatment 下的 uplift 值,對(duì)用戶(hù)做人群分配。分配方案基于實(shí)際情況主要分為兩種:有無(wú)約束條件下的人群分配及有約束條件下的人群分配。

  • 無(wú)約束條件下的人群分配:只關(guān)心優(yōu)化指標(biāo),不關(guān)心其他指標(biāo)的變化。那么我們可以基于貪心的思想,選擇每個(gè)用戶(hù) uplift 值最高的策略進(jìn)行人群分配。
  • 有約束條件下的人群分配:關(guān)注優(yōu)化指標(biāo)的同時(shí),對(duì)于其他指標(biāo)的變化也有一定的約束。我們可以通過(guò)約束求解的方式對(duì)該類(lèi)問(wèn)題進(jìn)行求解。

在我們的業(yè)務(wù)場(chǎng)景下,我們同時(shí)對(duì)用戶(hù)留存、活躍時(shí)長(zhǎng)、流水等目標(biāo)都有限制,因此進(jìn)行了有約束條件下的人群分配方案。

4.5 實(shí)驗(yàn)效果

基于訓(xùn)練好的 dml 模型及約束分配后的結(jié)果,我們開(kāi)啟了線上 A/B 實(shí)驗(yàn)。在經(jīng)過(guò)多周的測(cè)試后,相較于基準(zhǔn)策略,我們的策略在流水、活躍等指標(biāo)不降的情況,取得了置信的 10%+留存收益。目前我們基于因果模型的策略已經(jīng)全量上線。

五、總結(jié)及后續(xù)展望

因果模型目前在互聯(lián)網(wǎng)各大場(chǎng)景都得到了實(shí)踐及應(yīng)用,并取得了不錯(cuò)的收益。隨著營(yíng)銷(xiāo)活動(dòng)越來(lái)越多,營(yíng)銷(xiāo)手段越來(lái)越復(fù)雜,treatment 的維度也由常見(jiàn)的多 treatment 逐漸變?yōu)檫B續(xù) treatment,這對(duì)于樣本、模型學(xué)習(xí)能力等方面的要求也越來(lái)越嚴(yán)格。在后續(xù)工作開(kāi)展,可以考慮從多目標(biāo)建模、場(chǎng)景聯(lián)動(dòng)、無(wú)偏估計(jì)、強(qiáng)化學(xué)習(xí)等方面繼續(xù)進(jìn)行優(yōu)化,為各個(gè)業(yè)務(wù)場(chǎng)景產(chǎn)生更大價(jià)值。

以上就是游戲個(gè)性化數(shù)值因果推斷的應(yīng)用實(shí)踐的詳細(xì)內(nèi)容,更多關(guān)于游戲個(gè)性化數(shù)值因果推斷的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評(píng)論