由于有warmup_steps存在,lr先慢慢增加,超過warmup_steps時,lr再慢慢減小。 在實際中,由于訓(xùn)練剛開始時,訓(xùn)練數(shù)據(jù)計算出的grad可能與期望方向相反,所以此時采用較小的lr,隨著迭代次數(shù)增加,lr線性增大,增長率為1/warmup_steps;迭代次數(shù)等于warmup_steps時,學(xué)習(xí)率為初始設(shè)定的學(xué)習(xí)率;迭代次數(shù)超過warmup_steps時,學(xué)習(xí)率...
www.dbjr.com.cn/article/2130...htm 2025-5-14