腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

關(guān)于pytorch求導(dǎo)總結(jié)(torch.autograd)

更新時間：2023年06月14日 10:05:44 作者：不知名大學(xué)僧

這篇文章主要介紹了關(guān)于pytorch求導(dǎo)總結(jié)(torch.autograd)，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

1、Autograd 求導(dǎo)機(jī)制

我們在用神經(jīng)網(wǎng)絡(luò)求解PDE時，經(jīng)常要用到輸出值對輸入變量（不是Weights和Biases）求導(dǎo)；

例如在訓(xùn)練WGAN-GP 時，也會用到網(wǎng)絡(luò)對輸入變量的求導(dǎo)，pytorch中通過 Autograd 方法進(jìn)行求導(dǎo)

其求導(dǎo)規(guī)則如下：

1.1當(dāng)x為向量，y為一標(biāo)量時

通過autograd 計算的梯度為：

1.2先假設(shè)x,y為一維向量

其對應(yīng)的jacobi(雅可比）矩陣為

grad_outputs 是一個與因變量 y 的shape 一致的向量

在給定grad_outputs 后，通過Autograd 方法計算的梯度如下:

1.3當(dāng) x 為1維向量，Y為2維向量

給出grad_outputs與Y的shape一致

Y 與x的jacobi矩陣

則 Y 對 x 的梯度:

1.4當(dāng) X ，Y均為2維向量時

???????

1.5當(dāng)XY為更高維度時

可以按照上述辦法轉(zhuǎn)化為低維度的求導(dǎo)

值得注意的是：

求導(dǎo)后的梯度shape總與自變量X保持一致對自變量求導(dǎo)的順序并不會影響結(jié)果，某自變量的梯度值會放到該自變量原來相同位置梯度是由每個自變量的導(dǎo)數(shù)值組成的向量，既有大小又有方向grad_outputs 與因變量Y的shape一致，每一個參數(shù)相當(dāng)于對因變量中相同位置的y進(jìn)行一個加權(quán)。

2、pytorch求導(dǎo)方法

2.1在求導(dǎo)前需要對需要求導(dǎo)的自變量進(jìn)行聲明

2.2torch.autograd.gard()

grad =? autograd.grad( outputs, inputs, grad_outputs=None, retain_graph=None, ???create_graph=False, only_inputs=True, allow_unused=False )

參數(shù)解釋：

outputs:求導(dǎo)的因變量 Y
inputs : 求導(dǎo)自變量 X
grad_outputs:

當(dāng)outputs為標(biāo)量時，grad_outputs=None , 不需要寫，當(dāng)outputs 為向量，需要為其聲明一個與outputs相同shape的參數(shù)矩陣，該矩陣中的每個參數(shù)的作用是，對outputs中相同位置的y進(jìn)行一個加權(quán)。

不然會報錯

autograd.grad()返回的是元組數(shù)據(jù)類型，元組的長度與inputs長度相同，元組中每個單位的shape與相同位置的inputs相同

retain_graph:

1、當(dāng)求完一次梯度后默認(rèn)會把圖信息釋放掉，都會free掉計算圖中所有緩存的buffers，當(dāng)要連續(xù)進(jìn)行幾次求導(dǎo)時，可能會因?yàn)榍懊鎎uffers不存在而報錯。

因?yàn)榈诙€梯度計算z對x的導(dǎo)數(shù)，需要y對x的計算導(dǎo)數(shù)的緩存信息，但是在計算grad1后，保存信息被釋放，找不到了，因此報錯。

修改如下：

2、一般計算的最后一個梯度可以不需要保存計算圖信息，這樣在計算后可以及時釋放掉占用的內(nèi)存。

3、在pytorch中連續(xù)多次調(diào)用backward()也會出現(xiàn)這樣的問題,對中間的backwad()，需要保持計算圖信息

create_graph: 若要計算高階導(dǎo)數(shù)，則必須選為True

求二階導(dǎo)方法如下：

allow_unused: 允許輸入變量不進(jìn)入計算

2.3torch.backward()

def backward(
??????????? ????????????gradient: Optional[Tensor] = None,
??????????? ????????????retain_graph: Any = None,
??????????? ????????????create_graph: Any = False,
??????????? ????????????inputs: Any = None) -> Any
??????????????????????????????????????????????? )

如果需要計算導(dǎo)數(shù)，可以在tensor上直接調(diào)用.backward(),會返回該tensor所有自變量的導(dǎo)數(shù)。

通過name(自變量名).grad 可以獲得該自變量的梯度如果tensor是標(biāo)量，則backward()不需要指定任何參數(shù)如果tensor是向量，則backward()需要指定gradient一個與tensorshape相同的參數(shù)矩陣，即這里的gradient 同 grad_outputs 作用和形式完全一樣。