PyTorch計算損失函數(shù)對模型參數(shù)的Hessian矩陣示例
前言
在實現(xiàn)Per-FedAvg的代碼時,遇到如下問題:
可以發(fā)現(xiàn),我們需要求損失函數(shù)對模型參數(shù)的Hessian矩陣。
模型定義
我們定義一個比較簡單的模型:
class ANN(nn.Module): def __init__(self): super(ANN, self).__init__() self.sigmoid = nn.Sigmoid() self.fc1 = nn.Linear(3, 4) self.fc2 = nn.Linear(4, 5) def forward(self, data): x = self.fc1(data) x = self.fc2(x) return x
輸出一下模型的參數(shù):
model = ANN() for param in model.parameters(): print(param.size())
輸出如下:
torch.Size([4, 3]) torch.Size([4]) torch.Size([5, 4]) torch.Size([5])
求解Hessian矩陣
我們首先定義數(shù)據(jù):
data = torch.tensor([1, 2, 3], dtype=torch.float) label = torch.tensor([1, 1, 5, 7, 8], dtype=torch.float) pred = model(data) loss_fn = nn.MSELoss() loss = loss_fn(pred, label)
然后求解一階梯度:
grads = torch.autograd.grad(loss, model.parameters(), retain_graph=True, create_graph=True)
輸出一下grads:
(tensor([[-1.0530, -2.1059, -3.1589], [ 2.3615, 4.7229, 7.0844], [-1.5046, -3.0093, -4.5139], [-2.0272, -4.0543, -6.0815]], grad_fn=<TBackward0>), tensor([-1.0530, 2.3615, -1.5046, -2.0272], grad_fn=<SqueezeBackward1>), tensor([[ 0.2945, -0.2725, -0.8159, -0.6720], [ 0.1936, -0.1791, -0.5362, -0.4416], [ 1.0800, -0.9993, -2.9918, -2.4641], [ 1.3448, -1.2444, -3.7255, -3.0683], [ 1.2436, -1.1507, -3.4450, -2.8373]], grad_fn=<TBackward0>), tensor([-0.6045, -0.3972, -2.2165, -2.7600, -2.5522], grad_fn=<MseLossBackwardBackward0>))
可以發(fā)現(xiàn)一共4個Tensor,分別為損失函數(shù)對四個參數(shù)Tensor(兩層,每層都有權重和偏置)的梯度。
然后針對每一個Tensor求解二階梯度:
hessian_params = [] for k in range(len(grads)): hess_params = torch.zeros_like(grads[k]) for i in range(grads[k].size(0)): # 判斷是w還是b if len(grads[k].size()) == 2: # w for j in range(grads[k].size(1)): hess_params[i, j] = torch.autograd.grad(grads[k][i][j], model.parameters(), retain_graph=True)[k][i, j] else: # b hess_params[i] = torch.autograd.grad(grads[k][i], model.parameters(), retain_graph=True)[k][i] hessian_params.append(hess_params)
這里需要注意:由于模型一共兩層,每一層都有權重和偏置,其中權重參數(shù)為二維,偏置參數(shù)為一維,在進行具體的二階梯度求導時,需要進行判斷。
最終得到的hessian_params是一個列表,列表中包含四個Tensor,對應損失函數(shù)對兩層網(wǎng)絡權重和偏置的二階梯度。
以上就是PyTorch計算損失函數(shù)對模型參數(shù)的Hessian矩陣示例的詳細內(nèi)容,更多關于PyTorch計算損失函數(shù)Hessian矩陣的資料請關注腳本之家其它相關文章!
相關文章
基于python實現(xiàn)判斷字符串是否數(shù)字算法
這篇文章主要介紹了基于python實現(xiàn)判斷字符串是否數(shù)字算法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-07-07Python科學計算環(huán)境推薦——Anaconda
最近在用Python做中文自然語言處理。使用的IDE是PyCharm。PyCharm確實是Python開發(fā)之首選,但用于科學計算方面,還略有欠缺。為此我嘗試過Enthought Canopy,但Canopy感覺把問題搞得復雜化,管理Python擴展也不太方便。直到今天我發(fā)現(xiàn)了 Anaconda 。2014-06-06pandas調(diào)整列的順序以及添加列的實現(xiàn)
這篇文章主要介紹了pandas調(diào)整列的順序以及添加列的實現(xiàn)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03