circle loss梯度爆炸

神经网络架构MobileNetV2，损失函数采用circle loss，出现了梯度爆炸的问题，loss:nan。求问如何修改代码

from typing import Tuple

import torch
from torch import nn, Tensor


def convert_label_to_similarity(normed_feature: Tensor, label: Tensor) -> Tuple[Tensor, Tensor]:
    similarity_matrix = normed_feature @ normed_feature.transpose(1, 0)
    label_matrix = label.unsqueeze(1) == label.unsqueeze(0)

    positive_matrix = label_matrix.triu(diagonal=1)
    negative_matrix = label_matrix.logical_not().triu(diagonal=1)

    similarity_matrix = similarity_matrix.view(-1)
    positive_matrix = positive_matrix.view(-1)
    negative_matrix = negative_matrix.view(-1)
    return similarity_matrix[positive_matrix], similarity_matrix[negative_matrix]


class CircleLoss(nn.Module):
    def __init__(self, m: float, gamma: float) -> None:
        super(CircleLoss, self).__init__()
        self.m = m
        self.gamma = gamma
        self.soft_plus = nn.Softplus()

    def forward(self, sp: Tensor, sn: Tensor) -> Tensor:
        ap = torch.clamp_min(- sp.detach() + 1 + self.m, min=0.)
        an = torch.clamp_min(sn.detach() + self.m, min=0.)

        delta_p = 1 - self.m
        delta_n = self.m

        logit_p = - ap * (sp - delta_p) * self.gamma
        logit_n = an * (sn - delta_n) * self.gamma

        loss = self.soft_plus(torch.logsumexp(logit_n, dim=0) + torch.logsumexp(logit_p, dim=0))

        return loss

import os
import sys
import json

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import transforms, datasets
from torchvision.transforms import InterpolationMode
from tqdm import tqdm
import torch.utils.data
from MobileNetV2 import MobileNetV2 as v2
from circle_loss import CircleLoss, convert_label_to_similarity


def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("using {} device.".format(device))

    batch_size = 32
    epochs = 100

    data_transform = {
        "train": transforms.Compose([
            transforms.RandomResizedCrop(size=224, scale=(1.0, 1.0), ratio=(1.0, 1.0),
                                         interpolation=InterpolationMode.BICUBIC),
            transforms.RandomRotation(degrees=5),
            transforms.RandomHorizontalFlip(p=0.5),
            transforms.ToTensor(),
            transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
        ]),
        "val": transforms.Compose([
            transforms.RandomResizedCrop(size=96, scale=(1.0, 1.0), ratio=(1.0, 1.0),
                                         interpolation=InterpolationMode.BICUBIC),
            transforms.ToTensor(),
            transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
        ])
    }

    data_root = "../datasets/fer2013"
    image_path = os.path.join(data_root, "train")
    assert os.path.exists(image_path), "{} path does not exist.".format(image_path)
    train_datasets = datasets.ImageFolder(root=image_path,
                                          transform=data_transform["train"])
    train_num = len(train_datasets)

    # {'angry':0, 'disgust':1, 'fear':2, 'happy':3, 'sad':4, 'surprised':5, 'normal':6}
    emotion_list = train_datasets.class_to_idx

    cla_dict = dict((val, key) for key, val in emotion_list.items())
    # write dict into json file
    json_str = json.dumps(cla_dict, indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)

    nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
    print('Using {} dataloader workers every process'.format(nw))

    train_loader = torch.utils.data.DataLoader(train_datasets,
                                               batch_size=batch_size, shuffle=True,
                                               num_workers=nw)

    validate_datasets = datasets.ImageFolder(root=os.path.join(data_root, "val"),
                                             transform=data_transform["val"])
    val_num = len(validate_datasets)
    validate_loader = torch.utils.data.DataLoader(validate_datasets,
                                                  batch_size=batch_size, shuffle=False,
                                                  num_workers=nw)

    print("using {} images for training, {} images for validation.".format(train_num,
                                                                           val_num))

    # create model
    net = v2(num_classes=7)

    # load pretrain weights
    model_weight_path = "../pre_weights/mobilenet_v2.pth"
    assert os.path.exists(model_weight_path), "file {} dose not exist.".format(model_weight_path)
    pre_weights = torch.load(model_weight_path, map_location='cpu')

    # delete classifier weights
    pre_dict = {k: v for k, v in pre_weights.items() if net.state_dict()[k].numel() == v.numel()}
    missing_keys, unexpected_keys = net.load_state_dict(pre_dict, strict=False)

    # freeze features weights
    for param in net.features.parameters():
        param.requires_grad = False

    net.to(device)

    # define loss function
    loss_function = CircleLoss(m=0.25, gamma=64)

    # construct an optimizer
    params = [p for p in net.parameters() if p.requires_grad]
    optimizer = optim.SGD(params, lr=0.001)

    best_acc = 0.0
    save_path = '../V2/MobileNetV2.pth'
    train_steps = len(train_loader)
    for epoch in range(epochs):
        # train
        net.train()
        running_loss = 0.0
        train_bar = tqdm(train_loader, file=sys.stdout)
        for step, data in enumerate(train_bar):
            images, labels = data
            optimizer.zero_grad()
            logits = net(images.to(device))
            loss = loss_function(*convert_label_to_similarity(logits, labels.to(device)))
            loss.backward()
            optimizer.step()

            # print statistics
            running_loss += loss.item()

            train_bar.desc = "train epoch[{}/{}] loss:{:.3f}".format(epoch + 1,
                                                                     epochs,
                                                                     loss)

        # validate
        net.eval()
        acc = 0.0  # accumulate accurate number / epoch
        with torch.no_grad():
            val_bar = tqdm(validate_loader, file=sys.stdout)
            for val_data in val_bar:
                val_images, val_labels = val_data
                outputs = net(val_images.to(device))
                # loss = loss_function(outputs, test_labels)
                predict_y = torch.max(outputs, dim=1)[1]
                acc += torch.eq(predict_y, val_labels.to(device)).sum().item()

                val_bar.desc = "valid epoch[{}/{}]".format(epoch + 1,
                                                           epochs)
        val_accurate = acc / val_num
        print('[epoch %d] train_loss: %.3f  val_accuracy: %.3f' %
              (epoch + 1, running_loss / train_steps, val_accurate))

        if val_accurate > best_acc:
            best_acc = val_accurate
            torch.save(net.state_dict(), save_path)

    print('Finished Training')


if __name__ == '__main__':
    main()

1.降低学习率：降低学习率可以使得网络在训练过程中更新参数的幅度变小，有助于减轻梯度爆炸的问题。例如将学习率从 0.001 改为 0.0001。
2.调整损失函数的超参数：尝试调整 CircleLoss 的 m 和 gamma 参数，以找到适合您的任务的最佳值。

不知道你这个问题是否已经解决, 如果还没有解决的话:

以下回答来自chatgpt:
很抱歉，作为一名AI语言模型，我没有能力编写代码或进行技术调试。但我可以提供一些常见解决梯度爆炸的方法供您参考：
1. Gradient Clipping (梯度裁剪)：对超过一定阈值的梯度进行剪裁。通常情况下，我们可以在求梯度之后统计全局梯度的范数，并将其与一个最大值进行比较。如果超过了这个最大值，那么就将梯度裁剪至这个最大值的大小范围之内。在PyTorch中可以使用torch.nn.utils.clip_grad_norm_()函数，TensorFlow中可以使用tf.clip_by_norm()函数来实现梯度裁剪。
2. Gradient Scaling (梯度缩放)：当梯度的值过大时，我们也可以考虑将其进行缩放，让它变小一些以避免梯度爆炸。在实践中可能需要对每层梯度进行不同的缩放，常见的缩放系数有0.1、0.01或0.001等。
3. 使用其他的损失函数：当采用的损失函数不适合当前模型或数据集时，我们也可以考虑使用其他的损失函数进行训练。Circle loss有时会遭受梯度爆炸问题，可以尝试使用其他损失函数，例如交叉熵、均方误差等。
4. 更改网络架构：如果以上方法无法解决问题，我们也可以考虑更改网络架构以减小梯度爆炸的可能性。例如，可以尝试移除一些层、减小层的宽度以及修改激活函数等等。
以上方法只是常见的解决梯度爆炸的方法之一，具体选择何种方式需要根据实际情况进行判断，并结合实践不断调整。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^