程序问答   发布时间:2022-06-01  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了Pytorch 中的 Transformer 模型输出 Nan 值大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

如何解决Pytorch 中的 Transformer 模型输出 Nan 值?

开发过程中遇到Pytorch 中的 Transformer 模型输出 Nan 值的问题如何解决?下面主要结合日常开发的经验,给出你关于Pytorch 中的 Transformer 模型输出 Nan 值的解决方法建议,希望对你解决Pytorch 中的 Transformer 模型输出 Nan 值有所启发或帮助;

2021-03-09

我在 pytrorch 中训练了我的 transformer 模型。在最初的几批中,损失计算和梯度更新都表现良好。然而,经过几次迭代,模型的输出结果是 nan 值。我相信数据集中没有有缺陷的数据。此外,这不是分类问题,标签是浮点数。

Pytorch 中的 Transformer 模型输出 Nan 值

2021-03-10

跟进: 多么有趣的故事!当我使用更大的架构(如 6 个编码器层、8 个头等)运行这个 transformer 模型时。 NAN 值消失了。似乎梯度爆炸只存在于微小的模型中。

解决方案: 我搜索了 Pytorch 论坛和 Stackoverflow 并找到了这个 NAN 实例的准确原因。首先,因为 NAN 损失在一开始并没有出现。我们可以得出结论,该模型可能定义良好。原因可能是数据或训练过程。我按照https://discuss.pytorch.org/t/gradient-value-is-nan/91663/2中的说明运行了torch.autograd.set_detect_anomaly(true)。它返回 RuntimeError: Function ‘StdBACkWARD1’ returned nan values in its 0th output

根据https://discuss.pytorch.org/t/gradient-of-standard-deviation-is-nan/14713中的类似问题,我仔细检查了变压器内部每一层的输出。奇怪的是,经过几十次迭代,位置嵌入层输出了一个全为零的向量。因此,执行归一化工作的 Layernorm 不能很好地反向损失,因为它计算了标准偏差并且标准偏差在零处没有梯度(或者你可以说它是无限的)!如果您使用的是 pytorch,可能的解决方案是添加 x.std(unbiased=falsE)

这是我遇到的 NAN 损失和 mse。希望我的经历能给你在遇到这种情况时有所启发!

相关问题:Deep-Learning Nan loss reasons

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

大佬总结

以上是大佬教程为你收集整理的Pytorch 中的 Transformer 模型输出 Nan 值全部内容,希望文章能够帮你解决Pytorch 中的 Transformer 模型输出 Nan 值所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。