综合资讯

模型难复现不一定是作者的错,最新研究发现模型架构要背锅

来源:IT之家 2022-03-20 19:43:42 阅读量:11228   

在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗CVPR2022的一篇研究通过将决策边界可视化的方法,给出了答案—...

在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗CVPR 2022 的一篇研究通过将决策边界可视化的方法,给出了答案 —— 有的容易,有的很难

模型难复现不一定是作者的错,最新研究发现模型架构要背锅

例如,从下面这张图来看,研究人员就发现,ViT 比 ResNet 要更难复现:

研究人员还发现,模型的可复现性和模型本身的宽度也有很大关联同样,他们利用这种方法,对 2019 年机器学习最重要的理论之一 —— 双下降现象进行了可视化,最终也发现了一些很有意思的现象

来看看他们具体是怎么做的。

更宽的 CNN 模型,可复现性更高

从中我们可以发现:左边三个和右边四个差异很大,也就是说不同架构之间的相似性很低再进一步观察,左边的全连接网络,ViT 和 MLP Mixer 之间的决策边界图又不太一样,而右边 CNN 模型的则很相似在 CNN 模型中,我们还可以观察到不同随机数种子之间明显的的重复性趋势,这说明不同初始化配置的模型可以产生一样的结果

并发现更宽的 CNN 模型似乎在其决策区域具有更高的可复现性,比如 WideRN30以及采用残差连接结构的 CNN 模型的可复现性得分比无此连接的模型要略高此外,优化器的选择也会带来影响在下表中,我们可以看到 SAM 比标准优化器产生了更多可重复的决策边界不过对于 MLP Mixer 和 ViT,SAM 的使用不能总是保证模型达到最高的测试精度

可视化 ResNet—18 的双下降现象

双下降是一个有趣的概念,描述是测试 / 训练误差与模型大小的关系在此之前,大家普遍认为参数太少的模型泛化能力差 —— 因为欠拟合,参数太多的模型泛化能力也差 —— 因为过拟合

而它证明,两者的关系没有那么简单具体来说:误差会先伴随着模型的增大而减小,然后经过模型过拟合,误差又增大,但伴随着模型大小或训练时间的进一步增加,误差又会再次减小

模型的可复现性得分如下:

同样可以看到,在参数化不足和过参数化的情况下,整个训练过程的可复现性很高,但在插值阈值处会出现故障有趣的是,即使没有噪声标签,研究人员发现他们设计的量化方法也足够敏感,可以检测到可复现性的细微下降

目前代码已经开源,要不要来试试你的模型是否容易复现。

论文地址:

GitHub 链接:



上一篇: 白癜风巩固治疗的重要性
下一篇: 返回列表

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

artice_ad_01
symbol-23相关文章
  • 家庭教育心理健康对于孩子成长的重要性

    家庭教育心理健康对于孩子成长的重要性

  • 朋辈心理辅导活动——“学姐经验交流活动”

    朋辈心理辅导活动——“学姐经验交流活动”

  • 八种可以让孩子感觉愉悦的教育方法 ​

    八种可以让孩子感觉愉悦的教育方法 ​

  • 简谈西柚的七大主要成效作用

    简谈西柚的七大主要成效作用

artice_ad_02
artice_ad_04