返回第481章 梯度爆炸和网络退化(第2/3页)  重生学神有系统首页

关灯 护眼     字体:

上一页 目录 下一页

粘贴、。

    这才发现,原来是德语。

    江寒并没学过德语,不过借助网络和词典,还是能弄清楚大概意思的。

    半个小时后,江寒翻译完了这封信。

    来信者自称“汉斯”,是德国某著名大学的教授。

    他说自己对“人工神经网络”十分有兴趣,并且,在看到江寒的论文后,也深入学习了一番。

    还仿照那上面的内容,自制了一些简单的之类的网络……

    随后又说,他碰上了一些很麻烦的问题,希望江寒能不吝赐教。

    比如,他在试验某个多达127层的深度学习模型时,每次训练到大约三分之一进度,就会出现各种意想不到的问题。

    问题的类型,随超参数的选择而有所不同。

    比如随着网络深度的增加,参数的梯度范数指数式减小,参数的变化十分缓慢,学习过程接近停滞;

    又或者,给定层的隐藏单元的维度变得越来越低,参数矩阵的乘积变得越来越线性相关……

    汉斯诚恳地询问,江寒知不知道造成这些情况的原因,以及有没有办法解决?

    江寒沉思了一会,便在电脑上回信。

    “您在来信中反映的问题,我也遇到过,前者,称作梯度消失,或者爆炸,后者,我把它叫做‘网络退化’,这主要是由于当网络层数过深时……”

    “有时,增大全局的梯度范数,会导致性能下降,而引入另一种运算,减小梯度范数,却有可能大幅提升网络的性能……”

    “至于解决的办法,我也只有一些基于个人经验的小技巧,并不能给出严格的证明。”

    “这些小技巧,我打算整理一下,于接下来几个月中发表,请关注xxx或xxx杂志,期待您的指正。”

    写完回信,江寒便将其发送了出去,随后继续一丝不苟地刷论文……

    时间荏苒,一晃又是两个月过去。

    期末考试之后,江寒处理完琐事,便带着方源飞回了松江。

    寒假中间,苏婉莹和靳雪雯来了松江。

    靳雪雯是来外婆家过年,苏婉莹则自称想夏雨菲了……

    四人聚在一起,吃喝玩乐不在话下。

    可惜,生活从来不是只有岁月静好,烦恼什么时候也少不了。

    江寒最大的烦恼,自然在科研方面。

    lv2量子计算机,虽然已经借助系统的功能,在虚拟空间里建造完成了。

    但在解析原理时,却遇上了意想不到的麻烦。

    也许还是理论掌握得不够多,不够深入?

    江寒隐约猜到了原因,但也没什么好办法。

    这不是一朝一夕之功,必须慢慢来。

    整个寒假,江寒的“业余”时间,都投入到了理解、发展量子力学上。

    天道酬勤,就在过年前后,他终于有了突破!

    江寒将自己关于量子力学的心得,写成论文,投给了《理论物理学报》。

    一个月后,论文通过了评审,并迅速得到发表。

    江寒本以为自己这一次,只是做出了一点微不足道的小发现。

    没想到,却引起了巨大的轰动。

    细究原因,大概是理论物理近年来有些沉寂,已经很久没有新成果了?

    反正江寒这篇论文,一经问世,顿时搅动了一潭秋水。

    无数大佬发声,赞叹、惊讶,争相讨论,一时间热闹非常。

    也有不少人,在江寒工作的基础上,拓展、延伸、补充、探索……

    不到三个月,几十篇相关领域的新论文,在各种刊物上涌现出来。

    江寒刷完这些论文,很是有些感慨。

『加入书签,方便阅读』

上一页 目录 下一页