粘贴、。
这才发现,原来是德语。
江寒并没学过德语,不过借助网络和词典,还是能弄清楚大概意思的。
半个小时后,江寒翻译完了这封信。
来信者自称“汉斯”,是德国某著名大学的教授。
他说自己对“人工神经网络”十分有兴趣,并且,在看到江寒的论文后,也深入学习了一番。
还仿照那上面的内容,自制了一些简单的之类的网络……
随后又说,他碰上了一些很麻烦的问题,希望江寒能不吝赐教。
比如,他在试验某个多达127层的深度学习模型时,每次训练到大约三分之一进度,就会出现各种意想不到的问题。
问题的类型,随超参数的选择而有所不同。
比如随着网络深度的增加,参数的梯度范数指数式减小,参数的变化十分缓慢,学习过程接近停滞;
又或者,给定层的隐藏单元的维度变得越来越低,参数矩阵的乘积变得越来越线性相关……
汉斯诚恳地询问,江寒知不知道造成这些情况的原因,以及有没有办法解决?
江寒沉思了一会,便在电脑上回信。
“您在来信中反映的问题,我也遇到过,前者,称作梯度消失,或者爆炸,后者,我把它叫做‘网络退化’,这主要是由于当网络层数过深时……”
“有时,增大全局的梯度范数,会导致性能下降,而引入另一种运算,减小梯度范数,却有可能大幅提升网络的性能……”
“至于解决的办法,我也只有一些基于个人经验的小技巧,并不能给出严格的证明。”
“这些小技巧,我打算整理一下,于接下来几个月中发表,请关注xxx或xxx杂志,期待您的指正。”
写完回信,江寒便将其发送了出去,随后继续一丝不苟地刷论文……
时间荏苒,一晃又是两个月过去。
期末考试之后,江寒处理完琐事,便带着方源飞回了松江。
寒假中间,苏婉莹和靳雪雯来了松江。
靳雪雯是来外婆家过年,苏婉莹则自称想夏雨菲了……
四人聚在一起,吃喝玩乐不在话下。
可惜,生活从来不是只有岁月静好,烦恼什么时候也少不了。
江寒最大的烦恼,自然在科研方面。
lv2量子计算机,虽然已经借助系统的功能,在虚拟空间里建造完成了。
但在解析原理时,却遇上了意想不到的麻烦。
也许还是理论掌握得不够多,不够深入?
江寒隐约猜到了原因,但也没什么好办法。
这不是一朝一夕之功,必须慢慢来。
整个寒假,江寒的“业余”时间,都投入到了理解、发展量子力学上。
天道酬勤,就在过年前后,他终于有了突破!
江寒将自己关于量子力学的心得,写成论文,投给了《理论物理学报》。
一个月后,论文通过了评审,并迅速得到发表。
江寒本以为自己这一次,只是做出了一点微不足道的小发现。
没想到,却引起了巨大的轰动。
细究原因,大概是理论物理近年来有些沉寂,已经很久没有新成果了?
反正江寒这篇论文,一经问世,顿时搅动了一潭秋水。
无数大佬发声,赞叹、惊讶,争相讨论,一时间热闹非常。
也有不少人,在江寒工作的基础上,拓展、延伸、补充、探索……
不到三个月,几十篇相关领域的新论文,在各种刊物上涌现出来。
江寒刷完这些论文,很是有些感慨。
『加入书签,方便阅读』