深度学习(Deep learning)是基于人工神经网络的机器学习方法的一部分。深度学习架构,如深度神经网络、深度信念网络、递归神经网络和卷积神经网络等,已被应用于生物信息学、药物设计、医学图像分析等领域。
受南方科技大学生物医学工程系刘泉影博士邀请,来自上海交通大学自然科学研究院的许志钦博士(https://ins.sjtu.edu.cn/people/xuzhiqin/)于腾讯会议平台在线深入浅出的讲解了深度学习(Deep Learning)的频率原则 (Frequency Principle, F-Principle)理论,并利用实验与数学理论结合的方式,阐明了深度神经网络更适用于低频情况(“DNNs prefer low frequency”)这一核心思想。
图1: 深度学习的优势
在讲座伊始,许博士以实验案例说明了深度学习算法的优势。 深度神经网络(DNN)模型中参数复杂,可用于拟合细微的变化,并且DNN 大部分时候不会有过度拟合现象。深度学习与传统学习理论不一样,虽然模型复杂度高,但是具有比较好的泛化能力(generalization ability),也就是算法对新样本的适应能力较强。
然而,深度学习理论在实际应用过程中也可能出现的问题。许博士用轻松幽默的漫画方式(如图2)说明在某些情况下DNN可能并没有全面考察真实问题,只是在能“做事的地方”尝试解决问题。
图2: 深度学习的问题
本次讲座涉及到的模型中的“频率”(Frequency)理解为“输入变化一点点,输出变化的大小”。在了解了DNN模型中所使用的“频率”这一映射(mapping)基础上产生的核心概念之后,从简单函数/一维空间问题出发,频率空间出现了频率原则。首先,直观地,通过实验可以发现,DNN在拟合过程是从轮廓开始的,再随着步数和层数增加,慢慢“抓住”细节。
图3: 频率原则(F-Principle)的研究框架
在图示拟合的过程中,可以发现图像上出现平坦、震荡等特征。许博士解释这些特征可用数学理论上的傅里叶分析中相应的频率概念解释,其中平坦图像对应低频概念,震荡图像对应高频概念。
结合实验与理论解释,得出DNN具有擅长捕捉低频分量,同时将高频分量控制在较小的范围内,并且逐步捕捉高频成分的特点——频率原则(Frequency Principle)。同时,关于“频率还是幅度决定收敛速度”这一问题,许博士的研究发现:收敛是从低频到高频的。
图4: 频率原则(Frequency Principle)
“一维问题类似于在光亮的地方摸索清楚了”,进一步考虑函数维度升高的情况。特别地,对二维到一维的映射,许博士给出了一个详细的实验描述——记住一张图片(如图5),即像素点到该点灰度值的映射。实验中发现随着步数增加,图像的轮廓细节逐渐清晰。多个高维度情况下的实验与思考都体现一个最重要的思想——从频率角度理解深度学习。
图5: DNN二维的实验案例
这些实验案例中,所讨论的频率是反映频率(response frequency),即输入输出映射的频率,而不是相邻像素的变化强度的变化率。因此,高频是指图像中的像素强度的微小变化可能会引起输出的较大变化。实验发现,如果特意设计噪音,DNN就不再进行有效识别,由于映射发生了变化,从而产生了不一样的频率。这也就是说,在DNN中,图像的改变对识别结果的影响本质上是频率的影响作用。结合傅里叶分析、离散化、低通滤波器、卷积定理等数学方法可以有效说明输入输出同时高维的实际问题中的频率原则。实验与理论并行一致验证DNN低频先收敛的性质。
图6: DNN高维的实验案例
最后,许博士结合已有的研究和分析结果说明“深度学习不是万能,只是低频的学习器。在某些高频问题中,强制调参是不容易做出来结果的”。结合深度学习频率原则与计算神经科学,一个值得思考的问题是:大脑是否也执行频率原则——先做低频反应,再做高频反应 ?对于相关的特定神经科学的问题,“频率”要如何理解并定义?更多新想法和理论值得我们去探索并实践!
文字:王海慧
参考文献:
Xu, Zhi-Qin John, et al. "Frequency principle: Fourier analysis sheds light on deep neural networks." arXiv preprint arXiv:1901.06523 (2019).
Xu, Zhi-Qin John, Yaoyu Zhang, and Yanyang Xiao. "Training behavior of deep neural network in frequency domain." International Conference on Neural Information Processing. Springer, Cham, 2019.
Xu, Zhiqin John. "Understanding training and generalization in deep learning by fourier analysis." arXiv preprint arXiv:1808.04295 (2018).
Zhang, Yaoyu, et al. "Explicitizing an implicit bias of the frequency principle in two-layer neural networks." arXiv preprint arXiv:1905.10264 (2019).
Zhang, Yaoyu, et al. "A type of generalization error induced by initialization in deep neural networks." arXiv preprint arXiv:1905.07777 (2019).
Luo, Tao, et al. "Theory of the frequency principle for general deep neural networks." arXiv preprint arXiv:1906.09235 (2019).
Cai, Wei, and Zhi-Qin John Xu. "Multi-scale deep neural networks for solving high dimensional pdes." arXiv preprint arXiv:1910.11710 (2019).
文中所有图片均来自于线上讲座屏幕截图