LeCun称梯度下降是最优雅的 ML 算法，Marcus：我不同意

2023-02-28

机器学习梯度 ml

前几天刚跟马斯克吵完架的GaryMarcus，又双叒叕跟人吵起来了，这次的吵架对象是YannLeCun。一向喜欢给深度学习泼冷水的Marcus，在今天发帖谈了谈与LeCun的「旧账」和「新仇」，并给了LeCun一个白眼：事情是这样的。几天前，有人在推特上发帖问:在机器学习中，最优雅美丽的idea是

前几天刚跟马斯克吵完架的Gary Marcus，又双叒叕跟人吵起来了，这次的吵架对象是Yann LeCun。

一向喜欢给深度学习泼冷水的Marcus，在今天发帖谈了谈与LeCun的「旧账」和「新仇」，并给了LeCun一个白眼：

事情是这样的。

几天前，有人在推特上发帖问: 在机器学习中，最优雅美丽的idea是什么？感觉数学家和物理学家经常谈论美学，但我们却很少，为什么？

于是网友们都来认真答题：多重权重更新算法（multiplicative weights update）、核技巧（kernel trick）、降维（dimension reduction）、一些凸优化方法（convex optimization）、变分推理（variational inference）、熵和信息论等等。

大家还就机器学习研究的美学性讨论了起来。有人认为，机器学习理论家其实也在谈论优雅这个东西，尤其是那些具有理论计算机背景或者传统物理学背景的人。也有人言语犀利：之所以很少有人谈论美学，是因为机器学习重在应用，而不是像纯粹数学那样「毫无价值」。

谷歌大脑的研究员Chris Olah也来转贴评论说：

ML的优雅是一种生物学的优雅，而非数学或物理的那种优雅。梯度下降创造了令人难以置信的结构和行为，正如进化创造了令人敬畏的自然复杂性。

LeCun表示：梯度下降？这我熟！

近4年来，我一直试图让我许多更注重理论的同事相信梯度下降所具有的不可思议的力量。

LeCun在1989年发表的那篇论文，就是通过使用梯度下降的方法训练了CNN进行图像识别，梯度下降后来成为计算机视觉研究的基础理论。

LeCun还回忆了2000年丹佛NIPS会议上的一次经历。当时一位非常杰出的ML研究人员在晚宴上问道：「我们在ML中学到的最重要的东西是什么？」LeCun回答说：「梯度下降」。当时那位研究人员脸上目瞪口呆的表情表明他对这个回答嗤之以鼻。

LeCun这个「仇」记得还挺久......

那么，「梯度下降」是最优雅的ML算法吗？有人赞成有人反对。

毫无疑问GD是过去十年来我们在AI领域所看到的所有进步背后的核心驱动力。

GD很了不起，...但这并不是AI。

LeCun正忙着与网友进行友好交流，Marcus也来了。有讨论深度学习的地方，怎能没有我Marcus的身影？

的确。但重要的是，令人难以置信的力量≠无穷的力量。要意识到（梯度下降）的极限，才能知道下一步要做什么来获得进步。

LeCun一看：所以你的意思是要抛弃梯度下降了？？

1.基于梯度的优化是学习的一个要素，而不是人类级人工智能的一整套组件。

2.未来会有什么方案可能替代基于梯度的优化？你是相信（a）无梯度优化不好？，还是（b）优化本身不好？

对此，Marcus表示很委屈：我的意思是DL需要「补充」，而不是「替换」！

我感觉自己又被「稻草人谬误」攻击了，附上我的论点核心：我从未呼吁要替代深度学习/梯度下降。未来会出现的是「其他」工具，比如与SGD一起工作的符号处理操作。

Marcus还搬出发表于2018年的一篇文章“Deep Learning: A Critical Appraisal”作为证据：

尽管有我所描述的这些问题，但我认为我们不需要抛弃深度学习。相反，我们需要重新定义它：不是一种通用的办法，而只是众多工具的一种。

还有最近的一场keynote演讲：

我们不需要舍弃深度学习，但我们需要找到办法来作为对它的补充，因为智能本身是多方面的。

但是，LeCun并不买账，他接着Marcus的话回复：

所以「DL是办法的一种，但我们需要新的推理组建」？欢迎来到我的世界！

这可把Marcus惹急了：

我给的引用是来自2018年，那篇你称之为「大部分都是错误的」的文章。我的主张自1992年以来就没变过，唯一迟到的是你「欢迎来到我的世界」这句话，而这句话其实是你对我实际立场的认可。

那就来翻翻旧账，针对Marcus在2018年写的那篇文章，LeCun的确曾这样评论（虾仁猪心）：

到这儿大家也能看出来，二人讨论的对象和观点是有错位的。LeCun希望如果有新的方案，仍需要封装在DL下，而Marcus的意思是新的方案需要围绕着DL进行封装，前者是关于规模的扩展，后者则是一种混合和补充。

c="//sdk.51.la/js-sdk-pro.min.js"> ipt>