最近几年,随着图像识别、人工智能的再次兴起,深度学习成为热点。然而,在十几年前,我曾多次谈到:搞“人工神经元”的工作,九成是自欺欺人。不久前,有同事提到我的这句话。我回应说:我仍然认为当时的观点是正确的。
我是在90年开始搞神经元的。当时,有位青年教师让我用神经元方法进行模式分类。他要我做到60%分类正确。我对他说,如果数据是没有矛盾的、可以任意设置隐含层,我可以做到100%的正确。他当时听了有些生气,认为我在吹牛。于是,我很快把算法搞出来给他看。我记得当时的做法,是有意识地训练隐含层的结果,从隐含层到输出的算法是我预设的。但我同时告诉他:这个算法只适合这些样本,我不能保证新样本的分类正确。
当时之所以有这样的想法,是受数学训练的影响。我的本科是学数学的,老早就知道多项式就可以逼近任何连续函数,回归的算法是很容易的、要多精确有精确。但是,也知道用高次多项式逼近是没什么意思的。按照我本科毕业论文指导老师叶老师的说法:高阶多项式的具有“不可压缩性”:在几个规定点上的精度可以很高,函数本身却会变得很怪。但搞神经元的人,常常提起所谓的“无限逼近能力”,以此强调算法的强大。我当时就觉得这个观点是没有道理的。也正是因为这个原因,我对当时研究神经元的热潮有点不以为然。
在硕士的最后半年,我又做了点相关的研究工作。在毕业论文体现了这样的一种思想:什么样的情况下,分类结果是可信的。其中涉及到的观点包括:训练样本集要足够大、神经网络的结构要有突破等等——但是,我真的不知道应该如何做才能突破。
我读博士时,研究的是非线性控制。这个领域有个著名学者,写了一篇用神经元设计控制器的文章,发表在IEEE AC 上。读完以后我就感觉,这个人真的是江郎才尽了。于是,我对神经网络的负面印象就更深了。这样,人工神经元方法就和模糊数学一样,成为我比较鄙视的学问。我在这种背景下,说出了前面的结论。当然,所谓“九成”自欺欺人,仍然保持着一个口子:还有一成的工作确实有道理, 包括一些特殊的具体应用和改变当时思路的做法。
去年我去清华时,遇到几个老师正在讨论深度学习。我就请教他们:深度学习是不是必须基于大数据?当得到肯定的答复后,我立刻感觉到:这种研究应该属于“一成”有用的研究,这“一成”现在变成主流了——深度学习不仅样本数量变了,而且神经元模型的结构也不一样了。
我曾经问自己:如果时光可以倒流, “深度学习”这样的突破,是否可能由我来完成?
我想可能性很小。因为我很早就对神经元方法产生了反感和抵 制,也就不可能在这个问题上花功夫。我当时思考这个问题,只是想从一个侧面证明当时的方法不好;而我对自己提出的思路如何走下去,完全没有信心。从这个意义上说,我犯的是“老专家”常见的毛病。
事实上,如果我的某位徒弟有兴趣做这样的工作,我也会拦住不让做。我会告诉他:我们是在企业工作,不可能把有限的精力投入到这种成功概率非常低的事情上。从这种意义上说,我们常抱怨企业“急功近利”、“阻碍创新”也都是有点道理的。
但是,如果我是一个学校的老师,会不会阻止学生们做这种事情呢?我想,如果学生的素质平平,我也不会鼓励他做这种事情、但也不会拦着;如果他思维能力很强、又提到利用大数据这样的条件,我一定会支持他的——因为我会觉得这属于那“一成”值得思考的问题。 我想,很多不可预料的创新就是这么闯出来的。所以:岗位、身份和年龄的不同,会影响一个人对具体创新项目的看法和态度。