我很早之前就意识到,论文、尤其是高级期刊论文上的算法,往往不实用。
有的工作基于明确的数学模型,去研究优化或者控制算法。这里潜伏着一个问题:现实的复杂对象,能用清晰的数学模型描述吗?事实上,人们选择特定模型的一个重要原因,往往是这个模型便于求解、便于写出漂亮的论文。换句话说,如果可以合理描述实际对象的模型难以找到合适的求解办法,人们就把它改造成能够求解的模型:这是论文发表的需求。
有的论文,首先是基于数据建模,然后是基于模型的控制和优化。这里又埋伏着另外一个问题:误差最小的那个模型,真的就好吗?我曾在多个报告中讲到,这往往是一个坑。而且,当人们发现了一个精度很高的模型,现实中一般就是“过拟合的”。这样的模型往往只能是“事后诸葛亮”:可以用来描述过去的数据,不能用于预测未来。更有甚者,某些论文的结果本来就是造假的,或者专门挑一些数据来证明模型是好的。
对于现实对象,以上两个问题基本上都是“坑”。但遗憾的是:论文往往需要这么写才能发表。
现实中真正有用的算法,往往是简单办法、“笨办法”或者经典教科书上的算法。但算法中往往融入了大量业务和专业知识,这才是关键所在。但这样的工作,一般不适合发表,也上不了档次、更谈不上时髦。
以上就是论文的“幸存者偏差”。
所以,对众多论文上提到的观点同样也不要在意。在我国,写论文多的人一般实际工作做得少。论文写多了、读多了的人,往往把自己都骗了。
不久前我写过一篇文章,认为对用户的口头上说观点不必太在意。这篇文章的背景,针对的是对“智能制造”的需求调研。事实上,很多用户对智能制造原本就不理解,他心中的智能制造可能局限于人工智能、机器人、无人车间。能提出合理需求的用户是非常少的、甚至可以说是罕见。这样的调查结果,怎么会可信呢?
我们不能相信权威、不能从众;我们需要相信的是实践、是常识、是理性。因为我们身处一个创新的时代。