涨知识！声学的未来三十年

2年前浏览6167

我经常跟从事声学工作的朋友聊天，发现大家有一个共同的困惑，就是“以后做什么”的问题。有的路越走越宽，有的路越走越窄。比如消费电子的声学设计，前几年欣欣向荣，现在变得肉眼可见的拥挤。

这里结合最近几年的思考，谈谈未来三十年里，声学方向的主要机会。着重介绍我熟悉的电声学、通信声学、心理声学和机器听觉。

关于声学发展的全面总结，请参考程建春，李晓东，杨军三位老师编写的《声学学科现状以及未来发展趋势》一书。

声学的精神

声学的研究对象是各种环境里的声音。马大猷先生在《现代声学理论基础》的后记里提到，声学的内核紧凑，但是外延很广。我的理解是：声学的基础理论成型较早，后来变化不大。声学作为应用学科发展的历史悠久，因而充满了实用主义的求生欲。相应的，声学专业的同学们的就业率高，但是就业的方向有些随机。

例如：学科下属的超声学、电声学、水声学、音乐声学和建筑声学等，与其说是理论上有区别，不如说是基于应用领域的划分。这些细分学科的产出，跟果树做个类比的话，比较像枣树：单个水果的个头不大，但是产量惊人。

所以，如果说声学有什么共同精神的话，这个精神就是“为人民服务”。社会需要什么，我们就做什么。作为应用学科，声学的未来增长主要取决于新兴产业的需求。

穿越

一个来自2050年的人穿越到2020年，会有哪些发现？

要回答这个问题，我们可以想象自己作为2020年代的人，回到1990年会发生什么。一方面是物质的匮乏，另一方面是信息的获取不便——自行车怎么这么贵？家里为什么要买缝纫机？看新闻怎么还要订报纸？电报是什么？——过去的三十年，通过大规模生产和信息产业的进步，我们基本上解决了物质和信息的产生和流通的问题。

当一个2050年的人穿越回2020年，感受到的应该是另外一种不方便——水管为什么要找人修？灯泡为什么要自己换？真的要自己做饭么？什么是方向盘？——解决了生产和信息传播的自动化以后，服务业的自动化成为一个新的有待开发的领域。这个方向目前受到计算机感知、认知和规划能力的制约。到达可以使用的程度，需要的时间可能超过十年。但是，在三十年的跨度上，很有可能出现新的突破。

在此基础上，会根据任务的不同，出现新的服务机器人序列。大小不同，适用的环境也不同。负责矿山开发的机器人可能达到百米级别；负责消防、安保、烹饪和家政的机器人跟人类有同样尺度；而负责植物授粉的机器人只要蜜蜂尺度就够了。但是，有一点是确定的：新一代服务机器人对环境的适应性，会远超2020年代的机器人。

新的应用场景在不同层次上对声学提出了新的要求。而自然界千姿百态的动物为我们提供了设计的灵感来源。

声学与仿生学

布莱克的一首诗这样开头：

"一粒沙里有一个世界，

一朵花里有一个天堂。

把无穷无尽握于手掌，

永恒宁非是刹那时光。"

杨振宁引用这首诗来形容物理学与美学的关系。但是，在我看来，“一粒沙”说的是物理，“一朵花”说的则是生物。“无穷”对应于空间，而“永恒”对应于时间。生物对环境中的时间和空间信息表现出强大的处理能力，远非现有的机器人可以匹敌，也是下一阶段的研究重点。

以人耳为例。在开始博士研究之前，我做过几年声学工程师，负责设计麦克风（正式的名称是“传声器”）。做博士前两年，读到人耳的生理学的时候，我先是震惊，然后懊恼，最后是欣慰。震惊是因为生物处理声音的方式和麦克风非常不一样，人耳的声学前端对信号的处理和特征提取非常特别，完全颠覆了我的认知。懊恼是因为我竟然从来没有思考过接收声音的其它可能的方式。欣慰则是因为对未来的乐观——总有一天，会出现同样精密的人造系统。

听觉的生理学让我了解了中耳内镫骨的每一次振动，柯蒂氏器上的每一个行波，毛细胞离子通道的每一次开合和听神经上的每一个脉冲。这些机制述说着生物为了适应环境作出的不懈的努力。生物世界里的听觉和发声器官多种多样，未来可以成为声学研究和技术的丰富来源。

仿生学的意义，一方面是提供设计的参考，另一方面说明什么是“可行的”。

功能主义和还原论

要从仿生学角度理解复杂的听觉系统，目前有两个思路。它们对未来声学具有不同的启发意义。

第一个思路是还原论（Reductionism）。还原论寻求通过解剖学和生理学的研究，一层一层地理解听觉系统。以人类的听觉系统为例，外耳和中耳的研究说明了声信号如何被放大；对内耳的研究则揭示了换能机制和特征提取的前置。这个过程很类似搭积木。还原论对工程学有启发意义，尤其是外周系统。但是，随着神经系统一层层接近大脑皮层，神经网络的复杂性呈现指数级增长。与之对应，生理学越来越接近对现象的描述，谈不上对工程实践的有意义的指导。

另一个思路是功能主义（Functionalism）。功能主义寻求从功能上模仿对象系统。这种观点认为：人造和天然的系统的输入输出相同，那就可以了。至于实现细节上是否相同则无关紧要。基于深度学习的声音事件分析就属于此类。从工程学角度来看，功能主义的优点是输入输出都可量化，天然对工程实现相当友好。缺点则是可解释性不强，局限于统计意义上的拟合。数据量不大的时候，泛化能力不强。而且对大脑功能的模仿往往局限于少数几个方面——基于深度学习的方案偏重分类，但是分类显然只是人脑功能的一小部分。

无论是还原论还是功能主义都取得了部分成功，也仅仅是部分成功。越靠近听觉系统的底层，还原论越能够清晰地描述子系统的工作原理。但是，这个思路在中枢神经系统就陷入了复杂性的迷雾。靠近顶层，从功能主义角度出发，基于深度学习的分类器在声学事件感知（参考曹寅博士的论文）和定位（参考郑成诗研究员的论文）方面表现良好。

深度学习迅速获得成功，在一定程度上掩盖了早期模型底层的局限——至少在发展初期，其使用的麦克风和声学特征是针对通信产品设计的。这类前端针对语声做了优化，并未考虑声学事件感知。例如，声学场景分析的早期工作使用梅尔倒频谱系数（MFCC）作为特征，损失了大量时域信息，同时在频域上也不够精细。

以上种种都说明，声学事件和场景分析与通信系统具有本质不同，也不是深度学习的一个简单应用场景，对前端和后端都提出了新的要求。这些特性使得“机器听觉”成为一个独立学科。

机器听觉

与机器视觉类似，机器听觉关注的是信号的获取、分析和处理。

2017年是机器声学元年。这一年，Dan Ellis发表了Computational Analysis of Sound Scenes and Events（声学场景和事件的计算分析）。这本书从功能主义出发，详细总结了声学事件分析所采用的数据集、特征和模型，虽然有点偏向机械的听觉观念，但还是不得多得的一本参考书。

同年，我的朋友Dick Lyon发表了Human and Machine Hearing（人与机器听觉：听见声音的意义）。这本书主要从还原论角度出发，对人耳机理做了详细阐述和建模，同时对机器声学前端的实现方式做了详细的分析，提出了CARFAC特征（“快速动态压缩下的级联非对称振荡器”）。该书是听觉建模的集大成者，最近出版了中译本，我非常推荐。

这两本书的关注角度不同。但是，即使将其合二为一，其作为机器听觉的早期作品，仍然有其局限性。我的批评集中在三个方面：

声感知是否遵循机械和线性的“换能 -> 信号处理 -> 感知”架构？
感知是否只有一个层次？
未来机器的尺度差异会很大，是否都应当模仿人耳的架构？

这两个问题在一个意想不到的地方得到了解答。

最小的大脑

与人类和机器听觉的研究不同，在昆虫研究领域，研究人员很早就致力于感知和运动的融合，产生了“为了运动的感知”（Perception for Action）的说法。最小的昆虫只有8000个神经元。通过对这些最小的大脑的研究，逐渐理清了信息的流向与不同子系统的相互关系。这里推荐三本书（1，2，3），都出自Paolo Arene之手。

针对上面的三个问题，Arene给出的答案是：

感知服务于运动；运动信号反馈并服务于感知；感知～运动不是一条线，而是一个环；
感知至少分为“快”与“慢”两个层次；在“快”的层次上，低级特征可以直接进入前运动区；
即使在同一个尺度上，不同种类的昆虫也演化出了非常不同的感知策略。

有趣的是，Arene的作品发表于2009年，早于机器听觉出现的2017年。这从另一个角度说明了从不同角尺度和领域研究同一个问题的重要性。

Arene的研究隐含着一个未来机器听觉的框架。上图为其著作1中的图1.4的延伸。这个框架在Wessnitzer的Multimodal Sensory Integration in Insects（昆虫的多感官融合）里得到更充分的讨论。

其中，绿色部分为物理层，蓝色部分偏重传统的信号处理，而黄色部分则偏重学习和决策。从听觉外周获得的声信号提取低级特征，既可以直接进入前运动区，产生快速的运动，也可以进入更高一级的中枢神经，利用已有经验，作出更加复杂的反应。因此需要一个调解系统决定信号的优先级。从这个角度看，声信号不仅仅是一种信号的输入，它可能也说明了事件的本质和严重程度，因此可能在这个调解系统里扮演重要的角色。

基于这个架构，感知分出了多个层次。

感知的层次

Gibson认为，感知的对象并不是物理信息，而是affordance。中译名为“示能”或者“可供性”。这个“示能”可以理解为物理世界提供的感知机会。从这个角度出发，我认为未来的感知至少有三个层次：

被动的信号处理，如现有的声音事件分类；
主动调整自己的注意力或动作，例如鸡尾酒会效应或者头动；
通过自身运动，介入环境和观察对象，例如拍西瓜。

总结如下：

	自身运动	对象运动
1被动感知	否	否
2主动感知	是	否
3互动感知	是	不一定

其中，被动感知遵循机械的“换能 -> 信号处理 -> 感知”的架构（affordance）。很遗憾，最近几年的DCASE竞赛仍然因循了这个架构。

主动感知通过注意力机制或自身运动获取更加丰富的特征。注意力机制的典型是“鸡尾酒会效应”，在大量人同时说话的时候，人还是能听懂目标对象在说什么。动物还可以通过自身运动获得声学特征的叠加。以我和孙亮教授的文章Active Binaural Localization of Multiple Sound Sources（对多声源的主动双耳定位）为例，头部转动对声定位具有促进作用。

“互动感知”则意味着对观测对象的干涉和反馈。很多人买西瓜的时候，喜欢拍拍西瓜来判断生熟。西瓜本身当然是不可能有声音的。但是你通过拍打，产生一个声音，根据这个就知道是不是好瓜。这就是affordance的最高层级。

感知出现分层，声学的前端就要适应不同层次的需要。前后端的配合因此变得关键。

耦合与解耦

早在2009年，Andrew Ng就写了一篇文章Learning Sound Location from a Single Microphone（基于学习的单麦克风声定位）。他们在麦克风附近放置了一些物体，造成声信号随入射角度的变化。经过训练的神经网络因而能够判别声音方位。这个早期作品生动说明了声学器件、信号处理和机器学习子系统之间的耦合。前端可以配合后端做设计上的改变，来让声学特征更加明显；后端也可以针对前端的变化重新训练，达到更佳的性能。

机器听觉的成熟与完善需要相当长的时间。这个过程里会反复出现产品迭代。为此，从工程上应该秉承实用主义，不拘泥于还原论或者功能主义，而是哪个好用就用哪个。具体来说，前端的实现一般会偏向还原论，而后端的实现可以从功能主义入手。随着认识的深入，如果新的还原论方法体现出优势，那么可以逐渐把功能主义的模块替换为还原论模块。

声学器件、信号处理和机器学习的子系统会反复耦合和解耦。新的应用出现的时候，早期系统往往用已有的子系统搭建。这时候，子系统之间的配合度不高。随着产品设计的深入，子系统之间会出现Ng建议的那种耦合。而当产品进入成熟期，供应商会将各个子系统分别标准化。这时候又实现了子系统之间的解耦。

总体上，这个迭代过程对声学前端的要求如下：

	2020年的声学前端	2050年的声学前端
设计对象	人	机器
传声器	电容式传声器	通用特化的换能器
感知闭环	无	有
前端	器件与处理分离	特征处理前端
多模态融合	稀少	广泛
动态感知	无	有

在开发过程中，设计部门和需求部门会反复讨价还价。

例如：

“这个声源定位的精度要求很高啊，我给你加个外耳廓，把HRTF（头相关函数）弄得夸张一点吧？”

又如：

“预算不够了，负担不起太复杂的器件，要不然给你换个触角式的麦克风吧？”

未来三十年，这样的争吵会经常发生。

参考文献

程建春，李晓东，杨军. (2021). 声学学科现状以及未来发展趋势. 科学出版社.

马大猷. (2004). 现代声学理论基础. 科学出版社.

杨振宁. (1998). 杨振宁文集: 传记, 演讲, 随笔 (Vol. 2). 华东师范大学出版社.

Yost, W. A. (2001). Fundamentals of hearing: An introduction.

Cao, Y., Iqbal, T., Kong, Q., An, F., Wang, W., & Plumbley, M. D. (2021, June). An improved event-independent network for polyphonic sound event localization and detection. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 885-889). IEEE.

Ding, J., Ke, Y., Cheng, L., Zheng, C., & Li, X. (2020). Joint estimation of binaural distance and azimuth by exploiting deep neural networks. The Journal of the Acoustical Society of America, 147(4), 2625-2635.

Virtanen, T., Plumbley, M. D., & Ellis, D. (Eds.). (2018). Computational analysis of sound scenes and events (pp. 3-12). Heidelberg: Springer.

Lyon, R. F. (2017). Human and machine hearing: extracting meaning from sound. Cambridge University Press.

Arena, P., & Patanè, L. (2009). Spatial Temporal Patterns for Action-Oriented Perception in Roving Robots.

Arena, P., & Patanè, L. (2014). Spatial temporal patterns for action-oriented perception in roving Robots II. An Insect Brain Computational Model Springer Series, Cognitive Systems Monographs, 21.

Patanè, L., Strauss, R., & Arena, P. (2018). Nonlinear circuits and systems for neuro-inspired robot control. Springer International Publishing.

Wessnitzer, J., & Webb, B. (2006). Multimodal sensory integration in insects—towards insect brain control architectures. Bioinspiration & biomimetics, 1(3), 63.Wessnitzer, J., & Webb, B. (2006). Multimodal sensory integration in insects—towards insect brain control architectures. Bioinspiration & biomimetics, 1(3), 63.

Gibson, J. J. (2014). The ecological approach to visual perception: classic edition. Psychology press.

Saxena, A., & Ng, A. Y. (2009, May). Learning sound location from a single microphone. In 2009 IEEE International Conference on Robotics and Automation (pp. 1737-1742). IEEE.