乐音感知系列(五)时间论

2年前浏览1507

Hello，本期是ACOUTEC新年第一更，我们将继续讨论音高感知。

前两期介绍了音高感知的部位学说，本期讲讲时间论。

音高感知的时间论是基于这个事实，即具有强烈音高感的声音波形是重复的或周期性的。周期性声源的基频f0可以通过测量波形的周期计算得到。

音高感知的时间论依赖于柯蒂氏器的神经放电时机，它在基底膜发生振动时就会发出神经电脉冲。部位学说的建立是以输入声波的不同频率成分刺激基底膜不同部位为基础的(见部位学说一期的详细介绍)，而时间论的关键是它详细说明了实际声波沿着基底膜的整个长度刺激不同部位后的具体性质。基底膜可以用一组带通滤波器模拟，这些滤波器的带宽和中心频率的关系如下图所示。

下图所示为一组电子带通滤波器的输出波形，这是Howard 以及他的伙伴们（1995）用一些晶片机实现的，输入信号是小提琴演奏的C4音，滤波器的带宽是根据临界频带计算公式得出的。C4的标准基频为261.6Hz，滤波器输出的频率刚刚大于200Hz的正弦波的频率就是基频f0，也就是图中最小的那个中心频率，这是因为滤波器可以分辨出基频f0。任何复杂的周期性波形的每个谐波成分都是正弦波。

部位学说认为，基底膜可以分辨前6次谐波。从上图可以看出，第2次（大约为520Hz）、第3次（大约为780Hz）、第4次（大约为1040Hz）和第5次（大约为1300Hz），谐波均能被分辨出来，而且它们的波形都是正弦波。其中的一些正弦波的幅度变化非常明显，尤其是第4次和第5次谐波，能够体现乐器声压输出的动态特性。第6次谐波（大约为1560Hz）的幅度变化更加显著，但是它的周期性与其他有所不同。

在这个例子中，滤波器输出的第6次谐波以上（包括第6次）的波形均不为正弦波，因为这些谐波不能被听觉分辨。两个或两个以上的谐波合成的信号经滤波器输出后，其波形不为正弦波，如上图所示。两个频率比较接近的谐波分量合成在一起后，将形成一个幅度有规律变化的“拍音”波形，拍音的频率等于两个分量的频率差，因此，如果这两个分量是相邻谐波，拍音的频率就等于基频f0，拍音的周期还是（1/f0)，这可以从图中对比拍音周期和基频为f0的正弦波的周期看出。因此，当输入包含相邻谐波成分时，滤波器中心频率大于第6次谐波的输出波形的周期是（1/f0)。

促使柯蒂氏器进行神经放电的所有滤波器输出波形的周期，是音高感知时间论的基础。基底膜上所有部位的神经纤维都可以放电，它们是以这样的方式放电的：某一特定的神经纤维只能在刺激波形周期的特定相位或特定时间进行放电，这个处理过程称为“锁相 ( phase-locking )”。尽管神经放电过程在每个周期都是锁相的，根据观察可知，没有一根神经纤维能以大于300Hz的频率进行连续放电，也就是说，神经不一定在每个周期都放电，放电的周期往往是随机的。这种不连续放电的现象是Pickles提出的，他认为“也许会少到平均每100个周期只放电1次”。

因为存在锁相，所以每个神经放电的时间间隔都是刺激波形周期的整数倍（1、2、3、4…），并且在基底膜的每个部位都有一定数目的神经纤维在放电。Wever提出了“群射”理论(“volley firing" principle )，即一组神经纤维同时工作，每一根神经纤维以不同的时间周期放电，由此可产生大于 300Hz 的放电频率。下面将以锁相原理为基础展开进一步的讨论。

在小提琴演奏 C4 时，基底膜不同部位上的神经放电之间的最短时间间隔（刺激波形的一个周期）可以根据上图推断出，它等于滤波器输出波形的周期。对于那些低于约6次谐波发生响应的部位，其神经放电的最小时间间隔等于该次谐波的周期，对于约6 次以上的谐波激发的部位，神经放电的最小时间间隔等于输入波形的周期（即1/f0)。

神经放电可能的时间间隔在上图中表示出来，该图清晰直观地说明了神经放电的现象。我们可以看出，神经放电对刺激波形而言具有锁相作用，但并非每个周期都有神经放电的动作。图中表示了理想化展开基底膜的部位与各输入谐波频率（最高达到第16次谐波）的对应关系，但是并没有明确说明输入声音基频后的大小。

这张图是以如下假设为基础的，即听觉可以分别对第7次和第7次以下的谐波进行分析。这张图主要表明了，神经放电的间隔以锁相原理为基础，神经放电可能不会在每个周期都出现，用竖线的长度表示在基底膜上特定位置和特定时间间隔出现神经放电的概率大小。由图可知，时间间隔较短的放电概率较大。

该图与神经放电条形图（histogram of firings）很相似。神经放电条形图有时也称为“放电间隔（inter-spike interval ）”条形图，图中一根“长针”表示一次神经放电。

因此，图中基底膜相应部位在受到基频f0刺激后的神经放电时间间隔可能是（1/f0）、（2/f0）和（3/f0），较大时间间隔的神经放电次数较少(出现的概率较小)。对于第2次谐波刺激的部位，可能的放电时间间隔为[1/(2f0)]、[2/(2f0)]或（1/f0）、[3/(2f0)]和[4/(2f0)]或（2/f0）等。这个规律适用于第1 次谐波到第7次谐波。对于第7次以上的谐波，刺激波形就像拍音一样，而且它们的周期是（1/f0），因此，如上图所示，神经放电的可能时间间隔为（1/f0）、（2/f0）和（3/f0）。

从图中可以想象，如果所有的这些“放电间隔”条形图沿垂直方向叠加到一起（对每个放电时间间隔而言），那么最大放电概率将出现在时间间隔等于频率f0的周期上。当考虑到更高的谐波成分可能存在，并且以和第8次谐波相同的规律进行神经放电时，这种现象会进一步得到加强。

需要注意的是，基底膜上能够分辨谐波的每个部位在每个基频周期都会出现神经放电，这正是神经纤维并不是在每个周期都放电的直接结果。这是音高感知的时间论能够解释听觉音高感知现象的基本出发点。

时间论为理解听觉如何通过分析基底膜上各部位的神经放电时机找到基本周期提供了理论基础。然而，不是仅仅依靠时间论就能解释人类所有音高感知的能力。听觉感知基频大于5kHZ 的声音音高的能力不能用时间论来解释，因为当基频大于5kHZ时听觉就会失去锁相功能。基频大于5kHz 的音高感知能力全部归因于部位学说。

鉴于人类存在听觉上限频率，年轻人是20kHz，20岁以上人群则下降为 16kHz，因此，基频大于 5kHz的声音只能为听觉系统提供两个可分析的谐波（f0和2f0)。实际上我们都知道，人类感知基频大于5kHz 的声音的能力非常薄弱，许多音乐家也很难准确判断出这个频率范围的音程关系。Moore指出，这个现象与短笛的上限频率约为 4.5kHz 比较吻合。对于大型管风琴，一些音栓控制的音管的基频甚至超过 8kHz，但是，这些音管一般只用来配合其他音栓一起发声。

关于音高感知的时间论，就介绍到这里了。

持续关注ACOUTEC，下一期我们将讨论音高感知的现代理论。

理论科普声学其他软件

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-06-15