声音与听觉系列知识 Part 7 — 声场重构3

4年前浏览5291

ACOUTEC已经为大家介绍了双声道3D声音技术(binaural technology)和波场合成技术(Wave FieldSynthesis)两种常见的声场重构技术，本期我们来介绍第三种常见技术——Ambisonics。

本期会涉及到很多公式，可能略显枯燥，但为了把Ambisonics技术尽量讲清楚一些，ACOUTEC不得不使用最少的公式阐述。

1、前言

Ambisonics是一种考虑声音方向属性的声场编码方法。传统的多声道音频系统(例如立体声、5.1和7.1环绕)，每一个声道中都有与指定扬声器对应的信号，可以直接播放。而在Ambisonics系统中，每个声道中记录的是声场的特定物理属性，例如声压和声速，要进行解码转换为每个扬声器的输出信号之后才能正常播放。

1973年，英国人Michael Gerzon就已经研发出了Ambisonics系统，90年代，有人提出了HOA(Higher Order Ambisonics)理论，但一直都用于学院研究，没有很好的商用。

与其他空间声学技术相比，Ambisonics有如下特征：

基于声场的物理原理，不用构造虚拟声源；
没有单一平面波的约束，可用于所有普通声场；
Ambisonics技术可以大量节约计算资源，相同的计算资源下，Ambisonics可以控制更多的声源。

完成的Ambisonics系统包含：编码或录制、传输与转化、解码等几部分，如下图所示。

Ambisonics系统一般性架构

2、WFS的基本理论

通过编码操作，可以用一个mono信号人工生成Ambisonics信号。

2.1 一阶Ambisonics系统中的单个平面波编码

Ambisonics除了可以处理平面波以外，还可以处理其它类型的声源，但其它声源的编码方式更复杂，且一般情况下平面波适用于所有情况，所以这里只讨论平面波。

任何平面波都可以用声音信号s(t)和方向向量k表示。

球坐标系

球坐标系与直角坐标系的转换关系为：

记方向向量为：

一阶Ambisonics用4个通道来记录参考点的声场信息：上方的W(正比于随时间变化的声压信号)；声速在X、Y、Z三个方向上的分量。如下图。

一阶Ambisonics分解示意图

用表达式记作：

其中s(t)可以是任意的mono信号。

2.2 Ambisonics系统的通用声场编码

如果声场中有多个声源，Ambisonics通道可用下式表述：

可以看出，对于一阶Ambisonics，通道维持4个不变。W(t)正比于所有声源在参考点引起的声压的总和，X、Y、Z为所有声源在参考点引起的声速在三个方向的总和。

3、Ambisonics录制

除了通过编码生成Ambisonics信号外，我们还可以用声场麦克风直接录制信号，对于一阶系统，一支声场麦克风内包含了4个麦克风传感器。

Soundfield麦克风

每一个麦克风传感器都会记录一个声音信号，我们称这4个信号的组合为A format。而根据上一节的介绍我们知道，Ambisonics需要的数据是(W, X, Y, Z)，我们称之为B format。因此，我们需要数据格式从A format转换为B format才能被Ambisonics系统应用。

有些声场麦克风在前置放大器中直接做了数据格式转换，放大器输出的信号可以直接用于Ambisonics系统；有些声场麦克风是将数据输出给麦克风自带的软件，在软件中进行格式转换后用于Ambisonics系统。

4、Ambisonics信号传输与处理

接下来我们来看看如何传输和处理编码生成或录制好Ambisonics信号。

在传输数据时，不管声源是单点、录制的环绕声、混响，还是数个声源的组合，都只有4个通道，B format。这一点是跟其他3D声音技术很不一样的。

Bformat数据格式很容易做运算处理，例如旋转运算，假设旋转矩阵为R，则有：

若围绕z轴旋转，则旋转表达式可写为：

可以看出，在旋转运算时，W为标量，X、Y、Z为向量。

除了旋转运算外，还可能会有其他运算，例如线性变换、空间变形、非线性变换等。这里不做一一展开，有兴趣的同学可以联系我们，一起探讨。

5、Ambisonics解码

Ambisonics解码的目的是让围绕在听音者周围的每个扬声器得到正确的声音信号，以还原声场。假设有N个扬声器，第i个扬声器的方位为ui(φi, δi)，它应该获得的信号si为：

共有4N个参数(wi, xi, yi,zi)定义了此Ambisonics系统的解码。我们可以用两种方法来讨论这些参数。

5.1 物理解码

物理解码是基础解码方式，其目的是重现听音位置的声压和声速。

假设所有扬声器与听音位置之间的距离相等，且所有扬声器是相关的，不考了几何边界引起的延迟，听音位置的声压和声速分别为：

写成矩阵形式如下：

对于这样一个方程，当扬声器数量N等于4时，有唯一确定解；大于4时，为超定方程，只有当扬声器规则布置时才有确定解。

对于规则布置系统，N大于等于4时：

其中：

如果是平面立体，解码为：

如此看来，每一个扬声器要复现的实际上是该扬声器位置指向听音位置的一个有方向的信号。这在实际操作中意味着：

所有的扬声器都在同时发声；
对于一个给定的声源，对称位置上的扬声器发出的声音是反相的。

超心型麦克风的指向性示例

物理解码适用于复现500Hz以下的声音信号，且效果最好的区域是以参考点为圆心，半径小于所有声音信号中最短的波长。

5.2 心理声学解码

心理声学解码的目的是重现听音位置的能量和声强。

能量和能量矢量表达式分别为：

定义rE为能量方向系数：

对于平面波，听音位置处的能量方向系数应该等于1。而在实际解码过程中，很难满足这个条件。因此，用两种近似方法进行解码，一种叫最大能量方向系数法，一种叫同相位法。

最大能量方向系数法算出：

与物理解码对比，表达式中的系数从1/N变为了1除以根号N，这意味着心理声学解码出来的声音信号量级要大于物理解码。

另外，最大能量方向系数法解码出来的三维立体声的rE=0.577，平面立体声的rE=0.707。也就是说这种解码方式下，平面立体的效果还可以接受，但三维立体的效果就很差了。

同相位法算出：

同相位法解码出来的三维立体声的rE=0.5，平面立体声的rE=0.677。

同相位法解码一般用于不允许对称位置扬声器反相输出的情况。

心理声学解码适用于复现500Hz以上的高频信号，且效果最好的区域是大于物理解码的。

一般情况下，Ambisonics系统会综合应用物理解码和心理声学解码。

5.3 解码到其他立体声标准格式

平面Ambisonics可以解码到例如5.1，7.1环绕或其他类似原理的标准环绕立体声系统中。但这种解码跟前两节介绍的标准解码方式不同，需要做特殊运算，这里不做更多阐述。

同样的，三维Ambisonics可以解码到9.1，10.1，22.2，Auro 3D，DolbyAtmos等标准系统中。

Ambisonics还可以解码为stereo，但是会丢失很多方向信息。此时，最好的解决方案是在Ambisonics中模拟一个虚拟XY对，对应stereo中的L和R通道。

6、高阶Ambisonics

为了提升空间感，可以采用相对前述系统更高阶的Ambisonics，简称HOA。一阶系统是将听音位置处的声音分解为1个声压及3个声速分量，HOA在此基础上分解出更多球谐函数。

3阶HOA分解示意图

若l为阶数，该阶数对应的通道数为2l+1，l阶Ambisonics总共需要(l+1)^2个通道。

与一阶系统相比，HOA录制声场信号时用的麦克风个数更多。

包含32个麦克风的声场麦克风

对于l阶HOA，回放时至少需要(l+1)^2扬声器。解码的方法与一阶系统类似，也分为物理解码和心理声学解码，只是高阶系统的计算更加复杂。

7、结束语

关于Ambisonics技术，就简单介绍到这里了。

至此，我们分三期为大家介绍了三种常见的3D声场技术。下一期，我们为大家带来共振与乐器发声原理的简介，敬请期待。

备注：本文参考和引用了Daniel Arteaga写的《Introduction of Ambisonics》和谢菠荪写的《空间声原理》，有需要阅读原文的同学可以联系ACOUTEC。

原创文章，首发埃库特 ACOUTEC公众号，禁止私自转载，如需转载请联系我，欢迎下方留言与我讨论。

理论科普通用声学振动其他软件

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2020-08-19