前⾔
沉浸式⾳频是⾳频⾏业的⼤势所趋。电影业、电视、虚拟现实/增强现实技术 (VR/AR)、电⼦游戏、⾳乐、博物馆等领域都已开始引进 3D ⾳频技术,让观众沉浸其中、改善体验。但这⼀趋势也带来了新概念和专业⼈⼠最初可能⽆法理解的新/旧技术,如 7.1.2 通道、幅度⽮量合成(VBAP)、22.2 通道、对象、beds、B-格式、AmbiX、ACN、SN3D、头相关传递函数 (HRTF)、头相关脉冲响应 (HRIR) 等流⾏词。
在撰写这个⼩册⼦的过程中,我根据⾃⼰在⾳频⼯程学会 (AES) ⼤会中所进⾏的⼏个演讲,试图总结关于该主题最相关的信息,包括基于通道⾳频、基于对象⾳频、Ambisonics以及双⽿⾳频。
祝您阅读愉快。欢迎来到 3D ⾳效的世界……
Nuno Fonseca
nuno.fonseca@soundparticles.com
2020年8月
关于 Nuno
Nuno Fonseca(博⼠)是 Sound Particles 公司的创始⼈兼⾸席执⾏官,是 Sound Particles 软件创始⼈,这款类似 3D 计算机⽣成图像 (CGI) 的⾳频制作软件曾⽤于许多知名影视作品之中,例如《星球⼤战 9》、《冰雪奇缘 2》、《海王》和《权⼒的游戏》。
N u n o 曾 经担任 ⼤ 学 教 授 (计算机科学 与 ⾳乐技术领域), 编 写 了 葡萄⽛语《 Introdu ç ã o à E n g e n h aria de Som(声⾳⼯程导论)》,合著葡萄⽛语
《 Desenvolvimento em iOS(iOS 开发)》 ,发表 20 多篇关于⾳频研究的论⽂。
他是⾳频⼯程学会 (AES)、电影电视⼯程师协会 (SMPTE)、计算机技术学会 (CAS)、⾳效剪辑者协会 (MPSE)、电影声⾳协会 (AMPS) 以及⾳频⼯程学会 (AES)“电影⾳频”技 术We-i员会的成员。
中⽂版简介我是⽆意中在领英上看到Nuno关于3D audio⼩册⼦的链接,⼀读之下,觉得这个⼩册⼦的内容组织的由浅⼊深,条理清晰,是难得的总结了环绕声和沉浸式⾳频的⼊门读物。虽然他的⽬标读者是录⾳混⾳专业⼈⼠,但是对我这种重放端的⾳频专业⼈员⼀样有教育意义,帮我们理清了很多的相关的概念。
我当时就想把它翻译为中⽂,接触了Nuno后,原来他已经安排了中⽂版的翻译,问我愿不愿帮忙审阅⼀下翻译稿,我⽴刻欣然答应了。
今年8⽉份,Nuno把翻译稿寄给我。我发现因为译者不是⾳频专业⼈⼠,有很多专业术语不正确,很多地⽅因为对技术不理解,表达的意思错误。所以,我对译⽂进⾏了很多修正。
在这⾥我想对⼀些概念进⼀步说明⼀下:
- Pan/Panning/Panner:它的意思就是调整声像在空间的位置的处理/信息/设备。最初在⽴体声录⾳中,就是调整左右的相对位置,后来环绕声和3D⾳频出 现后,泛指调整到空间任何位置。
- Bed: 在基于⽬标的⾳频发⾏格式⾥,并不是所有声⾳都是基于⽬标的,很多还 是混⾳于固定的通道,⽤基于通道的传统⽅法发⾏,这⼀部分称为bed。中⽂还没有正式的术语。
- Ambisonics:有中⽂翻译为“环境空间谐波”,⼤部分中⽂资料都是直接⽤英⽂术语。
- 麦克风的指向:当英⽂提到8字型麦克风指向两侧时,意思是它的两个主旁瓣指向两侧,⽽我们看到的棍状的麦克风整体从视觉上还是指向前⽅的。这种8字型麦克风⾥⾯拾⾳头的振膜是平⾏于棍状的麦克风整体的,和⼼型指向麦克风的振膜⽅向不同。
- 单声道(mono):不管在中⽂还是英⽂中,这个词在不同情景下运⽤,有些许不同的意思。⽐如在基于⽬标的⾳频中,每个⽬标都是⼀个单声道⾳频,这⾥指它是⼀个独⽴通道的声⾳波形⽂件或⾳轨。又⽐如在ambisonics中提到的单 声道成分,是指拾取所有的⽅向的声⾳,就好像混合⽴体声的左右通道变成了⼀个单声道⾳频⼀样。
- Decode / Encode:除了我们熟悉的⾳频编码格式⾥的codec会⽤到编码和解码,这个词也被借⽤描述对声⾳的空间位置的处理的不同阶段。⽐如基于⽬标的⾳频⾥,某⼀个⾳轨和metadata在⼀起encode了声⽬标,在重放阶段,会因 应本地的扬声器设置,decode到各个通道去。又⽐如,Ambisonics的录⾳encode了所有的空间⾳频的信息,到了重放阶段需要因应本地的扬声器设置,decode到各个通道去。有时候(没有包含在这个⼩册⼦⾥),重放的扬声器是⼀个个阵列,主处理器会把含有空间信息的⾳频数据encode后,打包传送给扬声器阵列,扬声器因应⾃⾝阵列的情况,decode出阵列内各通道的⾳频内容。
- Render:这是经常在软件/⽹络专业上使⽤的词汇,指的是在⾳频重放阶段,把⾳频解码后,进⾏处理,如3D audio decode,应⽤⾳量调整,动态调整等,得到最终的各通道⾳频信号重放。有时翻译为合成或呈现。⽽进⾏解码,处理和重放的设备,称为renderer。
我还和Nuno讨论了为何⼩册⼦⾥缺少decode Ambisonics的部分。Nuno说,decode Ambisonics⾮常的复杂,远超出了这个⼩册⼦所覆盖的⽔平。因为⽬标的读者是录⾳混
⾳专业⼈⼠,他觉得应该让他们明⽩Ambisonics encoding的概念,可以在DAW上看到 并操作正确的波形。⾄于decode的⼯作,会有专门的插件来处理。
如果有读者了解正式的中⽂术语,或有任何意见,评论,可以提供给我们。
希望这个⼩册⼦可以让你有所得益。
卢峰
Sound Particles:音频知识3D小百科
基于通道⾳频许多⾳频格式都会预先定义⾳频通道数量和扬声器位置,如⽴体声或 5.1 通道,因此又被称为基于通道⾳频。在我们深⼊了解和探讨 3D 及沉浸式⾳效前,需要更好地理解⼀些基本的声⾳格式,以便为学习 3D ⾳频奠定基础,这⼀点⾄关重要。那么,我们先从 最简单的格式开始。
⽴体声⽴体声试图⽤两个扬声器重建前⽅声像。如果向这两 个扬声器发送相同的信号,就会产⽣⼀个幻像声源, 我们感觉声⾳就来⾃正前⽅。如果改变 2 个扬声器信 号之间的增益关系,就可以让声⾳在左右扬声器之间 “移动”。
⽴体声设置中,我们会通常认为扬声器的⾓度应该为60 度。为什么?
⼀⽅⾯,我们希望声像越宽越好。如果⾓度太⼩(将 两个扬声器放的很近),声像就会太窄、太⼩。另⼀⽅⾯,如果我们扩⼤⾓度⼤幅超过 60 度(将两个扬声器分得很远),就会造成前⽅声像不连续。我们将失去中间的幻像声源,变成两个独⽴的⾳源,可以清晰感受到⼀个声⾳来⾃左侧扬声器,另⼀个声⾳来⾃右侧扬声器。左右两侧声⾳产⽣⼀个中间空洞,我们感到那个位置没有声⾳。
中置扬声器随着电影⾏业的发展,专业⼈员决定在左右扬声器 之间添加⼀个中置扬声器,这就引出了⼀个问题: “如果能在⼀对⽴体声扬声器之间创建出声像,为什 么还需要在中间添加⼀个中置扬声器?”
有时,我和⼀些世界顶尖混⾳师交流,他们在著名 专辑的混⾳中有利⽤环绕⾳,我甚⾄听到他们表⽰ 根本不⽤中置扬声器,因为在创作中不觉得缺少中 间的声像。那么我们为什么还要中置扬声器?
任何事情都不可能始终完美,在空间⾳频世界中,这意味着并⾮所有⼈都能坐在房间中的最佳聆听位(完美聆听位置)。如果您处于最佳聆听位,左右扬声器可以在他们之间 形成前⽅声像,但在很多时候,听者不在最佳聆听位。
例如在电影院,只有少数⼈能荣幸坐在最佳聆听位。⼤多数听众的座位过于靠两侧、靠 前或靠后。左右扬声器位于投影屏幕边缘附近的后⽅。可以想象,坐在前排的听众左右扬声器之间的⾓度必然⼤于 60 度,这会造成前⽅声像不连续,形成中间空洞。同样,两侧的听众会更靠近其中⼀侧扬声器,会造成声像“失真”(不是⾳频失真,⽽是声⾳的⽅向感扭曲)。
在上述所有情况下,我们都需要中置扬声器,它就像⼀个锚,帮助我们感觉到更明确稳定 的声像,尤其是帮助没有坐到最佳聆听位的听者。所以中置扬声器被⼴泛⽤于电影⾏业,
因为在影院中,观众都分散在影厅中的不同位置,仅有少数幸运⼉才能坐在最佳聆听位。
环绕扬声器为了改善观影体验,⼈们开始在电影院两侧增设扬声器。电影不再仅仅提供前⽅声像,还会通过两侧的声⾳提供其他⽅向的声⾳,让聆听体验更真实,听众更能沉浸于场景之中(⽐如战争场⾯)。
其中⼀种早期格式是LCRS(左通道、中置通道、右通道、环绕声通道)。通过 LCRS,我们开始有个 5 个扬声器和 4 个⾳频通道的布局。在这种情况 下,环绕声通道只是⼀个⾳频通道,即左环绕扬声器和右环绕扬声器重放完全相同的⾳频。
后来,5.1 通道等格式出现,开始独⽴的左环绕通道和右环绕通道,每边都有⾃⼰独⽴的⾳频通道。
在电影院,各环绕声通道并⾮由单个扬声器重放,⽽是各由⼀组扬声器重放。在配备5.1 通道⾳频系统的电影院⾥,你会发现:两侧和后⽅的墙壁上安装着许多扬声器。但这些扬声器其实只重放两个⾳频通道。这意味着左墙的所有扬声器和后墙左侧的那些扬声器重放完全相同的⾳频通道,右侧扬声器也遵循同样原理,重放右环绕通道。
为什么我们需要设置如此多的扬声器,⽽不是每侧只摆放⼀个扬声器?
第⼀个原因:增加更多扬声器可以防⽌声像“空洞”。不错,现在的环绕声在空间位置的 精确度降低了,变得更加扩散,⼏乎没有聚焦,但不会出现不连续的空洞,所有⽅向都有声⾳。
其次,世界并不完美,很多⼈都⽆法坐到最佳聆听位。通过这种扬声器阵列的⽅法,⽆论您坐在何处,周围都会有⼏个扬声器。如果电影院中每个环绕声通道只使⽤⼀个扬声器,就会导致部分听众感受到很⼤的“空洞”:对于后排听众,环绕扬声器在其两侧(可能会略微靠前),导致⽆法感知后⽅⾳效;两侧靠前听众可能会听到后⽅扬声器的声⾳,但却⽆法感知附近侧墙⽅向的声⾳。