响度与响度处理经验谈（中）响度、动态，与处理手法

响度、动态，与处理手法

我们这里谈到的“响度”，和测量城市噪声的响度、以及声压计测得的数值不是同一件事情。声压计其实只是测量声压，而声压其实是略大于大气压力的一种空气压力计量手段而已。它根本和“响度”是两种截然不同的度量方式。响度，虽然从基于电功率的角度来说是可以被测量的，但它完全不能真实反应我们对响度的感觉。实际工作当中，响度无论如何都是一个比较主观的量，其实是一个心理声学相关的问题。然而，除了情绪和心理因素，影响你对一个声音“响”还是“轻”的判断多少是有一些明确的规律可循的。主要包括:

ADSR
持续时间、混响
频率与频响关系
节奏与运动

ADSR = Attack, Decay, Sustain, Release

ADSR的另一个名称叫做包络(Envelope)。它描述了一个自然声音从出生到消亡的进行过程。这四个阶段的数值都是时间单位，通常用ms（毫秒）。Attack时间越短，那么响度会越大。比如打击乐器很短有15ms以内的，同样的电平，如果是弦乐（attack一般大于50ms），两者在一起，打击乐器就是会显得响一些，有时候会感觉响很多。再比如说枪声，attack小于10ms，同样的峰值电平，它就会比打击乐器感觉还响。所以有时候，动一下样本attack就可以解决它的响度问题。Attack在整个包络过程中对响度的影响是最大的。

持续时间和混响

一个声音的持续时间，往往是Decay、Sustain和Release这三个时间值来决定的。Decay时间越长，那么这样本较大声的部分持续时间就越长，所以它会听起来比较响一些。同样，Sustain延长也会让声音显得比较响一些，但是这个时间不是确定的！主要原因在于人的“听觉适应性”，这是人的本能反应。想一下，当你刚进办公室的时候如果注意到空调的声音，你或许会觉得很大，等你的注意力转移了、或者过了几分钟之后生理上适应了，你甚至压根就不会觉得有啥空调噪声....直到下一次你心情不好或者无所事事了…。这种听觉的自适应性，是“听觉主观选择性”的一部分，如果这部分功能丧失，你会变得异常可怕。简单说，听觉需要不断的新鲜感和变化来刺激你的注意力才行！但是作为声音设计师，有时候你不得不和这种本能的生理现象搏斗。所以有时候我们做出点啥过份的事情也是有一些原因的。

Release在这不是“延迟”，而是声音停止震动后、在空气中继续传播并且逐渐消散的那段时间，很多时候它会和混响有很大关系。Release是比较有趣的，通常一个音效里，我们是比较容易忽略它对响度的影响，甚至我们可能找不到所谓的Release段在哪里。比方说一个爆炸声，其实它的主体就是它的Release，因为爆炸本身可能在10毫秒里就结束了。其实，我们经常会说“我要这个声音利落一点、有打击感”。Release就是非常关键的一个问题！比方说，很多时候我们会希望一个声音要猛一些，但是又不希望它太大声，压住了别的声音，这时候你首先要考虑的就是要动一下Release的持续时间，不要让它“听起来很自然地消失”，尤其在做soundtrack的时候，快速打斗中你让一个衣服抖落的声音那么自然地款款而去，多数情况下其实并不是那么专业的做法，除非你需要某种特殊效果。Release会让声音显得拖泥带水的。再想想爆炸声，连续的爆炸或者大的碰撞，单层样本的Release部分音量看起来很小，几层一叠...3dB、3dB的就迅速上去了，结果就是糊成一片，这和射击声是一样的原理。但有些声音比如技能，确实会需要保留足够长的尾巴，那么这时候你可以考虑让Decay衰减快一些，让sustain时间的电平也加快衰减，那么即使Release长也一些也是容易被别的声音覆盖的。因为多个声音叠加的前提是它们之间的电平差要均等，保持一个适当低电平的Release就可以避免这种踩踏现象。

另外，混响也是会造成尾音变长，混响的前期反射也会和干声叠加导致整个声音变大声。这不见得是个坏事情！在所有这些现象中，每一种情况都是可以被恰当利用来控制响度的。比如说，UI的声音，在日系游戏里、尤其典型的事PS3、PS4的系统声音，那些声音非常小声，但是你可以清晰听到。为啥？其中有两个原因：首先它的混响一般都比较长，在1-1.5s之间，这种混响延长了本来非常短促那种小声音（听起来小就是因为声音太短了），所以你感觉到的响度变大了；其次，合理的混响（相对于BGM的混响）类型，可以让声音处于一个比较新鲜的、或者是不那么“自然”的声场里，而这种非自然状态或者新鲜感会吸引你的听觉，转而感觉它变大声了。

如果这个声音持续时间很长，比如超过60秒的一段音乐，用ADSR这样的方式去描述显然也不太合理，所以引入了另一个术语：Shape。Shape是一段声波连续峰值的外轮廓，改变这个轮廓就可以改变这个声音响度变化，这种手法称为“塑形Shaper”，也广泛用在合成器技术和效果器技术中（以后有机会咱们可以聊聊）。Shape也是我个人使用很频繁的一种控制声音节奏和响度的手法，尤其在后期润色优化的时候。Shape的本质并不是改变RMS，而是改变峰值的变化状态。让这个持续的声音在某些不那么重要的时间下去，而在某些我需要的地方上来一点，这样可以影响你的注意力，从而达到响度变化的结果。

关于响度的更多具体资料，可以去看看我年轻时候和安栋老师合作的一本书：数字音频基础

这本书里提到了一系列关于响度的数值影响规律，可供参考。

频率

我们都已经知道等响度曲线那个事情了。等响度曲线的作用和意义之重就不需要多啰嗦了。这套曲线告诉我们的最基本的现象是：频率和Attack一样，本质上影响了我们对响度的感受。尽管如此，从我的观察经验和自身的制作经验来看，通过频率对响度进行控制，往往还是容易被忽略的。比方说手游，手机扬声器在350Hz以下大多都快速消失了，多数玩家不会戴耳机玩游戏。这种情况下拼命推一个爆炸的低频，只会导致一个结果：声音爆了，并且把别的声音也给压掉了，并且声音显得闷闷的。其实我们都有一种体会：越是大的爆炸，越是比较沉闷的。难道没有高频么？不是，低频把高频给掩盖了而已！所以，这种情况下你要声音保持一定的亮度，必须要提升高频，同时衰减不必要的低频。这在音乐里混Bass是最典型了：要让一把Bass显得有力浑厚，单推低频是没用的，出来的只是软软的绳子，而不是蟒蛇一样的有力的，更好的方法是去动一下高频(4kHz以上）。但这样一来也会导致整个音量上升，怎么办呢？衰减中频和中低频呗！中频1-2kHz)往往会让一个声音显得很近，也会显得很响，它也会很大程度上掩盖掉高频和低频。对于有些风格的音乐来说，中低频也可以换成是低频，看需要了。所以，最有效的解决音量和响度的办法不是去拉电平，而是砍掉一些中频(1-2Khz)或者中低频(500Hz左右）。如此一来，你Bass的高频和低频也不需要提升那么多就可以显现出来强度了。此时，你甚至可以考虑衰减这Bass的52Hz以下部分，把这部分低频让给别的乐器。好吧…这分明和混音有关。是的！但这几乎是每个声音设计师都要学习和掌握并且不断进步的一个重要点！混音主要要做的事情不是拉推子，而是通过EQ来解决每种乐器的响度、景深和空间问题。而且EQ的种类永远不嫌多。

再举个例子，1kHz和500Hz的故事。大部分声音的强度都会集中在500-1000这个范围里，比较强壮的声音则集中在250Hz周围。如果希望一个声音听起来很大声、但又不会冲着你脑门，那么可以先试试切掉1000Hz，动作一定要狠，先切到底，看这个方法对是否对这声音有效，有效的话就慢慢往回拉。比较忌讳的动作就是衰减的时候一点点往下拉...结果这细腻的变化把自己的心都化了...没方向了呀！假如说，我希望一个声音很猛（低频），又很结实（中频1000左右），但有不会盖掉那些小声音，这时候可以直接向500开刀，通常就会在250-500之间。

你需要清楚意识到，每个声音，都一定存在它的一个主能量频段！只要你动了这个频段，那么它的整个声音响度就会被改变！也可以说，这个频段对于这个声音来说是最主要的，其他部分都是可以酌情清理掉的！等你具备了足够经验之后，你会发现，任何一个声音的任何一个频段都是可以随你的喜好来的！比方说500Hz对于一把电箱琴的音色来说是致命的，但是如果这把琴只是用来补偿节奏的呢？500Hz一刀切掉完全不影响它的音乐功能，那为啥不切掉呢？事实上很多音乐里，节奏功能的电箱琴500Hz以下被干掉太正常了。这个事情告诉我们一个重要的道理：每个样本都是为整体服务的，它的唯一特征是它存在的根本依据（不然要他干嘛？），我们可以选择保留这个特征，也可以选择修改他的特征，但无论如何，我们优先保留它对整体有用的功能部分，而其他都可以作为次要频段存在，是随时可以被衰减甚至切掉的。如果你想保留，首先想一想：有必要么？其次再想想：次要频段是否可以起到足够衬托作用？

另有一个有趣的例子，很多成年人的听觉频率上限其实达不到20kHz，我自己的听觉上限最近几年一直稳定在18.5kHz左右，而18kHz的正弦检波足以让我的耳朵感觉凶猛的针刺感。还有指甲挠黑板的声音，大部分人都会觉得那个声音很大并且非常刺激，然后用声压计测试到的电平其实并不高，瞬间电平可能比较大，但RMS都很小。

对频响的经验和认知，很大程度上取决于你的混音水平和经验。而混音首先关注的是一个作品整体的表现，所有细部的调整都是为了整体服务的。无论游戏、影视还是音乐的混音，每个元素在其中承担的功能和效果决定了它应该被设定到哪个位置和强度。

节奏与运动

我们大多数时候面临的声音都是比较复杂的、持续运动的声音。这时候声音的节奏和运动状态也会直接影响到我们对响度的感觉和判断。比方说在很多电影里，在一个大的爆炸前（通常是全景镜头），会有一个非常20-80ms的短时空缺(Gap)，甚至连音乐也会对白啥的也会被急停，随后的爆炸就会让你感觉很大声。但如果你把这个样本提取出来，或者直接去测试一下它的电平甚至RMS，你会发现这个爆炸声音其实远不如你感受的那么大。

产生这种听觉效果的原理很简单：动态。动态在声学上的定义就是：音量差。你可以简单地认为它就是“峰值电平的差”，而现在响度计量比较成熟后，我们引入的是LRA作为响度差来描述动态。这种手法使用非常普遍，尤其是一个大的爆炸或者Stinger前面铺垫的是一个Reverse的或者渐强的声音。或者为了平衡前后两段声音的比例关系，或者为了后面的撞击爆炸不至于过大。有时候，后段声音的峰值不需要很大就足以让人产生很大声的错觉。这里的技巧在于，如何把握前后两段的峰值差，以及这个空隙的时间长度。在很多好莱坞电影里，这个空袭甚至大到1甚至2秒也有可能。这种留白式的戏剧性效果可以产生很大的听觉冲击。甚至，后段的峰值不一定要比前段的峰值大，也可以获得很特别的效果。

除此以外，两段相连声音的主频段的差异也可以形成非常明显的冲击感。想想鼓的节奏，基本的配比是一只底鼓和一只军鼓，两者的主频段相差非常大，即使同样的峰值或者RMS，两者合理序列依然可以产生足够大的响度感觉，例如Drum & Bass、Hiphop就是很典型的例子。这里有两段样本，后段的Stinger是一样的，但是段Reverse的主频有明显不同，我们可以轻易感受到最终结果上的差异：
[下图中，深色划出的部分是间隙，约100ms]

来感受一下响度的区别，单纯的Stinger：

http://html.midifan.com/download/game/Stinger_with_no_gap.wav

有引子和gap的stinger：

http://html.midifan.com/download/game/Stinger_with_gap.wav

再来看看这段Beat的情况：［样例,第一行是原声］

http://html.midifan.com/download/game/acoustic_kit_raw.wav

A. 第二行，混响比较长的，音色间有明显的粘连

http://html.midifan.com/download/game/acoustic_kit_reverbed.wav

B. 第三行，没有混响，没有明显的粘连，甚至断开的（用了GATE）

http://html.midifan.com/download/game/acoustic_kit_gated.wav

混响对于响度的影响我们大多是知道的，但是我们需要明确知道的是，它不单影响了ADSR的比例关系，也会让某些频段加强，同时也会对你的听觉经验产生影响，这是一种综合的作用，对于声音设计师来说，这些因素也是可以拿来利用和分析的。尤其是断开的声音，它打断了主观听觉经验的连续性，从而让你失去对响度的准确判断或者经验判断。

虽然这是一段音乐性的Beat，但打击乐器的本质和音效基本没有啥区别，在物理声学里都属于“噪音”范畴。所以在演奏、音色创作和混音的时候采用的手法和音效创作处理是很类似的。而打击乐器在节奏、运动和频率差方面产生的动态感受比通常意义的“音效”更明显。我们也有另一个经验：如果鼓手演奏速度不那么稳定，甚至力度也不那么稳定，即使错音的音量不那么大，也会让你感觉很突兀，甚至会感觉错音那么大声。这个现象也充分说明了响度的主观性、经验性，以及主观选择性。

因为文字表达能力有限，还有非常多的情况和手法不能一一列举。其实，处理手法取决于你对声音的理解、想象，还要有足够的胆量去尝试。没有所谓对或者不对，只有好和更好之分。个人建议，可以多训练混音，无论是音乐的多轨混音还是soundtrack的混音，都应该长期训练。可以让你学到非常多的技巧和经验。

以上内容供探讨和参考。若有错漏，请斧正，不胜感激！

响度与响度处理经验谈之三部曲：

第 233 期电子杂志

叮咚音频正式代理美国高端私模耳机品牌 64 Audio，专业与 Hi-Fi 兼备的顶级入耳式耳机

Ableton 发布 Live 12.3 并下调中国区售价，Live Intro 和 Standard 开启限时特惠

直到现在依旧是最好的 AI 歌声合成器：Synthesizer V Studio 2 Pro 更新评测

从录音室到日常聆听：索尼 MDR-M1 如何成为创作者与发烧友的跨界首选？

《Midifan 月刊》电子杂志 2025 年 8 月号发布，点击在线阅读

响度与响度处理经验谈（中）响度、动态，与处理手法

共有 3 条评论