剑痴乎

剑痴乎
代码为剑,如痴如醉
  1. 首页
  2. 音视频
  3. 正文

PCM音量控制(高级篇)

2017年5月14日 17416点热度 25人点赞 25条评论

去年写过一篇文章,有关PCM的音量控制:http://blog.jianchihu.net/pcm-volume-control.html。那时阐述了一些概念,对一些细节没有详细描述。因为有人问到使用对数关系调节音量,故开此篇文章。

声学中的分贝

因为人耳的特性,我们对声音的大小感知呈对数关系。所以我们通常用分贝描述声音大小,分贝(decibel)是量度两个相同单位之数量比例的单位,主要用于度量声音强度,常用dB表示。声学中,声音的强度定义为声压。计算分贝值时采用20微帕斯卡为参考值(通常被认为是人类的最少听觉响应值,大约是3米以外飞行的蚊子声音)。这一参考值是人类对声音能够感知的阈值下限。声压是场量,因此使用声压计算分贝时使用下述版本的公式:
分贝公式
其中的pref是标准参考声压值20微帕。

分贝声音变化范围

在编程中,我们可以用以下公式计算两个声音之间的动态范围,单位为分贝:

1
dB = 20 * log(A1 / A2)

其中 A1 和 A2 是两个声音的振幅,在程序中表示每个声音样本的大小。声音采样大小(也就是量化深度)为1bit时,动态范围为0,因为只可能有一个振幅。采样大小为8bit也就是一个字节时,最大振幅是最小振幅的 256 倍。因此,动态范围是 48 分贝,计算公式如下:
dB = 20 * log(256)

48 分贝的动态范围大约是一个安静房间和一台运行着电动割草机之间的区别。如果将声音采样大小增加一倍到16bit,产生的动态范围则为 96 分贝,计算公式如下:
dB = 20 * log(65536)

这非常接近听力最低阈值和产生痛感之间的区别,这个范围被认为非常适合还原音乐。

了解了分贝的相关概念我们通过图表说下为什么要用对数关系描述声音大小。
1)音量滑块与声音增幅大小线性变化。

上述左图中,音量滑块位置与声音振幅为线性增长关系,右图是我们人耳感受的音量大小与滑块位置关系。可知,在左侧移动相同距离的滑块,感知到的声音变化范围很大,在右侧接近声音最大值移动相同距离滑块,感知到的声音大小变化就很小了。

2)音量滑块与声音振幅大小对数关系变化。

左图中,音量滑块位置与声音振幅对数关系增长。右图中无论哪个位置,移动相同距离滑块,感知到的声音变化都是相同的。

需要说明的是滑块最小位置只是接近0,不能为0,因为对数函数y=logx中x>0。

windows系统中音量滑块控制的声音变化范围

在最新版的windows系统中,音量滑块控制的声音变化范围也是96分贝。如下表所示,是不同版本windows的音量范围以及默认音量值。
windows系统音量范围

从表中我们可以看到默认值都是0分贝,根据分贝公式:dB = 20 * log(A1 / A2),当A1,A2相等时,db为0。

程序实现

了解了分贝以及Windows中音量滑块是在哪个范围变化,我们的程序实现起来也很简单。

这里我们规定音量大小变化范围也是96分贝,每个声音采样大小为16位。对于分贝公式:dB = 20 * log(A1 / A2),我们取参考声音振幅A2为原始声音振幅,A1为调节后的声音振幅大小。可知调节后的声音:

1
A1 = A2 * pow(10 , db/20)

看过一篇文章说理想的声音调节步长最好是2db,对于96db范围,我们按2db步长进行分割,可以分成48份,这样我们得到的声音变化为[-96db,-94db,-92db,...-4db.-2db,0db],假设我们要调节一半音量大小,也就是-48db,由上述公式可知:调节后音量A1大小:

1
A1 = A2 * pow(10 , -48/20)

程序伪代码如下,具体db大小与滑块位置对应关系的实现这里就不写出:

1
2
3
4
5
6
7
8
9
10
11
12
13
int16_t pcm[1024] = read in some pcm data;
int32_t pcmval;
float multiplier = pow(10,db/20);
for (ctr = 0; ctr < 1024; ctr++) {
    pcmval = pcm[ctr] * multiplier;
    if (pcmval < 32767 && pcmval > -32768) {
        pcm[ctr] = pcmval
    } else if (pcmval > 32767) {
        pcm[ctr] = 32767;
    } else if (pcmval < -32768) {
        pcm[ctr] = -32768;
    }
}

参考

[1] Audio-Tapered Volume Controls.https://docs.microsoft.com/en-us/windows/win32/coreaudio/audio-tapered-volume-controls

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 进行许可
标签: 音视频
最后更新:2020年8月16日

Jeff

管理员——代码为剑,如痴如醉

打赏 点赞
< 上一篇
下一篇 >

文章评论

  • Vincenzo

    可以算音量大小吗

    2017年11月30日
    回复
    • Jianchihu

      @Vincenzo

      音量大小不就是振幅大小

      2017年12月4日
      回复
  • parcool

    不知道为什么,会有杂音。。。。

    2017年12月1日
    回复
    • Jianchihu

      @parcool

      调整前就有杂音还是调整后?

      2017年12月4日
      回复
      • He.ToSion

        @Jianchihu 调整后

        2017年12月13日
        回复
        • Jianchihu

          @He.ToSion

          话说调整音量并做溢出处理并不会引入噪音,我怀疑还是你的原始数据有问题。看下你pcm数据格式是否转换正确,比如:整形非整形数据转换,不同精度数据转换,字节序等等。这些都可能造成部分音频数据丢失,从而引入噪音。

          2017年12月15日
          回复
  • sens

    你好,我看了几遍文章,还是没明白最后代码中的db该怎么计算获得。比如我想将当前PCM数据的音量调小到80%(降低20%),按照以前的方式就是 pcmval = pcm[ctr] * 80%。按照您这种方式应该怎么把这个80%转换成合理的multiplier呐?

    2018年7月16日
    回复
    • Jianchihu

      @sens

      db这个单位是相对值,得有一个参考,对于公式:dB = 20 * log(A1 / A2),我们取参考声音振幅A2为原始声音振幅,A1为调节后的声音振幅大小。按你的说法,A2 = pcm[ctr],A1 = pcmval 。

       

      2018年7月18日
      回复
      • sens

        @Jianchihu 是的,这个理解了。但是滑块怎么和db关联起来呐?您最后给出了:

        float multiplier = pow(10, db/20);。比如说我滑块的取值范围是M=[0,100],0表示静音,100表示原始声音大小。这个db该怎么跟随滑块的变化而变化呐?

        2018年7月23日
        回复
        • Jianchihu

          @sens

          1)我们声音取值范围一般是-96db~0db(参考windows系统设计),0db就是原始声音大小,-96db是声音最小

          2)滑块取值范围0~100,0就对应-96db,100对应0db,其他滑块值对应的db值按线性关系类推

          3)套入公式:db = 20 * log(pcmval  / pcm[ctr]),其中db取值-96~0db,其他的你应该明白了吧

          2018年7月25日
          回复
          • sens

            @Jianchihu 谢谢你的解释,大致明白了。但是我发现这样子计算的变化弧度还是有些问题。比如我想把音量调到70%(在原来的基础上降低30%):  

            db = -96 * (1 - 0.7) ≈ -29

            multiplier = pow(10, db / 20) = pow(10, -29 / 20) ≈ 0.03

            也就是音量只想减小到70%,但是通过上面的计算,振幅则只有原来的3%了。这个减小的幅度太大了吧。这样小于60%后基本就听不到声音了。

            2018年8月21日
            回复
            • Jeff

              @sens 我说的滑块值对应的db值按线性处理只是个参考,你可以通过计算multiplier大小得到合适的对应关系

              2019年3月24日
              回复
            • justme0

              @sens +1,我也是这么想的,对楼主说的 “我说的滑块值对应的db值按线性处理只是个参考,你可以通过计算multiplier大小得到合适的对应关系 ”不太明白,还请指教

              2024年12月8日
              回复
  • 廖生

    如果需要将已有的pcm数据做增幅,需要如何处理呢?

    2019年12月21日
    回复
    • Jeff

      @廖生 原理不是一样的吗?对一个个pcm样本处理。

      2019年12月22日
      回复
  • jj

    在windows中调节滑块,音量并不是根据dB线性变化的,以总步进数为100为例,总步进数越小,每个步进的dB数要大,总步进数接近100的时候,每个步进数越来越小。不知道为什么

    2020年8月16日
    回复
    • Jeff

      @jj 请参考:https://docs.microsoft.com/en-us/windows/win32/coreaudio/audio-tapered-volume-controls。
      > A Windows application that displays a volume slider defines a relationship between the slider position and the output signal level at the speakers. The relationship can, in effect, be linear tapered or audio tapered.

      2020年8月16日
      回复
  • 滴水藏海

    您好!看了您的文章,很详细,学到很多。因为是初学,有一个问题请教您,我从视频中提取的音频数据格式是PCM的,然后需要提取其中的特征,请问您了解essentia库可以直接对PCM格式的音频数据进行特征提取吗?谢谢您的解答。我只找到一个有关资料,https://github.com/MTG/essentia/issues/775

    2021年2月7日
    回复
    • Jeff

      @滴水藏海 没了解过这方面内容

      2021年2月10日
      回复
  • 程序同學

    您好!
    请教一点关于pcm文件解析的问题,方便邮件沟通吗?
    不甚感激!

    2021年6月5日
    回复
    • Jeff

      @程序同學 抱歉,现在已经不搞这方面了

      2021年6月7日
      回复
  • jackzhous

    音量我看其他网上的介绍不是20*lg(p1/p0);其中p0是人耳在1000hz下能听到最小声音的声压,p1是待计算音量的声压;为啥这里介绍时振幅呢?

    2022年2月15日
    回复
  • razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
    取消回复

    这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

    版权声明

    为支持原创,创作更好的文章,未经许可,禁止任何形式的转载与抄袭,如需转载请邮件私信!本人保留所有法定权利。违者必究!

    文章目录
    • 声学中的分贝
    • 分贝声音变化范围
    • windows系统中音量滑块控制的声音变化范围
    • 程序实现
    • 参考
    最近评论
    ztt 发布于 3 周前(04月05日) 你好,想看里面的视频和图片为什么没有显示呢?需要下flash吗还是什么。
    huowa222 发布于 4 周前(03月26日) 同问
    邱国禄 发布于 2 个月前(02月17日) Receive Delta以0.25ms为单位,reference time以64ms为单位,kDe...
    啊非 发布于 4 个月前(12月30日) 大神,请教一个问题: constexpr int kBaseScaleFactor = Tran...
    啊非 发布于 4 个月前(12月30日) reference time:3字节,表示参考时间,以64ms为单位,但是 代码里面是 Trans...
    相关文章
    • 音视频开发入门:视频基础
    • 大话WebRTC
    • WebRTC音视频传输基础:NAT穿透
    • Intel平台硬件加速视频编解码开发
    • 音视频开发入门:音频基础

    COPYRIGHT © 2024 jianchihu.net. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang