音频相关基础概念

oldbirds 12/7/2021 c/c++音频

# 声音

声音是振动产生的声波，通过介质（气体、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。

声音的频率一般会以赫兹表示，记为 Hz，指每秒钟周期性震动的次数。而分贝是用来表示声音强度的单位，记为 dB。

响度（loudness）：人主观上感觉声音的大小（俗称音量），由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝 dB）
音调（pitch）：声音的高低（高音、低音），由“频率”（frequency）决定，频率越高音调越高（频率单位 Hz（hertz），赫兹，人耳听觉范围 20 ～ 20000Hz。20Hz 以下称为次声波，20000Hz 以上称为超声波）例如，低音端的声音或更高的声音，如细弦声。
频率是每秒经过一给定点的声波数量，它的测量单位为赫兹，是以海因里希·鲁道夫·赫兹的名字命名的。
音色（Timbre）：又称音品，波形决定了声音的音色。声音因物体材料的特性而不同，音色本身是一种抽象的东西，但波形是把这个抽象直观的表现。波形不同，音色则不同。不同的音色，通过波形，完全可以分辨的。
乐音：有规则的让人愉悦的声音。
噪音：从物理学的角度看，由发声体作无规则振动时发出的声音。
音调，响度，音色是乐音的三个主要特征，人们就是根据他们来区分声音。
当两个物体碰撞后振动产生声音时，若两者振动频率比为不可化简的复杂比，如：201：388，那么我们分辨出来会觉得这个声音刺耳；相反，若两者振动频率比为可化简的简单比，如：3：7，那么我们分辨出来会觉得很动听。（毕达哥拉斯发现）

# 声波

当您看到表示音频的可视化波形时，它反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时，表示较高压力；当曲线向下摆动到波谷时，表示较低压力。

几个测量值描述了波形：

振幅：反映从波形波峰到波谷的压力变化。高振幅波形的声音较大；低振幅波形的声音较安静。
周期：描述单一、重复的压力变化序列，从零压力，到高压，再到低压，最后恢复为零。
频率：以赫兹 (Hz) 为单位测量，描述每秒周期数。（例如，1000 Hz 波形每秒有 1000 个周期。）频率越高，音乐音调越高
相位：以度为单位测量，共 360 度，表示周期中的波形位置。零度为起点，随后 90º 为高压点，180º 为中间点，270º 为低压点，360º 为终点。
波长：以英寸或厘米等单位测量，是具有相同相位度的两个点之间的距离。波长随频率的增加而减少。

# 声音的三要素

声音的特性可由三个要素来描述，即响度、音调和音色。

# 音调

声音的高低称为音调。音调取决于声源振动的频率。

物体在 1 秒内振动的次数叫频率。其单位是赫兹，简称赫，符号为 Hz。物体振动得越快，频率越大。音调跟发声体振动的频率关系是：频率越大，音调越高；频率越小，音调越低。

# 响度

人耳对声音强弱的主观感觉称为响度，响度又称音量。响度跟声源的幅度以及人距离声源的远近有关。

响度与振幅的关系是：振幅越大，响度越大；振幅越小，响度越小。响度还跟距离发声体的远近有关系。声音是从发声体向四面八方传播的，越到远处越分散，所以人们距发声体越远，听到的声音越小。如果能够想办法减小声音的分散，就可以使声音响度更大些。

响度的大小取决于音强、音高、音色、音长等条件。如果其他条件相同，元音听起来比辅音响。元音中，开口度大的低元音听起来比开口度小的高元音响；辅音中，浊音比清音响，送气音比不送气音响。

# 音色

音色是指不同的声音的频率表现在波形方面总是有与众不同的特性。音色又称音品，由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。单一频率的音称为纯音，具有谐波的音称为复音。每个基音都有固有的频率和不同响度的泛音,借此可以区别其它具有相同响度和音调的声音.声音波形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征,其包络是每个周期波峰间的连线,包络的陡缓影响声音强度的瞬态特性.声音的音色色彩纷呈,变化万千,高保真(Hi—Fi)音响的目标就是要尽可能准确地传输、还原重建原始声场的一切特征,使人们其实地感受到诸如声源定位感、空间包围感、层次厚度感等各种临场听感的立体环绕声效果.

# 音频

指人耳可以听到的声音频率在 20Hz~20kHz 之间的声波。

如果在计算机加上相应的音频卡—就是我们经常说的声卡，我们可以把所有的声音录制下来，声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存下来。反过来，我们也可以把储存下来的音频文件用一定的音频程序播放，还原以前录下的声音。

# 音频文件格式

音频文件格式专指存放音频数据的文件的格式。存在多种不同的格式。

一般获取音频数据的方法是：采用固定的时间间隔，对音频电压采样（量化），并将结果以某种分辨率（例如：CDDA 每个采样为 16 比特或 2 字节）存储。

采样的时间间隔可以有不同的标准，如 CDDA 采用每秒 44100 次；DVD 采用每秒 48000 或 96000 次。因此，[采样率]，[分辨率]和[声道]数目（例如立体声为 2 声道）是音频文件格式的关键参数。

# 有损和无损

根据数字音频的产生过程可知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是 PCM 编码，被广泛用于素材保存及音乐欣赏，CD、DVD 以及我们常见的 WAV 文件中均有应用。因此，PCM 约定俗成了无损编码，因为 PCM 代表了数字音频中最佳的保真水准。

有两类主要的音频文件格式：

无损格式，例如 WAV，PCM，TTA，FLAC，AU，APE，TAK，WavPack(WV)
有损格式，例如 MP3，Windows Media Audio（WMA），Ogg Vorbis（OGG），AAC

# 采样率

指每秒钟取得声音样本的次数。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很限，太高的频率并不能分辨出来。

22050 的采样频率是常用的，44100 是 CD 音质，超过 48000 或 96000 的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

如果是双声道，采样就是双份的，文件也差不多要大一倍。

在数字音频领域，常用的采样率有：

8000 Hz - 电话所用采样率，对于人的说话已经足够
11025 Hz - 电话所用采样率
22050 Hz - 无线电广播所用采样率
32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD， SVCD，MP3）所用采样率
47250 Hz - 商用 PCM 录音机所用采样率
48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50000 Hz - 商用数字录音机所用采样率
96000 Hz 或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

# 采样位数

采样位数也叫采样大小或量化位数。它是用来衡量声音波动变化的一个参数，也就是声卡的分辨率或可以理解为声卡处理声音的解析度。

它的数值越大，分辨率也就越高，录制和回放的声音就越真实。而声卡的位是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数，声卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。

常见的声卡主要有 8 位和 16 位两种，如今市面上所有的主流产品都是 16 位及以上的声卡。

每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:

字节(也就是 8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
字节(也就是 16bit) 可以细到 65536 个数, 这已是 CD 标准了;
字节(也就是 32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

# 通道数

即声音的通道的数目。常有单声道和立体声之分，单声道的声音只能使用一个喇叭发声（有的也处理成两个喇叭输出同一个声道的声音），立体声可以使两个喇叭都发声（一般左右声道有分工），更能感受到空间效果，当然还有更多的通道数。

# 单声道

单声道是比较原始的声音复制形式，早期的声卡采用的比较普遍。单声道的声音只能使用一个扬声器发声，有的也处理成两个扬声器输出同一个声道的声音，当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的，无法判断声源的具体位置。

# 立体声

双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。

双声目前最常用途与两个，在卡拉 OK 中，一个是奏乐，一个是歌手的声音；在 VCD 中,一个是普通话配音，一个是粤语配音。

# 四声环绕

四声道环绕规定了前左、前右，后左、后右四个发声点，听众则被包围在这中间。同时还建议增加一个低音音箱，以加强对低频信号的回放处理(这也就是如今 4.1 声道音箱系统广泛流行的原因)。就整体效果而言，四声道系统可以为听众带来来自多个不同方向的声音环绕，可以获得身临各种不同环境的听觉感受，给用户以全新的体验。如今四声道技术已经广泛融入于各类中高档声卡的设计中，成为未来发展的主流趋势。

# 5.1 声道

5.1 声道已广泛运用于各类传统影院和家庭影院中，一些比较知名的声音录制压缩格式，譬如杜比 AC-3（Dolby Digital）、DTS 等都是以 5.1 声音系统为技术蓝本的，其中“.1”声道，则是一个专门设计的超低音声道，这一声道可以产生频响范围 20 ～ 120Hz 的超低音。其实 5.1 声音系统来源于 4.1 环绕，不同之处在于它增加了一个中置单元。这个中置单元负责传送低于 80Hz 的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增加整体效果。

目前很多在线音乐播放器，比如说 QQ 音乐，已经提供 5.1 声道音乐试听和下载。

# 帧

音频的帧的概念没有视频帧那么清晰，几乎所有视频编码格式都可以简单的认为一帧就是编码后的一副图像。但音频帧跟编码格式相关，它是各个编码标准自己实现的。

帧记录了一个声音单元，其长度为样本长度(采样位数)和通道数的乘积。

如以 PCM（未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放了。比如采样率为 44.1kHZ，采样精度为 16 位的双音频，你可以算出比特率是 44100162bps，每秒的音频数据是固定的 44100162/8 字节。
amr 帧比较简单，它规定每 20ms 的音频是一帧，每一帧音频都是独立的，有可能采用不同的编码算法以及不同的编码参数。
mp3 帧较为复杂一点，包含了更多的信息，比如采样率，比特率，等各种参数。

# 周期

音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。

# 交错模式

数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧 1 的左声道样本和右声道样本，再开始帧 2 的记录。

# 非交错模式

首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。

# 比特率（码率）

比特率也叫码率，指音乐每秒播放的数据量，单位用 bit 表示，也就是二进制位。

bps 就是比特率。b 就是比特（bit），s 就是秒（second），p 就是每（per），一个字节相当于 8 个二进制位。也就是说 128bps 的 4 分钟的歌曲的文件大小是这样计算的(128/8)460=3840kB=3.8MB，1B（Byte）=8b（bit），一般 mp3 在 128 比特率左右为益，也大概在 3-4 BM 左右的大小。

在计算机应用中，能够达到最高保真水平的就是 PCM 编码，被广泛用于素材保存及音乐欣赏，CD、DVD 以及我们常见的 WAV 文件中均有应用。因此，PCM 约定俗成了无损编码，因为 PCM 代表了数字音频中最佳的保真水准，并不意味着 PCM 就能够确保信号绝对保真，PCM 也只能做到最大程度的无限接近。

要算一个 PCM 音频流的码率是一件很轻松的事情，采样率值 × 采样位数值 × 声道数 bps。

一个采样率为 44.1KHz，采样位数为 16bit，双声道的 PCM 编码的 WAV 文件，它的数据速率则为 44.1K×16×2 =1411.2Kbps。

我们常见的 Audio CD 就采用了 PCM 编码，一张光盘的容量只能容纳 72 分钟的音乐信息。

双声道的 PCM 编码的音频信号，1 秒钟需要 176.4KB 的空间，1 分钟则约为 10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有 2 种方法，降低采样指标或者压缩。降低采样指标是不可取的，因此专家们研发了各种压缩方案。最原始的有 DPCM、ADPCM，其中最出名的为 MP3。所以，采用了数据压缩以后的码率远小于原始码。

# 参考

声波 (opens new window)

概要大小端模式

Swift学习

Choose mode