音视频基础概念(5)——音频基础说明

现实生活中，音频（Audio）主要用在两大场景中，包括语音（Voice）和音乐（Music）。语音主要用于沟通，如打电话等。目前由于语音识别技术的发展，人机语音交互也是语音的一个应用方向，很多大厂推出智能音箱、语音助手等。音乐主要用于欣赏和陶冶情操，如播放音乐。

音频的基础概念主要包括采样、采样率、声道、音频编解码、码率等。常用的音频格式主要包括WAV、AAC、AMR、MP3、AC-3等。音频开发的主要应用包括音频播放器、录音机、语音电话、音视频监控应用、音视频直播应用、音频编辑/处理软件、蓝牙耳机/音箱等。

1 音频基础概念

音频是一个专业术语，音频一词通常用作一般性描述音频范围内和声音有关的设备及其作用。人类所能听到的所有声音都可以成为音频，包括噪声等。声音被录制下来后，风声、雨声、读书声，歌声、乐器声都可以通过数字音乐软件处理，把它们制作成CD，这时候音频是指存储在计算机中的声音。与音频相关的概念包括数字音频、音频采集、音频处理、音频应用场景、常见的音频格式、混音技术等。

1.1 声音和音频

声音和音频是两个不同的概念，声音有三要素。

1.1.1 声音的三要素

声音的三要素是频率、振幅、波形。

频率是指声波的频率，即声音的音调，人类听觉的频率（音调）范围为[20Hz，20kHz]。

振幅是指声波的响度，通俗地讲就是声音的高低，可以理解为音量.

波形是指声音的音色，在同样的频率和振幅下，钢琴和二胡的声音听起来完全不同，因为其音色不同。波形决定了其所代表声音的音色，音色不同是因为它们的介质所产生的波形不同。

综上，声音的本质就是音调、音量和音色。音调指频率，音量指振幅，音色和材质有关。

其中声音响度和强度是两个不同的概念，声音的主观属性响度表示的是一个声音听起来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。

1.1.2 音频的基础概念

音频相关概念包括比特率、采样、采样率、奈奎斯特采样定律等。

比特率表示经过编码（压缩）后的音频数据每秒需要用多少比特来表示，常用kb/s表示。

采样是把连续的模拟信号，变成离散的数字型号。

采样率是指每秒采集多少个样本。

奈奎斯特（Nyquist）采样定律规定当采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。

1.2 数字音频

数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术，它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。数字音频的主要应用领域是音乐后期制作和录音。

计算机数据的存储是以0、1的形式存储的，所以数字音频就是首先将音频文件进行转换，接着将这些电平信号转换成二进制数据保存，播放的时候把这些数据转化为模拟的电平信号再送到扬声器播出，数字声音和一般磁带、广播、电视中的声音就存储及播放方式而言有着本质的区别。相比而言，它具有存储方便、存储成本低、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。

数字音频所设计的基础概念非常多，包括采样、量化、编码、采样率、采样数、声道数、音频帧、比特率、PCM等。

从模拟信号——>采样——>量化——>编码——>数字信号等步骤。

1.2.1 采样

采样是指再时间轴上对信号进行数字化。根据奈奎斯特定律，当按照比声音最高频率的2呗以上进行采样时，采样信号可以用来完美重构原始连续信号。如人类听觉频率范围[20Hz，20kHz]，所以采样频率至少要大于40kHz。采样频率一般为44.1kHz，即1S采样44100次，这样可以保证声音达到20kHz也能被数字化。

采样率，简单来说就是每秒获取声音样本的次数。声音是一种能量波，其具有音频频率和振幅的特征。采样过程就是抽取某点的频率值。如果在1S内抽取的点越多，获取的信息也就越多，采样率越高，声音的质量就越好。但并不是说采样率越高就越好，因为人耳的听觉范围为[20Hz，20kHz]。

采样数跟采样率、采样时间、采样位数和声道数有关系，即采样数等于采样率、采样时间、采样位数和声道数的乘积。如采样率为44100Hz，采样率时间为1S，采样位数为16b，声道数为2，那么采样数等于44100 *1 *16*2=1411200。

1.2.2 量化

每个采样又该如何表示呢？这就涉及量化了。量化是指在幅度轴上对信号进行数字化。如果用16比特的二进制信号来表示一个采样，则一个采样所表示的范围为[-32768,32767]。

采样位数也叫采样大小、量化位数、量化深度、采样位深、采样位宽。采样位数表示每个采样点用多少比特表示，音频的量化深度一般为8b、16b、32b等。当量化深度为8b时，每个采样点可以表示256个不同的量化值；当量化深度为16b时，每个采样点可以表示65536个不同的量化值。量化深度的大小会影响声音的质量，位数越多，量化后的波形越接近原始波形，声音的质量越高，而需要的存储空间也越大；位数越少，声音的质量越低，需要的存储空间越小。如常见的CD音质采用的是16b的量化深度。采样精度用来指定采样数据的格式和每次采样的大小。例如数据格式为PCM，每次采样位数为16b。

1.2.3 编码

每个量化都是一个采样，将这么多采样进行存储就叫作编码。编码就是按照一定的格式记录采样和量化后的数字数据，例如顺序存储或者压缩存储等。通常所讲的音频裸数据格式就是脉冲编码调制（PCM）数据。描述一段PCM数据通常需要几个概念，包括量化格式（通常为16b）、采样率、声道数等。对于声音格式，还有一个概念用来描述它的大小，即比特率，即1S内比特数目，用来衡量音频数据单位时间内的容量大小。

其中PCM(Pulse Code Modulation)，它是指在原始收录声音时，数据会保存到一串缓冲区（Buffer）中，这串缓冲区采用了PCM格式存储。通常把音频采样过程也叫做脉冲编码调制编码，即PCM编码，采样值也叫PCM值。PCM编码过程就是从模拟信号到数字信号的转化过程，包括抽样、量化和编码三个阶段。如在Windows系统中，通过WaveIn或者CoreAudio采集声音，得到的原始数据就是一串PCM格式的Buffer。

1.2.4 其他概念

从模拟信号到数字信号的转换过程包括采样、量化、编码这3个阶段，除此之外，数字音频还涉及几个基础概念。

通道数，即声音的通道数目，有单声道、双声道和立体声道等区别。记录声音时，如果每次只生成一个声波数据，成为单声道；每次生成两个声波数据，成为双声道（立体声）。

立体声存储大小是单声道文件的两倍。单声道的声音通常使用一个扬声器发声，但也可以处理成两个扬声器输出同一个声道的声音，但通过两个扬声器回放单声道信息的时候，可以明显感觉到声音是从两个音箱中间传递到耳朵的，无法判断声源的具体位置。双声道就是有两个声音通道，其原理是人们听到的声音时可以根据左耳和右耳对声音的相位差来判断声源的具体位置。声音在录制的过程中被分配到两个独立的声道中，从而达成了很好的声音定位效果。

音频跟视频不太一样，视频的每一帧就是一幅图像，但音频是流式的，本身没有一帧的概念。对于音频来讲，确实没有办法明确定义出一帧。如PCM流，采样率为44100Hz，采样位数为16b，通道数为2，那么1S音频数据的大小是固定的，共44100*16b*2/8=176400B。通常，可以规定一帧音频的概念，例如规定每20ms的音频是一帧。

比特率（码率）,是指音频每秒传送的比特数，单位为b/s。比特率越大表示单位时间内采样的数据越多，传输的数据量就越大。如PCM流，采样率为44100Hz，采样大小为16b，声道数为2，那么比特率为44100*16*2=1411200b/s。

一个音频文件的总大小，可以根据采样数、采样位数、声道数、采样时间来计算，