网站怎么伪静态网站,dede我的网站,做淘宝联盟网站,著名vi设计机构系列文章目录
音频格式的介绍文章系列#xff1a; 音频编解码格式介绍(1) ADPCM#xff1a;adpcm编解码原理及其代码实现 音频编解码格式介绍(2) MP3 #xff1a;音频格式之MP3#xff1a;(1)MP3封装格式简介 音频编解码格式介绍(2) MP3 #xff1a;音频格式之MP3#x…系列文章目录
音频格式的介绍文章系列 音频编解码格式介绍(1) ADPCMadpcm编解码原理及其代码实现 音频编解码格式介绍(2) MP3 音频格式之MP3(1)MP3封装格式简介 音频编解码格式介绍(2) MP3 音频格式之MP3(2)MP3编解码原理详解 音频编解码格式介绍(3) AAC 音频格式之AAC(1)AAC简介 音频编解码格式介绍(3) AAC 音频格式之AAC(2)AAC封装格式ADIF,ADTS,LATMextradata及AAC ES存储格式 音频编解码格式介绍(3) AAC 音频格式之AAC(3)AAC编解码原理详解 文章目录 系列文章目录1、AAC简介2、AAC编解码模块介绍3、AAC编码流程1听觉心里模型(Psychoacoustic Model)2增益控制(gain control)3MDCT4瞬时噪声整形TNS(Temporal Noise Shaping Module)5Joint Stereo Coding与预测(Prediction)模块6量化与编码 4、AAC解码流程1Bitstream Formatter码流解析模块。2Noiseless Decoding无噪编解码模块。3Inverse Quantization量化和反量化模块。4Rescaling缩放因子处理模块。5M/SMid/Side 立体声编解码模块。6Prediction预测模块。7Intensity强度立体声编解码模块。8Dependently Switched Coupling非独立交换耦合模块。9TNS瞬时噪音整形模块。10Filterbank/Block Switching滤波器组/块切换模块。11Gain Control增益控制模块。12Independently Switched Coupling独立交换耦合模块。1LTPLong Term Prediction长时预测模块。2PNSPerceptual Noise Substitution知觉噪声替换模块。3SBRSpectral Band Replication频段复制技术。4PSParametric Stereo参数立体声技术。 参考资料 1、AAC简介
AAC英文全称 Advanced Audio Coding是由 Fraunhofer IIS、杜比实验室、ATT、Sony 等公司共同开发在 1997 年推出的基于 MPEG-2 的有损数字音频压缩的专利音频编码标准。
1997年制订不兼容MPEG-1的音频标准MPEG-2 NBC即MPEG-2 AAC 1999年MPEG-2 AAC增加LTPLong Term Prediction和PNSPerceptual Noise Substitution工具形成MPEG-4 AAC v1 2002年MPEG-4 AAC v1增加了SBRSpectral Band Replication和错误鲁棒性工具形成MPEG-4 HE-AAC 2004年MPEG-4 HE-AAC引入PSParametric Stereo模块提升低码率性能形成EAAC
技术指标
ž采样率8kHz - 96kHz ž码率 8kbps - 576kbps ž声道最多支持48个主声道16个低频增强声道
AAC 作为 MP3 的后继者而被设计出来综合了许多新的技术有很多新的特性它支持从 8k 到 96k 的各种采样率支持多种声道配置方案。在相同的比特率之下AAC 相较于 MP3 通常可以达到更好的声音质量。
AAC 属于感知音频编码。与所有感知音频编码类似其原理是利用人耳听觉的掩蔽效应对变换域中的谱线进行编码去除将被掩蔽的信息并控制编码时的量化噪声不被分辨。 2、AAC编解码模块介绍
MPEG-2 AAC 系统包含了增益控制、滤波器组、心理声学模型、量化与编码、预测、TNS、立体声处理等多种高效的编码工具。这些模块或过程的有机组合形成了 AAC 系统的基本编解码流程。
在实际应用中并不是所有的功能模块都是必需的下表列出了 MPEG-2 AAC 各模块的可选性
相较于MPEG-2 AACMPEG-4 标准在原 AAC 的基础上加上了 LTPLong Term Prediction、PNSPerceptual Noise Substitution、SBRSpectral Band Replication、PSParametric Stereo等技术并提供了多种扩展工具。
为了允许其系统可对音频质量与内存/处理功率要求之间做一舍取因此AAC 系统提供了三种profilesMain profile、Low Complexity(LC) profile、Scaleable Sampling Rate(SSR) profile。且每一种profile所使用的tools皆不同下表表示其三种不同profile所需使用的tools。
3、AAC编码流程
MPEG-4 AAC编码流程如下图 其整体AAC 编解码系统如图所示其编码流程概述如下
1听觉心里模型(Psychoacoustic Model)
送至听觉心里模型(Psychoacoustic Model)以求得信掩比掩蔽阈值M/S 立体声编码以及强度立体声编码需要的控制信息还有滤波器组中应使用长短窗选择信息。
2增益控制(gain control)
同时送到增益控制(gain control)模块中将信号做某个程度的衰减以降低其峰值大小如此可减少Pre-echo 的发生。
3MDCT
通过滤波器组进行加窗 MDCT 变换将时域信号转换至频率域。
4瞬时噪声整形TNS(Temporal Noise Shaping Module)
瞬时噪声整形TNS(Temporal Noise Shaping Module)模块中来判断是否需要启动TNS此模块系利用开回路预测(open-loop prediction) 来修饰其量化噪声如此可将其量化噪声的分布修饰到原始信号能量所能含盖的范围之下进一步的减少Pre-echo 的发生若TNS 被启动则传出其预测差值反之则传出原始频谱值。
5Joint Stereo Coding与预测(Prediction)模块
Joint Stereo Coding与预测(Prediction)模块来进一步消除信号间的冗余成份。在Joint Stereo Coding中又可分为Intensity Stereo Coding 与M/S Stereo Coding。在Intensity Stereo Coding模块中是利用信号在高频时人耳只对能量较敏感对于其相位不敏感之特性将其左右声道之频谱系数合并以节省使用之位在M/S Stereo Coding 模块中利用左右声道之和与差做进一步地压缩若其差值能量很小如此便可以用较少之位编码此一声道将剩余之位应用于另一声道上的编码如此来提升其压缩率。而预测模块的主要架构是使用Backward Adaptive Predictors利用前两个音频帧来预测现在的音频帧若决定启动此模块则传出其预测差值如此一来可以减少其数据量达数据压缩之目的。
6量化与编码
量化与编码为了达到量化编码的最佳化AAC 使用了双巢状式循环(two nested loop)的量化编码结构以得最佳的压缩质量。
4、AAC解码流程
MPEG-4 AAC解码流程图如下图
1Bitstream Formatter码流解析模块。
在解码时该模块将 AAC 数据流分解为各个工具模块对应的数据模块并为每个工具模块提供与该工具相关的比特流数据信息。这个模块的输出包括
无噪声编码频谱的分段信息 无噪声编码频谱 Mid/Side 决策信息 预测器状态信息 强度立体声控制信息和耦合通道控制信息 时域噪声修整TNS信息 滤波器组控制信息 增益控制信息
2Noiseless Decoding无噪编解码模块。
无噪编码就是哈夫曼编码它的作用在于进一步减少尺度因子和量化后频谱的冗余即将尺度因子和量化后的频谱信息进行哈夫曼编码。在解码时该模块从码流解析模块获得输入的数据流从中解码霍夫曼编码数据并重建量化频谱、霍夫曼编码和 DPCM 编码的比例因子。
这个模块的输入包括
无噪声编码频谱的分段信息 无噪声编码频谱 输出包括
比例因子的解码整数表示 频谱的量化值
3Inverse Quantization量化和反量化模块。
在 AAC 编码中逆量化频谱系数是由一个非均匀量化器来实现的在解码中需进行其逆运算。在解码时该模块将频谱的量化值转换为整数值来表示未缩放的重建频谱。此量化器是非均匀的量化器。通过对量化分析的良好控制比特率能够被更高效地利用。在频域调整量化噪声的基本方法就是用尺度因子来进行噪声整形尺度因子就是一个用来改变在一个尺度因子带的所有的频谱系数的振幅增益值使用尺度因子这种机制是为了使用非均匀量化器在频域中改变量化噪声的比特分配。
这个模块的输入包括
频谱的量化值 输出包括
未缩放的逆量化的频谱 量化公式如下 x_quant int (( abs( mdct_line ) * (2^(- ¼ * (sf_decoder - SF_OFFSET))) )^(3/4) MAGIC_NUMBER) 其中MAGIC_NUMBER0.4054SF_OFFSET 100
4Rescaling缩放因子处理模块。
解码时该模块将比例因子的整数表示转换为实际值然后将未缩放的逆量化频谱乘以相关比例因子。
这个模块的输入包括
比例因子的解码整数表示 未缩放的逆量化的频谱 输出包括
缩放后的逆量化的频谱
5M/SMid/Side 立体声编解码模块。
是联合立体声编码Joint Stereo的一种方案编码时兼顾了这两个声道的共同信息量。该模块基于 Mid/Side 决策信息将频谱对从 Mid/Side 模式转换为 Left/Right 模式以提高编码效率。一般在左右声道信息相似度较高时使用处理方式是将左右声道信息合并LR得到新的一轨再将左右声道信息相减L-R得到另外一轨然后再将这两轨信息用心理声学模型和滤波器处理。
这个模块的输入包括
Mid/Side 决策信息 和声道关联的缩放后的逆量化的频谱 输出包括
在 M/S 解码之后与声道对相关的缩放后的逆量化频谱
6Prediction预测模块。
解码时该模块会在预测状态信息的控制下重新插入在编码时提取出的冗余信息。该模块实现为二阶后向自适应预测器。对音频信号进行预测可以减少重复冗余信号的处理提高效率。
这个模块的输入包括
预测器状态信息 缩放后的逆量化的频谱 输出包括
应用了预测的缩放后的逆量化的频谱
7Intensity强度立体声编解码模块。
是联合立体声编码Joint Stereo的一种方案编码时兼顾了这两个声道的共同信息量。一般在低流量时使用利用了人耳对于低频信号指向性分辨能力的不足将音频信息中的低频分解出来合成单声道数据剩余的高频信息则合成另一个单声道数据并记录高频信息的位置数据来重建立体声效果。解码时该模块对频谱对执行强度立体声解码。Mid/Side Stereo 和 Intensity Stereo 都有利用部分相位信息的损失来换得较高的音色数据信息。
这个模块的输入包括
逆量化的频谱 强度立体声控制信息 输出包括
强度立体声道解码后的逆量化频谱
8Dependently Switched Coupling非独立交换耦合模块。
解码时该模块基于耦合控制信息的指导将非独立交换耦合声道中的相关数据添加到频谱中。
这个模块的输入包括
逆量化的频谱 耦合控制信息 输出包括
和非独立交换耦合声道耦合的逆量化频谱
9TNS瞬时噪音整形模块。
该模块实现了对编码噪声的精细时间结构的控制。在编码时TNS 处理过程会修整声音信号的时域包络。在解码时该模块会基于 TNS 信息的控制在对应的逆处理过程中会还原实际的时域包络。这是通过对部分频谱数据进行滤波处理来实现的。这项神奇的技术可以通过在频率域上的预测来修整时域上的量化噪音的分布。在一些特殊的语音和剧烈变化信号的量化上TNS 技术对音质的提高贡献巨大。
这个模块的输入包括
逆量化的频谱 TNS 信息 输出包括
逆量化的频谱
10Filterbank/Block Switching滤波器组/块切换模块。
解码时该模块应用了在编码器中执行的频率映射的逆函数。滤波器组工具使用了一个逆修正离散余弦变换IMDCT这个 IMDCT 可以配置为支持一组 128 或 1024或四组 32 或 256 频谱系数。
这个模块的输入包括
逆量化的频谱 滤波器组控制信息 输出包括
时域重建的音频信号 IMDCT公式如下 因为aac每帧1024或960个sampleswindow length有50%的重叠所以window length为2048或1920。window分longshort具体如下
11Gain Control增益控制模块。
当输出时该模块将单独的时域增益控制应用于已由编码器中的增益控制 PQF 滤波器组创建的 4 个频带中的每个频带。然后它会组合 4 个频带并通过增益控制工具的滤波器组来重建时间波形。该模块仅可用于 SSR(Scalable SampleRate) Profile。
这个模块的输入包括
时域重建的音频信号 增益控制信息 输出包括
时域重建的音频信号
12Independently Switched Coupling独立交换耦合模块。
解码时该模块基于耦合控制信息的指导将独立交换耦合声道中的相关数据添加到时间信号中。
这个模块的输入包括
滤波器组输出的时间信号 耦合控制信息 输出包括
和独立交换耦合声道耦合的时间信号 以上是 MPEG-2 AAC 各模块的介绍在 MPEG4 AAC 还新增了其他功能模块比如
1LTPLong Term Prediction长时预测模块。
它用来减少连续两个编码音框之间的信号冗余对于处理低码率的语音非常有效。
2PNSPerceptual Noise Substitution知觉噪声替换模块。
当编码器发现类似噪音的信号时并不对其进行量化而是作个标记就忽略过去当解码时再还原出来这样就提高了效率。在具体操作上PNS 模块对每个尺度因子带侦测频率 4k Hz 以下的信号成分。如果这个信号既不是音调在时间上也无强烈的能量变动就被认为是噪声信号。其信号的音调及能量变化都在心理声学模型中算出。
3SBRSpectral Band Replication频段复制技术。
音乐的主要频谱集中在低频段高频段幅度很小但很重要决定了音质。对整个频段编码时若为保护高频就会造成低频段编码过细导致编码效率较低若只保存低频的主要成分而丢掉高频成分又会损失音质。SBR 把频谱切开低频单独编码只保存主要成分提高编码效率高频单独放大编码兼顾音质。
4PSParametric Stereo参数立体声技术。
原本立体声双声道的编码输出是一个声道的两倍但是两个声道的声音存在某种相似性。PS 存储一个声道的全部信息然后花较少的字节用参数描述另一个声道的差异部分来提升编码效率。 参考资料
[1]ISO/IEC 13818-7 http://www.telemidia.puc-rio.br/~rafaeldiniz/public_files/normas/ISO-13818/ISO_IEC_13818-7_2006(E).pdf [2]ISO/IEC 14496-3 https://csclub.uwaterloo.ca/~ehashman/ISO14496-3-2009.pdf [3]音频编码入门看这篇就够了丨音视频基础 https://zhuanlan.zhihu.com/p/499760382?utm_id0 [4]aac解码算法原理详解 https://www.doc88.com/p-5754123606296.html [5]AAC 系统算法分析 https://www.cnblogs.com/gaozehua/archive/2012/05/03/2479960.html