最近在弄rtmp推流AAC格式的音频流,于是对AAC文件解析一个总结。
第一部分 AAC ADTS格式分析
AAC音频格式分析
AAC音频格式有ADIF和ADTS:
ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。
ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。
ADTS格式的文件组成如下:
AAC ADTS Header结构如下图所示,1~10字段是固定头部,11~15字段是可变头部,CRC字段不一定有内容:
先看一段AAC ADTS的文件内容:
解析如下:
(7 or 9)个字节的Header内容:11111111 11111001 01010000 10000000 00010111 00111111 11111100
固定头(28bit):
syncword(12bit):11111111 1111,0xFFF,ADTS帧的开始
ID(1bit):1, MPEG Version, 0表示是MPEG-4,1表示MPEG-2
layer(2bit):00,一般都是00
protection_absent(1bit):1,1表示包头没有CRC校验字段,0表示有CRC校验字段
profile(2bit):01, 表示使用哪个级别的AAC
sampling_frequency_index(4bit):0100,表示使用的采样率下标,指明了采样率,这个例子表示使用了44.1kHz
private_bit(1bit):0,private stream, set to 0 when encoding, ignore when decoding
channel_configuration(3bit):010,表示声道数
original_copy(1bit):0,originality, set to 0 when encoding, ignore when decoding,
home(1bit):0,set to 0 when encoding, ignore when decoding
可变头:
copyright_identification_bit(1bit):0,copyrighted stream, set to 0 when encoding, ignore when decoding
copyright_identification_start(1bit):0,copyright start, set to 0 when encoding, ignore when decoding
aac_frame_length(13bit):00 00010111 001(185),AAC帧的长度,该值包含头部的长度,FrameLength = (ProtectionAbsent == 1 ? 7 : 9) + size(AACFrame)
adts_buffer_fullness(11bit):11111 111111(0x7FF),说明码率可变的码流
no_of_raw_data_blocks_in_frame(2bit):00,Number of AAC frames (RDBs) in ADTS frame minus 1, for maximum compatibility always use 1 AAC frame per ADTS frame
CRC(16bit):CRC的校验字段,该示例没有校验字段。
第二部分 RTMP推送AAC音频流
推送音频流,所有的音频包是通过AUDIODATA结构封装的,该结构如图4所示。在向RTMP服务器推送音频流或者视频流时,首先要推送一个音频tag(AAC sequence header)和视频tag(AVC sequence header),没有这些信息播放端是无法解码音视频流的,其中音频tag格式如下
其中AACAUDIODATA的结构如下图:
AAC sequence header其实就是AudioSpecificConfiguration,其定义如下:
从上面推论出AAC sequence header内容的前2个字节是0xAF 0x00,我们来看一个示例:
AAC sequence header内容是:AF 00 12 10,解析如下:
发送完AAC sequence header后就是AAC的帧数据,每帧的字节存放在AAC header后,长度由header的aac_frame_length字段指定,该值也包含了头和CRC字段的长度。
另一个比较重要的信息就是RTMP包的时间戳问题,其计算公式是:
frame_duration = frame_sample*1000/sample_rate
AAC一帧的采样点是1024或者960,该值由哪个字段决定,尚未弄明白,对于44100Hz的采样率来说,大概就是23.21毫秒。
技术交流可以入QQ群【554271674】