mp4文件结构分析

参考：https://www.jianshu.com/p/529c3729f357

mp4文件由box组成，每个box由box header 和 box body组成；box header有size和type字段，各4个字节
size大小包含box header本身的大小，type一般是4个ascii码字符，如"moov"。box header一般还有其他字段。
用户可以使用type为"uuid"自定义box。

下面讲下mp4的box组成：
ftyp:
一般第一个是类型为"ftyp"的box，表示mp4的版本信息以及兼容信息
moov:
紧接着是"moov" box，里面封装了mp4的metadata信息，moov是一个容器box，封装了mvhd box以及
若干个tracker box，
mvhd中封装的主要7个字段为：
version:版本
创建时间
修改时间
timescal：表示了metadata中使用的时间刻度，timescal的值对应真实时间的1秒。真正时长 = duration / timescal
duration
rate：推荐播放速度
volume：推荐音量

与mvhd box同一级的是tracker box：mp4包含若干tracker，至少包含一个，tracker之间是独立的，有自己的时间和空间信息
trak必须包含一个tkhd和一个mdia
tkhd包含字段：
version:box版本
flags:表示track的有效性
track id: track id号，不能重复且不能为0
duration：track的时间长度
volume: 音量大小
width：宽
height：高，用于播放时展示的宽、高。

media必须包含如下box：

mdhd：与tkhd内容大致一样，用于设置media，不过两者一般都是一样的
0）版本 1）建立时间 2）修改时间 3）timescale 4）duration 5）lanuage
hdlr：字段handler type: 为4个字符，如下取值：'vide', 'soun', 'hint', 'meta', 'auxv'
minf和user data：media info比较重要，包含了mp4数据的组织逻辑：其下为sample table box，表示了sample时间和空间的布局。其中sample的概念为：若干字节的音频或视频数据，与帧没有绝对的对等关系。
chunk：一个chunk包含若干sample
其中sample table box 包含7个主要的box：
sample description box (stsd)：
1)sample描述box, entry_count : entry个数；handler_type: 类型信息如：‘vide’，“soud”
根据handler_type;

format : 视频或者音频编码格式，aac：mp4a, avc-1/h.264：avc1
3.1）音频参数：channelcount:通道个数；samplesize：采样位数；samplerate:采样率
3.2）视频参数：width, height:像素宽高。
4）frame_count: 每个sample中的视频帧数，默认是1，可以有多帧。
decoding time to sample(stts)：sample解码时间dts的压缩表
compo time to sample：sample的pts计算压缩表，CTS（建立时间pts）与DTS时间差的压缩表
sample map chunk：sample与chunk的映射表
sample size：每个sample的字节大小
chunk offset file：chunk在整个文件中的偏移
sync sample：关键帧sample的序号

播放时，mp4数据解析过程如下：
如播放到某个时间点时，例如8s处，则

首先将8s通过time scale(例如为：900)换算为mp4结构中使用的时间刻度：8 * 900 = 7200
time to sample box 字段中有sample之间间隔的字段，例如为180，则7200时间点对应的sample序号为: 7200 / 180 = 40
通过sample to chunk以及chunk offset file可以知道sample=40所在的chunk以及该chunk在file中的偏移
通过sample to chunk以及sample size可以确定sample=40在chunk中的便宜
知道了sample=40在chunk中的便宜以及该chunk在file中的便宜，则知道了sample在整个文件中的便宜，则读取即可。

mp4文件结构分析

友情链接更多精彩内容