参考:https://www.jianshu.com/p/529c3729f357
mp4文件由box组成,每个box由box header 和 box body组成;box header有size和type字段,各4个字节
size大小包含box header本身的大小,type一般是4个ascii码字符,如"moov"。box header一般还有其他字段。
用户可以使用type为"uuid"自定义box。
下面讲下mp4的box组成:
ftyp:
一般第一个是类型为"ftyp"的box,表示mp4的版本信息以及兼容信息
moov:
紧接着是"moov" box,里面封装了mp4的metadata信息,moov是一个容器box,封装了mvhd box以及
若干个tracker box,
mvhd中封装的主要7个字段为:
version:版本
创建时间
修改时间
timescal:表示了metadata中使用的时间刻度,timescal的值对应真实时间的1秒。真正时长 = duration / timescal
duration
rate:推荐播放速度
volume:推荐音量
与mvhd box同一级的是tracker box:mp4包含若干tracker,至少包含一个,tracker之间是独立的,有自己的时间和空间信息
trak必须包含一个tkhd和一个mdia
tkhd包含字段:
version:box版本
flags:表示track的有效性
track id: track id号,不能重复且不能为0
duration:track的时间长度
volume: 音量大小
width:宽
height:高,用于播放时展示的宽、高。
media必须包含如下box:
- mdhd:与tkhd内容大致一样,用于设置media,不过两者一般都是一样的
0)版本 1)建立时间 2)修改时间 3)timescale 4)duration 5)lanuage - hdlr:字段handler type: 为4个字符,如下取值:'vide', 'soun', 'hint', 'meta', 'auxv'
- minf和user data:media info比较重要,包含了mp4数据的组织逻辑:其下为sample table box,表示了sample时间和空间的布局。其中sample的概念为:若干字节的音频或视频数据,与帧没有绝对的对等关系。
chunk:一个chunk包含若干sample
其中sample table box 包含7个主要的box:
sample description box (stsd):
1)sample描述box, entry_count : entry个数;handler_type: 类型信息如:‘vide’,“soud”
根据handler_type;
- format : 视频或者音频编码格式,aac:mp4a, avc-1/h.264:avc1
3.1)音频参数:channelcount:通道个数;samplesize:采样位数;samplerate:采样率
3.2)视频参数:width, height:像素宽高。
4)frame_count: 每个sample中的视频帧数,默认是1,可以有多帧。
decoding time to sample(stts):sample解码时间dts的压缩表
compo time to sample:sample的pts计算压缩表,CTS(建立时间pts)与DTS时间差的压缩表
sample map chunk:sample与chunk的映射表
sample size:每个sample的字节大小
chunk offset file:chunk在整个文件中的偏移
sync sample:关键帧sample的序号
播放时,mp4数据解析过程如下:
如播放到某个时间点时,例如8s处,则
- 首先将8s通过time scale(例如为:900)换算为mp4结构中使用的时间刻度:8 * 900 = 7200
- time to sample box 字段中有sample之间间隔的字段,例如为180,则7200时间点对应的sample序号为: 7200 / 180 = 40
- 通过sample to chunk以及chunk offset file可以知道sample=40所在的chunk以及该chunk在file中的偏移
- 通过sample to chunk以及sample size可以确定sample=40在chunk中的便宜
- 知道了sample=40在chunk中的便宜 以及 该chunk在file中的便宜,则知道了sample在整个文件中的便宜,则读取即可。