前言
系列文章:
《iOS视频开发(一):视频采集》
《iOS视频开发(二):视频H264硬编码》
《iOS视频开发(三):视频H264硬解码》
《iOS视频开发(四):通俗理解YUV数据》
上一篇《iOS视频开发(二):视频H264硬编码》我们已经学会了如何对视频数据进行H264编码并且了解了H264码流的基本结构。通常我们将视频进行H264编码是为了进行网络传输,如网络直播、视频会议等应用。网络传输相关的知识点较多且杂,这里我们且先不进行深入研究。我们接着讲对于H264数据,我们如何对其进行解码,本文就来讲一下如何使用VideoToolBox
对H264数据进行硬解码。
解码过程
硬解码流程很简单:
1、解析H264数据
2、初始化解码器(VTDecompressionSessionCreate
)
3、将解析后的H264数据送入解码器(VTDecompressionSessionDecodeFrame
)
4、解码器回调输出解码后的数据(CVImageBufferRef
)
从上一篇文章我们知道H264原始码流是由一个接一个的NALU(Nal Unit)组成的,I帧是一个完整编码的帧,P帧和B帧都需要根据I帧进行生成。这也就是说,若H264码流中没有I帧,即P帧和B帧失去参考,那么将无法对该码流进行解码。VideoToolBox
的硬编码器编码出来的H264数据第一帧为I帧,我们也可以手动告诉编码器编一个I帧给我们。按照H264的数据格式,I帧前面必须有sps和pps数据,解码的第一步初始化解码器正是需要sps和pps数据来对编码器进行初始化。
1、解析并处理H264数据
既然H264数据是一个接一个的NALU组成,要对数据进行解码我们需要先对NALU数据进行解析。
NALU数据的前4个字节是开始码,用于标示这是一个NALU 单元的开始,第5字节是NAL类型,我们取出第5个字节转为十进制,看看什么类型,对其进行处理后送入解码器进行解码。
uint8_t *frame = (uint8_t *)naluData.bytes;
uint32_t frameSize = (uint32_t)naluData.length;
// frame的前4个字节是NALU数据的开始码,也就是00 00 00 01,
// 第5个字节是表示数据类型,转为10进制后,7是sps, 8是pps, 5是IDR(I帧)信息
int nalu_type = (frame[4] & 0x1F);
// 将NALU的开始码转为4字节大端NALU的长度信息
uint32_t nalSize = (uint32_t)(frameSize - 4);
uint8_t *pNalSize = (uint8_t*)(&nalSize);
frame[0] = *(pNalSize + 3);
frame[1] = *(pNalSize + 2);
frame[2] = *(pNalSize + 1);
frame[3] = *(pNalSize);
switch (nalu_type)
{
case 0x05: // I帧
NSLog(@"NALU type is IDR frame");
if([self initH264Decoder])
{
[self decode:frame withSize:frameSize];
}
break;
case 0x07: // SPS
NSLog(@"NALU type is SPS frame");
_spsSize = frameSize - 4;
_sps = malloc(_spsSize);
memcpy(_sps, &frame[4], _spsSize);
break;
case 0x08: // PPS
NSLog(@"NALU type is PPS frame");
_ppsSize = frameSize - 4;
_pps = malloc(_ppsSize);
memcpy(_pps, &frame[4], _ppsSize);
break;
default: // B帧或P帧
NSLog(@"NALU type is B/P frame");
if([self initH264Decoder])
{
[self decode:frame withSize:frameSize];
}
break;
}
这里我们需要把前4个字节的开始码转为4字节大端的NALU长度(不包含开始码)
2、初始化解码器
①根据sps pps创建解码视频参数描述器
const uint8_t* const parameterSetPointers[2] = {_sps, _pps};
const size_t parameterSetSizes[2] = {_spsSize, _ppsSize};
OSStatus status = CMVideoFormatDescriptionCreateFromH264ParameterSets(kCFAllocatorDefault, 2, parameterSetPointers, parameterSetSizes, 4, &_decoderFormatDescription);
②创建解码器、设置解码回调
// 从sps pps中获取解码视频的宽高信息
CMVideoDimensions dimensions = CMVideoFormatDescriptionGetDimensions(_decoderFormatDescription);
// kCVPixelBufferPixelFormatTypeKey 解码图像的采样格式
// kCVPixelBufferWidthKey、kCVPixelBufferHeightKey 解码图像的宽高
// kCVPixelBufferOpenGLCompatibilityKey制定支持OpenGL渲染,经测试有没有这个参数好像没什么差别
NSDictionary* destinationPixelBufferAttributes = @{(id)kCVPixelBufferPixelFormatTypeKey : @(kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange), (id)kCVPixelBufferWidthKey : @(dimensions.width), (id)kCVPixelBufferHeightKey : @(dimensions.height),
(id)kCVPixelBufferOpenGLCompatibilityKey : @(YES)};
// 设置解码输出数据回调
VTDecompressionOutputCallbackRecord callBackRecord;
callBackRecord.decompressionOutputCallback = decodeOutputDataCallback;
callBackRecord.decompressionOutputRefCon = (__bridge void *)self;
// 创建解码器
status = VTDecompressionSessionCreate(kCFAllocatorDefault, _decoderFormatDescription, NULL, (__bridge CFDictionaryRef)destinationPixelBufferAttributes, &callBackRecord, &_deocderSession);
// 解码线程数量
VTSessionSetProperty(_deocderSession, kVTDecompressionPropertyKey_ThreadCount, (__bridge CFTypeRef)@(1));
// 是否实时解码
VTSessionSetProperty(_deocderSession, kVTDecompressionPropertyKey_RealTime, kCFBooleanTrue);
3、将解析后的H264数据送入解码器
比较简单,直接看代码
CMBlockBufferRef blockBuffer = NULL;
// 创建 CMBlockBufferRef
OSStatus status = CMBlockBufferCreateWithMemoryBlock(NULL, (void *)frame, frameSize, kCFAllocatorNull, NULL, 0, frameSize, FALSE, &blockBuffer);
if(status != kCMBlockBufferNoErr)
{
return;
}
CMSampleBufferRef sampleBuffer = NULL;
const size_t sampleSizeArray[] = {frameSize};
// 创建 CMSampleBufferRef
status = CMSampleBufferCreateReady(kCFAllocatorDefault, blockBuffer, _decoderFormatDescription , 1, 0, NULL, 1, sampleSizeArray, &sampleBuffer);
if (status != kCMBlockBufferNoErr || sampleBuffer == NULL)
{
return;
}
// VTDecodeFrameFlags 0为允许多线程解码
VTDecodeFrameFlags flags = 0;
VTDecodeInfoFlags flagOut = 0;
// 解码 这里第四个参数会传到解码的callback里的sourceFrameRefCon,可为空
OSStatus decodeStatus = VTDecompressionSessionDecodeFrame(_deocderSession, sampleBuffer, flags, NULL, &flagOut);
// Create了就得Release
CFRelease(sampleBuffer);
CFRelease(blockBuffer);
踩坑及总结
解码还没遇到什么问题,这一块还是比较简单的,如果疑惑请留言或私信。
下一篇我们来捋一下YUV数据是个什么玩意儿吧。
本文Demo地址:https://github.com/GenoChen/MediaService