iOS视频开发（三）：视频H264硬解码

前言

系列文章：
《iOS视频开发（一）：视频采集》
《iOS视频开发（二）：视频H264硬编码》
《iOS视频开发（三）：视频H264硬解码》
《iOS视频开发（四）：通俗理解YUV数据》

上一篇《iOS视频开发（二）：视频H264硬编码》我们已经学会了如何对视频数据进行H264编码并且了解了H264码流的基本结构。通常我们将视频进行H264编码是为了进行网络传输，如网络直播、视频会议等应用。网络传输相关的知识点较多且杂，这里我们且先不进行深入研究。我们接着讲对于H264数据，我们如何对其进行解码，本文就来讲一下如何使用VideoToolBox对H264数据进行硬解码。

解码过程

硬解码流程很简单：
1、解析H264数据
2、初始化解码器（VTDecompressionSessionCreate）
3、将解析后的H264数据送入解码器（VTDecompressionSessionDecodeFrame）
4、解码器回调输出解码后的数据（CVImageBufferRef）

从上一篇文章我们知道H264原始码流是由一个接一个的NALU（Nal Unit）组成的，I帧是一个完整编码的帧，P帧和B帧都需要根据I帧进行生成。这也就是说，若H264码流中没有I帧，即P帧和B帧失去参考，那么将无法对该码流进行解码。VideoToolBox的硬编码器编码出来的H264数据第一帧为I帧，我们也可以手动告诉编码器编一个I帧给我们。按照H264的数据格式，I帧前面必须有sps和pps数据，解码的第一步初始化解码器正是需要sps和pps数据来对编码器进行初始化。

1、解析并处理H264数据

既然H264数据是一个接一个的NALU组成，要对数据进行解码我们需要先对NALU数据进行解析。
NALU数据的前4个字节是开始码，用于标示这是一个NALU 单元的开始，第5字节是NAL类型，我们取出第5个字节转为十进制，看看什么类型，对其进行处理后送入解码器进行解码。

uint8_t *frame = (uint8_t *)naluData.bytes;
uint32_t frameSize = (uint32_t)naluData.length;
// frame的前4个字节是NALU数据的开始码，也就是00 00 00 01，
// 第5个字节是表示数据类型，转为10进制后，7是sps, 8是pps, 5是IDR（I帧）信息
int nalu_type = (frame[4] & 0x1F);

// 将NALU的开始码转为4字节大端NALU的长度信息
uint32_t nalSize = (uint32_t)(frameSize - 4);
uint8_t *pNalSize = (uint8_t*)(&nalSize);
frame[0] = *(pNalSize + 3);
frame[1] = *(pNalSize + 2);
frame[2] = *(pNalSize + 1);
frame[3] = *(pNalSize);
switch (nalu_type)
{
    case 0x05: // I帧
        NSLog(@"NALU type is IDR frame");
        if([self initH264Decoder])
        {
            [self decode:frame withSize:frameSize];
        }
        break;
    case 0x07: // SPS
        NSLog(@"NALU type is SPS frame");
        _spsSize = frameSize - 4;
        _sps = malloc(_spsSize);
        memcpy(_sps, &frame[4], _spsSize);
        break;
    case 0x08: // PPS
        NSLog(@"NALU type is PPS frame");
        _ppsSize = frameSize - 4;
        _pps = malloc(_ppsSize);
        memcpy(_pps, &frame[4], _ppsSize);
        break;
    default: // B帧或P帧
        NSLog(@"NALU type is B/P frame");
        if([self initH264Decoder])
        {
            [self decode:frame withSize:frameSize];
        }
        break;
}

这里我们需要把前4个字节的开始码转为4字节大端的NALU长度（不包含开始码）

2、初始化解码器

①根据sps pps创建解码视频参数描述器

const uint8_t* const parameterSetPointers[2] = {_sps, _pps};
const size_t parameterSetSizes[2] = {_spsSize, _ppsSize};
OSStatus status = CMVideoFormatDescriptionCreateFromH264ParameterSets(kCFAllocatorDefault, 2, parameterSetPointers, parameterSetSizes, 4, &_decoderFormatDescription);

②创建解码器、设置解码回调

// 从sps pps中获取解码视频的宽高信息
CMVideoDimensions dimensions = CMVideoFormatDescriptionGetDimensions(_decoderFormatDescription);

// kCVPixelBufferPixelFormatTypeKey 解码图像的采样格式
// kCVPixelBufferWidthKey、kCVPixelBufferHeightKey 解码图像的宽高
// kCVPixelBufferOpenGLCompatibilityKey制定支持OpenGL渲染，经测试有没有这个参数好像没什么差别
NSDictionary* destinationPixelBufferAttributes = @{(id)kCVPixelBufferPixelFormatTypeKey : @(kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange), (id)kCVPixelBufferWidthKey : @(dimensions.width), (id)kCVPixelBufferHeightKey : @(dimensions.height),
                                                   (id)kCVPixelBufferOpenGLCompatibilityKey : @(YES)};

// 设置解码输出数据回调
VTDecompressionOutputCallbackRecord callBackRecord;
callBackRecord.decompressionOutputCallback = decodeOutputDataCallback;
callBackRecord.decompressionOutputRefCon = (__bridge void *)self;
// 创建解码器
status = VTDecompressionSessionCreate(kCFAllocatorDefault, _decoderFormatDescription, NULL, (__bridge CFDictionaryRef)destinationPixelBufferAttributes, &callBackRecord, &_deocderSession);
// 解码线程数量
VTSessionSetProperty(_deocderSession, kVTDecompressionPropertyKey_ThreadCount, (__bridge CFTypeRef)@(1));
// 是否实时解码
VTSessionSetProperty(_deocderSession, kVTDecompressionPropertyKey_RealTime, kCFBooleanTrue);

3、将解析后的H264数据送入解码器

比较简单，直接看代码

CMBlockBufferRef blockBuffer = NULL;
// 创建 CMBlockBufferRef
OSStatus status  = CMBlockBufferCreateWithMemoryBlock(NULL, (void *)frame, frameSize, kCFAllocatorNull, NULL, 0, frameSize, FALSE, &blockBuffer);
if(status != kCMBlockBufferNoErr)
{
    return;
}
CMSampleBufferRef sampleBuffer = NULL;
const size_t sampleSizeArray[] = {frameSize};
// 创建 CMSampleBufferRef
status = CMSampleBufferCreateReady(kCFAllocatorDefault, blockBuffer, _decoderFormatDescription , 1, 0, NULL, 1, sampleSizeArray, &sampleBuffer);
if (status != kCMBlockBufferNoErr || sampleBuffer == NULL)
{
    return;
}
// VTDecodeFrameFlags 0为允许多线程解码
VTDecodeFrameFlags flags = 0;
VTDecodeInfoFlags flagOut = 0;
// 解码 这里第四个参数会传到解码的callback里的sourceFrameRefCon，可为空
OSStatus decodeStatus = VTDecompressionSessionDecodeFrame(_deocderSession, sampleBuffer, flags, NULL, &flagOut);
// Create了就得Release
CFRelease(sampleBuffer);
CFRelease(blockBuffer);

踩坑及总结

解码还没遇到什么问题，这一块还是比较简单的，如果疑惑请留言或私信。

下一篇我们来捋一下YUV数据是个什么玩意儿吧。
本文Demo地址：https://github.com/GenoChen/MediaService