现在我们已经解码出了每一帧,这里可以是音频帧,也可以是视频帧。
这些帧需要转换成我们需要的样子,比如转成RGB、YUV420P等等之类的。音频帧我们要转换成PCM格式等等。
首先我们需要引入这几包
#include <libswscale/swscale.h>
#include <libswresample/swresample.h>
很明显嘛,上面是像素格式转换的,下面的音频重采样的。
先说说视频,可以先定义出上下文以及输出的像素:
//初始化像素格式转换上下文
SwsContext *vctx =NULL; //在解析出每一帧时,才初始化
//定义输出像素
int outWidth =1280;
int outHeight =720;
char *rgb =new char[1920 *1280 *4];
当解析出某帧以后,也就是说,得到了某帧frame并且该帧为视频帧时执行以下代码。
这里才会给vctx赋值,注意,上一篇我们讲到,我们会在一个for循环里接收解析过的frame,也就是说,这段代码会写在循环当中,就是说sws_getCachedContext会执行多次。但如果参数不变,无论sws_getCachedContext执行多少次,都会返回相同的对象。因此并不会有性能问题。
关键方法为:sws_scale 返回的是输出像素的高度
vctx = sws_getCachedContext(vctx,frame->width,frame->height,(AVPixelFormat) frame->format,//输入的帧格式
outWidth,outHeight,
AV_PIX_FMT_RGBA,//输出的RGBA的像素格式
SWS_FAST_BILINEAR,//采用快速线性算法转换
0,0,0
);
if (!vctx) {
LOGW("sws_getCachedContext failed");
}else {
//输出格式上文成功获取后,开始这个转换流程!
//data为输出的视频数据
uint8_t *data[AV_NUM_DATA_POINTERS] = {0};
data[0] = (uint8_t *) rgb;
int lines[AV_NUM_DATA_POINTERS] = {0};
lines[0] = outWidth *4;
int h = sws_scale(vctx,(const uint8_t **) frame->data,frame->linesize,0,frame->height,data, lines);
LOGW("已经完成了像素转换,输出的:sws_scale = %d", h);
}
}
这里的data就是最终输出的像素数据。
现在讲讲音频,跟视频的套路还有点不一样,视频是获得帧时才初始化,音频是一开始就能定义。这里设置了双
//音频重采样上下文初始化
SwrContext *actx = swr_alloc();
char *pcm =new char[48000 *4 *2]; //双通道
actx = swr_alloc_set_opts(actx,av_get_default_channel_layout(2),AV_SAMPLE_FMT_S16, ac>sample_rate,av_get_default_channel_layout(ac->channels),
ac->sample_fmt, ac->sample_rate,0,0);
//正初化音频
re = swr_init(actx);
if (re !=0) {
LOGW("swr_init failed,reason:%s",av_err2str(re));
}else {
LOGW("swr_init success!");
}
依然是获得每一音频帧的时候,再开启重采样。关键方法为:swr_convert,返回的是单通道采样数。
//音频 out为输出的音频数据
uint8_t *out[2] = {0};
out[0] = (uint8_t *) pcm;
//音频重采样
int len = swr_convert(actx,out,frame->nb_samples,(const uint8_t **) frame->data,frame->nb_samples);
LOGW("已完成音频重采样swr_convert = %d", len);