一次用ffmpeg实现图片+音频合成视频的开发

一、需求

用户针对一个PPT的每一页图片,进行语音录制,输出多段音频文件,将用户每段音频和对应的PPT图片拼接起来,最后输出成一整段MP4视频,作为教学视频播放

二、方案选择

针对需求,最开始提出了几个主要的方案

方案 优点 缺点
方案一:直播推流录制 使用现成直播方案,上手成本小 业务逻辑要和直播业务切割隔离,重新弄一套,不合适,而且感觉杀鸡用牛刀
方案二:客户端处理图片、音频合成,视频拼接等多媒体操作 1、后端业务简单;
2、大多数视频处理类APP都是如此,方案成熟
1、前端要新嵌入七牛多媒体处理SDK,对包稳定性有影响
2、APP处理视频,可能比较耗费手机性能,如果APP受众用户是中老年用户,可能手机性能扛不住
方案三:服务端统一处理图片、音频合成,视频拼接等多媒体操作 1、客户端无需再嵌入SDK
2、对用户手机性能的要求降到最低
服务端交互逻辑变复杂,并且要处理耗时的多媒体合成任务

最终定了方案三,原因是该功能的受众是老年用户,手机性能可能很差,耗时的操作交给服务端来比较合适

三、方案执行

3.1 初版方案

查询了一下,对应图片+音频合成视频,这样的音画合成的操作,七牛并没有提供API~
所以只能服务端采用万能的多媒体处理工具:ffmpeg 了,整体方案如下


ppt录制ffmpeg处理方案流程.png

可以看到上述方案,有两个关键操作:

关键操作 描述 如何触发
音画合成 图片+音频合成视频 客户端接口触发,用户每录一段语音,则服务端立马调异步任务进行音画合成
视频mp4拼接 不同的视频片段拼接成一整段视频 客户端接口触发,用户点击预览或提交审核,服务端检查所有语音片段是否音画合成完毕,条件符合则进行视频mp4拼接

注意,七牛提供了视频mp4拼接的接口,但是经过实践,用ffmpeg进行本地视频mp4拼接没有任何问题,并且速度很快,所以这里所有操作都用 本地 ffmpeg 来进行

ffmpeg 不具体介绍,详情可自行google:

官网:https://ffmpeg.org/

参数详解:https://zhuanlan.zhihu.com/p/31674583

具体ffmpeg的命令执行操作,第一版的执行如下:

关键操作 描述 ffmpeg操作和参考
音画合成 图片+音频合成视频 ffmpeg -i 1976.aac -i mulan.jpg -acodec aac -strict -2 -vcodec libx264 -ar 22050 -ab 128k -ac 2 -pix_fmt yuvj420p -y conf_liutao_test1.mp4
参考来源:https://blog.51cto.com/cjxkaka/1569109
视频mp4拼接 不同的视频片段拼接成一整段视频 如下
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

不同的视频片段拼接成一整段视频
参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

3.2 遇到的问题和优化

问题1. 音画合成的视频,在有些浏览器中无法拖动进度条

咨询了人森导师手哥,他给我介绍了一个工具:mediainfo,该工具可以查看视频详情,如音轨(Audio)和画面(Video)的时长,通过该工具可以看到通过第一版操作音画合成的视频,画面时长只有40ms,然而音轨时长却有7s,这里存在严重的不同步,因此在有些浏览器(safari)中并不能正常拖动进度条播放:


quiz_audioD_videoD.png

问题1的解决办法

参考:Combine one image + one audio file to make one video using FFmpeg

中"community wiki"的回答,使用如下ffmpeg命令可以正常生成Video_Duration和Audio_Duration接近的视频

ffmpeg -loop 1 -i xuanwu.jpg 
-i 1.aac 
-c:v libx264 -tune stillimage 
-c:a aac -b:a 192k -pix_fmt yuvj420p 
-shortest liutao_test_2.mp4

问题2:将不同的音画合成后的视频片段拼接起来后生成的 最终课程录制视频,会有音画不同步的问题

现象是明明是第一个PPT的录音,画面已经翻到PPT第二页了,录音还在播放第一页PPT尾段的录制语音

原因:通过 mediainfo 查看最后生成的 最终拼接视频,发现还是存在 Video_Duration和Audio_Duration 不一致的问题

应该是第一步音画合成的视频片段本身就有 Video_Duration和Audio_Duration 不完全一致,将他们拼接起来后,是音轨和画面轨道分别拼接,最后两条轴出现了不一致的问题。

因此,我们需要在第一步音画合成的时候做处理,让 Video_Duration和Audio_Duration 保持严格一致或尽量接近

问题2的解决办法

在音画合成后,多一步操作,对合成的视频片段,进行人为剪裁~让视频的 Video_Duration和Audio_Duration 保持一致:

ffmpeg -i input.mp4 
-ss 00:00:00 
-t 00:00:11.72 
-acodec aac -vcodec h264 
-strict -2 cut_output.mp4

如此生成的视频 Video_Duration和Audio_Duration 不会有太大差距。

问题3:安卓端的播放器,播放合成的课程视频,依然无法拖动视频的进度条

和安卓端同学沟通后,定位问题是视频缺少关键帧,需要为视频加入关键帧

问题3的解决办法

参考:https://codeday.me/bug/20180927/259812.html

在音画合成截断,就针对视频插入关键帧,关键命令:

ffmpeg -x264-params keyint=1:scenecut=0

上面的keyint=1表示每隔1帧插入设置一个关键帧

问题4:音画合成的速度特别慢,音画合成生成的文件也特别的大

首先观察现象,发现 图片大小为 212k,音频 .aac 文件大小为 132k,生成的视频文件居然会是540k

怀疑是帧率问题,google了一下,ffmpeg指令如果不人为设定帧率,默认帧率为25,而我们音画合成的视频就是一张图片,并不需要太高的帧率,这个地方应该可以优化下

问题4的解决办法

参考:https://zhuanlan.zhihu.com/p/31674583

经过人为设置帧率为1,生成文件大小优化为356k

人为设置帧率为1的关键指令如下:

ffmpeg -r 1

同时,写了个小脚本,做了下实验验证,人为设置帧率,也大大降低了处理速度:

实验:对比使用 -r 2 设置帧率(fps) 来对静态图的mp4处理速度和大小进行优化
第一组:帧率使用默认值为25的处理:
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k.mp4
    [spend] => 46401.793956757ms
)
第二组:帧率认为设定为2的处理(使用 命令参数 -r 2 认为指定帧率为2):
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -r 2 -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k_r2.mp4
    [spend] => 21741.201877594ms
)
生成文件大小的对比
[med@qa liutao]$ du -ak liutao_test_1min_64k.mp4 liutao_test_1min_64k_r2.mp4
1404    liutao_test_1min_64k.mp4
548 liutao_test_1min_64k_r2.mp4

从上面的实验看起来,针对1分钟的音频,人为设置帧率为2使得处理耗时降低了至少50%,生成文件大小降低了近60%

问题5:音画合成后的视频,截断后又丢失了关键帧

音画合成后的视频,是带有关键帧信息的,为何截断后又丢失了关键帧?

经过仔细对比,发现音画合成和截断的命令,有着细微差距

1,音画合成:
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec h264 
-strict -2 output1_cut.mp4

仔细观察上面两个命令,经过google,发现 【-c:a】和【-acodec】是一个意思,表示音频编码方式,【-c:v】和【-vcodec】是一个意思,表示视频编码方式

这里两个指令的 视频编码方式,一个指定的使用 libx264,一个使用h264, 怀疑是这里的不一致导致关键帧丢失

经过试验,发现猜测正确。

问题5的解决办法:

将音画合成和视频截断的音频解码方式统一为 libx264,就能保证截断后视频的关键帧不丢失:

1,音画合成:
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 output1_cut.mp4

3.3 最终的视频处理命令

三个步骤:

  1. 音画合成,图片+音频合成视频
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k 
-pix_fmt yuvj420p  
-shortest liutao_test_2191_mulan_r1_key1.mp4

该指令人为设置合成帧率为1,降低处理耗时和生成文件大小,
人为设置关键帧间隔为每间隔1帧设置一个,解决安卓RN播放无法拉动进度条的问题

  1. 对音画合成后的视频片段进行截断
ffmpeg 
-ss 00:00:00 
-t 00:00:20.096 
-accurate_seek 
-i liutao_test_pre_2191.mp4 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 
liutao_test_final_2191.mp4

参考:我是CSDN博客链接
截断是为了保证音轨长度和画面轨道长度
尽量保持一致,杜绝拼接后的音画不同步问题

  1. 视频mp4拼接,不同的视频片段拼接成一整段视频
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容