基于Spark分布式系统下的短视频滤重
利用3D卷积神经网络对上万短视频提取高维特征,编写Scala程序,计算短视频特征距离,对重复视频进行清洗过滤。
(1)使用3D卷积神经网络提取短视频特征
(2)将数据保存于HDFS
(3)使用Spark框架,计算特征距离并返回相似短视频ID结果
Spark分布式系统下爆款视频预测
目标:预测视频是否能够火爆
模型:二分类问题(火爆视频or不火爆视频)
该方案主要包含以下3个阶段:
(1)爆款视频特征选择:选取了播放率,播放完成率,点赞率为特征,通过求和,归一化后,对总比率值进行由小到大的排序。
(2)训练集标签:从中选取出前1000个视频作为火爆视频标记为1,后1000个视频为不火爆视频标记为0,按照7:3划分训练集和测试集。
(3)模型选择:选取逻辑回归进行训练,最终ROC为0.82,能够实现项目需求。