八.个人案例介绍

基于Spark分布式系统下的短视频滤重

利用3D卷积神经网络对上万短视频提取高维特征,编写Scala程序,计算短视频特征距离,对重复视频进行清洗过滤。

(1)使用3D卷积神经网络提取短视频特征

(2)将数据保存于HDFS

(3)使用Spark框架,计算特征距离并返回相似短视频ID结果

Spark分布式系统下爆款视频预测

目标:预测视频是否能够火爆

模型:二分类问题(火爆视频or不火爆视频)

该方案主要包含以下3个阶段:

(1)爆款视频特征选择:选取了播放率,播放完成率,点赞率为特征,通过求和,归一化后,对总比率值进行由小到大的排序。

(2)训练集标签:从中选取出前1000个视频作为火爆视频标记为1,后1000个视频为不火爆视频标记为0,按照7:3划分训练集和测试集。

(3)模型选择:选取逻辑回归进行训练,最终ROC为0.82,能够实现项目需求。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容