1月11日,今日头条召开算法分享大会,资深算法架构师曹欢欢博士表示,算法分发并非是把所有决策都交给机器,会不断纠偏,设计、监督并管理算法模型。
此次大会以《让算法公开透明》为主题,在分享中,曹欢欢介绍了今日头条推荐算法的基本原理,包括算法模型设计维度与策略,其中重点讲解了如何在线训练大规模推荐模型,典型召回策略的设计方法,多目标如何融合等问题。
此外,今日头条的内容安全机制及相关举措,风险内容识别技术以及泛低质内容识别技术等,曹欢欢都向现场嘉宾做了讲解。
一、何为算法?
据媒媒哒君查阅消息得知,算法:就是定义良好的计算过程,取一个或一组的值为输入,并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤,用来将输入数据转化成输出结果,就称为算法。
今日头条资深算法架构师曹欢欢
在算法过程中,基于效果来看,还需要解决相关性特征、环境特征、热度特征和协同特征。
而相关性特征,主要解决内容和用户的匹配。环境特征,解决基础特征和匹配。热度特征,在冷启动上很有效。协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。
二、在算法运作时要考虑的内容都那些呢?
在算法过程中,都有一个系统的流程,要考虑的内容也就更多,问题就会复杂化。在今日头条分享大会中,曹欢欢也讲到了这个问题,他讲到今日头条在算法过程中也考虑了以下几点:
(1)过滤噪声:过滤停留时间比较短的点击量,打击标题党;
(2)惩罚热点:用户在热门文章上的动作做降权处理;
(3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;
(4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;
(5)考虑全局背景:考虑给定特征的人均点击比例。
今日头条副总编辑徐一龙表示,算法也是一种法,算法和法律法规一样,如果实行的好,都很高效,也都要求透明。
据悉,此次分享会嘉宾以阿里、腾讯、百度、美团、新浪、网易等主流科技公司的算法工程师和产品经理为主。今日头条方面称,算法原则上属于机密,但是希望与行业内人士一道应对未来的机遇和风险。
最后,据媒媒哒君了解,今日头条现在拥有健全的内容安全机制。除了人工审核团队,还有技术识别。包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术。
文/孙广聚 来源:媒媒哒