现今流行的热点事件识别,其实更多的关注如何在海量的内容中去发现一个热点事件。这里面既包含了对于实体事件的提取,也包含的类似摘要的信息挖掘,再配上用户行为的反馈。
什么是热点事件?
热点事件普遍是指在社会(或者某些领域)中引起广泛关注、参与讨论、激起民众情绪,引发强烈反响的事件,通俗点说就是被很多人熟知且讨论的事件。
热点事件对于新闻推荐系统的意义?
推荐系统的目的,在于分发用户感兴趣的新闻。但是热点是一个不同于普通新闻的数据,即使一人并不对娱乐新闻感兴趣,但是当马蓉和王宝强的这种爆炸新闻出现的时候,他也会去关注,去看上一看。一个是这源于人对于爆炸性新闻的好奇心,一个是出于在我们这种世俗社会中,对于谈资的积累需求。
所以,当热点事件来临的时候,可以降低对于垂直兴趣的追求,热点本身,就可以看作是一种兴趣。
对热点内容的分发,可以体现一个推荐系统的媒体属性,也可以增强推荐的新颖度,防止兴趣收敛。
什么是热点事件识别?
通俗点说,就是及时发现一个热点,并能找出或者写出热点相关的文章,并分发给用户。
为什么要进行热点事件识别?
对热点的追踪和敏感度,是反应一个媒体的媒体属性是否强烈的标准之一。一个优秀的媒体,必然会对热点有足够的敏感度,能够及时的发现热点,迅速的报道热点,并对热点内容提出有价值的深度跟踪,以满足新闻用户对于热点的关注。
所以,在机器时代,如何在海量的数据中找到热点事件并及时推送给用户也成了一个很大的挑战。
如果能够非常有前瞻性的发现热点,并及时推送给用户,引起用户的关注和广泛的传播,就能够把握互联网中的大量流量,从而为app带来更多的收益。
目前效果较好的热点事件发现技术:
1.基于传播的热点事件发现
简单来说,就是通过监测信息在大规模人群中的传递情况,假如一个事件在一个时间段内迅速的由某些节点传递给了很多的节点,并呈现出指数级增长,那么可以发现到这个热点事件。
2.基于搜索的热点事件发现
这个是基于搜索引擎,应该也很好理解,在某段时间内,有越来越多的人群去搜索一个事件,导致该事件的搜索量激增,那也可以发现这个事件。
然而,很可惜,上面的两点我们都做不到。一个是我们没有用户的社交属性,不具备新闻的传播路径,二是我们缺乏用户的主动行为,虽然说有搜索接口,但是真正去搜索的用户是非常少量的。所以用上面的方法是不靠谱的。
当然,分析上面的本质,都是源于用户的反馈,能够较好的去发现。我们曾经尝试使用自己的数据去做这样的尝试,使用用户信息去监测有激增行为的新闻,再对这些新闻进行归类,找到可能的热点,然而这在技术上有很大的挑战,再一个是丧失了新闻的时效特征,尤其对于热点来说,一分一秒都是要争取的。这样的一轮计算下来,很可能是热点已经传播的十分广泛,其实对于我们新闻客户端来说,这时候再发现热点已经没有什么价值,流量都已经完成分发。
我们是如何解决热点事件问题?
1.获取热点事件
既然我们不能主动的提取热点事件,那就想办法去直接获取热点事件。第一点,就想到了不劳而获。既然基于搜索或者传播能够比较及时的获取热点事件,那我们就发扬一下拿来主义好了。网上其实有很多提供这种实时热点事件的地方,比如百度风云榜,微博热搜,搜狗热搜等等,还有很多,等你自己去发现把。
- a.抓取
定时去抓取这些词汇,这个应该不难了,只有非常有限的内容,只需要每隔一段事件去获取一下,跟上次的数据做一些对比,就能很快知道有哪些事件词或句子。这个方法简单易行,获取的热点数量多,但是可能效果就差一点,而且仍然会有一定的时延。 -
b.运营
需要有新闻敏感度的运营人员去手工添加,这个方法获取的热点数目较少,但是延迟几乎可以忽略。
这里,也会为热点事件构造一些属性,比如热点等级,热点时效,热点分类等等。
微博热搜榜
2.为文章打上热点事件标签
有了不断更新的事件库,还需要为每个新闻进行标注,它属不属于热点新闻,属于哪个热点的新闻。
如果热点词过长,首先需要对它进行分词。否则就按整个词去匹配。这时候就需要根据业务去构建一套匹配的逻辑,或者算法,来衡量一个热点事件与文章的匹配程度。当达到一定的阈值或者某些规则,就可以认为这两个是匹配的。
3.构建热点事件模型库,提升匹配度
由于上述直接获取的热点词有比较大的局限性,比如对于同一事件,不同的人表达方法是不一样的,单纯使用一个热点词的泛化能力较弱。所以有了一些对应的文章,那可以着手来构建热点事件模型了。这里简单来说一下,假如有事件A,已知跟A匹配的文章1,2,3。从1,2,3中提取最重要的前n个关键词,去汇集成A的模型,可以使用简单的连乘来设为匹配度,这样做的目的是去扩充相关内容,让更多接近的文章能够获得热点事件标签。
4.把热点事件文章分发给用户
有了热点事件,和对应的文章,下一步就是在推荐层面增加对热点事件的召回概率。基于之前所说的假设,热点本身就是一个兴趣,那么一个热点事件的热度等级会影响分发面积。同时,热点事件和分类的交叉特征会影响一个用户是否会收到热点的情况。
5.用户的反馈和用户画像调整
当带有热点事件的新闻被分发出去,用户会点击,打开观看,或者直接掠过。此时可以针对用户的行为进行分析,如果用户从来不看热点新闻,那他的画像关于热点的特征将很低。根据给他曝光的热点新闻和他的打开情况,会有计算他对于热点事件的关注度。同时,会记录他喜欢哪些热点事件,在后续的热点分发时,还可以去计算新热点事件和旧热点的协同情况,用以更精准的分发。