每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。比如游戏运营人员经常需要观察游戏事件(如活动、新英雄、新版本)在玩家中的反响和口碑。WeTest舆情针对游戏领域,玩家在各个数据渠道、社交媒体上的评论进行分析,对玩家关于游戏的各个维度评论进行聚类,便于游戏运营人员快速准确的发现问题、评价活动的玩家口碑和事件分析等。
在我们的口碑分析过程中,需要依赖大量的情感词库,但是展示给用户的时候,我们要把同类情感作为一个主题展示。传统的bag of words中,每个词只是向量空间的一个点,彼此间不具有相关性。为此我们采用了word embedding方式将词转化
游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料,具有稀疏性高、随意性强的特点。如果直接利用传统方法进行语料聚类来挖掘维度,效果很差。我们基于paragraph2vec算法,将待聚类语料和历史大量无标注语料统一进行训练,得到每条语料的句向量,然后选出其中待分类语料的句向量进行聚类。在待分类样本数较少时,该方法可以显著扩展语料的语义特征,使得聚类结果更加理想。
在此之前,尝试了很多方案对手头语料进行聚类,包括Kmeans,AP,DBScan等,但是由于短文本的特点,效果一直不理想(很多语义相似的词由于没有字面上的交集,无法聚集到一起),也尝试过用LDA抽取主题特征,但是能够表示的隐语义空间也很有限,并不适用于随意性特别强的不规范短文本。后来听过一次关于DeepLearning在NLP领域的应用,期间提到了一个影响业界的Word2Vec算法,才知道了有word embedding这种特征可以解决这一问题,并且计算效率完全可以接受。尝试以后发现效果非常好,进一步研究了扩展到句子级别的paragraph2vec,并且通过思考解决了paragraph2vec只能对目标集提取特征的限制(用参考级+目标集一起提取特征,但仅使用目标集的特征作为后续算法输入)
整体数据流程如下,其中最终的口碑分析是依赖维度+情感词库结合句法分析和规则库进行的,而维度库和情感词库的产生依赖于聚类+人工。这里聚类采用的即是上文提到的word2vec和paragraph2vec特征。
游戏风向标目前主要是游戏各个维度下用户正负口碑的罗列,这有利于游戏运营人员发现问题,了解活动、事件的各个方面的口碑。后续我们会进一步增加各个维度下口碑随着事件的变化趋势、本游戏与竞品在各个口碑下的对比、整个游戏行业里各个游戏的口碑整体评价排行等功能,帮助游戏团队各个环节的人员更好进行决策和分析。