提到舆情监测,无可避免的就是大数据,所以舆情分析实际上是从几个维度来看的。
基础层:数据维度,数据量大、范围广,筛选能力强。也就是时效性高、定位能力强。
业务层:理解客户需求,抓住分析目标,找准定位。
随着互联网数据量级规模的大幅度提升,从海量数据中定位是一件越来越难的事情。无论如何使用搜索技术、知识图谱技术、人工智能技术(主要是NLP),都很难逃离一个BUG,那就是技术对业务痛点的难以支持。这一点所有厂商都是且行且珍惜的,所以下面直接谈干货不再谈无聊的理论。
首先要分析客户需要的什么,大部分情况下表面上是个报告,实际上则大都有其他的想法,舆情产品经理需要揣摩客户真正的内心以及业务环境对他们的影响。比如面对企业,是领导出现负面新闻了,还是产品出现负面新闻了,客户只要分析报告然后安排公关公司处理,还是一条龙服务?负面公关压制、SEO处理、发文洗白?这对应的是很多种分析方法,是截止到目前时间点的一次性报告?还是持续追踪?还是要在结尾明确给出可执行的处置方案?
如果是政府组织客户会想要什么?(我就不在此阐述了)如果不是负面公关事件,而是营销活动要分析什么?整个舆情事件是需要数据多一些,还是要把前因后果、各种脉络摸清,像讲故事一样写成报告给客户?
当把这些问题尽量问清楚或搞清楚以后,有很多疑问就可以解决了。真正的分析,或者掏钱多的分析,是一定要加入人工分析的维度的,这也是为什么舆情分析师的岗位一直有存在的价值,而不是被机器完全自动化替代。
分析的时候,要从事件本身的发展脉络维度、网络传播数据的维度、社会影响以及网民观点的几个维度来分析。真实分析的时候,需要注意数据的假象问题,这部分技术角度来说可以处理,但是大部分舆情产品由于算力问题都没能力解决。
比如,如果我们发现了一个舆情事件,所有的舆情系统目前主要的定位方式就是关键词组合。从语言学角度来说,一个事件的定义是主题词+地点+特定称呼或形容词+人物+公司或组织,但是这对NLP的技术要求很高,地名有通用列表,但是别名以及地域上下级关系需要自动发现+人工标注方法来提高识别准确率;而人名则必须是训练出一个基于AI技术的识别模型,不管是用深度学习还是别的技术;机构和组织名除了可以用已有的库以外,还需要训练识别模型。当这些关键的实体能被识别出来以后,一篇文章的大部分关键要素就会被识别出来,但是描述关系仍然需要通过句法识别以及词性标注来优化,还需要新词发现系统来发现一些特殊的描述,尤其是网民会对某个特殊事件起特定“外号”。
综上所述,一个合格的NLP系统会把一篇文章以上要素和结构都识别出来,然后再做一些高阶处理,比如这篇文章出现了多个地名,那么到底这个文章说的是哪个地域的?需要算法识别出来核心地域,而且该地域是范围,如果检索关联文章的时候,要发现该地域范围内所有的文章,而不是只盯着某个地名,比如我们要找的是北京市的某事件,但是实际上发生地是朝阳区,甚至是某个小区,这个关联关系也要发现。除此之外,人物在文中的职位描述、地域描述、形容词以及和其他人的句法描述关系,也都可以提取出来,形成网状结构,其实这就是知识图谱的雏形。
所以舆情监测的高级阶段肯定是知识图谱化的,分析角度和维度也可以更自由,比如可以很快发现特殊的网民观点、特殊的人物关联关系等等。