一口气下了五六篇英文文献和一二十篇中文文献,够一个多月慢慢啃下来的了。
今天时间不太多,所以先简单地整理一下思路。
舆情分析的交叉学科特征
一直以为这个舆情研究方向和心理学的相关度大于和计算机的相关度。但是稍加了解之后就发现:如果没有心理学的相关知识照样是能做出来一个在现在的研究环境下还不错的舆情分析系统;而如果没有计算机知识,所有的舆情分析都是没有依据的空谈。
浙江大学的一篇博士毕业论文中引述了这么一个数据:
学科分布中竟然没有看见计算机科学的影子,实在令人费解,因为除了这篇文献,我找到的文献大多都是以计算机科学为基础的。
也就是说,他们明知道计算机科学在网络舆情中“支撑技术”和舆情系统“应用”的地位,却没有在学科分布中重视“计算机科学”这一领域,没有真正地将社会科学研究和计算机科学紧密地联系在一起,所谓搞计算机的和搞社科分析的人还在走着两条路。
上学期天津大学一位教授来我们学校开大数据研究讲座的时候,也说的全都是数据结构、硬盘读写和框架的技术问题。
所以从宏观上来说,数据挖掘里将人文社科和自然科学结合在一起是现阶段研究的问题和突破口之一。就像《模仿游戏》里,图灵他们最终将破解机器效率大幅提高,不仅仅是通过所谓对角线的机械效率,更是通过对现实中密报中都有“Heil Hitler”这个“社科规律”来最终达到短期之内获得加密设定的。
没有了社会科学的帮助,自然科学要在实际生活中发挥作用就像被捆住了手脚;而没有自然科学的严密性和实证性,社会科学在现实生活中的应用也只能成为务虚的空谈,尤其是在这个信息科技发展如此迅猛、信息量如此庞大的年代。
网络舆情研究到底要解决哪些问题
首先,要确定研究的属性
网络舆情研究既要定性又要定量,定性是要研究网络舆情情感、影响的正面/负面效应,而且这个效应还应该是多维的,不应该是一维的,那么这个问题和算法的复杂度就急剧上升了。定量是要研究网络舆情的影响力和影响范围,这样是个二维的问题。
上述研究中可以考虑自然语言分析、向量机、聚类分析等技术。
其次,要确定研究的序列与关联
舆情有扩散的社会学效应,一个好的舆情分析系统一定是个动态的过程。其中包含舆情的起源、发展、扩散的时间序列性质,以及传播、影响的关联性质。这个研究过程和社会实例是离不开的。
最后,要赋予其高效性和检测性
网络舆情研究不仅要实现分析功能,更要根据社会研究需求实现一个低资源占用的实时检测系统,因此与上述两个过程的准确度为先不同,这种分析系统的针对性较弱但实时性和覆盖面要更广。
That's all for today. See you tomorrow.
Kevin Ham@Fuyang
Department of Internet Engineering, Anhui Normal University, Wuhu, China
2.28.2015