这篇小文章主要是记录一下中文分词的一次小样本实验,实验数据来源于京东商城生鲜区火龙果的评价文本,抽取评价数据中的30条作为小样本进行实验,这30条数据包括正面评价和负面评价,既有关于商品质量的评价,又有关于价格和物流的评价。部分数据截图如下所示:
整个实验过程中输入和输出的数据都是以txt文本格式保存的,去除评价文本中重复的数据,然后利用开源工具ROSTCM6进行中文分词处理,结果如下所示:
实验中的分词结果是以制表符而不是“/”来分割的。分词之后,去除停顿词 ,进行词频统计,在实验中,我们并没有显示出所有词的频数,而是按词频进行降序排列,显示出排名在前300的词及其频数,词频统计结果的部分截图和其可视化标签如下所示:
在可视化的标签中,字体的大小与其频数成正比,也就是词语的频数越大,则在可视化标签中词语显示的字体就越大,从上面结果我们可以看出:“京东”、“水果”、“新鲜”、“快递”这4个词语的频数相对较高,京东和水果是两个命名实体,新鲜和快递可以看出,买家对于商品的质量和物流服务在购物过程中是很关心的两个要素。
最后是对于评价文本进行情感分析,即判断评价的情感倾向。这里主要是计算情感得分来判断情感倾向,当情感得分大于0时,我们认定这条评价是正面评价;得分小于0时,为负面评价;得分等于0时,为中性评价。
在这30条的样本数据中,积极情绪占主要部分,中性和消极情绪所占比例相对较小,而且消极情绪中-20分以下的情况是没有发生的,这说明了客户对于京东商城苹果的评价还是不错的,客户满意度还是相对较高的。但是,这个情感的评价并不是十分的准确,我们举其中的一个例子来说明一下。
例:42 一共 买 了 9 个 其他 都 还 好 就是 有 一个 也 太 小 了 吧 看 着 根本 就 不 熟 感觉 都 没有 多少 果肉 要是 没有 这一 个 的 影响 就 很 完美
3 货 收到 物流 快 满意
9 全 五星 是 给 快递 哥 的 因为 五月 八 号 下午 六 至 八点 广州 特大 暴雨 还是 特快 送 到 了 非常 感谢 紫色 肉 很 甜
上面的这3条数据是从正面情感结果中抽取的其中3条数据,前面的数值42、3和9是该条评论的情感得分,通过这3条数据我们可以很容易的看到第一条评论的客户并不是很满意,但是受到个别词语(如完美)的影响,其情感得分值较高,而后面两条评论的客户相对而言要比第一条评论满意,但是其情感得分却要远远小于第一条评价的情感得分。由此我们可以发现,单单只凭借情感词忽视整条评论的语义所得到的情感分析结果有待商榷,后面可以针对这样的情况,做出改进。