中文分词初体验

       这篇小文章主要是记录一下中文分词的一次小样本实验,实验数据来源于京东商城生鲜区火龙果的评价文本,抽取评价数据中的30条作为小样本进行实验,这30条数据包括正面评价和负面评价,既有关于商品质量的评价,又有关于价格和物流的评价。部分数据截图如下所示:

京东商城火龙果部分评价数据

       整个实验过程中输入和输出的数据都是以txt文本格式保存的,去除评价文本中重复的数据,然后利用开源工具ROSTCM6进行中文分词处理,结果如下所示:

分词结果

       实验中的分词结果是以制表符而不是“/”来分割的。分词之后,去除停顿词 ,进行词频统计,在实验中,我们并没有显示出所有词的频数,而是按词频进行降序排列,显示出排名在前300的词及其频数,词频统计结果的部分截图和其可视化标签如下所示:

词频统计结果
词频统计可视化标签

       在可视化的标签中,字体的大小与其频数成正比,也就是词语的频数越大,则在可视化标签中词语显示的字体就越大,从上面结果我们可以看出:“京东”、“水果”、“新鲜”、“快递”这4个词语的频数相对较高,京东和水果是两个命名实体,新鲜和快递可以看出,买家对于商品的质量和物流服务在购物过程中是很关心的两个要素。

       最后是对于评价文本进行情感分析,即判断评价的情感倾向。这里主要是计算情感得分来判断情感倾向,当情感得分大于0时,我们认定这条评价是正面评价;得分小于0时,为负面评价;得分等于0时,为中性评价。

情感分布统计结果

       在这30条的样本数据中,积极情绪占主要部分,中性和消极情绪所占比例相对较小,而且消极情绪中-20分以下的情况是没有发生的,这说明了客户对于京东商城苹果的评价还是不错的,客户满意度还是相对较高的。但是,这个情感的评价并不是十分的准确,我们举其中的一个例子来说明一下。

例:42      一共 买 了 9 个 其他 都 还 好 就是 有 一个 也 太 小 了 吧 看 着 根本 就 不 熟 感觉 都 没有 多少 果肉 要是 没有 这一 个 的 影响 就 很 完美

         3     货 收到 物流 快 满意

         9    全 五星 是 给 快递 哥 的 因为 五月 八 号 下午 六 至 八点 广州 特大 暴雨 还是 特快 送 到 了 非常 感谢 紫色 肉 很 甜

       上面的这3条数据是从正面情感结果中抽取的其中3条数据,前面的数值42、3和9是该条评论的情感得分,通过这3条数据我们可以很容易的看到第一条评论的客户并不是很满意,但是受到个别词语(如完美)的影响,其情感得分值较高,而后面两条评论的客户相对而言要比第一条评论满意,但是其情感得分却要远远小于第一条评价的情感得分。由此我们可以发现,单单只凭借情感词忽视整条评论的语义所得到的情感分析结果有待商榷,后面可以针对这样的情况,做出改进。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,167评论 1 25
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,904评论 25 707
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,818评论 3 24
  • 在逐渐步入DT(DataTechnology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来...
    chaaffff阅读 896评论 0 7
  • 阳光明媚 春暖花开 晒着太阳颤抖 像折翼的天使 怎么也捂不热的双手 再冷不过人心 再热不过童真 假装很快乐 连自己...
    小猪绒阅读 287评论 0 1