中文分词、去停用词、发现新词

NLP涵盖的内容较多,分词是基础,特别是对中文来说。

中文分词

目前使用过snownlp、jieba,简单对比下,jieba的默认模识更好用,snownlp分的过细了。 不过相对jieba分词,snownlp 的主要用途应该在于情感评分,在处理电商评论的评分时效果还可以。

# snownlp 分词
for item in df_rate:
    s = SnowNLP(item)
    print(s.words)

#jieba分词
for item in df_rate:
    print("  ".join(jieba.cut(item)))

结果对比

snownlp
['给', '个', '全', '五', '分', '好评', ',', '一直', '在', '这里', '买', '这个', '奶粉', '。']
['奶粉', '宝贝', '吃', '的', '挺', '好']
['一直', '这个', '牌子', ',', '宝贝', '爱', '喝', ',', '好评']
['比', '实体', '店', '便宜', '两', '块', '钱', '!', '但是', '味道', '好', '像', '不', '太', '一样', '!!']

jieba
给 个 全 五分 好评 , 一直 在 这里 买 这个 奶粉 。
奶粉 宝贝 吃 的 挺 好
一直 这个 牌子 , 宝贝 爱喝 , 好评
比 实体店 便宜 两块钱 ! 但是 味道 好像 不太 一样 ! !

jieba分词的优势比较明显,“词”保留的很好。

去停用词

关键在于停用词表的维护。有了停用词表,实际使用时,在分词之后,若分词结果中包含停用词则直接剔掉。

目前网上停用词表较多,哈工大停用词表、百度停用词表等均较常见。

但针对具体业务,可以按业务需要,专门整理对业务无帮助或无意义的词。甚至停用“句”——如针对电商的“此用户没有发表评论。”

发现新词

jieba分词本身是带有发现新词算法的,有机会再深究。

另外,jieba也支持导入自定义词库。

  • 暴力拆分
    其实就是统计重复片段的出现频次。
    之前用sas做过一次搜索语的暴力拆分,按照两字词、三字词、四字词等去提取高频片段,效果有,特别是出现频次高的,但这个程度不好把握,还会出现截取的现象,比如“陕西省”,其中的“西省”也会出现在两字词高频片段中。

  • 凝固度
    凝固度:一个片段出现的频率比左右两部分分别出现的频率的乘积高出多少倍。
    凝固度的思想是:如果片段实际出现的概率比被随机组合出来的概率高出很多倍,就说明这样的组合应该不是意外产生的,而是有一些关联的。这个关联很可能就是因为这个片段是一个不可分割的整体,也就是单词。

  • 自由度
    凝固度仍有可能出现非完整词的情况(陕西省被拆出 ‘西省’).
    自由度用来描述一个片段相邻字的多样、不固定性,若自由度较低,该词很可能是一个完整词的片段(即相邻字比较固定,很可能加上相邻字才是完整词),反之自由度高,则本身是词的概率较高。

凝固度、自由度参考自 用 Python 分析《红楼梦》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容