jiaba关键词提取提速策略&基于word2vec的关键词提取方法&python中文编码问题&人人网的关键词提取策略

1.jieba关键词提取提速

https://www.jianshu.com/p/450b84a07d3b
之前需要提取关键词,所以介绍了jieba关键词提取,这可能是最简单的提取关键词的方法了,此种方法代码少,(只有两行)但是速度非常慢,(实际上提取效果也很一般)对于大量文本的提取关键词效率太低,想要提速,那么就放弃使用结巴,转而利用sklearn自带tfidf来提取关键词。
大致流程如下:
1.先用读入文本然后用结巴分词切词。
2.降噪(只保留长度大于等于2的中文词,去除停用词)
3.使用sklearn中的计算各个词的tf-idf值。
4.对关键词按照其tf-idf的值从大到小排序。
5.取出表中前100个词。

用这个方法速度会比jieba自带的关键词提取至少快几十倍,而且这中间的分词部分还能使用jieba并行切词,分四核进一步提速以后能够快上百倍。
代码如下:


jieba.enable_parallel(4)

from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer

#简体可以使用encoding = 'utf-8',繁体需要使用encoding='gbk'
stopwords = [line.strip() for line in open('stopwords_fan.txt', 'r', encoding='gbk').readlines()] 
X,Y = ['\u4e00','\u9fa5']

#2.用sklearn的tfidf提取关键词
#2.1把文章全部合并再计算tfidf再提取关键词语 
#因为tfidf不止需要计算词频(tf)还需要求逆文档频率(idf),
#TF表示词条d在该文档中出现的频率。
#IDF的主要思想是:如果除去本文档包含词条t的文档越少,
#也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。
#具体计算公式见前一篇jieba分词博客的介绍部分。
#那么我们把所有文档合并,即总文档数为1,这样计算出来IDF值会偏大,很可能失去意义。
#Running time1: 4.5165 Seconds (不开启并行)
#此法提取一百个关键词的结果最终和jieba自带的分词结果重合度超过65%
tag = jieba.lcut(content.strip(),cut_all = False)
tag = [ i for i in tag if len(i) >= 2 and X<=i<=Y and i not in stopwords ]
tag_str = [' '.join(tag)]

vectorizer = CountVectorizer()
cif = vectorizer.fit_transform(tag_str)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(cif )
word = vectorizer.get_feature_names()#得到所有切词以后的去重结果列表
word = np.array(word) #把词语列表转化为array数组形式 
weight = tfidf.toarray()#将tf-idf矩阵抽取出来
word_index = np.argsort(-weight)
word = word[word_index]#把word数组按照tfidf从大到小排序
tags = []
for i in range(100):
    tags.append(word[0][i])
    
##2.2分开所有文章做为语料,再计算总文章的tf-idf
#这样计算就是原生tfidf值所表达的意义
#
#Running time1: 5.256 Seconds (不开启并行)
'''
tag = []
corpus_list = []
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
for i in range(len(list_content)):
    each_tag = jieba.lcut(list_content[i].strip(),cut_all = False)
    each_tag = [ i for i in each_tag if len(i) >= 2 and X<=i<=Y and i not in stopwords ]
    tag.append(each_tag)
    corpus_list.append([' '.join(tag[i])])

alltag_str = [y for x in corpus_list for y in x]
Alltag_str = ''
for i in range(len(list_content)):
    Alltag_str = Alltag_str + ' ' + alltag_str[i]
alltag_str = [Alltag_str]
corpus_list.append(alltag_str)

corpus = []
for i in range(len(corpus_list)):
    each_content_str = ''.join(corpus_list[i])
    corpus.append(each_content_str)

tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))
word=vectorizer.get_feature_names()
weight=tfidf.toarray()
word = np.array(word) #把词语列表转化为array数组形式 
weight = tfidf.toarray()#将tf-idf矩阵抽取出来
word_index = np.argsort(-weight)
word = word[word_index]#把word数组按照tfidf从大到小排序
tags = []
for i in range(100):
    tags.append(word[len(word)-1][i])
'''
t3 = time.time()
print (t3-t2)

两种方法速度都能比jieba的关键词提取快几十倍到上百倍(但是结巴的关键词提取可以抽取词性,可以把很多不需要的词性的词去除),我们比较提取前100个关键词的结果,第一种方法经过测试和jieba原生的关键词重合度为66%,第二种重合度为55%。

2.基于word2vec的关键词提取

通常我们在使用word2vec的时候都是使用Gensim库下的word2vec。如果了解word2vec特性我们就知道如果在单篇文章中使用word2vec来提取关键词效果肯定是不好的,例如我们可以试着对得到的词向量用k-means聚类出几个簇,把簇中心附近的词作为关键词提取出来看看效果。
在网上看到了一个已经使用大量语料训练好的中文word2vec模型,我试着用他们的方法加载这个模型提取关键词,对比原文,发现关键词的效果还不错。
模型下载链接: https://pan.baidu.com/s/1cL_KZA-j_b5i_Lvq79FjLw 密码: fyez

import numpy as np
import gensim
model = gensim.models.word2vec.Word2Vec.load('word2vec_wx')

#此函数计算某词对于模型中各个词的转移概率p(wk|wi)
def predict_proba(oword, iword):
    #获取输入词的词向量
    iword_vec = model[iword]
    #获取保存权重的词的词库
    oword = model.wv.vocab[oword]
    oword_l = model.trainables.syn1[oword.point].T
    dot = np.dot(iword_vec, oword_l)
    lprob = -sum(np.logaddexp(0, -dot) + oword.code*dot) 
    return lprob

#各个词对于某词wi转移概率的乘积即为p(content|wi),
#如果p(content|wi)越大就说明在出现wi这个词的条件下,此内容概率越大,
#那么把所有词的p(content|wi)按照大小降序排列,越靠前的词就越重要,越应该看成是本文的关键词。

from collections import Counter
def keywords(s):
    #抽出s中和与训练的model重叠的词
    s = [w for w in s if w in model]
    ws = {w:sum([predict_proba(u, w) for u in s]) for w in s}
    return Counter(ws).most_common()

import pandas as pd
import jieba
#这里我们随便去弄一篇微博
#之前说过使用word2vec不需要去除停用词

w1 = u'美对华商品将大规模加征关税 我驻美大使:奉陪到底。当地时间22日,美国总统特朗普宣布将对从中国进口的商品大规模征收关税,涉税商品达600亿美元。我驻美大使崔天凯回应:中国从来不想与任何国家进行贸易战,但若其他国家非要对中国施加贸易战,中国一定会予以还击、奉陪到底。'
x = pd.Series(keywords(jieba.cut(w1)))
#输出最重要的前13个词
print (x[0:13])

前13个关键词

3.python中文编码问题

錯誤:AttributeError: 'str' object has no attribute 'decode'
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。
有时python3会报错:AttributeError: 'str' object has no attribute 'decode'
因为python3里str默认为 unicode 了。只能编码 encode 不能解码 decode。

fo = open("nlp.txt", "wb+")
str = '中文'
str = str.encode('utf-8')
fo.write(str)
fo.close()

Python 读写文件 中文乱码
需要使用utf-8來編碼
str = str.encode('utf-8')
錯誤:TypeError: write() argument must be str, not bytes+
打开语句修改为用二进制方式打开

附:
读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式

如:'rb','wb','r+b'等等

读写模式的类型有:

rU 或 Ua 以读方式打开, 同时提供通用换行符支持 (PEP 278)
w 以写方式打开,
a 以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+ 以读写模式打开
w+ 以读写模式打开 (参见 w )
a+ 以读写模式打开 (参见 a )
rb 以二进制读模式打开
wb 以二进制写模式打开 (参见 w )
ab 以二进制追加模式打开 (参见 a )
rb+ 以二进制读写模式打开 (参见 r+ )
wb+ 以二进制读写模式打开 (参见 w+ )
ab+ 以二进制读写模式打开 (参见 a+ )

錯誤:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 2: invalid continuation byte
出現這種錯誤說明需要漢字解碼方式,汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5,測試了一下Big5也會報類似的錯誤。

#需要把
fo = open("nlp.txt", "wb+")
#改為
fo = open("nlp.txt", "wb+",encoding='GB2312')
#或者
fo = open("nlp.txt", "wb+",encoding='GBK')

錯誤:UnicodeDecodeError: 'gbk' codec can't decode byte 0x91 in position 8: illegal multibyte sequence

解决办法1.

#文本為中文選用第一種方法
fo = open("nlp.txt",'r', encoding='UTF-8')

解决办法2.

fo = open("nlp.txt",'rb')

后来找到了解决中文乱码的通用方法,python2X3X皆可

import codecs
with codecs.open('h.csv', 'rb', 'gb2312') as csvfile:
    for line in csvfile:
        print line

4.人人网关键词提取策略

下面的部分转自:http://ugc.renren.com/2010/02/01/keywords-extraction-overview/

基于词频(TF-IDF)统计的方法

思想:常用TFIDF计算文本特征权重,权重高的为关键词,该方法简单,效果也不错。

在实际操作中常会对文本进行聚类处理,计算文本特征权重后,先对文本向量(在聚类操作中,常用文本的句子做为向量单位)利用余弦定理计算文本相似度或距离,然后通过聚类算法,将相似文本聚类。最后在各文本类中选择关键词,合并得出最终结果。这样先通过文本相似度聚类,提高了关键词准确率。

TFIDF:TF(term frequency)为特征在文本中出现频率,IDF(inverse document frequency)文档中出现该词的频率log(D/Dw),该公式的思想是:特征权重除了和出现频率成正比外,还和文档频率成反比(如果只有文本中包含该特征,则认为该特征更能体现文本的专有特性)。

特征权重=TF*IDF。

特征权重计算方法还有:用于VSM的信息熵算法,基于增益的对TFIDF改进算法算法等。

该方法常结合聚类算法一同使用。

基于词语共现图提取方法

思想:文本中两个特征经常共现在文本的同一段落,则认为两个特征在意义上是相互关联的,共现概率越高,关联越紧密。

由此计算每个特征节点重要性,即与其他特征同现指数连乘,选取最重要的节点作为关键词。

其中最简单的特征同现指数可以用两个特征同现频率表示。

该方法在小规模文本集时并不能很好的反映特征间的关系。

因此文本集的大小会影响算法的稳定性和准确性。

基于词语网络的方法

思想:它是词语共现图的发展,因此与同现图类似,每个特征为网络中的节点,网络的边表示特征间的关系,不同的是该算法引入了图论的模型及算法。

首先要提到最小世界网络(Small-World-Network)这个概念:具有高聚类系数,且平均路径长度短的网络。

其中图的聚类系数为所有节点的(实际边数/最多可能边数)和平均值;
图的平均路径长度即:网络图中,任意两个节点间最短路径边数的平均值。

这种网络和我们以人为节点,人与人之间关系为边,构成的现实世界具有同样的特性:聚类系数高,平均路径短。同理,该模型适用于词语网络。下图为SWN的模型图
在该网络中,特征即为节点,边表示除了前面说的特征同现频率外,还有jaccard系数等计算方法。网络图构建完成后,提取关键词工作即转换为对关键节点的选择。而由于我们认为词语网络是适用于SWN模型的,那关键节点即为影响SWN性质的节点。在现实世界网络中,就相当于去寻找影响社会发展的人,一个公司中的关键人物一样。
通常寻找关键节点的方法有两种,一是直接衡量节点的属性值来判断节点的重要程度,如节点的度(节点到其他节点距离和的倒数)、节点中介性指标(Betweenness Centrality:其他节点间最短路径 经过该节点的概率)等。另一种是通过衡量删除节点后,对SWN性质的破坏程度,即衡量删除节点后聚类系数和平均路径长度的变化,决定该节点的重要度。

References:

[1]http://ugc.renren.com/2010/02/01/keywords-extraction-overview/
[2]https://radimrehurek.com/gensim/models/word2vec.html
[3]https://kexue.fm/archives/4304
[4]https://spaces.ac.cn/archives/4316

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容