12.28 (TFIDF,textrank法)找关键字

先来学习以下如何使用jieba包来提取中文文本关键字信息。

导入库and读取数据

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv("your data path", encoding='utf-8')
df = df.dropna()
#content是str,"".join语句可以拼接字符串
content = "".join(df.content.values)
#我们来看看这个包怎么用
help("jieba.analyse")

本身是list形式,我们转化成str输出

top_tfidf = "  ".join(analyse.extract_tags(content, topK=30, withWeight=False))

TF_IDF方法

#sentence 为待提取的文本
#topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
#withWeight 为是否一并返回关键词权重值,默认值为 False
#allowPOS 仅包括指定词性的词,默认值为空,即不筛选
import time
start = time.time()
print ("  ".join(analyse.extract_tags(content, topK=30, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)

这里我们顺便算了个时间

用户  互联网  手机  平台  人工智能  百度  智能  技术  数据  服务  直播  产品  企业  视频  移动  应用  网络  行业  游戏  机器人  电商  内容  中国  领域  发展  创新  科技  提供  微信  市场
98.06722927093506

TextRank算法

#默认过滤词性,n名词,v动词
start = time.time()
print ("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)
用户  技术  中国  手机  平台  数据  企业  互联网  服务  产品  发展  市场  智能  行业  公司  进行  成为  提供  内容  百度
105.31719899177551
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容