先来学习以下如何使用jieba包来提取中文文本关键字信息。
导入库and读取数据
import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv("your data path", encoding='utf-8')
df = df.dropna()
#content是str,"".join语句可以拼接字符串
content = "".join(df.content.values)
#我们来看看这个包怎么用
help("jieba.analyse")
本身是list形式,我们转化成str输出
top_tfidf = " ".join(analyse.extract_tags(content, topK=30, withWeight=False))
TF_IDF方法
#sentence 为待提取的文本
#topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
#withWeight 为是否一并返回关键词权重值,默认值为 False
#allowPOS 仅包括指定词性的词,默认值为空,即不筛选
import time
start = time.time()
print (" ".join(analyse.extract_tags(content, topK=30, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)
这里我们顺便算了个时间
用户 互联网 手机 平台 人工智能 百度 智能 技术 数据 服务 直播 产品 企业 视频 移动 应用 网络 行业 游戏 机器人 电商 内容 中国 领域 发展 创新 科技 提供 微信 市场
98.06722927093506
TextRank算法
#默认过滤词性,n名词,v动词
start = time.time()
print (" ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)
用户 技术 中国 手机 平台 数据 企业 互联网 服务 产品 发展 市场 智能 行业 公司 进行 成为 提供 内容 百度
105.31719899177551