文本分析-关键词提取

1.概念理解:
词频(TF):指某一个给定词在该文档出现的次数
逆文档频率(IDF):IDF指每个词的权重,他的大小和词的常见程度成反比
TF-IDF:权衡某个分词是否是关键词指标,该值越大,是关键词的可能性越大。
计算公式:TF-IDF=TF*IDF,其中,IDF=log(文档总数/包含该词的文档数+1)

2.提取关键词python包:jieba.analyse.extract_tags(content.tooK=n)
.content:文章内容
.提取n个关键词

案例代码:

import os,codecs,pandas
import jieba.analyse
#创建一个数据框存储数据
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夹路径'):
      for name in files:
            filepath=root+'/'+name
            f=codecs.open(filepath,'r','utf-8')
            content=f.read()
            f.close()
            tags=jieba.analyse.extract_tags(content,topK=4)
            tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]
代码输出结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 6,175评论 1 8
  • 词频统计 - 语料库的构建 遍历路径下的所有文件和子目录 os.walk() 读取目录及其所有子目录 root —...
    WesleyLien阅读 1,756评论 0 3
  • 关键词:windows平台下jieba安装、三种模式比较、自定义词典、停用词语料、词频统计、词云生成 jieba简...
    秋灯锁忆阅读 4,502评论 0 2
  • 用TF-IDF算法提取关键词 假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又...
    Shira0905阅读 3,711评论 0 5
  • 茶馆开张逢五四, 惠风和畅是吉日。 高僧教授传真经, 少长群贤齐聚集。 馆主殷勤宴客宾, 更有娇妹展茶艺。 休闲会...
    大尾巴狗阅读 287评论 0 0