用Py做文本分析1:文本分析概述

数据的范围远远不止数字,文本、图像、声音等都是数据。然而非数字类数据难以利用起来,但其本身包含着丰富的信息。难处理的原因在于很难做量化,即纳入数学分析框架难度大。

文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的,未知的,可能有用的信息被称为自然语言处理(NLP)。其可以被分为三个模块:

  1. 语料获取
  • 网络爬虫
  • 文本文件读入
  • 图片OCR识别
    ...
  1. 语料数据化
  • 分词
  • 信息处理
  • 文档-词条矩阵
  • 相关字典编制
  • 信息转换
    ...
  1. 语料挖掘
  • 词云
  • 关键词提取
  • 自动摘要
  • 文档聚类
  • 情感分析
  • 文章推荐
    ...

文本信息的层次:

  • 词条是否在文本中出现(基于词袋模型)
  • 词条间的内在联系(各种字典)
  • 词条的顺序(N-gram模型)
  • 语法信息(待探索区域)

传统的思路是基于字典,但存在结果主观,依赖于编制者经验等不足。现代的思路是基于统计模型,通过特征提取对语料进行各种可能的重编码和组合,尽肯能的将信息量化,然后使用模型对潜在信息进行提取建模。

在进行原始语料量化时要尽可能的保留有效信息。具体地,在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词,即剔除无意义的词,减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别,术语识别等。

参考资料:
Python数据分析--玩转文本挖掘

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文本向量化即将信息数值化,方便后续的建模分析。 1.词袋模型 词袋模型将文本直接简化为一系列词的集合,然后对此编号...
    凡有言说阅读 6,500评论 0 2
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,085评论 1 25
  • 1.关键词提取 关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。 针...
    凡有言说阅读 7,330评论 0 1
  • 系列文章综述 这个系列会包含两部分与金融数据处理有关的文章,第一部分分析数据,第二部分从已经分析的数据中进行信息提...
    吕不韦阅读 13,822评论 0 9
  • InnoDB体系架构 InnoDB的存储引擎体系结构如下图所示,从图中可知,InnoDB存储引擎有多个内存块,可以...
    Jerry_dong阅读 3,247评论 0 0