文本特征提取

文本特征提取

文本特征提取:

  • 将文本数据转化成特征向量的过程
  • 比较常用的文本特征表示法为词袋法

词袋法:

  • 不考虑词语的出现顺序,每个出现过的单词单独作为一列特征
  • 这些不重复的特征词汇集合为词表
  • 每一个文本可以在很长的词汇表上统计处一个很多列的特征向量
  • 如果每个文本都出现的词汇,一般被标记为停用词不计入特征向量

两个API:

  • Countvectorizer:
    • 只考虑词汇在文本中出现的频率
  • TfidfVectorizer:
    • 除了考量某些词汇在文本中出现的频率,还关注包含这个词汇的所有文本的数量
    • 能够消减高频没有意义的词带来的影响

相比之下,文本条目越多,Tfidf的效果越明显

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容