nlp学习笔记-task3

学习目标

  • 学会TF-IDF的原理和使用
  • 使用sklearn的机器学习模型完成文本分类

文本表示方法

One-hot

将每一个单词使用一个离散的向量表示

Bag of Words

词袋表示, 也称为Count Vectors, 每个文档的字/词可以使用其出现次数来表示

N-gram

对比Bag of Words加入了相邻单词组成新的单词, n代表相邻几个单词组成新的单词

TF-IDF

TF 词语频率(Term Frequency) TF = 该词语在当前文档出现的次数 / 当前文章中词语的总数

IDF = log e(文档总数 / 出现该词语的文档总数)

用于评估一个字词对于一个文件集或一个语料库的其中一份文件的重要程度. 粗略的理解就是, 一个词只在一个文本集合中出现频率高未必重要, 还要看在整个文本库的出现频率.

课后实操

截屏2020-07-25 下午11.49.55.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容