文本特征提取
文本特征提取:
- 将文本数据转化成特征向量的过程
- 比较常用的文本特征表示法为词袋法
词袋法:
- 不考虑词语的出现顺序,每个出现过的单词单独作为一列特征
- 这些不重复的特征词汇集合为词表
- 每一个文本可以在很长的词汇表上统计处一个很多列的特征向量
- 如果每个文本都出现的词汇,一般被标记为停用词不计入特征向量
两个API:
- Countvectorizer:
- 只考虑词汇在文本中出现的频率
- TfidfVectorizer:
- 除了考量某些词汇在文本中出现的频率,还关注包含这个词汇的所有文本的数量
- 能够消减高频没有意义的词带来的影响
相比之下,文本条目越多,Tfidf的效果越明显