4.文本预处理

文本数据的基本体征提取

词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

平均字长(所有单词的长度然后除以每条推文单词的个数,即可作为平均词汇长度)

停用词数量

特殊字符数量(提取“#”和“@”符号的数量。这也有利于我们从文本数据中提取更多信息)

数字数量(数字数量是一个比较有用的特征)

大写字母数量

文本数据的基本预处理

小写转换

去除标点符号

去除停用词

去除频现词

去除稀疏词

拼写校正

分词(tokenization)

词干提取(stemming)

词形还原(lemmatization)

高级文本处理

N-grams语言模型

词频

逆文档频率

TF-IDF

词袋

情感分析

词嵌入

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。