2020-02-14:伯禹打卡笔记

伯禹 文本预处理课程学习

文本预处理

一般的文本预处理步骤:

分词(中英文不同,中文分词难度大一些,有一些分词工具:spaCy、NLTK、jieba等,还可以在分词之后去除停用词等,根据语料及使用场景决定)

词的向量表示(One-hot(资料中的词典),Word2Vec,可以参考https://www.cnblogs.com/MartinLwx/p/10005520.html

语言模型

文本可以看做一个词的序列,语言模型的目标就是评估该序列是否合理,也就是条件概率​来表示文本是否合理。

w为一个单词,P的计算可以用相对词频计算:

P(w_1|w_2)=\frac {n(w_1,w_2)}{n(w_1)}​

n元语法(n-gram)

当前单词的预测基于前面n个单词,例如当n=2时:

时序数据的采样问题

n>2时,n元语法存在大量重合样本,可以采用更加高效的采样方式:随机采样,相邻采样

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容