这一本书首先将了什么是整洁的文本数据,那什么是整洁的文本数据呢?那就是矩阵的形式,一行一行,一列一列。原始的文本数据可能是一个句子就是一行。
但是做文本分的最基本的数据单元是什么,还是单词,那么就好需要将句子变成单词,这个包也提供了这个功能。
文本挖掘和自然语言处理一个非常核心的问题就是如何向量化文本。上面说到将文本转化为单词,但是这样就足够了吗?
衡量一个词有多重要,可以看她的tf,也就是词频,看这个词在文档里出现了多少次。但是一篇文档里出现次数很多的也不一定完全就重要,比如‘的’。
另外一个指标是idf,他衡量一个词的独特性,这个词很特别,只出现在某些文档里面。
合起来就是tf-idf,用这个技术去向量化文本。
tf-tdf是一个很好的向量化文本的方法,向量化文本之后可以做的一件事就是可以观察两个文本之间的相似性,或者单词之间的相似性,
n-gram是一个什么东西,我的理解就是捕获连在一起的单词数量,n等于2,就是查看两个连续的单词