n-gram模型:在自然语言里有一个模型叫做n-gram,表示文字或语言中的n个连续的单词组成序列。在进行自然语言分析时,使用n-gram或者寻找常用词组,可以很容易的把一句话分解成若干个文字片段。摘自Python网络数据采集[RyanMitchell著]。
1.string.punctuation获取所有标点符号,和strip搭配使用
2.operator.itemgetter()operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号)
3.n-gram在模型创建与分析中实现:
1).作为基本过滤器对文本数据进行过滤,获得本文字中出现频率不低于3次的2-gram序列
2).对获取的文本文件进行数据清洗,如:移除转义字符(\n)、过滤Unicode字符等
3).将一个待处理的字符串分成单词序列,然后增加到n-gram模型里形成以每个单词开始的二元组
4.完成后的最终效果