登录注册写文章

Udacity 数据分析进阶课程笔记L41：文本学习

Udacity 数据分析进阶课程笔记L41：文本学习

通过练习了解词袋及其属性：
- 无序
- 文本长度影响算法结果
- 对复合短语处理能力不足
在sklearn中的使用
- CountVecterizer即可理解为词袋

from sklearn.feature_exaction import CountVectorizer
vectorizer = CountVectorizer()
string1 = "some words ..."
string1 = "some another words ..."
string1 = "some more words ..."
words_list = [string1, string2, string3]
bag_of_words = vectorize.fit( words_list )
bag_of_words = vectorize.transform( words_list )

停止词stop words指文本中低信息量但出现频率很高的词，一般需要预先做剔除处理。
- 使用NLTK包处理停止词

>>> from nltk.corpus import stopwords
>>> import nltk
>>> nltk.download()  # For the first time use
>>> sw = stopwords.words("english")

词干化：一般先进行词干化，再进行词袋提取

from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("english")
stemmer.stem("responsiveness")
# u'respons'

由词频确定的权重Td-Idf

Tf-Idf Representation
文本学习迷你项目。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

文本学习
1. 学习文本时的维度 Learning from text很多线上数据都是文本数据，比如网页、邮件等文本学习的...
esskeetit阅读 5,859评论 0赞 0
Python 数据科学入门教程：NLTK
自然语言处理教程原文：Natural Language Process 译者：飞龙协议：CC BY-NC-SA...
布客飞龙阅读 33,248评论 6赞 68

利用Python实现中文文本关键词抽取的三种方法
文本关键词抽取，是对文本信息进行高度凝练的一种有效手段，通过3-5个词语准确概括文本的主题，帮助读者快速理解文本信...
atLee阅读 22,494评论 8赞 46
==后端基础设施
谈谈互联网后端基础设施 - 后端技术杂谈 | 飒然Hanghttp://www.rowkey.me/blog/20...
葡萄喃喃呓语阅读 2,299评论 0赞 0
我的时间管理日志
大家好，我是57号学员Melon.很高兴有这样的机会做一次自己的分享，希望我的分享能给大家一点帮助。我用的是英雄之...
幻想家Melon阅读 3,538评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文