数据分析小白笔记（一）

数据分析小白笔记

1、文本分词


import jieba

s = "中国新闻网8677条新闻"

cut = jieba.lcut(s)

print(cut)

2、去停用词

下载停用词库


import jieba

stop_words = []

s = "中国0新闻网不问8677条新闻"

def load_stop_words(path = 'stop_words.txt'):
    with open(path,'r') as f:
        for line in f:
            content = line.strip()
            stop_words.append(content)


load_stop_words()
lcut = jieba.lcut(s)
cut = [x for x in lcut if x not in stop_words]
print(cut)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

R文本分析（一）
Part1安装依赖包 http://blog.csdn.net/cl1143015961/article/deta...
小豆角lch阅读 10,614评论 2赞 11
NLP常用专业术语
常用概念：自然语言处理（NLP）数据挖掘推荐算法用户画像知识图谱信息检索文本分类常用技术：词级别...
御风之星阅读 13,262评论 1赞 25

[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,599评论 10赞 200
利用Python实现中文情感极性分析
情感极性分析，即情感分类，对带有主观情感色彩的文本进行分析、归纳。情感极性分析主要有两种分类方法：基于情感知识的方...
atLee阅读 22,370评论 18赞 32
你为什么要跟爸爸睡一起
你有被孩子这样问过吗？昨晚回家的公交车格外拥挤我跟岩岩挤在车头聊天岩: 大学是不是有宿舍，爸爸说他们大学宿舍...
花读阅读 4,053评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文