登录注册写文章

不会写爬虫的快来Goose一下

大邓和他的python

不会写爬虫的快来Goose一下

今天遇到一个好玩的库，用来解析新闻类网页特别好用。基本上你不用分析网页，不用标签定位。

直接告诉脚本你想爬的url，goose就会将清理好的数据返回给你。

缺点是goose不支持python3，为此我特点装了python2.7尝试写今天这篇文章。

goose项目https://github.com/grangier/python-goose

直接上代码截图

1、新闻标题

2、新闻发布网址域名

3、新闻关键词

4、新闻摘要

5、新闻详情

提醒大家下，代码中

from goose.text import StopWordsChinese

大家还是去掉吧，要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。

更多内容

爬虫

【视频】手把手教你抓美女~

当爬虫遭遇验证码，怎么办

用词云图解读“于欢案”

【视频】于欢案之网民的意见（1）？

【视频】有了selenium，小白也可以自豪的说：“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

爬豆瓣电影名的小案例（附视频操作）

爬豆瓣电影名的小案例2（附视频操作）

python代理爬虫抓豆瓣电影数据（一）

python代理爬虫抓豆瓣电影数据(二)

用Python抓取百度地图里的店名，地址和联系方式

Python大法好：贴吧爬虫大法

文本分析

python居然有情感？？真的吗？？

基于共现发现人物关系的python实现

用python计算两文档相似度

神奇的python

怜香惜玉，我用python帮助办公室文秘

逆天的量化交易分析库-tushare

开扒皮自己微信的秘密

8行代码实现微信聊天机器人

使用Python登录QQ邮箱发送QQ邮件

最后编辑于：2017.12.06 07:51:38

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

新手向爬虫（三）别人的爬虫在干啥
爬虫文章 in 简书程序员专题： like:128 - Python 爬取落网音乐 like:127 - 【图文详...
treelake阅读 29,687评论 33赞 638
Python爬虫学习手册
爬虫文章 in 简书程序员专题： like:128-Python 爬取落网音乐 like:127-【图文详解】py...
喜欢吃栗子阅读 22,435评论 4赞 411

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 176,094评论 25赞 709
产品分析报告-掘金
产品分析报告-掘金一、体验环境体验机型：iPhone6P 系统版本：iOS 10.3.1 APP版本：4.1....
讲讲0阅读 4,655评论 0赞 4
看伪装学习者如何撕开自己的面具
为什么要手撕自己的伪装和面具？从上一篇文章到现在又是9个月过去了。这9个月我做了些什么事呢？完成了毕业论文。写...
万粒阅读 3,757评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文