不会写爬虫的快来Goose一下

今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。

直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。

缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。

goose项目https://github.com/grangier/python-goose


直接上代码截图

1、新闻标题

2、新闻发布网址域名

3、新闻关键词

4、新闻摘要

5、新闻详情

提醒大家下,代码中

from goose.text import StopWordsChinese

大家还是去掉吧,要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。


更多内容

爬虫

【视频】手把手教你抓美女~

当爬虫遭遇验证码,怎么办

知易行难

用词云图解读“于欢案”

【视频】于欢案之网民的意见(1)?

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

爬豆瓣电影名的小案例(附视频操作)

爬豆瓣电影名的小案例2(附视频操作)

python代理爬虫抓豆瓣电影数据(一)

python代理爬虫抓豆瓣电影数据(二)

用Python抓取百度地图里的店名,地址和联系方式

Python大法好:贴吧爬虫大法

文本分析

python居然有情感??真的吗??

基于共现发现人物关系的python实现

用python计算两文档相似度

神奇的python

怜香惜玉,我用python帮助办公室文秘

逆天的量化交易分析库-tushare

开扒皮自己微信的秘密

8行代码实现微信聊天机器人

使用Python登录QQ邮箱发送QQ邮件

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容