今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。
直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。
缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。
goose项目https://github.com/grangier/python-goose
直接上代码截图
1、新闻标题
2、新闻发布网址域名
3、新闻关键词
4、新闻摘要
5、新闻详情
提醒大家下,代码中
from goose.text import StopWordsChinese
大家还是去掉吧,要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。
更多内容
爬虫
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
文本分析
神奇的python