今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。
直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。
缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。
goose项目https://github.com/grangier/python-goose
直接上代码截图
1、新闻标题
2、新闻发布网址域名
3、新闻关键词
4、新闻摘要
5、新闻详情
提醒大家下,代码中
from goose.text import StopWordsChinese
大家还是去掉吧,要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。
更多内容
爬虫
【视频】手把手教你抓美女~
当爬虫遭遇验证码,怎么办
知易行难
用词云图解读“于欢案”
【视频】于欢案之网民的意见(1)?
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
【视频教程】用python批量抓取简书用户信息
爬豆瓣电影名的小案例(附视频操作)
爬豆瓣电影名的小案例2(附视频操作)
python代理爬虫抓豆瓣电影数据(一)
python代理爬虫抓豆瓣电影数据(二)
用Python抓取百度地图里的店名,地址和联系方式
Python大法好:贴吧爬虫大法
文本分析
python居然有情感??真的吗??
基于共现发现人物关系的python实现
用python计算两文档相似度
神奇的python
怜香惜玉,我用python帮助办公室文秘
逆天的量化交易分析库-tushare
开扒皮自己微信的秘密
8行代码实现微信聊天机器人
使用Python登录QQ邮箱发送QQ邮件
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。