登录注册写文章

webscraper 抓数据需要的信息

webscraper 抓数据需要的信息

1、要抓取的网址链接。
2、要抓取的信息字段，为了不产生歧义，最好截图标注一下~
3、如果有多页，要说明抓多少页

举例——
需求概述：小明要抓取淘宝上关于酸奶的商品信息。
需要提供：

网站链接 —— 如何获取？进入淘宝 www.taobao.com，然后搜索“酸奶”，出现的这个链接，就是爬虫需要的链接，结果链接如下：
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

image.png

需要抓取这个页面的所有商品，每个商品需要抓取的信息：

产品名称
价格
购买人数

具体截图如下：

image.png

搜索结果一共有 100页，只需要抓取前 5 页即可。

image.png

ps:上面是个例子，具体情况，可以根据需求改变。比如抓取的字段不同，或者抓取页数不一样等

最后编辑于：2020.01.16 21:13:27

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

《这就是搜索引擎》爬虫部分摘抄总结
《这就是搜索引擎》这本书的第二章是关于爬虫的，干货很多（文章几乎没有废话，所以复制居多），可以参考搜索引擎是如何构...
SeanCheney阅读 2,184评论 0赞 20
网页数据抓取工具（谷歌插件 web Scraper）
最简单的数据抓取教程，人人都用得上 Web Scraper 是一款免费的，适用于普通用户（不需要专业 IT 技术的...
神木惊蛰阅读 9,345评论 3赞 8

文件名在各个系统中的限制区别
gara001001阅读 293评论 0赞 0
一次做好一件事
2009年11月13日，魏捷斯多米诺公司在荷兰吕伐登市上进行了一场令人难忘的表演：4491863块多米诺...
快乐的老露阅读 301评论 0赞 0
别拦我，我要告诉你一个套路
01 有一天小明去逛街，在一家鞋店前看上一双皮鞋，问看店的伙计皮鞋多少米？伙计不知价格便向屋内的掌柜问道：“XY型...
放慢脚步阅读 986评论 0赞 3

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文