不会写代码,如何抓取网页里的信息?

火箭君之前给大家提供过一个随机数据制造器(Dummy Data生成器来了,你还为造数据而痛苦吗?,能根据需要随机生成姓名、邮箱地址、句子…并且结果非常友善,复制到Excel就能用了。那么当我们在网站上看到一系列地址信息、商品信息甚至天气、新闻等真实信息,但因为数量庞大难以依靠手动复制黏贴来完整获取时,爬虫就能代替你完成所有工作

——“如何向完全没有背景知识的人解释爬虫为何物?”

——“爬虫就是按一定规则替你浏览网页并复制黏贴东西下来的程序。”

是的,听起来很很高级,是不是要写代码啊?!网上一搜什么Python+Scrapy啊,功能强大到爆。但即使这样对于某些结构简单且只用于江湖救急的网站数据获取未免显得有些小题大做了,而且普通用户很可能折在装python+scrapy包这件事上

WebScraper登场

这时候Chrome的一款爬虫插件就脱颖而出了!(http://webscraper.io/)名字就叫Web Scraper,web既可以指网络爬虫也能说明在线爬虫的意思,一语双关(也可能是我想多了……)

如何安装插件此处略过,并且网站上有非常友好的introduce video,总之,安装好以后在Chrome下按F12就可以开始

举一个椰子

话不多说,来看椰子!哦不,栗子!春天是椰子上市的季节,就带大家来爬一下天猫上”椰青”的价格吧!

1.打开页面

先来看一下我们感兴趣的”椰青及价格”页面

没错!是我感兴趣的椰青!

2.喊出爬虫界面

于是我们按提示打开在线爬虫的界面

最右侧的Web Scraper tag就是我们之前安装的爬虫插件,从现在开始我们就要为爬虫建立一个复制黏贴数据的规则,以防获得一些不该获得的不想要的数据。

3.建立规则

前面说过,爬虫是替你浏览网页并复制黏贴东西下来的东西,那么它就应该模拟你的行为。首先你打开这个界面,知道了这个网页是“我想要的数据起点”,那么对于爬虫来说,这就是他的root。所以我们来新建一个爬虫并告诉他:

我们点击Create new sitemap来创建一个爬虫并给它起个名字~顺便告诉它起点(当前浏览器里的网址)。之后我们就会进入这个爬虫(taobao)的根目录下:

4.选择元素

然后我们开始获取每一个商品的集合,单击add new selector,新增一个筛选器,选出所有的”椰青商品”元素:

同样的取个名字,选择type为element,选择商品元素,当选择2个相同属性元素时插件会自动勾选上页面中所有该属性元素。

点击done selecting完成选择,并勾上multiple。Save selector!!

此时我们只需要从之前筛选出来的item元素中获取需要的字段就可以啦。同样的我们在item目录下新建一些selector,由于需要获得的是文本信息,所以type需要变为text。

此时一个简易的单页爬虫就做好了,在sitemap的下拉菜单中还可以选择graph来查看爬虫的结构。

5.点击Scrape开始爬

6.下载数据

结束后数据会自动生成在视窗中,插件自带了导出为CSV的功能,可以一键下载。不小心关了也没关系,browse中可以看到上一次抓取的数据。

翻页怎么办?

如果要翻页的话就会困难一些,火箭君大概给个思路:正如item中的element会被遍历获取,那么同样的在root目录下新建一个翻页的link selector来实现“下一页“功能。

将item链接到link selector下,并且将link selector和之前创建的item selector链接到自己来实现一个死循环知道下一页不存在或者下一页unable

循环建立好以后就可以成了下面这个样子:

So What?

你可能要问:So What?

火箭君用这个工具抓了瓜子二手车全国几百台在售的二手宝马3系的价格,看一下不同车龄的宝马3系轿车在使用了若干年后的价格跌幅吧~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,092评论 25 707
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,696评论 4 46
  • 如题。 什么是一意孤行?就是身边的人都反对的事儿你非得去做,就是一意孤行。 什么是做自己呢?就是不被他人意见左右,...
    奶味冰咖燕子阅读 481评论 0 0
  • 二筒是我的大学室友,我和他的交情算是比较深啦,其实他还是我的高中同学。在高中时代,二筒还不叫二筒,我们叫他方块九。...
    陈小守阅读 598评论 3 2
  • 滚滚长江东逝水,浪花淘尽英雄。 是非成败转头空。 青山依旧在,几度夕阳红。 白发渔樵江渚上,惯看秋月春风。 一杯浊...
    Kris_w阅读 450评论 0 0