用爬虫抓取天眼查数据

天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢?

除了可以用python这种高级工具,我们还可以用一款chrome插件来解决。这个插件的名字是:Web Scraper。

webscraper.png

比如我想抓取含有“机器人”关键词的企业,先搜索一下:

image.png

可以看到这张图中和机器人相关的企业非常多,有100000+之多,那么把这些企业都下载到本地,包括企业名称,法人,电话。

打开chrome的开发者工具中,可以看到webscraper插件。

1、先新建你要抓取的项目名称,URL就是搜索页的网址。

界面
image.png

填好后,点击“Create Sitemap”创建。

2、接着,开始抓取第一步,选择你要抓取的大框架。

image.png
image.png

id,随便写个名字
Type:数据类型,选择“Element”,元素

image.png

Multiple:打勾。因为我们要选择多个元素。

Delay:2000。模拟人工操作,设置延时。

点击“Select”,开始选择网页中要抓的部分。

image.png

框选中2个,才能自动把下面的同类型的框都选中。

image.png
image.png

然后保存。

image.png

3、大框架选择好了以后,就开始选择你真正要抓取的那几项了。

点进去,新建小的选择项,

image.png

点击“Add new selector”

image.png

id:要抓取的项名字
Type:Text。选择文本。
如何就是选择你要抓的内容了,见下图

image.png

黄色框是之前的大框架,红色框就是要选择的内容,点中。

保存。这样公司名这一项就选择好了。

image.png

还要抓取法人和联系方式,继续新建。

image.png
image.png

建好了,如下:

image.png

4、大功告成,开始抓取吧。

image.png

start scraper。程序就自动开始抓取了,会弹出一个抓取的窗口。

image.png

这是程序的小bug,刷新refresh。

image.png

结果展示出来了,可以选择导出。

image.png

导出格式为CSV。

image.png
image.png

点击Download下载数据表。

image.png

ok,这就是用Web Scraper抓取天眼查数据的过程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,016评论 2 89
  • 说明:本文章内容学习自“三 节 课”平台的《人人都能学会的数据爬虫课》。 产品和运营工作中,经常需要做出大量的决策...
    CJDUDU阅读 1,656评论 0 6
  • 发现每次看书,都能解决心里的一丝疑惑,内心也更加平静和美好! 所以要经常看书哦,亲爱的。 晚安。
    loverewards阅读 326评论 0 0
  • 时间对每个人都是很珍贵的资源,只有学会时间管理,我们才能更好的管理我们的人生,今天我们就来谈一下GTD时间管理。 ...
    于观潭阅读 5,032评论 4 179
  • 开心,和好友好利来聊天后吃了小龙虾,感觉生活很美好,世界这么好,虽有焦虑,所以我们要珍惜,要好好的,我的出现就像提...
    晶晶201708阅读 351评论 0 0