0代码10分钟利用import.io爬取大众点评100商家 口味,环境,服务,人均单价,地址,电话信息

0代码10分钟利用import爬取大众点评100商家 口味,环境,服务,人均单价,地址,电话信息

必要条件

1. 翻Q技能

2. 邮箱

3. 简单的文本处理


例子

需求:产品妹子给出一个excel表格记录100多家商户名字信息,现需要查询这些商户在大众点评上的相关信息包含不限于 地址,电话,口味评分,环境评分,服务评分,人均单价等信息

分析:

传统人工方式:登录大众点评,搜索框输入商户名称,搜索,进入页面点击进入对应商户,记录相关信息到excel。

爬虫方式:获取点评商户地址形如:http://www.dianping.com/shop/5652272,抓取相关信息

1.先分析一个商户发现大众搜索链接如:

http://www.dianping.com/search/keyword/8/0_%E9%86%89%E8%B5%84%E6%A0%BC%E8%80%81%E7%81%AB%E9%94%85

注意:%E9%86%89%E8%B5%84%E6%A0%BC%E8%80%81%E7%81%AB%E9%94%85为编码后的商户名,实际上为:醉资格老火锅

2.搜索页面:搜索后的页面可能包含多个商户,因为商户可能有多个分店或者有同名的其他商户。(由于需求不要求严格名称匹配,所以全部抓取)

3.获取商户地址:搜索页面含有商户编码信息 如http://www.dianping.com/shop/5652272,全部抓取

4.进入商户页面,抓取信息

开始

1,构造搜索请求列表,通过import.io抓取商户页面url

eg.如何把‘醉资格老火锅’变成http://www.dianping.com/search/keyword/8/0_%e9%86%89%e8%b5%84%e6%a0%bc%e8%80%81%e7%81%ab%e9%94%85

1. 进入:http://tool.chinaz.com/tools/urlencode.aspx 选择UrlEncode编码/解码

复制商户名称列表到空白框中,点击UrlEncode编码


2. 复制编码后的文本到excel,利用CONCATENATE拼接http://www.dianping.com/search/keyword/8/0_和%e9%86%89%e8%b5%84%e6%a0%bc%e8%80%81%e7%81%ab%e9%94%85


3. 填充所有

2,import.io 爬取所有商户的页面,得到所有商户页面url(此时需要翻Q)

eg. 1.注册账号:略

2.进入dashbord,输入一个商户搜索页面

3.在编辑视图下删除不需要的列,添加我们需要的商户信息列并保存

4.添加其他url到爬虫

5.启动爬虫

3,等待,完成后下载步骤2中爬虫爬取的商户页面列表(如http://www.dianping.com/shop/5652272)

1.同2步骤输入商户页面并在编辑界面下删除不要的字段,留下需要的字段同时设置列名

2.添加其他url到爬虫

3.启动爬虫


4,等待,完成后下载步骤3中的,手工整理后结果如下:

   
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • @synthesize和@dynamic分别有什么作用?@property有两个对应的词,一个是 @synthes...
    笔笔请求阅读 3,550评论 0 1
  • (开始) (标题)iApc(/标题)(链接)https://duming666.wodemo.net/down/2...
    独名阅读 5,625评论 1 3
  • 看到留言里一个年级不大的朋友被父母误会,毕业了还学习,还写作是不是入了传销;一声叹息吖……父母的角色总是这么自以为...
    小殷老师阅读 1,534评论 0 0
  • 现在是高科技时代,手机,已经成为我们人人手中都有的一个“玩具”,然而,这个“玩具”,让我们“与世隔离”。 今天中午...
    末1007阅读 4,338评论 2 3
  • 和我妈聊天 说起大学这几年 想着明年就出来实习了。我爸说 给我在上海找稳定的工作 ,我又任性的很,拗不过我,我自己...
    徐采采阅读 1,540评论 0 0