0代码10分钟利用import爬取大众点评100商家 口味,环境,服务,人均单价,地址,电话信息
必要条件
1. 翻Q技能
2. 邮箱
3. 简单的文本处理
例子
需求:产品妹子给出一个excel表格记录100多家商户名字信息,现需要查询这些商户在大众点评上的相关信息包含不限于 地址,电话,口味评分,环境评分,服务评分,人均单价等信息
分析:
传统人工方式:登录大众点评,搜索框输入商户名称,搜索,进入页面点击进入对应商户,记录相关信息到excel。
爬虫方式:获取点评商户地址形如:http://www.dianping.com/shop/5652272,抓取相关信息
1.先分析一个商户发现大众搜索链接如:
http://www.dianping.com/search/keyword/8/0_%E9%86%89%E8%B5%84%E6%A0%BC%E8%80%81%E7%81%AB%E9%94%85
注意:%E9%86%89%E8%B5%84%E6%A0%BC%E8%80%81%E7%81%AB%E9%94%85为编码后的商户名,实际上为:醉资格老火锅
2.搜索页面:搜索后的页面可能包含多个商户,因为商户可能有多个分店或者有同名的其他商户。(由于需求不要求严格名称匹配,所以全部抓取)
3.获取商户地址:搜索页面含有商户编码信息 如http://www.dianping.com/shop/5652272,全部抓取
4.进入商户页面,抓取信息
开始
1,构造搜索请求列表,通过import.io抓取商户页面url
eg.如何把‘醉资格老火锅’变成http://www.dianping.com/search/keyword/8/0_%e9%86%89%e8%b5%84%e6%a0%bc%e8%80%81%e7%81%ab%e9%94%85
1. 进入:http://tool.chinaz.com/tools/urlencode.aspx 选择UrlEncode编码/解码
复制商户名称列表到空白框中,点击UrlEncode编码
2. 复制编码后的文本到excel,利用CONCATENATE拼接http://www.dianping.com/search/keyword/8/0_和%e9%86%89%e8%b5%84%e6%a0%bc%e8%80%81%e7%81%ab%e9%94%85
3. 填充所有
2,import.io 爬取所有商户的页面,得到所有商户页面url(此时需要翻Q)
eg. 1.注册账号:略
2.进入dashbord,输入一个商户搜索页面
3.在编辑视图下删除不需要的列,添加我们需要的商户信息列并保存
4.添加其他url到爬虫
5.启动爬虫
3,等待,完成后下载步骤2中爬虫爬取的商户页面列表(如http://www.dianping.com/shop/5652272)
1.同2步骤输入商户页面并在编辑界面下删除不要的字段,留下需要的字段同时设置列名
2.添加其他url到爬虫
3.启动爬虫
4,等待,完成后下载步骤3中的,手工整理后结果如下: