想了解一下吃货身上都有些什么特质。可以抓取点评的会员数据进行分析。
一、URL分析
这个是全国的会员榜,TOP300的吃货都在这里:
http://www.dianping.com/memberlist/0/0
分析一下URL,要找各城市的会员榜,memberlist
后面跟的第一个数字即是城市ID,如南京是5,下面URL就南京的会员榜,分页即可得到这个城市前300名的会员。
http://www.dianping.com/memberlist/5
从列表页得到会员详情页的链接。
二、分析一下要抓取的会员信息
在列表页,首先要获到会员的URL,点评数、第一个点评、回应数和鲜花,这些应该是会员排名的重要数据。
在详情页,有比较多有意思的数据(隐私数据):
- 性别、地点
- 标签(如 吃货、购物狂、旅行等)
- 社区活跃数据
- 点评数、收藏数、签到数、图片数,
- 贡献值,等级
- 关注、粉丝、互动
- 个人信息和兴趣相关数据
- 注册时间,最后登录时间
- 体型
- 生日、星座、恋爱状况
- 毕业大学
- 爱好
- 喜欢的电影,书/作者
- 喜欢的菜肴/菜系/餐厅
我抓取的数据字段:
class FoodieItem(Item):
url = Field()
nickname = Field()
comment_num = Field()
comment_first = Field()
comment_response = Field()
flower = Field()
level = Field()
location = Field()
gender = Field()
rank = Field()
contribution = Field()
loc_check= Field() # 签到
collect_num = Field() #收藏数
pic_num = Field()
note_num = Field()
reg_time = Field()
fans = Field()
interaction = Field()
tags = Field()
shops = Field() # 商户数
shape = Field()
love_situation = Field() #恋爱状况
birthday = Field()
occupation = Field()
college = Field()
hobby = Field()
foodtype = Field()
star_sign = Field() #星座
代码github
数据分据文章请稍后。