1.首先:明确目标
进入http://bj.xiaozhu.com/,然后进入详情页中爬取标题、地址、日租金、第一张房源图片链接、房东图片链接、房东性别等6个信息,最终是要爬取300个房源的这6个信息
2.确认抓取逻辑
2.1首先,我们得知道列表页从第1页到第N页的链接规律,然后遍历它
2.2其次,我们要知道列表页中详情页的链接地址,这样我们才能从列表页中进入详情页爬取信息
2.3然后,我们得爬取详细页中的6个信息,因为性别信息不是我们常见的‘female’和‘male',所以要对其进行转化
理清楚了逻辑之后,我们开始写代码
3.我所写的代码
运行的部分结果为:
至此,要爬取的信息就到手了!