from bs4 import BeautifulSoup
import requests
url = 'http://bj.xiaozhu.com/fangzi/1508951935.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
title = soup.select('div.pho_info > h4')[0].text
address = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p')[0].get('title')
price = soup.select('#pricePart > div.day_l > span')[0].text
pic = soup.select('#imgMouseCusor')[0].get('src')
host_name = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')[0].get('title')
# host_gender = soup.select('div.member_pic > div')[0].get('class')[0]
host_gender = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > span')[0].get('class')[0]
def get_gender(gender):
if gender == 'member_girl_ico':
return '女'
if gender == 'member_boy_ico':
return '男'
get_gender('member_girl_ico')
data = {
'title':title,
'address':address,
'price':price,
'pic':pic,
'host_name':host_name,
'host_gender':get_gender(host_gender)
}
print(data)
page_link = []
def get_page_link(page_number):
for each_number in range(1,page_number):
full_url = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)
wb_data = requests.get(full_url)
soup = BeautifulSoup(wb_data.text,'lxml')
for link in soup.select('a.resule_img_a'):
page_link.append(link)
一周作业3 爬取租房信息
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 实现了从租房网站爬取信息的功能下面是效果图 总结 有时候并不是单纯的获取txt信息,需要根据其内容判断正确的内容 ...
- 实战计划0430-石头的练习作业 练习的要求 实现效果如下 相关代码 笔记、想法、总结 1、这个代码是之前写的了,...
- 运行结果: 我的代码: 我的感想: 用时接近3个小时(⊙o⊙)… 真的很怕运行到第100多条的时候报错(多谢群友提...