from bs4 import BeautifulSoup
import requests
url = 'http://bj.xiaozhu.com/fangzi/1508951935.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
title = soup.select('div.pho_info > h4')[0].text
address = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p')[0].get('title')
price = soup.select('#pricePart > div.day_l > span')[0].text
pic = soup.select('#imgMouseCusor')[0].get('src')
host_name = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')[0].get('title')
# host_gender = soup.select('div.member_pic > div')[0].get('class')[0]
host_gender = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > span')[0].get('class')[0]
def get_gender(gender):
if gender == 'member_girl_ico':
return '女'
if gender == 'member_boy_ico':
return '男'
get_gender('member_girl_ico')
data = {
'title':title,
'address':address,
'price':price,
'pic':pic,
'host_name':host_name,
'host_gender':get_gender(host_gender)
}
print(data)
page_link = []
def get_page_link(page_number):
for each_number in range(1,page_number):
full_url = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)
wb_data = requests.get(full_url)
soup = BeautifulSoup(wb_data.text,'lxml')
for link in soup.select('a.resule_img_a'):
page_link.append(link)
一周作业3 爬取租房信息
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 实现了从租房网站爬取信息的功能下面是效果图 总结 有时候并不是单纯的获取txt信息,需要根据其内容判断正确的内容 ...
- 实战计划0430-石头的练习作业 练习的要求 实现效果如下 相关代码 笔记、想法、总结 1、这个代码是之前写的了,...
- 运行结果: 我的代码: 我的感想: 用时接近3个小时(⊙o⊙)… 真的很怕运行到第100多条的时候报错(多谢群友提...