上海链家二手房交易数据爬取

导入相关包

import requests
from lxml import etree
import re

定义爬取函数

with open('SHhoure.txt', 'w',encoding='utf-8-sig') as f:
    def page_parse(url):
        requests.adapters.DEFAULT_RETRIES =5
        requests.session().keep_alive = False
        headers = {'User-Agent': 'Mozilla/5.0'}
        proxy = '27.159.164.164'
        proxies = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
        response = requests.get(url, headers=headers,proxies=proxies)
        html=etree.HTML(response.text)
        hrefs = html.xpath('//div[@class="title"]/a/@href')
        for href in hrefs:
            contents_list=requests.get(href,headers=headers).text
            contents=etree.HTML(contents_list)
            houseCode = ''.join(contents.xpath('//div[4]/@data-lj_action_resblock_id'))  # 房源id
            lon = re.search(r"resblockPosition:'(.+),(.+)'",contents_list).group(1)  # 经度
            lat = re.search(r"resblockPosition:'(.+),(.+)'", contents_list).group(2)  # 纬度
            province = contents.xpath('//meta[@name="location"]/@content')[0].split(';')[0].replace('province=','')  # 所在省份
            city = contents.xpath('//meta[@name="location"]/@content')[0].split(';')[1].replace('city=', '')  # 所在城市
            district=contents.xpath('//div[@class="deal-bread"]/a[3]/text()')[0].replace('二手房成交','')+'区'    #主城区
            sub_district=contents.xpath('//div[@class="deal-bread"]/a[4]/text()')[0].replace('二手房成交','')    #下辖区
            resblockId = contents.xpath('//div[4]/@data-lj_action_housedel_id')[0]  # 楼盘id

            title = ''.join(contents.xpath('//div[@class="wrapper"]/text()')).split(' ')[0]  # 房源名称
            deal_date = ''.join(contents.xpath('//div[@class="wrapper"]/span/text()')).split(' ')[0]  # 成交日期
            dealTotalPrice = contents.xpath('//div[@class="price"]/span/i/text()')[0]  # 成交价格
            avgprice = contents.xpath('//div[@class="price"]/b/text()')[0]  # 成交均价

            columns_lista = contents.xpath(
                '//div[@class="msg"]/span/text()')  # ['挂牌价格(万)', '成交周期(天)', '调价(次)', '带看(次)', '关注(人)', '浏览(次)']
            infos_lista = contents.xpath('//div[@class="msg"]/span/label/text()')  # columns_listb对应数值

            columns_listb = contents.xpath(
                '//span[@class="label"]/text()[1]')  # ['房屋户型', '所在楼层', '建筑面积', '户型结构', '套内面积', '建筑类型', '房屋朝向', '建成年代', '装修情况', '建筑结构', '供暖方式', '梯户比例', '产权年限', '配备电梯', '链家编号', '交易权属', '挂牌时间', '房屋用途', '房屋年限', '房权所属']
            infos_listb = contents.xpath('//li/text()')[:20]  # columns_listc对应数值
            house = {'房源名称': title,'房源id':houseCode,'经度':lon,'纬度':lat,
                     '所在省份':province,'所在城市':city,'主城市':district,'下辖区':sub_district,
                     '楼盘id':resblockId,
                     '成交日期': deal_date, '成交价格(万)': dealTotalPrice, '成交均价(元/平)': avgprice}
            for infosa, columnsa in zip(infos_lista, columns_lista):
                house_contenta = {str(columnsa): infosa.strip()}
                house.update(house_contenta)
                for infosb, columnsb in zip(infos_listb, columns_listb):
                    house_contentb = {str(columnsb): infosb.strip()}
                    house.update(house_contentb)
            f.write("%s\n" % house)
    def main():
        position_list = ['pudong', 'minhang', 'baoshan', 'xuhui', 'putuo', 'yangpu',
                         'changning', 'songjiang', 'jiading', 'huangpu', 'jingan', 'hongkou', 'qingpu', 'fengxian',
                         'jinshan', 'chongming', 'shanghaizhoubian']
        url = 'https://sh.lianjia.com/chengjiao/pg1/'
        for position in position_list:
            for i in range(1, 101):
                url = 'https://sh.lianjia.com/chengjiao/{}/pg{}/'.format(position, i)
                page_parse(url)

    if __name__ == '__main__':
        main()

数据集样式

    {'房源名称': '高兴花园',
     '房源id': '107101754775',
     '经度': '121.409033',
     '纬度': '31.117302',
     '所在省份': '上海',
     '所在城市': '上海',
     '主城市': '闵行区',
     '下辖区': '春申',
     '楼盘id': '5011000014981',
     '成交日期': '2019.09.18',
     '成交价格(万)': '258',
     '成交均价(元/平)': '69542',
     '挂牌价格(万)': '265',
     '房屋户型': '1室1厅1厨1卫',
     '所在楼层': '高楼层(共6层)',
     '建筑面积': '37.1㎡',
     '户型结构': '平层',
     '套内面积': '暂无数据',
     '建筑类型': '板楼',
     '房屋朝向': '南',
     '建成年代': '1996',
     '装修情况': '精装',
     '建筑结构': '砖混结构',
     '供暖方式': '',
     '梯户比例': '一梯四户',
     '产权年限': '70年',
     '配备电梯': '无',
     '链家编号': '107101754775',
     '交易权属': '商品房',
     '挂牌时间': '2019-09-15',
     '房屋用途': '普通住宅',
     '房屋年限': '暂无数据',
     '房权所属': '非共有',
     '成交周期(天)': '4',
     '调价(次)': '0',
     '带看(次)': '3',
     '关注(人)': '0',
     '浏览(次)': '1'}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容