链家北京二手房python scrapy框架爬取

爬取链家所有二手房信息,并存入python自带的sqlite3数据库中,借鉴他人程序进行编写

目的:1、继续熟悉scrapy框架 2、数据数据库操作

需求:爬取链家北京所有二手房信息,并存入sqlite3数据库中

1、如何统计链家全部的二手房?

链家的二手房搜索只能搜索前3000项,也就是100页,每页30套,而链家上显示北京在售的二手房信息共有27000套,所以只能设置选择条件使得每种条件搜索下房屋套数小于3000套共一百页。首先是考虑分区进行选取,除了海淀、朝阳区外其他区的在售二手房数量均小区三千,满足条件。对于海淀和朝阳超过3000套这种情况,可以再按照高中低楼层进行条件设置,这样使得按照楼层细分条件下的二手房套数也小于3000。


如图所示各种条件下套数少于3000

接下来就是scrapy的常规步骤了:

a、创建scrapy工程   b、定义item   c、设置start_urls d、编写parse方法 解析所有网址 e、编写parse_item方法提取item  f、 编写item pipeline存储提到的item。现在一步步慢慢开始

a)创建scrapy工程  只能在命令行界面下创建  scrapy startproject lianjia,而后 cd lianjia,执行scrapy genspider lianjiacrawler lianjia.com

b)定义item 主要提取了房屋信息的十项内容 房屋编码、售房简介、小区、房屋信息(几居室、朝向、面积)、片区、关注数、带看数、总价、均价。

c)设置start_urls start_urls列表是scrapy框架爬取网页的起始网址,因为我们选了多个区,所以其实网址是一个列表,较为特殊的是朝阳和海淀是按照楼层细分。举例如西城区的链家网址是https://bj.lianjia.com/ershoufang/xicheng/,而朝阳区再按楼层细分的话,链家网址就会在最后面加上lcx的后缀,x为[1,2,3,4,5]中的一个,举例朝阳区中楼层2904套,链家网址为https://bj.lianjia.com/ershoufang/chaoyang/lc2/,所以这里的start_urls设置如下所示


d)编写parse方法

此parse方法主要是为解析出每个start_urls起始地址里的后续地址,找出总共的页数,通过在chrome找到最大页数右键点击检查启动chrome开发工具,可直接定位到所在的elements


接下来就是提出去最大页数,采用response.xpath('//div[@class="page-box house-lst-page-box"]/@page-data').extract()[0])['totalPage'],可以将总页数提取出来,接下来就是形成每一页的url然后yield给scrapy.Request函数

e)提取item,编写parse_item方法,总的思路就是采用xpath找到信息,然后存储到lianjiaitem里,最后yield

f)在pipeline中持久化存储

我选择的是采用python自带的sqlite数据库,也可以采用文件存储方式,比如存储在excel中等等。

首先就是创建数据库啊表啊,字段啊,根据item共创建10个字段,然后执行insert也没什么好说的了。

总的就是这样,最后存储到数据库中28000套房屋。

全部的代码在这里    https://github.com/bitmote/lianjia



拿到数据还不是最终目的而只是手段,最终结果是通过对数据的淘洗得到一些有趣的信息。比如北京现售的最贵的房子是下面这个

一亿元的房子,最便宜的房子,用数据库查询是15万,这么便宜?!当然不是了,是车库


看来数据还是有一些杂质需要去伪存真。其实两万多套房屋数据,满可以分析出一些有价值的信息来的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,670评论 4 46
  • 小的时候很希望长大有作为且有所作为 长大后却害怕走出校园这层保护罩 害怕遇到像你这样的 损友 逆来顺受的我永远人前...
    无ming氏阅读 191评论 0 0
  • 还记得一个半月以前,我曾经发过一篇微博: 高晓松离婚了,然后又想到他的前娇妻是河南商丘的这回事。觉得以后有必要背一...
    继续海阔天空阅读 490评论 0 1
  • 很多项目中在新闻页要求跑马灯的效果,特记下来,方便下次使用 //创建label UILabel *lable = ...
    帆123阅读 252评论 0 0