Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据。

小猪短租(成都)页面:http://cd.xiaozhu.com/

1.爬取租房标题

按照惯例,先来爬下标题试试水,找到标题,复制xpath。

多复制几个房屋的标题 xpath 进行对比:

//*[@id="page_list"]/ul/li[1]/div[2]/div/a/span//*[@id="page_list"]/ul/li[2]/div[2]/div/a/span//*[@id="page_list"]/ul/li[3]/div[2]/div/a/span

瞬间发现标题的 xpath 只在

  • 后序号变化,于是,秒写出爬取整页标题的 xpath:
  • //*[@id=“page_list”]/ul/li/div[2]/div/a/span

    还是固定的套路,让我们尝试把整页的标题爬下来:

    小猪在IP限制方面比较严格,代码中务必要加入 sleep() 函数控制爬取的频率

    好了,再来对比下 xpath 信息:

    顺着标题的标签网上找,找到整个房屋信息标签, xpath 对比如下:

    //*[@id=“page_list”]/ul/li  #整体//*[@id=“page_list”]/ul/li/div[2]/div/a/span  #标题

    你应该知道该怎么来改代码了吧,写一个循环:

    file=s.xpath(‘//*[@id=“page_list”]/ul/li’)for div in file:      title=div.xpath("./div[2]/div/a/span/text()")[0]

    好了,来运行一下试试:

    2.爬取多个元素的信息

    对比其他元素的 xpath:

    //*[@id=“page_list”]/ul/li  #整体//*[@id=“page_list”]/ul/li/div[2]/div/a/span  #标题//*[@id=“page_list”]/ul/li/div[2]/span[1]/i  #价格//*[@id=“page_list”]/ul/li/div[2]/div/em  #描述//*[@id=“page_list”]/ul/li/a/img  #图片

    然后可以写出代码:

    file=s.xpath(“//*[@id=“page_list”]/ul/li”)for div in file:      title=div.xpath(“./div[2]/div/a/span/text()”)[0]            price=div.xpath(“./div[2]/span[1]/i/text()”)[0]      scrible=div.xpath(“./div[2]/div/em/text()”)[0].strip()      pic=div.xpath(“./a/img/@lazy_src”)[0]

    来尝试运行一下:

    3.翻页,爬取更多页面

    看一下翻页时候 url 的变化:

    http://cd.xiaozhu.com/search-duanzufang-p1-0/    #第一页http://cd.xiaozhu.com/search-duanzufang-p2-0/    #第二页http://cd.xiaozhu.com/search-duanzufang-p3-0/    #第三页http://cd.xiaozhu.com/search-duanzufang-p4-0/    #第四页……………………

    url 变化的规律很简单,只是 p 后面的数字不一样而已,而且跟页码的序号是一模一样的,这就很好办了……写一个简单的循环来遍历所有的url。

    for a in range(1,6):  url = ‘http://cd.xiaozhu.com/search-duanzufang-p{}-0/’.format(a)  # 我们这里尝试5个页面,你可以根据自己的需求来写爬取的页面数量

    完整的代码如下:

    from lxml import etreeimport requestsimport timefor a in range(1,6):    url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(a)    data = requests.get(url).text    s=etree.HTML(data)    file=s.xpath('//*[@id="page_list"]/ul/li')    time.sleep(3)        for div in file:        title=div.xpath("./div[2]/div/a/span/text()")[0]        price=div.xpath("./div[2]/span[1]/i/text()")[0]        scrible=div.xpath("./div[2]/div/em/text()")[0].strip()        pic=div.xpath("./a/img/@lazy_src")[0]                    print("{}  {}  {}  {}\n".format(title,price,scrible,pic))

    看一下爬了5个页面下来的效果:

    相信你已经掌握爬虫基本的套路了,但你还需要去不断熟悉,能独立写出代码为止。

    写代码不仅要细心,也需要耐心。很多人从入门到放弃,并不是因为编程这件事情有多难,而是某次实践过程中,遇到一个小问题。

    好了,这节课就到这里!

    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 212,185评论 6 493
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 90,445评论 3 385
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 157,684评论 0 348
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 56,564评论 1 284
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 65,681评论 6 386
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 49,874评论 1 290
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 39,025评论 3 408
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 37,761评论 0 268
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 44,217评论 1 303
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 36,545评论 2 327
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 38,694评论 1 341
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 34,351评论 4 332
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 39,988评论 3 315
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 30,778评论 0 21
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 32,007评论 1 266
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 46,427评论 2 360
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 43,580评论 2 349

    推荐阅读更多精彩内容