登录注册写文章

零基础学python（1）——爬取房天下网站信息

零基础学python（1）——爬取房天下网站信息

一、认识网页

网页分为三个部分：HTML(结构）、CSS（样式）、JavaScript（功能）。

二、爬取网站信息入门

1、Soup = BeautifulSoup (html, 'lxml')，使用beautifulsoup来解析网页。

2、使用copy CSS selector来复制网页元素的位置。

三、爬取房天下网站信息

1、导入requests和beautifulsoup

2、定义函数spider_ftx，把所需要爬取的信息都定义出来

3、调用函数spider_ftx

4、翻页爬取二手房信息

由于每页最多只能显示40条信息，观察每一页网址的变化规律，写一个循环调用的语句，把全部100页的信息全都爬取下来。

四、小结:

目前只能爬取到网站的100页信息，网站为了反爬，设置了可浏览的页面量100。要想爬取网站的所有信息，可以通过分类去获取，但是如何用python实现呢，请看下集。

最后编辑于：2017.12.05 12:19:48

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 175,631评论 25赞 709
Python爬虫-用Scrapy框架实现漫画的爬取
在之前一篇抓取漫画图片的文章里，通过实现一个简单的Python程序，遍历所有漫画的url，对请求所返回的html源...
msq3阅读 14,393评论 14赞 88

如何不做观光客，当个边玩边成长的旅行家？
曾看过一个问题：「如果有一天你财务自由了，你想过怎样的生活？」思来想去，我发现自己想要的就是「当下的状态」，不着...
Jamie陈泳斯阅读 5,133评论 9赞 40
《请停止无效努力》的读书笔记：关于个人价值定位
《请停止无效努力》第一章人人都有天赋：如何快速找到你的天赋优势第一篇你没钱，真的不是因为不努力 ——找到正确...
木小悠阅读 2,981评论 0赞 2
#幸福实修# 臣服你的父母！-蔷薇
#幸福是需要修出来的～每天进步1%～幸福实修09班～01~蔷薇 20170909（23/53）09班【幸福两朵玫...
幸福实修蔷薇阅读 1,423评论 0赞 0

1赞2赞

赞赏

手机看全文