零基础学python(1)——爬取房天下网站信息

一、认识网页

       网页分为三个部分:HTML(结构)、CSS(样式)、JavaScript(功能)。

二、爬取网站信息入门

1、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup来解析网页。

2、使用copy CSS selector来复制网页元素的位置。

三、爬取房天下网站信息 

1、导入requests和beautifulsoup


2、定义函数spider_ftx,把所需要爬取的信息都定义出来

3、调用函数spider_ftx

4、翻页爬取二手房信息

     由于每页最多只能显示40条信息,观察每一页网址的变化规律,写一个循环调用的语句,把全部100页的信息全都爬取下来。


四、小结:

     目前只能爬取到网站的100页信息,网站为了反爬,设置了可浏览的页面量100。要想爬取网站的所有信息,可以通过分类去获取,但是如何用python实现呢,请看下集。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容