Python 网络爬虫(一)

 网络爬虫的基本介绍

学习爬虫,我想主要从以下几个方面来切入

-爬虫的原理?

-爬虫的作用?

-爬虫的实现?

-爬虫的工具?

爬虫的原理

爬虫就是一种自动获取网页内容,提取有价值的数据的技术。把互联网比喻成一个蜘蛛网,把你想象成一只蜘蛛,如果要你浏览全部网页,你会如何进行?从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫的基本操作是抓取网页。

 爬虫的作用

方便获取互联网数据,为我所用。假如你是一个科幻迷,想要获取豆瓣上关于科幻电影的信息,你就可以通过写一个简单的脚本,去抓取关于科幻电影的信息。又或者朋友向你推荐一部好看的动漫,你想要下载整部动漫时,你也可以写个爬虫程序,去获取下载链接。

 爬虫的实现


爬虫实现的过程中主要包括了抓取网页、存储、网页分析、展示预期结果。

爬虫的工具

刚开始学习爬虫,我们需要掌握以下几个库的使用。

1.打开网页,下载文件:urllib、urllib2

2.解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery

3.使用Requests来提交各种类型的请求,支持重定向,cookies等。

4.使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容