Python 爬虫实战入门(上)

之前为了工作需要,写了不少爬虫小程序,和同事们聊得过程中发现,很多人对爬虫还是停留在听说过的阶段,基于这个原因,特意写点适合小白看的,希望大家能对爬虫有个小认知。

工欲善其事必先利其器,既然要写爬虫,那第一步,就是环境准备,先来看看我们需要的基础环境。

操作系统:Windows 10

Python版本:Python 3.6

代码编辑运行环境:个人推荐PyCharm社区版。

依赖第三方库:

requests:一个方便、简洁、高效且人性化的HTTP请求库

BeautifulSoup:HTML解析库

安装的话,本身步骤并不是很复杂,我们来看看。

1.安装Python运行环境

从python官网可以进行下载

https://www.python.org/downloads/release/python-365/

安装的时候注意选中把python3.6添加到path,然后点击Customize installation

确认pip是选中的

2.安装pycharm

可以从官网下载pycharm社区版,安装教程可以百度

https://www.jetbrains.com/pycharm/download/#section=windows

3.安装第三方依赖库

这里给大家介绍两种安装方式:

第一种是选用pip安装:在cmd中运行pip install requests 或者 pip install bs4

另外一种我们可以借助pycharm安装,在pycharm中选择File->settings->Project Interpreter中,点击右边的+,然后输入我们需要安装的第三方库

这样我们基本爬虫需要的环境就配置好了,那接下来,就开始我们愉快的爬虫之旅吧。

那开始实战之前,我们先来分析一下我们的爬虫需要完成一个什么样的流程

人工抓取页面数据做法

1:打开我们需要分析的网页,我们以豆瓣电影top 250 为例:

https://movie.douban.com/top250

2:确认我们需要保存的数据,我们在这将影片名字,评分和一句话评价保存下来,那就是将每条里面的数据copy并复制下来

3: 因为当前页面只能展示25条,那我们需要对后续的网页进行顺序读取,确认我们将250条都读取出来。

那根据对人工动作的分析,我们可以对我们的程序进行以下分析

1. 我们需要有一个可以爬取页面请求的动作

2. 我们需要对爬取下来的页面进行分析

3. 我们需要对页面请求进行一个循环,将250条数据都爬取下来

那基于这些需求,我们首先需要做的就是对页面请求进行爬取,那在这里,给大家介绍一个页面请求的库,就是requests。

这里是它的基本文档介绍:

https://requests.readthedocs.io/zh_CN/latest/

看它的介绍:Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。就知道这是一个非常简单好用的网络库了。

我们先来看一下怎么爬取第一个网页 (test1.py)

运行一下看看效果

根据打印出来的内容,我们可以看到,第一个网页已经被我们爬取下来了,那接下来,我们就需要分析一下后续网页有什么规律可以让我们使用

第一页:https://movie.douban.com/top250

第二页:https://movie.douban.com/top250?start=25&filter=

第三页:https://movie.douban.com/top250?start=50&filter=

第四页:https://movie.douban.com/top250?start=75&filter=

我们可以看出来,从第二页开始,每一个连接后面都需要一个start的参数,而且是以25递增的,那我们可以对我们的程序进行以25递增的获取页面(test2.py):

到这里,我们已经可以将网页都爬取下来了,那下一步要做的就是对我们需要的内容进行提取了,我们下一次来实现内容提取。

本文所有代码都可以在github上下载,链接地址为:

https://github.com/chrisblue0605/testspider_for_py.git

作  者:Testfan Chris

出  处:微信公众号:自动化软件测试平台

版权说明:欢迎转载,但必须注明出处,并在文章页面明显位置给出文章链接

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容