登录注册写文章

Python入门——教你用爬虫获取网页内容

花落随风飞

Python入门——教你用爬虫获取网页内容

大家好，今天呢，我们来教大家如何用“Python爬虫”来获取网页中的内容。下面我将以一个小说网站为例来具体实现。

环境配置

下载Anaconda3并完成安装
找到Anaconda3中Scripts文件夹下"idle.exe"
打开"idle.exe"，新建一个后缀名为".py"文件
打开新建的".py"文件，删除初始内容，在当前文件中完成编程

编程实现

导入读取网页的urllib.request模块和正则表达式re模块

import urllib.request as req
import re

定义一个变量来接收目标网址，再定义一个变量来接收打开后的网页内容，并用相应的编码来进行解码接收

data = req.urlopen(url).read().decode('gb18030')

运行当前代码，用print方法查看输出结果，找到想要获取的内容，寻找包裹内容的关键词，利用re模块的findall方法来读取其中的内容并用一个变量接收
运行代码，用print方法查看输出结果，利用“repalce”方法删除其它内容
用print方法查看输出结果

具体实现代码如下：

import urllib.request as req
import re                        #导入模块
url = 'https://www.farpop.com/0_4/771708.html'  #操作网页的网址
data = req.urlopen(url).read().decode('gb18030')  #获取解码后的网页内容
i = re.findall(r'<div id="content">(.*?)</div>',data,re.S)  #获取想要的内容
fi = i[0]
#删除其它内容
fi = fi.replace('&nbsp;','')
fi = fi.replace('<br />','')
fi = fi.replace('<script>readx();</script>','')
#查看输出结果
print(fi)

最终获取到的内容如下图：

小说内容

最后编辑于：2019.01.02 17:09:44

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python 面向对象
Python 面向对象Python从设计之初就已经是一门面向对象的语言，正因为如此，在Python中创建一个类和对...
顺毛阅读 4,267评论 4赞 16
python基础总结
一、快捷键 ctr+b 执行ctr+/ 单行注释ctr+c ...
o_8319阅读 5,910评论 2赞 16
极迅云课（服务端教案）
一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容【Python简介】： Python 是一个...
_小老虎_阅读 5,926评论 0赞 10
钢琴比赛（二）
早晨五点多就醒了，睡不着，想着今天的比赛：昨晚一个多小时的练习把重点部分又进行了强化，但始终不够完美，已到这个时候...
绚烂秋叶阅读 323评论 0赞 2
[AVFoundation]图像捕获和视频录制
原文：AVFoundation Programming Guide 写在前面简单翻译一下AVFoundation...
朦胧1919阅读 6,354评论 1赞 14

12赞13赞

赞赏

手机看全文