大家好,今天呢,我们来教大家如何用“Python爬虫”来获取网页中的内容。下面我将以一个小说网站为例来具体实现。
环境配置
- 下载Anaconda3并完成安装
- 找到Anaconda3中Scripts文件夹下"idle.exe"
- 打开"idle.exe",新建一个后缀名为".py"文件
- 打开新建的".py"文件,删除初始内容,在当前文件中完成编程
编程实现
- 导入读取网页的
urllib.request
模块和正则表达式re
模块
import urllib.request as req
import re
- 定义一个变量来接收目标网址,再定义一个变量来接收打开后的网页内容,并用相应的编码来进行解码接收
data = req.urlopen(url).read().decode('gb18030')
- 运行当前代码,用
print
方法查看输出结果,找到想要获取的内容,寻找包裹内容的关键词,利用re
模块的findall
方法来读取其中的内容并用一个变量接收 - 运行代码,用
print
方法查看输出结果,利用“repalce”方法删除其它内容 - 用
print
方法查看输出结果
具体实现代码如下:
import urllib.request as req
import re #导入模块
url = 'https://www.farpop.com/0_4/771708.html' #操作网页的网址
data = req.urlopen(url).read().decode('gb18030') #获取解码后的网页内容
i = re.findall(r'<div id="content">(.*?)</div>',data,re.S) #获取想要的内容
fi = i[0]
#删除其它内容
fi = fi.replace(' ','')
fi = fi.replace('<br />','')
fi = fi.replace('<script>readx();</script>','')
#查看输出结果
print(fi)
最终获取到的内容如下图:
小说内容