Python入门——教你用爬虫获取网页内容

大家好,今天呢,我们来教大家如何用“Python爬虫”来获取网页中的内容。下面我将以一个小说网站为例来具体实现。

环境配置

  1. 下载Anaconda3并完成安装
  2. 找到Anaconda3中Scripts文件夹下"idle.exe"
  3. 打开"idle.exe",新建一个后缀名为".py"文件
  4. 打开新建的".py"文件,删除初始内容,在当前文件中完成编程

编程实现

  1. 导入读取网页的urllib.request模块和正则表达式re模块
import urllib.request as req
import re
  1. 定义一个变量来接收目标网址,再定义一个变量来接收打开后的网页内容,并用相应的编码来进行解码接收
data = req.urlopen(url).read().decode('gb18030')
  1. 运行当前代码,用print方法查看输出结果,找到想要获取的内容,寻找包裹内容的关键词,利用re模块的findall方法来读取其中的内容并用一个变量接收
  2. 运行代码,用print方法查看输出结果,利用“repalce”方法删除其它内容
  3. print方法查看输出结果
具体实现代码如下:
import urllib.request as req
import re                        #导入模块
url = 'https://www.farpop.com/0_4/771708.html'  #操作网页的网址
data = req.urlopen(url).read().decode('gb18030')  #获取解码后的网页内容
i = re.findall(r'<div id="content">(.*?)</div>',data,re.S)  #获取想要的内容
fi = i[0]
#删除其它内容
fi = fi.replace('&nbsp;','')
fi = fi.replace('<br />','')
fi = fi.replace('<script>readx();</script>','')
#查看输出结果
print(fi)
最终获取到的内容如下图:
小说内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容