初学Python,看了Coursera上的学习视频后蠢蠢欲动,于是去爬了盗版小说网站。此举十分不得体,仅供学习参考,平时还是支持正版。
1.首先观察一下网站
查阅每一章内容的时候,就是把每一页的链接拼接到首页的链接后面。然后分析每一章页面以及下载。
分析结束,把整个过程分为访问首页、解析首页、获取每一章节链接、通过链接访问每一章、解析具体某一章内容并写入txt中。
2.访问首页
3.解析首页,获取每一章节链接
4.通过链接访问每一章
5.解析具体某一章内容并写入txt
不足之处:
1.没有写header,可能会被封IP
2.下载下来的时候文本内容还有一些html页面标签
3.单线程下载