python爬取斗破苍穹小说

通过python批量自动化下载斗破苍穹小说

效果是这样的

效果展示1
效果展示2

我的代码

import re
import urllib.request
import time

url='http://www.liewen.cc/b/0/18/'
def get_list_link(url):
    web_open=urllib.request.urlopen(url)
    web_html=web_open.read().decode('gbk')
#     time.sleep(1)
    # print(web_html)
    reg=re.compile(r'<dd><a href="(.*?)">(.*?)</a></dd>')
    list_links=re.findall(reg,web_html)
#     print(list_links)
    num=0
    for link in list_links:
        full_link='http://www.liewen.cc'+link[0]
        title=link[1]
#         print(full_link,title)
        num=num+1
        filename='E:/novel/{}.{}.txt'.format(num,title)
        print('正在下载:%s,访问链接是:%s'% (title,full_link))
        with open(filename,'a') as f:
            f.write(title+'\n')
        get_detail_info(full_link,filename)
        #return full_link
def get_detail_info(url,filename):
    web_data=urllib.request.urlopen(url)
    web_html=web_data.read().decode('gbk')
    # print(web_html)
    reg=re.compile('<div id="content">    (.*?)</div>')
    detail_infos=re.findall(reg,web_html)
    if detail_infos:
        clean_infos=detail_infos[0].replace('<br /><br />    ','\n')
    #     print(clean_infos)
        with open(filename,'a') as F:
            F.write(clean_infos)


if __name__=='__main__':
    get_list_link(url)

总结

  • 爬虫思路-获取多页访问链接->获取每页图片链接->正文下载;
  • 正则表达式的使用;
  • format与with open as语法的使用;
  • 编码方式调整;
  • urllib.request与re模块的使用。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,210评论 45 523
  • 本内容为《用Python写网络爬虫》书籍内容,有兴趣的读者可以购买本书,本章的代码皆可在Python3中运行。为了...
    海人为记阅读 6,732评论 0 5
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,850评论 19 139
  • 假如我的生命不曾来过 文/田田 假如我的生命不曾来过 快乐不会来敲门 悲伤也不会来打扰 多愁善感的心不知道...
    田萍阅读 2,540评论 0 2
  • 文 图 / 末朔 黑马河是我两次入住的地方! 今天7月24号了,环湖第二天,也是骑行第五天,路线规...
    北辰足迹阅读 1,733评论 5 5

友情链接更多精彩内容