python简易爬虫(1)--常用工具

最近迷上看小说,网上免费的可以一页一页翻,但是看久了就嫌麻烦,还是希望离线到本地查看。利用python(threading, Queue, urllib2, regex)做了一个简易的爬虫,思路如下。

--threading,实现多线程

--Queue, 实现子线程与主线程通讯,inque负责输入url,outque负责输出任务日志

--urllib2实现下载功能

--regex负责解析,请测提取条目少的话正则的效率优势很明显,现在很多html标签带有特殊属性,便于定位

--另外,如有需要,可自行补充url提取,模拟登录等模块

附上github链接

[novel_spider](https://github.com/dingld/novel_spider.git)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,761评论 6 427
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,174评论 19 139
  • **来源:开源中国 ****链接:http://my.oschina.net/jhao104/blog/64730...
    JackyTsuuuy阅读 3,728评论 0 5
  • 这个秋天 /静静的马颊河 树与树似乎不再亲密 太阳与果实正在远离 秋天拿起时光的笔 静静地圈画走过的轨迹 落叶是暴...
    静静的马颊河阅读 2,713评论 5 17
  • 爱情里的初见定是美好而深刻的,不似“执手相看泪眼,竟无语凝噎”的离愁难舍,也不似“盈盈一水间,脉脉不得语”的那般无...
    不融阅读 3,392评论 0 2

友情链接更多精彩内容