一个爬freebuf所有历史文章的爬虫

Freebuf-Spider

一个抓取freebuf所有栏目的文章的爬虫,以离线网页形式展现,上传了一些爬取好的结果

程序运行方式

  python freebuf.py
  • 输入文件名:输入要生成的html文件的文件名
  • 输入栏目网址:freebuf文章分成了很多栏目,在分类阅读里面可以获取每个栏目的网址
  • 该栏目总共有多少页:在栏目网址后面加上 /page/页数
http://www.freebuf.com/sectool    -->
http://www.freebuf.com/sectool/page/100

如果返回是


说明这个栏目没有这么多页,写程序的二分法不用我教吧,用这个方法可以快速得出总页数,然后填上即可

需要模块

  import requests
  import re
  import urllib

输出结果

暂时爬取了三个栏目放在这里,大家可以看下效果,自己可以动手爬其他的

终端安全

可以看到freebuf终端安全的文章从建站到现在全部在这里了

安全工具合集

下载

程序和生成结果在这里下载!

各位给个star吧(●'◡'●)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,227评论 25 708
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,908评论 18 139
  • 或许生活更适合无心的人 不在乎也就不痛苦 父母会说“你足够优秀了” 然后 不断不断地给我他们认为能让我变得更优秀...
    箜鹤阅读 151评论 0 0
  • 很多人最惧怕事实,一个大学同学最近因为家庭婆媳妯娌矛盾与我讨论,事实是她也有错!当我一语道破她却沉默了,于...
    圣花如许尚念愁阅读 194评论 0 0
  • 答案选A:15+31=46 代码的例题请看浅谈求解最大流的方法 例题2最大流问题
    野狗子嗷嗷嗷阅读 1,148评论 0 0