Python-抓个包就跑

        学习过程就是不断练习,总结的过程,既然手持利器,自然要多多练习(搞点事情)。在网上浏览网页的时候看到一个有意思的网站,里面的很多动图挺有趣的,就像下面这个大叔一样有趣,于是本着自己动手,丰衣足食的原则,写下了这个爬虫,一是用于娱乐,二也是实践知识。下面将介绍裸奔版和穿衣版,两个版本对应不同的需求。

裸奔版:

何谓之裸奔版,顾名思义,不给程序穿上任何防护衣,程序要么撞坑死,要么电脑停电,或者极少数情况下,完成任务,功成身退。

天将将大任于斯人也,必先劳其筋骨,饿其体肤,使其裸奔,故我用裸奔版。

首先引入我们需要的模块:

裸奔版有三大函数

get_html函数:

        该函数用于获取网页源码,在其他函数中会多次调用,函数伪装了头部,会以google浏览器的马甲发起请求

download_html函数:

        该函数通过正则表达式分析指定的页面,获取我们所需要用于下载的url

downpage函数:

        该函数接受download_html函数产生的url,函数主要包含两个方面:获取网页并解析出jpg和gif链接,下载jpg和gif文件。


启动:

        不用解释,跑起来

使用说明:

        程序仅仅调用了随安装python时一起配置的模块,使用特别简单,只需要将代码复制到你的电脑上运行即可,或者直接从我的github上下载文件。我的Github>>>点这里<<<欢迎来star,随手点个赞。

        裸奔版适合短时间抓取,方便省事。缺点就是跑到中途断电了,你会抓瞎。


穿衣版:

        该版本以上面的版本为核心,加入了mysql数据库用于记录jpg和gif链接,一是预防断网断电的情况,二是可以存储所有链接,三是可以随时更新你的图片库而不用重复下载(由于我很酷,这个功能我没做),基于以上种种的好处,加入了mysql的穿衣版就诞生了。穿衣版有3个文件

get_url_toMysql.py文件用于将图片链接保存到mysql数据库中,首先运行这个文件。

down_from_mysql.py文件用于读取数据库获取链接并下载,等get_url_tomysql.py运行完毕就可以运行这个文件

create.sql用于在数据库中创建相应的表

准备好这些工具:

        1.安装好mysql数据库,设置成自启动

        2.通过pip下载好pymysql模块

使用说明:

1.导入create.sql文件,在你的数据库中创建urls表

2.将down_from_mysql.py第14行和get_url_tomysql.py第58行改成你自己的数据库账户,只需修改user,password,db,db为你创建urls表的数据库名称

所有的文件均来自我的Github,传送门如下:

https://github.com/Csharing/spider/tree/master/fuliba/use_mysql

最后送上傲娇女神一枚,欢迎到我的Github点赞(star)

------------------------------------------------如果遇到不理解的部分欢迎私信我

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,567评论 6 427
  • 22年12月更新:个人网站关停,如果仍旧对旧教程有兴趣参考 Github 的markdown内容[https://...
    tangyefei阅读 35,224评论 22 257
  • 环境管理管理Python版本和环境的工具。p–非常简单的交互式python版本管理工具。pyenv–简单的Pyth...
    MrHamster阅读 3,850评论 1 61
  • GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广。awesome-p...
    若与阅读 18,751评论 4 418
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,933评论 18 139