学习过程就是不断练习,总结的过程,既然手持利器,自然要多多练习(搞点事情)。在网上浏览网页的时候看到一个有意思的网站,里面的很多动图挺有趣的,就像下面这个大叔一样有趣,于是本着自己动手,丰衣足食的原则,写下了这个爬虫,一是用于娱乐,二也是实践知识。下面将介绍裸奔版和穿衣版,两个版本对应不同的需求。
裸奔版:
何谓之裸奔版,顾名思义,不给程序穿上任何防护衣,程序要么撞坑死,要么电脑停电,或者极少数情况下,完成任务,功成身退。
天将将大任于斯人也,必先劳其筋骨,饿其体肤,使其裸奔,故我用裸奔版。
首先引入我们需要的模块:
裸奔版有三大函数
get_html函数:
该函数用于获取网页源码,在其他函数中会多次调用,函数伪装了头部,会以google浏览器的马甲发起请求
download_html函数:
该函数通过正则表达式分析指定的页面,获取我们所需要用于下载的url
downpage函数:
该函数接受download_html函数产生的url,函数主要包含两个方面:获取网页并解析出jpg和gif链接,下载jpg和gif文件。
启动:
不用解释,跑起来
使用说明:
程序仅仅调用了随安装python时一起配置的模块,使用特别简单,只需要将代码复制到你的电脑上运行即可,或者直接从我的github上下载文件。我的Github>>>点这里<<<欢迎来star,随手点个赞。
裸奔版适合短时间抓取,方便省事。缺点就是跑到中途断电了,你会抓瞎。
穿衣版:
该版本以上面的版本为核心,加入了mysql数据库用于记录jpg和gif链接,一是预防断网断电的情况,二是可以存储所有链接,三是可以随时更新你的图片库而不用重复下载(由于我很酷,这个功能我没做),基于以上种种的好处,加入了mysql的穿衣版就诞生了。穿衣版有3个文件
get_url_toMysql.py文件用于将图片链接保存到mysql数据库中,首先运行这个文件。
down_from_mysql.py文件用于读取数据库获取链接并下载,等get_url_tomysql.py运行完毕就可以运行这个文件
create.sql用于在数据库中创建相应的表
准备好这些工具:
1.安装好mysql数据库,设置成自启动
2.通过pip下载好pymysql模块
使用说明:
1.导入create.sql文件,在你的数据库中创建urls表
2.将down_from_mysql.py第14行和get_url_tomysql.py第58行改成你自己的数据库账户,只需修改user,password,db,db为你创建urls表的数据库名称
所有的文件均来自我的Github,传送门如下:
https://github.com/Csharing/spider/tree/master/fuliba/use_mysql
最后送上傲娇女神一枚,欢迎到我的Github点赞(star)
------------------------------------------------如果遇到不理解的部分欢迎私信我