小白的记录,写给自己
没有任何编程基础,C都没学过。
花了两周多,把廖大的教程草草过了,直接跳过web部分。然后开学了。
复习了一周数据结构。开始写爬虫。
第一个爬虫其实是 天涯论坛。大概三周前多一点,刚学会点正则表达式(其实是最简单的(.*?)),背着大电脑到图书馆,然后对着崔庆才大神的教程鼓捣半天,最后终于弄出来了,感觉整个世界都亮了。
然后去爬糗事百科,接着是百度贴吧旅行贴的图片,随便输入帖子号便可打印评论和下载图片(顺便还发现了两有趣的贴)
最开始是urllib2、re,慢慢开始学 requests、BeautifulSoup、xpath。
期间还把《图解http》看了。
然后在 CSDN上写博客,记录小项目。小项目前顺手加个"python 网络爬虫入门(一\二\三)",骗骗一样刚学的盆友也好增加浏览量,好吧承认我是个小心机~ _
开始用上面的富文本编辑器,不知道为啥页面一团糟。后面注册了简书帐号,发现markdown编辑器不要太好用,简书界面也友好,爱上了。后面发现CSDN也有markdown编辑器,于是每次先在简书上排版,发布,最后复制粘贴到CSND,
嘻嘻我简直机智~
研究了三天多pixabay,最后做了个"图片下载神器",速度飞快。后面发现特么的获取的不是原图啊,赶紧地将大标题改成“一个简陋的下载器”,尴尬。
获取不到高清原图当然不服气,尤其是pixabay这种高人气网站。
然后试着破解pexels,成了。
(为了爬外网还专门买了一个月vpn)
原来图片API在源码里,新鲜不已。虽然单线程有些慢,终于是实际意义上的下载器。开始羞耻哒在Github上放自己的代码(说bug也行吧[小白式捂脸])。
Pycharm这个编辑器确实很好用,就是界面太。。。于是动手修改Pycharm设置 ,改了一下午加一晚上,变成这样,个人觉得清新又护眼~
前阵子川大掀起“玻璃杯事件”,盛况空前。做了个爬虫爬info神回复前100条,“史上最全,拿走不谢”,抛到空间和朋友圈,小伙伴们都惊呆了,顺便骗了不少浏览量。通过这个爬虫学会了抓包,原来破解动态网页不止selenium和PhantomJS。
也遇到很多问题,基本上是自己想+查笔记+百度+知乎+csdn+stackoverflow解决的。
用selenium爬教务网失败。改用抓包,加上stackoverflow上偷来的奇淫巧计,顺利爬取 教务处成绩并保存至excel,仅用代码30余行。竟然开始有人浏览我写的东西,还收到几个赞,开心_
看到好多大神爬电商、招聘网站,分析数据起来有模有样,心动了。于是去爬 拉勾网,用BDP搞了个 小型数据分析。花了一晚上分析网站,主要用到抓包和Cookies,没学到scrapy所以有一点慢。3万多数据,没见过世面的小白还有些小激动~
做了一些图表效果还行(BDP大法吼啊)。
不得不说用简书记录项目,还是很费时间的,不过感觉也受了不少锻炼,尤其在总结思路、逻辑编排这几个方面。通过记录项目中的问题和解决思路,加深巩固了知识点。
</br>
最后总结一下:
这一个月,感觉也是断断续续,
毕竟本专业还要上课,主要通过
看教程、做笔记、写博文构建知识体系,通过小项目驱动学习
首先还是有收获
1、乐趣。发现了自己的兴趣原来在编程,爬虫简直打开了一个新世界。
每一次爬虫,就像升级打怪,万一通关,成就感满满。(反正比做实验好玩多了)
2、从迷茫到很忙。发现编程这一行牛人好多,自己要学的东西也好多呀。
3、告别依赖。貌似开始学会自己独立思考、解决各种问题,有自己的想法很重要,再不济“它山之石,可以攻玉”。
问题也不少
1、感觉爬虫 上手快精通难,深入学习的动力貌似不足,基础存在漏洞
2、专注度不够 效率很低,要是有大神带带就好啦
3、写的是技术文,却发现自己貌似渐渐奔往 段子手 的路上,怎么回事?
一个月的爬虫学习,算是入门了吧。
接下来就是学习PhtomJS动态页面、模拟登录破解验证码、多线程、Scrapy及mongodb数据库等等,太多太多得慢慢来。
不管怎么样,做自己喜欢的事情,真好。
4月11日添:
于4月10日,新开通知乎专栏:https://zhuanlan.zhihu.com/Waking-up
这是后话了。