Big Data Landscape

学习情况概要

学习时间：1个月
操作环境：Python版本，2.7；PyCharm版本，2017.1；电脑：Win7
学习资源：『Python爬虫小分队』作业布置

学习过程回顾

我是出于换工作的目的来学习python爬虫的，很幸运的进入到了@向右奔跑的爬虫微信群的学习大家庭中。由于对这门语言了解有限，并且网上也没比较好的学习方法途径，所以自己每天就是跟着老师布置的作业来学习的，目前来看的话这样做入门学习比较好的方法：

了解知识点
结合小项目实际操作理解
群内自主提问答疑

当然最关键的是，老师会根据自己的理解，让大家有重点的学习掌握他认为比较关键的知识点

Python学习课程

我就是根据上图的课程安排来学习的

准备开发环境，Python语法基础#####

在准备开发环境和Python语法基础上自己遇到的困难相对少一些，道理很简单，这个时候大多以看书/视频为主，涉及自己敲代码的机会还不是很多，并且之前自己是有一定的编程基础的，所以这2门课程自己学的还比较顺利，逻辑思维3题训练，虽然万年历这个作业一直没来得及做:(

HTML基础，网页结构特点#####

对于HTML基础，网页结构特点，这一门课程来说，自己属于一笔带过的，实在是学习时间有限，当然这也给后续的学习带来了很多困扰

正则表达式#####

爬虫的核心结构有三点，请求，解析，以及存储
正则表达式就是解析办法的一种，正则的知识点也比较多，一开始花了很大精力去研究，后来发现很多情况用（.*?）去解决就行了，如果想测试自己的正则写的对不对，百度正则表达式测试工具，可以获得结论。在学这门课程的时候，自己投入的时间比较多，并且大多用urllib去解析网页，后来发现这不是后期爬虫的主要方法，有点忧伤T T

BeautifulSoup#####

这是解析网页的另一种办法，利用第三方库来获取url中你想要的东西
find()，find_all()，select()是三种比较常用的方法，我用的比较多的是用select()，按照标签逐层查找到所需要的内容，怎么说呢，BeautifulSoup跟正则表达式来说各有各的好，我也讲不清哪里好，反正能获取你要的东西就行

其余的课程#####

没学

学习总结#

从结果来看，1个月就学了这点东西说实话其实是很少的，问题在于自己的学习时间的确有限，自己把能利用的时间都投入到Python的学习中，可是效率的确低了点。除了时间有限之外，不知道是不是自己的学习方法有问题，我遇到问题时大都一脸懵逼，然后就去百度看别人的代码，一不小心，就把自己的代码全改了，只能说明基础知识掌握的还是太差，解决问题的能力几乎为0。就像写作文的时候，别人拿到个题目就开始奋笔疾书，可我想了半小时，不知道该写点什么。说实话有时候自己也挺有挫败感，第一感觉代码都是抄别人的，自己写不来；第二遇到问题搞了很久就是解决不了，时间都花上去了，问题可没解决。看着其他小伙伴进步飞速，自己颇感压力，不过值得庆幸的是，自己学习欲望还是比较强烈的。回过头来看，自己所学所用还真的只是皮毛，革命尚未成果，同志还需努力啊！
后续学习过程要解决的问题就是，如何在有限的时间内，更高效的学习。
另外提一点，自己在后续学习过程中，私下问@攀攀同学的次数较多，因为之前直播分享如何爬虫的时候，感觉他的声音很友好，好感指数+1。当然@向右奔跑彭老师也很负责，说实话我心里满满的钦佩之情。该有的感谢还是需要表达一下的

学习成果#

虽然效率低了点，但是自己还是较一开始有所进步的
首先自己会爬一些貌似叫静态网页的图片

美女图

其次自己会用BeautifulSoup爬糗百的段子和相关信息，不过很可惜自己还没按自己的想法保存到本地

荤段子

Python！Python！小弟我多久以后才能和你在工作中并肩作战呢？

#我对Python表个白#Python学习30天小结