轻量级爬虫架构（一）

哈哈哈，我来迟了......
首次接触，发现有好多知识需要再去学习，比如练习时，把数据存入数据库的管理工具PhpMyAdmin使用方法，重拾SQL语句，解析所需要用到的第三方插件BeautifulSoup的安装等等，学海无涯啊!
这一周，学习了一些简单的爬虫架构，借着学姐的成果http://www.jianshu.com/p/6b90689d6342 尝试着，利用python爬取广西科技大学教务管理信息系统班级课表。
通信的童鞋们，下学期的课表来了！

（一）什么是爬虫？
爬虫：一段自动抓取互联网的程序。从一个URL页面出发，同时访问到与其相关联的页面，获取我们所需要的有价值的数据，再利用数据，创造出更多的有利地产品。

（二）爬虫架构
目前，在我的认识里，把其分为简单的和复杂的爬虫。
复杂：
a、用户登录了以后才可以访问的
b、有些网页是使用JavaScript，异步加载的内容
简单（本次所要介绍的）：
不需要登录的静态网页抓取，通俗点儿，就是人人都可以看到的页面
A、运行流程图

1.调度器向URL管理器询问是否有待爬取的页面？
2.若有，则它获取一个。并用下载器进行下载URL内容
3.利用第三方插件BeautifulSoup对内容解析，解析出价值数据
4.再将数据进行应用
B、步骤分解
1.URL管理器：管理待爬取的URL集合和已经爬取过的URL集合，防止重复、循环抓取
2.网页下载器：将互联网上URL对应的网页下载到本地的工具
关于下载器，Python有自带的urllib2可以基本上应付得了。但是，为了有时需要我把Python 2.X和3.X两个版本都安装上了。
urllib2下载网页的三种方法：
a、最简洁的方法：