登录注册写文章

第一个爬虫

第一个爬虫

在慕课网上学习了简单的爬虫该怎么写，看了一遍，敲了一遍，还是有些迷糊，于是，又把每一步的要点总结了一下。

课程地址：http://www.imooc.com/video/10674

###### spider_main

1.编写入口函数（main函数）

（1）设置要爬取的入口url

（2）通过SpiderMain（）创建一个spider

（3）调动spider的craw方法启动爬虫

（4）创建SpiderMain（）这个class，并创建craw（）函数

（5）在构造函数中初始化url管理器，下载器，解析器，输出器

（6）创建并初始化各个class并import他们

（7）在craw（）方法中将入口url添加进url管理器

（8）创建循环获取url管理器中的一个待爬取url

（9）下载页面存储到html_cont

（10）通过parser解析（new_url,html_cont）创建new_urls,new_data(新链接和新数据)

（11）outputer收集数据

（12）调用outputer的output_html（）输出收集到的数据

（13）创建各个方法

（14）创建count，记录爬取了第几个url

（15）加判断，1000个爬取后停止

（16）加异常处理，加到try块中

###### url_manager

（1）在构造函数中创建new_urls和old_urls

1.在add_new_url中

（1）判断url是否为空

（2）若url既不在new_urls中也不在old_urls中，add进new_urls

2.在add_new_urls中

（1）判断url是否为空或长度是否为0

（2）通过循环，将url加入new_urls（调用add_new_url）

3.在has_new_url中

（1）判断url是否为0，并返回

4.在get_new_url中

（1）通过pop函数获取待爬取url

（2）将获取的url放入old_urls

（3）返回获取到的url

###### HtmlDownloader

1.在download函数中

（1）判断url是否为空

（2）通过urllib的urlopen打开url

（3）通过判断getcode（）是否为200 判断请求是否成功

（4）若成功，返回read（）

###### HtmlParser

1.在parse中

（1）判断page_url和html_url

（2）创建soap，加载cont

（3）创建两个本地方法，获取urls和data

（4）实现两个方法,并返回

2.在_get_new_urls中

（1）通过soup获取所有的链接（用正则表达式）

（2）通过循环，将所有链接放入link['href']

（3）将不完整的链接拼接（通过urljoin）

（4）将链接添加到new_urls,返回new_urls

3.在_get_new_data中

（1）建立res_data存放title和summary数据

（2）建立title_node，summary_node

（3）通过soup，提取数据

（4）将数据提取出来，放入res_data中

（5）将url也放入res_data

（6）返回res_data

######Outputer

1.在构造函数中初始化，建立列表维护数据

2.在collect_data中

（1）判断数据是否为空

（2）不为空就加入到self.datas

3.在output_html中

（1）建立文件输出对象

（2）加入html，body，table标签和他们的闭合标签

（3）在每一行中，输出data的url，title，summary

（4）用encode将编码规则变为utf-8

最后编辑于：2017.12.05 13:06:16

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,032评论 19赞 139
编写第一个爬虫
1.定义Item Item 是保存爬取到的数据的容器；其使用方法和 python 字典类似。您可以通过创建一个 ...
SingleDiego阅读 1,006评论 0赞 1
2.1开始第一个爬虫程序
1. 安装IDE以及hello world 一个优秀的IDE可以极大地提高工作效率，在这里我选择使用JetBrai...
flywith24阅读 586评论 0赞 0
第一个爬虫
#第一个爬虫 --- 今天写了第一个爬虫，几点困难： 1. 开发环境设置: py3.5 vs py2.7，anac...
林六如阅读 498评论 0赞 0
小试牛刀——自己的第一个爬虫实践
文集名字已经改成《蜘蛛结网》了，那么这个专题下不限于课程学习的练习题，也有自己的练手和札记。最近去爬了一个留学服务...
mugichya阅读 353评论 0赞 1

赞1赞

赞赏

手机看全文