第二周

第二周

Mongodb的安装配置

Mongodb的安装包(32位和64位)在群里面，找到适合自己电脑的安装包，双击执行....
另外创建一个文件夹，建议就在C:\Program Files\MongoDB的文件夹下创建db文件夹
启动命令：mongod --dbpath C:\MongoDB\data
32位系统因为引擎的因素需要更改默认引擎：
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1

代码的点评：

pymongo的介绍和使用

#连接数据库
conn = pymongo.MongoClient("localhost", 27017)
#获取名字为name的数据库
name = conn.name
name = conn['name']
#获取name数据库的表格
coll = name.coll
coll = name['coll']

多线程问题，Pool类的使用

利用Pool类可以提高程序的运行速度，把函数比作流水线，那Pool的功能就会复制流水线，提高工作效率

#声明一个Pool类
pool = Pool()
#使用map函数，将channel_list信息分割，然后逐个放入get_all_links_from函数中去执行
pool.map(get_all_links_from,channel_list.split())

断点续传问题

在程序运行过程做标记
程序启动后主动识别标记，加载爬取进度

爬虫的知识点总结

请求链接
分析html拿到需要的数据
2.1 数据匹配和提取
插入数据
3.1 数据的整理--去重
处理网络Bug
提高爬虫效率--多线程问题

爬虫框架推荐：Scrapy

Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy框架

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如 BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Python教程、教程--传送门

最后编辑于：2017.12.04 05:12:03

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

第二周

Mongodb的安装配置

代码的点评：

pymongo的介绍和使用

多线程问题，Pool类的使用

断点续传问题

爬虫的知识点总结

爬虫框架推荐：Scrapy

推荐阅读更多精彩内容

友情链接更多精彩内容