Mongodb的安装配置
Mongodb的安装包(32位和64位)在群里面,找到适合自己电脑的安装包,双击执行....
另外创建一个文件夹,建议就在C:\Program Files\MongoDB的文件夹下创建db文件夹
启动命令:mongod --dbpath C:\MongoDB\data
32位系统因为引擎的因素需要更改默认引擎:
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1
代码的点评:
-
pymongo的介绍和使用
#连接数据库
conn = pymongo.MongoClient("localhost", 27017)
#获取名字为name的数据库
name = conn.name
name = conn['name']
#获取name数据库的表格
coll = name.coll
coll = name['coll']
-
多线程问题,Pool类的使用
利用Pool类可以提高程序的运行速度,把函数比作流水线,那Pool的功能就会复制流水线,提高工作效率
#声明一个Pool类
pool = Pool()
#使用map函数,将channel_list信息分割,然后逐个放入get_all_links_from函数中去执行
pool.map(get_all_links_from,channel_list.split())
-
断点续传问题
- 在程序运行过程做标记
- 程序启动后主动识别标记,加载爬取进度
爬虫的知识点总结
- 请求链接
- 分析html拿到需要的数据
2.1 数据匹配和提取 - 插入数据
3.1 数据的整理--去重 - 处理网络Bug
- 提高爬虫效率--多线程问题
爬虫框架推荐:Scrapy
Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy框架
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Python教程、教程--传送门