登录注册写文章

【爬虫实例】腾讯课堂分销数据

【爬虫实例】腾讯课堂分销数据

用爬虫抓取腾讯课堂分销的公开数据，验证分销是否可行。

目标网址为：https://ke.qq.com/sale.html

一、系统环境

$\bullet$ win7

$\bullet$ Python 3.8（64bit）

$\bullet$ scrapy 2.0.1

二、思路分析

提取字段：课程名称、所属分类、课程价格、提成比例、成功分销

难点：分页为动态加载，常规方法拿不到数据

技术上的主要实现思路：用scrapy爬虫框架，使用selenium模拟人类操作浏览器，便于规避网页中的动态加载问题。

三、实现步骤

3.1 创建项目

1、在cmd命令中输入：cd desktop 先将文件切换至桌面

2、在cmd命令中输入：scrapy startproject tengxun，在桌面生成了一个名称为“tengxun”的文件。

3、在cmd命令中输入：cd tengxun，将文件切换至tengxun文件夹

4、在cmd中输入：scrapy genspider -t crawl tengxun_spider ke.qq.com，用crawl方法可以使用正则匹配对应网址（这次应该用不到）

3.2编写代码

1、用pycharm打开文件，结构如图：

2、在tengxun_spider编写主要代码：

在爬取过程中发现有时点击下一页会报错，最后换了一种写法，恢复正常，测试爬取100页无问题。

3.3其他配置

1、在setting中将其配置为False，原本为True

2、配置useragent防止被封

在此处配置useragent，查看下本机的useragent：

配置完之后的样子：

3、去item里面，定义下字段：

4、为了避免每次都去cmd中执行，新建一个Python程序，这样可在pychram中执行。

到这里，就可以看结果了，目前只爬了3页数据，先测试一下，大家到时可根据自己需要进行修改。打印结果如下：

四、数据入库

将数据放进数据库中：

1、在mysql中新建表，命名为“tengxun”

2、在pipline中进行配置

3、在setting中进行配置：

4、运行程序后，数据成功入库：

最后编辑于：2020.04.22 10:04:50

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

9.2 scrapy安装及基本使用
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。安装...
怂恿的大脑阅读 1,311评论 0赞 7
DC-01:爬虫框架scrapy入门
本主题主要是scrapy入门，包含内容如下： 1. Scrapy框架环境搭建； 2. 理解scrapy框架结...
杨强AT南京阅读 1,411评论 0赞 10
scrapy基础入门
写在前面的话，我这个人虚荣心强 1.scrapy 的安装 1.scrapy 依赖的包太多，所以我建议使用anaco...
不要让用户想昵称阅读 870评论 0赞 3
2020.1.17 又是一年总结
已经有半月的时间没有录播音频节目了，每天都忙忙碌碌，好久没有这样忙碌的工作了。虽然忙碌但是很充实，这就是所谓的痛...
理智的坏蛋阅读 313评论 2赞 9
快乐寒假，安全第一
2018.01.24日早上，由班主任老师给全班同学再次强调了有关假期安全！俗话说：“安全重于泰山”，...
灵武133杨晓玲阅读 513评论 0赞 0

赞1赞

赞赏

手机看全文