登录注册写文章

python爬虫爬取博客网站并保存至数据库

python爬虫爬取博客网站并保存至数据库

主要是对常用的博客网站进行抓取，目前已完成csdn博客

关键技术：

Requests + BeautifulSoup

url： https://blog.csdn.net/diandianxiyu_geek/article/details/83657231

正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url

数据库表结构：

模拟登陆

Selenium 模拟点击 + send_keys

Cookies格式转换 + session登陆

代码：

结果图：已抓取1000多条数据

错误记录：

#1054 - Unknown column 'tittle' in 'field list'

看似字段tittle不存在于表中，于是找了好一会原因，结果是字段前面少了t，去掉空格就可以正常运行了

TypeError: 'NoneType' object is not subscriptable

没有初始化queue，队列为空

ModuleNotFoundError: No module named '__main__.DBsettings'; '__main__' is not a package

首先在引用的时候要注意: from 文件夹名 import 文件名

然后在代码中执行引入的方法：文件名.方法**

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

面试题
Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨对...
cosWriter阅读 11,161评论 1赞 32
oracle错误集合
ORA-00001: 违反唯一约束条件 (.) 错误说明：当在唯一索引所对应的列上键入重复值时，会触发此异常。 O...
我想起个好名字阅读 5,484评论 0赞 9
极迅云课（服务端教案）
一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容【Python简介】： Python 是一个...
_小老虎_阅读 5,883评论 0赞 10
Python网络爬虫3 - 生产者消费者模型爬取某金融网站数据
博客首发于www.litreily.top 应一位金融圈的朋友所托，帮忙写个爬虫，帮他爬取中国期货行业协议网站中所...
litreily阅读 850评论 0赞 6
117道有关大数据面试题解析，希望对你有所帮助
一.简述如何安装配置apache 的一个开源的hadoop 1.使用root账户登陆 2.修改ip 3.修改hos...
栀子花_ef39阅读 4,994评论 0赞 52

赞1赞

赞赏

手机看全文