python爬虫爬取博客网站并保存至数据库

主要是对常用的博客网站进行抓取,目前已完成csdn博客

关键技术:

Requests + BeautifulSoup

url: https://blog.csdn.net/diandianxiyu_geek/article/details/83657231

正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url

数据库表结构:


模拟登陆

Selenium 模拟点击 + send_keys

Cookies格式转换 + session登陆

代码:

结果图:已抓取1000多条数据

错误记录:

#1054 - Unknown column 'tittle' in 'field list' 

看似字段tittle不存在于表中,于是找了好一会原因,结果是字段前面少了t,去掉空格就可以正常运行了

TypeError: 'NoneType' object is not subscriptable

没有初始化queue,队列为空

ModuleNotFoundError: No module named '__main__.DBsettings'; '__main__' is not a package

首先在引用的时候要注意: from 文件夹名 import 文件名

然后在代码中执行引入的方法: 文件名.方法**

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容