主要是对常用的博客网站进行抓取,目前已完成csdn博客
关键技术:
Requests + BeautifulSoup
url: https://blog.csdn.net/diandianxiyu_geek/article/details/83657231
正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url
数据库表结构:
模拟登陆
Selenium 模拟点击 + send_keys
Cookies格式转换 + session登陆
代码:
结果图:已抓取1000多条数据
错误记录:
#1054 - Unknown column 'tittle' in 'field list'
看似字段tittle不存在于表中,于是找了好一会原因,结果是字段前面少了t,去掉空格就可以正常运行了
TypeError: 'NoneType' object is not subscriptable
没有初始化queue,队列为空
ModuleNotFoundError: No module named '__main__.DBsettings'; '__main__' is not a package
首先在引用的时候要注意: from 文件夹名 import 文件名
然后在代码中执行引入的方法: 文件名.方法**