scrapy对爬取的内容进行更新爬取

在爬虫爬取的过程中,第一次爬完了,下次继续爬取,接着上次的爬取,怎么办,例如爬取小说,小说更新了,爬取更新的内容

由于我使用的是mysql数据库,本文采取mysql中的机制进行,存在不爬取,不存在,爬取

在爬虫代码中新增

#这个是链接数据库使用的
db = pymysql.connect(
            host='localhost',
            database='novellist',
            user='root',
            password='123456',
            port=5200,
            charset='utf8mb4',
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=True
        )

#调用mysql中的方法检查mysql中是否存在,不存在更新
url = response.urljoin(chapter_url[0])   #这个是判断条件,可以根据字段进行
with db.cursor() as cursor:    #执行sql
          sql = "SELECT chapter_url from chapter_ceshi where chapter_url=%s"
          cursor.execute(sql,(url))
          result = cursor.fetchone()  #这步一定记住是fetchone
          if result == None:    #这步是,如果数据库中为空,执行下面

直接写在parse方法里就行了

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

scrapy对爬取的内容进行更新爬取

在爬虫爬取的过程中,第一次爬完了,下次继续爬取,接着上次的爬取,怎么办,例如爬取小说,小说更新了,爬取更新的内容

在爬虫代码中新增

相关阅读更多精彩内容

友情链接更多精彩内容