scrapy对爬取的内容进行更新爬取

在爬虫爬取的过程中,第一次爬完了,下次继续爬取,接着上次的爬取,怎么办,例如爬取小说,小说更新了,爬取更新的内容

由于我使用的是mysql数据库,本文采取mysql中的机制进行,存在不爬取,不存在,爬取

在爬虫代码中新增
#这个是链接数据库使用的
db = pymysql.connect(
            host='localhost',
            database='novellist',
            user='root',
            password='123456',
            port=5200,
            charset='utf8mb4',
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=True
        )

#调用mysql中的方法检查mysql中是否存在,不存在更新
url = response.urljoin(chapter_url[0])   #这个是判断条件,可以根据字段进行
with db.cursor() as cursor:    #执行sql
          sql = "SELECT chapter_url from chapter_ceshi where chapter_url=%s"
          cursor.execute(sql,(url))
          result = cursor.fetchone()  #这步一定记住是fetchone
          if result == None:    #这步是,如果数据库中为空,执行下面

直接写在parse方法里就行了

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 178,979评论 25 709
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,289评论 2 89
  • 文\再忆苏年 若你曾经认认真真的爱过某一个灵魂,无论那个灵魂怎么作践你的爱与守护,还是求而不得后,若你曾经认认真...
    浅中书阅读 1,005评论 4 15
  • 这两天有部大火的国产剧——《我的前半生》,因为有男神靳东和一票实力派演员,一向对小三题材影视作品不感兴趣的我也跟着...
    Lewa派阅读 416评论 0 1
  • 转眼之间,父亲当村官快三十年了。从我记事起,他就是一名村官,他没有编制,是个“假”的干部。 可是在我心中,父亲,是...
    周钰2017阅读 921评论 5 6

友情链接更多精彩内容