python爬虫数据入库时注意事项

小技巧1

数据入库时,可能会有重复,如果从python上面无法解决这个问题,可以采取数据库摄者主键的方式,例如 爬取的网址为a,b,c, 那么设置主键a b d,在数据库中这样的话就会保证数据项不会重复

具体实现过程如下

    import pymysql.cursors
    import pymysql.err
    try: #处理当插入重复的url地址的时候 会报错 然后继续运行
        cursor.execute(insert_sql, item_list)
        connection.commit()

    except pymysql.err.IntegrityError:
        print('出现数据重复')
        pass
    cursor.close()
    connection.close()
小技巧2

出现一条数据为列表的方式返回的 ,使用for循环的话不太美观
那么

#注意xpath语句返回的是一个列表,这样就可以把他们连接起来 ' '.join() 
#其中strip()去处字符串中的换行符和空格使数据更加美观,节省存储内存
''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 13,410评论 0 13
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,222评论 2 89
  • 风来过,雨落下。 爆满的河水, 卷起岸边垂落的枯枝, 带走它, 也带走一片混黄。 挺立的梧桐, 撒下枝头的雨水, ...
    遇安哲阅读 1,229评论 0 0
  • 喜闻乐见之Activity生命周期 Activity的生命周期,对于Android开发者来说,再熟悉不过了。但是我...
    Q吹个大气球Q阅读 4,166评论 0 6
  • 无论哪个层级的管理者,基本上都要做决策。就算过年是买些年货还是发个红包,都要做决策。 但是管理者如何做决策呢?我认...
    独孤三少阅读 3,858评论 1 0

友情链接更多精彩内容