Scrapy duplicates filter

Duplicates filter

A filter that looks for duplicate items, and drops those items that were already processed. Let’s say that our items have a unique id, but our spider returns multiples items with the same id:

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

rljs
rljs by sennchi Timeline of History Part One The Cognitiv...
sennchi阅读 12,164评论 0赞 10
pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 13,166评论 0赞 13

Android Lint 检查项目列表
Correctness AdapterViewChildren Summary: AdapterViews can...
MarcusMa阅读 12,871评论 0赞 6
2003-2014考研真题
**2014真题Directions:Read the following text. Choose the be...
又是夜半惊坐起阅读 13,487评论 0赞 23
糕dy带你玩kong-oauth2(dashboard+docker)四种授权方式🐒
参考： OAuth 2.0 Authorization Framework: https://tools.ietf...
GoddyWu阅读 6,200评论 0赞 1

赞1赞

赞赏

手机看全文