廿捌-原爬虫项目加入客制化内容,Python 读取 URL 域名

1. 把客制化内容加到原爬虫中

冲凉前刚完成客制化爬虫:
廿柒- 客制化爬虫以及爬虫调参
冲完凉转瞬一想就觉得还是把他加到原爬虫不用维护两个相似的项目了,不是更好?

2. 在原项目上更新客制化的内容

廿陆- Python 爬虫 异步改为同步加多进程 以及 某著名社交网站爬虫设想
加入增加内容。

2.1 首先需要做的就是读取Python域名

分解域名才是重点,这里我参考文章:
Python从URL中提取域名
然后直接在处理链接时放入以下代码中:


    def AddToDB(self, strHref,strInCurPageURL):
        # print(strHref)
        if not strHref is None:
            urlCurPageURL=urlparse(strInCurPageURL)
            strCurLoc=urlCurPageURL.scheme+'://'+urlCurPageURL.netloc
            strRealInsert=strHref
            if len(strHref)>4:
                if strHref[:4] != 'http':
                    if strHref[1] == '/':
                        strRealInsert=urlCurPageURL.scheme+':'+strHref
                    elif strHref[0] == '/':
                        strRealInsert=strCurLoc+strHref
                else:
                    strRealInsert=strHref
            bolHttps = ('http://' in strRealInsert or 'https://' in strRealInsert)
            strCleanURL=self.CleanURL(strRealInsert)
            if bolHttps:
                if not self.objMongoDB.CheckOneExisit('pagedb-Crawled', {'url': strCleanURL}):
                    dictNewPage = self.AnEmptyPageEle()
                    intDepth = len(strCleanURL.split('/'))-3
                    dictNewPage['url'] = strCleanURL
                    dictNewPage['d'] = intDepth
                    self.objMongoDB.InsertOne('pagedb-Crawled', dictNewPage)
                    # print(strCleanURL)


    def CleanURL(self, strURL):
        strRealURL = strURL
        intBQ = strURL.find('?')
        if intBQ > 0:
            strRealURL = strURL[:intBQ]
        intBQ = strRealURL.find('#')
        if intBQ > 0:
            strRealURL = strRealURL[:intBQ]
        return strRealURL

2.2 增加客制化通用项

在 MongoDB 中
db.tbCustomization.insertOne({'eURL':'','tag':'p','rURL':''})  // 放空,就是通杀

2.3 代码

放在全球最大同性交友平台上
SpyTheLink

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 爬虫文章 in 简书程序员专题: like:128-Python 爬取落网音乐 like:127-【图文详解】py...
    喜欢吃栗子阅读 22,074评论 4 411
  • 1. 前文提要 前期用 Python 做了某些爬虫,但是发现有几个问题: 爬的内容有很多未完全读取网页内容的信息 ...
    小秉子阅读 237评论 0 0
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,441评论 1 99
  • 今天,我很倒霉,出个门都能把水杯忘在教室,喝个水都能呛住,走个路都能绊倒…… 今天上午,读了一节课...
    8cbaa3169bbe阅读 166评论 0 1
  • Q.如果棒球被以0.9倍光速掷出会产生什么后果? - 艾伦·麦克马尼斯 让我们抛开棒球如何加速的问题。 我们...
    A伽马阅读 1,547评论 0 0