python 网站链接的爬取

获取

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from gevent import monkey

monkey.patch_all()
import gevent
import Queue
import lxml.html
import hashlib
import requests
import logging
import traceback
import time
import re
import datetime

from libs.Conn_scan import Mongo


class spider_setting():
    def __init__(self, url, deep, thread_num=10, filter_str=None, filter_re=None,
                     log_name='log/spider_' + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + '.log', referer=""):
        logging.basicConfig(format='%(levelname)s:(%(asctime)s) %(message)s', filename=log_name, level=logging.WARNING)
        self.logger = logging.getLogger(__name__)
        self.logger.warn("\n\n\n\n===========start===========")

        self.url = url
        self.target = url
        self.deep = deep
        self.filter_str = filter_str
        self.filter_re = filter_re
        self.thread_num = thread_num

        self.url_queue = Queue.Queue()
        self.url_queue.put((url, 1, referer))
        self.hash_set = set()
        self.hash_set.add(hashlib.md5(url).hexdigest())
        

referer_list = []
url_list = []
dict1 = {}
class spider():
    def __init__(self, spider_setting):
        
        self.url_queue = spider_setting.url_queue
        self.hash_set = spider_setting.hash_set
        self.logger = spider_setting.logger
        self.thread_num = spider_setting.thread_num

        self.deep = spider_setting.deep
        self.filter_str = spider_setting.filter_str
        self.filter_re = spider_setting.filter_re
        self.target_url = spider_setting.target

        self.gevent_list = []
 

    def run(self):
        while True:
            try:
                url_pair = self.url_queue.get(timeout=5)
                url = url_pair[0]
                cur_deep = url_pair[1]
                referer = url_pair[2]
                self.logger.warn("Get From Queue" + str(url_pair))
                

            except Queue.Empty:
                self.logger.warn("Queue_len:" + str(self.url_queue.qsize()) + "\tspider end!")
                break

            try:
                start_time = time.time()
                r = requests.get(url, headers=self.set_headers(referer=referer), timeout=5)
                end_time = time.time()
                self.logger.warn(
                                    "Queue_len:" + str(self.url_queue.qsize()) + "\t" + str(
                                            len(self.hash_set)) + "\t" + str(end_time - start_time) + "\t" + url + "\tReferer: " + referer)
                self.save_resource(url, r, cur_deep, referer)
                
                html = r.text

                urls = self.filter_links(self.parser_html(url, html))
                if cur_deep < self.deep:
                    for new_url in urls:
                        if not self.is_repeat(new_url):
                            self.url_queue.put((new_url, cur_deep + 1, url))
                            
            except:
                self.logger.error(traceback.format_exc())
            self.url_queue.task_done()

    def parser_html(self, url, html):
        doc = lxml.html.document_fromstring(html)
        doc.make_links_absolute(url)
        return [link[2] for link in doc.iterlinks()]

    def filter_links(self, links):
        # url_parser_re = r"^(\w*):\/\/(?:([^:]*)?(?::(.*))?@)?([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$"
        # r = re.compile(url_parser_re)
        blacklist = ['mp4', 'JPG','jpg', 'jpeg', 'mp3', 'apk','flv','swf', 'gif', 'png', 'css','exe','js']
        results = []
        for link in links:
            if (link.split(".")[-1] not in blacklist):
                # url = re.match(r, link)
                results.append(link)
        return results

    def is_repeat(self, link):
        md5sum = hashlib.md5(link).hexdigest()
        if md5sum in self.hash_set:
            return True
        else:
            self.hash_set.add(md5sum)
            return False

    def save_resource(self, url, req, cur_deep, referer):
        if (self.filter_str is not None) and (self.filter_str not in url):
            return
        if (self.filter_re is not None) and (not re.search(self.filter_re, url)):
            return
        print url + '------URL'
        #url_list = url_list.append(url)
        #referer_list = referer_list.append(referer)
        
        print referer + '-------------referer'
        if len(referer) != 0:
            try:
                #referer_list = referer_list.append(referer)
                print referer 
                Mongo.coll['1'].update({"URL":self.target_url},
                                       {"$push": {'referer' : str(url) }},
                                       upsert = True)            
            except Exception,e:
                print str(e)
                pass
        
    def set_headers(self, referer=""):
        return {
                    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0",
                        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
                        "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
                        "Connection": "keep-alive",
                        "Referer": referer
                }

    def start(self):
        for i in range(self.thread_num):
            self.gevent_list.append(gevent.spawn(self.run))

    def join(self):
        gevent.joinall(self.gevent_list)

        


#----------------------------------------------------------------------
def Start(url):
    """"""
    try:
        s = spider_setting(url, 3)
        a = spider(s)
        a.start()
        a.join() 
    except Exception,e:
        print str(e)
        pass
    
target_url = 'http://www.jianshu.com/'
Start(target_url)

#Mongo.coll['path'].update({"URL":target_url},
                       #{referer_list: {str(num):i}},
                       #upsert = True) 


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容