2021-07-22

本周四,项目也是在有条不紊的继续进行中。

针对外国网站如何爬取信息,我进行了学习和实践。

有请主角scrapy登场

我们建一个abroadwebsite的项目和名为abroad的爬虫(通用爬虫 -t crawl)

先分析站点信息

会发现每一个站点网址都会有“site”这个字符,把它存入Rules LinkExtractor 中的allow里

打开网址

这里有网站的具体信息,我们用xpath把自己认为有用的提取出来就行

最后我们还要把每一页到下一页的节点分析出来

这里把下一页的网址存入Rules LinkExtractor中就可以一页页地爬取了

分析完毕上代码(只上改动了的)

爬虫 abroad

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from abroadwebsite.items import *

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"

class AbroadSpider(CrawlSpider):

    name = 'abroad'

    allowed_domains = ['www.kanguowai.com']

    start_urls = ['https://www.kanguowai.com/site/']

    rules = (

        Rule(LinkExtractor(allow='site\.*', restrict_xpaths='//dl[@class="picture_lie"]'), callback='parse_item'),

        Rule(LinkExtractor(restrict_xpaths='//div[@class="page"]//a[@title="下一页"]'))

    )

    def start_requests(self):

        for url in self.start_urls:

            yield scrapy.Request(url, headers={"User-Agent": USER_AGENT})

    def parse_item(self, response):

        item=AbroadwebsiteItem()

        item['website_name']=response.xpath('//ul[@class="baseinfo"]/li[1]/h1/text()').extract_first()

        item["country"]=response.xpath('//li[@class="linfo"]/a/text()').extract_first()

        item["url"]=response.xpath('//li[@class="linfo siteurl"]/a/text()').extract_first()

        item["form"]=response.xpath('//li[@class="rinfo"]/a/text()').extract_first()

        item["introduction"]=response.xpath('//div[@class="sitetext"]/p/text()').extract_first()

        item["img_path"]=response.xpath('//div[@class="sitepic"]/img/@src').extract_first()

        yield item

        pass

items

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class AbroadwebsiteItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    website_name=scrapy.Field()

    country=scrapy.Field()

    url=scrapy.Field()

    form=scrapy.Field()

    introduction=scrapy.Field()

    img_path=scrapy.Field()

settings只上一点有用的

ITEM_PIPELINES = {

    'abroadwebsite.pipelines.ImagesPipeline':300,

  'abroadwebsite.pipelines.AbroadwebsitePipeline': 301,

}

MYSQL_HOST='localhost'

MYSQL_DATABASE='spider'

MYSQL_ROOT='root'

MYSQL_PASSWORD='123'

USE='use spider'

TABLE='abroadwebsites'

DROP="drop table if exists %s"%TABLE

CREATE='create table %s(website_name varchar(255)  NOT NULL,country varchar(255),url varchar(255),form varchar(255),introduction varchar(255),img_path varchar(255))'%TABLE

SAVEIN='insert into '+TABLE+' (website_name,country,url,form,introduction,img_path) values(%s,%s,%s,%s,%s,%s)'

Root_path='D:/pics1/'

IMAGES_STORE='D:/pics1'

pipelines比较复杂 包括了保存图片的方法

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from abroadwebsite.settings import *

import pymysql

import logging

from scrapy import Request

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

class ImagesPipeline(ImagesPipeline):

    def get_media_requests(self,item,info):

        yield Request('https://www.kanguowai.com'+item["img_path"])

    def file_path(self,request,response=None,info=None):

        url=request.url

        file_name=url.split('/')[-1]

        return file_name

    def item_completed(self,results,item,info):

        image_paths=[x['path'] for ok,x in results if ok]

        if not image_paths:

            raise DropItem("Image Downloaded Failed")

        return item

class AbroadwebsitePipeline(object):

    def __init__(self):

        self.connect=pymysql.connect(MYSQL_HOST,MYSQL_ROOT,MYSQL_PASSWORD,MYSQL_DATABASE)

        self.cursor=self.connect.cursor()

        self.cursor.execute(USE)  # 选定数据库

        self.cursor.execute(DROP)

        self.cursor.execute(CREATE)

    def process_item(self, item, spider):

        try:

            self.cursor.execute(SAVEIN,(item["website_name"],item["country"],item["url"],item["form"],item["introduction"],Root_path+item["img_path"].split('/')[-1]))

            self.connect.commit()

        except Exception as error:

            logging.log(error)

        return item,

    def close_spider(self,spider):

        self.connect.close()

这四部分代码包括了爬取数据——保存图片 ——存入数据库的三个目的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容