一、采集前准备#

在采集之前，首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构，并用开发者工具“ctrl+shift+i”工具查看其代码排列规则，确定采集字段内容。
基本思想是先在初始页面采集姓名、职称、专业、邮箱，然后通过采集的详情页面链接进入详情页，并采集其基本简历，代表性研究成果，获奖情况、科研项目、人才培养。共10个字段。
过程的操作指导来源于scrapy的官方文档以及老师同学的帮助。

二、新建scrapy项目#

首先新建一个scrapy项目，代码如下：

cd venv
scrapy startproject teachersinfo

三、编写items.py文件#

然后编写项目的items文件，在这个文件中定义将要采集的字段。按照规定格式编写之后，这里的字段将直接用于后面步骤中的采集过程，且便于数据的传递。
代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class TeachersinfoItem(scrapy.Item):
    # 教师名字
    name = scrapy.Field()
    # 教师职称
    title = scrapy.Field()
    # 教师院系
    major = scrapy.Field()
    # 教师邮箱
    mail = scrapy.Field()
    # 教师简介
    resume = scrapy.Field()
    # 教师简介
    achieve = scrapy.Field()
    # 教师代表性研究成果
    prize = scrapy.Field()
    # 教师获奖情况
    project = scrapy.Field()
    # 教师科研项目
    training = scrapy.Field()
    # 教师人才培养
    pass

四、编写爬虫#

在项目之下，可以看到基本结构：

teachersinfo的子集结构

在spiders之下新建一个爬虫，命名为：teachers_spider.py

import scrapy
import hashlib

from scrapy.selector import Selector
from teachersinfo.items import TeachersinfoItem


class TeachersinfoSpider(scrapy.Spider):
  name = "teachersinfo"
  start_urls = [
    'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
  ]

  def parse(self, response):
    for info in response.xpath("//ul[@class='teachers_ul mt20 cf']/li"):
      item = TeachersinfoItem()
      item['name'] = info.xpath("div[@class='r fr']/h3/text()").extract_first()
      item['title'] = info.xpath("div[@class='r fr']/p/text()").extract_first()
      item['major'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[1]/text()").extract_first().split("E-mail:")[-1]
      item['mail'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[2]/text()").extract_first()
      href = info.xpath("div[@class='l fl']/a/@href").extract_first()
      yield scrapy.Request(response.urljoin(href), meta={'item': item}, callback=self.parse_more_info)

    next_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()-1]/a/@href").extract_first()
    last_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()]/a/@href").extract_first()
    if last_page:
        next_page = "http://ggglxy.scu.edu.cn/"+next_page
        yield scrapy.http.Request(next_page, callback=self.parse)

  @staticmethod
  def parse_more_info(response):
    item = response.meta['item']
    item['resume'] = response.xpath("//div[@class='desc']/text()").extract()
    item['achieve'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[2]//text()').extract())
    item['prize'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[3]//text()').extract())
    item['project'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[4]//text()').extract())
    item['training'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[5]//text()').extract())
    yield item

通过其中meta方法的传递参数，将基础页面的内容与详情页面的内容联系起来，不用重复采集两次教师的姓名以及职称。

五、执行爬虫，并保存文件#

直接用一句代码实现这两步过程，将结果保存为csv格式。

scrapy crawl teachersinfo -o infos.csv

其结果显示如下：

爬虫teachersinfo执行的结果

将infos.csv文件下载并打开，发现excel内容为乱码，于是采用记事本打开并另存，将编码方式换成ANSI，然后再用excel打开即可呈现结果。显示如下：

csv文件内容

六、补充#

关于翻页###

在进行分页时，尝试使用其他方式，其中xpath的sibling是一个很好的方式。
将翻页代码更改一下：

next_page = response.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/li[@class]/following-sibling::*[1]//@href').extract_first()
    if next_page is not None:
      next_page = response.urljoin(next_page)
      yield scrapy.http.Request(next_page, callback=self.parse)

保存成csv文件，用相同转编码的方式查看，可知可以得到相同的结果。

haha.csv

采集川大公管学院教师信息0529