Scrapy爬虫爬取B站视频标题及链接

研究了一下午，刚刚成功爬出了B站的视频数据以及超链接（虽然方法很笨）。但是还是非常有意思的，这里记录一下过程

程序用的scrapy，安装方法详见 https://www.jianshu.com/p/d2c8b1496949，这里可以直接用的CMD创建scrapy项目，只需要输入 scrapy startproject 项目名即可，会在当前目录下创建一个新文件夹，cd到该文件夹下后，输入scrapy genspider 爬虫名目标网址来创建你的爬虫文件(如: scrapy genspider sample https://www.bilibili.com/v/douga)

创建爬虫项目

创建爬虫成功后就可以编辑了，打开的爬虫文件（此处为sample.py）可以看到

import scrapy
class SampleSpider(scrapy.Spider):
    # def start_requests(self):
    #     yield Request("https://", headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"})

    name = 'sample' #爬虫名称
    allowed_domains = ['bilibili.com'] #爬取的范围
    start_urls = ['https://www.bilibili.com/v/douga']#URL地址
def parse(self, response):

接下来要定义parse()函数，要用到Xpath选择器来提取网页内标签内容，这里用到Xpath helper可以提高效率https://blog.csdn.net/xiaobai_IT_learn/article/details/100977653(要打开chrome的开发者模式)，或者手动F12筛选元素也可以。
以动画分区顶端推荐视频为例，在页面元素中可以看到它属于

<div id="app">下的<div class="nominate-m clearfix report-wrap-module report-scroll-module">
点开这个div，发现他另分出了两个div：

继续往下挖，发现右侧的四个视频在<div class="video-card-box">下，并且这个div下又划分出了8个div（8个视频）

他们的class都为 groom-module

任意点开几个div，发现他们的视频标题以及超链接都出现在<a>标签下的<href>和<title>属性

那么只要把这两个标签属性提取出来就可以了,回到爬虫文件，在parse()函数下输入

#抓取标题（title）
DanceTitle=response.xpath(
             './/div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@title'
         )
#抓取Url（href）
DanceURL=response.xpath(
            './/div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@href'
        )

提取元素路径的过程就不写了，很繁琐（反正我搞得很麻烦）,多用.extract()查看当前提取的路径。

可以写到本地，也可以直接在CMD中打印出来。这里我把结果保存到名为 ‘B站结果’ 的txt文档(默认保存在项目文件夹中):

#创建一个字典
 Title={}
 with open('B站结果.txt', 'a')as file_result:
            for div in DanceTitle:
                 Title['标题'] = div.extract()
                 file_result.write("{}\r\n".format(Title))
                 file_result.write("{}\r\n".format(DanceURL[DanceTitle.index(div)].extract()))

这里只用到一次循环，因为标题和超链接的数量是固定的。
.extract()用于切片（脱壳）从一个对象(此处的DanceTitle,DanceURL)中得到list

在CMD中输入

scrapy crawl sample

运行爬虫

这里把目标链接换成任意一个分区都没问题，如
https://www.bilibili.com/v/digital（数码区）
https://www.bilibili.com/v/music（音乐区）

捣鼓了一下午，浏览器标签开了一万个

虽然方法很笨但是最后运行成功的时候还是很开心的，以后也会继续研究爬虫，笨方法终究是不可取的。