Scrapy爬虫爬取B站视频标题及链接

研究了一下午,刚刚成功爬出了B站的视频数据以及超链接(虽然方法很笨)。但是还是非常有意思的,这里记录一下过程

程序用的scrapy,安装方法详见 https://www.jianshu.com/p/d2c8b1496949, 这里可以直接用的CMD创建scrapy项目,只需要输入 scrapy startproject 项目名 即可,会在当前目录下创建一个新文件夹,cd到该文件夹下后,输入scrapy genspider 爬虫名 目标网址来创建你的爬虫文件(如: scrapy genspider sample https://www.bilibili.com/v/douga)

创建爬虫项目

创建爬虫成功后就可以编辑了,打开的爬虫文件(此处为sample.py)可以看到

import scrapy
class SampleSpider(scrapy.Spider):
    # def start_requests(self):
    #     yield Request("https://", headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"})

    name = 'sample' #爬虫名称
    allowed_domains = ['bilibili.com'] #爬取的范围
    start_urls = ['https://www.bilibili.com/v/douga']#URL地址
def parse(self, response):


接下来要定义parse()函数,要用到Xpath选择器来提取网页内标签内容,这里用到Xpath helper可以提高效率https://blog.csdn.net/xiaobai_IT_learn/article/details/100977653(要打开chrome的开发者模式),或者手动F12筛选元素也可以。
以动画分区顶端推荐视频为例,在页面元素中可以看到它属于


<div id="app">下的<div class="nominate-m clearfix report-wrap-module report-scroll-module">
点开这个div,发现他另分出了两个div:

继续往下挖,发现右侧的四个视频在<div class="video-card-box">下,并且这个div下又划分出了8个div(8个视频)
他们的class都为 groom-module

任意点开几个div,发现他们的视频标题以及超链接都出现在<a>标签下的<href>和<title>属性

那么只要把这两个标签属性提取出来就可以了,回到爬虫文件,在parse()函数下输入

#抓取标题(title)
DanceTitle=response.xpath(
             './/div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@title'
         )
#抓取Url(href)
DanceURL=response.xpath(
            './/div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@href'
        )

提取元素路径的过程就不写了,很繁琐(反正我搞得很麻烦),多用.extract()查看当前提取的路径。

可以写到本地,也可以直接在CMD中打印出来。这里我把结果保存到名为 ‘B站结果’ 的txt文档(默认保存在项目文件夹中):

#创建一个字典
 Title={}
 with open('B站结果.txt', 'a')as file_result:
            for div in DanceTitle:
                 Title['标题'] = div.extract()
                 file_result.write("{}\r\n".format(Title))
                 file_result.write("{}\r\n".format(DanceURL[DanceTitle.index(div)].extract()))

这里只用到一次循环,因为标题和超链接的数量是固定的。
.extract()用于切片(脱壳)从一个对象(此处的DanceTitle,DanceURL)中得到list

在CMD中输入

scrapy crawl sample

运行爬虫


这里把目标链接换成任意一个分区都没问题,如
https://www.bilibili.com/v/digital(数码区)
https://www.bilibili.com/v/music(音乐区)

捣鼓了一下午,浏览器标签开了一万个

虽然方法很笨但是最后运行成功的时候还是很开心的,以后也会继续研究爬虫,笨方法终究是不可取的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,976评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,249评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,449评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,433评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,460评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,132评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,721评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,641评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,180评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,267评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,408评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,076评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,767评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,255评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,386评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,764评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,413评论 2 358