研究了一下午,刚刚成功爬出了B站的视频数据以及超链接(虽然方法很笨)。但是还是非常有意思的,这里记录一下过程
程序用的scrapy,安装方法详见 https://www.jianshu.com/p/d2c8b1496949, 这里可以直接用的CMD创建scrapy项目,只需要输入 scrapy startproject 项目名 即可,会在当前目录下创建一个新文件夹,cd到该文件夹下后,输入scrapy genspider 爬虫名 目标网址来创建你的爬虫文件(如: scrapy genspider sample https://www.bilibili.com/v/douga)
创建爬虫成功后就可以编辑了,打开的爬虫文件(此处为sample.py)可以看到
import scrapy
class SampleSpider(scrapy.Spider):
# def start_requests(self):
# yield Request("https://", headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"})
name = 'sample' #爬虫名称
allowed_domains = ['bilibili.com'] #爬取的范围
start_urls = ['https://www.bilibili.com/v/douga']#URL地址
def parse(self, response):
接下来要定义parse()函数,要用到Xpath选择器来提取网页内标签内容,这里用到Xpath helper可以提高效率https://blog.csdn.net/xiaobai_IT_learn/article/details/100977653(要打开chrome的开发者模式),或者手动F12筛选元素也可以。
以动画分区顶端推荐视频为例,在页面元素中可以看到它属于
<div id="app">下的<div class="nominate-m clearfix report-wrap-module report-scroll-module">
点开这个div,发现他另分出了两个div:
继续往下挖,发现右侧的四个视频在<div class="video-card-box">下,并且这个div下又划分出了8个div(8个视频)
那么只要把这两个标签属性提取出来就可以了,回到爬虫文件,在parse()函数下输入
#抓取标题(title)
DanceTitle=response.xpath(
'.//div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@title'
)
#抓取Url(href)
DanceURL=response.xpath(
'.//div[@id="app"]/div[@class="bili-wrapper"]/div[@class="channel-m"]/div[@class="nominate-m clearfix report-wrap-module report-scroll-module"]/div/div/div/a/@href'
)
提取元素路径的过程就不写了,很繁琐(反正我搞得很麻烦),多用.extract()查看当前提取的路径。
可以写到本地,也可以直接在CMD中打印出来。这里我把结果保存到名为 ‘B站结果’ 的txt文档(默认保存在项目文件夹中):
#创建一个字典
Title={}
with open('B站结果.txt', 'a')as file_result:
for div in DanceTitle:
Title['标题'] = div.extract()
file_result.write("{}\r\n".format(Title))
file_result.write("{}\r\n".format(DanceURL[DanceTitle.index(div)].extract()))
这里只用到一次循环,因为标题和超链接的数量是固定的。
.extract()用于切片(脱壳)从一个对象(此处的DanceTitle,DanceURL)中得到list
在CMD中输入
scrapy crawl sample
运行爬虫
这里把目标链接换成任意一个分区都没问题,如
https://www.bilibili.com/v/digital(数码区)
https://www.bilibili.com/v/music(音乐区)
虽然方法很笨但是最后运行成功的时候还是很开心的,以后也会继续研究爬虫,笨方法终究是不可取的。