分析Ajax爬取B站python视频

B 站真是个神奇的网站。找不到资料了,去 B 站逛一逛,保准有你满意的东西。

前几天写了个爬虫,用 path、re、BeautifulSoup 爬取的 B 站 python 视频,但是这个爬虫有有个缺陷,没能获取视频的图片信息,如果你去尝试你会发现它根本就不在返回的结果里面。今天就用分析 Ajax 的方法获取到。

分析页面

通常我们在分析页面的时候,都要切换到 Network 分析url 从中找到我们想要的 url 。但是找不到 url 你怎么分析?B 站就是这么神奇的存在,我们最后分析确定的 url 是这个:

url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)

打开 B 站,搜索 python ,打开开发者工具,切换到 Network 你可以去找找,还真是没有。
至于怎么找到的呢,我也是摸索了好长时间才发现


图片

点一下搜索,这个 url 才会出现,或者点一下下一页


详情

然后就构造这个请求就可以了。
需要注意的是最后一个参数不能添加。

代码实战

import requests
import json,re,time
import pandas as pd
from requests.exceptions import RequestException

class Spider():

    def get_page(self,page):
        try:
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
                              ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
            }
            url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)
            r = requests.get(url,headers)
            if r.status_code == 200:
                return r.text
            else:
                print(r.status_code)
        except RequestException:
            print('请求失败')
            return None

    def parse_page(self,html):
        #转换成JSON对象,好操作
        data = json.loads(html)

        results = data.get('data').get('result')
        for result in results:
            #获取图片地址
            image_url = result['pic']
            #获取视频地址
            video_url = result['arcurl']
            #获取作者
            video_author = result['author']
            #获取视频标题,中间有额外的字符,用re替换一下
            video_title = result['title']
            video_title = re.sub('<em class="keyword">[Pp]ython</em>','Python',video_title)
            #获取播放量
            video_play = result['play']
            #获取上传时间,这里将时间戳转换成标准格式
            video_date = result['pubdate']
            timestr = time.localtime(video_date)
            video_date = time.strftime('%Y-%m-%d %H-%M-%S',timestr)
            print(image_url,video_url,video_title,video_play,video_date)

    def run(self):
        for i in range(1,3):
            html = self.get_page(i)
            self.parse_page(html)

def main():
    spider = Spider()
    spider.run()

if __name__ == '__main__':
    main()

代码里面有些解释已经很清楚了,在这里再次复习一下

re.sub()

这个函数传入五个参数,前三个是必须传入的 pattern,、repl、 string

  • 第一个是表示的是正则表达式中模式字符串
  • 第二个是要被替换的字符串
  • 第三个是文本字符串
    剩下两个可选参数,一个是 count 一个是 flag 。

时间戳转换成标准格式的时间
第一种方法

import time
timeStamp = 1581418600
timeArray = time.localtime(timeStamp)
otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
print otherStyleTime

第二种方法

import time
import datetime
timeStamp = 1381419600
dateArray = datetime.datetime.utcfromtimestamp(timeStamp)
otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S")
print otherStyleTime

综上就是这次的全部内容,多加练习继续加油!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 11,306评论 0 10
  • 欢迎转载,转载请注明来源:github地址 谢谢点赞 相关书籍下载 Python测试开发库 参考资料 https:...
    python测试开发阅读 10,117评论 1 67
  • 一个人在和别人争论的时候往往不会轻易的去放弃自己的想法,被指出错误之后,也会用更多的说辞去证明自己的想法。人应该学...
    凌世之子阅读 1,684评论 0 0
  • 纠结了好久要不要写这篇文章,毕竟大家看到这种文章都觉得是骗人的,大家也都不太相信了,但我也经常看到别人在网上求助怎...
    L蕊蕊阅读 1,621评论 0 0
  • 文/钟意阅读 独在异乡为异客,每逢佳节倍思亲。 01 早晨妈妈跟我发视频,闲聊了一会儿一一的情况后,妈妈告诉我说明...
    叶听雨阅读 3,283评论 10 5

友情链接更多精彩内容