Python批量采集B站美女内容并把音频数据和画面内容合并保存

前言

嗨喽,大家好呀!这里是魔王呐~


环境使用:

  • Python 3.8
  • Pycharm
  • ffmpeg
    软件的使用 合成视频和音频 需要找wo 领取

模块使用:

  • import requests >>> pip install requests

内置模块

你安装好python环境就可以了

  • import re
  • import json
  • import subprocess

Python的应用学习方向有哪些?

网站开发:

如目前优秀的全栈的 django、框架flask ,都继承了python简单、明确的风格,开发效率高、易维护,与自动化运维结合性好。

python已经成为自动化运维平台领域的事实标准;

python开发的网站:
豆瓣 , Youtube , Dropbox , 豆瓣...等等

爬虫程序

在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。

从事该领域应学习爬虫策略、高性能异步IO、分布式爬虫等,并针对Scrapy框架源码进行深入剖析,从而理解其原理并实现自定义爬虫框架。

数据分析

Python语言相对于其它解释性语言最大的特点是其庞大而活跃的科学计算生态,

在数据分析、交互、可视化方面有相当完善和优秀的库.

自动化脚本

执行许多重复的任务,例如阅读 pdf、播放音乐、查看天气、打开书签、清理文件夹等等,

使用自动化脚本就无需手动一次又一次地完成这些任务,非常方便。

人工智能

各种人工智能算法都基于Python编写,尤其PyTorch之后,Python作为AI时代头牌语言的位置基本确定。

游戏开发/辅助 自动化测试 运维

基本四大步骤:

  1. 发送请求
  2. 获取数据
  3. 解析数据
  4. 保存数据

完整代码

import requests  # 数据请求模块
import re  # 正则表达式模块
import json  # 序列化与反序列化
import pprint  # 格式化输出模块
import subprocess
import os  # 文件操作模块


def get_response(html_url):
    """
    发送请求函数
        模拟浏览器对于url地址发送请求, 获取服务器返回响应数据
        请求头headers是用来伪装
            user-agent: 用户代理 表示浏览器基本身份标识
    :param html_url: 要请求网址是什么
    :return: response 服务器返回响应数据
    """
    headers = {
        'referer': 'https://www.bilibili.com/',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)  # <Response [200]> 响应对象
    # 200 状态码 表示请求成功
    # print(response)
    return response


def get_video_info(html_url):
    """
    获取视频信息函数
    def 关键字 用自定义函数 get_video_info函数名 html_url 形式参数 <不具备实际意义>
    :param html_url: 传入视频播放页面url地址
    :return: 视频信息

    正则表达式提取数据:
        re.findall() 需要给这个括号里面传两个基本参数
            从什么地方去找什么样数据
        re.findall('<h1 id="video-title" title="(.*?)" class="video-title">', response.text)
        从response.text里面去找 <h1 id="video-title" title="(.*?)" class="video-title"> 这段数据
        这段数据中 (.*?) 这段就是我们想要数据 .*?表示匹配任意字符(除了换行符\n以外)

    正则表达式 全部掌握, 系统学习2.5个小时
        列表 list 正则匹配出来的数据返回列表
        <作为文件名数据保存, 都是要字符串数据>
        [0] 取列表里第一个元素
    """
    response = get_response(html_url=html_url)
    # print(response.text)  # 网页源代码 js逆向需要你掌握JavaScript基础语法
    title = re.findall('<h1 id="video-title" title="(.*?)" class="video-title">', response.text)[0].replace(' ', '')
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    # print(title)
    # print(html_data)
    # print(type(html_data))  # type内置函数, 可以查看数据类型
    json_data = json.loads(html_data)
    # print(json_data)
    # print(type(json_data))
    # pprint.pprint(json_data)
    # 字典取值好处: 键值对取值 根据冒号左边内容<键>, 提取冒号右边内容<值>
    """
    源码、解答、教程、资料加Q群:832157862
    dit = {
        '键1': '值1',
        '键2': '值2',
    }
    dit['键2'] >>> '值2'  jsonpath
    """
    audio_url = json_data['data']['dash']['audio'][0]['baseUrl']
    video_url = json_data['data']['dash']['video'][0]['baseUrl']
    # print(title)
    # print(audio_url)
    # print(video_url)
    video_info = [title, audio_url, video_url]
    return video_info


def save(title, audio_url, video_url):
    """
    保存数据函数
    :param title:  视频标题
    :param audio_url: 音频url
    :param video_url: 视频url
    :return:

    """
    # 调用前面定义好的数据请求函数
    audio_content = get_response(html_url=audio_url).content  # 获取视频和音频二进制数据内容
    video_content = get_response(html_url=video_url).content
    # wb二进制写入数据
    with open('video\\' + title + '.mp3', mode='wb') as f:  # 保存数据, 保存数据前提是得获取数据
        f.write(audio_content)
    with open('video\\' + title + '.mp4', mode='wb') as f:  # 保存数据, 保存数据前提是得获取数据
        f.write(video_content)
    print(title, '保存成功')
    #  合并视频 需要 ffmpeg软件 找木子获取
    cmd = f"D:\\demo\\ffmpeg\\bin\\ffmpeg.exe -i video\\{title}.mp4 -i video\\{title}.mp3 -c:v copy -c:a aac -strict experimental video\\{title}output.mp4"
    subprocess.run(cmd, shell=True)
    os.remove(f'video\\{title}.mp4')
    os.remove(f'video\\{title}.mp3')


def main(bv_id):
    """
    主函数 整合前面所有定义好的函数
    :param bv_id: 视频bv号 视频ID
    :return:
    """
    link = f'https://www.bilibili.com/video/{bv_id}'
    video_info = get_video_info(html_url=link)  # 调用获取视频信息函数 返回数据是什么?
    save(video_info[0], video_info[1], video_info[2])  # 保存函数


if __name__ == '__main__':
    # 函数入口 当文件运行时的时候下面的代码块会被执行
    # 当文件被当作模块被调用的时候, 下面的代码不会执行
    # print('hello')
    # bv = input('请输入你想要下载视频BV号: ')
    for page in range(1, 7):
        index_url = f'https://api.bilibili.com/x/space/arc/search?mid=487939159&ps=30&tid=0&pn={page}&keyword=&order=pubdate&jsonp=jsonp'
        json_data = get_response(html_url=index_url).json()
        # pprint.pprint(json_data)
        bv_id_list = [i['bvid'] for i in json_data['data']['list']['vlist']]
        title_list = [i['title'] for i in json_data['data']['list']['vlist']]
        print(bv_id_list)
        print(title_list)
        # for bv_id in bv_id_list:
        #     main(bv_id=bv_id)

尾语

成功没有快车道,幸福没有高速路。

所有的成功,都来自不倦地努力和奔跑,所有的幸福都来自平凡的奋斗和坚持

愿所有美好如期而至,以后的生活不将就,也不辜负。

——励志语录

本文章就写完啦~感兴趣的小伙伴可以复制代码去试试

你们的支持是我最大的动力!!感谢陪伴~

记得三连哦~ 💕 欢迎大家阅读往期的文章呀

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,865评论 6 518
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,296评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 169,631评论 0 364
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,199评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,196评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,793评论 1 314
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,221评论 3 423
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,174评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,699评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,770评论 3 343
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,918评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,573评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,255评论 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,749评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,862评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,364评论 3 379
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,926评论 2 361

推荐阅读更多精彩内容