斗鱼视频下载

思路

在文章的开头,先分享一个名叫You-Get的视频内容嗅探器,是Python写的,支持解析中外几乎所有主流视频网站的视频,其中就包括斗鱼视频,关于斗鱼视频的解析可以在src/you_get/extractors/douyutv.py下的douyutv_video_download方法里找到。

但是,我一开始并不知道这个项目的存在。

以下是我的分析过程:

假设我要下载这个视频,URL为https://v.douyu.com/show/XqeO74x3j8n7xywG。第一步肯定是抓包分析,有用的包一共有几个:

  • GET https://v.douyu.com/show/XqeO74x3j8n7xywG,这个页面,也就是要抓取的URL本身会返回一个基本的HTML框架和js脚本。
  • common_94a55ff3a5.js, 这个脚本应该包含了计算didsign的js方法。为什么说应该?因为我没找到,导致我第一种抓取思路中断,才有了后来的用mobile端抓取的办法,后面会细说。
  • POST ttps://v.douyu.com/api/swf/getStreamUrl,参数是 tt=1526513255&did=5474fae9365266a0746a7bf100051501&sign=b7721d3e3c0b90372a819eff12fa63ed&vid=XqeO74x3j8n7xywG
    • 这里tt应该是时间戳;vidvideo_id就是抓取URL里后面的一串字符;diddevice_id,这个我没找到,但实现的方法很大概率在device_8cf6d524a4.js里;sign自然是某种签名,可惜的是这个我压根没找到。
    • 这一条请求很重要,因为如果请求成功,服务器会直接返回两个URL,一个代表高清,一个代表普清。这两个URL的返回内容是视频的地址列表playlist.m3u8。网站不会直接把整个视频直接返回给你,而是会将视频切割成若干个ts文件,而playlist.m3u8就是这些文件的列表。
    • 有了每个ts文件的地址,把它们都下载下来合并一下就是完整的视频了。

然而现在卡在第三步,我不知道怎么获取didsigndid还有点头绪,sign是踪迹全无。在我逐个排查每个请求的时候,我无意中看到了:"mobile_url":"https://vmobile.douyu.com/show/XqeO74x3j8n7xywG",位于第一条请求的返回内容第9行末尾。

那么,移步mobile端,调整user-agent并重复上述过程:

  • GET https://vmobile.douyu.com/show/XqeO74x3j8n7xywG,这条和PC端上的返回内容差不多,没发现什么。
  • 之后,就是本项目最关键的一条报文GET https://vmobile.douyu.com/video/getInfo?vid=XqeO74x3j8n7xywG,这条报文直接返回了playlist.m3u8!再往后就和上面一样了。

我尝试了PC端的getInfo,不能成功 ,似乎只能在移动端访问。那么,现在的流程就是:

  1. 获取视频的vid(XqeO74x3j8n7xywG)
  2. 访问https://vmobile.douyu.com/video/getInfo?vid=XqeO74x3j8n7xywG,获取playlist.m3u8
  3. 解析playlist.m3u8,提取所有ts文件的URL;
  4. 下载所有ts文件;
  5. 合并所有ts文件,输出视频。

因为找不到signdid,我去网上搜了搜,找到了文章开头的You-Get,看了看它的源码就是用移动端做的,微微一笑。

代码

合并ts文件

代码唯一有点意思的地方是如何合并700多个ts文件,斗鱼视频最长120分钟,分成ts文件大概720个左右,直接用一行代码肯定不行,windows的cmd有字符长度限制。因此合并ts的逻辑要写在代码里。

其实合并的逻辑本质就是数组求和,只不过顺序不能打乱。我这里是用分治写了个。

源代码

import requests
import ast
import re
import os
import progressbar
from random import choice
import time

import configure as Configs

def get_playlist_m3u8(vid):
    url = "https://vmobile.douyu.com/video/getInfo?vid={0:s}".format(vid)

    header = {}
    header['user-agent'] = choice(Configs.FakeUserAgents_mobile)

    try:
        response = requests.get(url, headers=header)
        content = None
        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
        print (e)

    djson = ast.literal_eval(content)

    if int(djson.get('error')) != 0:
        return None, None

    video_url = ast.literal_eval(content).get('data').get('video_url').replace('\\','')
    n = len('playlist.m3u8') * (-1)
    domain = video_url.split('?')[0][:n]
    print ("playlist.m3u8 file retrieved.")
    
    try:
        response = requests.get(video_url, headers=header)
        content = None
        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
        print (e)

    return domain, content

def parser_m3u8(domain, fm3u8):
    fm3u8_list = fm3u8.split('\n')
    res = []

    for url in fm3u8_list:
        url = url.strip()
        if url and not url.startswith('#'):
            res.append(domain+url)

    return res

def download_ts(vid, tss):
    if not os.path.exists("Download"):
        os.makedirs("Download")

    header = {}
    header['user-agent'] = choice(Configs.FakeUserAgents)

    name_list = []
    print ("Parser {0:d} ts files in download list.".format(len(tss)))
    bar = progressbar.ProgressBar(max_value=len(tss), redirect_stdout=True)

    for i,ts in enumerate(tss):
        name = "{0:s}_{1:s}".format(vid, re.split('[_?]',ts)[2])
        name_list.append(name)
        content = ''
        try:
            response = requests.get(ts, headers=header)
            content = None
            if response.status_code == requests.codes.ok:
                content = response.content
            
        except Exception as e:
            print (e)

        with open("Download/"+name,'wb') as file:
            file.write(content)
        
        print ("Downloaded {0:s}".format(name))
        bar.update(i+1)

    return name_list

# 这里用了一个全局变量cnt,目的是让每次合并的两个文件从产生一个新的不重复的文件名
# 我本来打算用类似 name1 + name2 -> name2; delete name1 的操作
# 但是失败了,这里先这样写,反正最后会中间文件都清掉,只剩最后一个结果
cnt = 0
def combine_ts(vid, name1, name2):
    global cnt
    os.system("cd Download & copy /b {0:s}+{1:s} temp{2:d}.ts".format(name1, name2, cnt))
    os.system("cd Download & del {0:s}".format(name1))
    os.system("cd Download & del {0:s}".format(name2))
    cnt += 1
    return ["temp{0:d}.ts".format(cnt-1)]
    
 
def combine(vid, ret):
    if len(ret) == 1:
        return ret
    
    if len(ret) == 2:
        return combine_ts(vid, ret[0], ret[1])

    return combine(vid, combine(vid, ret[:len(ret)//2])+combine(vid, ret[len(ret)//2:]))

if __name__ == '__main__':
    vid = '2V0JMVKrQXbWRY5k'
    domain, fm3u8 = get_playlist_m3u8(vid)
    tss = parser_m3u8(domain, fm3u8)
    ret = download_ts(vid, tss)
    lastname = combine(vid, ret)
    os.system("cd Download & rename {0:s} {1:s}.ts".format(lastname[0], vid))
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容