思路
在文章的开头,先分享一个名叫You-Get的视频内容嗅探器,是Python写的,支持解析中外几乎所有主流视频网站的视频,其中就包括斗鱼视频,关于斗鱼视频的解析可以在src/you_get/extractors/douyutv.py
下的douyutv_video_download
方法里找到。
但是,我一开始并不知道这个项目的存在。
以下是我的分析过程:
假设我要下载这个视频,URL为https://v.douyu.com/show/XqeO74x3j8n7xywG
。第一步肯定是抓包分析,有用的包一共有几个:
-
GET https://v.douyu.com/show/XqeO74x3j8n7xywG
,这个页面,也就是要抓取的URL本身会返回一个基本的HTML框架和js脚本。 -
common_94a55ff3a5.js
, 这个脚本应该包含了计算did
和sign
的js方法。为什么说应该?因为我没找到,导致我第一种抓取思路中断,才有了后来的用mobile端抓取的办法,后面会细说。 -
POST ttps://v.douyu.com/api/swf/getStreamUrl
,参数是tt=1526513255&did=5474fae9365266a0746a7bf100051501&sign=b7721d3e3c0b90372a819eff12fa63ed&vid=XqeO74x3j8n7xywG
。- 这里
tt
应该是时间戳;vid
是video_id
就是抓取URL里后面的一串字符;did
是device_id
,这个我没找到,但实现的方法很大概率在device_8cf6d524a4.js
里;sign
自然是某种签名,可惜的是这个我压根没找到。 - 这一条请求很重要,因为如果请求成功,服务器会直接返回两个URL,一个代表高清,一个代表普清。这两个URL的返回内容是视频的地址列表
playlist.m3u8
。网站不会直接把整个视频直接返回给你,而是会将视频切割成若干个ts
文件,而playlist.m3u8
就是这些文件的列表。 - 有了每个
ts
文件的地址,把它们都下载下来合并一下就是完整的视频了。
- 这里
然而现在卡在第三步,我不知道怎么获取did
和sign
。did
还有点头绪,sign
是踪迹全无。在我逐个排查每个请求的时候,我无意中看到了:"mobile_url":"https://vmobile.douyu.com/show/XqeO74x3j8n7xywG"
,位于第一条请求的返回内容第9行末尾。
那么,移步mobile端,调整user-agent并重复上述过程:
-
GET https://vmobile.douyu.com/show/XqeO74x3j8n7xywG
,这条和PC端上的返回内容差不多,没发现什么。 - 之后,就是本项目最关键的一条报文
GET https://vmobile.douyu.com/video/getInfo?vid=XqeO74x3j8n7xywG
,这条报文直接返回了playlist.m3u8
!再往后就和上面一样了。
我尝试了PC端的getInfo
,不能成功 ,似乎只能在移动端访问。那么,现在的流程就是:
- 获取视频的
vid(XqeO74x3j8n7xywG)
; - 访问
https://vmobile.douyu.com/video/getInfo?vid=XqeO74x3j8n7xywG
,获取playlist.m3u8
; - 解析
playlist.m3u8
,提取所有ts文件的URL; - 下载所有ts文件;
- 合并所有ts文件,输出视频。
因为找不到sign
和did
,我去网上搜了搜,找到了文章开头的You-Get,看了看它的源码就是用移动端做的,微微一笑。
代码
合并ts文件
代码唯一有点意思的地方是如何合并700多个ts文件,斗鱼视频最长120分钟,分成ts文件大概720个左右,直接用一行代码肯定不行,windows的cmd有字符长度限制。因此合并ts的逻辑要写在代码里。
其实合并的逻辑本质就是数组求和,只不过顺序不能打乱。我这里是用分治写了个。
源代码
import requests
import ast
import re
import os
import progressbar
from random import choice
import time
import configure as Configs
def get_playlist_m3u8(vid):
url = "https://vmobile.douyu.com/video/getInfo?vid={0:s}".format(vid)
header = {}
header['user-agent'] = choice(Configs.FakeUserAgents_mobile)
try:
response = requests.get(url, headers=header)
content = None
if response.status_code == requests.codes.ok:
content = response.text
except Exception as e:
print (e)
djson = ast.literal_eval(content)
if int(djson.get('error')) != 0:
return None, None
video_url = ast.literal_eval(content).get('data').get('video_url').replace('\\','')
n = len('playlist.m3u8') * (-1)
domain = video_url.split('?')[0][:n]
print ("playlist.m3u8 file retrieved.")
try:
response = requests.get(video_url, headers=header)
content = None
if response.status_code == requests.codes.ok:
content = response.text
except Exception as e:
print (e)
return domain, content
def parser_m3u8(domain, fm3u8):
fm3u8_list = fm3u8.split('\n')
res = []
for url in fm3u8_list:
url = url.strip()
if url and not url.startswith('#'):
res.append(domain+url)
return res
def download_ts(vid, tss):
if not os.path.exists("Download"):
os.makedirs("Download")
header = {}
header['user-agent'] = choice(Configs.FakeUserAgents)
name_list = []
print ("Parser {0:d} ts files in download list.".format(len(tss)))
bar = progressbar.ProgressBar(max_value=len(tss), redirect_stdout=True)
for i,ts in enumerate(tss):
name = "{0:s}_{1:s}".format(vid, re.split('[_?]',ts)[2])
name_list.append(name)
content = ''
try:
response = requests.get(ts, headers=header)
content = None
if response.status_code == requests.codes.ok:
content = response.content
except Exception as e:
print (e)
with open("Download/"+name,'wb') as file:
file.write(content)
print ("Downloaded {0:s}".format(name))
bar.update(i+1)
return name_list
# 这里用了一个全局变量cnt,目的是让每次合并的两个文件从产生一个新的不重复的文件名
# 我本来打算用类似 name1 + name2 -> name2; delete name1 的操作
# 但是失败了,这里先这样写,反正最后会中间文件都清掉,只剩最后一个结果
cnt = 0
def combine_ts(vid, name1, name2):
global cnt
os.system("cd Download & copy /b {0:s}+{1:s} temp{2:d}.ts".format(name1, name2, cnt))
os.system("cd Download & del {0:s}".format(name1))
os.system("cd Download & del {0:s}".format(name2))
cnt += 1
return ["temp{0:d}.ts".format(cnt-1)]
def combine(vid, ret):
if len(ret) == 1:
return ret
if len(ret) == 2:
return combine_ts(vid, ret[0], ret[1])
return combine(vid, combine(vid, ret[:len(ret)//2])+combine(vid, ret[len(ret)//2:]))
if __name__ == '__main__':
vid = '2V0JMVKrQXbWRY5k'
domain, fm3u8 = get_playlist_m3u8(vid)
tss = parser_m3u8(domain, fm3u8)
ret = download_ts(vid, tss)
lastname = combine(vid, ret)
os.system("cd Download & rename {0:s} {1:s}.ts".format(lastname[0], vid))