Python 爬取微博短视频

最近因为比较忙,但是我觉得再忙也需要给自己安排一点娱乐时间,对自己好点,自己对自己不好,谁会?

自己娱乐一般会有:跑步、看电影、短视频,而短视频是最家常的娱乐方式,看得最多的小视频是「 陈翔六点半 」,咦!拍得搞笑,演技也一流,也不乏有内涵!非常推荐大家看看。

但我不推荐大家用「抖音」看短视频,因为它的算法实在太强大了、内容也非常抓人性!一入抖音深似海,从此时间是狗屎!

因此我推荐大家到「微信看一看」、「QQ空间、「微博」里去瞧一瞧,最推荐是「微博」,但千万别花太多时间,也出于不要浪费太多时间去翻各种页,看一些原本自己没有打算看的信息,因为这些平台的算法真的是太了解我们自己,99% 的人都比不过它了解我们自己,数据的价值被这些平台利用得淋漓尽致,因此我这次去爬视频,数据是微博的,让我自己不要花太多时间在搜索,浏览或者观看一些对自己没多大意义的信息数据,让自己想看哪些小视频就只看哪些小视频,仅此而已。

时间太贵,我耗不起


正题

先上爬取短视频的效果图,duang、duang、duang、想下载什么就是什么,哈哈。

打开浏览器(电脑版,方便调试)输入微博 url :https://m.weibo.cn,点击输入框,输入「陈翔六点半」,回车搜索

但是发现在这个页面就只用几个视频。滑下一点,一看,有个「更多热门微博」,点击!

跳转到新页面,一看,一滑,就像一个无底洞!一直滑都会有视频!

咦,这不就是我要的视频数据嘛

仔细看地址,不知大家有没仔细看地址栏,我滑动时,地址是一直不变的,也就证明这网页是用 Ajax 来异步请求加载数据的!

我就马上按 F12 调出调试工具,点击 Network 选项卡,选中 XHR ,一边滑动网页,一边查看 Ajax 网络请求,选中一条查看

展开 Json 数据查看,可以看到每条视频微博数据,总供有十条

我想下载视频,如何快速找到视频的下载地址而不是每一个数据点开来看呢?我想想能不能借助了谷歌浏览器的忙。

随便点开其中一个视频,右键,竟然可以查看并复制视频链接

复制到视频链接后,贴到地址栏,回车访问,也能播放,大喜呀!

马上回到调试工具,点击 preview 预览数据,按 Ctrl + F 进行搜索,把刚刚复制的地址贴到搜索框

咦,竟然匹配到了!

发现 media_info 中的 stream_url 就是该视频的播放地址,也就是下载地址。再往前看,media_info 前面的 content2 是视频的在微博中的标题。

查看其他的 Json 数据也同样有视频地址和标题,复制里面的 视频地址 url 贴到浏览器地址栏也能直接播放视频!八九不离十,这个 stream_url 就是视频下载地址了。

马上构造请求,根据刚刚复制的视频地址获取资源,并下载视频,看看有没有什么端倪,此时心中忐忑不安

很快就下载好了


点击播放视频,竟然毫无毛病,流畅播放!这下好了!就 kuang、kuang、kuang 准备开始撸代码了,不要怂,就是干!

认真查看请求地址、请求头中的请求地址,请求方法和 User—Agent 等,开始构建请求方法模拟 Ajax 请求,获取 Json 数据。


查看多几次异步请求,就会发现,变化的参数只有 page,可以一步步把一个参数删掉后测试一下能不能正常获取数据,这样把一些非不要的参数剔除。里面有一些注释,是我踩过的坑,有兴趣就多看几眼,希望各位看客能分享一下(在下方留言)在 python 爬虫上入过的一些坑,让彼此少躺枪!获取到了页面后,构建方法解析 Json 数据,分析 Json 数据中的层级结构,把里面的视频名和视频下载地址提取出来。

这里有个快捷查出 stream_url 层级结构路径,选中该属性或者说节点,右键,copy property path

再粘贴到浏览器地址栏查看即可清晰知道它们之间的层级结构

面对这种多层 json 格式数据,我知道有上面两种取值方式,代码中也说明了各的优势和缺点,按需选取。如果你还有更优雅的方式,希望你能在下方留言。

之后在,主函数中循环、遍历调用前面的方法,就下载指定到多少页的视频了

嗨皮时刻,效果如下

上面的代码中还有许多需要优化之处,比如下载时重名怎么办、各种参数的有效性判断等等,后面我也会优化一下,把它优化成:只用要用户输入自己喜欢的小视频制作方,如「 陈翔六点半」,再指定想看多少个视频或者多少页,后就自动下载视频,下载好了,就可以嗨皮娱乐一波了。关键是自己省很多时间,不得不像那些优秀的算法和大数据屈服

关注微信公众号:MoTec,查看更多爬虫的技术文章及电子书和视频。

如果你想瞧瞧这个小 demo,欢迎在公众号后台回复 「爬取微博小视频」获取。


推荐阅读

    代码树,你知道吗?

    Python 带你学潮汕话

    知道如何学习,学会学习 !

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,084评论 1 32
  • 今天是年后第一天上班,早上从一个莫名其妙的噩梦中醒来,心里就这么默默的低落了一个早晨,老公的陪伴让我心里踏实...
    向往的四月天阅读 151评论 0 0
  • 在《读书与美丽》中,严歌苓写道:“读书这项精神功课,对人潜移默化的感染,使人从世俗的渴望(金钱、物质、外在的美丽等...
    灵魂的天空阅读 1,352评论 13 12
  • 安装NVIDIA显卡驱动 由于Ubuntu系统自带的驱动更新是无法更新的显卡的最新驱动的,而且在更新过程中容易出现...
    Luffymaika阅读 2,462评论 1 3
  • 事物的基本结构往往决定了其外在的物理特性。就如绝缘体和导体,一个是至刚,不能导电;而另一个是至柔,一点就通。这两种...
    郑金阅读 171评论 0 2