写了个爬虫,可以获取抖音的全部数据,比如:用户信息、音乐信息、视频信息等等
业余时间写,用来爬取视频,然后调用AI图片识别接口,分类识别美女妹妹的(手动奸笑)
爬虫原理
- 抓包,抓包手机app的数据请求,分析后是http/https的post请求
- java代码模拟http请求,使用Hutool工具包
- 请求到数据是json,使用阿里的fastjson解析
- 总计java代码不够50行,使用了很多jar包,都是现成的功能
- 最后做了一个数据共享功能,每个人爬取的数据都会发送到服务器保存一份,也就是说使用的人越多,爬取速度越快,天然分布式、多线程,为自己的机智点赞!
成果展示
运行过程
作者信息
音频
视频
软件下载地址 :
https://github.com/liupeng328/GetDouYin/tree/master/%E5%AE%89%E8%A3%85%E5%8C%85
源代码放到了GitHub,有兴趣的拿去研究:https://github.com/liupeng328/GetDouYin