Python爬虫系列17-批量采集快手某用户全部作品短视频,为你所用

序言

不那么好走的路,才是上坡路.
所有往上的路,都与我们本能的懒惰、懈怠和拖延不相容。
当你觉得很苦很累时,不要泄气,因为你可能走在上坡的路上。

实战

image.png
image.png

第一步:请求网络;获取到网站返回的数据内容


import requests

cookies = {
    'did': 'web_87ee5530f7dc26c5c05dfe66acf70e14',
    'didv': '1649420428219',
    'kpf': 'PC_WEB',
    'kpn': 'KUAISHOU_VISION',
    'clientid': '3',
    'client_key': '65890b29',
    'ksliveShowClipTip': 'true',
    'userId': '16671983',
    'kuaishou.server.web_st': 'ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABSRZDXsMuMvNx1jD8ZrUbZx_qeCKWWqkVg-4tSrPfgTQp7QUnDzCiXTRP0eZ63V7L7RxgN9b4nJYFUy_niJt7iUfU7T0IgFdNrcNxxSC20NNO1idShl4Ej_5Fb2HYtsb_RFEbRRpJg3GVQgkO_6tqANUEoUSyimIte_FRYGpZULgBp52oYcbiMvMv4WXnWIANARWMpAkRPwDvQphvtSLIZRoS5dGNQ2tN9j6L3QVO7fJXKiWdIiBrgZXAQs5LwU8-GCZrASiTRnFw2HQnkYMugbe7K5GyiigFMAE',
    'kuaishou.server.web_ph': '1add9f8e5ac33f374cfd8dba6cde9f596395',
}

headers = {
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive','Origin': 'https://www.kuaishou.com',
    'Referer': 'https://www.kuaishou.com/profile/3xjs47vsmgzxgnu',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
    'accept': '*/*',
    'sec-ch-ua': '".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}
# 携带的数据
json_data = {
    'operationName': 'visionProfilePhotoList',
    'variables': {
        'userId': '3xjs47vsmgzxgnu',
        'pcursor': '',
        'page': 'profile',
    },
    'query': 'fragment photoContent on PhotoEntity {\n  id\n  duration\n  caption\n  likeCount\n  viewCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  __typename\n}\n\nfragment feedContent on Feed {\n  type\n  author {\n    id\n    name\n    headerUrl\n    following\n    headerUrls {\n      url\n      __typename\n    }\n    __typename\n  }\n  photo {\n    ...photoContent\n    __typename\n  }\n  canAddComment\n  llsid\n  status\n  currentPcursor\n  __typename\n}\n\nquery visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      ...feedContent\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n',
}

response = requests.post('https://www.kuaishou.com/graphql', cookies=cookies, headers=headers, json=json_data)
print(response.json())

第二步:对数据进行提取和解析

for tony in response.json()['data']['visionProfilePhotoList']['feeds']:
        print(tony['photo'])
image.png

接下来,大家按照这种方式进行数据的提取就可以了 ;视频的地址链接就在该数据中。如果大家不会保存,可以看我前面写的爬虫系列文章,都有讲解如何保存视频文件的。
实践才是检验真理的唯一标准。

效果展示

image.png
image.png
image.png

在这个浮躁的时代;竟然还有人能坚持篇篇原创;

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

支持原创。感谢!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容