08_知乎

简述

本节继续实现知乎关注对象用户信息,主要使用 json 解析,cookie 模拟等手段实现。

目标对象

依旧是知乎轮子哥关注对象

使用包

import codecs
import json
import time, os #定时抓取
import requests 
import datetime #精确时间

主要实现方式

Paste_Image.png

通过抓包分析,确定目标json,尝试直接抓取,返回封装错误

{'error': {'message': '请求头或参数封装错误', 'code': 100, 'name': 'AuthenticationInvalidRequest'}}

尝试直接使用已登录cookie抓取

cookies = {}

raw_cookies = '自己的key,可通过F12浏览器,查看替换'

for line in raw_cookies.split(':'):
    key,value = line.split('=', 1)
    cookies[key] = value

def download_page(url):
    return requests.get(url,cookies=cookies, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }, timeout=120).json()

返回json解析

Paste_Image.png

总结

本次实现过程中主要涉及cookie模拟(还可扩展自行实现模拟登录,获取cookie),其他递归操作、文件输出、图片另存均于之前示例一致,只能算简单复习。

Paste_Image.png

源码:
spider_www.zhihu.com_following_json

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,282评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 177,264评论 25 709
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,829评论 4 61
  • 愛·不語 心有灵犀胜过千言万语。 静静聆听胜过滔滔不绝。 默默付出胜过娓娓而谈。 爱,不需言语。 情,只在眼里。
    希冀羽翼阅读 1,553评论 0 1
  • 你應該努力尋找生活美好的部分 去愛別人身上的優點 去愛自己 當然世界上有很多壞人 由於他們的家庭和環境 你不要去怪...
    雞毛蒜皮的小世界阅读 1,459评论 0 2

友情链接更多精彩内容