第四次作业

# 获取微博中我关注的信息

import requests

import json

import re

headers = {

    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Mobile Safari/537.36',

    'cookie':'ALF=1562986173; SCF=AguB0OuWjlUZniH81MFjp1v_dN9jYfcb5EhoB7pG4LSeP4LUcDelJIl2cHVvlh7JR4rznDtY-KPUB0ngTEOI3q4.; SUB=_2A25wBcmMDeRhGeRJ61oQ9SrFzDyIHXVTCdfErDV6PUJbktANLWvdkW1NUsQPeHgxMgBXoB6qMGst5p6FlwTtWZmR; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5md0Co0PbSEWirTAxEHqZA5JpX5K-hUgL.FozNehnpSKB4S052dJLoIEHbdsLV9cijIg4ri--fiKyhiKnfi--fi-82iK.7i--4iK.0i-iW; SUHB=0HTQlPahfD1jBB; SSOLoginState=1560394205; _T_WM=74406650744; WEIBOCN_FROM=1110105030; MLOGIN=1; M_WEIBOCN_PARAMS=lfid%3D1076032708154970%26luicode%3D20000174%26uicode%3D20000174; XSRF-TOKEN=1e350f'

}

url = 'https://m.weibo.cn/feed/friends?'

def get_info (url,page):

    res = requests.get(url,headers=headers)

    json_data = json.loads(res.text)

    # print(json_data)

    statuses = json_data['data']['statuses']

    for statuse in statuses :

        text = statuse['text']

        new_text = re.sub('[a-zA-Z0-9\s<="_>:/.?%]+','',text,re.S)

        print(new_text)

    next_cursor = json_data['data']['next_cursor']

    # print(next_cursor)

    page = page + 1

    if page <= 20:

        next_url = 'https://m.weibo.cn/feed/friends?max_id={}'.format(next_cursor)

        get_info(next_url, page)

    else:

        pass

get_info(url,1)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • #爬简书上关注群的投稿信息 import requests import json import re heade...
    chenjie0225阅读 877评论 0 0
  • 爬取听过喜马拉雅的节目信息 import requests import json headers = { 'Us...
    34660ecc69eb阅读 981评论 0 0
  • import requests import json # 第四次作业:获取简书某一关注的文章首页标题列表 hea...
    史_学语言阅读 968评论 0 0
  • 140 - 家电类 Time Limit: 1000 Memory Limit: 65535 Submit: 1...
    z坎坷阅读 3,907评论 0 0
  • Python3 正则表达式 最简单的正则表达式为普通字符串,与它自己匹配。换而言之,正则表达式 'python' ...
    安迪森阅读 3,529评论 0 0