内涵段子抓取Python

分析过程:打开浏览器开发者工具,通过点击下一页可以知道内涵社区的下一页是
动态加载。

image.png

复制到浏览器查看一下是json数据


image.png

通过仔细分析发现

image.png

以下是代码过程

import requests#网络请求模块
import time

#一下是内涵段子分析过程
#真实网址
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=1514600091.0
#上面网址返回的json格式的文件,包含了本页的评论内容和下一页网址的时间戳
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=11514594379
#上面的网址又返回了json文件,包含了本页的评论内容和下一页的时间戳
#故,爬取思路是==》外层循拼接下一页网址,内层循环保存评论内容和下一页的时间戳,内容保存到本地,时间戳返回给外层循环拼接
#注意的是,时间戳可能是整数,也可能是浮点数,
timesamp = 1514600091.0
while type(timesamp) == float or type(timesamp) == int:
    time.sleep(2)
    url = 'http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time='+str(timesamp)
    html = requests.get(url)
    for i in range(20):
        data = html.json()['data']['data'][i]['group']['text']
        print(data,end='\n')
        timesamp = html.json()['data']['max_time']
        with open('内涵段子.txt','a+',encoding='utf-8') as ff:
            ff.write('第'+str(i+1)+'内涵段子:'+data+'\n'*2)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,466评论 25 708
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,973评论 19 139
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,251评论 4 61
  • 观察者模式:定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。这个主体对象在状态发生变化时,会通...
    全栈未遂工程师阅读 356评论 0 1
  • 很多读者常常会问什么基金适合定投,我很少推荐指数,因为根据数据测算,中国主动型管理基金更适合定投,而且收益会更好。...
    薇薇庄主阅读 345评论 8 5