python学习第四天

今天是学习python的第四天，接着昨天的内容学习。

使用json技术去爬虫

首先先解释下，什么是json ，json是一种数据传输格式，通俗点讲它类似字典形态，大家知道他是什么样的就ok，想具体了解可以去看百度百科。
Ajax，是异步动态的，就像进入京东网他不是一下子全部刷新出来的，你往下浏览时光标滑倒哪，它就会刷新哪，因此称为动态的。
咱继续用豆瓣电视剧去爬虫做实例：

import requests
import json

# 什么是json  数据传输格式   类似字典          Ajax 异步动态的。。。就像京东网他不是一下子刷新出来的   你光标滑倒哪  刷新哪  动态的
url = 'https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
print(type(resp))
#获取json数据
data = resp.content.decode()
# 将Json字符串转换成python字典
# json.dumps()对应json.loads(data)
tv_info_pre = json.loads(data)
print(type(tv_info_pre))
print(tv_info_pre)     # [{},  {},  {}]

# 获取电视剧信息
tv_info = tv_info_pre['subjects']
tv_info_list = []
for tv in tv_info:
    temp = {}
    #  电视剧名
    temp['title'] = tv['title']
    #  url
    temp['url'] = tv['url']
    # rate
    temp['rate'] = tv['rate']
    tv_info_list.append(temp)
# 遍历
for tv in tv_info_list:
    print(tv)
    
# 存储成json文件
# python类型 转换成json类型
f = open('douban.json', 'w', encoding='utf-8')
# 默认是sacii码   需要设置ensure_ascii为false
json.dump(tv_info_list, f, ensure_ascii=False)

今天的开始的xpath爬虫剩余部分我又插在了第三天学习的里面，上午又学习了json爬虫，下午老师带我们来个小团建，老师带我们做的游戏都是考验团队协作能力的游戏，老师的初衷应该就是告诉我们个人的能力是有限的，我们应该去相信自己的队友，要重视团队配合，毕竟愚公移的山不是一个人来完成的，连续学了好几天，在游戏中释放了很多压力，感觉游戏结束顿时内心通畅多了，班级同学在一起学习了三天，互相都没怎么聊过太多，在游戏结束后怎么感觉每个小伙伴都是那么活泼呢，又认识了一堆小伙伴，真开心！
今天的内容只有这么多了，由于下午老师带我们玩耍了，下午没有去继续学习，最后老师给我们留了个作业就是去爬取猫眼电影里的Top100，小伙伴们也自己去尝试爬一下，就当是自己留给自己的考验，明天见，piupiupiu。
网址：https://maoyan.com/board/4?offset={}

python学习第四天

使用json技术去爬虫

推荐阅读更多精彩内容