python学习第四天

今天是学习python的第四天,接着昨天的内容学习。

  • 使用json技术去爬虫

首先先解释下,什么是json ,json是一种数据传输格式 ,通俗点讲它类似字典形态,大家知道他是什么样的就ok,想具体了解可以去看百度百科。
Ajax, 是异步动态的,就像进入京东网他不是一下子全部刷新出来的,你往下浏览时光标滑倒哪,它就会刷新哪,因此称为动态的。
咱继续用豆瓣电视剧去爬虫做实例:

import requests
import json

# 什么是json  数据传输格式   类似字典          Ajax 异步动态的。。。就像京东网他不是一下子刷新出来的   你光标滑倒哪  刷新哪  动态的
url = 'https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
print(type(resp))
#获取json数据
data = resp.content.decode()
# 将Json字符串转换成python字典
# json.dumps()对应json.loads(data)
tv_info_pre = json.loads(data)
print(type(tv_info_pre))
print(tv_info_pre)     # [{},  {},  {}]

# 获取电视剧信息
tv_info = tv_info_pre['subjects']
tv_info_list = []
for tv in tv_info:
    temp = {}
    #  电视剧名
    temp['title'] = tv['title']
    #  url
    temp['url'] = tv['url']
    # rate
    temp['rate'] = tv['rate']
    tv_info_list.append(temp)
# 遍历
for tv in tv_info_list:
    print(tv)
    
# 存储成json文件
# python类型 转换成json类型
f = open('douban.json', 'w', encoding='utf-8')
# 默认是sacii码   需要设置ensure_ascii为false
json.dump(tv_info_list, f, ensure_ascii=False)

今天的开始的xpath爬虫剩余部分我又插在了第三天学习的里面,上午又学习了json爬虫,下午老师带我们来个小团建,老师带我们做的游戏都是考验团队协作能力的游戏,老师的初衷应该就是告诉我们个人的能力是有限的,我们应该去相信自己的队友,要重视团队配合,毕竟愚公移的山不是一个人来完成的,连续学了好几天,在游戏中释放了很多压力,感觉游戏结束顿时内心通畅多了,班级同学在一起学习了三天,互相都没怎么聊过太多,在游戏结束后怎么感觉每个小伙伴都是那么活泼呢,又认识了一堆小伙伴,真开心!
今天的内容只有这么多了,由于下午老师带我们玩耍了,下午没有去继续学习,最后老师给我们留了个作业就是去爬取猫眼电影里的Top100,小伙伴们也自己去尝试爬一下,就当是自己留给自己的考验,明天见,piupiupiu。
网址:https://maoyan.com/board/4?offset={}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容