Python入门三天体验课

第一关：爬虫小白的进阶之路

前言

欢迎来和我们一起探究Python的奥妙。

本次课程共分为三天，你将学到爬虫基础知识、代码优化、数据的存储.....

老师会手把手带你实操写代码，一起感受python给我们的生活和工作带来的高效

开始学习前老师还有个小tips：将学习界面添加到收藏夹，学习更便捷😎

OK～一切准备就绪，let's go💪💪💪

初识python爬虫

什么是爬虫？
爬取网络数据的虫子（Python程序）
爬虫实质是什么呢？
模拟浏览器的工作原理，向服务器请求相应的数据
浏览器的工作原理

image.png

浏览器在这个过程中还起到了翻译数据的作用哦

爬虫的工作原理如下图：

image.png

数据背后的秘密

找不到这双鞋子的销售数据怎么办？

曲线救国，通过评论数据间接得到鞋子的销售数据
如何找到评论区内容背后的URL？

（1）鼠标右击选择检查，打开程序员调试窗口，点击network（网络）
（2）刷新当前页面
（3）复制一小段评论区内容，然后在程序员调试窗口点击放大镜🔎，粘贴
（4）点击刷新小圆圈🔄查找
（5）点击查询结果的第二行，跳转到对应的请求
（6）点击Headers，找到Request URL即几评论区数据背后的URL

image.png

Request URL: https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

3行代码爬取京东数据

梳理代码流程：

（1）引入Python工具包requests
（2）使用工具包中的get方法，向服务器发起请求
（3）打印输出请求回来的数据（print语法）

import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
print(resp.text)

牛刀小试1

爬取一页京东上销量最高的口红评论区数据

image.png

import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
print(resp.text)

第二关：python高手过招

Python代码解析数据

如何解析这堆杂乱无章的数据?

（1）打开网页工具 www.json.cn
（2）将数据整理成Json格式：以大括号开头和结尾
（3）找到目标数据值对应的名字

Python replace语法

replace为替换的意思，可以使用replace把任何不想要的数据替换成一个新值

引入Python整理数据的工具包 json、获取鞋子颜色及鞋码数据

import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  color =item["productColor"]
  size=item["productSize"]
  print(color)
  print(size)

怎么样？自己爬到数据的感觉有没有很奇妙🤪

牛刀小试2

利用for循环写一段代码，爬取评论中口红的色号数据

import requests
import json
resp =requests.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content =resp.text
rest=content.replace('fetchJSON_comment98(','').replace(');','')
json_data=json.loads(rest)
comments=json_data['comments']
for item in comments:
  color =item['productColor']
  print(color)

第三关：化身数据分析师

学会引入openpyxl工具包存储数据？

（1）创建一个Excel表格

（2）创建一个sheet

（3）在sheet里面保存数据

（4）把表格保存在一个磁盘里

import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
sheet1.append(['aaa','bbb'])
wb.save('data/123_ABC_CDE.xlsx')

注意⚠️：我们的数据保存在云服务器，服务器访问入口：http://py.xxx.com/pythondata

体验数据可视化分析

使用之前爬取的数据存储为CSV文件，然后进行可视化分析

import requests as rq
import json
import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  ids =item['id']
  color =item["productColor"]
  size=item["productSize"]
  sheet1.append(['ids','color','size'])
  sheet1.append([ids,color,size])
  wb.save('data/ABCD_20220511.csv')

使用pandas与matplotlib对Excel数据进行可视化分析

import pandas as pd
import matplotlib as plt
# data =pd.read_csv('data/ABCD_20220511.csv')
data =pd.read_excel('data/ABC_20220511.xlsx',sheet_name='Sheet1')

nrows =data.shape[0]
ncols=data.columns.size
count =data.groupby(['color'])['size'].sum()
count.plot.bar()

打开新世界的大门
Python操作处理大量Excel表格
Wow～恭喜完成了3天的体验课程🎉🎉🎉

import os
import openpyxl
wb=openpyxl.Workbook()
sheet1=wb.create_sheet()
src_dir="data/"
files =os.listdir(src_dir)
print(files)
for item in files:
  item.replace('.xlsx','')
  sheet1.append([item])
wb.save("data/20220509.xlsx")

牛刀小试3

将爬取的数据成功保存至Excel中

import requests as rq
import json
import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  color =item["productColor"]
  size=item["productSize"]
  sheet1.append(['color','size'])
  sheet1.append([color,size])
  wb.save('data/123_ABC_CDE.xlsx')

最后编辑于：2022.05.11 21:26:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,347评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,435评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,509评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,611评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,837评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,987评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,730评论 0赞 267
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,194评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,525评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,664评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,334评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,944评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,764评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,997评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,389评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,554评论 2赞 349

Python入门三天体验课

第一关：爬虫小白的进阶之路

前言

初识python爬虫

数据背后的秘密

3行代码爬取京东数据

牛刀小试1

第二关：python高手过招

Python代码解析数据

Python replace语法

牛刀小试2

第三关：化身数据分析师

学会引入openpyxl工具包存储数据？

体验数据可视化分析

牛刀小试3

推荐阅读更多精彩内容