爬取技术:爬取京东鞋子销量高及对应的尺寸

一、打开pycharm,创建py文件

打开编辑器pycharm,点击创建py文件,文件命名为“jdtest.py”

图1

访问京东地址:https://www.jd.com/,在搜索栏中输入“鞋子”,点击“销量”的搜索条件,如下展示:

图2

进入到鞋子详情界面中,并通过F12打开调试窗口,如下展示:

图3

点击“商品评价(5万+)”,通过复制评论的区域,查找该网页的路径url及请求头User-Agent信息,可通过点击“Headers”中可查看:

图3

查找到URL:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=71497516142&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1,

当请求第二页的时候,URL路径为如下:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=71497516142&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1

可查看以上两个路径,页码的变化,通过page的值(第一页为0,第二页为1)可体现出;

图4

查找到User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36

图5

将路径和请求头放置到py中,并将获取的结果提取出来,具体展示如下:

图6

将获取的结果放置到json格式中,通过print(resp.text)获取,如下展示:

图7

并将获取的结果复制出来,并将其json格式标准化,可知结果的头部有“fetchJSON_comment98(”,尾部有“);”,可通过replace将其替换掉为空,具体如下:

图8
图9

替换如下:

图10

替换完成后,格式如下:

图11

获取comments中的鞋子和尺寸大小:

图12
图13

定义一个excel文件进行存储获取到鞋子数据信息,引入openpyxl,并创建一个excel文件,创建一个sheet中进行存储数据;

图14

点击执行该文件,运行成功:

图15

运行后的excel文件,可在对应的路径下进行查看,结果展示如下:

图16

通过wps格式,打开该文件,出现数据如下:

图17

若是想获取多页的数据,可通过改变range中的数据,range(0, 1)改成,range(0, 10),再执行命令,可获取到更多数据(注:需要存储新的excel文件名,否则会报错),如下:

图18

重新执行,结果将会展示100条数据(一页10条,10页,100条数据)如下:

图19
图20

若是想试该用例,源代码如下:

import requests

import json

import openpyxl

excel=openpyxl.Workbook()

sheet1=excel.create_sheet()

headers ={

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

}

for itemin range(0, 10):

url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=71497516142&score=0&sortType=5&page='+str(item)+'&pageSize=10&isShadowSku=0&rid=0&fold=1'

  resp=requests.get(url,headers=headers)

# print(resp.text)

  content=str(resp.text).replace('fetchJSON_comment98(','').replace(');','')

jsonData=json.loads(content)

comments=jsonData['comments']

for iin comments:

color=i['productColor']

size=i['productSize']

sheet1.append([color,size])

excel.save('XXXX')

【注:其中的XXXX可根据实际的地址进行转换】

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容