一、心得体会
2号竞品抓取:
1、抓取结果(6个平台,完成5个,1个还在抓):
- 7小时15万条心上移动端总量(已完成)
- 15万条pc端详情抓取(今天抓取1万条,还剩10万条,估计还有7天)
- 6小时2万6千条真的移动端详情、上新和销量又重新改了逻辑,待验证(还在抓,估计还剩1小时)
- 4小时7千条plum移动端详情(已完成)
- 4小时爱叮猫3千条pc端详情(已完成)
- 1小时抖包包300条(已完成)
- 4小时女神派6000条(已完成)
2、代码
- 分析真的上架逻辑,发现第二次或二次以上上架(即下架又上架)的产品很难与一直存在的产品区分,因为如果二次上架的产品并没有改任何信息,商家只是纯下架再上架的话,和一直存在着的产品并没有什么差别,怎么区分?
- 但是,我发现自己陷入了自己设置的陷阱里面,我们就是要剔除掉这些上架又下架的产品啊,我们真正需要的是第一次上架的产品量。而每次抓的新纪录就是每天首次上架量。
- plum和爱叮猫的上架和销量逻辑按照真的逻辑来,加上架时间、销量字段。
评估:80%完成
3、遇到问题
- 昨天的问题:心上抓取太慢
今天在东亿快一倍左右 - 如果一个平台出租和出售同时存在,怎么区分两者的销售数据,有的平台有字段可以判断,需要找出来
- 今天修改了销量和上新代码,明天看下数据
4、计划
- 昨天的计划是否完成:昨天的计划是plum 和爱叮猫的代码和逻辑分析已完成
- 跑一下6个平台
二、读书笔记