1. 数据准备
数据收集
历史销售数据:
日、周、月的销量记录。
不同产品、品类、地区、渠道的销量分布。
市场趋势数据:
行业报告、市场增长率、竞争对手动态。
社交媒体热点或搜索引擎关键词趋势。
外部因素数据:
节假日、季节性变化。
经济指标(如GDP增长率、消费信心指数)。
天气数据(对季节性产品影响较大)。
促销活动数据:
折扣、满减、广告投放等对销量的影响。
数据结构设计
产品消息信息表
用户购买数据表
维度说明
1、是否为新客户(is_new_customer)
标记用户首次购买行为(如注册后首次购买为True)。
有助于分析新客户的转化效果和首次购买习惯。
2、历史购买次数(purchase_count)
统计用户累计的购买次数。
用于区分高频用户和低频用户(如忠诚用户 vs 潜在流失用户)。
3、平均消费金额(average_spending)
衡量用户的消费能力,便于购买力分层。
与购买频率结合,可识别高频低消费或低频高消费用户。
4、购买力分层(purchase_tier)
基于历史消费金额对用户分层(如高消费>1000,中消费500-1000,低消费<500)。
用于精准营销和个性化推荐。
5、折扣偏好(discount_preference)
标记用户是否经常购买折扣商品。
提供促销活动个性化推荐的依据。
6、购买频率(purchase_frequency)
单位时间内的平均购买次数(如月均、年均)。
帮助识别高频次购买用户(如日常消费品)和低频次购买用户(如奢侈品)。
7、最近购买日期(last_purchase_date)
用于计算用户活跃度(如距离最后一次购买时间越长,流失可能性越大)。
8、流失风险预测(churn_risk)
使用模型预测用户的流失风险(如结合购买频率、最近购买日期等特征)。
9、忠诚度等级(loyalty_level)
根据用户的消费金额、频率等设定忠诚度等级(如黄金会员、白金会员)。
10、推荐次数(referral_count)
记录用户成功推荐他人购买的次数。
有助于识别KOL用户或传播能力较强的用户。
外围数据表
综合不同维度的数据,可以形成如下表格:
缺失值处理:对历史数据的缺失值进行插值或填充。
异常值处理:剔除异常波动的销量数据(如库存问题导致的销量异常)。
时间序列构建:将数据整理为时间序列格式,添加日期、周期等特征。
特征提取:构建有意义的特征,如移动平均销量、同比增长率等。
2. 数据分析
趋势分析
分析整体销量趋势(增长或下降)。
检测销量是否具有明显的周期性(如季节性变化)。
相关性分析
销量与促销活动、天气等外部因素的相关性。
销量与市场趋势(如搜索关键词热度)的关系。
可视化
使用折线图、热力图等可视化销量变化趋势和影响因素。
分析过程:
根据已有的数据集(产品销售历史数据、用户购买信息数据和其他维度数据集),可以构建一套特征工程方案,提取有助于预测模型学习的高价值特征
1. 时间维度特征
目标:捕捉销售的周期性和趋势性规律。
日期特征:
日:1-31,用于分析日内或月内波动。
月:1-12,用于分析季节性。
年份:区分跨年趋势。
周几:1-7,捕捉工作日与周末差异。
节假日标志:
是否为法定节假日(0/1)。
是否为促销节日(如双11、黑五)(0/1)。
时间间隔:
距离上一次促销的天数。
距离新品发布的天数。
2. 用户行为特征
目标:捕捉用户行为模式及购买偏好。
购买历史:
用户过去30天、60天、90天的购买次数、金额。
用户平均订单金额(客单价)。
购买频率:
用户的平均购买周期(例如,过去购买的时间间隔均值)。
最近一次购买与当前日期的间隔。
购买类型偏好:
折扣商品占比(购买折扣商品次数/总次数)。
新品购买占比(购买新品次数/总次数)。
购买力分层:
按购买金额分层(高、中、低)。
按用户生命周期分层(新用户、活跃用户、流失用户)。
忠诚度特征:
用户重复购买的比例(同一产品多次购买次数/总次数)。
购买单一品牌或品类的比例。
3. 产品特征
目标:分析产品属性对销量的影响。
产品基本属性:
类别:如食品、家电、服装(用One-Hot编码)。
价格区间:低价、中价、高价(用区间分类)。
产品生命周期:新品、成熟期、衰退期。
历史销量特征:
产品过去30天、60天、90天的销量及同比增长率。
产品平均销售价格及波动幅度。
促销特征:
是否参与促销活动(0/1)。
促销类型:满减、折扣、买赠。
促销力度:如折扣百分比。
4. 地理与市场特征
目标:结合市场特性与地理信息,捕捉区域差异。
地理位置:
区域类别:如城市、郊区、农村(用One-Hot编码)。
区域消费能力(可根据公开经济数据定义)。
物流特性:
物流时效:订单发货到交付的平均天数。
配送成本:物流费用(高、中、低)。
市场数据:
区域内市场份额(本公司产品销量/市场总销量)。
区域内竞争对手活动(是否有竞争促销活动 0/1)。
5. 营销与广告特征
目标:分析广告投入和促销活动对销量的拉动作用。
广告特性:
广告投放金额。
广告点击率、转化率。
促销活动:
当前是否有促销活动(0/1)。
促销活动类型(折扣、满减、买赠,用One-Hot编码)。
搜索趋势:
产品相关关键词的搜索热度。
6. 环境与外部特征
目标:分析环境变量对销量的外部影响。
天气特性:
温度:高、中、低(用区间分类)。
是否有降雨或降雪(0/1)。
经济特性:
宏观经济指标:如GDP增长率、消费者信心指数。
通货膨胀率:反映商品价格水平。
7. 历史数据聚合特征
目标:基于时间窗口提取聚合统计值。
时间窗口聚合:
最近7天、30天、90天的销量均值、最大值、最小值。
销量波动幅度(最大销量 – 最小销量)。
同比环比特征:
与去年同期销量的同比增长率。
与上个月销量的环比增长率。
累计销量:
过去一年累计销量(作为长期趋势参考)。
8. 交叉特征
目标:挖掘多维度之间的交互信息。
用户-产品交叉特征:
用户对某一类别产品的偏好度(该类别购买次数/总购买次数)。
用户对某一品牌的忠诚度(该品牌购买次数/总购买次数)。
产品-时间交叉特征:
不同产品类别在节假日的销量变化。
产品价格变动与销量之间的交互关系。
特征构建示例
假设要预测某产品在特定日期的销量,最终输入特征可能如下:
日期产品ID用户ID区域平均订单金额是否节假日温度广告投入最近7天销量均值同比增长率促销类型产品价格区间用户购买频率用户忠诚度
2023-12-01P001U001北美450115°C10001200.2折扣中价高0.8
特征构建完成后,接下来需要将这些特征应用到模型开发流程中,下期讲解