交流目的及解答
反馈现在遇到的问题
获得解答
确定后续的技术路线,借助DT的经验来确定选型是否合适
之前定的方案是合适的,但是细节上需要进一步明确。
得出能够落实的方案(理论依据 + 实现可能)
- 向业务请教现有有效规则经验,抽象化为特征
- 积累数据
- 模型迁移尝试
- 构建稀疏特征,第一步尝试使用MLR等传统模型处理,第二步采用多层神经网络(是否激进一些,直接使用神经网络???)
交流内容点
异常值处理
问题
- 是否进行异常值处理?
- 使用哪些异常处理的方式会更为合适?
解答
- 尽量使用尊重数据本身,不要做异常值处理
特征构建及选择
问题
- 如何进行分段(离散化、分箱) ?
- 是否做哑变量处理?
- 如何进行选择(高度线性相关、近零方差、逐步迭代回归)?
- 扩展维度编码(是否一起编码) 做成插件形式?
解答
- 通过业务的先验知识,增加强相关的特征
- 通过比较粗暴的方式,获取全量的特征(比如每个时间段的点击),然后通过多层神经网络(中间层加入特征选取的功能)进行筛选和预测
- 通过高次特征组合的方式,来扩展特征
- 尽量使用端到端的方式,进行特征选取
- case1 人 品牌 交互行为 时间 ,以这个四个张量维度,作为基础,分别计算各个维度可能扩展出来的特征,从而扩展出数百个强关联的特征。例如人的年龄、性别。 品牌的价位,点击情况等等。
- 总结:尽可能多的选取特征,交给模型去筛选(注:为避免高阶特征可能出现的共线性问题,尽量选取抗共线性模型)
稀疏矩阵处理
问题
- 采用神经网络:技术选型 线下Keras 线上DL4J
- 采用GBDT + LR
- 采用XGBoost
解答
- 第一步可以使用MLR,GBM,XGBoost等
- 后续,构建多层神经网络(层之间,增加不同的特征处理手段)
- 采用流式学习的模型,可以考虑进行增量学习
- 调优经验:一方面是根据已有的经验(树的深度,分叉等等)进行调参,另一方面是通过grid search 搜索
数据非平衡 & 数据提纯问题
解答
- 尽量尊重样本本身,不要对样本做过多的处理
- case1 文本问题,4万样本,百万级别特征
- case2 图像问题,3万样本
- case3 CTR 问题,4亿样本,亿级别特征,正负样本1:80
关于推荐算法
解答
- 可以尝试
- 无监督学习一般来说,难以超越有监督学习
关于模型迁移
解答
- 相似类型业务的模型,可以迁移使用