《构建实时机器系统》

这本书主要介绍了一些常用的工具如数据分析pandas、机器学习scikit-learn、安装部署docker技术、消息队列、实时数据监控ELK。以及如何借用这些工具构建实时机器学习系统。

构建实时机器学习系统思路

  • 不重复造轮子
  • 没有模型是完美的,随着时间的推移,需要不断改进模型
  • 重视上下游生态 ,需要方便解释和学习

衡量机器学习模型

image.png

时效性分类

根据时效性,机器学习大致分为三种模式:硬实时、软实时、批处理

硬实时

定义:接收到请求时,马上对请求做出响应
应用场景:网页浏览、在线游戏、高频交易等对时效性要求非常高的领域
技术实现:

image.png

软实时

定义:接收到请求时,立即开始对响应进行处理,在较短时间内进行反馈
应用场景:物流运输、较为频繁的数量金融交易场景
技术实现:

image.png

可以借助已有开源技术storm或flink等

批实时

定义:批到达的数据进行实时处理
应用场景:处于模型训练和数据加工上场景。例如,对于数量金融等场景,从业人员往往需要对一定时间窗口中出现的成交量进行加总;对于气象预测等场景,单位时间窗口中的降雨量是进行预测的重要指标;对于社交舆情分析,从业人员需要对一定时间窗口中的关键词进行汇总分析。
技术实现:

image.png

可借助的开源技术spark streamig

未来

serveless和深度学习

深度学习的难点

  • 解释性工具缺失
  • 应用场景限制,需要大量的数据
  • 模型训练成本限制,需要高性能计算
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容