昨天看到一个分享,来自前quora cto目前在医疗领域创业的Xavier,下图一页讲到了各个AI应用的共同点,结合香帅金融课对数据驱动的解释,可以总结如下:
1. 使用大量的数据(数据)
2. 自动化的数据处理、决策流程(动)
3. 个性化的解决方案与服务(驱)
4. 提升系统各个参与方的体验和效率
商业上的解决方案逻辑,决定了支撑它的架构在抽象层次上也是相似的。
(1)数据基础架构
数据基础架构解决的是如何获取和处理多样化、大量的数据。
多样化,首先是支撑业务的数据是多样化的,它包括业务系统产生的结构化数据,各种数据库表定义风格迥异,都需要进入数据仓库,还有各种打点、日志、中间分析结果,仅仅支持这些数据就需要很好的数仓结构设计,例如按照基础层、中间层和应用层分层,并且按照业务主题分块,这样对入库和查找会很有帮助。
除了以上数据,还包括内部和外部的非结构化数据,例如图像、语音、网页、供应商提供的xml/json等,这些数据一方面需要跟业务数据一样来管理,另外一般还需要额外的解析,形成结构化的数据。
要解决数据量大的问题,就需要hadoop、spark、flink这样的计算系统,以及hdfs、hive、hbase、elastic search这样存储与访问系统了。
还有一点就是业务对实时性的要求越来越高,上述的数据采集、处理和应用都要能在实时或近实时完成,这就需要基于storm、spark streaming、flink来构建系统。