数据仓库可以为企业的决策提供有力的系统数据支持。通过对数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。但数据仓库并不是数据的最终目的,而是需要对数据进行进一步的:清洗、转义、分类、重组、合并、拆分以及统计等。
常见的面试题:
构建数仓项目的数据来自于哪里,将要去到哪里?
答:数据主要来源于前端埋点的用户行为数据以及后端mysql中存储的业务数据以及爬虫数据(处于法律的边缘-不提倡),最终去到包括用户画像、推荐系统、机器学习、风控系统等。其中,通过此三种来源的数据最终进入到数据仓库中,通过多层可以解决不同问题的ETL 分层,最终解决问题。其中分层的概念类似于HTTP/IP协议。