大数据应用领域与关键技术

最近开始介入数据资产建设工作。要成为数据领域的专家甚至高级专家,必须搞清楚大数据的应用方向,核心技术问题和解决方案。

数据的应用方向都有哪些?

  • BI报表
  • 商业/投资/经济分析
  • 金融风控
  • 系统安全
  • 用户画像
  • 相关推荐
  • 其它机器学习任务上游

主要用到的技术,解决的问题

ETL:数据摸底、补全、清洗、归一化、标准化
数仓建模:三层数仓、维度模型
数据挖掘:等同、相似、相关、分类、聚类、预测、打标。以及其它通过数据验证假设的过程。
机器学习:分类、预测、聚类、生成,NLP、CV、Speech
用户画像:通过用户行为,计算用户标签。
数据立方:将指标在各种维度组合下的值提前计算好,形成数据立方。供分析引擎使用。
在线分析引擎
可视化

核心技术栈对照表:

应用 ETL 数仓建模 数据挖掘 机器学习 用户画像 数据立方 在线分析引擎 可视化
BI报表 V V V V V
商业分析 V V V V V
金融风控 V V V V V
系统安全 V V V V V V
用户画像 V V V
相关推荐 V V V
机器学习上游 V V V

ETL核心技术

通常ETL逻辑是数据挖掘的一部分。
这一步的作用是完成数据预处理,定义数据规范,完成数据归一化、标准化。提升数据质量,发现并处理异常数据。

数仓建模核心技术

根据对领域业务的理解,使用维度表与事实表完成对领域的建模。搜索:数仓建模,维度模型

数据挖掘核心技术

  • 等同:hash、skip_hash、归一化(依赖)、标准化(依赖)
  • 相似:simhash(文本)、phash(图片)、 欧氏距离、余弦距离
  • 相关:相关系数、欧氏距离、余弦距离
  • 关系推断:图计算

如下部分依赖机器学习:

  • 聚类
  • 预测
  • 打标

机器学习核心技术

大数据领域常用机器学习问题:

  • 聚类
  • 回归
  • 分类

大数据领域常用机器学习领域:

  • NLP:用于分析文本数据
  • CV:用于分析图片、视频

用户画像核心技术

  • 参考google用户画像论文

数据立方

  • 搜索数据立方的计算

在线分析引擎与可视化

  • 搜索rolap, molap
  • 搜索可视化引擎
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 知识图谱构建技术 本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技...
    达微阅读 33,787评论 2 32
  • 大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集...
    change_8b6a阅读 12,362评论 0 1
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,565评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,610评论 0 11
  • 可爱进取,孤独成精。努力飞翔,天堂翱翔。战争美好,孤独进取。胆大飞翔,成就辉煌。努力进取,遥望,和谐家园。可爱游走...
    赵原野阅读 2,770评论 1 1