#数据QA分享# 数据项目特点

数据项目通常是收集大量的数据,结合各种技术手段对数据进行分析、挖掘,帮助提升企业在商业模式、产品或服务上的创新力、提升商业决策水平、提高效益。数据项目的特点除了大家熟悉的数据本身的特点以外,本节又总结了其它几点:业务、技术、交付件。

业务方面

数据项目业务特点是通过数据实现为企业创造价值,即通过对大量的数据分析、挖掘,帮助企业增加市场份额、提升利润、降低经营风险、发现新的商业模式。
在【数据 + 技术 => 业务价值】的过程中,通常有这么两种思络:数据驱动和业务驱动。

数据驱动<=>业务驱动

(1)数据驱动
其核心是以数据为基础,通过分析企业已有数据源或相关同行业数据源,通过对数据分析或挖掘,从而发现问题、定位问题、由以往的经验判断转换为由数据驱动数据判断。

  • 收集已有数据或行业数据
  • 数据加工处理
  • 数据分析挖掘
  • 找规律、发现问题

(2)业务驱动
其关键是在懂自身行业和业务的前提,通过业务找数据、通过问题找数据,再从找到的数据中发现问题、解决问题,从而丰富和创造业务。

  • 深挖业务场景
  • 通过业务找缺失数据
  • 通过找到的数据发现问题、解决问题
  • 丰富和创造业务价值
数据驱动 + 业务驱动

数据方面

数据项目最大的特点就是项目数据的特点,4个V,如下图:


大数据4个V
  • 数据体量大
    包括采集、存储和计算的数据量都非常大,从TB到PB、甚至EB的规模。
  • 数据多样性
    数据种类和来源多样化。包括结构化、半结构化和[非结构化数据,音频、视频、图片等等,多类型的数据对数据的处理能力提出了更高的要求。
  • 数据实时性
    数据增长速度快,处理速度也快,时效性要求高。
  • 价值密度低
    全世界所产生的数据当中,有价值的数据所占比例很小。大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。
    比如:你有全国所有20-30岁年轻人的上网数据,那么通过分析这些数据,就知道他们的爱好,进而指导产品的发展方向。
    比如:你有全国几百万病人的数据,根据数据进行分析预测疾病的发生,这些都是大数据的价值。

交付件

在数据项目的交付件中,数据、软件程序、AI模型这三部分都有可能是最后的交付物。有的项目可能三者同时都有。

  • 数据为交付物
    企业推进数智化,专家已深挖大数据业务场景,但由于数据缺失被阻,邀请团队负责交付所需大数据。此时的交付物为数据,当然也有可能是数据+软件系统。再比如,现在很多第三方公司负责出售各类行业大数据集,这里的交付物就是数据。
  • 软件系统为交付物
    各类监测系统、大数据平台、BI报表系统等等,其共同点都是收集企业数据、经过数据分析、数据处理、挖掘,最后呈现结果,体现商业价值。
  • AI模型为交付物
    有的项目只需提供AI模型或优化模型的服务。当然更为普通的是在软件系统中、嵌入AI模型来做预测或推荐,这时最终的交付物便是软件+模型。

为何要从交付件这一方面来谈数据项目的特点,看上去有些牵强。这里两个目的:

  • 为了提醒在数据项目中,团队不要忽视了数据和模型这两类交付件。这在传统项目上通常没有的,不需要考虑。
  • 之前谈数据项目质量时,会从不同的交付物视角来谈质量。

技术侧

数据项目使用的技术框架通常都是大数据技术,专门处理大规模数据的存储与计算等问题。大数据核心技术又是围绕大数据生命周期:采集、存储和分析、共享、应用这四个方面分类,常见的大数据技术就有:
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash
消息系统:Kafka、StormMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Flink、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie

以上从业务、数据、技术、交付件这四个方面,介绍了数据项目通常有哪些不一样,希望对大家了解数据项目有一些帮忙。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容

  • 随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业。学习大数据是为了什么?成...
    Alukar阅读 648评论 0 4
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,536评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,190评论 4 8
  • 步骤:发微博01-导航栏内容 -> 发微博02-自定义TextView -> 发微博03-完善TextView和...
    dibadalu阅读 3,138评论 1 3
  • 回这一趟老家,心里多了两个疙瘩。第一是堂姐现在谈了一个有妇之夫,在她的语言中感觉,她不打算跟他有太长远的计划,这让...
    安九阅读 3,504评论 2 4