2019年华为网络精英挑战赛-大数据

1.1 大数据的基本特征

Volume:数量大;Variety:种类和来源多样化;Velocity:及时性要求高;Value:价值密度低。

1.1.2 Hadoop特点

开放,全球生态;结构化、半结构化、非结构化;高性能、实时。

1.2 大数据理念变革

与传统数据对比
创新点

1.3 大数据与云计算、人工智能AI

1.4 企业级大数据关键技术

1.4.2 数据处理

批处理:适用于传统数据库或分布式数据库;支持结构化与非结构化数据的处理;大量数据的处理需求。适用于时效要求不高,同时数据处理规模较大的场景。

流处理:支持流式数据的处理与计算;处理时效性较高;处理过程数据不落地。针对数据处理结果需要高效的延迟的场景。

处理方式转变:库内计算到库外计算。

1.4.3  数据分析与挖掘

基于价值应用场景的大数据建模

1.4.4 数据应用

实时营销;实时监控及热力图;客户画像。

1.5 大数据主要存储技术介绍


1.5.1 HDFS


HDFS

1.5.2 YARN


YARN

1.5.3 Mapreduce

mapreduce

1.5.4 Hive原理简介

Hive

1.5.6 HBase-Hadoop datebase

HBse

1.5.7 Spark


Spark   

1.6 hadoop典型应用场景

离线统计分析;详单查询;云化ETL

2.1 数据挖掘

在数据中(半)自动发现隐含的,以前未知的和有价值的信息。

2.1.1 数据挖掘行业应用

美团实时推荐;爱奇艺票房预测。

2.1.2  数据挖掘应用面临的困难和挑战

使用门槛高;应用周期长;模型设计与优化缺乏辅助工具;缺乏实时分析能力。

2.1.3 常用挖掘软件

HUAWEI universe; SAS ;R语言 ; IBM Modeler

2.2 挖掘算法

有监督学习:regression(回归);classification(分类)

回归:连续变量预测

回归分析:指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

典型应用:用户数预测;收入预测;目标制定;业务发展分析。


分类:离散变量预测

分类:使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类。目前在商业上应用最多,分类是过程,预测是目的。

分类算法:决策树、随机森林、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)

典型应用:流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警

无监督学习:clustering(聚类);association(关联);recommendation(推荐)

聚类算法:根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,这样的一组的数据对象的集合叫做簇,并且对这样一额簇进行描述的过程。

聚类算法:

划分法:K-MEAND算法、K-MEDOIDS算法、CLARANS算法;

层次法:BIRCH算法、CURE算法、CHAMELEON算法;

基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法

典型应用:客户细分、客户研究、市场细分、价值评估、精细营销。


关联分析:关联分析的目的是找出数据库中隐藏的关联关系。

关联算法:

无时序关系:apriori算法、FP-TREE算法

有时序关系:gsp算法、prefixspan算法。

典型应用:交叉销售、套餐设计、网页设计、目录设计


推荐算法:利用用户的一些行为,通过数学算法,推荐出用户可能喜欢的东西。

推荐算法:基于内容推荐、协同过滤推荐、基于规则推荐、基于知识推荐

典型应用:个性化营销

自测题:


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 什么是大数据?不要再举例说啤酒和尿布的例子了,Gartner的分析师Doug Laney在讲解大数据案例时提到过8...
    晨硕杂谈阅读 4,527评论 0 16
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 6,266评论 0 22
  • 放假也不多说什么了,今天学习六个半小时,够累也够味,晚上罪恶的加餐点外卖该杀(๑‾᷅^‾᷅๑) 嫌弃你
    我似豆包啊阅读 171评论 0 0
  • 十月的你,恬淡,安静。 像是一瞬间的事,落叶铺遍了校园,层层叠叠,一如我们的青春,纯净的没有一点杂...
    君十七阅读 385评论 2 3
  • 听着于文文的《体面》,脑中出现的永远是那句“分手应该体面,别让执念,毁掉了昨天,我爱过你,干净利落,再见,不负遇见...
    Silly_Roy阅读 488评论 0 5