概念:什么是数据挖掘

1. 大数据的特点

4V:大量(volume);高速(velocity);多样(variety);价值(value)

2. 大数据分析的核心要素

基于云计算的基础设施;分布式的大数据体系;数据分析方法与算法;行业应用知识与经验

3. R语言特点

  • 共享性。可以免费下载和使用
  • 分析方法丰富。
  • 操作简便性和灵活性。用户既可以调用R的现成模型和算法解决一般性的数据挖掘问题,又可以自行编写程序解决特殊的数据挖掘问题
  • 成长性。

4. 对数据挖掘的理解

  • 数据挖掘是利用各种方法从海量有噪声的各类数据中提取潜在的、可理解的、有价值的信息的过程。
    其中信息可以分为:(1)用于数据预测的信息;(2)用于揭示数据内在结构的信息
  • 数据挖掘是涉及多任务、多学科的庞大的系统工程,涉及数据源建立和管理、数据提取、数据预处理、数据可视化、建立模型并评价、应用模型评估等环节。
  • 数据挖掘的对象是大数据系统,因此重点和难点是如何高效合理地存储数据、保障数据的一致性。

5. 数据挖掘结果的呈现

  • 数学模型
  • 推理规则
  • 图形

6. 数据挖掘结果的特点

  • 潜在性:发现数据中隐含的变量相关性。数据挖掘通常采用“机械式”的反复搜索和优化计算归纳出存在于数据中的规律。
  • 可理解性:分析结论具有符合研究问题的可解释性。如果当数据挖掘的结果表现出不可理解的相关性时,可能是由于其他干扰因素存在而导致的相关。
  • 有价值性:数据挖掘的结果需要对决策具有指导意义。由于数据挖掘的对象是大数据系统,因此得到价值信息比小数据集更困难,因为数据挖掘采用的反复搜索和优化方法很可能只能得出表面信息,即海量数据自身某种无意义的随机性。

7. 数据挖掘方法和统计方法的区别

  • 统计学主要利用推断统计方法,计算样本的特征在原假设下出现的概率,判断是否具有统计显著性。但数据挖掘方法所研究的大数据系统具有海量数据,而任何统计不显著的现象都可能随样本量增大被判别为显著。
  • 统计学方法基于对研究问题的理解,依据经验或历史数据预设样本中存在某种关系,然后验证这种假定是否显著存在于当前数据中,总的来说是一种验证式思路,即“模式驱动”。而数据挖掘方法面对的数据量庞大,变量个数较多,采用归纳式的分析思路,通过反复搜索和优化计算归纳出存在于数据中的规律,即“数据驱动”。
  • 数据挖掘的研究对象常常是总体而不是随机抽取的样本。
  • 某些数据挖掘应用问题只能基于总体而非样本来研究。

8. 数据挖掘的应用

- 数据预测
  1. 分类预测问题:找到某些能将两类或多类分开的超平面,依据数据与超平面的位置关系预测数据的类别
  2. 回归预测问题
  3. 时间序列预测

利用数据挖掘方法解决以上问题时,需要注意:

  1. 数据挖掘方法得出的结论是否正确反映了总体而非部分样本之间的规律。常用的检验方法是从已有数据中随机抽取样本,检验该样本是否仍然满足结论(因此抽样方法仍然是有意义的
  2. 用于预测的数学模型或规则是否具有较好的预测性能(泛化能力)
- 发现数据内在结构
- 发现关联性
- 模式诊断

9. 数据挖掘方法需要解决的问题

  • 目标契合度不高的数据,如何进行建模。
    一般数据中会包含很多与研究目标无关的混杂因素,常采用的方法是多元建模,考虑混杂因素的影响,将其加入模型中并进行控制。
  • 海量、高维数据,如何筛选出有效的数据特征、提高分析效率
    首先需要采用统计学方法进行特征选择,其次需要抛弃统计学中的模式驱动方法,采用数据驱动的研究方法。
  • 对于复杂类型的关系数据,如何建模揭示数据特征
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容