浅谈数据挖掘(概论)

浅谈数据挖掘(概论)

前言:学习资料的来源均出自,《图解机器学习》-杉山将,中国工信出版集团。《数据挖掘导论》-戴红,清华大学出版书,数据挖掘算法原理与实现。

笔者自述:不知道什么时候就开始有想学习数据挖掘这一块的知识,但是却从来都没有过开始。直到几天前,突然鬼使神差的去了图书馆,找了基本数据挖掘方面的书籍。当读完导论的时候,发现自己已经不能自给,深深的爱上了这个领域的东西。由于已经好久没接触计算机方面的知识了,现在又是一次挑战,我相信我可以的,希望广大走在奋斗道路上的朋友一同加油。我们扬帆起航,驶向远方。当然还有另外一个原因,那就是,因为本人今年大四,可能继续攻读研究生,但是不想把时间浪费在大四这一年无所事事的生活中,于是下定决心去找一份实习,虽然发了很多简历,但是基本上都是被拒了,所以坚定了我想好好学习一门技术的原因。

今天只是一个开始,数据挖掘这个领域的知识很多,以后我会不定时的发布自己的学习进程,与君共勉,我们一同加油,这么做的目的不是想怎么怎么样,只是想大家能很好的监督我。我们一起前进。我们都不是神的孩子,我们都是有梦的孩子。

今天我们来谈谈,数据挖掘的入门,数据挖掘这门技术很深奥,我们以后会慢慢给出。

一、数据挖掘的简单介绍

首先明确一个概念,数据挖掘不是简单的数据处理,他会用到数据库知识,机器学习知识,统计学知识等等。就好比你想追一个你不太熟悉的女孩子,你想知道,她喜欢什么样子的食物,喜欢什么类型的电影、音乐,什么样子的性格等等,那么你又不好意思直接询问,于是,你就打开她的朋友圈,微博,qq等一系列的社交工具。从这里边选取有用的信息进行使用,来判别她是什么类型的姑娘,平时喜欢做一些什么,所以学好数据挖掘,可以使我们能迅速了解一个姑娘,找到女朋友,结束这么多年的单身状态。所以这也是我学习数据挖掘的一个原因。

二、机器学习

机器学习(Machine Learning,ML)是模拟人类的学习方法来解决计算机获取知识问题的方法。我看了很多本关于机器学习的数据,发现里边对于机器学习的分类大体一致,我们这里采用《图解机器学习》里的分类,机器学习按照数据种类的不同,可以分为以下三类,监督学习,非监督学习,强化学习。


表格中的技术和应用我给自己定下的目标就是都进行训练。

接下来就是几种算法的形象化解释和理解

回归:把实函数在样本点附近加以近似的有监督的函数近似问题。

分类:指对于指定的模式进行识别的有监督的模式识别问题。

异常检测:输入样本点中包含异常数据的问题。

聚类:与分类问题相同,也是模式识别问题。

降维:从高纬度的数据中提取关键信息,将其转换为易于计算的低维度问题进而求解的方法。

学习模型而是分为以下三种,线性模型,核模型,层级模型。

三、数据挖掘的过程

数据挖掘的过程说的简单一点就是,从一堆数据中,通过一些算法,限定的条件,找到你需要的数据的过程,那么,数据来自什么地方,面对大量的数据它们存贮在什么地方,他们的数据类型是什么样子的,使用什么样的算法才是最准确的,才能得到我们想要的结果呢,又怎么进行数据模型的检测呢,那当所有的一些都完事了,这个模型又有什么应用呢?所有的一些,你是不是很迫不及待的想要去了解了呢?下面画一个流程示意图:


数据挖掘技术的选择至关重要:以下十点需参考,

1判断这个特定问题是否需要监督,是否需要进行关联分析。

2不同的数据挖掘技术对数据集中的属性之间的相关程度有不同的适应性。

3不同的数据挖掘技术对数据类型本身很敏感,明确输入属性是分类的,还是数值的,还是混合的,输出的类型是分类的还是数值的。

4针对数据本身,还应该了解数据的分布,比如统计技术则事先假设数据是正太分布的。这种假设是否与实际相等,是在采取统计技术前考虑。

5针对数据本身,还应该了解属性对于分类的预测能力。

6对于数据集中存在噪声数据和缺失数据的考虑。

7如果学习是有指导的,判断有一个输出属性还是多个输出属性。

8对所学的知识的解释能力往往也在选择某种技术建模时需要考虑到的内容。

9在选择挖掘技术时是否有时间上的考虑。

10选择机器学习技术还是统计技术的一些考虑。

综上所述,可以进行多选择不同的算法,来得出最好的数据结果。

四、数据挖掘的发展

数据挖掘的发展主要是分为四大类,其中包括:web挖掘,空间数据挖掘,流数据挖掘,数据挖掘与可视化技术,在这里边我认为最重要的技术就是流挖掘技术。之后的学习会有详细的学习笔记。

1 web数据挖掘


以上的具体应用会在后边的学习中给出。

我们了解了web在那几个方面进行数据挖掘,那么接下来就是我们挖掘的数据从何而来呢?

数据源


接下来我们说完了数据源,但是海量数据中,总有你想获得数据,那么多量的数据我们可以称为知识,那么知识本身是不是也应该有一定的分类呢?下面是对于知识的分类结构


隐形知识:非结构化的形式,例如:留言,社区,日志,博文。

显性知识:结构化特性,例如:标签,评分和用户资料。

衍生知识:搜索,聚类和文本挖掘。

以上就是web数据挖掘的浅谈,深入的理解和例子,还要进一步学习。

2空间数据挖掘

空间数据是人们借以认识自然和改造自然的重要数据,空间数据库中包含空间数据和非空间数据

空间数据的特点:

(1)数据源十分丰富,数据量非常大,数据类型多,存取方法复杂。

(2)涉及领域十分广泛,凡与空间位置相关的数据,都可进行挖掘。

(3)挖掘方法和算法非常多,大多数算法比较复杂,难度大。

(4)知识的表达方式多样,对知识的理解和评判依赖人对客观世界的认知程度。

接下来介绍空间数据挖掘的方法:


3流数据挖掘

传统的数据管理系统,只能用于处理永久的数据和进行瞬时的查询。


4数据挖掘与可视化技术

可视化将数据、程序、复杂系统的结构及动态行为用图形,图像,动画等可视化的形式表示。本质上:将抽象数据到可视结构的映射。


以上的知识内容只是浅谈数据挖掘,那么浅谈系列还会持续更新。读者有什么意见,可以直接给我留言,并且想跟我一起干掉数据挖掘这门技术的,我们可以一起讨论。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容