数据挖掘考试范围

完整解释一个数据挖掘的过程

(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据
(2)数据集成:将来自多个数据源中的相关数据组合到一起
(3)数据选择:根据数据挖掘的目标选取待处理的数据
(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
(5)数据挖掘:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
(6)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识

从商业应用的角度可以把整个数据挖掘过程描述为三个步骤:首先是数据收集,然后利用数据挖掘相关方法提取出有用的知识,最后以提取出来的知识来辅助相应决策者进行决策。

  1. 数据收集和预处理:收集到的原始数据通常存在缺失值、错误值、不一致值等问题,cannot直接用作知识提取的数据源,需进行数据预处理。
  2. 知识提取:基于预处理后的数据,使用各种数据挖掘方法(如分类、聚类、关联分析.etc)
  3. 知识辅助决策 :将提取出来的知识提供给决策者,以辅助制定相应决策。

数据的统计特征

  • 平均数
  • 中位数
  • 截断平均数:指定0-100的百分数p,丢弃高端和低端(p/2)%的数据,然后计算均值。标准均值是对应于p=0%的截断均值。
  • min-max规范化

噪声概念、常用处理方法

  • 比如,收集野外气象数据的时候,每一个自动化收集站都会收集气压,气温、雨量、方向等数据,如果由于传感器灵敏度的原因,收集的数据会有误差,此为噪音。
  • 分箱、聚类、回归:
    1、通过考察数据的周围值来光滑有序数据的值。
    例子:
    假定箱子大小:3
    4,8,15
    用均值进行光滑:
    9,9,9
    用边界光滑(用距离最近的值替换原值):
    4,4,15
    2、回归
    用一个函数拟合数据来光滑数据。主要有线性拟合和多远线性拟合等。
    3、聚类
    通过聚类将类似的值组织成群或者簇,可以直观检测离群点。

举例说明什么是分类挖掘任务、ID3算法、KNN算法、贝叶斯算法

分类与聚类差别在于数据 中是否有类标号,也就是有专家参与。

  • 从数据方面,分类挖掘的数据必须有类标号;
  • 从算法上,分类主要是建立决策树模型,而聚类主要是将相似的数据归为一类。
    书上P52的0.94怎么算出来的

通过高中生回答问卷中的问题系统可判断出该学生适合读大学什么专业——有监督的分类挖掘任务,样本需要来自不同层次的学校。类标号列数据的获取需要对参加过回答问题且考上了大学的学生填写专业并回答是否喜欢本专业。

举例说明什么是聚类挖掘任务、掌握k-means算法、DBSCAN算法、CSI的计算

  • 如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信 息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基 于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某 个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。
  • 如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户群,采用关联规 则或者隐马尔科夫模型对每个客户群生成消费习惯规则,检测客户的消费模式,这 些规则或模式可以用于商品推荐。其中客户群可以通过聚类算法来预先处理获取得

举例说明什么是关联分析任务、Apriori算法、FP树算法

  • 在医学领域:发现某些症状与某种疾病之间的关联,为医生进行疾病诊断和治疗提供线 索;
  • 在商业领域:发现商品间的联系,为商场进行商品促销及摆放货架提供辅助决策信息;
  • 在地球科学领域:揭示海洋、陆地和大气过程之间的关系。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容