不敲代码,也可以机器学习、数据挖掘——IBM SPSS Modeler

                                                                              作者丨Yomi

                                                      来源丨医数思维云课堂(ID:Datamedi)   


01 IBM SPSS Modeler简介

作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于 2010 年其新版本 14.1 的发布,名字也由 PASW Modeler 更名为现在的 IBM SPSS Modeler 。

Modeler是第一款以图形化“语法”为用户界面的数据挖掘软件。Modeler拥有丰富的数据挖掘算法,操作简单易用,分析结果直观易懂,图形功能强大,支持与数据库之间的数据和模型交换,可以使用户方便快捷地实现数据挖掘。

SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。其操作与数据分析的一般流程相吻合。数据分析通常通过数据收集、数据预处理、模型建立、模型评价等环节。Modeler形象地将这些环节表示成若干个节点,将数据分析过程看作数据在各个节点之间的流动,并通过图形化的数据流方式,直观表示整个数据挖掘的各个环节。

02 熟悉界面

典型的 SPSS Modeler 界面如下:

03 基本概念

1.节点

节点代表要对数据执行的操作。

例如,假定您需要打开某个数据源、添加新字段、根据新字段中的值选择记录,然后在表中显示结果。在这种情况下,您的数据流应由以下四个节点组成。节点示例:

2.数据流

SPSS Modeler 进行的数据挖掘重点关注通过一系列节点运行数据的过程,我们将这一过程称为数据流。也可以说 SPSS Modeler 是以数据流为驱动的产品。这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。如上面提到的四个节点可以创建如下数据流:

通常,SPSS Modeler 将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)。使用 SPSS Modeler 处理数据的三个步骤

1.将数据读入 SPSS Modeler。

2.通过一系列操纵运行数据。

3.将数据发送到目标位置。

在 SPSS Modeler 中,可以通过打开新的数据流来一次处理多个数据流。会话期间,可以在 SPSS Modeler 窗口右上角的流管理器中管理打开的多个数据流。

3.节点选用板

每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如:

(1)源:此类节点可将数据导入 SPSS Modeler,如数据库、文本文件、SPSS Statistics 数据文件、Excel、XML 等。

(2)记录选项:此类节点可对数据记录执行操作,如选择、合并和追加等。

用于对数据进行转换,包含选择、汇总、排序、合并、追加、区分等。其中:

“选择”节点:选出符合我们条件的数据;

“汇总”节点:将数据按照特定条件进行汇总统计;

“排序”节点:将数据按照一定的规则进行排序;

“合并”节点:将两个及以上的文件按照关键字等进行整合;

“追加”节点:将两个及以上的文件进行数据的累加;

“区分”节点:按照条件将重复数据删除。

在记录上进行操作,一条记录是一种“情形”或一“行”数据。

(3)字段选项:此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等.。

用于对列进行转换,包含类型、过滤、导出、填充、转置、字段重排等。在字段上进行操作,一个字段是一个变量/指标。

(4)图形:此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表等。

用于数据的可视化分析,包裹SPSS Modeler可以生成的主要图形,如分布图、直方图、多重散点图、网络图、时间散点图、评估图等,在建模之前和之后用来可视化数据。

(5)建模:此类节点可使用 SPSS Modeler 中提供的建模算法,如神经网络、决策树、聚类算法和数据排序等。

包含了丰富的数据挖掘模型,提供了一系列的数据挖掘技术,用来进行预测、聚类、关联、分类等,可满足数据挖掘的应用需求。

(6)数据库建模:节点使用 Microsoft SQL Server、IBM DB2 和 Oracle 数据库中可用的建模算法直接在数据库里进行建模及评估。

(7)输出:节点生成数据、图表和可在 SPSS Modeler 中查看的模型等多种输出结果。

输出不仅仅是ETL过程,还包括了对数据的统计分析报告输出,如表、矩阵、分析、数据审核、变换、统计量等。

(8)导出:节点生成可在外部应用程序(如 IBM SPSS Data Collection 或 Excel)中查看的多种输出。

导出的格式与“源”选项卡类似,包含数据库、Excel、SAS导出、Statistics导出等,用来对处理后的结果输出成相应格式。

(9)IBM SPSS Statistics选项卡:为了提高客户日常工作的效率,将 IBM SPSS Statistics 数据导入或导出为 SPSS Statistics 数据,以及运行 SPSS Statistics 提供的功能。设置该节点便于模型结果的再利用,从而实现与SPSS Statistics的兼容。

(10)Text Analytics文本挖掘选项卡:如果SPSS Modeler没有安装文本挖掘模块,则工具栏上将没有该工具,该节点是为了实现文本挖掘而添加的。

随着对 SPSS Modeler 的熟悉,您可以在收藏夹自定义常用的选项板内容。

4.使用节点和流

要将节点添加到工作区,请在节点选项板中双击图标或将其拖放到工作区。已添加到流工作区的节点在连接之前不会形成数据流,可以将各个图标连接以创建一个表示数据流动的流,节点之间的连接指示数据从一项操作流向下一项操作的方向。

创建了流以后,可以对流进行保存、添加注解,将其添加到工程。从文件主菜单中,选择流属性还可以为流设置各种选项,如优化、日期和时间设置、参数和脚本。使用流属性对话框中的消息选项卡,可以轻松查看有关运行、优化和模型构建和评估所用时间等流操作有关的消息,流操作的错误消息也将在这里报告。

5.SPSS Modeler 管理器

可以使用流选项卡打开、重命名、保存和删除在会话中创建的多个流。

输出选项卡中包含由 SPSS Modeler 中的流操作生成的输出或图形文件。您可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。

模型选项卡是管理器选项卡中功能最强大的选项卡。该选项卡中包含所有模型块,如当前会话中生成的模型,通过 PMML 导入的模型等。这些模型可以直接从模型选项卡上浏览或将其添加到工作区的流中进行数据分析

窗口右侧底部是工程工具,用于创建和管理数据挖掘工程(与数据挖掘任务相关的文件组)。有两种方式可查看您在 SPSS Modeler 中创建的工程 - 类视图或 CRISP-DM 视图。

依据跨行业数据挖掘过程标准 CRISP-DM选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用 CRISP-DM 工具都会使您事半功倍。

类选项卡提供了一种在 SPSS Modeler 中按类别(按照所创建对象的类别)组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。

IBM SPSS Modeler的内容就讲到这里,大家有任何疑问都可以加入我们的QQ群:数据挖掘学习讨论群:857687994。期待我们的再次相约!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容

  • 上周末有朋友安利电子烟给我,对于这种听起来很美,貌似又能省钱,又能保健的鸡汤,我向来是没有什么抵抗力的,于是,我果...
    雨天仁兄阅读 721评论 0 0
  • NodeJs是什么 Node.js is a JavaScript runtime built on Chrome...
    小言聊编程阅读 218评论 0 0
  • 动物,在生活中十分常见,对于很多人来说是他们的朋友,但是,在一次的散步中,我看到了人类对动物的伤害。 那是一条狗,...
    贾泽正阅读 553评论 3 5