1、信息的概念
信息是用来消除某种不确定性的东西
2、信息熵的概念
事务或事件的不确定性度量
3、信息量的计算
事务(事件)接收信息前后两种情况下信息熵的差
猜骰子游戏
4、信息预处理
4.1数据变换
零均值化:给定一数据集,将数据的每个属性都减去这个属性的均值
•零均值化后,数据各属性的性质不发生变化
•零均值化可以消除直流分量干扰,在图像预处理及主成分分析中有相应作用
标准化:原始数据不同维度上的属性的尺度(单位)不一致时,需要标准化步骤对数据进行预处理
独热编码(一位有效编码):用来对标称属性进行编码
独热编码能够一定程度扩展数据的属性,在依靠相似度计算的数据分析技术中非常有用,但由于属性数量的增加,会导致计算量的增加
4.2数据抽样
随机抽样、分层抽样、聚类抽样
4.3数据清洗
缺失值填充:数据分析过程中,数据有些属性值空缺,有些特殊值表示不可用(注意非随机缺失)
填充方法:均值填充、回归填充、相似填充
平滑噪声:去除数据中存在的噪声数据
分箱、平滑
5、数据统计分析的基本统计量
6、数据的相关分析
线性相关分析——散点图——相关系数——互信息——协方差
7、数据的决策分析
数据分类:根据某个模型,将数据划分的相应的类别中去
训练模型——利用已知数据样本建立模型
样本分类——利用模型,对未知样本进行分类
决策树是经典的分类模型,其构造过程基于信息熵的计算——条件属性,用来描述事物本身特征——决策属性,用来进行决策判断
决策树中,内部节点(包括根节点)都是条件属性,叶子节点为决策属性。
从根节点到叶子节点的一条路径,形成一条决策规则。
惰性分类方法——训练模型、样本分类
多准则决策分析——计分模型——标准——权重——排序——计算得分——排序
多准则决策分析层次分析法——AHP要求决策者对每个标准的相对重要性做出判断,并利用每个标准做出他对每种决策方案的偏好程度——AHP输出一个按优先级排列的决策方案列表——AHP的优点在于,当一个决策者的独特主观判断构成决策过程的重要部分时,它仍然有效。
AHP流程——构建层次,以图的方式来表示问题的总体目标——运用数学方法综合给出每条标准的相对重要性以及对决策的偏好。——对标准进行两两比较,找到相对重要的标准,并确定重要性——确定标准优先级,构造两两比较矩阵——综合处理两两比较矩阵
8、信息检索
信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。
狭义的信息检索仅指信息查询。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。
广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。
信息检索语言——用来描述文献内部、外部特征和表达信息提问的一种语言——信息存储的组织化——因此检索语言是受控语言
受控语言——也称为规范化语言,由一些规范化的词汇组成的标识系统
检索技术——布尔检索,与或非——截词检索——限制检索——位置检索——加权检索
检索效果评价——查全率——查准率——漏检率——误捡率
9、信息系统成本构成
任务分解法
专家判别法——I.类比法:通过对比已知信息系统的成本来估算当前系统的成本——I.Dephi方法:通过综合多个专家的意见来估算——I.价格制胜法:无条件迎合客户的方法——帕金森方法使用最多的资源去开发系统
Ø帕金森定律:在管理结构(政府和公司)中,机构会像金字塔一样不断增多,管理人员会不断膨胀,每个人都很忙,但组织效率越来越低下。这条定律又被称为“金字塔上升”现象。
Ø墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。
Ø彼得原理:在各种组织中,由于习惯于对在某个等级上称职的人员进行晋升提拔
,因而雇员总是趋向于被晋升到其不称职的地位。
10、信息系统经济效益评价
PPT
11、信息系统项目的任务分解及计划安排
任务划分内容—任务设置——任务计划时间表——资金划分——协同过程及保证任务的条件
任务划分方法——根据系统开发的项目的结构和功能进行划分——两种方法结合
计划安排方法——关键日期法——甘特图法——计划评审技术(PERT)——关键路径法(CPM
12、质量管理(SSA模型)
质量管理:指确定质量方针、目标和职责,并通过质量体系中的质量策划、控制、保证和改进来使其实现的全部活动
全面质量管理——四个过程——行动计划检查执行
从软件质量管理的角度入手来讨论信息系统的质量管理问题
考虑可靠性、功能性和可维护性等三个基本质量要素对其他要素的影响
SSC模型——
13、信息系统安全机制
数字加密机制——许多安全机制和安全服务的基础,通过加密和解密,不仅可以实现数据安全存储和安全传输,而且可以实现身份鉴别、数据完整性和不可否认等。
数字签名机制——只有信息的发送者才能产生的别人无法伪造的一段数字串,这段数字串同时也是对信息的发送者发送信息真实性的一个有效证明——作用:保证信息传输的完整性、发送者的身份认证、防止交易中的抵赖发生
访问控制机制——对资源的访问加以限制的策略,规定不同的主体与不同客体之间对应的操作权限——自主访问控制——强制访问控制——有限型访问控制——共享独占型控制
数据完整性机制——具体实现是发送实体在一个数据单元上加一个量,这个量是数据自己决定的,如一个分组校验码或密码校验函数,它本身是经过加密的。
鉴别交换机制——由发送实体提供鉴别信息,由接收实体进行检验的密码技术
路由选择机制——路由选择是指选择通过互连网络从源节点向目的节点传输信息的通道,而且信息至少通过一个中间节点。路由选择包括两个基本操作,即最佳路径的判定和网间信息包的传送(交换)