数学建模系列笔记3:预测和相关分析

@[toc]

3-3-1 马尔科夫链模型

  • 马尔科夫性

    用来描述一种特殊的,定义在某状态空间S上的随机变量序列{Xn},它满足性质
    P(X_{n+1 = E_{n+1}}|X_1 = E_1,X_2 = E_2,…,X_n = E_n) = P(X_{n+1} = E_{n+1}|X_n=E_n)
    将来的状态只与现在有关,而与过去相互独立。

  • 马尔科夫链Markov Chain:是具有马尔科夫性的并且状态离散的随机过程。

    圆圈:状态

    箭头:可能的状态转换

    权值:状态转移概率,每一个状态只和它的前一步状态有关

  • 马尔科夫链模型

3-4-1 灰色预测模型

  • 灰色系统:部分信息已知,部分信息未知的“小样本,贫信息“的不确定性系统。通过对部分一直信息的生成、开发去了解、认识现实世界,实现对系统运行行为和演化规律的正确把握和描述。

  • 灰色系统做预测的序列需满足的条件“

    1. 数据量小,一般7-15个数据

    2. 数据的分布不详或不服从正态分布

    3. 数据具有指数趋势

    4. GM(1,1)模型

    灰色系统 grey model GM(1,1)模型是根据系统中已知的多种因素的综合数据,将此数据的时间序列按微分方程拟合去毕竟上述时间序列所描述的动态过程,进而向后推导,达到预测目的。

    这样拟合得到的模型是时间序列的一阶微分方程,因此简记为GM(1,1)模型。
    令 X^{(0)}为原始序列,\\ X^{(0)} = (x^{(0)}(1),x^{(0)}(2),…,x^{(0)}(n))\\ X^{(1)}为X^{(0)}的1-AGO序列\\ x^{(1)}(k) = \sum_{i=1}^k x^{(0)}(i),k = 1,2,…,n

    令 X^{(1)}为原始序列,\\ X^{(1)} = (x^{(1)}(1),x^{(1)}(2),…,x^{(1)}(n))\\ X^{(0)}为X^{(1)}的1-IAGO序列\\ x^{(0)}(k) = x^{(1)}(k)-x^{(1)}(k-1),规定x^{(1)}(0) = 0

    IAGO \quad X^{(1)} = IAGO(AGO \quad X^{(0)}) = X^{(0)}

    1. 建立GM(1,1)的微分方程模型

    z^{(1)}x^{(1)}的紧邻均值生成序列:
    z^{(1)}(k) = \frac{x^{(1)}(k)+x^{(1)}(k-1)}{2}\\ 则可建立GM(1,1)的微分方程模型为:\\ x^{(0)}(k)+az^{(1)}(k) = b

    1. 构造数据矩阵B,计算参数

    利用最小二乘估计,得\hat{\alpha} = (a,b)^T = (B^T B)^{-1} B^T Y_n

    1. 求解微分方程

      第二步建立的微分方程相应的白化方程为:
      \frac{dx^{(1)}}{dt}+ax^{(1)} = b\\ 解得:\hat{x}^{(1)}(k+1) = [x^{(0)}(1)-\frac{b}{a}]e^{-ak}+\frac{b}{a}

    2. 得到预测方程
      \hat{x}^{(0)}(k+1) = \hat{x}^{(1)}(k+1)-\hat{x}^{(1)}(k)

    3. GM(1,1)模型检验:残差检验和后验差检验

  • 拓展的GM模型

    1. 新陈代谢的GM模型

      思想:用最新的数据预测不远的未来

      方法:加一个新数据,同时去掉一个旧数据

    2. 残差修正的GM模型

      问题:若后五年数据预测与实际差距越来越大(指数趋势越来越不明显)

      方法:预测值 = 利用原始数据做出的GM模型的预测值 - 利用残差数据做出的GM模型的预测值

3-5-1 人工神经网络

人工神经网络:由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

BP神经网络:反向传播BackPropagation网络,是一种多层前向网络,采用最小均方差学习方式。这是一种最广泛应用的网络,可以用作分类、聚类、预测等。

算法概括

  1. 对权系数w_{ij}直初值:对各层的权系数w_{ij}置一个较小的非零随机数
  2. 输入一个样本x = (x_1,x_2,…,x_n,1),以及对应期望输出y = (y_1,y_2,…,y_n)
  3. 计算各层的输出
  4. 求各层的学习误差
  5. 修正权系数w_{ij}和阈值
  6. 当求出了各层各个权系数之后,可按给定品质指标判别是否满足要求。如果满足要求,则算法结束;如果未满足要求,则返回“3”执行。

产生误差的可能原因:

  1. 存在异常点
  2. 网络结构问题:隐层个数选择,传递函数选取

4-1-1 关联分析

  • 皮尔逊相关系数

    1. 两变量的总体服从正态分布
    2. 样本容量较大
    3. 变量必须是成对数据
  • Spearman等级相关系数的适用条件

    1. 对变量总体分布、样本容量不作要求
    2. 变量必须是成对数据
    3. 适用有序数据

    r_{SP} = 1-\frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}

    其中n为样本量,di为两组数据的等级之差

  • kendall秩相关系数

    1. 同Speraman等级相关系数
    2. 适用有序分类变量
      r_K = \frac{2(N_c - N_d)}{n(n-1)}
      其中n为样本量,N_c为同向数对的数目,N_d为反向数对的数目

三种相关系数的异同点

  • 相同点:测量两变量的相关程度和变化方向,取值范围相同
  • 不同点:
    1. pearson相关系数适用于正态分布的总体,连续性数据的变量,度量变量之间线性相关程度,是参数统计方法
    2. Spearman与Kendall相关系数对样本容量、总体分布不作要求,是非参数统计方法
    3. Spearman适用于有序数据,Kendall适用分类数据

4-1-2 独立性检验

  • 分析按两个或多个特征分类的频数数据,这种数据称为交叉分类数据,一般以表格的形式给出,这种表格称为列联表RXC

  • 检验过程

    1. H_0:A,B独立 p_{ij} = p_i p_j,i=1,2,…,r,j = 1,2,…,c

      H_1:A,B之间有关系

    2. 检验统计量
      \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(n_{ij}-n\hat{p}_{ij})^2}{n\hat{p}_{ij}}\sim \chi^2(r-1)(c-1)

    3. 给定显著性水平\alpha,做出统计决策

4-2-1 通径分析

4-3-1 典型相关分析

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 无总结反省则无进步 写这篇文章,一是为了总结之前为了准备美赛而学的算法,而是将算法罗列并有几句话解释方便以后自己需...
    Amazing_ez阅读 7,378评论 0 11
  • 典型相关分析 用于分析两组变量的相关性。 我们使用相关系数来衡量两个随机变量间的线性关系,而在统计两组变量之间的相...
    茶酒qqq阅读 4,290评论 0 1
  • 关键词:灰色预测、Python、pandas、numpy 一、前言   本文的目的是用Python和类对灰色预测进...
    crossous阅读 57,193评论 45 55
  • 一、预测与预报 1、灰色预测模型(必掌握) 满足条件可用:(1)数据样本点个数少,6-15个(2)数据呈指数或曲线...
    BettyChen_yolo阅读 834评论 0 0
  • 线性规划 线性规划问题 线性规划(Linear programming,简称LP)是运筹学中研究较早、发展较快、应...
    Roper_被注册阅读 2,864评论 2 8