下面是我分模块总结的一些数学建模常用方法:
接下来将逐个进行介绍说明。
一、数据预处理
一般在数据分析或者建模前均需要进行数据预处理,这一步非常关键,预处理的质量直接影响到后续建模和预测的准确性。常见的数据预处理方式有异常值处理、缺失值处理、量纲处理以及数据标签和数据编码等。
1、异常值处理
异常值也称离群值,其数值明显偏离它所属样本集的其余观测值。比如身高的数据中,有一人身高为5米,忽视异常值的存在可能会对建模结果产生不良影响。
检测异常值的方法有很多种,常见的比如描述分析法——在3σ原则下,异常值如超过3倍标准差,那么可以将其视为异常值;图示法——比如通过箱线图、散点图进行判断等等。
异常值处理通常有以下3种方式:
2、缺失值处理
对缺失值进行处理方法通常有删除记录、线性插值、该点线性趋势插值、不处理等4种方法,说明如下表:
3、量纲处理
量纲处理是指通过数据变换来消除原始变量的量纲影响的方法,以便于进行比较和分析。在数据预处理中,常见的量纲处理方法包括标准化、归一化、中心化、正向化、逆向化、适度化、区间化等等。
SPSSAU提供17种数据无量纲化处理方法,汇总说明如下:
二、基本描述
对数据进行基本描述分析可以提供对数据的初步了解,有助于了解数据的特征和分布,为进一步的数据处理和建模提供依据。以下是一些常见的基本描述分析方法:
1、基本描述分析
基本描述统计分析包括描述分析、频数分析、分类汇总;是对收集的数据进行基本的说明。
2、可视化分析
数据可视化分析是一个非常重要的过程,它可以帮助我们更好地理解数据,发现其中的模式和趋势,更加直观的描述数据。常见的可视化分析方法包括散点图、箱线图、直方图、簇状图、组合图以及帕累托图等。
三、分类模型
分类模型是一种按照数学模型来分类数据的算法。它通过对给定的历史数据进行分析,根据已知的分类规则来对新的数据进行预测。常见的分类模型有聚类分析、判别分析、logistic回归以及机器学习。
1、聚类分析
常用的聚类分析分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类。其中K-means聚类、K-modes聚类、K-prototype聚类是按行聚类(R型聚类),分层聚类是按列聚类(Q型),其中最常用的为K-means聚类,各自适用场景说明如下表:
2、判别分析
判别分析用于根据已知的分类信息对观测数据进行分类。判别分析有很多种,比如Fisher判别、距离判别、Beyes判别等,其中Fisher判别使用频率最高。
3、logistic回归
logistic回归可以用于分类,它的核心思想是利用逻辑函数将线性回归的结果转化成一个概率值,这个概率值可以用来进行分类。logistic回归分析可细分为二元logistic回归、多分类logistic回归、有序logistic回归、条件logistic回归。各自适用场景说明如下表:
4、机器学习
机器学习算法中常用于分类的模型包括决策树、随机森林、KNN、神经网络、朴素贝叶斯、支持向量机等等。具体说明如下:
四、预测模型
数学建模预测模型是一种利用数学模型和统计方法来预测未来可能发生的结果的模型。它通常基于历史数据和已知信息,通过建立数学模型来分析问题,并预测未来的发展趋势。预测类常见的方法有时间序列类预测、回归分析进行预测、机器学习进行预测、马尔科夫预测或者其它方法组合预测等。
比较常用的时间序列数据预测方法有ARIMA预测、指数平滑法、灰色预测模型、VAR模型、季节Sarima模型。回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。机器学习用于从数据中学习模式和规律,并利用这些知识进行预测。通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。
五、评价模型
评价模型用于对某个系统、方案或决策进行评估。通过构建合适的指标和评价方法,评价模型能够对不同方案的优劣进行比较和分析。在评价模型中,常用的方法如层次分析法、熵值法、TOPSIS法、模糊综合评价等等,如下图:
各类方法说明如下:
六、降维模型
主成分分析和因子分析都可用于数据降维,它们的核心思想都是通过构造新的变量(或称为因子或主成分),使得这些新变量能够尽可能地反映数据的变异情况,同时又能够减少变量的个数。除了这两种熟知的,多维尺度MDS也可以用于数据降维。说明如下:
七、用户分析
用户分析是指通过对用户的数据进行分析,从而更好地了解他们的需求和行为。在数学建模中,用户分析可以帮助我们更好地理解问题,从而提高模型的准确性和可解释性并确定最佳的解决方法。常见的用户分析的模型有KANO模型、RFM模型、NPS净推荐值分析、联合分析、多维尺度MDS分析等。说明如下: