常见分类算法:
1决策树:
一种依托于策略抉择的树,擅长处理非数值型数据,免去了很多数据预处理工作
ID3算法:
CART算法:
2贝叶斯:
一类利用概率统计知识进行分类的算法
后验概率=(似然度*先验概率)/标准化常量=准似然度*先验概率
朴素贝叶斯算法:
TAN算法:
3人工神经网络:
一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型
普遍问题:普遍存在收敛速度慢,计算量大,训练时间长和不可解释等缺点
BP网络:
径向基RBF网络:
Hopfield网络:
随机神经网络(Boltzmann机):
竞争神经网络(Hamming网络,自组织映射网络):
4K-邻近:
一种基于实例的分类方法
5支持向量机:
SVM:核心思想就是找到不同类别之间的分界面,使得两类样本近邻落在面两边,而且离分界面尽量远
最早的SVM是平面的,局限很大,但是利用核函数(Kernel function),我们可以把平面投射(mapping)成曲面,今儿大大提高SVM的适用范围
6基于关联规则的分类:
关联规则方法一般由两步组成:
第一步用关联规则挖掘算法从训练数据集众挖掘出所有满足指定支持度和置信度的类关联规则
第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类
condset->C:
常见聚类算法:
划分聚类:
给定一个有N个元祖或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类
常用:
K-means算法:
一种经典的划分聚类算法
K-中心点算法:
CLARANS算法:
融合了PAM和CLARA两者优点,第一个用于空间数据库的聚类算法
还有:
k-modes:
K-means算法的扩展,采用简单匹配方法来度量分类型数据的相似度
K-prototypes:
结合了K-means和K-modes两种算法,能够处理混合型数据
K-medoids:
在迭代过程中选择簇中的某点作为聚点
PAM就是典型的K-medoids算法
CLARA:
在PAM基础上采用了抽样技术,能够处理大规模数据
Focused CLARAN:
采用了空间索引技术提高了CLARANS算法的效率
PCM:
模糊集合理论引入了聚类分析中并提出了PCM模糊聚类算法
层次聚类:
对给定的数据集进行层次似的分解,知道某种条件满足为止,有自底向上和自顶向下两种方案
常用:
DIANA算法:
BIRCH算法:
Chameleon算法:
还有:
CURE:
采用抽样技术先对数据集D随机抽取样本,在采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类
ROCK:
采用了随机抽样技术,在计算两个对象的相似度时,同时考虑了周围对象的影响
CHEMALOEN:
SBAC:
在计算对象间相似度时,考虑了属性特征对于体现对象本质的重要程度,对于更能体现对象本质的属性赋值较高的权值
BIRCH:
利用树结构对数据集进行处理,叶节点存储一个聚类,用中心和半径表示,顺序处理每一个对象,并把它划分到局里最近的节点,也可作为其他聚类方法的预处理过程
BUBBLE:
把BIRCH算法的中心和半径概念推广到普通的距离空间
BUBBLE-FM:
通过减少距离的计算次数,提高了BUBBLE算法的效率
模糊聚类:
EM算法:
基于密度聚类:
OPTICS算法:
DBSCAN算法:
典型的基于密度聚类算法,采用空间索引技术来搜索对象的邻域,引入了核心对象和密度可达等概念,从核心对象出发,把所有密度可达的对象组成一个簇
GDBSCAN:
FDC:
DBLASD:
网格算法:
STING:
WaveCluster:
CLIQUE:
OPTIGRID:
模型算法:
通常有两种尝试方向:统计的方案和神经网络的方案
基于统计方案的聚类算法有:
COBWeb:
AutoClass:
CLASSIT:
基于神经网络方案的聚类方法有:
自组织神经网络SOM:
均值漂移聚类:
回归算法:
线性回归:
逻辑回归:
正则化:
降维算法:
主成分分析PCA:
多维缩放MDS:
线性判别分析LDA:
等度量映射lsomap:
局部线性嵌入LLE:
t-SNE:
Deep Autoencoder Networks
排序算法:
冒泡排序:
选择排序:
插入排序:
希尔排序:
归并排序:
快速排序:
决策树算法:
C4.5算法:
CLS算法:
ID3算法:
CART算法:
关联规则算法:
Apriori算法:
FP-growth算法:
矩阵分解算法:
三角分解法:
满秩分解:
QR分解:
Jordan分解:
SVD(奇异值)分解: