【关键词:Sampling,Dimensionality Reduction】
取样(Sampling):
关键点:
1)取样的点可以代表/拟合整体数据的某些特性(我们需要的特性)
2)将整体数据适当分块再取样((Rare event oversampling)在不平衡的数据源中,可以采用不平衡的采样方式使采样的不平衡更少的影响结论),获取最大可用价值。
降维(Dimensionality Reduction)
目标:
1)避免维度增加带来的稀疏化影响
2)降低消耗
3)将影响结果的无用/噪声数据剔除
方法:
1)PCA(Principle Component Analysis):主成分分析
2)SVD(Singular Value Decomposition):奇异值分解
3)其它有监督且非线性的方法