2018-07-11笔记(3)取样&清洗

【关键词:Sampling,Dimensionality Reduction】

取样(Sampling):

关键点:

1)取样的点可以代表/拟合整体数据的某些特性(我们需要的特性)
2)将整体数据适当分块再取样((Rare event oversampling)在不平衡的数据源中,可以采用不平衡的采样方式使采样的不平衡更少的影响结论),获取最大可用价值。

降维(Dimensionality Reduction)

目标:

1)避免维度增加带来的稀疏化影响
2)降低消耗
3)将影响结果的无用/噪声数据剔除

方法:

1)PCA(Principle Component Analysis):主成分分析
2)SVD(Singular Value Decomposition):奇异值分解
3)其它有监督且非线性的方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第一章 绪论 机器学习的定义 关于“学习算法”的学问。 机器学习的一些基本术语 假设我们收集了一批西瓜的数据,例如...
    kudari阅读 2,889评论 0 5
  • 机器学习 经验 数据 数据中产生模型model 的算法 学习算法 learning algorithm 数据集 d...
    时待吾阅读 4,036评论 0 3
  • 101.深度学习(CNN RNN Attention)解决大规模文本分类问题。 用深度学习(CNN RNN Att...
    大黄大黄大黄阅读 13,956评论 2 42
  • 我喜欢凉棚,有文化的墙壁,可是,我更喜欢学校那座长廊。那长廊一年都很美。 春天,小草发芽了,小花绽开了,露出...
    xiaoyudi阅读 209评论 0 0
  • 【20首经典苏轼诗词,你最爱哪首】①明月几时有?把酒问青天。不知天上宫阙,今夕是何年。②十年生死两茫茫。不思量,自...
    owen_he阅读 208评论 0 0