Chapter - 8 Exercise(1-8)

  1. 减少数据集维度的主要动机是什么?主要缺点是什么?
    动机和缺点:

减少维数的主要动机是

  • 为了加速后续的训练算法(在某些情况下,它甚至可以去除噪声和冗余特征,使训练算法表现更好)。
  • 可视化数据并深入了解最重要的特征。
  • 仅仅为了节省空间(压缩)。

主要缺点是

  • 某些信息丢失,可能会降低后续训练算法的性能。
  • 它可能是计算密集型的。
  • 它为你的机器学习管道增加了一些复杂性。
  • 转换后的特征通常难以解释。
  1. 什么是维度的诅咒?
    维度的诅咒指的是低维空间中不存在的许多问题出现在高维空间中。在机器学习中,一个常见的表现是随机抽样的高维向量通常非常稀疏,增加了过拟合的风险
    并且在没有足够的训练数据的情况下很难识别数据中的模式。
  1. 数据集的维数减少后,是否有可能扭转操作? 如果是这样,怎么做? 如果没有,为什么?
    一旦使用我们的算法之一减少了数据集的维数,几乎总是不可能完全扭转操作
    因为在减少维数时会丢失一些信息。此外,虽然一些算法(例如PCA)具有可以重建与原始数据相对类似的数据集的简单反向变换过程,但是其他算法(例如T-SNE)则不然。
  2. PCA可用于降低高度非线性数据集的维数吗?
    PCA可用于显着降低大多数数据集的维度,即使它们是高度非线性的,因为它至少可以摆脱无用的维数。但是,如果是有用的维数 ——例如,瑞士卷 -——·然后降低PCA的维数将失去太多的信息。你想要展开瑞士卷,而不是挤压它。
  1. 假设你在1,000维数据集上执行PCA,设置解释方差比为95%。 生成的数据集有多少维度?
    这是一个棘手的问题:它取决于数据集。让我们看看两个极端的例子。

    • 首先,假设数据集由几乎完全对齐的点组成。在这种情况下,PCA可以将数据集减少到一维,同时仍然保留95%的方差。
    • 现在想象一下,数据集由完全随机的点组成,分散在1000个维度周围。在这种情况下,需要所有1,000个维度来保持95%的方差。
      所以答案是,它取决于数据集,它可以是1到1,000之间的任何数字。将解释方差绘制为维数的函数是一种粗略了解数据集内在维度的方法
  2. 在什么情况下你会使用 vanilla PCA, Incremental PCA, Randomized PCA, or Kernel PCA?

  • 常规PCA(vanilla PCA)是默认值,但仅当数据集适合内存时才有效。
  • 增量PCA对于不适合内存的大型数据集很有用,但速度比普通的PCA慢,所以如果数据集适合内存,你应该更喜欢普通的PCA。当你需要在每次新实例到达时动态应用PCA时,增量PCA对于在线任务也很有用。
  • 当你想要显着降低维度并且数据集适合内存时,随机PCA非常有用;在这种情况下,它比普通PCA快得多。
  • 最后,Kernel PCA对非线性数据集非常有用。
  1. 如何评估数据集上降维算法的性能?
  • 直观地说,如果从数据集中消除了大量维度而不会丢失太多信息,则降维算法表现良好。
  • 衡量这一点的一种方法是应用逆向变换并测量重建错误。
  • 但是,并非所有降维算法都提供逆向变换。
  • 或者,如果你在另一个机器学习算法之前使用降维作为预处理步骤(例如,随机森林分类器),那么你可以简单地测量第二种算法的性能;
  • 如果维数减少没有丢失太多信息,那么算法应该与使用原始数据集时一样好。
  1. 链接两个不同的降维算法是否有意义?
    链接两个不同的降维算法绝对有意义。一个常见的例子是
  • 先使用PCA快速摆脱大量无用的维度,
  • 然后应用另一个慢得多的降维算法,如LLE。

这种两步法可能会产生与仅使用LLE相同的性能,但只需要很短的时间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355