以下内容是本人学习影像组学、机器学习知识过程中摘录的“金句”或者一些结论性的东西。由于时间不一,有些摘录注明了原始出处,有些则没有、或者忘记了标明,也懒得再去查找了,只能对原作说一声抱歉啦。以后应该会非常留意,因为我已经决定把这个出一个系列,原则上每集齐10条就会更新出来。
数据和特征决定了机器学习的上限,而算法和模型不过是只是逼近这个上限而已。
简单解释稀疏性假设:尽管世界如此复杂,但有用的信息却非常有限。
The difference between “prognostic” and “predictive”: We use the terms “prognostic” and “predictive” to refer to different things in the study. A prognostic biomarker/scores/model informs about a likely outcome (eg, disease recurrence, disease progression, death) independent of treatment received. A biomarker is predictive if the treatment effect (experimental compared with control) is different for biomarker-positive patients compared with biomarker-negative patients.
所谓的类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下把样本类别比例超过4:1(也有说3:1)的数据就可以称为不平衡数据。
ICC后选出ICC值较高的特征(一般都要大于0.75,大于0.9最好),我们就要进行降维了。降维的方法和建模方法一样,多的数不清。我们可以用统计学的方式,比如说我们可以算每个特征的K-M曲线,选取相关性高的特征。也可以做C-index。同时,我们也可以用机器学习的方法降维,降维方法也有很多种,比如常用的lasso,岭回归,MRMR等等。一般特征数量不超过样本数的10%。比如说有200个样本,那么特征数就不要超过20个。在建模完成后也可以用AIC评估模型。一般是在能取得好的回归效果的前提下,特征数越少越好,多了会过拟合。
测试集的归一化的均值和标准偏差应该来源于训练集:如果你熟悉Python的sklearn的话,你就应该知道应该先对训练集数据fit,得到包含均值和标准偏差的scaler,然后再分别对训练集和验证集transform。这个问题其实很好,很多人不注意,最容易犯的错误就是先归一化,再划分训练测试集。(知乎@StefanChou)
均值方差归一化、最大最小归一化等不同归一化的选择问题:归一化的目的无非调整各个字段之间的数量级差异。均值方差归一化可能更适合你不知道数据的边界在哪里,最大最小归一化相当于整合到0-1之间,这相当于你是知道这个字段的边界在哪里。所以我个人更倾向于均值方差归一化。这个问题我只是经验之谈,不一定对。(知乎@StefanChou)
单因素ANOVA要求数据满足正态性和方差齐性,如前文单因素ANOVA中的方法所述。若二者之一不符合,如果各组独立,则Kruskal-Wallis检验将会是一种实用的方法。(腾讯云@ 用户7585161)
从四格表到ROC曲线,其中过程其实是:分别以每一个人预测出的概率作为CUT OFF值,>=此值的,判为病人,<此值的,判定为对照。由此计算灵敏度,特异度。所有人遍历完后,然后绘制以(1-特异度)为横坐标、灵敏度为纵坐标的折线图。有多人,就有多个CUT OFF值,ROC上就有多个点。
数据标准化的原理往往是来自于独立连续变量的量纲。