影像组学笔记摘抄(1)

以下内容是本人学习影像组学、机器学习知识过程中摘录的“金句”或者一些结论性的东西。由于时间不一,有些摘录注明了原始出处,有些则没有、或者忘记了标明,也懒得再去查找了,只能对原作说一声抱歉啦。以后应该会非常留意,因为我已经决定把这个出一个系列,原则上每集齐10条就会更新出来。

  • 数据和特征决定了机器学习的上限,而算法和模型不过是只是逼近这个上限而已。

  • 简单解释稀疏性假设:尽管世界如此复杂,但有用的信息却非常有限。

  • The difference between “prognostic” and “predictive”: We use the terms “prognostic” and “predictive” to refer to different things in the study. A prognostic biomarker/scores/model informs about a likely outcome (eg, disease recurrence, disease progression, death) independent of treatment received. A biomarker is predictive if the treatment effect (experimental compared with control) is different for biomarker-positive patients compared with biomarker-negative patients.

  • 所谓的类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下把样本类别比例超过4:1(也有说3:1)的数据就可以称为不平衡数据。

  • ICC后选出ICC值较高的特征(一般都要大于0.75,大于0.9最好),我们就要进行降维了。降维的方法和建模方法一样,多的数不清。我们可以用统计学的方式,比如说我们可以算每个特征的K-M曲线,选取相关性高的特征。也可以做C-index。同时,我们也可以用机器学习的方法降维,降维方法也有很多种,比如常用的lasso,岭回归,MRMR等等。一般特征数量不超过样本数的10%。比如说有200个样本,那么特征数就不要超过20个。在建模完成后也可以用AIC评估模型。一般是在能取得好的回归效果的前提下,特征数越少越好,多了会过拟合。

  • 测试集的归一化的均值和标准偏差应该来源于训练集:如果你熟悉Python的sklearn的话,你就应该知道应该先对训练集数据fit,得到包含均值和标准偏差的scaler,然后再分别对训练集和验证集transform。这个问题其实很好,很多人不注意,最容易犯的错误就是先归一化,再划分训练测试集。(知乎@StefanChou)

  • 均值方差归一化、最大最小归一化等不同归一化的选择问题:归一化的目的无非调整各个字段之间的数量级差异。均值方差归一化可能更适合你不知道数据的边界在哪里,最大最小归一化相当于整合到0-1之间,这相当于你是知道这个字段的边界在哪里。所以我个人更倾向于均值方差归一化。这个问题我只是经验之谈,不一定对。(知乎@StefanChou)

  • 单因素ANOVA要求数据满足正态性和方差齐性,如前文单因素ANOVA中的方法所述。若二者之一不符合,如果各组独立,则Kruskal-Wallis检验将会是一种实用的方法。(腾讯云@ 用户7585161)

  • 从四格表到ROC曲线,其中过程其实是:分别以每一个人预测出的概率作为CUT OFF值,>=此值的,判为病人,<此值的,判定为对照。由此计算灵敏度,特异度。所有人遍历完后,然后绘制以(1-特异度)为横坐标、灵敏度为纵坐标的折线图。有多人,就有多个CUT OFF值,ROC上就有多个点。

  • 数据标准化的原理往往是来自于独立连续变量的量纲。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容