2021-12-12什么是数据挖掘的最佳策略?深入其中?跳脱其外?

        本文源自昨天关于如何写出一个让人印象深刻的故事的讨论(2021-12-11如何写出一个让人印象深刻的故事? - 简书 (jianshu.com))。好的科学故事需要“意外”,而“意外”的最终来源是深入的数据挖掘。鉴于数据挖掘对于科研创新的重要性,我在此尝试展开讨论一下。

        第一原则是要深入到数据里面去,让数据直接说话:Few data sets don’t provide the opportunity to develop new insights (这个判断非常鼓舞人心啊!). Conversely, few data sets are so imbued with novelty that you can’t use them to tell a boring and uninsightful story. (当头棒喝,你真的投入足够多的精力去分析自己的数据了吗?)Your job is to find what is novel and highlight the unexpected elements.  (提示出创新完全可以是数据启发的,即自下而上的;而不是假说或者问题驱动,即自上而下的)Frame new questions and look for new insights. (意味着不少科学论文其实是基于数据事后包装出来的,而不是事先由假说或者问题驱动的) Make them clear in your writing. 让数据说话,意味着科研人员需要做一个敏锐的观察者,努力从数据当中发掘出那些不是从一开始就可以预料得到的“意外”发现,也就是创新点。

        粗略而言,数据挖掘可分为两种策略:1. 假说驱动的数据挖掘 (Hypothesis-driven data mining);2. 探索性数据挖掘 (Exploratory data mining)。这两种策略各有利弊。前者目标明确,快速高效,对于快速完成一个假说驱动的科学研究极具成效。但容易让研究者带上有色眼镜,忽略掉那些可能更为重要但是与原有问题没那么相关的“意外”发现。后者使研究者以更开放的心态去看待数据,不局限于预先设定的假说,因此更有可能做出一些重大的科学发现。科学史上那些令人神往的重大发现往往是基于这种策略。这个方法的坏处是,因为没有明确的目标,研究者需要尝试更多的数据组织方式,数理统计手段。而现有的数学工具又那么丰富,意味着这种开放式的数据挖掘很可能是没有止境。加之处于当今这个大数据的时代,每换一种方法都意味着令人望而生畏的工作量,故而单凭这种策略只怕也是不现实的。

        所以,我认为最高效且最富有成果的数据挖掘策略应该是这两者的适时且适量的组合。所谓“适时”,是指在早期阶段应该以“假说驱动的数据挖掘”为主导,以期最高效地组织出一个大致完整的故事框架;之后,再以“探索性数据挖掘”为主导,以期发掘那些预想不到的“意外”发现,即创新点。一旦觉察到了一点“意外”的发现,又应该转以“假说驱动的数据挖掘”为主导,以期最快地围绕它组织出一个自洽的故事框架。所谓“适量”,是指不论用哪一种策略,都应该以是否足以组织出一个大概完整的故事框架为标准,而不能一味地沉浸于数据本身,无法跳脱于数据,反而忽略了包装故事的根本目标。也就是说,数据挖掘是为了讲故事,为了回答科学问题,而不是为探索,游戏,甚至卖弄数学技能。

        所以我们可以总结出第二原则:数据挖掘不仅要深入其中,还要能够跳脱其外,时刻关注数据与科学问题之间的关系。没有科学大视野的数据挖掘就好比在一片无边际的荒原上漫步,“敢问路在何方”是常情,侥幸登陆则纯属运气太好。

        很显然,最富成效的数据挖掘是不可能一遍就能够完成的,反复的拆解,拼接,组织是必需的步骤。就好比一本好书,要想真正发掘并吸收其中的价值,反复阅读和拆解也是必需的。理解一本好书,两到三遍基本也就够了,数据挖掘也大致如此。如果是“天书”,那就无关遍数了,那是基本的工具,概念,框架的缺失,对于不具备创造工具,概念,框架的一般研究人员而言,也就只好“徒叹奈何”了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容