数据与模型

端午节放了三天羊,临近要上班才想到公众号到了要交稿子的时候了。这周来不及写价格与互联网相关的分析文章了,简单聊聊多年的老本行,数据与模型。

模型,是我们理解对象的一种结构化方式。所谓的建模,是基于一定的假设对分析对象展开简化分析的过程。所有的分析,必须时时刻刻记住我们的假设是什么,其中哪些假设可以放宽不会影响主要结论,哪些假设一旦不成立整个模型会分崩离析。带着这样的模型和假设,从数据里面找到可以证伪或不能证伪模型的证据,得出结论的过程,即从数据中寻求模式(pattern)的过程,也就是我们日常所讲的数据分析。以下简单聊聊数据分析过程中大部分人理解存在误区的地方。

第一,数据分析的本质是验证而非探索得到一个结论。从数据中寻求模式的过程,具备无限发散的可能。因此,首先必须有脱离于数据的模型以及模型的假设。不带任何假设看数据,得不出任何有价值的结论。即便是最纯粹的数据挖掘或机器学习,同样需要对样本有必要的假设。给定假设结合逻辑,可以演绎出一组结论,数据分析的过程便是基于数据来验证这一组结论的过程。

第二,数据分析中的验证,本质上只能是证伪而非证实。严格来讲,所有基于数据来验证模型和假设的可靠性,都需要关注P值。P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。因此,通过数据分析来产出结论时,严谨的思考方式应该是:基于已有的数据,我们的假设没有被挑战,故而可以在一定程度上认为数据支持了我们的假设。只能在一定程度上说明这一点,是因为一个模型最大的假设是模型本身。

第三,一个模型,最大的假设是模型本身。这是CCER计量经济学教授朱家祥讲授的所有知识里面对我影响最深的一条。大部分人意识不到这一点,是因为在他们看来,来自于教科书的模型,默认应该就是对的。然而,在应用数据分析的过程中,模型从来都谈不上正确或者错误,只有合适或者不合适的差别。问题是,模型选择本身在大部分时候无法通过假设检验得到有效的反馈,只能依赖于建模者的经验和品味。对很多缺乏品味的数据分析师而言,这是一个悲剧。

第四,一个模型没有被数据证伪,不能说明该模型对,别的模型错。更可能出现的情况是,一个模型没有被数据证伪,说明该模型还凑合,但不排除还有别的模型更合适。大部分情况下我们不知道还有多少潜在的备选模型可能更合适。这时候,奥卡姆剃刀原理可以帮上忙,优先考虑简单的模型。在没有明确的领域知识时,模型越复杂,可能犯错的地方越多。绝大部分时候,最简单的模型,就是线性模型。

第五,模型不是越复杂越好,而是,在可以解释问题的前提下,越简单越好。甚至,在一些情况下,牺牲少许解释力可以大幅降低模型复杂度时,我们应该优先选择简单的模型。使用简单的模型对样本进行拟合的过程中,不可避免会出现残差。如果某项变量可以有效说明残差里面的一部分内容,把该变量纳入模型中可能是值得的。带着这样的思路,我们大致可以知道什么样的变量有必要进入模型。

第六,找到有价值的变量,依赖于领域知识和DGP(数据生成过程)的掌握程度。很多互联网行业数据分析师的领域知识匮乏到了令人发指的程度,不理解业务的目的,业务的发展阶段,业务开展过程中所面临的约束,业务变化可能会带来什么样的预期结果。这样的数据分析师,更合适的title是跑数据工程师。理解DGP的数据分析师更是凤毛麟角,只有兼具业务和技术视野,才能深入理解DGP。遇到了理解DGP的数据分析师,请珍惜TA。或者,请推荐给我。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容