机械到数据分析的转变历程

大一和厦大金融的朋友一起做外汇,做股票,到了大二顺理成章的成为了自己学校创业与风险投资协会的会长,顺应当时大学生热潮就组了一个设计工作室给创业的朋友提供logo、海报设计。对于自己的专业机械设计也没有落下太多,但这两年却很混乱,因为一直没找到自己感兴趣的点,可以ALL IN 的那个点。直到接触了一门学科概率论与数理统计,一个很有魅力的老师把我带进了统计的世界。

那个时候我花了两个月的时间写了篇 文章《以小见大之样本方差的无偏性》,进入了一种我向往的状态那种ALL IN 的状态。我通过样本方差这个点,把统计学的逻辑梳理了一遍,而数据分析的工具就是统计学。统计学是什么:design,设计,数据的收集、埋点,比如通过GA,talkingdata, 友盟这些工具或者抽样调查的方式来获取数据;description,描述,从均值方差偏度峰度异常值这些到同比环比定基比移动平均去分析数据,寻找趋势tipping point,去发现问题;之后则是inference,统计推断,用机器学习算法去建立模型,做出预测推断。

当时让我困惑的点,是为什么样本可以去估计总体?他们差别那么大,怎么可能会没有偏差?数据所收集到的基本都是总体的一个部分,或者说用短时期的数据去推测长时期的趋势,他何以可能去做到这点?从理论层面上,这个问题可以追溯到大数定律、中心极限定理、概率。
在理清楚这个原理后,那么又如何去做到更加精确地去描述这个总体?这便到了数理统计的三大核心:参数估计、假设检验、非参数估计。
而无偏性就是由于参数估计所引起的,样本的方差的公式是用RSS/n-1,这个n-1的自由度保证了估计的没有偏差。而无偏估计又有很多个,从这个概念也就有了MSE,mean sum of error,用来选择到底用哪个无偏估计。这就有了机器学习一个非常关键的调参指标---test MSE或者说validate MSE。在选择机器学习算法的关键是方差偏差的均衡。像SVM LR LDA LASSO RIDGE 这些算法本质区别是因考虑到方差偏差均衡,loss function 的不同所引起的。

所以正是因为这篇文章,才慢慢打通了我的一些概念。在运用统计去做数据分析时,它是建立在一个概率基础上的。数据分析是什么,收集数据,发现问题,提出目标,建立模型,调参,验证测试改版,然后又收集数据,这样不断循环的一个过程。
其实我考虑过去考研,统计或者CS方向,但后来放弃了。因为我知道,数据分析它的关键点并不是严格的数学证明或者说强悍的编程能力,更多的是一种思维,一种能够把业务,产品,后端都结合起来的一种能力,甚至要TO C,而这些技能,读研并不能给我。所以我特别渴望,能够找到一个实习,找到一个团队,不断的去学习去成长,去创造一些有价值的东西,真正的去解决一个业务问题。这就是我目前最大的目标。

触动我的有两点,一个是在学习朴素贝叶斯算法时有个例子,它说,对于一条女生内裤,机器学习需要大量的训练数据去不断地学习才能判别出,这是一个女生内裤,而人却能够立马判别,也就是它最大的缺点就是不能很好的去解释或者预测有大量噪声和特征值的数据。

第二个是今日头条的一个黑科技让我感触很深,他新闻的推荐机制通过读取用户微信公众号的logo来推测你的偏好。这个算法更多的是一种思维,而不是算法本身。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容