数据分析的起点是什么?

(一晃有一年多没有动笔写东西了。最近的各种变化,促成了写一些“小感”的意愿,给自己过去的一年半,一个交代。)
当下,正在组建一支初步定位于“数据产品”的团队。回顾过去带一支商业分析团队,与公司内各种角色的配合经历,有个问题越来越困扰我:我们做的是数据分析么?
从我个人角度,做些不准确的抽象:

  • 统计业务指标,附加业务信息,多渠道呈现。
  • 用数字和浅层的图表,描述业务状况。
  • 量化业务目标,形成KPI,然后层层拆解与核对。
  • 以业务动作和特性,解释业务结果,再用数据来“贯通”这个过程。
  • 从业务理解出发,用数据搭建运营框架或产品框架。
  • 数据源治理,数据表设计,指标管理。
  • 罗列多个指标,从一些模棱两可的结论中,选出出某些“洞察”或者“策略”。
  • 先有判断,或者先有目的,再用数字“验证”。
  • 根据业务需求,交付需求方想要的“东西”。
  • 。。。

这些工作,都有价值,也都有逻辑可循,并没有对错及好坏。但这些是数据分析么?换个角度思考,上述做法,有许多并不是“分析”,而有的是“分析”,但分析的是业务问题或者商业问题。
不是“分析”的工作,一定条件下可以往“分析”转变,或者以“分析”作为支撑。而何谓“分析”?讨论“分析”这个定义,我们需要从“起点”、“对象”、“目的”、“路径”、“评价”几个维度展开。起点是什么?往往最关键。
再往下问一层,就是数据分析的起点是什么?从我个人角度看:

“数据分析的起点应该是蕴含在可获取的量化数据集中的有效信息。”

怎么理解这句话呢?
首先,“量化数据集”,可理解成“标尺”。举个栗子,客户吐槽产品体验的一段文本,不是量化数据集,而从文本转化而来的客户满意度分值,是量化数据集。
其次,“有效信息”,是指量化的数据,需要有实际的业务含义。举个栗子,根据客户吐槽文本,转化而来的对产品的喜好分值,是有效的;而文本中“的”字的使用次数,也是个量化的结果,但一般就不是有效的信息。
最后,是“可获取”,是指在成本可接受的情况下,能收集到,或通过商业理解及算法能“挖掘”而出的可能。再来个栗子,用户通过各种方式向好友推荐产品的次数,也许花再多的钱和精力,也统计不到俩人见面吃饭时候聊天的内容;但是却有可能挖掘用户在线上与好友互动的行为,由算法评估出推荐的程度。

从起点,业务分析 VS 数据分析

为什么要这么拆开来看呢?这两者不应该是一体么?
从前我也这么认为,但渐渐地我发现,现在的分析师们,也许太沉溺于皮毛的业务描述,而丢掉了从“量化数据集”中挖掘信息的能力。我希望以“起点”的讨论,激起大家的思考,填补日常工作当中也许已经缺失很久的部分。
业务分析(或者说商业分析)的起点,往往是业务问题。往细了说,也许是举棋不定需要做的决策,也许是需要验证的某个功能,也许是需要看清楚形势,也许是需要用于争取资源的“支撑”,也许。。。
以我的观察,日常工作中,往往是需求方以这些起点,直接引申成了分析需求;而分析师丢失了将业务起点转换为数据分析起点的过程,或者说不具备这个能力。再加上分析师往往不够理解业务本质,不了解业务执行细节,没有全面的信息来源,导致后续的执行链条,和对数据的应用,全都在浅层的业务逻辑上打转。
我的观察也许比较片面,但读者可以根据下面的列表,判断一下自己是否有如下表现。若有,说明忽略了“数据分析的起点”,应该反思怎么做,能回归数据分析,找到业务解读和数据解读的平衡。

  • 对取好的数据,拿来就用,不做数据集的认知,检验数据质量,比如空值、异常值、数据分布、全距、方差标准差、变异系数等等。
  • 对数据字段的加工,只做汇总和算数平均,不做字段内的数学转化,如对数化、标准化或离散化;也不做字段间的组合运算或模型转化,如指数化、PCA、线性拟合、指示函数化等。
  • 对于时间序列数据,只会用折线图展示原始指标或者初步汇总的数据,缺乏趋势线、预测线、异常值、波动范围等辅助观察手段;缺乏周期性的观察和检验;缺乏时间序列之间的相关性观察和检验。
  • 对于截面数据,只会展示数值,而不考虑组合排序、离散化、编码、横向对比、模糊聚类、异常值识别等处理。
  • 对于表格或者数据对比场景,只展示环比或者同比,缺乏累计同比、定基比、差分、双重差分、交叉对比、与外部输入信息对比等多角度的对比方式。
  • 在需要分层或者分类的场景中,只是对指标进行取舍,只通过2-3个指标数值的分段,“切豆腐块”。缺乏多维下的聚类、异常识别等处理;也缺乏多指标降维的处理,及指标间关系的研究。
  • 在预测性问题中,只用线性回归,且不严谨考虑回归的拟合效果;而不尝试多种方法对比,或分阶段建模,或搭建集成模型。(见过许多R平方值0.5以下的结果,也对外展示的报告)
  • 。。。
    暂且列举这么多,如果大家命中了以上列表,真的需要静下心来想一想,脱离了数据分析的起点,你的分析价值会有多大?
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 作者:[加] 阿利斯泰尔·克罗尔 本杰明·尤科维奇 韩知白 王鹤达 译读者:锅巴GG 全书的结构安排别再欺骗自己...
    锅巴GG阅读 4,096评论 1 32
  • 不知道你有没有意识到当今社会,虚无缥缈的东西太多,虚情假意、嘘寒问暖、阴奉阳违、虚报、瞒报,时下最流行的美拍...
    欧阳小刀阅读 559评论 0 0
  • 情人节的时候给女朋友送了一束玫瑰花,花了几百块钱。不过一个星期不到这些玫瑰全部烂掉了。女朋友心痛的说,你还不如留着...
    马克图布了阅读 1,366评论 0 2
  • 图、文/梅园遗珠 闲暇时间大多泡在球馆里,包里、口袋里随手都可以摸到乒乓球。自从乒乓球材质变了以后不容易被打破,一...
    梅园遗珠阅读 699评论 2 7
  • 分享几张业余手机图,节约流量,要原图可以简信。 使用请注明出处。 还有些有水印,就不发了。
    腰间别花阅读 249评论 2 2