一起来谈一下这些“偏见”

从事数据分析的时间也不短了,现在结合本人自身的经历谈谈对数据分析的一些看法。这些看法可能存在一定的“偏见”,但希望这些“偏见”能为大家带来新的思考。

1.算法定义

刚开始从事数据分析的一段时间里,对于算法的理解就是传统的多元统计、机器学习、时间序列等算法,以至于每当有人问起在建模过程中采用什么样的算法比较合适的时候,我一度很自信的回答“使用神经网络或者支持向量机,模型的准确性会更好一些”,基本上就是不假思考地张口回答。直到后来跟程序员沟通关于算法调参的事情,才知道自己原来对算法的定义是相当狭隘。

在程序员的眼里算法就是一套为了解决特定问题而设计的数学模型以及在这套数学模型上的一系列操作步骤。其实简单想想,从初次接触计量经济学,在一张空白的纸上计算线性回归贝塔值开始,对于算法的界定本来就应该是一套完整的数学计算模型,而不是张口就来的“机器学习十大经典算法”。从这个角度出发,在解决实际问题的时候,或许我们也就不会为了自己学习过的“高大上”算法不能适用而感到苦恼。古希腊数学家、哲学家毕达哥拉斯曾说“万物皆有数”,有时根据实际问题设计的数学算法模型或许更简单易用。

2.指标构建

关于特征工程有这样一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。我也一直认为,一个模型最终应用的好与坏,不在于选取的数学算法是什么,而在于是否构建了合适的指标体系。曾经有人将这个想法理解为特征工程,但我一直觉得这种理解还不是特别准确,特征工程侧重于指标的选取与处理,而我的想法更侧重于基于原始数据的指标构建。在做项目的过程中,有时客户自身收集的数据有限,能够用于建模的数据源相对单一,例如我们在分析某个市场参与者行为时,一开始认为真正反映市场参与者行为的数据只有其报价,如果只用报价作为指标那后面的模型构建也可考虑省略掉。所以在指标设计的过程中,绝不能通过简单的数据查看来界定指标,而应该结合业务规则或者事件流程对指标体系进行设计,通过某一个业务规则或者事件节点定义一个触发点,根据触发点去透析指标,再根据指标选取相应的数据,最后将选取的数据与统计学知识(如离散趋势与集中趋势)结合对指标进行量化。

3.算法应用

相信很多统计学出身的数据分析师都有过一段执拗于模型准确性的“青春岁月”,为了获得更好的模型准确性,从变量筛选、算法选取、参数调整“全方位、多角度”调整自己的模型,分类准确率不接近100%,回归标准化平均方差不接近0,就不愿意放手。之前有听过项目经理抱怨过自己同组的数据分析师不去接触业务而只关注模型的准确性。当然数据分析师去了解业务这是必须的,如果数据分析师仅仅是把清洗好的数据带入某个常用的算法,然后得到一个差不多的结果,再写一篇符合客户要求的分析报告,制作几张精美的图表,那作为数据分析师的价值会大打折扣。往细里思考一下,其实好的数据分析师为了保证模型准确性会去查找、学习一些课本上不曾学到的东西,会去矫枉自己建模的思路,会去更深入思考自己使用的算法,也会去接触一个陌生的算法,而这不管是从技术还是思维的角度,作为数据分析师的眼界开拓了。在做后期项目的时候,从项目实施的角度可能会提出有一些更加新颖、有效的解决方案,而不仅仅拘囿于自己的“大学老本”。

上面的内容谈的有点多,现在谈谈关于算法解释性和普适性的一些看法。因为数据分析师是“为解决问题而生”的,所以算法的“高深”不应该成为算法选取的标准,如果项目涉及业务规则和比较多的业务知识,算法一定要保证能解释变量间关系或影响,不然在进行业务意义阐释的时候,自变量对因变量的影响就只能是个“黑箱”,而这很容易使客户对项目所使用的算法产生不信任感。

在进行数据建模的过程中,我们会使用很多模型评估标准去度量模型的准确性和泛化能力,但是除此之外,模型使用的稳定性也是需要留心的一个事情。例如在进行回归分析的时候,数据分析师会经常用平均绝对误差、均方差、标准化平均绝对方差来保证模型的准确性,但是在使用的过程中,往往容易忽视一个问题那就是客户能够接受的误差是什么,不能接受的误差是什么?如下图所示,如果仅仅将平均绝对误差、均方差、标准化平均方差作为评价算法模型好坏标准的话,那么模型1比模型2要好一点,但从模型普适性的角度来看,虽然模型2相较于模型1预测的整体准确性更差一点,但是不会出现预测异常的情况(预测值与实际值偏差大于1)。

所以站在实际应用的角度,对于算法模型的选取,还需要自行设计一些评价指标,用于评判客户能够接受的模型预测值与实际值的差异程度,或者在建模之前就需要考虑清楚在什么样的情况下客户能够接受什么样的误差。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容