PS:本章的内容非常初级(和我的水平相当),大神们可以忽略,小白可以参考
数据分析问题,简单来说就是根据已有的数据集,通过数学,概率学,统计学等方式进行科学合理的判断和分析,从而对未知的数据集进行预测的过程。
举个例子(后面争取每个知识点都能举个例子,尽量通俗易懂,这也是我的id命名的来源,也是对自己的挑战):
我要判断一个人是男人还是女人,那我可以拿到一些信息(比如这个人的身高体重,头发的长度,穿什么鞋,是否涂口红,是否染发,是否带耳环,是否抽烟等),然后基于这些信息,结合我这30年来对成千上万人的认知,就会给出一个最终的结论:如果一个人身高1米6,体重100斤,涂口红,穿高跟鞋,带耳环,那么这个人很大概率是女性。这个例子其实就是一个很好的数据分析过程,属于数据分析里的有监督问题里面的分类问题。我拿到一个人的这些信息,辅助我对这个人的性别做出判断。
再比如:
我要预测一个房子的房价,我可以拿到的信息有(小区位置,房屋建成年限,房屋面积大小,是否靠近地铁,是否靠近学校等),那我根据这些信息,也可以对该房屋的价格做一个大致的判断。这也是一个数据分析问题,具体属于监督问题里的回归问题。
下面我会对一些数据分析常用的概念和基础知识做一下总结:
1)一个数据集,通常可以分为两个大的部分,一个是特征(feature),一个是标签(label).(当然在进行模型训练时每一部分还可以再细分成训练集,验证集和测试集,后面用到再说)
比如上面的第一例子中,我们需要判断的内容(男/女)就是标签,其他的信息(比如身高体重,是否带耳环等)就是特征,特征也可以叫做字段。
根据是否有标签,可以把数据分析问题分为两大类:有监督问题(有标签)和无监督问题(无标签),(其实另外还有一个半监督问题,我们用到再说)
这里的标签,即事实上这个人的真实性别(groudtruth)。在进行模型训练的时候,需要事先对数据的label进行人工标注,也就是在训练的时候有这个标注结果对模型进行监督,也即有监督的来源(模型的效果很大程度上需要依赖标注的准确率,所以标注工作其实是非常重要的)。
根据label的类别,又可以把有监督问题分为分类问题(label为离散值,比如性别)和回归问题(label为连续值,比如房价),无监督问题一般是指聚类问题。
大体的关系如下图: