背景
不同人群的不同品类的消费数据分析
二维表下的进一步分析
首先基于1个二维表进行分析,既然是二维表,就有2维度,分别是商品品类(预计)和用户分类
对于商品品类,是原始表自带的,可以直接利用。但是用户分类却没有现场的,默认思路是按照提供的数据进行分类,例如按照年龄,按照性别、按照收入,但是这次的原始数据中没有这些固定属性。只有消费时间、消费品牌、消费金额以及消费单位。
第一个任务:根据消费数据找到不同类型的群体
既然有了消费时间、消费品牌、消费金额以及消费单位,就可以进行聚类。
当然,也可以有一些我们认为的假设,例如男人喜欢电器,应该会在家用电器类上进行集中消费,累计数量相对其他品类的金额有明显差异。这样也可以从数据中找到证据。
不过既然是探索性质的数据分析,应该先不要让假设占据探索的 思路。
我们认为数据之所以可以呈现聚类,客观上是因为不同群体的消费习惯有所不同,所在在消费品类、金额上肯定不同。
(1)首先,将消费的金额聚焦到小品类上(四级品类),及一个用户在一个四级品类上的消费金额的合计,是一个基础单位。
(2)同时,由于数据过于集中,直接在图形展示会出现扎堆现象,无法细分,那就把数据进行缩小,扩大他们的差异。
基于(1)(2)可以得出基础分布散点图,然后在用【集群】功能自动分类
第二个任务:根据大类、用户分类进行数据对比展示
有了大品类和用户分类后,对比的内容应该就是消费次数和消费金额。
例如,在家用电器(大类)中,用户分类1(未知属性),消费次数很高(相对于其他大类),累计消费金额也很高就是男性客户。
而另一类用户,在女装、化妆品上次数与金额都很高,并且在其他品类上也有均匀消费,很可能就是以女性为主的,家庭类消费单位。
其实到了这里,数据体现的症状大概率与显示的人群相匹配,例如单身青年,一家3口,老两口等等,如果实在难以判断,可以进一步挖掘具体数据对应的客户信息,以个别用户数据来证明一个群体的类型。