基尼系数(英文:Gini index、Gini Coefficient)是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。
基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。
一般来说:
如果基尼系数低于0.2表示收入绝对平均;
0.2-0.3表示比较平均;
0.3-0.4表示相对合理;
0.4-0.5表示收入差距较大;
0.6以上表示收入差距悬殊。
基尼系数是量度贫富悬殊程度的标量。它可以定义为:假如我们首先收集社会上每一个人的总财富额,把它从少至大排序,计算它的累积函数(cumulative function),然后便可绘出图中的洛仑兹曲线(Lorenz curve)。图中横轴是人口比例的累积分布,竖轴是财富比例的累积分佈。
A和B是图中两面积,基尼系数便是。
因为面积A+B=0.5。而B的面积SB=sum(矩形面积),所以我们只需要将矩形的面积求和,就是B的面积。则A的面积A=1-2B。所以Gini=A=1-2B。
计算例子(EXCEL版):
所以这一组数据的基尼系数是:0.81751234
例子二(SQL版):
hc.sql("""
select
count(1) cnt,
data_type,
media_name,
pst_name,
page,
place_type,
sum(spent) as revenue
from
biz_ads_data.da_bi_cpd_flow_result_d
where day='2022-03-12'
and data_type='60'
and media_id='3'
group by
data_type,
media_name,
pst_name,
page,
place_type
""".format()).registerTempTable("res")
hc.sql("""
select
count(1) cnt,
data_type,
media_name,
pst_name,
page,
place_type,
sum(spent) as revenue
from
biz_ads_data.da_bi_cpd_flow_result_d
where day='2022-03-12'
and data_type='60'
and media_id='3'
group by
data_type,
media_name,
pst_name,
page,
place_type,
spent
""".format()).registerTempTable("res2")
hc.sql("""
select
a.data_type,
a.media_name,
a.pst_name,
a.page,
a.place_type,
ROUND((a.cnt/b.cnt),7) as P,
ROUND((a.revenue/b.revenue),7) as W
from res2 a left join res b on a.media_name=b.media_name and a.revenue!=0
""".format()).registerTempTable("res_sum")
hc.sql("""select * from res_sum""").show(20)
hc.sql("""
select
data_type,
media_name,
pst_name,
page,
place_type,
P,
W,
if(W is null,0,P/W) as rate
from res_sum
order by rate asc
""".format()).registerTempTable("res_rate")
hc.sql("select * from res_rate").show(20)
hc.sql("""
select
data_type,
media_name,
pst_name,
page,
place_type,
P,
W,
ROUND(rate,7) as rate,
sum(W)over(partition by data_type order by rate) as Y
from res_rate
""".format()).registerTempTable("res_Y")
hc.sql("""select * from res_Y """).show(20)
hc.sql("""
select
data_type,
media_name,
pst_name,
page,
place_type,
P,
W,
rate,
Y,
ROUND(Y*P*0.5,7)as ST
from res_Y
""".format()).registerTempTable("res_st")
hc.sql("""select * from res_st""").show(20)
hc.sql("""select sum(ST) as st from res_st""").show(20)
hc.sql("""select 1-2*sum(ST) as Gini from res_st""").show(20)
最后的基尼系数为:0.63653060
例子三(python版):
参照代码:
import numpy as np
def gini_coef(wealths):
cum_wealths=np.cumsum(sorted(np.append(wealths,0)))
sum_wealths=cum_wealths[-1]
xarray=np.array(range(0,len(cum_wealths)))/np.float(len(cum_wealths)-1)
yarray=cum_wealths/sum_wealths
B=np.trapz(yarray,x=xarray)
A=0.5-B
return A/(A+B)
或者:
假定全部人口平均分为n组,已累积到第i组人口总收入占全部人口总收入的比重Wi为下底,已累计的第i-1组人口总收入收入占全部人口总收入的比重Wi-1为上底,以每组人口占全部人口的比例即1/n为高,计算一个个小梯形的面积,并加总,即得到近似B的面积:
1、全部用户总补贴累计为1+2+3+…+100=5050
2、每一组已累计补贴占用比重分别为[1/5050,(1+2)/5050,(1+2+3)/5050,…,(1+2+…+100)/5050],假设分别对应到y轴上的高为a,b,c,d, … ,ma,max,a=1/5050,……,max=(1+2+…+100)/5050
3、B的面积就是计算每一个小梯形面积之后进行累加,梯形的高均为1/n,面积累加就是1/n*[(0+a)/2+(a+b)/2+(b+c)/2+……(ma+max)/2] = 1/n*[(b+c+…+ma+max) - max/2]
第一个小梯形实际是个三角形,面积是1/n*[(0+a)/2],注意最后一个梯形的下底只加了一次max/2,最后汇总完之后会减去一个max/2
B的面积=[(1)+(1+2)+(1+2+3)+……+(1+2+3+……+100) - (1+2+3+……+100)/2 ]/5050/100
4、基尼系数G=1-2B=1-2[(1)+(1+2)+(1+2+3)+……+(1+2+3+……+100) - (1+2+3+……+100)/2 ]/5050/100
import numpy as np
n = 100
wealths = [i for i in range(1,101)] #[1,2,3…100]
cum_wealths = np.cumsum(sorted(np.append(wealths, 0))) #加上0,再排序,再计算cumsum
max = cum_wealths[-1] # 取最后一个,也就是原数组的和
print(np.sum(cum_wealths)) #np.sum(cum_wealths) 是将所有元素求和
print(1-2*((np.float(np.sum(cum_wealths))-max/2)/max/n) #代入基尼系数公式
数据验证:
wealths= [0.1,0.2,0.8,1.1,1.4,1.9,2.3,3.6,3.7,4.2,4.3,4.5,4.6,4.9,5.4,5.8,5.9,6,6.1,6.2,6.6,6.7,7.2,7.4,7.5,7.8,8.2,8.4,8.6,9.1,9.5,9.9,10.4,10.7,11.5,21]
n=36 。代入公式计算得到的结果为:0.33262490678598056
另一种SQL版本:
hc.sql("""
select COALESCE(spent,0) spent
,ntile(100) over(order by COALESCE(spent,0) asc ) as bucket_id --按补贴升序的顺序平均分成100份
-- Ntile:是一个窗口函数,它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。
from biz_ads_data.da_bi_cpd_flow_result_d
where day = '2022-03-12'
and data_type='60'
and media_id='3'
and spent!=0
""".format()).registerTempTable("userdaystat")
hc.sql("""select * from userdaystat""").show(10)
hc.sql("""
select bucket_id
,avg(spent) spent_avg --按照分组分别计算每一组补贴的平均值
from userdaystat
group by bucket_id
""".format()).registerTempTable("subsidy_rank")
hc.sql("""
select (1-(sum(spent_avg * (101-bucket_id))-sum(spent_avg)/2)/sum(spent_avg)/50) as Gini --代入基尼系数公式
from subsidy_rank
""").show(20)
--取分后的结果:
hc.sql("""
select COALESCE(spent,0) spent
,ntile(100) over(order by COALESCE(spent,0) asc ) as bucket_id --按补贴升序的顺序平均分成100份
-- Ntile:是一个窗口函数,它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。
from biz_ads_data.da_bi_cpd_flow_result_d
where day = '2022-03-12'
and data_type='60'
and media_id='3'
and spent!=0
""".format()).registerTempTable("userdaystat")
hc.sql("""
select (1-(sum(spent * (101-bucket_id))-sum(spent)/2)/sum(spent)/50) as Gini
from userdaystat
""").show(10)
关于基尼系数的介绍: