基尼系数计算方法

基尼系数(英文:Gini indexGini Coefficient)是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。

基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。


一般来说:

如果基尼系数低于0.2表示收入绝对平均;

0.2-0.3表示比较平均;

0.3-0.4表示相对合理;

0.4-0.5表示收入差距较大;

0.6以上表示收入差距悬殊。


基尼系数是量度贫富悬殊程度的标量。它可以定义为:假如我们首先收集社会上每一个人的总财富额,把它从少至大排序,计算它的累积函数(cumulative function),然后便可绘出图中的洛仑兹曲线(Lorenz curve)。图中横轴是人口比例的累积分布,竖轴是财富比例的累积分佈。

A和B是图中两面积,基尼系数便是A=\frac{A}{A+B}

因为面积A+B=0.5。而B的面积SB=sum(矩形面积),所以我们只需要将矩形的面积求和,就是B的面积。则A的面积A=1-2B。所以Gini=A=1-2B。



计算例子(EXCEL版):

所以这一组数据的基尼系数是:0.81751234

例子二(SQL版):

hc.sql("""

select

count(1) cnt,

data_type,

media_name,

pst_name,

page,

place_type,

sum(spent) as revenue

from

biz_ads_data.da_bi_cpd_flow_result_d

where day='2022-03-12'

and data_type='60'

and media_id='3'

group by

data_type,

media_name,

pst_name,

page,

place_type

""".format()).registerTempTable("res")


hc.sql("""

select

count(1) cnt,

data_type,

media_name,

pst_name,

page,

place_type,

sum(spent) as revenue

from

biz_ads_data.da_bi_cpd_flow_result_d

where day='2022-03-12'

and data_type='60'

and media_id='3'

group by

data_type,

media_name,

pst_name,

page,

place_type,

spent

""".format()).registerTempTable("res2")

hc.sql("""

select

a.data_type,

a.media_name,

a.pst_name,

a.page,

a.place_type,

ROUND((a.cnt/b.cnt),7) as P,

ROUND((a.revenue/b.revenue),7) as W

from res2 a left join res b on a.media_name=b.media_name and a.revenue!=0

""".format()).registerTempTable("res_sum")

hc.sql("""select * from res_sum""").show(20)


hc.sql("""

select

data_type,

media_name,

pst_name,

page,

place_type,

P,

W,

if(W is null,0,P/W) as rate

from res_sum

order by rate asc

""".format()).registerTempTable("res_rate")

hc.sql("select * from res_rate").show(20)

hc.sql("""

select

data_type,

media_name,

pst_name,

page,

place_type,

P,

W,

ROUND(rate,7) as rate,

sum(W)over(partition by data_type order by rate) as Y

from res_rate

""".format()).registerTempTable("res_Y")

hc.sql("""select * from res_Y """).show(20)

hc.sql("""

select

data_type,

media_name,

pst_name,

page,

place_type,

P,

W,

rate,

Y,

ROUND(Y*P*0.5,7)as ST

from res_Y

""".format()).registerTempTable("res_st")

hc.sql("""select * from res_st""").show(20)

hc.sql("""select sum(ST) as st from res_st""").show(20)

hc.sql("""select 1-2*sum(ST) as Gini from res_st""").show(20)

最后的基尼系数为:0.63653060

例子三(python版):

参照代码:

import numpy as np

def gini_coef(wealths):

    cum_wealths=np.cumsum(sorted(np.append(wealths,0)))

    sum_wealths=cum_wealths[-1]

    xarray=np.array(range(0,len(cum_wealths)))/np.float(len(cum_wealths)-1)

    yarray=cum_wealths/sum_wealths

    B=np.trapz(yarray,x=xarray)

    A=0.5-B

return A/(A+B)

或者:

假定全部人口平均分为n组,已累积到第i组人口总收入占全部人口总收入的比重Wi为下底,已累计的第i-1组人口总收入收入占全部人口总收入的比重Wi-1为上底,以每组人口占全部人口的比例即1/n为高,计算一个个小梯形的面积,并加总,即得到近似B的面积:W_{i}= \frac{已累积到第i组人口总收入Vi}{全部人口总收入Vn}=\frac{Vi}{Vn}    

1、全部用户总补贴累计为1+2+3+…+100=5050

          2、每一组已累计补贴占用比重分别为[1/5050,(1+2)/5050,(1+2+3)/5050,…,(1+2+…+100)/5050],假设分别对应到y轴上的高为a,b,c,d, … ,ma,max,a=1/5050,……,max=(1+2+…+100)/5050

          3、B的面积就是计算每一个小梯形面积之后进行累加,梯形的高均为1/n,面积累加就是1/n*[(0+a)/2+(a+b)/2+(b+c)/2+……(ma+max)/2] = 1/n*[(b+c+…+ma+max) - max/2] 

第一个小梯形实际是个三角形,面积是1/n*[(0+a)/2],注意最后一个梯形的下底只加了一次max/2,最后汇总完之后会减去一个max/2

B的面积=[(1)+(1+2)+(1+2+3)+……+(1+2+3+……+100) - (1+2+3+……+100)/2 ]/5050/100

          4、基尼系数G=1-2B=1-2[(1)+(1+2)+(1+2+3)+……+(1+2+3+……+100) - (1+2+3+……+100)/2 ]/5050/100

import numpy as np

n = 100

wealths = [i for i in range(1,101)] #[1,2,3…100]

cum_wealths = np.cumsum(sorted(np.append(wealths, 0))) #加上0,再排序,再计算cumsum

max = cum_wealths[-1]  # 取最后一个,也就是原数组的和

print(np.sum(cum_wealths)) #np.sum(cum_wealths) 是将所有元素求和

print(1-2*((np.float(np.sum(cum_wealths))-max/2)/max/n) #代入基尼系数公式

数据验证:

wealths= [0.1,0.2,0.8,1.1,1.4,1.9,2.3,3.6,3.7,4.2,4.3,4.5,4.6,4.9,5.4,5.8,5.9,6,6.1,6.2,6.6,6.7,7.2,7.4,7.5,7.8,8.2,8.4,8.6,9.1,9.5,9.9,10.4,10.7,11.5,21]

n=36 。代入公式计算得到的结果为:0.33262490678598056



另一种SQL版本:

hc.sql("""

select COALESCE(spent,0) spent

        ,ntile(100) over(order by COALESCE(spent,0) asc ) as bucket_id --按补贴升序的顺序平均分成100份

    --  Ntile:是一个窗口函数,它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。

    from biz_ads_data.da_bi_cpd_flow_result_d

    where day = '2022-03-12'

    and data_type='60'

    and media_id='3'

    and spent!=0

""".format()).registerTempTable("userdaystat")

hc.sql("""select * from userdaystat""").show(10)

hc.sql("""

select bucket_id

        ,avg(spent) spent_avg --按照分组分别计算每一组补贴的平均值

    from userdaystat

    group by bucket_id

""".format()).registerTempTable("subsidy_rank")

hc.sql("""

select (1-(sum(spent_avg * (101-bucket_id))-sum(spent_avg)/2)/sum(spent_avg)/50) as Gini --代入基尼系数公式

from subsidy_rank

""").show(20)


--取分后的结果:

hc.sql("""

select COALESCE(spent,0) spent

        ,ntile(100) over(order by COALESCE(spent,0) asc ) as bucket_id --按补贴升序的顺序平均分成100份

    --  Ntile:是一个窗口函数,它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。

    from biz_ads_data.da_bi_cpd_flow_result_d

    where day = '2022-03-12'

    and data_type='60'

    and media_id='3'

    and spent!=0

""".format()).registerTempTable("userdaystat")

hc.sql("""

select (1-(sum(spent * (101-bucket_id))-sum(spent)/2)/sum(spent)/50) as Gini

from userdaystat

""").show(10)


关于基尼系数的介绍:

知乎网介绍:https://zhuanlan.zhihu.com/p/41880008

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容