Task 7 综合练习

数据集下载地址:https://gitee.com/lbwnb_lbwnb/learning_pandas_data.git

任务一 企业收入的多样新

task 1

首先使用describe查看两表的数据大体情况,可以看出company.csv中日期是从2008年到2017年,company_data.csv中日期是从2008年到2016年。所以2017年的收入熵指标我们是无法计算的。
然后,将df1的证券代码的数据类型由str转为int,方便索引。

describe of df1

describe of df2
df1 = pd.read_csv('company.csv')
df1.head()
# 获得要计算公司的证券代码
df1_op = df1.copy()
df1_op.证券代码 = df1.证券代码.apply(lambda x: int(x[1:]))
index = df1_op.loc[df1_op.日期<=2016]
company = index.证券代码.to_list()
date = index.日期.to_list()

接着,我们对数据做一点处理,去除无效的nan数据,并把日期转换成年的表示方式

# 读取数据
df2 = pd.read_csv('company_data.csv')
# 删除nan数据
df2 = df2.dropna(how='any')
# 日期转换
df2['日期'] = df2['日期'].apply(lambda x: int(x[:4]))
df2.describe()

接着,从company_data.csv选出我们所需要的数据,使用company.csv的证券代码和日期作为多级index选出我们需要的数据。

# 筛选出所需公司的数据
idx = pd.MultiIndex.from_arrays(index.values.T)
df2 = df2.set_index(['证券代码','日期']).loc[list(idx)].reset_index()

最后一步,就是使用groupby对数据进行分组,并编写自定义的函数传入apply中对group进行处理,计算企业的收入熵指标,然后加入表中

group = df2.groupby(['证券代码','日期'])['收入额']
# 计算收入熵指标
def compute(x):
    _sum = x.sum()
    p_x = x / x.sum()
    return -(p_x * np.log(p_x)).sum()
result = group.apply(compute)
# 写入df1
df1['I'] = np.nan
df1.loc[df1.日期 <=2016, 'I'] = result.values
df1.head()
计算结果

任务二 组队学习信息表的变换

task 2

使用宽表表长表的方式对表格进行变换

df_melt1=df.melt(id_vars = ['所在群', '队伍名称'],
                value_vars = [ '队长编号', '队员1 编号', '队员2 编号','队员3 编号', '队员4 编号', '队员5 编号', '队员6 编号',  '队员7 编号', '队员8 编号','队员9 编号','队员10编号'],
                var_name = '是否队长',
                value_name = '编号')

df_melt2=df.melt(id_vars = ['所在群', '队伍名称'],
                value_vars = [ '队长_群昵称', '队员_群昵称','队员_群昵称.1',  '队员_群昵称.2', '队员_群昵称.3','队员_群昵称.4','队员_群昵称.5', '队员_群昵称.6','队员_群昵称.7','队员_群昵称.8','队员_群昵称.9'],
                var_name = '昵称类型',
                value_name = '昵称')

df_melt1['是否队长']=df_melt1['是否队长'].apply(lambda x: 1 if x=='队长编号' else 0)
df_result=pd.concat([df_melt1,df_melt2[['昵称']]],axis=1)
df_result=df_result[['是否队长','队伍名称','昵称','编号']]
df_result.sort_values(by=['队伍名称','是否队长'],ascending=False,inplace=True)
df_result.dropna(inplace=True)
df_result['编号']=df_result['编号'].astype(int)
df_result.head()
result

任务三 美国大选投票情况

task 3

首先读入文件

# 读取文件
df1 = pd.read_csv('county_population.csv')
df1.head()
df2 = pd.read_csv('president_county_candidate.csv')

将df1中的US County转化为state+county的形式,和df2保持一致

# 转换为state + county
df1['county'] = df1['US County'].apply(lambda x: x.split(',')[0][1:])
df1['state'] = df1['US County'].apply(lambda x: x.split(',')[-1][1:])
df1 = df1.drop(columns=['US County'])
df1.head()
df1
  • 第一小问

然后以df1的state和county作为index,计算出每个县的投票率,但是df2中的county不是和df2中一一对应的,所以要把没有同时出现在df1和df2中的county mask掉

index = pd.MultiIndex.from_arrays(df1[['state', 'county']].values.T)
df2_group = df2.groupby(['state','county'])['total_votes']
df2_index = df2_group.groups.keys()
index_in_df2 = index.isin(df2_index)
Population = df1.loc[index_in_df2, 'Population'].values
total_votes = df2_group.sum()
a = pd.DataFrame(total_votes)
total_votes = a.loc[index[index_in_df2].to_list(), 'total_votes'].values
df1['vote_rate'] = np.nan
# 计算每个县的投票率
df1.loc[index_in_df2, 'vote_rate'] =  total_votes/ Population 
# 找出大于0.5的县的数量
(df1['vote_rate'] > 0.5).sum()

最后结果是1434

  • 第二小问

首先获取candidate的全国总票数,然后使用sort_values对name进行排名,使用pivot_table对df2进行变换,并将nan值填充为0

# 获取候选人全国总票数
candidate = df2.groupby('candidate')['total_votes'].sum()
# 投票人作为列名
name = candidate.sort_values(ascending=False).index.to_list()
# 排名
df2_op = df2[['state','candidate', 'total_votes']].pivot_table(index='state', columns='candidate', values='total_votes', aggfunc='sum')
# 按照候选人全国总票数排名
df2_op = df2_op.loc[:,name].fillna(0)
df2_op.head()
候选人州排名
  • 第三小问

对candidate和total_votes按照state和county进行分组,依次计算每个county的BT指标

# 计算BT指标
def get_BT(group):
    data = group.set_index('candidate')
    _sum = data['total_votes'].sum()
    if _sum == 0:
        return np.nan
    else:
        B = data.loc['Joe Biden', 'total_votes'] / _sum
        T = data.loc['Donald Trump', 'total_votes'] / _sum
    return B - T
BT = df2_group.apply(get_BT)

对计算出的结果按照state进行分组,判断当前州是否属于拜登州

BT = BT.reset_index()
BT = BT.rename(columns={0:'BT'})
BT_group = BT.groupby(['state'])['BT']
def get_Biden_State(group):
    if group.median() >0:
        return True
    else:
        return False
Biden_State = BT_group.apply(get_Biden_State)
Biden_State = Biden_State.index[Biden_State].to_list()
Biden_State
result
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容