数据集下载地址:https://gitee.com/lbwnb_lbwnb/learning_pandas_data.git
任务一 企业收入的多样新
首先使用describe查看两表的数据大体情况,可以看出company.csv中日期是从2008年到2017年,company_data.csv中日期是从2008年到2016年。所以2017年的收入熵指标我们是无法计算的。
然后,将df1的证券代码的数据类型由str转为int,方便索引。
df1 = pd.read_csv('company.csv')
df1.head()
# 获得要计算公司的证券代码
df1_op = df1.copy()
df1_op.证券代码 = df1.证券代码.apply(lambda x: int(x[1:]))
index = df1_op.loc[df1_op.日期<=2016]
company = index.证券代码.to_list()
date = index.日期.to_list()
接着,我们对数据做一点处理,去除无效的nan数据,并把日期转换成年的表示方式
# 读取数据
df2 = pd.read_csv('company_data.csv')
# 删除nan数据
df2 = df2.dropna(how='any')
# 日期转换
df2['日期'] = df2['日期'].apply(lambda x: int(x[:4]))
df2.describe()
接着,从company_data.csv选出我们所需要的数据,使用company.csv的证券代码和日期作为多级index选出我们需要的数据。
# 筛选出所需公司的数据
idx = pd.MultiIndex.from_arrays(index.values.T)
df2 = df2.set_index(['证券代码','日期']).loc[list(idx)].reset_index()
最后一步,就是使用groupby对数据进行分组,并编写自定义的函数传入apply中对group进行处理,计算企业的收入熵指标,然后加入表中
group = df2.groupby(['证券代码','日期'])['收入额']
# 计算收入熵指标
def compute(x):
_sum = x.sum()
p_x = x / x.sum()
return -(p_x * np.log(p_x)).sum()
result = group.apply(compute)
# 写入df1
df1['I'] = np.nan
df1.loc[df1.日期 <=2016, 'I'] = result.values
df1.head()
任务二 组队学习信息表的变换
使用宽表表长表的方式对表格进行变换
df_melt1=df.melt(id_vars = ['所在群', '队伍名称'],
value_vars = [ '队长编号', '队员1 编号', '队员2 编号','队员3 编号', '队员4 编号', '队员5 编号', '队员6 编号', '队员7 编号', '队员8 编号','队员9 编号','队员10编号'],
var_name = '是否队长',
value_name = '编号')
df_melt2=df.melt(id_vars = ['所在群', '队伍名称'],
value_vars = [ '队长_群昵称', '队员_群昵称','队员_群昵称.1', '队员_群昵称.2', '队员_群昵称.3','队员_群昵称.4','队员_群昵称.5', '队员_群昵称.6','队员_群昵称.7','队员_群昵称.8','队员_群昵称.9'],
var_name = '昵称类型',
value_name = '昵称')
df_melt1['是否队长']=df_melt1['是否队长'].apply(lambda x: 1 if x=='队长编号' else 0)
df_result=pd.concat([df_melt1,df_melt2[['昵称']]],axis=1)
df_result=df_result[['是否队长','队伍名称','昵称','编号']]
df_result.sort_values(by=['队伍名称','是否队长'],ascending=False,inplace=True)
df_result.dropna(inplace=True)
df_result['编号']=df_result['编号'].astype(int)
df_result.head()
任务三 美国大选投票情况
首先读入文件
# 读取文件
df1 = pd.read_csv('county_population.csv')
df1.head()
df2 = pd.read_csv('president_county_candidate.csv')
将df1中的US County转化为state+county的形式,和df2保持一致
# 转换为state + county
df1['county'] = df1['US County'].apply(lambda x: x.split(',')[0][1:])
df1['state'] = df1['US County'].apply(lambda x: x.split(',')[-1][1:])
df1 = df1.drop(columns=['US County'])
df1.head()
- 第一小问
然后以df1的state和county作为index,计算出每个县的投票率,但是df2中的county不是和df2中一一对应的,所以要把没有同时出现在df1和df2中的county mask掉
index = pd.MultiIndex.from_arrays(df1[['state', 'county']].values.T)
df2_group = df2.groupby(['state','county'])['total_votes']
df2_index = df2_group.groups.keys()
index_in_df2 = index.isin(df2_index)
Population = df1.loc[index_in_df2, 'Population'].values
total_votes = df2_group.sum()
a = pd.DataFrame(total_votes)
total_votes = a.loc[index[index_in_df2].to_list(), 'total_votes'].values
df1['vote_rate'] = np.nan
# 计算每个县的投票率
df1.loc[index_in_df2, 'vote_rate'] = total_votes/ Population
# 找出大于0.5的县的数量
(df1['vote_rate'] > 0.5).sum()
最后结果是1434
- 第二小问
首先获取candidate的全国总票数,然后使用sort_values对name进行排名,使用pivot_table对df2进行变换,并将nan值填充为0
# 获取候选人全国总票数
candidate = df2.groupby('candidate')['total_votes'].sum()
# 投票人作为列名
name = candidate.sort_values(ascending=False).index.to_list()
# 排名
df2_op = df2[['state','candidate', 'total_votes']].pivot_table(index='state', columns='candidate', values='total_votes', aggfunc='sum')
# 按照候选人全国总票数排名
df2_op = df2_op.loc[:,name].fillna(0)
df2_op.head()
- 第三小问
对candidate和total_votes按照state和county进行分组,依次计算每个county的BT指标
# 计算BT指标
def get_BT(group):
data = group.set_index('candidate')
_sum = data['total_votes'].sum()
if _sum == 0:
return np.nan
else:
B = data.loc['Joe Biden', 'total_votes'] / _sum
T = data.loc['Donald Trump', 'total_votes'] / _sum
return B - T
BT = df2_group.apply(get_BT)
对计算出的结果按照state进行分组,判断当前州是否属于拜登州
BT = BT.reset_index()
BT = BT.rename(columns={0:'BT'})
BT_group = BT.groupby(['state'])['BT']
def get_Biden_State(group):
if group.median() >0:
return True
else:
return False
Biden_State = BT_group.apply(get_Biden_State)
Biden_State = Biden_State.index[Biden_State].to_list()
Biden_State