不足之处:拉勾网属于互联网招聘平台,信息具有严重的倾斜性。更多的是互联网之下的数据分析。
1.数据爬取,借鉴别人的python代码爬取数据如下:
各分类字段包含内容解释如下:
公司规模:'少于15人','15-50人', '50-150人', '2000人以上', '500-2000人', '150-500人'
融资阶段:不需要融资', '未融资', '天使轮','A轮', 'B轮','C轮', 'D轮及以上', '上市公司'。
工作经验:'不限', '应届毕业生','1年以下','1-3年', 3-5年', '5-10年', '10年以上'
学历要求:'不限','大专', '本科', '硕士'
工资:分段
行业:
2.根据实际情况猜想:
应聘者关注信息,最直接--工资
影响工资高低因素:城市、行业、公司规模、公司融资情况、学历、工作经验。
3.实际代码操作分析:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df=pd.read_csv("/Users/liyili2/Downloads/data_analysis.csv")
df.head()
(1)不同行业数据分析岗位数量需求不同:
industry_counts=df['行业'].value_counts()[:20]
plt.subplots(figsize=(30,27))
sns.barplot(x=industry_counts.index,y=industry_counts)
plt.xlabel('行业',fontsize=20)
plt.ylabel('人数(单位:人)',fontsize=20)
x_a=range(0,20)
for c,d in zip(x_a,industry_counts):
plt.text(c, d, '%0.0f人' % d, ha='center',va= 'bottom', fontsize=20)
(2)不同城市数据分析岗位数量需求不同:
city_persons=df['城市'].value_counts()[:20]
plt.subplots(figsize=(20,16))
sns.barplot(x=city_persons.index,y=city_persons)
plt.xlabel('城市',fontsize=20)
plt.ylabel('人数(单位:人)',fontsize=20)
x_z=range(0,20)
for a,b in zip(x_z,city_persons):
plt.text(a, b, '%0.0f人' % b, ha='center',va= 'bottom', fontsize=12)
'''3.融资阶段对数据分析人数需求'''
financing_stage=df['融资阶段'].value_counts()[:20]
plt.subplots(figsize=(20,16))
sns.barplot(x=financing_stage.index,y=financing_stage)
plt.xlabel('融资阶段',fontsize=20)
plt.ylabel('人数(单位:人)',fontsize=20)
x_b=range(0,20)
for e,f in zip(x_b,financing_stage):
plt.text(e,f, '%0.0f人' % f, ha='center',va= 'bottom', fontsize=12)
'''4.不同工作经验对数据分析人员需求'''
working_experience=df['工作经验'].value_counts()
plt.subplots(figsize=(20,16))
sns.barplot(x=working_experience.index,y=working_experience)
plt.xlabel('工作经验',fontsize=20)
plt.ylabel('人数(单位:人)',fontsize=20)
x_c=range(0,20)
for g,h,in zip(x_c,working_experience):
plt.text(g,h, '%0.0f人' % h, ha='center',va= 'bottom', fontsize=12)
'''5.不同学历对数据分析人员需求'''
academic_requirements=df['学历要求'].value_counts()
plt.subplots(figsize=(20,16))
sns.barplot(x=academic_requirements.index,y=academic_requirements)
plt.xlabel('工作经验',fontsize=20)
plt.ylabel('人数(单位:人)',fontsize=20)
x_d=range(0,20)
for i,j,in zip(x_d,academic_requirements):
plt.text( i,j, '%0.0f人' % j, ha='center',va= 'bottom', fontsize=12)