python中的matplotlib仅支持Unicode编码,默认是不显示中文的,如果把字符串是中文,在显示的时候所以的文字都变成了框框,要解决这个问题需要设置一下文字的字体,有下面2种方法:
第一种方法:在代码中动态设置 这种方式不需要修改配置文件,比较方便,但只适用于加上去的文字,下面是具体步骤:
1.首先要再python脚本中的开头加上后面的内容:#-- coding: utf-8 --,即用utf8编码
2.然后在代码中动态设置字体
#这里是主要的几行代码
#-- coding: utf-8 --
......
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"C:\Windows\Fonts\simsun.ttc", size=14)
plt.xlabel(u'职位需求(位)')
......
# 如果你在作图过程中遇到下面这种情况,那么第一种方法就不再适用了
第二种方法:Matplotlib中文显示有问题,当然可以修改配置文件matplotlibrc ,一劳永逸,推荐使用这种方法,下面是具体步骤:
1、在python的安装目录中找到配置文件matplotlibrc
我用的是Anaconda里的python,所以我的是在F:\Anaconda3\Lib\site-packages\matplotlib\mpl-data\matplotlibrc,用任意文本编辑器打开。
2、找到141行的font.family : sans-serif
将其前面的#注释号去掉
3、找到152行的font.sans-serif : Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif
将【AR PL UMing CN, SimHei】添加在最前面,其中AR PL UMing CN和SimHei分别代表宋体和黑体,并将前面的#注释号去掉
4、更改267行的axes.unicode_minus :True
将True改为False
实战
爬取前程无忧上【上海】【本科】【实习】【无工作经验】关于【统计】的职业需求,关于对于编码的信息可以从js里拿到
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
import csv
import json
from requests.exceptions import RequestException
url1='http://m.51job.com/ajax/search/joblist.ajax.php?'
url2 = 'http://m.51job.com/search/joblist.php?'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}
def get_page_index(i,url):
data = {
'keyword':'统计',
'jobarea':'020000', #地区编码
'jobterm': '03', #工作类型编码
'workyear': '01', #工作经验编码
'degree': '04', #学历要求编码
'pageno':str(i)
}
try:
response = requests.get(url,params=data,headers=headers)
if response.status_code == 200:
#print(response.text)
return response.text
return None
except RequestException:
print('请求索引页出错')
return None
def the_sum(): #获取总职位需求数
html=get_page_index(1,url2)
soup=BeautifulSoup(html,'lxml')
sum=soup.find(class_='result').span.text
sum=int(sum)
show = '总计职位%d个' % sum
print(show)
t=int(sum/30)
return t
def parse_the_index(i):
html=get_page_index(i,url1)
#print(html)
js=json.loads(html)
items=(js.get('data'))
#print(items)
return items
def plt_out(): #画图
f = pd.read_csv(r'tj03.csv')
jabore_count = f.jobareaname.value_counts()
#print(jabore_count)
frame = pd.DataFrame(jabore_count)
print(frame)
frame.plot(kind='barh')
plt.xlabel(u'职位需求(位)')
plt.show()
def main():
with open('tj03.csv', 'a', encoding='utf-8') as csvfile:
fieldnames = ['jobareaname','cjobname', 'jobsalaryname', 'cocname']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writeheader()
sum=the_sum()
for i in range(1,sum+1):
get_page_index(i,url1)
items=parse_the_index(i)
for item in items:
del item['isexpired']
del item['coid']
del item['jobid']
del item['isjump']
del item['jumpurl']
del item['hasposted']
print(item)
writer.writerow(item)
plt_out()
if __name__ == '__main__':
main()
最后得到csv文件和柱状图