知识基础
- 在python环境中已经安装ipython和matplotlib
学习目标
- 在ipynb中显示图片
- 学会用format生成string
- 在输入自定义内容时可以随意分行,而不影响报告生成格式
前言
main.ipynb文件是我们的主要工作文件,里面会包含我们对数据的分析和处理,说明文字的生成,人工的文字补充等,而我们一般的数据分析过程也是仅仅一个main.ipynb就足够。
在这里有三个分支:
- 第一种是main.ipynb文件包含要做的数据分析,文字添加,图表生成,文档生成等部分,其自定义部分直接跟在数据分析后面,好处是逻辑上和一般数据分析的思路非常一致,从一般的数据分析脚本直接就可以修改
- 把数据分析部分独立为analysis.py模块,而图表生成部分根据是否需要自定义参数来决定是放入main.ipynb还是analysis.py,再或者单独模块
- 把文字自定义部分单独出来,按照固定的格式生成待填写的模板,然后用编辑器打开此模板直接进行自定义编辑,然后在main.ipynb中可以读取填写后的模板并把内容添加入报告生成的过程。对此还可以进行扩展,做成网页形式,分析部分作为服务器后端,而前端则显示已经生成的报告部分,并且进行填写,填写后POST,后端根据提交内容生成报告。
1. 图片显示
对于本地图片,显示方法如下(参考5.1中图片显示方法)
from IPython.display import Image
Image('./5. 图表绘制/source/anatomy.png')
另一种是显示matplotlib画好的fig对象,在ipynb的cell中输入fig,直接就可以在ipynb中显示。
参考5.2中图片显示方法
import matplotlib.pyplot as plt
# 首先设置作图的大小
IMAGE_WIDTH = 5.708
IMAGE_HIGH = 2.756
# 实例化Figure
fig = plt.figure(figsize=(IMAGE_WIDTH, IMAGE_HIGH))
plt.plot(range(8))
fig
2. 字符串生成
使用Format生成String
string = """{}\n
range : {}\n
list : {}\n
list element : {[1]}\n
dict : {}\n
dict element : {b}""".format('生成结果为 : ',
range(3),
list(range(3)),
list(range(3)),
{'a':1, 'b':'3d'},
**{'a':1, 'b':'3d'})
print(string)
生成结果为 :
range : range(0, 3)
list : [0, 1, 2]
list element : 1
dict : {'a': 1, 'b': '3d'}
dict element : 3d
详细用法建议参考Python官方文档6.1.2 String Formatting
3. 自定义内容自动分行
string = "ddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddd"
当我们添加字符串时,需要注意使用""只能添加单行字符串,ipynb不会对Cell中的超长字符串进行自动分行(可以对jupyter configs进行更改来实现自动分行,不过有些麻烦),所以建议使用""""""来进行字符串的输入,然后手动分行。
显然,使用'\n'
来人工分行会导致多余的'\n'
出现在字符串中,但是我们可以使用一个辅助函数解决这个问题。
string = """
ddddddddddd
dddddddddddddddddd
ddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddddddddddddddd
"""
from ExampleCode.models import Document, Chapter
import re
def del_newline(instance):
for key, value in instance.__dict__.items():
if isinstance(value, str):
value = value.replace('\n', '')
instance.__dict__[key] = value
if isinstance(value, list):
for index, subinstance in enumerate(instance.__dict__[key]):
if isinstance(subinstance, Chapter):
instance.__dict__[key][index] = del_newline(subinstance)
if isinstance(value, Chapter):
instance.__dict__[key] = del_newline(value)
return instance
我们知道document是树结构,所以我们可以基于document的文档结构遍历所有章节的字符串,然后删除多余的'\n'
,而本身字符串的段落划分可以在template中实现。del_newline
方法既是一种递归的遍历方法,可以使用
document = del_newline(document)
来直接获取去除多余'\n'
的新document。