10. 人工分析部分自定义和ipynb交互

知识基础

在python环境中已经安装ipython和matplotlib

学习目标

在ipynb中显示图片
学会用format生成string
在输入自定义内容时可以随意分行，而不影响报告生成格式

前言

main.ipynb文件是我们的主要工作文件，里面会包含我们对数据的分析和处理，说明文字的生成，人工的文字补充等，而我们一般的数据分析过程也是仅仅一个main.ipynb就足够。
在这里有三个分支：

第一种是main.ipynb文件包含要做的数据分析，文字添加，图表生成，文档生成等部分，其自定义部分直接跟在数据分析后面，好处是逻辑上和一般数据分析的思路非常一致，从一般的数据分析脚本直接就可以修改
把数据分析部分独立为analysis.py模块，而图表生成部分根据是否需要自定义参数来决定是放入main.ipynb还是analysis.py，再或者单独模块
把文字自定义部分单独出来，按照固定的格式生成待填写的模板，然后用编辑器打开此模板直接进行自定义编辑，然后在main.ipynb中可以读取填写后的模板并把内容添加入报告生成的过程。对此还可以进行扩展，做成网页形式，分析部分作为服务器后端，而前端则显示已经生成的报告部分，并且进行填写，填写后POST，后端根据提交内容生成报告。

1. 图片显示

对于本地图片，显示方法如下（参考5.1中图片显示方法）

from IPython.display import Image
Image('./5. 图表绘制/source/anatomy.png')

另一种是显示matplotlib画好的fig对象，在ipynb的cell中输入fig，直接就可以在ipynb中显示。

参考5.2中图片显示方法

import matplotlib.pyplot as plt
# 首先设置作图的大小
IMAGE_WIDTH = 5.708
IMAGE_HIGH = 2.756
# 实例化Figure
fig = plt.figure(figsize=(IMAGE_WIDTH, IMAGE_HIGH))
plt.plot(range(8))
fig

2. 字符串生成

使用Format生成String

string = """{}\n
range : {}\n
list : {}\n
list element : {[1]}\n
dict : {}\n
dict element : {b}""".format('生成结果为 : ',
                             range(3),
                                list(range(3)),
                                 list(range(3)),
                                        {'a':1, 'b':'3d'},
                            **{'a':1, 'b':'3d'})
print(string)

生成结果为 : 

range : range(0, 3)

list : [0, 1, 2]

list element : 1

dict : {'a': 1, 'b': '3d'}

dict element : 3d

详细用法建议参考Python官方文档6.1.2 String Formatting

3. 自定义内容自动分行

string = "ddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddd"

当我们添加字符串时，需要注意使用""只能添加单行字符串，ipynb不会对Cell中的超长字符串进行自动分行（可以对jupyter configs进行更改来实现自动分行，不过有些麻烦），所以建议使用""""""来进行字符串的输入，然后手动分行。

显然，使用'\n'来人工分行会导致多余的'\n'出现在字符串中，但是我们可以使用一个辅助函数解决这个问题。

string = """
ddddddddddd
dddddddddddddddddd
ddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddddddddddddddd
"""

from ExampleCode.models import Document, Chapter
import re
def del_newline(instance):
    for key, value in instance.__dict__.items():
        if isinstance(value, str):
            value = value.replace('\n', '')
            instance.__dict__[key] = value        
        if isinstance(value, list):
            for index, subinstance in enumerate(instance.__dict__[key]):
                if isinstance(subinstance, Chapter):
                    instance.__dict__[key][index] = del_newline(subinstance)
        if isinstance(value, Chapter):
            instance.__dict__[key] = del_newline(value)
    return instance

我们知道document是树结构，所以我们可以基于document的文档结构遍历所有章节的字符串，然后删除多余的'\n'，而本身字符串的段落划分可以在template中实现。del_newline方法既是一种递归的遍历方法，可以使用

document = del_newline(document)

来直接获取去除多余'\n'的新document。

output_5_0.png