[HPC/IO]Automatic generation of benchmarks for I/O-intensive parallel applications

论文题目：Automatic generation of benchmarks for I/O-intensive parallel applications
文章时间：2018年3月
会议/期刊：期刊 J.ParallelDistrib.Comput.
作者背景：哈工大，UIUC
笔记时间：2021年10月12日周二
论文地址：https://www.sciencedirect.com/science/article/pii/S074373151830738X

文章中要自动生成benchmark，但是我并不理解什么是benchmark。
本文三个贡献点
benchmark自动生成
trace 压缩新算法
trace merge新算法

整个工作流程

记录trace
压缩trace
merge trace
利用整理后的trace 生成code
利用code生成benchmark

所以本文的insight是什么，是聚合了几个技术的framework吗？

Abstract
想要高保真的抽取benchmark为了反映HPC应用的计算通讯IO行为很难。本文设计了一个框架，实验app是五个NPB，四个IO密集的并行程序。我们设计的Trace merge和压缩技术比其他人的要好，产生的benchmark可以模拟源程序的计算通讯和io行为。这些生成的benchmark也可以用来预测源程序的性能，通过规模变化来等比例的预测性能。

第三章记录trace 中的问题

3.1 记录方法
使用PMPI

3.2 处理特殊的参数

3.3 处理自定义的数据类型

第四章 trace 压缩阶段

4.1 识别出连续的IO操作

4.2 识别出 LOOP 结构

4.3 trace压缩算法 --- 自己提出的新算法
算法复杂度：O(nlogn)

第五章 Trace merge

MPI是SIMD的编程范式，所以每个进程的trace中有非常多重复的地方。

5.1 trace预处理
直接merge效果不好

5.2 merge 算法
find shortest edit script (SES)of sequences

第六章生成代码

6.1 模拟计算

6.2 模拟通讯和IO

6.3 模拟循环结构

第七章验证

框架达成了两个目标

高效地减少了IO密集型的trace数量
2.利用trace生成benchmark，利用benchmark预测性能

选了五个通讯密集的非并行通讯应用，五个io密集的并行通讯应用

7.2 trace 记录的性能

7.3 trace 压缩的性能

7.4 trace merge的性能

7.5 生成benckmark的保真度

7.6 benchmark预测的误差

7.7 benchmark的可移植性

第八章相关工作

8.1 自动benchmark生成
ScalaBenchGen [21] and DwarfCode[25]、
这两个工作不能处理mpi-io操作

APPrime [8]
Skel[12,13]
Replayertool[3]

8.2 trace 的merge 和压缩

[HPC/IO]Automatic generation of benchmarks for I/O-intensive parallel applications

第三章 记录trace 中的问题

第四章 trace 压缩阶段

第五章 Trace merge

第六章 生成代码

第七章 验证

第八章 相关工作

推荐阅读更多精彩内容

第三章记录trace 中的问题

第六章生成代码

第七章验证

第八章相关工作