为了提高一个组织运作流程的效率,需要事先了解流程内部的具体情况。流程发现技术能够从实际生产活动产生的事件日志中构建流程模型,有助于理解流程内部的运作,从而能够改进组织运作流程,提高组织运作效率。
将事件日志转化为流程模型,向我们展示活动之间各种关系的技术称为流程发现。如下所示为部分事件日志示例及其发现得到的流程模型。
如今,随着计算和通信的创新发展,极大地改变了组织的工作流程,业务流程变得更加复杂,严重依赖信息系统,并可能跨越多个组织。因此,将组织的运行方式可视化是至关重要的。
然而,手动创建这样的流程模型是一项具有挑战性且容易出错的任务,只有经验丰富的设计师才能创建有价值的模型。典型的错误可能是模型描述了现实的理想化版本,或者模型无法充分捕捉观察到的行为。
流程发现算法使用事件日志在更短的时间内自动生成更好的模型。通过创建流程模型,人们可以应用其他流程挖掘技术,如合规性检查、预测性监控等,从而获得对组织更深入的了解。
发现一个流程模型的过程类似于孩子学习语言的方式。在听到新词时,孩子会开始形成语言的心理模型。当孩子听到新的单词或句子时,就会开始完善代表该语言的模型,使其越来越复杂。流程发现算法的工作方式也很类似,它从业务流程执行过程中捕获并记录的活动开始,慢慢地建立一个最能代表所观察行为的模型。一个来自事件日志中未见过的活动序列被认为是一个新的句子,它要么符合现有的流程模型,要么需要对迄今为止已发现的模型进行一些调整。当算法到达事件日志的末尾时,就看到了系统所表现出的所有可能的行为变化,基于此可以输出一个代表系统行为的流程模型。
Alpha 算法是第一个能够充分处理并发性的流程发现算法。其基本思想为:首先以事件日志为输入,Alpha算法抽象出事件日志中发生活动之间的伴随、因果、并行、无关四种基本关系;然后根据基本关系的类型,生成直接跟随活动关系图;最后转化为相应的流程模型。虽然Alpha算法难以应用于实践之中,但它为这个问题的研究思路提供了一个良好的开端,为后续流程发现技术提供了基础。
启发式挖掘算法使用类似于因果网的表示方法,在构建流程模型时考虑到了活动和直接跟随活动关系的频率,并且引入了噪声处理机制。其基本思想为:首先根据事件日志中的直接跟随活动关系建立直接跟随活动关系频次表,引入依赖度量公式计算活动间的依赖度量值;然后根据设置阈值过滤低频次的直接跟随活动关系,生成依赖度量表;最后根据直接跟随关系频次表和依赖度量表生成依赖图,并转化为流程模型。
Alpha算法和启发式挖掘算法通过直接和确定的方式挖掘流程模型。遗传算法是一种模仿生物系统中自然进化过程的搜索技术。其基本思想为:首先随机产生一组初始种群,利用适应值函数计算个体的质量;然后对质量优良的个体做杂交变异操作形成新一代种群。重复这一过程,直到满足终止条件。它试图在搜索空间中通过选择、突变、组合等方式,找到一个解决方案。这类方法不是确定性的,而是依靠随机化来寻找新的替代方案。
在Petri网理论研究领域,研究人员一直关注网合成问题,即从对系统行为的描述中构建一个系统Petri网模型。基于状态区域的挖掘方法可以从一个变迁系统中构建一个Petri网。基于语言区域的挖掘方法可以从一个前缀封闭的语言中构建Petri网,根据事件日志中建模的代数约束来确定允许在事件日志中观察到的行为位置。
归纳流程发现技术适用于流程树,确保了构建流程的合理性。其基本思想为:首先根据事件日志中的直接跟随活动关系构建直接跟随活动关系图;然后定义选择、顺序、并发、循环四种切分运算符,将生成的直接跟随活动关系图进行递归划分,得到一组流程树语言,从而构建块结构类型的流程树;最后再将其转化为Petri网等流程模型。由于其灵活性、形式化和可扩展性,它被认为是目前最先进的流程发现方法之一。
流程发现技术为事件日志中所记录的流程提供了形式化表示。流程发现算法的结果通常是一个流程模型或者作为事件日志一部分的案例统计。所发现的模型的代表性和准确性取决于用于发现的技术和所选择的可视化类型。常见的可视化模型包括有向图、Petri网、BPMN三种。
有向图(DFG)是最简单的流程模型。在一个有向图中,每个节点代表一个活动,弧线描述各种活动之间的关系。通常在一个流程模型中,有向图有一个起点和一个终点,分别代表开始和结束活动。有向图中任何两个活动之间的弧表示活动之间的直接跟随关系。有向图是商业流程挖掘工具中最常用的流程模型呈现形式。
Petri网提供了流程模型的高级表示法,并允许紧凑地表示流程中的并发行为。Petri网能够描述流程中各种活动之间的顺序、并发、选择和循环关系。目前,Petri网是流程挖掘学术圈最受欢迎的模型表达方式。
BPMN (Business Process Modelling Notations)是业务流程管理领域被广泛使用的流程建模语言,允许建立紧凑和可理解的流程模型。除了扁平的控制流视角外,子流程、数据流、资源也可以整合在一张BPMN图中。这使得BPMN对流程挖掘者和商业用户都非常有吸引力,因为控制流视角可以与从事件日志中发现的数据和资源视角相结合。
流程发现带来了几个独特的挑战。初步观察表明,使用流程挖掘方法发现的模型与预期的理想流程模型往往是不同且复杂的。用于发现模型的事件日志只显示了到目前为止已经发生的行为,只给了我们整个可能性空间的部分模型。因此提出了流程发现的四个挑战:
1. 拟合度(fitness):该模型能否解释观察到的行为?
2. 精确度(precision):模型的表达能力是否足以显示事件日志中的行为(是否欠拟合)?
3. 简单度(simplicity):该模型是否足够简单易懂?
4. 泛化度(generalization):发现的模型是否过度拟合了事件日志中的行为?