计算机生成兵力行为建模发展现状

1 引言

计算机生成兵力（Computer Generated Force，CGF）是由计算机创建并能在基于分布交互仿真技术构建的分布式虚拟战场环境中，对其全部或部分动作和行为实施自主控制或指导的虚拟作战兵力对象，是军事仿真系统中必不可少的元素。CGF在仿真领域的应用有3个方面，装备技能操作、参谋作业、指挥员决策等训练仿真；新概念武器运用、作战理论研究、作战能力评估、作战方案优化等分析仿真；武器装备发展评估、战技指标论证、新概念武器先期技术演示验证等测试仿真。CGF的运用可以扩展作战仿真规模，减少所需人员和模拟器数量，使整个仿真过程易于管理和控制，其行为表示的准确与否是作战仿真中人类行为模型是否真实、仿真运行结果是否可信的关键所在。CGF研究成果可为装备体系需求论证、作战试验、作战运用等研究提供一种有效的途径，为陆军部队装备体系实战化对抗训练提供有效的技术支撑，为装备作战运用理论研究助力，为战斗力快速生成提供新视角，为提高指挥信息系统“智能辅助”提供借鉴。开发CGF的重点和难点之一在于CGF实体行为的生成，这实际上主要是人工智能技术在CGF中的应用[1]。本文从基于知识、推理、规划思想，问题求解思想，不确定知识推理思想，学习思想四个方面，总结归纳CGF行为建模方法，对比分析了不同方法的优缺点。按照指挥实体任务规划、战术决策行为，作战实体火力、机动战场主要行为分类，总结梳理国内外CGF行为建模方法发展现状。从CGF行为建模需求出发，提出强化学习+知识引导，神经网络+遗传算法，知识图谱+深度学习，规则+强化学习， 4种计算机生成兵力行为建模思想方法。

2 CGF行为建模方法综述

CGF行为建模相关方法大致可归纳为基于知识、推理、规划的思想，基于问题求解的思想，基于不确定知识与推理的思想，基于学习的思想四类。

2.1 基于知识、推理、规划思想

基于知识、推理、规划是指CGF依靠对知识的内部表示以及对其进行操作实现推理，典型的建模技术有：基于规则的推理技术、基于有限状态机的推理技术、基于语境的推理技术、基于案例的推理技术、基于本体理论的推理技术。这类方法具有经验知识表示直接，在有限领域内性能较好等优点，但是只能参照框架和流程按图索骥，缺乏探索及发现框架之外新知识、新战法能力。

2.2 基于问题求解思想

基于问题求解思想是指世界的状态被视为一个整体，对问题求解算法而言，没有可见的内部结构，主要有启发式算法和博弈算法两类。在CGF行为建模中，主要涉及的启发式方法有进化算法（Evolutionary Algorithms，EA）、群体智能优化算法（Swarm Intelligence Algorithm，SIA）等生物启发式算法，以及模拟金属物质热力学退火过程的模拟退火算法（Simulated Algorithm，SA）等。这类方法可以在在解空间内搜索全局最优解，并且可以对多个目标函数同时进行优化，输出一组非支配的Pareto解集，有效地求解多目标问题。但是，由于求解的整个群体参与运算，即使是简单的问题，都需要占用大量的内存和计算资源。对于复杂问题，即使用足够高速度的计算机进行交互式优化，达到实时性也是不现实的。

博弈论是研究交互式条件下“最优理性决策”的学问，即博弈的每个参与者都希望能以其偏好获得最大的满足，博弈论的不同分类如图1所示。

CGF战术决策属于不完全信息动态博弈问题，即对抗双方行动有先后顺序，后行动者可以通过观察先行动者的行动，获得先行动者的信息（偏好、策略空间等），获得信息后，修正自己的判断（概率分布修正），先行动者知道自己的行动会有信息传递给对方，为了不让对方知道自己的情况，会隐瞒自己的真实行动。基于博弈论的作战决策行为建模方法是作战决策行为研究的一大热点，涌现出了大量新颖的建模方法[2,3]。机器博弈也称计算机博弈（Computer Games），即“让计算机像人一样思考和决策”[4]，博弈论像数学分析一样是用解析方法求解问题，而机器博弈却像数值分析一样是以计算机为手段、用数值方法求解问题。这类方法的优势在于能够充分考虑对抗双方之间的相互关系，使得CGF决策更加贴近现实，但博弈决策并不是总能奏效的，当存在多个均衡解时，博弈决策并不能区分哪一种策略更优，并且当决策空间巨大时，策略搜索的实时性难以达到要求。

图1博弈论分类

2.3 基于不确定知识推理思想

CGF 所处战场环境是部分可观察或不确定的，CGF的理性决策既依赖于各种目标的相对重要性，也依赖于这些目标将被实现的可能性和程度；CGF在各种规划的不同结果之间有所偏好等，所以，CGF需要对不确定性处理，而概率理论提供了概括这些不确定性的方法，并通过对CGF信念度处理，实现CGF行为决策，常用方法有：贝叶斯网络、马尔科夫模型、效用理论。

2.3.1 贝叶斯网（Bayesian Networks，BN）

BN方法于1986年由Pearl提出，用图论和统计学理论处理不确定性知识，网络中的每个节点表示一个随机变量，具有因果关系的节点用箭头相连，并用条件概率表示节点间关系，由给定节点的条件概率与先验概率计算各节点状态概率，以实现概率的传播，从而完成推理。BN可用于描述CGF决策过程，使得CGF具备对不确定知识的表示和推理的能力。数学理论基础稳固，具有较强的概率表达能力，多源信息融合能力，同时，在CGF决策过程中，BN结构决定着态势特征的提取、领域知识获取依赖于专家领域知识，这使得模型无法完全准确的描述战争系统复杂的演进过程，从而CGF决策效果会有影响，这一不足同样存在于以上所有传统建模方法中。

2.3.2 马尔科夫决策（Markov）模型

马尔科夫决策过程描述为一个四元组(S，A，R，P)，S为离散状态集合，即状态空间；A为离散的备选决策方案集；R(s,a)表示状态s下采取动作a获得的累积回报，是状态和方案到实数集的映射，即：S×A→R；P为状态转移函数，即P：S×A→PD（S），PD是S 上的一个概率分布函数。P满足Markov特性，即对于a1，a2，…，at∈A，有P{St+1｜S1，a1，…，St，at}= P{St+1｜St，at}，r(s,a)表示状态s下采取动作a获得的即时回报。将CGF决策行为看成一个马尔科夫决策过程，对状态空间的描述是关键。

2.3.3 期望效用理论（Expected Utility Theory，EU）

EU描述了个体在不确定条件下的决策规律，基于EU的决策以以下假设为基础，决策者可以构建备选方案的完备集，每个备选方案的结果及其概率是已知的，决策目的是使一个给定的效用函数的期望值达到最大，如何合理量化各种决策指标是关键。

2.4 基于学习思想

机器学习是通过计算模型和算法从数据中学习规律，并对数据进行预测与决策的一门学问。机器学习在各种需要从复杂数据中挖掘规律的领域中有广泛应用[4]，利用数据预测进行CGF最优行为决策的方法具有重要的研究价值并成为当今的主流[5]，是当今人工智能领域最核心的技术之一，算法分类如图2所示。

图2 机器学习算法分类图

2.4.1 深度学习（Deep Learning，DL）

深度学习是一种对特征多次变换的机器学习模型，由人工神经网络（Artificial Neural Network，ANN）发展而来，现泛指各种基于多层网络结构的机器学习模型，通过多层模型的逐级特征提取变换，实现复杂函数映射关系[6]，本质上是一种基于样本数据对模式进行分类的统计技术。深度神经网络通常由一组输入单元（诸如像素或单词等），多个隐藏层（包含隐藏单元，层级越多，网络越深）和一组输出单元组成，单元之间通过运行连接，学习输入输出映射之间的映射。深度神经网络是否可以学习这种映射取决于许多因素，目前为止深度学习的局限性体现在以下方面[7]：

(1)缺乏学习的数据；

(2)转移学习能力有限；

(3)没有自然处理层次结构的方法；

(4)开放式推理不够成熟；

(5)不够透明；

(6)需要与先验知识更好结合；

(7)无法从本质上区分因果关系的相关性；

(8)深度学习假设条件是世界基本稳定，其方式可能会有问题；

(9)深度学习适合作为近似，但答案往往不能完全信任；

(10)很难通过深度学习来进行强大的工程设计。

利用CGF 使用DL做决策需要评估以下问题：DL是否有可能训练在不同的情况下均表现良好CGF，DL如何影响CGF性能和训练时间，是否可以通过DL来实现规则或编程很难做到的CGF复杂行为，并且更有效[8]。

2.4.2 强化学习（Reinforcement Learning，RL）

强化学习（Reinforcement Learning）是解决序贯决策问题的方法，通过持续的“交互－试错”机制与环境不断交互学得有效策略[9]。强化学习根据是否依赖模型，分为基于模型RL和无模型RL；根据策略更新方法不同，分为基于值函数RL、基于直接策略搜索的RL等；根据回报函数是否已知，分为正向RL和逆向RL，算法框架[9]如图3所示。RL方法用于CGF战术决策问题，主要是因为RL来源于心理学中的行为主义，学习过程反映了人脑如何做出决策的反馈系统运行机理，符合指挥员面向实际问题时的经验性思维与直觉推理的一般决策过程，CGF战术行为可用MDP描述，看成在连续状态空间、离散动作空间上的多步强化学习过程，CGF与战场环境交互，在每个时间步长，CGF通过观察环境，得到状态St，而后执行动作at，环境根据at生成下一步长的St+1和rt，强化学习的任务目标就是在给定的基于MDP的CGF战术决策行为过程中寻求最优策略π*(a|s)=P(at=a|St=s)，这里的最优指的是CGF在一个战术决策轨迹上的累积回报值最大[10]。目前强化学习面临以下方面挑战[11]：

(1)许多系统不能直接训练，需要从系统行为的固定日志中离线学习策略。

(2)在训练过程中不能有单独的探索策略，从有限的样本中学习真实系统；

(3)现实世界中的许多实际问题都具有高维而连续的状态、动作空间，对传统RL算法可能会带来严重的问题。

(4)系统运行过程中，安全性非常重要，在探索性学习阶段也不能破坏安全限制；

(5)绝大部分要部署强化学习的实际系统都是部分可见的。例如，与用户交互的推荐系统，无法观察用户的心理状态。通常，这些部分可观测性表现为非平稳性或随机性。

(6)强化学习通过优化全局奖励函数来构建策略学习框架，但大多数系统都有多维度的成本需要最小化，许多情况下，优化目标是模糊的。

(7)人们需要对所拥有和操作的真实系统“意图”放心，并通过有关系统故障情况的可解释性，对故障有深入了解。

(8)为了将RL部署到生产系统中，必须在系统的控制频率下进行实时策略推理；

(9)大多数实际系统在状态感知、执行器或奖励反馈方面都存在大量未知延迟。

图3 强化学习算法框架图

2.4.3 深度强化学习（Deep Reinforcement Learning，DRL）

深度学习与强化学习的结合最早可追溯于文献[12]将Auto Encoder应用于强化学习中，解决了路径规划寻优的问题。而深度强化学习真正地开端是DeepMind在2013年NIPS会议上发表的DQN算法[13]，其直接从像素图像中学习策略来进行Atari游戏。近年来，深度强化学习的研究成为机器学习的一个重要方向。深度学习的基础是人工神经网络，是一种深层的机器学习模型，其深度体现在对特征的多次变换上[14]。基于深度神经网络强大的非线性逼近能力，深度学习与强化学习的结合解决了强化学习面临的状态动作空间维度灾难问题[13]，而且深度学习实现了端到端的学习，能够直接从原始数据的输入映射到分类或回归结果，而不再需要特征工程引入过多的人为因素，这使CGF直接能够从高维空间感知信息，并根据得到的信息训练模型、做出决策[15]。

目前，探索与利用的矛盾、奖赏信号稀疏的问题成为了目前制约强化学习性能进一步提高的关键因素，必须通过其他技术来补充达到人工智能。综上所述，四类CGF行为建模方法分析比较如表1所示：

表1 CGF行为建模方法比较

类别机制优点缺点适用

范围

基于知识、推理、规划思想采用“IF…THEN”指令形式定义领域知识，并进行知识推理经验知识表示直接，有限领域内性能较好缺乏探索及发现框架之外新知识能力战场约束条件构建

基于问题求解思想问题被视为一个整体，没有可见的内部结构，直接用算法求解问题。可同时对多个目标优化，得到全局最优解依赖随机性进行求解，不可预测；求解占用大量内存、计算资源CGF战斗实体火力、机动行为建模

基于不确定知识推理思想通过概率计算实现知识推理数学基础稳固，实现对不确定性知识的推理BN结构有时依赖于专家领域知识CGF指挥实体态势识别、战术决策行为建模

基于学习思想直接通过计算模型和算法从数据中学习规律，并对数据进行预测与决策可从复杂数据中挖掘规律动作空间、状态空间巨大，推理结果不可解释CGF指挥实体态势识别、战术决策行为建模

基于知识、推理、规划思想的方法，在CGF行为建模方面缺乏灵活性，但是经验知识表示直接，有限领域内性能较好，可用于战场约束条件构建；基于问题求解思想，实时性较差，不适合指挥实体实时决策，但这类方法或能够充分考虑对抗双方之间的相互关系，使得CGF决策更加贴近现实，或能同时对多个目标优化，得到全局最优解，故可用于CGF战斗实体火力、机动行为建模；基于不确定知识推理思想、基于学习思想的方法，对知识的推理能力强，可用于指挥实体智能决策。基于不确定知识推理思想的方法具有可解释性，数学基础稳固，但是BN结构有时依赖专家经验，无法完全准确的描述战争系统复杂的演进过程。基于学习思想的方法，能够直接从复杂数据中挖掘规律，但是推理结果不可解释，面临态动作空间维度灾难、探索与利用的矛盾、环境奖赏稀疏、时间信度分配等问题。

3 CGF相关技术发展现状

近几年，大部分学者致力于将人工智能的新技术应用于CGF战术决策行为、物理行为，国外方面，将机器学习算法[16]、部分启发式算法、马尔科夫决策模型等人工智能技术应用于CGF行为建模，取得了一些成果。国内方面，近5年学者主要致力于将动态贝叶斯网、启发式算法、马尔科夫模型方法[17]应用于CGF行为建模，近2年，有国内学者开始对深度学习、机器学习等机器学习技术在CGF中的应用进行有益探索。

3.1 指挥实体行为

国外方面，2016年，北约工作组等[18,19,20,21]使用机器学习中监督学习方法来识别数据中的决策行为规则和模式，构建了侦察分队掩护前进搜索的场景，侦察分队学会了相互掩护射击前进的策略，验证了数据驱动决策行为模型具有快捷、真实、客观的特点。2017年瑞典国防研究局Babak Toghiani-Rizi等[22]根据它们在模拟地面作战场景中控制计算机生成兵力的能力，比较了DQL、A3C-FF、A3C-LSTM三种深度学习算法，结果表明，至少有一种算法在不需要超参数搜索的情况下解决了所有的任务，深度强化学习技术具有改进当前CGF行为建模的潜力。瑞典乌普萨拉大学[8]研究了利用深度学习对CGF决策行为建模的方法，构建了分队执行突击任务的场景，最终分队突击队员学会掩护跃进，安全的通过危险区域，接受深度学习技术训练的CGF可以通过学习难以通过传统人工编程的行为来学习如何执行复杂的任务。研究结果显示，深度学习技术作为CGF行为开发的替代方法具有良好的潜力，并有可能在未来取代现有方法。

国内方面， 2017年，陆军工程大学陈希亮、张永亮[10]针对陆军分队战术决策问题，在分析深度强化学习技术优势及其解决分队战术智能决策适用性基础上，建立了基于马尔可夫决策过程的陆军分队战术智能决策模型，提出了深度学习与逆向强化学习相结合的技术解决方案，并给出了基于 DQN 的陆军分队战术决策技术框架。2018年，陆军工程大学康凯，李晨溪等[23]提出了一种基于动态贝叶斯网络的指挥实体动态决策建模方法。通过对动态决策规则的结构化描述，构建陆战场态势的动态贝叶斯网络模型，基于贝叶斯网络推理模型进行态势相关估计，实现对陆战场的实时变化态势动态分析、理解与判断。国防科学技术大学许晓、杨梅、李乐、黄科棣等[24,25]为提高CGF对复杂动态环境的适应性，将蒙特卡罗树搜索应用于CGF指挥员的行为建模，通过状态和动作抽象来构建行为树模型处理同步和持续的动作，并采用层次任务网络规划来指导搜索，提高搜索效率。

3.2 战斗实体行为

国外方面，2015年，佛罗里达大学David O. Aihe等[26,27]使用增强学习技术改进基于案例推理的战术CGF知识，使得CGF行为不再完全依赖于领域专家来提供正确和完整的领域知识。通过车辆机动的实例，与传统人工编程构建的CGF比较，发现改进后的CGF确实纠正了程序中的错误，并获得了遗漏的知识，使其比原来的CGF表现更好。由美国赖特帕特森空军基地空军研究实验室、法国泰雷兹集团、加拿大国防研究与发展局、瑞典国防研究局、挪威国防研究机构、荷兰国防部和荷兰航空航天中心、斯洛伐克武装部队研究机构、瑞典国防研究局等机构组成的北约工作组2015-2016年致力于用机器学习技术改进空战CGF工作。工作组在文献[5,28]中回顾了CGF中人工智能技术的最新进展，指出机器学习技术有益于行为建模，但这些技术并没有得到充分重视和利用。文献[29,30]应用动态脚本，输入空战行为规则，使用强化学习技术寻找最优组合生成战斗机CGF行为，结果表明该方法能够较好地实现CGF目标学习。文献[29]将强化学习技术应用于空战CGF行为建模，并根据应用场景，提出了一种新的基于行为预期结果的奖励函数。测试表明，该函数的使用显著提高了CGF在各种空战场景中的机动、火力技能。文献[30]将迁移学习技术应用于空战CGF行为建模，显著缩短CGF在相似的场景之间的学习时间。文献[31]研究了深度学习方法在空战行为训练中的应用，训练了一架飞机CGF在空战中对抗另一架手动操作的对手，结果表明CGF成功地按照目标进行学习，并认为强化学习和深度强化学习在军事仿真中的应用值得进一步研究。2017年，澳大利亚防务部队学院[32]建立的可约束的战场生命行为仿真系统，在使系统中的CGF依据个性化特征进行行为决策的同时，还引入了机器学习技术，将系统的整体目标与CGF行为规则相结合，进行更科学合理的训练评估。

国内方面，2015年，国防科学技术大学姚剑、黄其旺、王维平等[33,34]提出自适应HBM（Human Behavior Models）生成框架，将领域知识透明、可读的编码到模块中，并通过GA算法进化空战行为模型及领域知识。2016年，国防科学技术大学张奇、尹全军等[35,36]提出集成式学习框架以便提升CGF行为建模的便捷性、真实性、自适应能力，近两年，又在此框架基础上做了有益探索，如基于扩展学习行为树CGF行为建模[36]，基于改进进化算法的行为树Agent行为建模[37]，结合行为树和MAXQ学习改进CGFs行为建模[38]。空军工程大学左家亮、杨任农等[39]提出基于启发式强化学习的空战机动方法，在与外界环境动态交互过程中，采用“试错”的方式计算相对较优的空战机动序列，并采用神经网络方法对强化学习的过程进行学习，积累知识，启发后续的搜索过程，很大程度上提高了搜索效率，实现空战过程中决策序列的实时动态迭代计算。

4 研究现状总结

人工智能特别是深度学习方向研究的进展，彻底改变了传统人工智能应用程序的性能，领域学者们开始利用基于学习思想的建模技术挖掘CGF在军事训练和决策支持应用方面的真正潜力。主要原因在于传统的CGF行为建模方法一般需要人为的对环境和规则进行建模，在建模的诸多环节中引入了主观因素，这些因素的准确性和合理性在很大程度上影响着决策的质量。当前，陆军合成营成为体系对抗下联合作战的陆战基本作战单元，如何运用陆军合成营顺利完成战斗任务是目前亟待解决的现实问题。文献中对智能行为的研究取得了一些进展，然而结合军事问题研究需求，文献中还存在以下需要重点关注的问题：

(1)缺少粒度到指挥员的动态任务组织模型研究。文献中，研究人员注重了个体、群体等行为的建模，忽略了作战过程中的组织约束，因而使得决策行为不真实。合成营与传统营级作战单元的不同在于从在营一级实现了单一兵种到多兵种的高度合成，实现了“小配置、大支援”的力量编成模式，力量广域分布动态调整的配置方式成为常态，依托信息系统临机协同和自主协同时机逐渐增多。合成营各业务连指挥员配属到各任务队，特别是一些火力队、保障队于预定空间疏散隐蔽、相对均衡、不规划配置，动态调整，多维部署，灵活赋予战斗任务，需要重新考虑粒度到指挥员的陆军合成营动态任务组织模型。组织模型的建立是CGF决策行为是否真实的关键所在，必须系统地、全面地对贯穿于整个作战过程的组织行为进行建模，用于描述整个作战组织的结构及人员的组织约束。

(2)任务规划行为模型研究较少，目前使用的CGF绝大多数都没有任务规划能力。按照合成营作战流程，将任务规划决策理解为营一级接受任务后，进行态势评估、进一步战斗部署，是指挥员对作战力量的任务区分、兵力编组和配置作出的安排，合理、巧妙的作战部署对于任务的完成起着决定性作用。在体系仿真环境中，CGF主要扮演敌军、友军、我军三种角色，并且通过元素间的相互配合，共同达到试验、训练、论证等军事问题研究的目的。CGF角色的不同，其作战思想、作战原则、作战条令就会不同，进而任务规划决策也会差别很大。良好的任务规划决策模型是对军事问题研究开展体系仿真、研究敌方作战行动的第一步，遗憾的是，目前使用的CGF绝大多数都没有任务规划能力。

(3)战术决策行为模型对决策过程和问题复杂性作了许多不切实际的假设，使得动作空间，状态空间有限，作战场景、规则及其简单。在陆军分队战场环境中，场景更加真实，影响作战的因素繁多，因素之间的影响交织，例如，合成营摩步连任务是协同坦克作战，快速机动步兵分队，消灭敌方轻型装甲车辆、步兵反坦克火力点、有生力量和低空飞行目标。装有车载导弹的摩步连，还具有与敌坦克作战的能力。所以，利用摩步连的高机动性能，提升步兵敌近距离交战的能力，将兵力输送到前方，为后方兵力提供侦察视野，或携带火箭筒的士兵可以在前方下车，对敌方车辆隐蔽打击，但是，由于装甲输送车的防护能力弱，近距离火力打击能力弱，所以，前方的摩步连容易遭到敌方火力摧毁，造成车毁人亡的损失。携带车载导弹的摩步连，具有较强的远程打击能力，可将车辆布置在坦克后方有利地形上发扬远程打击能力，这同时与输送兵力的任务构成了矛盾体。加上合成营融合了战斗、支援、保障分队，被赋予多种战斗行动，考虑的因素非常之多，动作空间，状态空间，战场规则的维度爆炸使得战术决策算法在科学性、合理性、实时性面前黯然失色。

(4)机动、火力行为大部分集中在空战CGF研究，陆战CGF研究较少。地面是陆军战术分队的主战场，地形因素扮演着重要角色，需要重点考虑。例如，地形起伏所造成的坡度、比高、遮蔽程度对作战单元的机动、侦察、射击都可能造成影响。例如，密林、疏林、无植被地形对在其中行动的部队的隐蔽程度以及双方侦察效果会产生影响，密林还会对机动、射击行为产生影响；冲沟、弹坑等变形地对作战单元机动、射击、侦察造成影响。另外，天候气象是对战斗行动和武器装备使用效果产生重大影响的自然因素，需考虑昼夜、阴晴雨雪、风力、风向等。战争的复杂性、不确定性、涌现性在机动、火力决策层面体现的淋漓尽致。CGF一个重要的作用就是突破规则、专家系统的束缚，建立具有高度自治性的决策行为，分队在仿真系统模拟的真实地形中上百次的推演，将战争的复杂性尽可能的分析清楚，不确定性降到最低，并通过积累经验，有效的协同，涌现出更强的体系作战能力。

(5)LVC仿真环境中需要模拟人类真实行为水平的CGF，目前使用的CGF与人类真实水平差别很大。“L”指实兵操作实装，“V”指实兵操作模拟器装备，“C”指计算机生成兵力，文献均是在构造仿真中研究CGF。在LVC环境中， CGF与操作模拟器、实装的人员同享虚拟战场环境，共用墙上时钟，CGF决策行为水平不真实，会使战场环境缺乏真实感，训练分队缺少沉浸感。目前，作战分队在与虚拟兵力进行对抗训练过程中，CGF决策行为远远高于或低于人类真实水平，导致训练、试验效果不理想，严重影响战斗力生成。模拟人类真实训练水平的CGF有以下几层含义：一是从指挥人员到作战单元，会有训练等级的不同，训练等级较高的人员往往可以准确的捕捉战场态势，抓住战机，科学决策，而训练等级低的人员往往对战场态势不敏感，与战机失之交臂或决策失误。二是真实作战过程中，作战行为会有延迟，训练等级高的人员会迅速捕捉战机，反应速度、操作速度较快，先敌开火，首发命中，而训练等级低的人员则相对迟缓，被动挨打。以上两点是文献中没有做过研究的，另外，目前的 CGF决策模型还存在以下不足：一是决策过程过于刻板，缺乏灵活性和适应性；二是现有的决策模型过于规范，难以包括决策者个人因素对决策结果的影响，这些因素包括面临的压力、身体疲劳程度、经验和对待风险的态度；三是没有考虑决策者的知识局限性、判断问题时出现的偏见和失误。

5 结束语

人工智能主要有三大学派，分别是符号主义（Symbolicism）学派、连接主义（Connectionism）学派、行为主义（Actionism）学派，三大学派的相互融合是人工智能技术在CGF决策建模领域发展的重要方向，为提高CGF行为自治性，本文在最后，针对目前陆军合成营军事问题研究需求，提出4中CGF行为建模方法。

(1)强化学习+知识引导思想

强化学习中，状态和动作维度过高，使得CGF状态-动作空间巨大，无法遍历所有情况以及学到合理策略；在学习过程中，CGF一方面需要利用已有的经验选择获益最大的动作，另一方面扩大搜索范围，探索未知空间，寻找更优动作。环境的反馈信号具有延迟性、稀疏性，即CGF在执行多步动作之后才会获得奖赏，中间动作都没有收到反馈信号。深度学习与强化学习的结合解决了强化学习面临的状态动作空间维度灾难问题，探索与利用的矛盾、奖赏信号稀疏的问题是目前制约强化学习性能进一步提高的关键因素。知识是人类认识世界的成果与总结，在强化学习中引入知识，不仅可以提高深度强化学习的收敛速度以及CGF的探索能力，还能解决奖赏稀疏性问题。因此，将人类的知识引入至深度强化学习是解决问题的一个重要方向。将知识引入强化学习的方法有很多，例如专家在线指导、回报函数设计、启发式探索策略、模仿学习、逆向强化学习等[9]。

(2)基于神经网络+遗传算法思想

神经网络以其自身的大规模并行处理、分布式存储和自适应学习等特点，已被广泛地应用于各领域，但面对较复杂的非线性系统问题时，由于神经网络设置的初始权值依赖设计者的经验和样本空间的反复试验，容易产生收敛速度慢、网络不稳定以及陷入局部最优等一系列问题。遗传算法搜索具有全局性质，并且不要求目标函数具有连续性，因此，容易得到最优解或性能更好的次优解，用遗传算法优化神经网络理论上可以对任意非线性系统进行映射，并且得到全局最优的效果，从而形成一种更加有效的非线性反演方法。

(3)基于知识图谱+深度学习思想

知识图谱成是当前人工智能时代最为主要的知识表示形式，最大的优点是可以使得CGF的决策行为具有可解释性，能否利用知识图谱中的知识指导深度神经网络的学习从而提升模型的性能，成为当前研究的重要问题之一。基于知识图谱推理可分为基于描述逻辑的推理、基于图结构和统计规则挖掘的推理、基于知识图谱表示学习的推理、基于概率逻辑推理。将知识图谱向量化表示作为神经网络的输入，即将知识型智能体与学习型智能体融合的思路发挥知识型可信、可控、能快速吸收人类经验，又发挥学习型智能体探索空间大、发现新知识、新战法的优势。或者将知识图谱中的知识表达为深度学习的约束，对知识型智能体从知识表示与推理上进行完善，结合知识图谱、向量化表示等新技术，使知识的表示更精准、通用性更强。

(4)基于规则+强化学习思想

知识是人类认识世界的成果与总结，但在构建智能系统过程中，领域专家有时会提供不正确和/或不完整的知识；有时专家阐述正确的知识，却被知识工程师遗漏；其他情况下，领域的发展可能导致系统中知识过时。使用强化学习的方法，在作战仿真中，通过CGF迭代训练改进有缺陷的战术知识来纠正这些错误，并填补基于规则的CGF知识的空白，从而对人类的知识进行增加、修改。

前两种方法能够直接从复杂数据中挖掘规律，但是推理结果不可解释，基于强化学习+知识引导行为建模，可以在强化学习方法的基础上，加速CGF从与环境交互中学得策略的过程，可用于模拟战争的不确定性，涌现性等特征，从而训练指挥人员指挥决策，探索作战概念下战法创新；基于神经网络+遗传算法行为建模，能够弥补神经网络的不足，同时发挥遗传算法的优点，通过优化网络权值、网络结构、学习规则得到复杂非线性系统满意解，可用于CGF战斗实体火力、机动行为建模，求解机动最优路径、目标火力分配等问题。可解释性在某些军事领域是必不可少的，后两种CGF行为建模方法具有可解释性，但知识表达能力需要增强，应用于知识图谱的深度学习方法可分为三类：图神经网络和图卷积网络在内的半监督方法，图自编码器在内的非监督方法，图递归神经网络和图增强学习在内的最新方法，基于知识图谱+深度学习的行为建模，在可解释知识图谱的基础上，加入深度学习方法，增强CGF推理能力，可用于作战理论研究、作战能力评估、作战方案优化等分析仿真；基于规则+强化学习的行为建模，以CGF行为规则为输入，使用强化学习技术寻找最优组合生成CGF行为，可用于CGF战斗实体战术动作性能改进，较好地实现CGF目标学习。任何一种单独应用在CGF中的方法均存在缺点，以上方法均有优缺点，以及各自适用的最佳应用场景，将两种或两种以上的方法结合起来，针对CGF决策问题，在决策过程中继承各方法的优点，扬长避短，是CGF决策建模的发展趋势。

参考文献

本文来源于中国知网免费入口 http://www.zhimeng.org

计算机生成兵力行为建模发展现状

推荐阅读更多精彩内容