国防领域展望未来战争时,新型的AI已经成为融入军事作战能力中的最重要技术之一。美国国家安全人工智能委员会表示,与人类相比机器能够更有效、更快速地进行观察,作出决策并采取行动,无论在哪个领域这都是一种能够改变世界的竞争性优势。无数私营行业已经被这项技术颠覆,而且许多专家觉得AI会对国家安全产生类似的变革性影响。
兵棋推演,作为主要的行动方案探索和评估工具,在帮助国防领域试验整个国防活动频谱内整合人工智能能力方面,将发挥至关重要的作用。但是目前很少有兵棋可以有明显效果地将AI整合到其想定和推演中。
出现这样的一种情况的原因不是国防领域兵棋设计师因反对技术革新而全力捍卫兵棋推演最后的堡垒,而是国防领域兵棋和推演人工智能/机器学习系统的设计理念未达到统一,造成了成本、开发时间和设计灵活性方面的差异。
为克服这些困难,本文认为国防领域兵棋设计师和人工智能开发师应该借鉴软件工程领域已有的最佳实践经验,并将重点从构建大型、单一且完全替代人类参与者的人工智能,转化为开发启用人工智能的小型、多模块部件来增强人类小组的能力。
兵棋推演在国防领域行动方案分析和作战概念开发层面发挥着及其重要的作用。兵棋通常充当评估新技术对作战影响的试验平台。因此兵棋必须以足够的保真度来体现人工智能/机器学习系统,才能让对阵员了解其优势和不足。而
兵棋保真度的提高通常伴随着复杂性的相应提升。在这种情况下,对阵员--通常在推演过程中仍然需要学习,可能被无数抉择和决策弄得焦头烂额。这反过来会给对阵员增加压力,导致他们没办法通过兵棋推演得出有用见解。
人工智能/机器学习系统作为新技术,在兵棋中进行简化进而表征是一项棘手的任务。我们没办法依靠历史战斗结果数据得出战斗表现经验法则。据我们所知,目前还没有统一的建模和仿真平台能够在战斗模拟中检验真实的AI系统。同时也没有类似的能够用来评估战斗表现的系统。
如果没有这类数据,兵棋设计师将冒风险相信行业表面的承诺,这反过来可能会引起对阵员的见解无法与现实表现保持一致(研究之后发现,美国国防部兵棋推演过度从积极方面表现新型传感器的能力,造成了未来战斗系统项目最终以失败告终)。
因此,我们大家都认为人工智能项目应该收集并分享这类必要数据。但是,就当前的企业软件开发框架而言,在总系统完成设计、培训和调整,直到整个采购周期接近尾声前,我们没办法获得有关人工智能/及其学习系统的适用数据。
由于设计理念上的分歧,将AI/机器学习算法整合到兵棋推演中也存在类似的问题。兵棋旨在通过为对阵员提供战斗模拟环境,模拟人类战斗决策过程来实现评估或者研究目的。
就像彼得·波拉在《兵棋推演的艺术》一书中提到的,当人类对阵员制定决策并必须应对决策后果时,兵棋能够发挥最佳作用。与其他分析工具相比,兵棋推演的优势是可以通过对阵员体现人类决策过程。
另一方面,人工智能/机器学习试图用数字参与者代替人类参与者,或在某些情况下提供相当于国际象棋引擎的兵棋推演引擎。例如深蓝、 Alpha Go和AlphaStar项目均专注于击败大师级人类选手。确实,这类人工智能/机器学习突破了计算机决策的界限,但是开发这类系统要大量时间和成本,存在让兵棋推演偏离主要关注点的风险。
尽管替代人类参与者的高性能人工智能可能给蓝方对阵员带来挑战,但是深度神经网络或其他常见的AI算法的黑匣子特性,可能不利于分析师或者对阵员理解并学习人工智能决策。
同样,很少有数字助手可提供有趣的决策空间。就像一位同仁指出的,情况通常转化为“是否要用AI。”。如果对阵员不选择使用,那么AI不会对对阵员的决策空间产生任何影响。如果对阵员选择用AI,那么决策任务被转嫁到计算机身上,这首先降低了兵棋推演对对阵员的需求。
成本和灵活性方面的错位也同样需要我们来关注。一般而言,国防领域的兵棋或者非常灵活--允许在兵棋中和/或迭代之间进行增量更改,或者是一次性的。而AI/机器学习算法也需要足够灵活能适应兵棋规则和推演目标的变化,或者需要足够便宜以便只使用一次。但是当前的人工智能/机器算法开发不足以满足上述任何需求。
人工智能/机器学习系统在设计之初就假定其培训数据有代表性。对于替代人类参与者的人工智能,这在某种程度上预示着规则的任何改变都必须体现在种子数据中,否则人工智能/机器学习的性能将受到影响。
当然,美国国防部的一些Title 10兵棋的成本也非常高。但这主要源自让几十名对阵员和参谋聚集在一个地方数周或更长时间。而在预算有限的情况下,一款仅设计就要消耗数千万美元的兵棋可能会被扼杀在萌芽中。
有人可能建议开发能够支持任何兵棋推演的人工智能,并由美国国防部承担前期开发成本。然后依据需求调整超参数并将成本分散到多年的兵棋推演中。即使“万能”AI系统在技术上可行,作为国防项目,这种算法的开发可能需要数十年时间。鉴于美国国防部对兵棋推演兴趣的起伏不定和技术进步的快速的提升,这种方法待开发完成时可能已过时或者变得无关紧要。
“做大”当然并非是人工智能所特有的。在20世纪70年代和80年代期间,商业兵棋越来越复杂,以至于达到无法推演的程度(例如当时的“北非战役”兵棋)。这一些产品需要大量开发时间而且发行成本非常高。最终这类兵棋降级为专门兵棋,而剩余的市场转向设计更简单的兵棋。
而在20世纪80年代、90年代以及21世纪初期,美国国防部见证了大型兵棋推演的发展,这类推演涉及数百名对阵员、多种模式和多个推演级别,以及多个期望结果列表。
而其中最臭名昭著的是“千禧年挑战2002”兵棋推演。据报道,“千禧年挑战”研发耗费2年时间,耗资美国国防部2.5亿美元。它包括桌面兵棋、实时部队演习以及建模和仿真。
“千禧年挑战”旨在为美国国防部的新型作战概念提供确定性检验环境。但是,“千禧年挑战”的巨大规模意味着在任何既定步骤中只能得出一些结果,否则整个演练将可能被取消。
当红方单位在兵棋推演的公开回合中先发制人击沉大部分美国海军军队,其影响实际上被忽略,因为这会干扰计划中的实弹演练。要做到面面俱到,兵棋设计师就无法兼顾必要的灵活性以适应人类决策,因此无法为兵棋的主要目标提供依据。
近期,美国国防部的兵棋人员和赞助人已经远离1亿美元的巨型兵棋。他们现在选择专注于实现一两个目标的小型兵棋。例如,美国海军战争学院的“海上战争”采取模块化设计形式,因此在使用(或不使用)某些规则的情况下也能够实施推演。这便于裁判将兵棋的复杂程度与对阵员的熟练程度匹配到一起。从这方面讲,兵棋推演界似乎正在向多模块、目标导向型设计方向发展。