[Nature 2025] World and Human Action Models towards gameplay ideation

一、总结

  1. 任务介绍:
    • 本文介绍了一个名为 World and Human Action Model (WHAM) 的生成模型,旨在通过生成一致且多样化的游戏玩法序列来支持游戏开发中的创意构思。该模型通过学习人类游戏数据来预测游戏视觉和玩家的控制器动作,从而生成符合游戏物理和机制的连贯游戏场景
  2. 解决什么问题:
    • 现有的生成式 AI 模型在支持创意实践方面存在局限性,尤其是在游戏开发中,这些模型往往无法充分支持发散性思维和迭代实践。WHAM 旨在解决这些问题,通过生成一致、多样且能够持久化用户修改的游戏玩法序列,来更好地支持创意构思。
  3. 最朴素的做法:
    • 传统的做法是手动定义或提取特定领域的结构,以支持创意工具的开发。这种方法通常需要大量的手动工作,并且难以扩展到更广泛的应用场景。
  4. 本文的做法:
    • 本文提出了 WHAM 模型,该模型基于 Transformer 架构,通过学习人类游戏数据来生成游戏视觉和控制器动作。WHAM 能够生成一致且多样化的游戏玩法序列,并能够持久化用户修改。这种方法不需要手动定义结构,而是从数据中自动学习相关结构,从而支持更广泛的应用。
  5. 发现(Findings)和洞察(Insights):
    • 发现:
      • WHAM 能够生成与人类游戏玩法高度一致的序列,这通过 Fréchet Video Distance (FVD) 评估得到验证。
      • WHAM 生成的游戏玩法序列在行为和视觉上具有多样性,这通过 Wasserstein 距离评估得到验证。
      • WHAM 能够在一定程度上持久化用户修改的游戏元素,例如插入的游戏对象、角色和地图元素。
    • 洞察:
      • 生成式 AI 模型可以通过学习复杂数据结构来支持创意实践,而不需要手动定义这些结构。
      • 一致性和多样性是支持创意构思的关键能力,而持久化用户修改则进一步增强了模型的实用性。
      • 通过适当的模型架构和训练数据,生成式 AI 模型可以生成符合游戏物理和机制的连贯游戏场景。
  6. 有没有更好的解决方法?有没有其他需要解决的问题?能不能扩展到其他任务?:
    • 更好的解决方法:
      • 本文的方法已经展示了生成式 AI 在支持创意构思方面的潜力,但仍有改进空间。例如,可以进一步优化模型以提高生成内容的质量和多样性,或者开发更高效的训练方法以减少计算资源的需求。
    • 其他需要解决的问题:
      • 尽管 WHAM 能够生成一致且多样化的游戏玩法序列,但在某些情况下,模型可能仍然无法完全理解游戏的复杂机制,导致生成的内容不够准确或合理。
      • 模型的持久化能力虽然有所提高,但在某些特定情况下,用户修改的元素可能仍然难以持久化,需要进一步研究如何提高模型的适应性和灵活性。
    • 扩展到其他任务:
      • WHAM 的方法可以扩展到其他需要生成复杂结构和行为的任务,例如电影制作、建筑设计或音乐创作。通过学习相关领域的数据,生成式 AI 模型可以生成符合特定规则和机制的内容,从而支持更广泛的创意实践。

二、方法和实验

模型结构和数据

模型设计与三种能力相关:(1)一致性,通过序列模型准确预测出游戏画面和控制器动作之间的依赖关系,(2)多样性,能够生成保存画面和控制器动作序列条件分布的数据,(3)持续性,预测模型可以将(修改的)图像/控制器动作为条件提供持续性。如图2所示,模型采用Transformer作为基架。通过VQGAN编码器将图像编码为token序列,对于Xbox控制器操作,虽然按钮本身是离散的,但是实际将左右操纵杆的x和y坐标分为11个桶。然后,训练一个只有解码器的Transformer(GPT)来预测交织图像和控制器动作序列中的下一个token。训练完的模型通过自回归采样下个token生成新序列,在生成过程中允许直接修改图片和动作,这是持续性的前提。与游戏工作室Ninja Theory及其游戏《Bleeding Edge》(一款3D、4v4多人战斗视频游戏)合作,渲染制作人类游戏视频。从所有七张Bleeding Edge地图上的大约500000场匿名游戏(连续游戏超过7年)中提取了数据。同时,将完整数据集过滤为仅在Skygarden地图上的1年匿名游戏,称为Skygarden数据集。最大的WHAM模型使用1.6B参数的Transformer,上下文长度为1秒,图片为300X180分辨率被分为540个token。

模型评估

通过Fréchet Video Distance (FVD)评估一致性,随着模型大小增加,计算量增加,FVD逐步降低。通过Wasserstein距离来评估多样性,将实际人类行为的边际分布与模型生成的边际分布进行了比较。Wasserstein距离越低,模型的生成就越接近人类玩家在我们的数据集中采取的行动。

1.6B模型多样性差于894M模型,原因可能是使用了更多的图像token和vocabulary size,如果增加动作损失权重,效果会有提升。图 4b 提供了对多样性的定性评估。以单个真实游戏游戏玩序列为条件,使用 1.6B WHAM 生成三种可能的未来,表明该模型可以生成一系列行为和视觉多样化的游戏玩序列。

持续性旨在让创意人员控制生成的输出,从而实现迭代调整。该模型应该足够灵活,允许创造性用户修改游戏状态,将这些变化吸收到生成的环境中。通过在合理的位置插入新的不同的元素(游戏对象、玩家、地图元素)来评估持续性。对于每个元素和位置,使用1.6B WHAM生成十张图像,即一个1秒的视频,以一张或五张更改后的图像为条件,手动检查并标记每个元素是否存在于生成的视频中。

表1显示了被正确注入到游戏中元素所占比例。当对五张编辑过的图像而不是一张进行调节时,WHAM的持久性大大提高,所有元素类型的持久性都达到85%或更高。用户可以选择一组起始帧来“提示”模型,从而实现视觉提示而不是基于语言的提示。然后,WHAM生成了游戏如何发展的潜在游戏序列的许多分支,通过多样化的选项支持发散思维。可以选择任何分支或帧来开始(重新)生成下一帧,包括返回和更改之前的选择,以支持上述参与者提到的迭代融合。为了实现迭代,用户可以修改任何生成的帧,例如通过添加对手角色或提供输入控制器数据,以影响下一个生成的序列。