b体育官网.震撼！AI实时生成游戏每秒20帧输出DeepMind扩散模型最新突破一夜爆火

　　我觉得人们还没有意识到这有多疯狂。我是一名开发人员，专门负责将生成式AI集成到游戏引擎中，所以我很清楚我在说什么。

　　这是构建虚拟事物的基础。未来它或许能够普及到它能够获取数据的任何视频游戏，随后，可能还能为尚未存在的游戏生成数据，创造新游戏。

　　这对我来说是一个个人里程碑，也是从手工编写在GPU上运行的显式渲染代码到训练同样在GPU上运行的神经网络的完整回环，感觉了。

　　首先，训练一个强化学习Agent来玩游戏，并记录过程中所有动作、技能和观察数据。这些记录成为第二阶段的训练数据集。

　　为生成尽可能贴近人类游戏行为的训练数据，研究人员设计了一个简单的、特定于环境的奖励函数，根据一系列特定的游戏情况来分配分数，条件包括：

　　在第二阶段，基于预训练的Stable Diffusion v1.4来预测下一帧，模型以过去的帧序列和动作作为条件输入，并进行了一些关键修改。

　　具体来说，首先移除了所有文本条件，替换为动作序列。每个动作被编码为一个单一的token，通过交叉注意力机制与模型交互。

　　在训练时，模型对输入的上下文帧添加不同程度的高斯噪声，并将噪声级别作为额外输入提供给模型。这使得模型能够学习纠正之前采样中的错误，对维持长时间序列的图像质量至关重要。

　　此外，为了提高图像质量，特别是在细节和HUD（平视显示器）方面，研究者对Stable Diffusion的预训练自编码器的部分进行了微调。这个过程使用MSE损失，针对目标帧像素进行优化。

　　在推理阶段，GameNGen使用DDIM采样方法，并采用了无分类器引导技术，但仅用于过去观察的条件。研究者发现，对过去动作条件使用引导并不能提高质量。

　　通过使用4步采样和单次自编码器评估，系统能够达到每秒20帧的生成速度，足以实现实时交互式游戏体验。

　　研究人员使用了两种主要的图像质量评估方法：基于感知的图像相似度度量方法LPIPS和衡量图像质量的常用指标PSNR。

　　换句话说，GameNGen在模拟图像时能够在一定程度上保持较高的视觉质量，尽管可能存在一些压缩带来的细节损失。

　　视频质量方面，对于长度为16 帧（0.8 秒）和32帧（1.6 秒）的模拟，FVD分别为114.02、186.23。

　　在人类评估方面，研究人员为10 名人类评估者提供了130个随机短片段（1.6秒和3.2 秒的长度），并将模拟与真实游戏并排展示。

　　动作条件化的世界模型已更进一步！神经网络模拟在扩展实际交互数据方面具有巨大潜力，特别是在物理模拟器表现不佳的领域。

　　游戏引擎是一个让一群人创造东西的工具，它将继续存在，特别是与任何集成的超级AI共存。显然，今天的游戏引擎已经过时，但我们已经在构建下一代引擎了。

　　虽然我认为这些由扩散模型实时生成的帧最终会改变我们体验游戏的方式，但我仍然认为专业开发者需要一个3D场景图来进行触感控制和创造性表达。

　　开发者可能会使用更传统的3D创作引擎创建游戏的“灰盒”版本，然后一个图像到图像的模型实时提升分辨率（类似于英伟达的DLSS技术）。

　　未来，消费者将能体验从文本直接创造游戏或虚拟世界的全新方式。但在我看来，专业工作流程中仍然会有3D场景图的一席之地。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

必一sport网页版登录

ASTRONVA数据采集器