跳转至

[NSM] Neural State Machine for Character-Scene Interactions

约 1434 个字 预计阅读时间 7 分钟

3DV Human-Motion Scene-Aware

文章信息


论文笔记


概述

NSM 提出一种新的目标导向自回归模型来解决人体动作生成问题,能实现表现良好的坐、持物、避障的行为。该问题主要难点在于,完成一项任务所需要生成的动作序列中包含周期性和非周期性的部分,并且需要对周围环境进行感知。通过使用二维相位表示的 Kronecker 乘积、一种双向控制(目标中心和自我中心)规则、交互体素传感器和环境体素传感器等技术来增强效果,更宏观的说,NSM 使用了一种目标驱动的模型来实现效果良好的动作生成。


方法

整个任务可以划分为两个部分,第一部分是寻路至目标,要求代理人能够自然规避障碍并找到目标并且最终面朝目标,这一部分主要的难点就是需要能够对环境进行感知,为此 NSM 团队选择了体素表达,并设计了环境体素传感器——其范围覆盖以代理人为中心的一个圆柱形区域,区域内的所有具有体素的物体都会被球形采样为一个 0~1 和之间的值,如论文中 Fig5。而这些值被称为环境输入,在模型的 pipeline 中作为输入。环境输入有效增加代理人对环境的理解能力,改善了诸如与目标交互时从背后穿透椅子坐下的这种问题,如 Fig14。此外,NSM 团队学习了 PFNN,使用 phase 来实现状态机,但创新性的使用了标注离散特定相位(如行走时左脚落地被标注为 \(2k\pi\),右脚落地被标注为 \((2k+1)\pi\),而中间过程通过插值计算),通过网络学习插值相位的形式,解决了 PFNN 中先验相位带来的,代理人趋向于不行动的缺点。而在寻找目标时,传统的单向表达容易产生误差累计,导致最终目标定位偏移,NSM 团队使用目标中心、自我中心双向表达,显著改善了该问题,实验效果如 Fig11 上图。

第二部分需要代理人能够自然的和目标进行交互,如在椅子上坐下、打开门、穿过墙上的洞。这需要代理人对交互目标具有精确的感知,与环境体素传感器类似,NSM 也提出了交互体素传感器,为了提高精度,体素传感器以 8x8x8 的体素为单位,同样采样为 0~1 之间的值,被作为模型的一部分输入。

整体模型使用了 MoE 技术,即多专家模型,通过 Gating Networks 来计算其混合权重,其输入主要为当前的动作标签和二维相位(以解决一维相位带来的不可微的问题)。模型预测网络分为编码模块和预测模块两部分,模型输入包含四个部分:关于代理人的当前帧(和窗口内附近帧)的信息、目标信息(位置、朝向、交互动作标签)以及先前提到的环境输入和交互输入。将输出预测后的代理人动作信息、行动轨迹信息、相位信息、交互接触点信息等。而这样的设计给了模型良好的在两种用户操作模式(手动控制移动方向和只指定交互目标)之间切换的能力,只需要改变目标输入的定义即可无缝衔接。


实验效果与和相关工作的对比

这种设计通过了实验验证,在 NSM 团队设计的一种特殊情况下表现良好——坐上一张半插进桌子的椅子。并且在与其他模型的对比中,在响应时间、滑步(不自然的走动)表现、位置精度、旋转精度等方面总体表现良好,几乎完全超过了以往的同类工作,文章也对表现良好的原因进行了一些分析。

LSTM 模型通过生成大量短片段的动作来增强数据,而实际也是通过将过程从这些片段中学习的内容进行组合实现,因此扩展性较差,不适合运动数据不够充分的情况。

而与 PFNN 相比,NSM 限制更少,因为 PFNN 的先验的外部 phase 控制机制让它无法很好的解决对非周期性动作生成。

而 MANN 虽然相应速度快,但存在更明显的滑步现象,并且在控制模式变化的时候动作十分僵硬,而正是因为动作僵硬而代理人的根部移动仍然存在,才出现了更明显的滑步现象。


数据增强

此外,为了增强模型的可扩展性和适应性,NSM 团队也提出了一种新的数据增强方案。构建场景后采集一系列场景交互动作,并通过镜像来增加数据体量,人工标记动作标签和相位标签。接下来通过数据增强系统来增强数据。

具体来说,就是使用 ShapeNet 数据集中符合模型的物体不断替换训练物体,并进行变换,同时要注意更新接触点和交互方向等。以此在训练过程中提高模型范用性。


最后更新: 2024年1月13日 19:00:24
创建日期: 2024年1月13日 19:00:24

评论