张昊,伊利诺伊大学香槟分校(UIUC)博士生,研究方向涵盖 3D/4D 重建、生成建模与物理驱动动画。目前在 Snap Inc. 担任研究实习生,曾于 Stability AI 和 上海人工智能实验室实习。本项目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 与 UIUC 联合完成,能够从单目视频生成时空一致的多视角 RGB 与运动学部件序列,并进一步提升为可绑定的三维资产。个人主页:https://haoz19.github.io/

研究背景与动机


【资料图】

在角色动画和 3D 内容制作中,rigging(骨骼绑定)与部件分解是实现可动画化资产的核心。然而,现有方法存在明显局限:

为此,我们提出核心动机:利用大规模 2D 数据和预训练扩散模型的强大先验知识,来解决运动学部件分解的问题,并进一步延伸到自动 rigging。 这一思路能够突破 3D 数据稀缺的瓶颈,让 AI 真正学会生成符合物理运动规律的 3D 可动画资产。

研究方法与创新

基于这一动机,我们提出了 Stable Part Diffusion 4D (SP4D) —— 首个面向运动学部件分解的多视角视频扩散框架。主要创新包括:

这一框架不仅能生成时空一致的部件分解,还能将结果提升为 可绑定的 3D 网格,推导骨骼结构与蒙皮权重,直接应用于动画制作。

实验结果

在 KinematicParts20K 验证集上,SP4D 相较现有方法取得了显著提升:

在 自动 rigging 任务中,SP4D 也展现出更强的潜力:

这些结果充分证明了 2D 先验驱动的思路 不仅能解决 kinematic part segmentation 的长期难题,还能有效延伸到自动 rigging,推动动画与 3D 资产生成的全自动化。

结语

Stable Part Diffusion 4D (SP4D) 不仅是技术上的突破,也是一次跨学科合作的成果,并且被Neurips 2025 接受为 Spotlight。它展示了如何利用大规模 2D 先验打开 3D 运动学建模与自动 rigging 的新局面,为动画、游戏、AR/VR、机器人模拟等领域的自动化与智能化奠定了基础。

推荐内容