网捷达

ICCV`25 | 视频交互“随心所欲”！复旦&通义万相等开源DreamRelation:让想象力从此无边界

2025-11-28 16:11

AI生成未来

关注

作者：Yujie Wei等

解读：AI生成未来

亮点直击

首个关系导向的视频定制框架：本工作首次尝试解决“关系视频定制”任务，即基于少量样本视频，生成具有特定交互关系（如握手、拥抱）但主体不同的新视频。

可解释的模型设计：通过深入分析 MM-DiT 架构中 Query (Q)、Key (K) 和 Value (V) 的特征，发现了它们在关系与外观表征上的不同作用，并据此设计了最优的 LoRA 注入策略。

创新的解耦与增强机制：提出了“关系 LoRA 三元组”（Relation LoRA Triplet）和“混合掩码训练策略”来解耦关系与外观；提出了“时空关系对比损失”来增强动态关系的建模。

解决的问题

现有的视频生成和定制方法主要集中在主体外观（Subject Appearance）或单物体运动（Single-object Motion）的定制上。然而，这些方法在处理 复杂的交互关系（如两个主体之间的互动）时面临巨大挑战：

复杂性：关系包含复杂的空间排列、布局变化和细微的时间动态。

纠缠问题：现有模型往往过度关注无关的视觉细节（如衣服、背景），而无法准确捕捉核心的交互逻辑。

泛化性差：通用文生视频模型（如 Mochi）即使有详细的提示词，也难以生成反直觉的交互（例如“熊拥抱老虎”）。图 2. (a) 即使有详细描述，Mochi等一般视频 DiT 模型也往往难以生成非常规或反直觉的交互关系。(b) 我们的方法可以根据特定关系生成新主题的视频。

图 2. (a) 即使有详细描述，Mochi等一般视频 DiT 模型也往往难以生成非常规或反直觉的交互关系。(b) 我们的方法可以根据特定关系生成新主题的视频。

提出的方案

本工作提出了 DreamRelation，通过两个并发过程来解决上述问题：

关系解耦学习（Relational Decoupling Learning）：利用设计的“关系 LoRA 三元组”将关系信息与主体外观信息分离。通过分析 MM-DiT 的注意力机制，确定了 LoRA 组件的最佳放置位置。

关系动态增强（Relational Dynamics Enhancement）：引入“时空关系对比损失”，通过拉近同类关系的动态特征并推远单帧外观特征，强制模型关注关系动态而非静态外观。

应用的技术

MM-DiT 架构：基于 Mochi（一种非对称扩散 Transformer）作为基础模型。

Relation LoRA Triplet：一组复合 LoRA，包括用于捕捉关系的 Relation LoRAs（注入 Q 和 K 矩阵）和用于捕捉外观的 Subject LoRAs（注入 V 矩阵）。

Hybrid Mask Training (HMT) ：利用 Grounding DINO 和 SAM 生成掩码，指导不同 LoRA 关注特定区域。

Space-Time Relational Contrastive Loss (RCL) ：一种基于 InfoNCE 的对比损失函数，利用帧差分提取动态特征。

达到的效果

定性效果：能够生成具有特定交互关系的视频，并成功泛化到新颖的主体（如“动物模仿人类交互”），且背景泄露更少，关系表达更准确。

定量指标：在构建的包含 26 种人类交互的数据集上，DreamRelation 在关系准确度（Relation Accuracy）、文本对齐度（CLIP-T）和视频质量（FVD）方面均优于现有最先进方法（包括 Mochi 原生模型、MotionInversion 等）。

用户评价：在人工评估中，DreamRelation 在关系对齐、文本对齐和整体质量上均获得了最高的用户偏好。

DreamRelation 架构方法

本工作旨在根据少量样本视频中表达的指定关系，生成符合文本提示且包含该关系的视频，如图 4 所示。

图 4.DreamRelation 的整体框架。我们的方法将关系视频定制分解为两个并发过程。(1) 在关系解耦学习中，关系 LoRA 三元组中的关系 LoRA 捕捉关系信息，而主体 LoRA 则侧重于主体外观。这一解耦过程由基于相应掩码的混合掩码训练策略指导。(2) 在关系动态增强中，所提出的时空关系对比损失将关系动态特征（锚特征和正特征）从成对差异中拉近，同时将其从单帧输出的外观特征（负特征）中推开。在推理过程中，主体 LoRA 会被排除，以防止引入不希望出现的表象并增强泛化效果。

视频 DiT 预备知识

由于文本到视频扩散 Transformer（DiTs）能够生成高保真、多样化且长时长的视频，其受到的关注日益增加。当前的视频 DiTs（如 Mochi, CogVideoX）主要采用带有全注意力机制（Full Attention）的 MM-DiT 架构，并在 3D VAE 的潜在空间中执行扩散过程。给定潜在代码（源自视频数据）及其文本提示，优化过程定义为：

其中是来自高斯分布的随机噪声，是基于和预定义噪声调度在时间步的噪声潜在代码。本工作选择 Mochi 作为基础视频 DiT 模型。

关系解耦学习

关系 LoRA 三元组 (Relation LoRA triplet)为了定制主体之间复杂的关系，本工作将样本视频中的关系模式分解为强调主体外观和关系的独立组件。形式上，给定展示两个主体互动的少量视频，将其关系模式表示为一个三元组主体关系主体，简记为，其中和是两个主体，是关系。

为了区分关系模式中的关系与主体外观，本工作引入了 关系 LoRA 三元组，这是一组复合 LoRA 集合，包含用于建模关系信息的 Relation LoRAs 和两个用于捕捉外观信息的 Subject LoRAs（如图 4 所示）。具体而言，本工作将 Relation LoRAs 注入到 MM-DiT 全注意力的 Query (Q) 和 Key (K) 矩阵中。同时，设计了两个对应于关系中涉及的两个主体的 Subject LoRAs，并将它们注入到 Value (V) 矩阵中。这一设计通过实证发现得到了支撑：Q、K 和 V 矩阵在 MM-DiT 全注意力中扮演着不同的角色。此外，还设计了一个 FFN LoRA 来优化 Relation 和 Subject LoRAs 的输出，并将其注入到全注意力的线性层中。需要注意的是，MM-DiT 中的文本和视觉 Token 分支由不同的 LoRA 组处理。

混合掩码训练策略 (Hybrid mask training strategy)为了实现关系 LoRA 三元组中关系与外观信息的解耦，本工作提出了混合掩码训练策略（HMT），利用相应的掩码引导 Relation 和 Subject LoRAs 关注指定区域。首先使用 Grounding DINO 和 SAM 提取视频中两个个体的掩码，标记为主体掩码和。受代表性关系检测方法的启发（这些方法利用最小外接矩形来描绘主体-客体交互区域），本工作将关系掩码定义为两个主体掩码的并集，以指示关系区域。由于视频 DiT 中的 3D VAE 在时间维度上进行了因子的压缩，因此对每帧的掩码进行平均以表示潜在掩码。

随后，本工作设计了 LoRA 选择策略和基于掩码的增强扩散损失，以便在训练期间更好地进行解耦。具体来说，在每次训练迭代中，随机选择 更新 Relation LoRAs 或其中一种 Subject LoRAs。当选择 Relation LoRAs 时，两个 Subject LoRAs 会同时进行训练以提供外观线索，协助 Relation LoRAs 专注于关系信息。这一过程促进了关系与外观信息的解耦。FFN LoRAs 在整个训练过程中始终参与，以优化所选 Relation 或 Subject LoRAs 的输出。

在 LoRA 选择之后，应用相应的掩码来放大关注区域内的损失权重，定义如下：

其中指示所选的掩码类型，是掩码权重。通过采用 LoRA 选择策略和增强扩散损失，鼓励 Relation 和 Subject LoRAs 专注于其指定区域，从而促进有效的关系定制并提高泛化能力。

推理阶段 (Inference)在推理过程中，为了防止引入不期望的外观并增强泛化能力，本工作 排除 Subject LoRAs，仅将 Relation LoRAs 和 FFN LoRAs 注入到基础视频 DiT 中，以保持学习到的关系。

关于 Query、Key 和 Value 特征的分析

为了确定最佳的模型设计，本文通过可视化和奇异值分解（SVD）分析了 MM-DiT 全注意力机制（full attention）中的 query、key 和 value 特征及矩阵，揭示了它们对关系视频定制化的影响。

可视化分析。本文从两类视频入手：一个包含多种属性的单主体视频，以及一个双主体交互视频，如图 5(a) 所示。本文计算了第 60 时间步所有层和注意力头中与视觉 token 相关的 query、key 和 value 的平均特征。随后将这些特征重塑为的格式，并将所有帧的特征进行平均，以可视化形状为的特征图。基于图 5(a) 的观察，本文得出两个结论：

1) 不同视频中的 Value 特征包含了丰富的“外观信息”，而“关系信息”往往与这些外观线索交织在一起。 例如，在单主体视频中，高 Value 特征响应出现在“蓝色眼镜”和“生日帽”等位置。在双主体视频中，在关系区域（如握手）和外观区域（如人脸和衣物）均观察到了高数值，这表明关系信息与外观信息在特征中是纠缠在一起的。

2) Query 和 Key 特征表现出高度抽象但相似的模式，与 Value 特征截然不同。 与 Value 特征中明显的外观信息不同，Query 和 Key 特征在不同视频间表现出同质性（homogeneity），明显区别于 Value 特征。为了进一步验证这一观点，本文从定量角度对 query、key 和 value 矩阵进行了分析。

子空间相似度分析。本文进一步分析了由基础视频 DiT 模型 Mochi 的 query、key 和 value 矩阵权重及其奇异向量所张成的子空间的相似度。这种相似度反映了两个矩阵所包含信息的重叠程度。对于 query 和 key 矩阵，本文应用奇异值分解获得左奇异酉矩阵和。遵循文献 [32, 52]，本文选取和的前个奇异向量，并基于 Grassmann 距离测量它们的归一化子空间相似度，计算公式为。其他相似度的计算方式与之类似。图 5(b) 中的结果表明，query 和 key 矩阵的子空间高度相似，而它们与 value 矩阵的相似度极低。这表明 MM-DiT 中的 query 和 key 矩阵共享更多的公共信息，同时在很大程度上保持与 value 矩阵的独立性。换言之，query 和 key 矩阵与 value 矩阵表现出强烈的非重叠（non-overlapping）关系，这有利于解耦学习的设计。这一观察结果与图 5(a) 中的可视化结果一致。为了进一步验证该发现的泛化性，本文对多种模型进行了类似分析，例如 HunyuanVideo 和 Wan2.1。图 5(b) 的结果表明，query 和 key 矩阵之间较高的相似度在不同的 MM-DiT 模型和其他 DiT 架构（如基于交叉注意力的 DiT）中是一致存在的。

基于这些观察，本文从经验上认为 query、key 和 value 矩阵在关系视频定制化任务中扮演着不同的角色，这也是本文设计 Relation LoRA triplet（关系 LoRA 三元组） 的动机。具体而言，鉴于 value 特征富含外观信息，本文将 Subject LoRAs（主体 LoRA） 注入 value 矩阵，以专注于学习外观。相比之下，由于在 query 和 key 特征中观察到的同质性及其与 value 矩阵的非重叠性质有利于解耦学习，本文将 Relation LoRAs（关系 LoRA） 同时注入 query 和 key 矩阵，以将关系从外观中解耦出来。表 3 中的结果证实了本文的分析，显示该设计实现了最佳性能。本文相信这些发现能够推动基于 DiT 架构的视频定制化研究。

关系动态增强

为了显式地增强关系动态的学习，本文提出了一种新颖的 时空关系对比损失 (Space-time Relational Contrastive Loss, RCL) ，该损失在训练过程中强调关系动态，同时减少对细节外观的关注。具体而言，在每个时间步，本文计算模型输出沿帧维度的成对差分（pairwise differences），记为。然后，通过在空间维度上对这些差分进行平均来减少对像素级信息的依赖，从而得到一维关系动态特征，将其作为锚点特征（anchor features）。

随后，本文从表现相同关系的其他视频中采样个一维关系动态特征作为正样本。对于中的每一帧，本文从单帧模型输出中采样个一维特征作为负样本，这些特征捕获了外观信息但排除了关系动态。

本文的目标是学习包含关系动态的表征，方法是将描绘相同关系的不同视频的成对差分拉近，同时将它们推离单帧输出的空间特征，以减轻外观和背景的泄露。遵循 InfoNCE损失，本文将提出的损失公式化为：

其中是温度超参数。

此外，本文维护一个记忆库来存储和更新正负样本，这些样本均随机选自当前批次视频和先前见过的视频的 1D 特征。这种在线动态更新策略可以扩充正负样本的数量，增强对比学习的效果和训练稳定性。在每次迭代中，本文将当前所有的锚点特征和的 1D 特征存入。记忆库采用先进先出（First In, First Out）队列实现。

总体而言，训练损失由重建损失和对比学习损失组成，定义如下：

其中是损失平衡权重。

实验

实验设置

数据集：从 NTU RGB+D 动作识别数据集中筛选了 26 种人类交互关系（如握手、拥抱）。

评估方案：设计了 40 个包含不同寻常主体交互（例如“狗与猫握手”）的文本提示，以评估模型向新领域的泛化能力。

基线模型：

Mochi（基础模型）。

直接 LoRA 微调（Direct LoRA finetuning）。

ReVersion（针对视频任务复现/调整的关系图像定制方法）。MotionInversion（针对 Mochi 架构调整的运动定制方法）。

评估指标：

关系准确度：利用先进的 VLM (Qwen-VL-Max) 判断生成视频是否符合指定关系。

文本对齐：计算图像-文本相似度。

时间一致性。视频质量(FVD) 。

实验结果

定量比较：DreamRelation 在所有指标上均优于基线方法。特别是关系准确度达到 44.52%，显著高于 MotionInversion (31.51%) 和 ReVersion (27.14%)。FVD 分数最低（越低越好），表明视频质量最佳。

定性比较：Mochi 和 ReVersion 往往生成静态场景或错误的交互，且经常出现严重的主体外观混淆。MotionInversion 存在明显的背景和外观泄露问题。DreamRelation 能够生成自然、准确的交互，并且成功将关系迁移到完全不同的主体（如动物）上。

注意力图可视化：DreamRelation 的注意力图清晰地聚焦于交互区域（如手部接触点），而基础模型的注意力图则较为杂乱。

用户研究：15 位评估者对 180 组视频进行盲测，结果显示 DreamRelation 在关系对齐、文本对齐和整体质量上均最受用户青睐。

消融实验

组件有效性：移除混合掩码训练策略 (HMT) 会导致背景泄露；移除时空关系对比损失 (RCL) 会降低关系准确度。两者结合效果最好。

LoRA 位置：实验证实，将 Relation LoRAs 放置在 Q 和 K 矩阵中效果最好。若放在 V 矩阵中，准确度显著下降，证实了 V 矩阵主要包含外观信息的假设。

RCL 的通用性：将 RCL 应用于 MotionInversion 方法中，也能提升其性能，证明了该损失函数的通用价值。

结论

DreamRelation，一种新颖的关系视频定制方法，该方法通过利用少量的样本视频，能够准确地建模复杂的关系并将其泛化到新的主体上。通过基于 MM-DiT 架构的分析，本工作揭示了 Query、Key 和 Value 矩阵的不同角色，从而指导了 关系 LoRA 三元组 (Relation LoRA triplet) 的设计，以实现关系和外观的解耦。此外，本工作引入了 **时空关系对比损失 (Space-Time Relational Contrastive Loss)**，通过强调关系动态来增强对关系的理解。广泛的实验结果证明了本工作所提方法的优越性。本工作希望 DreamRelation 能为理解和生成复杂的现实世界交互提供有价值的见解。

参考文献

[1] DreamRelation: Relation-Centric Video Customization

原文标题 : ICCV`25 | 视频交互“随心所欲”！复旦&通义万相等开源DreamRelation:让想象力从此无边界