加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 背景与动机
    • 研究目标
    • 方法
    • 实验与结果
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

面向局部精细控制的面部表情生成

08/05 09:50
634
阅读需 6 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

论文 Towards Localized Fine-Grained Control for Facial Expression Generation 探讨了如何在生成面部表情图像时实现精细化和局部化控制。

所提出的方法FineFace能够对单个面部肌肉动作进行精确控制。通过结合多个动作单元(AUs),FineFace能够生成复杂且细腻的面部表情。我们基于适配器架构的方法允许通过IP-Adapter [47] 与图像提示集成。

背景与动机

生成模型的现状:生成模型(如T2I文本到图像生成模型)在生成高质量图像和视频方面取得了显著进展,并开始应用于电影和艺术作品的制作。然而,这些模型在生成具有特定属性和精确控制的图像方面仍然存在挑战,尤其是在生成面部表情时。

面部表情的重要性:面部表情在内容生成中起着关键作用,能够传达丰富的情感和意图。然而,现有的生成模型大多生成平淡的中性表情或缺乏真实性的微笑,难以生成复杂和细腻的表情,如怀疑、愤怒等。

展示了不同动作单元的选集及其强度等级。图例改编自 [44]。完整的AUs集合及其视频请参见 [30]。

研究目标

使用动作单元(AUs):提出使用动作单元(AUs)来控制面部表情生成。AUs描述了基于面部解剖学的单个面部肌肉运动,允许对面部运动的强度进行精确和局部化的控制。

生成复杂表情:通过组合不同的AUs,可以生成超越典型情感模型的复杂和真实的表情反应。

方法

FineFace方法:提出了一种基于适配器架构的方法,称为FineFace,能够与图像提示(使用IP-Adapter)无缝集成,提供精确和直观的控制。

基线方法:建立了几个基线方法,包括未进行微调的Stable Diffusion(SD)、使用prior-preservation loss微调的DreamBooth(DB)、仅训练LoRA层的LoRA-T,以及使用可学习的AU编码器将AU向量投射到clip空间的LoRA-AU。

FineFace基于文本提示和AU条件生成图像。AU条件向量首先被传递到AU编码器,然后传递到AU-Adapter。AU注意力的输出随后与现有的文本注意力相加。在这种设置下,只有AU编码器和K(键)和V(值)投影矩阵是可训练的,而其他层保持冻结状态。

实验与结果

定性结果:通过对比12个单独的AUs条件,发现FineFace方法在保持提示一致性的同时,能够准确地遵循AU条件,而其他基线方法在某些情况下表现不佳。例如,DB方法在遵循AU条件方面表现尚可,但在处理上脸部AUs(如1、2、4、5)时表现不佳,并且容易过拟合训练数据。

定量结果:通过AU MSE和CLIP-I指标进行评估,FineFace方法在AU MSE方面表现最佳,表明其在保持一致性的同时能够有效地应用AU条件。分布平滑技术显著改善了CLIP-I指标,特别是在训练期间未见过的分布外情况中。

分布平滑:引入了分布平滑技术,显著改善了CLIP-I指标,特别是在训练期间未见过的分布外情况中。

对比不同方法在12个单独AUs条件下生成的图像,使用的提示为“巴拉克·奥巴马的特写”。AUs的文字描述见图2。

贡献与未来工作

贡献:提出了使用AUs作为条件信号来控制生成内容中的面部表情,展示了FineFace方法在定性和定量研究中的能力。FineFace方法能够在保持基础扩散模型能力的同时,提供精确的面部表情控制。

未来工作:计划开发改进的解决方案,以应对连续多标签AUs的问题,并扩展到高度控制的面部图像编辑。

相关信息

代码:https://github.com/tvaranka/fineface

论文:https://arxiv.org/abs/2407.20175v1

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F405RGT6V 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator

ECAD模型

下载ECAD模型
$12.92 查看
DSP56F803BU80E 1 NXP Semiconductors 16-BIT, 80MHz, OTHER DSP, PQFP100

ECAD模型

下载ECAD模型
$13.78 查看
ATXMEGA256A3U-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64

ECAD模型

下载ECAD模型
$6.75 查看

相关推荐

电子产业图谱