面向局部精细控制的面部表情生成

论文 Towards Localized Fine-Grained Control for Facial Expression Generation 探讨了如何在生成面部表情图像时实现精细化和局部化控制。

所提出的方法FineFace能够对单个面部肌肉动作进行精确控制。通过结合多个动作单元（AUs），FineFace能够生成复杂且细腻的面部表情。我们基于适配器架构的方法允许通过IP-Adapter [47] 与图像提示集成。

背景与动机

生成模型的现状：生成模型（如T2I文本到图像生成模型）在生成高质量图像和视频方面取得了显著进展，并开始应用于电影和艺术作品的制作。然而，这些模型在生成具有特定属性和精确控制的图像方面仍然存在挑战，尤其是在生成面部表情时。

面部表情的重要性：面部表情在内容生成中起着关键作用，能够传达丰富的情感和意图。然而，现有的生成模型大多生成平淡的中性表情或缺乏真实性的微笑，难以生成复杂和细腻的表情，如怀疑、愤怒等。

展示了不同动作单元的选集及其强度等级。图例改编自 [44]。完整的AUs集合及其视频请参见 [30]。

使用动作单元（AUs）：提出使用动作单元（AUs）来控制面部表情生成。AUs描述了基于面部解剖学的单个面部肌肉运动，允许对面部运动的强度进行精确和局部化的控制。

生成复杂表情：通过组合不同的AUs，可以生成超越典型情感模型的复杂和真实的表情反应。

FineFace方法：提出了一种基于适配器架构的方法，称为FineFace，能够与图像提示（使用IP-Adapter）无缝集成，提供精确和直观的控制。

基线方法：建立了几个基线方法，包括未进行微调的Stable Diffusion（SD）、使用prior-preservation loss微调的DreamBooth（DB）、仅训练LoRA层的LoRA-T，以及使用可学习的AU编码器将AU向量投射到clip空间的LoRA-AU。

FineFace基于文本提示和AU条件生成图像。AU条件向量首先被传递到AU编码器，然后传递到AU-Adapter。AU注意力的输出随后与现有的文本注意力相加。在这种设置下，只有AU编码器和K（键）和V（值）投影矩阵是可训练的，而其他层保持冻结状态。

定性结果：通过对比12个单独的AUs条件，发现FineFace方法在保持提示一致性的同时，能够准确地遵循AU条件，而其他基线方法在某些情况下表现不佳。例如，DB方法在遵循AU条件方面表现尚可，但在处理上脸部AUs（如1、2、4、5）时表现不佳，并且容易过拟合训练数据。

定量结果：通过AU MSE和CLIP-I指标进行评估，FineFace方法在AU MSE方面表现最佳，表明其在保持一致性的同时能够有效地应用AU条件。分布平滑技术显著改善了CLIP-I指标，特别是在训练期间未见过的分布外情况中。

分布平滑：引入了分布平滑技术，显著改善了CLIP-I指标，特别是在训练期间未见过的分布外情况中。

对比不同方法在12个单独AUs条件下生成的图像，使用的提示为“巴拉克·奥巴马的特写”。AUs的文字描述见图2。

贡献：提出了使用AUs作为条件信号来控制生成内容中的面部表情，展示了FineFace方法在定性和定量研究中的能力。FineFace方法能够在保持基础扩散模型能力的同时，提供精确的面部表情控制。

未来工作：计划开发改进的解决方案，以应对连续多标签AUs的问题，并扩展到高度控制的面部图像编辑。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MPC5554MZP132	1	Freescale Semiconductor	32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416		$80.8	查看
MKL02Z32VFG4R	1	Freescale Semiconductor	RISC MICROCONTROLLER	ECAD模型下载ECAD模型	暂无数据	查看
PIC32MX795F512LT-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$11.46	查看