在刚刚召开的2021 年国际计算机视觉与模式识别会议(CVPR 2021)上,许多重磅消息发布。作为计算机视觉领域的三大顶会之一,可以说它是创新趋势的风向标和前沿技术的秀场。在CVPR 2021上,英伟达发布了TAO工具套件3.0、预训练模型,有助于企业进一步提升AI开发能力,并为部署生产级AI降低门槛。
这些消息也进一步论证,计算机视觉技术经过了前期开发的第一阶段,正在向落地和打造平台优势的第二阶段演进。
TAO工具套件3.0助力快速实现生产级AI
计算机视觉是AI研究的一个重要分支,也是日常生活、工作中应用最广泛的AI技术之一,如车辆识别、人脸识别、体态识别等技术,已广泛应用于智慧城市、交通、零售、文娱等领域。同时,计算机视觉也是机器人、无人驾驶等技术的重要基础,未来将具有更加广泛的应用领域。
但对于大部分AI开发者来说,图像识别从算法研究、模型训练到规模化的提供服务,所需的资源和处理的流程非常之多。如何保证数据质量、提高推理速度、提升识别精度等都面临很多挑战。那么,开发者如何才能减少模型训练、调优所需时间?如何降低数据收集、标注成本?如何便捷、大规模部署AI模型?迁移学习便是一种重要方式。
英伟达最新发布的TAO工具套件3.0已全面公开可用。据了解,TAO工具套件在NVIDIA TAO平台指导工作流程以创建AI的过程中起到核心作用。新版本包括各种高精度和高性能计算机视觉和对话式AI预训练模型,以及一套强大的生产级功能,可将AI开发能力提升10倍。
英伟达TAO工具套件3.0
新版本亮点包括:
- 一个支持边缘实时推理的姿态估计模型,其推理性能比OpenPose模型快9倍。
- PeopleSemSegNet,一个用于人物检测的语义分割网络。
- 各种行业用例中的计算机视觉预训练模型,如车牌检测和识别、心率监测、情绪识别、面部特征点等。
- CitriNet,一个使用各种专有特定域和开源数据集进行训练的新语音识别模型。
- 一个用于问题回答的新Megatron Uncased模型以及许多其他支持语音文本转换、命名实体识别、标点符号和文本分类的预训练模型。
- AWS、GCP和Azure上的训练支持。
- 在用于视觉AI的NVIDIA Triton和DeepStream SDK上以及用于对话式AI的Jarvis上的开箱即用部署。
据英伟达方面介绍,随着企业竞相推出AI解决方案,开发工具对于企业的竞争力提升起到重要作用。对于许多尝试使用开源AI产品创建模型进行训练的工程和研究团队来说,在生产中部署自定义、高精度、高性能AI模型可能是一段十分艰难的开发历程。
英伟达提供的TAO工具套件和预训练模型可以帮助企业降低大规模数据采集和标注成本,同时告别从头开始训练AI/机器学习模型的负担。初入计算机视觉和语音服务市场的企业也可以在不具备大规模AI开发团队的情况下部署生产级AI。
不仅如此,TAO工具套件3.0还实现了与数家合作伙伴的平台集成,这些合作伙伴可提供大量多样化的高质量标签数据,使端到端AI/机器学习工作流程更快。对于企业来说,可以使用这些合作伙伴的服务来生成和注释数据、通过与TAO工具套件无缝集成进行模型训练和优化并使用DeepStream SDK或Jarvis部署模型以创建可靠的计算机视觉和对话式AI应用。
GAN 研究重塑视频会议
基于 GAN 研究的NVIDIA Maxine云AI视频流SDK也在CVPR 2021上进行了展出,从演示来看,一些细致的突破可以说是直抓应用痛点。
拿我们工作中常用到的视频会议系统来说,不知你有没有这样的尴尬时刻:头发凌乱、穿着睡衣,不敢以真面目示人……那么现在救兵来了。你只需要在视频会议前上传一张正装照片后,就能在会议中以得体的工作形象示人。这是因为 AI 可以将你的面部动作映射到参照照片上,甚至如果你向左转,它也可以调整视角,使你看上去是直接面对摄像头的。
这背后的关键技术就是Vid2Vid Cameo ,它是用于视频会议的 NVIDIA Maxine SDK 的深度学习模型之一,借助生成式对抗网络 ( GAN ) ,仅用一张人物2D图像即可合成逼真的人脸说话视频。
据介绍,Vid2Vid Cameo 只需两个元素,即可为视频会议打造逼真的 AI 人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。
模型基于 NVIDIA DGX 系统开发,使用包含 18 万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别 20 个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。
然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。
对于接收者一端,GAN 模型会使用此信息,模拟参照图像的外观以合成一个视频。
通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低 10 倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。
写在最后
随着计算机视觉技术的逐渐成熟,其实际应用的技术领域不断扩展,由最初的静态人脸识别和光学字符识别,已经扩展到人脸识别分析、活体检测、人体识别分析、物体检测识别、行为识别分析、人体重识别、医疗影像诊断技术等诸多种方向。
动态场景的处理成为计算机视觉当前的一个重要研究方向。对于动态目标的跟踪、检测、分析、行为的识别与理解等工作,需要上升到系统化水平。
在动态的视觉应用场景中,迁移学习有助于当前的研究和应用突破。英伟达TAO工具套件 3.0提供了AI/DL框架的现成接口,能够使开发者能够更快地构建模型,而不需要编码,可以降低大规模数据收集、标记的相关成本。并且,基于高性能算力平台训练的高质量预训练模型,也可以帮助降低开发成本,省去从头开始训练AI/机器学习模型的流程,有助于AI模型在生产中的大规模部署和落地。