AI的新领域是多模态模型,比如CLIP和Stable Diffusion。由于人类通过视觉和语言与世界互动,AI研究人员们认为机器也需要多模态通道。像LLaVA这样的东西能否培育出一种“通用助手”,有效地遵循符合人类意图的多模态视觉和语言指令?如果可以,代价是什么?
我们生活在一个不确定的时代。
在科学界取得突破性进展之后,记者们往往要立即对商业和技术进步进行追踪。在AI领域尤其如此。
记者们几乎没有时间进行思考或研究,只能听信科学家对“Next Big Thing”的一面之词,从而使AI新闻报道沦为速记。
被AI裹挟的公司现在也面临着类似的困境。就像淘金热一样,公司的首要任务是抢占先机,之后才会担心其在特定领域的AI投资是否真的是金矿。
Nvidia的指数级增长进一步搅乱了人们的判断。有钱能使鬼推磨。
Nvidia的总营收成倍增长,截至4月28日的季度营收为260亿美元。对于投资者和记者来说,这个数字就是事实,并诱使我们中的许多人将Nvidia的成功视为AI将呈指数级无限增长的标志。
LLaVA来了
在这种背景下,上周在Santa Clara举行了Embedded Vision Summit,会上的主题发言人之一是Wisconsin-Madison的计算机科学系副教授兼GivernyAI的CEO Yang Jae Lee。
Lee在峰会中讨论了AI领域的热门话题LLaVA(Large Language and Vision Assistant)。Lee是发表于2023年的题为论文的合著者,Edge AI and Vision Alliance的创始人兼本次峰会的组织者Jeff Bier将其称为最常被引用的LLaVA论文。
Lee的演讲题目是“Learning to Understand Our Multimodal World with Minimal Supervision”。
这里的关键词是“多模态”。
在现实世界中,“多模态”的概念并不难理解,现实本质上就是多模态的。人类自然会处理从图像、视频、语音、音乐、背景噪音等模式接收到的不同类型的信息。AI开发者正在寻求多模态理解世界的方法,将对两种或两种以上数据模态的反应结合起来。
Stable Diffusion和CLIP等新模型为当前的AI热潮做出了贡献。Stable Diffusion是一种深度学习文本到图像(text-to-image)模型。CLIP(Contrastive Language-Image Pre-Training)是一种在各种(图像、文本)对上进行训练的神经网络。据报道,CLIP可以用自然语言来预测给定图像中最相关的文本片段,而无需直接对任务进行优化。
LLaVA更进一步,利用了已经在AI领域掀起风暴的模型,如LLM和CLIP。
简单地说,LLaVA融合了GPT-4等LLM和CLIP等视觉编码器。LLaVA的支持者声称,LLaVA正在开创一个能理解视觉和语言指令并根据指令采取行动的AI助手时代。
这个“多模态”话题(文本和视觉)引起了Embedded Vision Summit许多与会者的共鸣。
LLaVA的潜力在于嵌入式视觉系统不仅能够根据捕捉到的图像生成文本描述和说明,还能根据文本和视觉指令采取行动。考虑到目前许多边缘AI设备都使用摄像头,LLaVA可以为不断发展的边缘AI世界增添一个全新的维度。
计算机视觉和LLM
Lee和他的合著者认为,计算机视觉与LLM的结合可以带来更强大的功能。
谈到计算机视觉,他们解释说,每个任务(如分类)都由一个大视觉模型独立解决。任务指令隐含在模型设计中。在这种情况下,语言只起到描述图像内容的作用。
另一方面,LLM表明,语言可以发挥更广泛的作用。一个通用助手的通用界面,其各种任务指令都明确地用语言表示。它引导端到端训练有素的神经助理切换到并解决感兴趣的任务。
共同作者写道,LLaVA的目标是将这两者结合成一个通用助手,它能有效地遵循多模态视觉和语言指令,“与人类意图保持一致,在野外完成各种真实世界的任务”。
总之,首先,LLaVA提供了“多模态指令数据”。正如Lee解释的那样,LLaVA“首次尝试使用纯语言GPT-4生成多模态语言图像指令跟随数据”。
其次,LLaVA被定义为“端到端训练有素的大型多模态模型,它连接了视觉编码器和LLM,用于通用视觉和语言理解”。
第三,性能。Lee和他的合著者表示,“我们的早期实验表明,LLaVA表现出了令人印象深刻的多模态聊天能力,有时在未见图像/指令上表现出多模态GPT-4的行为,在合成多模态指令跟随数据集上,LLaVA与GPT-4相比获得了85.1%的相对分数。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的最新准确率”。(ScienceQA由各种科学主题的选择题组成,答案来自相应的讲座和解释)。
第四,也许是最重要的一点,LLaVA是开源的。Lee强调说:“我们公开GPT-4生成的可视化指令调整数据、我们的模型和代码库”。
以下是LLaVA与其他模型相比的工作原理示例。
作者在论文中解释道。“GPT-4论文中的示例提示比较了视觉推理和聊天功能。与BLIP-2和OpenFlamingo相比,LLaVA能准确地按照用户的指示进行操作,而不是简单地描述场景。与GPT-4相比,LLaVA提供了更全面的响应。即使只要求描述图像,LLaVA也能识别图像的非典型方面。”
我明白为什么LLaVA对从事边缘AI设备的嵌入式系统设计师特别有吸引力。如果他们能将现有的基础模型重新用于专门任务,那么LLaVA就能部署一个小得多的多模态教学数据集,并取得比多模态GPT-4更好的效果。毕竟,AI巨大且不断增长的训练成本是每个AI开发者最头疼的问题之一。
没有所谓的“零样本”
就在多模态模型似乎大有可为的时候,上个月又有一篇新的学术论文发表,认为Stable Diffusion和CLIP等多模态模型并不一定能实现所谓的“零样本(zero shot)”学习,至少不是像人们所说的那样。
他们指出:“多模态模型需要呈指数级增长的数据,才能实现下游‘零样本’性能的线性提升,遵循的是样本低效的对数线性缩放趋势。”
“零样本”是一种机器学习场景,在这种场景中,AI模型在没有预先看到任何示例的情况下接受训练,以识别和分类对象或概念。
由图宾根、剑桥和牛津大学的科学家撰写的论文一文总结道:“在分类和生成实验中,我们发现,无论模型规模或预训练数据集如何,当前的多模态模型都会出现可预测的性能低下。”
虽然这篇论文没有直接攻击LLaVA,但它对CLIP和Stable Diffusion等多模态模型提出了挑战。CLIP现在是“零样本”图像识别和图像-文本检索的事实标准,而Stable Diffusion也是“零样本”文本-图像生成的类似标准。
这项研究归结为一个问题:当前的多模态模型真的能够实现“零样本”泛化吗?
这只是一篇论文。但是,如果是真的话,它可能会使人们长期以来的一个信念不攻自破,即只要有足够的训练时间,海量数据集就能使当今许多令人头疼的AI问题迎刃而解。目前仍未解决的问题包括准确性、完整性、可靠性、精确性和及时性等方面的不足,这使得系统容易产生误导性结果。
这种检查对于多模态模型来说可能不是一个好兆头。在看到LLaVA目前取得的成功后,其支持者认为,将多种模式的信息结合起来,可以帮助机器“理解”“未见图像”中发生的事情。
同样,图宾根-剑桥-牛津大学的论文并没有贬低LLaVA迄今取得的成就。从不同模型生成文本的演变过程中可以看出,LLaVA已经取得了显著的成果。然而,正如一位数据科学家所指出的:“与任何语言模型一样,LLaVA也有产生幻觉的倾向,当它耗尽提供相关内容的能力时,就会开始编造信息。”
尽管LLaVA据说是通过一个小型的多模态指令跟随数据集进行训练的,但新论文声称,要想在零样本性能方面取得重大改进,还需要更多的数据。这个问题是可以通过“调整”来解决,还是通过创建一套全新的算法来解决,还是个谜。因此,这是一个不确定的时代。