导读 苹果研究人员推出了一种突破性的人工智能模型——MLLM引导图像编辑(MGIE),能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研...

苹果研究人员推出了一种突破性的人工智能模型——MLLM引导图像编辑(MGIE),能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研究人员合作开发的,代表了图像编辑技术的重大进步。据报道,与现有模型不同,MGIE可处理各种编辑场景,从简单的颜色调整到复杂的对象操作。

MGIE的核心是多模态大语言模型(MLLM),它解释用户请求并为图像编辑提供简洁的指令。这种方法使模型能够有效地解决不明确的命令,从而获得合理的编辑结果。例如,MLLM理解“让披萨更健康”的请求,并将术语“健康”与“蔬菜配料”联系起来,指示扩散模型相应地编辑图像。

MGIE与LLM引导图像编辑(LGIE)等现有模型的区别在于其增强的视觉感知。虽然LGIE仅限于单一模态,但MGIE中的MLLM可以访问输入图像和跨模态理解,从而允许更多描述性指令。此功能使模型能够识别图像中需要调整的特定区域,例如使某些区域变亮以获得所需的效果。

MGIE现在作为GitHub上的开源项目提供,提供代码、数据和预训练模型供下载。此外,HuggingFace空间上托管的网络演示允许用户直接体验模型的图像编辑功能。然而,除了研究项目之外,苹果尚未透露将MGIE整合到其产品中的计划。

在苹果最近的季度财报电话会议上,首席执行官蒂姆·库克证实了该公司正在为其设备开发人工智能功能。该公司可能会在今年晚些时候公布业绩。BusinessStandard预计这些AI增强功能将扩展到各种Apple服务,包括Siri、消息和AppleMusic。通过结合生成式AI功能,用户可以预期整个Apple生态系统的文本摘要、个性化建议和增强功能等改进。