导读 微软最新的生成式人工智能产品做了一些我认为不可能的事情,让我大吃一惊。VASA-1可以将单个图像与一个音频剪辑组合在一起,并将其转换为一...

微软最新的生成式人工智能产品做了一些我认为不可能的事情,让我大吃一惊。VASA-1可以将单个图像与一个音频剪辑组合在一起,并将其转换为一个人说话的视频。不仅仅是嘴唇随着音频而移动……而是整个脸部。头部的动作、目光的变化,甚至是你想象中的讲故事的人的面部表情——它们都在那里。

考虑到我们在genAI方面的进展,我一直知道这样的工具即将出现。毕竟,OpenAI的文本转视频产品在演示中看起来令人难以置信。这就是Sora,它将在今年晚些时候向公众开放。OpenAI还开发了一种技术,利用人工智能在听了几秒钟后复制某人的声音。

一家公司想出一种方法将肖像图像或自拍照变成某人说话的视频只是时间问题。只要你有一个音频片段来训练人工智能,视频中的动画人物就可以用任何声音说出你想说的任何内容。

我知道你在想什么,这也是我首先想到的。这种人工智能技术令人难以置信,但也非常危险。它邀请任何人制作误导性视频。值得庆幸的是,微软从一开始就明确表示,VASA-1不会成为像ChatGPT或Copilot那样的公开产品。也就是说,你将无法模仿名人并让他们说出你想说的任何话。至少,VASA-1不是这样。

我们的研究重点是为虚拟人工智能化身生成视觉情感技能,旨在实现积极的应用。无意创建用于误导或欺骗的内容。然而,与其他相关内容生成技术一样,它仍然可能被滥用于模仿人类。我们反对任何创造真实人物的误导性或有害内容的行为,并且有兴趣应用我们的技术来推进伪造检测。目前,该方法生成的视频仍然包含可识别的伪影,数值分析表明,距离真实视频的真实性仍有差距。

而且,用于测试VASA-1框架的所有图像都是虚拟人物。它们是用StyleGAN2或Dall-E3等人工智能产品生成的。蒙娜丽莎是一个“名人”例外。是的,微软还使用了VASA-1来制作这幅画的动画。

VASA-1目前还只是一个研究项目。展示这种人工智能功能的概念证明是可能的。但如果微软开发了它,其他人一定也在研究类似的技术。正如该公司指出的那样,这种技术有着广阔的前景。“它为与模仿人类对话行为的逼真化身进行实时互动铺平了道路。”

微软承认,它可能会继续推出商业产品,但要等到“确定该技术将按照适当的法规负责任地使用”。

VASA-1可以为ChatGPT等产品提供面孔。或者它可以帮助苹果等公司为VisionPro等空间计算机开发更好的空间角色。当然,我只是在这里猜测。但我确信微软并不是唯一一家探索此类genAI产品的大型科技公司。