导读 谷歌刚刚发布了Gemini,这是迄今为止最强大的人工智能模型套件,该公司已经被指控对其性能撒谎。彭博社的一篇专栏文章声称谷歌在最近的视频...

谷歌刚刚发布了Gemini,这是迄今为止最强大的人工智能模型套件,该公司已经被指控对其性能撒谎。彭博社的一篇专栏文章声称谷歌在最近的视频中歪曲了双子座的力量。谷歌在本周早些时候的公告中播放了一段令人印象深刻的“Whatthequack”实践视频,专栏作家帕米·奥尔森(ParmyOlson)表示,该公司在视频中似乎非常有能力——也许太有能力了。

这段六分钟的视频展示了Gemini的多模式功能(例如,语音对话提示与图像识别相结合)。Gemini似乎可以快速识别图像,即使是连点连线的图片,也能在几秒钟内做出响应,并实时跟踪杯赛和球类比赛中的一叠纸。当然,人类可以做到所有这些,但这是一个能够识别和预测接下来会发生什么的人工智能。

但点击YouTube上的视频描述,Google有一个重要的免责声明:

“出于本演示的目的,延迟已减少,并且为了简洁起见,Gemini输出也已缩短。”

这就是奥尔森感到不满的地方。根据她在彭博社的文章,谷歌在被要求发表评论时承认,视频演示并不是在语音提示下实时进行的,而是使用原始素材中的静态图像帧,然后写出双子座回应的文本提示。“这与谷歌似乎暗示的完全不同:当Gemini观察周围的世界并实时做出反应时,一个人可以与Gemini进行流畅的语音对话,”奥尔森写道。

为了公平对待谷歌,公司经常编辑演示视频,特别是因为许多公司希望避免现场演示带来的任何技术问题。稍微调整一下是很常见的。但谷歌有可疑视频演示的历史。人们想知道谷歌的Duplex演示(还记得Duplex吗,这是一款可以打电话给美发沙龙和餐馆进行预订的人工智能语音助手?),因为那里明显缺乏环境噪音和乐于助人的员工。而预先录制的人工智能模型视频往往会让人们更加怀疑。还记得百度推出经过编辑的视频的ErnieBot后股价暴跌吗?

Olson表示,在这种情况下,Google是在“炫耀”,目的是误导人们,让他们忽视Gemini仍然落后于OpenAI的GPT的事实。

谷歌不同意。当被问及该演示的有效性时,TheVerge引用了谷歌DeepMind研究和深度学习负责人OriolVinyals副总裁(也是Gemini的联合负责人)的一篇帖子,其中解释了该团队如何制作该视频。

“视频中的所有用户提示和输出都是真实的,只是为了简洁而缩短了,”维尼亚尔斯说。“该视频展示了使用Gemini构建的多模式用户体验是什么样子。我们这样做是为了激励开发人员。”

他补充说,该团队向双子座提供了图像和文本,并要求它通过预测接下来会发生什么来做出回应。

这当然是解决这种情况的一种方法,但对谷歌来说可能不是正确的方法——至少在公众看来,谷歌已经被OpenAI今年的巨大成功打了个措手不及。如果它想激励开发人员,就不能通过精心编辑的、可能歪曲人工智能能力的精彩卷轴。这是通过让记者和开发人员实际体验该产品。让人们在小型公开测试版中与Gemini一起做蠢事。向我们展示它到底有多强大。