导读 近年来,Facebook 试图通过在照片中使用替代文字来让盲人和视障人士更容易访问,以便屏幕阅读器能够描述他们在视觉提要中看到的照片。后来

近年来,Facebook 试图通过在照片中使用替代文字来让盲人和视障人士更容易访问,以便屏幕阅读器能够描述他们在视觉提要中看到的照片。后来他们引入了自动替代文本 (AAT),可按需生成照片描述,因为并非每个人都使用替代文本。现在,他们通过使用人工智能对 AAT 进行了大量改进,使其可靠性和“可检测性”提高了 10 倍。

自推出以来,AAT 的最新迭代已经能够利用过去几年的多项技术进步。他们已经能够将概念的数量从发布时的 100 个广泛扩展到 1200 多个。描述现在也更加详细,因为它现在能够识别活动、地标、动物类型等。因此描述听起来像是“也许是两个人在埃菲尔铁塔的户外自拍。

它们还能够在照片中包含元素的位置和相对大小,这显然是行业首创。因此,现在的描述也可以听起来像“五个人的图像,其中两个在中心,另外三个分散在边缘”。它将能够根据大小和位置检测并突出显示哪个元素是它所描述的场景中的主要对象。

为了能够实现这一点,他们使用了一个人工智能模型,该模型通过使用数十亿张公开的 Instagram 图像和主题标签在弱监督数据上进行训练。他们重新利用机器学习模型作为训练新任务的起点,这称为迁移学习。他们还咨询了使用屏幕阅读器的用户,以确定他们想要听到多少信息以及何时听到。

Facebook 还在描述中使用了功能强大但简单的措辞,因此所有 ATT 都以全球 45 种不同的语言提供,使其真正更具包容性并具有更广泛的影响力。盲人和视障人士现在可以在使用屏幕阅读器浏览时体验这种大大改进的照片自动替代文本。