FacebookRosettaAI发现并理解模因中的文本
光学字符识别 (OCR) 是一种常用技术,可从图像(例如扫描的页面)中提取文本,而无需手动转录的耗时负担。尽管这项技术很棒,但 Facebook 正在寻求更好的东西:从图像中提取文本并理解文本的能力。这就是该公司的 Rosetta 机器学习系统的用武之地。
Facebook 解释了为什么它需要从图像中提取文本,包括使用屏幕阅读器为视障人士阅读内容的能力;这些数据对于提供更好的照片搜索结果也很有用。OCR 技术显然受限于这些目的,因为它提供文本但仅此而已。
另一方面,人工智能能够检索文本,然后理解它的含义。Facebook 在其 Code 网站上最近的一篇文章中解释说,Facebook 将其 Rosetta AI 构建为一个大型机器学习系统。
使用该系统,Facebook 能够从图像(例如模因)以及 Facebook 和 Instagram 上共享的视频中提取文本。人工智能使用分类器进行训练,以根据图像/视频和文本来感知图像/视频的上下文。
该系统涉及两个步骤,第一步是检测可能包含文本的区域,第二步是使用卷积神经网络 (CNN) 进行文本识别。Facebook 使用一种基于名为 Faster R-CNN 的对象检测网络的方法,将文本检测和识别结合到一个同步动作中。
Facebook 在其网站上提供了大量细节,包括提供示例图像和图表以补充其数据。总之,该公司表示,它还致力于将文本识别系统扩展到其他没有拉丁字母数据集的语言。