导读 RETVec系统检测垃圾邮件的速度比Gmail之前的过滤器高出38%,同时还减少了误报数量。谷歌悄悄地用新的垃圾邮件过滤器更新了Gmail,该公司称...

RETVec系统检测垃圾邮件的速度比Gmail之前的过滤器高出38%,同时还减少了误报数量。

谷歌悄悄地用新的垃圾邮件过滤器更新了Gmail,该公司称该过滤器可以更好地标记垃圾邮件和网络钓鱼电子邮件。

新的垃圾邮件过滤器基于“RETVec”,这是一种新开发的文本矢量化器,可以将单词映射为矢量或数字表示。开发人员长期以来一直使用文本矢量化来帮助计算机模型解释和分类人类语言,包括电子邮件是否可能是垃圾邮件。

问题在于,当前的文本分类模型仍然难以识别诈骗和网络钓鱼攻击。这是因为网络犯罪分子正在创建内容来绕过防御,例如,使用非拉丁字符创建指向知名品牌的链接。此外,该公司的研究人员在一篇论文中写道,文本分类模型可能需要“大型词典”和计算资源来标记恶意内容或理解拼写错误。

作为回应,谷歌开发了RETVec,它经过训练可以检测和理解字符级操作,包括一段文本中的拼写错误,同时还降低了计算成本。

谷歌的研究人员写道:“RETVec嵌入是使用成对度量学习进行训练的,确保包含拼写错误的单词嵌入到接近原始单词的位置。”

在过去的一年里,谷歌还在公司系统内测试了RETVec,“以评估其实用性,并发现它对于安全和反滥用应用程序非常有效”,该公司在博客文章中写道。结果显示RETVec改进了垃圾邮件检测比Gmail之前的过滤器提高了38%。

与此同时,RETVec将误报率降低了19%,同时使用的计算资源减少了83%。谷歌补充道,这使得“RETVec部署成为近年来最大的防御升级之一”。同一系统适用于100多种语言,包括英语。