谷歌和希捷正在使用人工智能来预测硬盘故障
谷歌云和希捷展示了他们使用机器学习(一种人工智能)来预测负责存储数 TB 数据的数据中心硬盘驱动器 (HDD) 何时可能开始出现故障的努力,以便他们制定计划围绕他们的系统中断。
现在无法回避 HDD 出现故障的事实。它们不如 SSD 可靠——假设这些驱动器在开采 Chia 时没有被推到极限——但它们也以更低的价格提供更高的容量。对于像 Google Cloud 这样需要能够处理大量数据以支持自己的项目或代表客户的公司来说,这是一个重要因素。
“在谷歌云,我们直接知道在运营中管理 HDD 和预先识别潜在故障的重要性,”该公司在最近的一篇博客文章中详细介绍了这些努力。“我们负责运行世界上一些最大的数据中心——在正确的时间识别这些故障的任何失误都可能导致我们许多产品和服务的严重中断。”
问题在于手动识别故障驱动器(谷歌云将其定义为“在 30 天内出现故障或遇到三个或更多问题”的 HDD)是一个耗时的过程,需要对设备进行物理访问。谷歌云和希捷希望使用机器学习来减少工程师测试驱动器以确定故障风险的时间。
谷歌云表示,它“部署了数百万个运行中的磁盘,生成数 TB 的原始遥测数据”,包括“数十亿行的每小时 SMART(自我监控、分析和报告技术)数据和主机元数据,例如维修日志、在线供应商诊断 (OVD) 或现场可访问可靠性指标 (FARM) 日志以及有关每个磁盘驱动器的制造数据。”
这意味着该公司拥有数量惊人的 HDD,它们都会产生“数百个必须跟踪和监控的参数和因素”。然而,这是谷歌云,大量的可用信息也是有益的。在谷歌云、希捷和埃森哲之间,这些数据可以用于机器学习模型,该模型能够预测驱动器发生故障的可能性。
两家公司测试了两种模型:一种基于AutoML Tables,另一种是为该项目定制开发的。前者以“98% 的准确率和 35% 的召回率胜出,相比之下,自定义 ML 模型的准确率和召回率为 70-80% 和 20-25%”(这也意味着实验服务于双重目的是展示使用 AutoML 而不是自定义解决方案的好处)。
谷歌云表示,它计划“扩展系统以支持所有希捷硬盘——我们迫不及待地想看看这将如何使我们的 OEM 和我们的客户受益!”有关该项目的更多信息可通过该公司的博客文章获得。