微软的AI红队已经为自己证明了价值

Microsoft's AI red team has proven its value.

对于大多数人来说,在日常生活中使用人工智能工具的想法——甚至仅仅是玩弄它们——直到最近几个月才变得主流,这得归功于一系列大型科技公司和初创企业发布的生成式人工智能工具,如OpenAI的ChatGPT和Google的Bard。但在幕后,这项技术已经多年来得到了广泛应用,并伴随着如何评估和保护这些新的人工智能系统的问题。周一,微软将披露自2018年以来负责攻击人工智能平台以揭示其弱点的团队的详细信息。

自成立以来的五年里,微软的人工智能红队已经从一个实验性的团队发展成为一个由机器学习专家、网络安全研究人员甚至社会工程师组成的跨学科团队。该团队致力于使用数字安全的传统行话向微软和整个科技行业传达其研究结果,以便人们和组织能够理解,而不需要专门的人工智能知识。但实际上,该团队得出结论,人工智能安全与传统的数字防御有重要的概念差异,这就要求人工智能红队在工作中采用不同的方法。

微软人工智能红队的创始人Ram Shankar Siva Kumar表示:“当我们开始的时候,问题是‘你们要做什么与众不同的事情?为什么我们需要一个人工智能红队?’但如果你将人工智能红队视为传统的红队,并且只采用安全的态度,那可能是不够的。我们现在必须认识到负责任的人工智能方面,也就是对人工智能系统故障的问责——所生成的攻击性内容、不合理的内容。这是人工智能红队的终极目标。我们不仅要看安全失败,还要看负责任的人工智能失败。”

Shankar Siva Kumar表示,需要时间才能明确这一区别,并证明人工智能红队的任务确实具有这种双重关注。早期的工作大部分与发布更传统的安全工具有关,例如2020年的对抗性机器学习威胁矩阵,这是微软与非营利研发组织MITRE和其他研究人员的合作项目。在那一年,该团队还发布了名为Microsoft Counterfit的用于人工智能安全测试的开源自动化工具。在2021年,红队还发布了额外的人工智能安全风险评估框架。

然而,随着时间的推移,随着解决机器学习缺陷和故障的紧迫性变得更加明显,人工智能红队得以发展和扩展。

在一项早期的任务中,红队评估了一个具有机器学习组件的微软云部署服务。该团队设计了一种方法,通过利用一个允许他们构造恶意请求以滥用机器学习组件并有针对性地创建虚拟机的漏洞,对云服务的其他用户发起拒绝服务攻击。通过在关键位置精心放置虚拟机,红队可以对其他云用户发起“嘈杂邻居”攻击,其中一个客户的活动对另一个客户的性能产生负面影响。

最终,红队建立并攻击了一个离线版本的系统,以证明这些漏洞确实存在,而不是冒着影响实际微软客户的风险。但Shankar Siva Kumar表示,这些早期的发现消除了人们对人工智能红队实用性的任何疑虑。“这就是人们的疑虑点,”他说。“他们会说,‘天啊,如果人们能做到这一点,对业务来说就不好了。’”

关键是,人工智能系统的动态和多面性意味着微软不仅仅面对着最高资源的攻击者。Shankar Siva Kumar说:“我们看到针对大型语言模型的一些新型攻击,只需要一个口无遮拦的十几岁少年或一个浏览器的普通用户即可,我们不希望忽视这一点。”他说:“虽然有APT,但我们也承认那些能够击败LLM并模拟它们的新一代人。”

然而,与任何红队一样,微软的人工智能红队并不仅仅研究当前在野外使用的攻击手段。Shankar Siva Kumar表示,该团队专注于预测攻击趋势可能的发展方向。这通常涉及到对人工智能问责的新要素的强调。当该团队发现一个应用程序或软件系统中的传统漏洞时,他们经常与微软内部的其他团队合作来解决问题,而不是花时间完全开发并提出解决方案。

Shankar Siva Kumar说:“我们有其他的红队以及其他Windows基础设施专家或我们需要的其他人。”“对我来说,洞察力在于现在的人工智能红队不仅涵盖了安全失败,而且包括了负责任的人工智能失败。”