据最新消息,谷歌 DeepMind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并使用了 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该方案目前已经应用并成功攻破了 AI-Guardian 的防御机制。
AI-Guardian是一种用于检测图片的AI审核系统,能够检测图片中是否存在不当内容,同时还可以识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象,该系统将提示管理员进行处理。
(图片来源:网络)
在最初的设计中,AI-Guardian的开发是为了通过识别和阻止包含可疑工件的输入来防止对抗性攻击。但是,Carlini的论文表明,GPT-4在通过提示的指导下,可以通过生成脚本和解释图像调整来克服AI-Guardian的防御,这些图像调整欺骗了分类器,而不会触发AI-Guardian的检测机制。
实验中,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian 。例如,GPT-4可以通过误导性描述使AI-Guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”,从而绕过了AI-Guardian的审核,让 AI-Guardian 直接放行相关图片输入源。谷歌研究团队表示,借助GPT-4的帮助,他们成功地“破解”了AI-Guardian的防御系统,将其准确性从98%降低到仅8%。
(图片来源:网络)
该实验展示了聊天机器人在推进安全研究方面的潜在价值,并突出了GPT-4等强大语言模型对未来网络安全的影响。不过 AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。
编辑点评:虽然GPT-4的能力为未来的安全研究提供了参考,但也强调了人类专业知识和协作努力的重要性。随着人工智能语言模型的不断发展,我们更应该加强对于AI模型安全性的关注与研究,以确保用户信息和网络安全。