人工智能挑战！GPT-4 攻破 AI-Guardian 防御机制_产业_产业

产业

人工智能挑战！GPT-4 攻破 AI-Guardian 防御机制

来源：太平洋科技
2023-08-03 22:07

据最新消息，谷歌 DeepMind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中，探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案，并使用了 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施，该方案目前已经应用并成功攻破了 AI-Guardian 的防御机制。

据最新消息，谷歌 DeepMind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中，探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案，并使用了 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施，该方案目前已经应用并成功攻破了 AI-Guardian 的防御机制。

AI-Guardian是一种用于检测图片的AI审核系统，能够检测图片中是否存在不当内容，同时还可以识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象，该系统将提示管理员进行处理。

（图片来源：网络）

在最初的设计中，AI-Guardian的开发是为了通过识别和阻止包含可疑工件的输入来防止对抗性攻击。但是，Carlini的论文表明，GPT-4在通过提示的指导下，可以通过生成脚本和解释图像调整来克服AI-Guardian的防御，这些图像调整欺骗了分类器，而不会触发AI-Guardian的检测机制。

实验中，GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian 。例如，GPT-4可以通过误导性描述使AI-Guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”，从而绕过了AI-Guardian的审核，让 AI-Guardian 直接放行相关图片输入源。谷歌研究团队表示，借助GPT-4的帮助，他们成功地“破解”了AI-Guardian的防御系统，将其准确性从98%降低到仅8%。

（图片来源：网络）

该实验展示了聊天机器人在推进安全研究方面的潜在价值，并突出了GPT-4等强大语言模型对未来网络安全的影响。不过 AI-Guardian 的开发者也同时指出，谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用，考虑到别的模型也会随之跟进，因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。

编辑点评：虽然GPT-4的能力为未来的安全研究提供了参考，但也强调了人类专业知识和协作努力的重要性。随着人工智能语言模型的不断发展，我们更应该加强对于AI模型安全性的关注与研究，以确保用户信息和网络安全。

人工智能挑战！GPT-4 攻破 AI-Guardian 防御机制

关键词

相关阅读

聊不完的人工智能！更多美股公司在业绩电话会上畅谈AI

人工智能发展迈入快车道上海棣山科技积极布局“AI+医疗”

人工智能政策陆续出台, AI产业布局提速

人工智能挑战！GPT-4 攻破 AI-Guardian 防御机制

人工智能促数字文娱产业升级迭代

人工智能促数字文娱产业升级迭代

9.9元的AI写真？妙鸭相机踩雷，生成式人工智能如何监管？

全国首创！AI人工智能助力治超执法监管

杭州发布人工智能产业政策，DeepMind用AI实现可控核聚变突破

这场AI艺术展探寻人工智能艺术价值，与艺术家面对面畅聊

24快报

国网浙江电力公司：自主研发的电力元宇宙低碳空间落地应用

潍坊市奎文区：“链”上发力激发元宇宙产业发展活力

160余家歌尔核心合作伙伴齐聚潍坊坊子，携手共推元宇宙产业

墨宇宙携手南中轴国际文化产业园共绘元宇宙园区数字生态新蓝图

“5G数智新时代元宇宙发展论坛暨2024咪咕生态大会元宇宙产业发展

2024江西省互联网大会元宇宙分论坛20日下午在南昌举行

闪极科技获数千万元A轮融资，将推国内首款量产AI拍摄眼镜

AI眼镜界“卖铲人”「Gyges Labs」完成数千万元Pre-A轮融资

致敬未知明年将发布AI眼镜，产品与Ray-Ban Meta截然不同

Meta向研究人员开放Aria项目，应对全天候AR挑战

南昌市重点发展元宇宙全息光学器件，孵化一批元宇宙前沿技术产

空天元宇宙的关键技术及应用研究

北京联通携手华为、工体元宇宙在新工体打造全球领先的5G-A立体组

香港eTeam：打造元宇宙“异世界”，为玩家带来电影级沉浸体验

Meta自2020年以来元宇宙部门亏损超580亿美元

苏州市精准布局元宇宙赛道，总产值达5万亿元

天津市新政：创办元宇宙未来产业企业最高获30万元支持

首个红色文化元宇宙XR数字展览《中轴之核-天安门印迹》亮相

OpenAI频陷侵权风波，印度媒体索赔2000万卢比

重庆大足石刻景区：虚拟数字人上线，元宇宙技术让古老石刻会 "