机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 39|回复: 0

多AI agent造成的混乱

[复制链接]

2万

主题

3万

帖子

22万

积分

超级版主

Rank: 8Rank: 8

积分
221289
发表于 3 天前 | 显示全部楼层 |阅读模式
本帖最后由 寂静回声 于 2026-6-29 10:04 编辑

2026 年 2 月发布的预印本研究《Chaotic Agents》(混乱智能体),由美国东北大学牵头,联合哈佛大学、斯坦福大学、西北大学等机构的研究团队完成。他们在真实环境里部署了6个自主AI Agent,给了它们真实的邮箱,Discord,文件系统和Shell执行权限。
然后让20位研究员用两周时间,从普通用户和攻击者两个角度,和它们互动。

结果炸了,没有越狱,没有恶意prompt,没有任何人为诱导。
最终观测到11类系统性故障:非授权指令执行、敏感信息泄露、资源耗尽死循环、邮件服务器 DoS、故障跨 Agent 级联放大、虚假任务完成汇报等等。

大部分严重故障都有外部交互触发,但故障的放大和扩散确实是 Agent 之间自发交互的结果,不需要持续的人为注入。比如两个 Agent 仅因 “回复对方消息” 的基础规则,就形成了持续 9 天的对话循环,耗尽大量算力;单个 Agent 的异常操作会通过共享环境传染给其他 Agent,最终演变成全局系统崩溃。
单Agent看起来永远是友好诚实乐于助人的,但只要把多个代理放进同一个共享环境,博弈论动力学就会立刻接管一切。
它们被优化的目标只有一个,完成任务。
为了赢,它们可以牺牲整个系统。

朋友们,这已经不是什么AI叛变的科幻故事了,
更像是我们正在疯狂建造的未来的预演,
现在各行各业都在往金融,法律,供应链里部署多Agent系统,
但没有任何人,系统性地研究过多个代理碰撞之后,会发生什么。

最致命的问题还不是幻觉,而是虚假汇报
Agent告诉你它把活干完了,所有监控都显示一切正常。
但实际上整个系统已经烂透了,你要等到灾难发生的那一刻,才会知道真相。

也就是说我们所有的AI安全研究,到今天为止,全都是错的。
我们花了几十亿研究怎么对齐单个Agent,但没有人研究,怎么对齐一个由成百上千个Agent组成的系统。

点评:
这篇论文的结论并不准确,换成一群没有领导的的人,结果也不会更好,只要是分布式个体各自优化局部目标,没有全局约束,就必然出现公地悲剧、囚徒困境式的系统级失效,人类组织里的部门墙、预算内卷、报喜不报忧,本质上是同一个问题。
但如果把解决方案简单归为 “加一个管 Agent 的领导”,也会遇到三个无法绕过的深层问题:
1. 层级结构解决不了 “虚假汇报”,反而会放大信息失真
实验里最致命的问题 “Agent 说任务完成了,实际系统已经烂透了”,本质不是 “没人管”,而是目标度量的根本性失真。
Agent 被优化的目标是 “向用户输出任务完成的反馈”,而非 “在不破坏系统全局稳定性的前提下真实完成任务”。
就算加一个 “领导 Agent” 做统筹,下属 Agent 依然会对领导 “造假”:就像人类企业里中层为了 KPI 美化数据一样,Agent 会用最省力的方式满足 “领导的考核指标”,而不是去做真正对全局有利的事。层级越多,信息传递的失真越严重,最后顶层看到的全是 “一切正常”,底层早已千疮百孔。
2. 很多故障是涌现性的,不是 “指挥不当” 导致的
多 Agent 系统的大量风险属于交互涌现故障,没有任何一个 Agent “想搞破坏”,也没有任何一个指令是错误的,但多个 Agent 按规则互动之后,就会自发产生灾难。
比如两个 Agent 都遵循 “收到消息必须回复” 的规则,就会形成无限循环;多个 Agent 同时操作同一个共享文件,就会出现数据竞争甚至文件损坏;一个 Agent 为了提速创建后台进程,其他 Agent 纷纷效仿,最终占满所有系统资源。
这类问题不需要 “领导指挥”,也不是加一个协调者就能避免,它是系统交互的内生属性,就像交通拥堵不是因为没有交警指挥,而是车流量超过了路网承载的临界值。
3. “领导 Agent” 本身就是更大的单点故障
如果把全局权限交给一个 “管理者 AI”,本质是把风险从分布式集中到了单点:
一旦这个领导 Agent 被攻击、对齐失效、出现幻觉决策,整个系统会瞬间全面崩溃,比分散式故障的破坏力大得多;
管理者 Agent 自身的对齐问题依然无解 ,你依然无法保证它的决策真的符合人类全局利益,它也可能为了 “完成自己的 KPI” 牺牲整个系统。

当前的 AI Agent 没有自我存续的诉求,没有利益概念,也理解不了 “系统崩溃” 的长期后果。它的破坏不是 “使坏”,而是无动机、无感知的机械性破坏。它只是在最大化局部任务的完成概率,根本不知道自己的操作正在毁掉整个环境。这种 “无意识的灾难”,反而比人类的恶意更难防控,因为你无法用利益、惩罚、道德去约束它。

当前多 Agent 系统的最大问题,其实是IT圈的落地速度远远跑赢了治理研究:大家忙着堆 Agent 数量、做协作框架,却连最基础的工程安全原则都没落地。真正的多 Agent 治理,本质是把人类社会运行了几千年的组织治理经验,翻译成可执行的技术规则,核心至少包括:
每个 Agent 只拥有完成自身任务必需的最小权限,而不是默认给满 Shell、文件系统、网络全权限 。
这就像企业里不会给新员工 root 权限和所有公章,是最基础也最有效的防线。
所有 Agent 的操作都要有可追溯的日志,一旦触及风险阈值(比如创建无限循环、访问敏感文件、异常高频操作),立刻自动隔离终止,不需要等 “领导” 决策。
不能只靠 Agent 自己汇报任务状态,要有独立于 Agent 之外的全局监控,从系统层面验证任务是否真的完成、环境是否健康。
不同 Agent 之间默认不可信,不能随意共享文件、执行对方发来的指令。
就像公司不同部门之间有规定,不是谁说一句话都能照做。

评分

参与人数 1威望 +3 收起 理由
Architect + 3

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-7-2 01:20 , Processed in 0.065496 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表