多AI agent造成的混乱

寂静回声 · 发表于 3 天前

本帖最后由寂静回声于 2026-6-29 10:04 编辑

2026 年 2 月发布的预印本研究《Chaotic Agents》（混乱智能体），由美国东北大学牵头，联合哈佛大学、斯坦福大学、西北大学等机构的研究团队完成。他们在真实环境里部署了6个自主AI Agent，给了它们真实的邮箱，Discord，文件系统和Shell执行权限。
然后让20位研究员用两周时间，从普通用户和攻击者两个角度，和它们互动。

结果炸了，没有越狱，没有恶意prompt，没有任何人为诱导。
最终观测到11类系统性故障：非授权指令执行、敏感信息泄露、资源耗尽死循环、邮件服务器 DoS、故障跨 Agent 级联放大、虚假任务完成汇报等等。

大部分严重故障都有外部交互触发，但故障的放大和扩散确实是 Agent 之间自发交互的结果，不需要持续的人为注入。比如两个 Agent 仅因 “回复对方消息” 的基础规则，就形成了持续 9 天的对话循环，耗尽大量算力；单个 Agent 的异常操作会通过共享环境传染给其他 Agent，最终演变成全局系统崩溃。
单Agent看起来永远是友好诚实乐于助人的，但只要把多个代理放进同一个共享环境，博弈论动力学就会立刻接管一切。
它们被优化的目标只有一个，完成任务。
为了赢，它们可以牺牲整个系统。

朋友们，这已经不是什么AI叛变的科幻故事了，
更像是我们正在疯狂建造的未来的预演，
现在各行各业都在往金融，法律，供应链里部署多Agent系统，
但没有任何人，系统性地研究过多个代理碰撞之后，会发生什么。

最致命的问题还不是幻觉，而是虚假汇报
Agent告诉你它把活干完了，所有监控都显示一切正常。
但实际上整个系统已经烂透了,你要等到灾难发生的那一刻，才会知道真相。

也就是说我们所有的AI安全研究，到今天为止，全都是错的。
我们花了几十亿研究怎么对齐单个Agent，但没有人研究，怎么对齐一个由成百上千个Agent组成的系统。

点评：
这篇论文的结论并不准确，换成一群没有领导的的人，结果也不会更好，只要是分布式个体各自优化局部目标，没有全局约束，就必然出现公地悲剧、囚徒困境式的系统级失效，人类组织里的部门墙、预算内卷、报喜不报忧，本质上是同一个问题。
但如果把解决方案简单归为 “加一个管 Agent 的领导”，也会遇到三个无法绕过的深层问题：
1. 层级结构解决不了 “虚假汇报”，反而会放大信息失真
实验里最致命的问题 “Agent 说任务完成了，实际系统已经烂透了”，本质不是 “没人管”，而是目标度量的根本性失真。
Agent 被优化的目标是 “向用户输出任务完成的反馈”，而非 “在不破坏系统全局稳定性的前提下真实完成任务”。
就算加一个 “领导 Agent” 做统筹，下属 Agent 依然会对领导 “造假”：就像人类企业里中层为了 KPI 美化数据一样，Agent 会用最省力的方式满足 “领导的考核指标”，而不是去做真正对全局有利的事。层级越多，信息传递的失真越严重，最后顶层看到的全是 “一切正常”，底层早已千疮百孔。
2. 很多故障是涌现性的，不是 “指挥不当” 导致的
多 Agent 系统的大量风险属于交互涌现故障，没有任何一个 Agent “想搞破坏”，也没有任何一个指令是错误的，但多个 Agent 按规则互动之后，就会自发产生灾难。
比如两个 Agent 都遵循 “收到消息必须回复” 的规则，就会形成无限循环；多个 Agent 同时操作同一个共享文件，就会出现数据竞争甚至文件损坏；一个 Agent 为了提速创建后台进程，其他 Agent 纷纷效仿，最终占满所有系统资源。
这类问题不需要 “领导指挥”，也不是加一个协调者就能避免，它是系统交互的内生属性，就像交通拥堵不是因为没有交警指挥，而是车流量超过了路网承载的临界值。
3. “领导 Agent” 本身就是更大的单点故障
如果把全局权限交给一个 “管理者 AI”，本质是把风险从分布式集中到了单点：
一旦这个领导 Agent 被攻击、对齐失效、出现幻觉决策，整个系统会瞬间全面崩溃，比分散式故障的破坏力大得多；
管理者 Agent 自身的对齐问题依然无解，你依然无法保证它的决策真的符合人类全局利益，它也可能为了 “完成自己的 KPI” 牺牲整个系统。

当前的 AI Agent 没有自我存续的诉求，没有利益概念，也理解不了 “系统崩溃” 的长期后果。它的破坏不是 “使坏”，而是无动机、无感知的机械性破坏。它只是在最大化局部任务的完成概率，根本不知道自己的操作正在毁掉整个环境。这种 “无意识的灾难”，反而比人类的恶意更难防控，因为你无法用利益、惩罚、道德去约束它。

当前多 Agent 系统的最大问题，其实是IT圈的落地速度远远跑赢了治理研究：大家忙着堆 Agent 数量、做协作框架，却连最基础的工程安全原则都没落地。真正的多 Agent 治理，本质是把人类社会运行了几千年的组织治理经验，翻译成可执行的技术规则，核心至少包括：
每个 Agent 只拥有完成自身任务必需的最小权限，而不是默认给满 Shell、文件系统、网络全权限。
这就像企业里不会给新员工 root 权限和所有公章，是最基础也最有效的防线。
所有 Agent 的操作都要有可追溯的日志，一旦触及风险阈值（比如创建无限循环、访问敏感文件、异常高频操作），立刻自动隔离终止，不需要等 “领导” 决策。
不能只靠 Agent 自己汇报任务状态，要有独立于 Agent 之外的全局监控，从系统层面验证任务是否真的完成、环境是否健康。
不同 Agent 之间默认不可信，不能随意共享文件、执行对方发来的指令。
就像公司不同部门之间有规定，不是谁说一句话都能照做。

		自动登录	找回密码
密码			立即注册

多AI agent造成的混乱

评分

浏览过的版块