医学大模型靠刷榜维持存在感

寂静回声 · 发表于 3 天前

在如今的 AI 圈，中国大模型厂商和全球科技巨头们最迷恋的动作，莫过于在朋友圈晒各种“打榜截屏”。
今天某大厂宣布其医疗模型在 CBLUE 榜单斩获第一，明天另一家宣称在 MedQA 上“超越协和医院临床医生”。
看文案，AI 似乎下周就能接管三甲医院的分诊台；然而现实中，几乎没有机构让这些“榜一模型”独立接诊.
这种巨大的“认知方差”，正在被新的医学大模型评测无情戳破。
它们在静态多选题里拿高分，本质上是在用海量微调数据进行“存量榨取”（Exploitation）。
一旦换进动态的真实诊疗场景，这些高分状元的短板就会迅速暴露。
针对这种刷榜文化，上海人工智能实验室等机构在 2026 年 6 月提出了 MedBench v5 评测基准。
它不再只考选择题，而是把模型直接放进“多轮动态模拟诊疗”的智能体（Agent）沙盒中。
论文提出了一个很精准的行业诊断：“知识—实践鸿沟”（Knowledge–Practice Gap）。
为了测试大模型究竟是真懂医疗，还是只会背题，
MedBench v5 在多轮对话中设计了三类信息流压力源，第一，信息遗漏（Omission）。故意隐去关键病历指标，看模型会不会主动追问。
第二，信息矛盾（Contradiction）。前后输入互相冲突的检查结果，测试模型的逻辑警惕性。
第三，证据延迟（Evidence Delay）。在对话后期才抛出决定性的证据，看模型能不能转过弯来。
论文最讽刺的发现是：当受到这些更接近真实世界的信息压力干扰时，大模型在矛盾检测、诊断更新、幻觉控制等底层推理环节，会暴露出明显问题。
模型最终生成的诊断报告，表面上可能依然完整、流畅、专业。
这才是医学大模型最危险的地方。不是它明显答错，而是它错得很像真的。
这种“金玉其外”的作秀，正是医学大模型一换评测就显形的底层原形。
那么，动态沙盒就能拯救 AI 医疗吗？也未必。
MedBench v5 确实提供了一个更高分辨率的评测框架，把很多注水能力剥了出来。
但它不是终点，只要一个评测变成新榜单，行业很快就会迎来新一轮“动态刷榜游戏”。

第一个原因，是智能体环境被过拟合。
MedBench v5 设计了固定的智能体环境和状态转移机制，只要规则是确定的，厂商就可能研发出针对这个沙盒的“逆向通关攻略”，也就是对抗性微调。
模型不需要真正具备临床思维，它只需要学会如何卡沙盒的 Bug 拿高分。
第二个原因，是“裁判员”本身也有偏误。
为了自动化审计复杂推理过程，评测往往不得不引入强模型作为裁判，也就是 LLM-as-a-Judge。
但大模型裁判并不是绝对中立的。它可能偏好跟自己风格相似的输出，也可能更容易奖励长篇、完整、看起来逻辑严密的回答。
第三个原因，是模版化压力无法完全模拟人类的现实噪音。
论文里的矛盾和延迟，是被设计进沙盒里的压力源。但真实临床中的噪音远比这复杂。
病人的语带保留、情绪化表达、记忆偏差、非结构化描述，以及物理查体带来的信息，都不是固定代码沙盒能完全还原的。

当静态分数成为大模型厂商的营销诉求，这个指标的有效性就已经开始衰减。
今天大家刷选择题。明天大家刷动态沙盒。后天可能开始刷裁判模型的偏好。
只要行业还把“第几名”当成核心叙事，医学 AI 就很难真正走进深水区。
别在模拟考里争第一了。什么时候一个医学大模型敢放进有法律追责、有真实人类噪音、有临床灰度测试的场景里走一圈，那时候挺过来的模型，才配得上真正的“榜一”。

		自动登录	找回密码
密码			立即注册

医学大模型靠刷榜维持存在感

浏览过的版块