用中文提问能影响美国大模型

寂静回声 · 发表于 2026-5-25 15:03:18

华尔街日报称，上周，《自然》杂志发布一篇研究论文。其中显示，美国多所大学的研究人员，首次发表了经过同行评审的证据，显示中共官方控制的媒体内容，已经大量进入全球主流人工智能聊天机器人的训练数据。
这项研究由俄勒冈大学、普渡大学、纽约大学、普林斯顿大学等机构的学者共同完成。研究发现，包括新华社、《人民日报》以及“学习强国”等中共官方内容，如今已经明确存在于ChatGPT等AI系统的记忆中。

研究人员分析了目前全球最大的中文开源资料库之一“CulturaX”。这个资料库包含大约1.89亿份从中文网抓取的文档，被许多AI实验室用于训练模型。
从整体来看，其中有1.64%的内容与中官方媒体重叠。这个比例看上去似乎不高，但如果涉及习、党代会等主题，官方媒体的内容占比会飙升到接近四分之一。
更引发关注的是，研究人员测试多个主流AI聊天机器人后发现，同样的问题，用中文回答比英文回答更偏向北京立场。
研究团队找来9名不知情的评估者来参与实验，结果显示，在75%以上的案例中，中文回答比英文更“亲北京”。
论文还点名，包括OpenAI的GPT、Google的Gemini、Anthropic的Claude，以及马斯克旗下的Grok，都存在类似现象。

而中国本土AI模型DeepSeek则不同，无论用中英文回答，其立场都明显偏向于北京。
最值得警惕的是，这个过程并不需要中进行秘密操作。因为这些宣传内容本来就公开存在于互联网上，以普通HTML页面形式免费开放，任何AI公司的网络爬虫都可以轻易抓取。
相比之下，许多西方独立媒体因为采用付费订阅模式，反而更难进入AI训练系统。
研究还发现，这种现象并不仅限于中国。在新闻自由度较低的国家，比如俄罗斯和朝鲜，AI系统更容易生成偏向于当地政府的内容。
有学者警告，未来真正值得担忧的，不只是宣传内容进入AI，而是AI回答往往不会标注信息来源。用户很难知道，这些观点究竟来自于独立信息，还是独裁政府的宣传。

		自动登录	找回密码
密码			立即注册

用中文提问能影响美国大模型

浏览过的版块