机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 43|回复: 0

用中文提问能影响美国大模型

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
216396
发表于 昨天 15:03 | 显示全部楼层 |阅读模式
华尔街日报称,上周,《自然》杂志发布一篇研究论文。其中显示,美国多所大学的研究人员,首次发表了经过同行评审的证据,显示中共官方控制的媒体内容,已经大量进入全球主流人工智能聊天机器人的训练数据。
这项研究由俄勒冈大学、普渡大学、纽约大学、普林斯顿大学等机构的学者共同完成。研究发现,包括新华社、《人民日报》以及“学习强国”等中共官方内容,如今已经明确存在于ChatGPT等AI系统的记忆中。

研究人员分析了目前全球最大的中文开源资料库之一“CulturaX”。这个资料库包含大约1.89亿份从中文网抓取的文档,被许多AI实验室用于训练模型。
从整体来看,其中有1.64%的内容与中官方媒体重叠。这个比例看上去似乎不高,但如果涉及习、党代会等主题,官方媒体的内容占比会飙升到接近四分之一。
更引发关注的是,研究人员测试多个主流AI聊天机器人后发现,同样的问题,用中文回答比英文回答更偏向北京立场。
研究团队找来9名不知情的评估者来参与实验,结果显示,在75%以上的案例中,中文回答比英文更“亲北京”。
论文还点名,包括OpenAI的GPT、Google的Gemini、Anthropic的Claude,以及马斯克旗下的Grok,都存在类似现象。

而中国本土AI模型DeepSeek则不同,无论用中英文回答,其立场都明显偏向于北京。
最值得警惕的是,这个过程并不需要中进行秘密操作。因为这些宣传内容本来就公开存在于互联网上,以普通HTML页面形式免费开放,任何AI公司的网络爬虫都可以轻易抓取。
相比之下,许多西方独立媒体因为采用付费订阅模式,反而更难进入AI训练系统。
研究还发现,这种现象并不仅限于中国。在新闻自由度较低的国家,比如俄罗斯和朝鲜,AI系统更容易生成偏向于当地政府的内容。
有学者警告,未来真正值得担忧的,不只是宣传内容进入AI,而是AI回答往往不会标注信息来源。用户很难知道,这些观点究竟来自于独立信息,还是独裁政府的宣传。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-5-26 05:38 , Processed in 0.062041 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表