
硅谷 AI 精英在公开场合的表态,与他们真实的判断和资源部署之间,存在系统性背离,他们之间存在一种压制中国AI 的战略默契:表层威胁论扩大政策弹药(出口管制、打击蒸馏、限制云租赁),里层用代差武器锁定真实的断代领先。
日本、加拿大和英国金融系统的高官,近期纷纷发出警告,原因在于,他们目睹了一个美国新模型的惊人能力。这款模型叫 Mythos,属于Anthropic目前真正的旗舰模型,其训练参数规模约10万亿,单次训练成本高达100 亿美元左右。
但在中国,普通用户对此闻所未闻,即便谈球吧官方网站是AI从业者,纵使听过名字,也不清楚其实力究竟。
Mythos没有对外公开,这指的是该模型不通过API公开提供,不进入 LMArena,不与任何模型在公开榜单上同台,而是通过一个叫“玻璃翼计划(Project Glasswing)”的机制,以受控方式开放访问。
12 家创始合作伙伴获得了访问资格,包括AWS、Apple、Google、Microsoft、NVIDIA、CrowdStrike、Linux Foundation 等关键基础设施企业,外加约 40 家维护“关键软件基础设施”的其他组织获得有限访问权(英国 AI 安全研究所测试过 Mythos)。但加拿大、日本、欧盟等盟友的国家级金融监管和国家安全机构基本未能进入名单,这意味它们既无法独立评估 Mythos 的能力边界,也无法验证它对本国关键系统的潜在影响。
金融官员们的反应,不是“我也要这个模型”,而是“我要防御它”,这在 AI 史上是第一次。
于是,这就回到了问题真正的起点:当一个国家把“真正最强的 AI”和“对外评测的 AI”分开管理时,所有建立在公开榜单上的“差距分析”都失去了意义。
而在中国舆论场,近一个月反复引用的报告是来自斯坦福 HAI 4 月发布的《AI指数报告2026》,报告中,中美 AI 大模型的性能“差距缩小到 2.7%”。许多中国的从业者、投资者、政策制定者乃至普通群众,都为此感到信心满满。
《2026 Al Index report》——“历史性拐点,中美大模型已没差距”“炸裂反转,中国仅用2.7%差距锁死全局”等标题在舆论场中出现。
如果说 Mythos 是“美国没拿出来的”模型,美国国家技术标准局(NIST)下属 CAISI 中心 4 月底的一份评估告诉我谈球吧官方网站们:美国已经拿出来的部分,差距也比想象大得多。
从表格来看,双方已发布最新模型之间,不是2.7% 的差距,而是超过 30 个百分点的差距, 并在网络安全这一最敏感维度上达到 39 个点。
CAISI 的结论是:DeepSeek V4 Pro 的实际能力相当于 8 个月前的 GPT-5,且差距在扩大。事实上,DeepSeek 在V4 的技术博客中,对比的也是 GPT5.4,并未与几乎同期发布的 5.5 比较。
DeepSeek 自己说能力接近 Claude Opus 4.6,这话在公开基准上成立,在 CAISI 的未公开基准上,它实际相当于 Opus 4.4 时代的 GPT-5。中间隔着两个版本号、8 个月时间、三家最强公司的迭代节奏。
xAI 那种“同时训练 7 个模型”的暴力模式只有算力极度充裕才能做到,本质是用算力买确定性,跑通哪个用哪个。但即使这样,它也没拿到胜利,最近刚刚被埃隆·马斯克整合进 SpaceX,失去了独立运营的资格。
相比硅谷公司在算法上做“暴力筛选”,以 DeepSeek 为代表的中国头部模型公司,必须做算法上的“精打细算”。也许有人会说这恰恰体现了中国公司的工程能力,但更接近实际情况的是,这是一种无可奈何。毕竟,所有人都明白,精打细算可以追平 80% 的能力,最后那 20% 的代差,必须靠足够算力才能撑起来。
国产芯片产能在快速追赶是事实。但即便产能上来了,能不能跑出和英伟达一样的结果?是被严重低估的另一个挑战。
2025 年 11 月发表的一项研究(奥克兰大学、香港理工大学、岭南大学、哈工大等机构)首次对 5 款企业级 AI 加速器做了大规模实测——英伟达 H200、AMD MI300X、Intel Max 1100、华为昇腾 910B、Apple Mac M4 Pro——用 4000 个真实 PyTorch 模型合成超过 10 万个变体逐一测试。
5% 的输出不一致率在金融、医疗、自动驾驶等高可靠场景是无法接受的;在大模型预训练场景,这种偏差会通过千万次迭代被放大成系统性错误。
以上是学术论文,最后有一个真实世界的注脚。无独有偶,就在几天前的谷歌I/O大会后,旧金山的 AI 视频生成公司Midjourney的创始人霍尔茨(David Holz),就在公开吐槽自己公司用了谷歌的 TPU 芯片,导致模型落后了一年,并表达了对英伟达芯片的赞赏。
Midjourney曾是AI生图的绝对领先者,如今已经显得比较平庸,并被很多产品反超。这个案例很直观地说明了英伟达高端芯片当前对绝大多数公司的不可替代性。当然,他这样公开的吐槽,必然遭受来自外界的压力,所以,很快这条内容就消失了。但对英伟达芯片的褒奖,代表了一种实践认知,客观上比论文更有说服力。
这意味着,不同芯片之间的算力差距,不只是“数量”问题,更是“质量”问题。
中国 AI 圈过去一年反复讲一个故事:DeepSeek 用 2048 张 H800 训练出顶尖模型,证明算法可以对冲算力。这个故事是真的——但它的边界没讲清楚。
2026 年 ACL 主会议发表的一项研究(中科大与上海 AI 实验室合作)给出了一个明确的数学结论:
翻译成大白话就是:没有办法通过后训练,把一个 1.6 万亿参数模型调到 10 万亿参数模型的能力水平。
如果我们把Mythos 的封闭、CAISI 的未公开评估、算力的指数级差距、异构加速器的不一致、后训练的数学上限综合起来看,再回看过去半年硅谷在中国舆论场反复释放的“中国 AI 追上来了”“差距缩小到 2.7%”,就会发现一件事:硅谷 AI 精英在公开场合的表态,与他们真实的判断和资源部署之间,存在系统性背离。
面对硅谷释放的烟雾弹,从去年年初DeepSeek 爆发开始,几乎过去了一年半的时间,中国舆论场基本被其表层叙事成功捕获。
例如,中国的 AI模型公司,普遍乐意释放有利于自有模型的打榜信息,各种媒体、短视频传播不绝如缕;广大媒体和自媒体,也十分愿意宣传这些榜单,既无监管压力,又有切实收益,何乐不为;科技产业政策的制定者,也接纳斯坦福报告中的有利数据和媒体的正面宣传,沉湎于日益泛滥的赢学叙事。可以说,整个国家都洋溢上 AI 向上的氛围,所有人都满意,所有人都不愿打破认知上的舒适区。
对此,面对最强AI武器化的临近,中国当下是否有足够的评估能力和防御准备,应该被视为一个关键议程。
