
一系列公开交易竞赛的早期结果显示,主流大型语言模型(LLM)在自主交易中普遍表现欠佳——大多数系统亏损,交易过于频繁,且在接收相同指令时作出截然不同的决策。这些结果引发了一个核心问题:LLM与真实市场运作之间,究竟存在多深的鸿沟。
其中最具代表性的案例来自科技初创公司Nof1运营的Alpha Arena竞赛。该竞赛将Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及Elon Musk的Grok等八大前沿AI系统投入四轮独立比赛,每轮赛前各获1万美元资金,在两周内自主交易美国科技股。最终,整体投资组合亏损约三分之一,32组结果中仅有6次实现盈利。
Nof1创始人Jay Azhang直言:现在把钱直接交给LLM让它自己去交易,这条路还走不通。
Alpha Arena的数据揭示了当前LLM在交易场景中的多重缺陷。在相同提示词下,阿里巴巴的Qwen在一轮竞赛中共执行了1,418笔交易,而表现最佳的Grok 4.20仅下单158笔。Grok的最佳成绩出现在其能够观察竞争对手表现的那一轮赛事中。
AI博客Flat Circle追踪了11个市场相关竞技场,结果显示,所有竞技场中至少有一个模型实现盈利,但仅有两个竞技场的中位模型为正收益,说明大多数模型难以跑赢市场。
各模型之间的决策差异同样引人关注。据Azhang介绍,在Alpha Arena最新一轮测试中,Claude倾向于做多,Gemini对做空毫无抵触,而Qwen则乐于使用高杠杆承担风险。它们各有个性,管理起来几乎像管理一位人类分析师,运营LLM驱动基金的Intelligent Alpha负责人Doug Clinton表示,通过告知模型其存在某种偏差,可以在一定程度上改善结果。
Jay Azhang指出,LLM在研究和调用正确工具方面具备优势,但在交易执行层面存在系统性短板:它们尚不清楚分析师评级、内部人交易、情绪变化等众多影响股价的变量各自的权重,因而容易出现交易时机错误、仓位规模不当以及谈球吧买卖过于频繁等问题。
Intelligent Alpha的基准测试提供了相对积极的参照。该测试为10个AI模型提供财务文件、分析师预测、财报电话会议记录、宏观经济数据及网络搜索权限,聚焦于盈利预测方向的判断。结果显示,2025年第四季度,OpenAI的ChatGPT正确预测盈利预测方向的准确率达68%,创下迄今最佳成绩。Clinton表示,随着每次新版本发布,模型表现总体呈改善趋势。
评估AI交易能力面临一个根本性的方法论障碍。传统量化策略依赖历史回测验证有效性,但这一框架对LLM几乎完全失效——一个在2026年被问及如何交易2020年3月行情的模型,早已知道那段历史的走向。这种被称为前瞻偏差(lookahead bias)的污染问题,迫使研究者只能通过实盘市场对AI进行评估,由此催生了当前各类基准测试和竞技场的大量涌现。
Flat Circle博客谈球吧作者、前另类数据提供商YipitData联合创始人Jim Moran认为,目前大多数公开实验周期过短、噪音过大,尚不足以支撑确定性结论。这些竞技场还存在天然劣势,包括无法获取专有股票研究资源以及执行质量较低。如果把这些竞技场里的某个AI代理直接移植到一家顶级对冲基金内部运行,它的表现应该会更好,他说。
前Coatue Management数据科学主管、现就职于NX1 Capital的Alexander Izydorczyk近期撰文指出,他所追踪的AI交易机器人中,目前尚无一个展现出持久的超额收益能力。他认为,这些竞技场的局限性在于其训练数据中缺失了秘密交易机构所使用的实用量化技术。
然而,Izydorczyk也留下了一个耐人寻味的判断:初学者有时能看到老手看不到的东西。他在个人博客中写道,当LLM代理交易策略真正开始奏效时,你不会马上听到任何消息。
Nof1正在筹备Alpha Arena第二季,计划赋予每个AI模型网络搜索、更长思考时间、更多数据来源以及多步骤执行能力。但该公司的核心商业模式,是为散户交易者提供构建AI交易代理的系统工具——而非直接将AI推上交易席位。这一定位本身,或许已是对当前AI交易能力最务实的注脚。
28岁公务员受邀钓鱼溺亡,家属举报:其手机有大量领导违法违纪证据!官方通报
2025年6月30日,湖南省东安县横塘镇政府公务员王林明与同事外出钓鱼时溺亡,年仅28岁。2026年1月其家属在整理遗物时,发现手机中存在该镇领导干部公款吃喝、虚假报账、组织赌博等违法违纪证据,已向纪委等多部门举报。
61岁张曼玉素颜出镜自称“城市农夫”,分享沉浸式刨土收芋头,发文感慨:每次收成还是很兴奋;开号9个月粉丝超160万
5月8日,张曼玉更新生活vlog,视频里她身着休闲家居服,戴着手套手持工具沉浸式刨土收芋头,还配文感慨:“当了城市农夫已经七年多了,不知道为什么每次收成的时候,还是会那么兴奋!”张曼玉于2025年8月入驻社交平台,她首条视频便收获88万点赞,如今粉丝已破160万。
特朗普访华已进入准备阶段,不料日方突然介入,接连提出三种替代预案,试图将日本设为特朗普亚洲行的首站。眼下,访华日程已全部就绪,美方是否会因日本的阻挠而临时变卦,正成为全球关注的变数。
文 锐析风云局编辑 锐析风云局全球经贸合作最忌讳小动作,尤其把自身发展困境甩给他人,欧洲近年对华经贸领域小动作不断,反补贴调查、采购限制等阴招频出,但这些都只是铺垫,真正的杀招还在后面。
2026年黑龙江养老金计发基数7705元,工龄42年发3900元,合理吗?
2026年黑龙江养老金计发基数7705元,工龄42年,实际发3900元,合理吗?
离职前,我想抱一抱暗恋多年的女总裁,好好说再见,结果她却一把把我拽进办公室反锁后,红着眼说:“别走了,以后我养你!”
离职申请批下来的那一刻,我站在总裁办公室门口,手里攥着那张薄薄的A4纸,像攥着一把滚烫的灰烬。五年了。作为总裁助理,我像个精准的零件,嵌在林薇这台庞大而高速运转的机器里。从清晨六点的咖啡温度,到深夜十一点的并购文件细节,我熟知她的一切习惯,甚至超过了解自己。
故事:离职前,我借酒劲跟前台表白。次日老板:你对她说啥了?我以为今天会是我人生中最糟糕透顶的一天。可我没想到,这仅仅是个开始。
我嫁妆有2套商铺,我妈只让说有1套,过门第5天,婆婆就让我把商铺过户给她儿子,我回了个“哦”,她却吓得3天没敢跟我说话
我妈塞给我两本房产证的时候,表情前所未有的严肃。一本鲜红,一本暗绿。她把红色的那本推到我面前,说:“这套临街商铺,是你爸留给你结婚的嫁妆,风风光光。”然后,她又把那本暗绿的压在箱底,声音低得像耳语:“这套,是妈给你的底气,不到万不得已,烂在肚子里,谁也别说。
扛不住了?巴拿马总统突然发声,对中国说了句让所有人意外的线月的巴拿马,海风依旧,港口如常,但一场由政府自导自演的港口风波,却让这个靠运河吃饭的国家原形毕露。前一天外长还在国际上大放厥词,暗示中国 “报复”,后一天总统就亲自跑到港口紧急灭火,急着撇清关系、呼吁降温。
