
3月17日,2026亚布力论坛第二十六届年会正式开幕。昆仑芯CEO欧阳剑受邀作开幕演讲。
在演讲中,欧阳剑重点谈及了AI算力发展的新机遇和新范式。他指出,Token正逐渐成为AI时代新的“水电煤”,生产生活中的“新刚需”。要让AI成为普惠的社会基础设施,关键在于Token成本需要以至少每年下降一个数量级的速度持续降低。
昆仑芯团队自2011年起便深耕AI加速计算领域,完整经历了从深度学习到大模型爆发、再到AI应用全面落地的发展历程。目前,昆仑芯已实现三代产品的稳步迭代,全面支持客户从单机到万卡级集群的规模化部署,产品定义在每一次技术变革中都精准把握了方向。
大家似乎已经非常熟悉AI,每天在朋友圈和新闻都能看到大模型有新进展,出现新应用。但是不是又有些恍惚?所有这一切,不过是短短三年内发生的。
三年前我们谈论AI时,觉得大模型没什么用,做应用赚不了钱、落不了地。现在,大模型已经足够智能,可以解决复杂的科学问题,协助处理工作中的挑战,甚至替代程序员引以为豪的一部分技能。这些智能化能力是在两三年间涌现的,仿佛有“天上一天,人间一年”的错觉。更难预判的是,未来两三年AI会如何发展。
回望模型的技术演进历程,大模型走向产业不过四年。早期大模型应用的计算能力还受到诸多怀疑,大家觉得耗费了大量资金,做出来的东西却像个玩具。ChatGPT出现,人们发现它已经能写出不错的文章。紧接着,多模态模型也进一步发展,强推理模型在解数学题、做科学研究上表现突出。再后来谷歌Gemini模型出现,借助大模型,很多工作的效率都能实现极高提升。
对于应用,我们有同样感受。一年前,我们很怀疑大模型应用的前景,认为它只是烧钱,客户无法从中获得价值,除了简单聊天不知道能做什么。但今天,大部分程序员如果不借助大模型辅助编程,将会被淘汰。许多非技术类的小公司,用上AI和智能体(Agent)后,效率提升巨大。如今全民“养龙虾”现象,很好地说明应用已经爆发。一年前,我就在公司内部提出:Token将成为AI时代的“水电煤”,是未来生产和生活的新刚需。
Token这个词大家最近听得比较多,“养龙虾”后每天花在Token上的钱非常多,可能不止100元。Token是大模型的输入和输出单位,有了大模型后,Token成为所有信息形式(文本、图像、语音)的统一描述,这让信息的表达和计算变得非常简洁。同时,Token也是大模型使用量的直接度量,用了多少Token,就对应花费多少钱。
我们做过一个统计,看使用Token的人每月大概花费多少钱。一类是普通用户,每天与聊天工具对话,可能消耗几万个Token,月支出在几元至几十元之间;一类是内容创作者,由于涉及图像、视频,Token调用量更大,花费更多;还有一类是开发者,需要编写代码,Token消耗量也很大。以我的观察,最近半年来,无论是程序员、内容创作者还是普通用户,Token使用量都在巨幅增长。
今天早上5点多,我赶最早的航班从深圳飞往哈尔滨,打开微信,发现我80多岁的导师一小时前还在和Chatbot聊天,并把记录发到了群里。这件事让我百感交集,但也证明,很多人真的已经离不开电脑里那个“虚拟人”。我们每天与电脑对话,消耗着海量的Token。
由于技术进步和应用落地,当前Token消耗量惊人,每月达到千万亿量级,且还在量级增长。根据谷歌、字节跳动等公司的公开数据,Token在过去一段时间里呈量级式增长,每半年就可能翻一个量级。从其他统计口径也能看到,Token年增速超过200%。这是不是意味着对社会资源巨大无比的消耗?答案毫无疑问——是的。
更要命的是,模型还会越来越大,单个Token计算代价也将越来越大。越来越多人担忧:如此发展下去,未来电力会不会大部分都得用来算Token?工业、农业的正常生产,是不是也都要给AI让路?我认为,这是当下必须要解决的问题。
当然,挑战亦是机遇。当前整个业界都在尽最大努力降低Token成本,其中包括优化计算、改进模型结构,甚至降低硬件成本。过去几年,模型成本也在快速下降。
当Token成为社会基础设施,普惠应该是基本属性,其成本需要以至少10X/年速度持续下降,否则它根本支撑不起这么大的调用量。
这个挑战如何解决?需要从两方面发力:一是技术层面,核心是解决系统规模和计算效率挑战,以及芯片、硬件系统、软件系统协同创新。
我本人2009年毕业加入百度,赶上了互联网第一波浪潮。从业至今,我只感受到两个浪潮——互联网和AI。每个浪潮都带来谈球吧论坛了技术的爆发式发展。在互联网时代,芯片产生了多核处理器、闪存;系统层面出现了MapReduce等新计算系统和超大规模数据中心;算法模型有推荐算法、数据挖掘;应用则有搜索、电商、内容推荐。
AI带来了一轮更大的科技爆发。在芯片层面,有我们做的AI芯片,以及存储和互联创新;系统层面,以前的数据中心规模已显不足,现在要谈论千兆瓦(GW)级的数据中心,需要超大规模服务器;软件系统出现了极致的推理框架以降低成本;算法模型层面,创新速度也非常快;应用层面,最典型的就是Chatbot和智能体(Agent)。
二是社会层面,按照基础设施的方式建设和运营算力,并带动半导体、能源等产业协同发展。一定要大幅度降低Token成本,使其成为核心基础设施,带动产业实现量级式发展。能源领域的算电协同也是在此背景下提出的,如果没有AI产生的巨量电力消耗,大家不会往这个方向去思考和创新。随着Token时代到来,半导体和其他零部件生产规模也会迎来量级式增长,反过来,规模效应也会促使成本量级式下降。
我们还可以畅想未来:以前用手机要交话费,未来对Token的运营,是否也会产生新的商业模式?
最后,我想花一点时间介绍昆仑芯。昆仑芯团队已经在这个行业耕耘了十几年。2010年,深度学习还处于萌芽阶段,很多人忽略了那个时代。我们那时就开始尝试用FPGA芯片、GPU等新硬件对深度学习算法进行加速。这项工作非常成功,在数据中心广泛应用,并在Hot Chips、ASPLOS等顶级会议上发表了论文。
2018年,在百度历任领导的大力支持下,我们开启AI芯片自研,命名为“昆仑芯”,并获得了成功。2020年,昆仑芯第一代产品在百度数据中心规模应用达几万片,那是中国最早、规模最大,在全球也属前列的AI芯片应用。2021年,该业务从百度拆分,引入外部投资人,发展加速。
我们熬过了AI不温不火的阶段,那时大家对算力能做什么、模型能产生多大价值都持怀疑态度,尤其是做AI芯片,起步确实艰难。但我们幸运地抓住了大模型爆发的机遇,现在大家看到了算力的需求和大模型的价值。2024年和2025年,昆仑芯的业务提高了一个量级,目前仍然处于持续的高速增长中。
目前,我们已经量产了三代芯片,每一代在客户侧都有几万卡、十几万卡的出货量。今年和明年,我们会不断推出新产品。每年英伟达GTC大会都让人热血沸腾,其实我们也在努力加快产品更新速度,相信这会让大家对国产芯片有信心的。
为了更好地降低Token成本,我们在系统层面有很多创新,包括集成数十卡甚至数百卡的大型机器。此外,在更大规模的GW级的数据中心实现数万卡的互联,完成国产算力卡大规模训练和推理任务。
让我们自豪的是,很多关乎国计民生的行业,以及数亿网民使用的典型场景,都采用了我们提供的算力。回想十几年前创业时,根本不敢想象我们国产芯片能被中国最领先的客户和企业大规模使用。今天,我们做到了。
更让我们自豪的是我们也带动供应链发展。一些复杂的封装技术、服务器系统技术,都是我们与合作伙伴共同推动,实现了从实验到量产的跨越。“让计算更智能”这句线年我们为昆仑芯确立的使命。那时我们就在思考,什么样的使命在未来十几年都不会过时。如今回看,让计算更智能这个使命,正是当下AI时代永不过时的方向。
