来源:智通财经《澳洲幸运10老平台》网
在上周,来自中国DeepSeek的AI工程师团队所开创的DeepSeek R1大模型可谓霸榜美国热搜,并且DeepSeek应用已登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT,堪称属于中国AI的“里程碑时刻”。DeepSeek团队证明,他们能够在没有世界最顶级的英伟达高性能AI GPU提供强大AI算力的情况下,以极低成本加上性能普通的AI加速器训练出推理能力一流的突破式开源AI大模型,这也意味着未来大模型训练/推理比拼的不再是动辄千万亿美元的AI GPU算力战,极有可能是人人都能参与的“头脑风暴”。
DeepSeek R1的问世,宣告AI训练与推理成本大幅缩减,在不到600万美元的极低投入成本和2048块性能远低于H100与Blackwell的H800芯片条件下,DeepSeek团队打造出性能堪比OpenAI o1的开源AI模型,相比之下Anthropic与OpenAI训练成本高达10亿美元。该模型每百万个token的查询成本仅为0.14美元,而OpenAI的成本为7.50美元,成本降幅高达惊人的98%。展望未来AI算力前景,DeepSeek R1横空出世也重磅宣告随着训练/推理步入“极致压缩+高效强化训练+AI推理算力大幅简化”的低成本新范式,属于AI ASIC的时代降临。
据了解,UC伯克利、港科大、HuggingFace等顶级学术团队与AI科技大拿们在上周纷纷成功复现DeepSeek,只用强化学习,没有监督微调,30美元就能见证所谓的“啊哈时刻”,即Aha moment,也被称作所训练的AI大模型的“顿悟时刻”。全球AI大模型,或许正在进入下一分水岭。诚如图灵奖得主Yann Lecun所言:“这一次,正是开源对闭源AI大模型的胜利!”DeepSeek火遍全球,一度让DeepSeek应用界面闪崩,但问题在数分钟内得到解决。中国AI界上一次出现宕机情况,还是月之暗面Kimi出圈之时。
为何认定属于AI ASIC的时代到来?DeepSeek大模型所彰显的AI训练端“极致工程+集中精度”的技术趋势,确实让AI ASIC相比于动辄购买成本高达数十亿美元的英伟达AI GPU在GPU引以为傲的AI训练端更具算力系统可行性与竞争力。在AI推理端,随着未来生成式AI软件以及AI代理等最前沿AI应用大规模普及,推理端算力需求将愈发庞大,叠加DeepSeek开创的范式大幅降低推理成本,AI ASIC在聚焦于高效且天量级神经网络并行计算的AI推理领域无论性能和成本优势,都比AI GPU要大得多。
DeepSeek R1重磅出炉之后,全球科技股投资者以及推崇AI的科技界粉丝们对于英伟达(NVDA.US)高性能AI GPU(Hopper架构与Blackwell架构GPU)的信仰可谓出现重大裂痕,令投资者们不禁怀疑:数百亿美元支出规模,对于Meta、微软等AI大厂来说真的必要吗? 大厂们联手博通(AVGO.US)/Marvell(MRVL.US)推出自研AI ASIC(即定制化AI芯片)岂不是性价比高得多?虽然英伟达也表示未来将进军AI ASIC领域,但目前尚未有任何布局,且难以撼动深耕该领域多年的博通与Marvell的定制化AI芯片主导地位。
DeepSeek用开源方式证明:打造出堪比o1的大模型并不需要无脑堆积“英伟达AI GPU”
DeepSeek本次霸榜美国乃至全球社交媒体热搜,起因在于1月20日其正式发布推理大模型DeepSeek-R1,该大模型经多位科技界大拿在上周证实其在数学、编程和推理等关键领域的表现,能与OpenAI推出的号称“人类史上最强推理模型”的o1“掰手腕”,但其总体API调用成本却低了95%左右。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段,让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。
DeepSeek 在完成主干预训练后,针对数学、编程、长上下文等“高价值能力”做强化学习或蒸馏精调。通过少量GPU小时的“深度强化学习”大幅提升特定任务指标,而无需对整套模型做全量高成本训练,尤其是“R1-Zero”完全不用预先提供思维链示例及复杂奖励模型,而是只用简单的“对错奖励 + 格式奖励”,便通过训练算法能让AI大模型自发地在推理过程中产生“顿悟(Aha Moment)”式的思考。
简而言之,DeepSeek通过“极致工程化、并行优化以及精筛数据”为核心来不断削减通用算力的“无效消耗”,把资源集中到最能提升模型性能的核心模块(注意力头、关键算子、RL/蒸馏微调等),展示了“极致工程化 + 后训练端蒸馏 + 专业数据整合+主攻强化训练”新范式如何在有限GPU 资源下逼近乃至超越行业主流大模型性能,对传统“巨额烧钱”模式提出了强力挑战。因此DeepSeek将硬件和算法的潜能最大化挖掘——这与过去很长一段时间美国科技大厂们“粗放式烧钱”在某种程度上形成鲜明对比。
DeepSeek引领的“低成本算力浪潮”已经令投资者们开始怀疑美国AI大厂们支出的合理性,如果这些科技巨头AI巨额投入仍然无法产生令投资者感到满意的创收与盈利,以及超出市场预期的业绩数据,可能迎来比去年夏季时期规模更大的“科技股抛售浪潮”。
据了解,虽然训练/推理成本相比于GPT家族以及LIama开源大模型骤降,但是DeepSeek大模型的多个性能指标却位于行业顶尖水平。性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero以及在此基础上改进的 DeepSeek-R1,在 2024 年AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的79.2%水平可谓并驾齐驱。DeepSeek-R1在算法类代码场景(Codeforces)以及GPQA、MMLU中的最终得分略低于OpenAI o1,但是在评估AI大模型在解决实际软件工程问题能力的SWE-Bench Verified方面,意外强于o1。
博通领衔AI ASIC强势崛起! 未来有望不断蚕食属于AI GPU的份额
AI训练,长期以来是英伟达AI GPU堪称绝对垄断的领域,占据市场份额高达惊人的95%。然而,随着AI 训练端有望通过“极致工程化 + 后训练端蒸馏 + 专业数据整合+主攻强化训练”新范式不断削减通用算力的“无效消耗”,把资源集中到最能提升模型性能的核心模块,这种趋势有利于在训练端逐步采用专用化/高能效的芯片,比如AI ASIC,有望逐渐占据训练端至少10-20%份额。主要因为当模型结构和训练流程逐渐成熟稳定后,比如一些规模庞大但结构相对标准的 Transformer变体,ASIC 可以在相对“固定”的核心算子上进行极致优化,从而显著提升训练效率、降低硬件和电费成本。
但是,这种转变不是一蹴而就,在当前AGI仍处于研发进程,AI GPU的灵活性与通用性仍然是AI训练最倚重的专属能力。超大规模的AI模型,比如GPT家族与LIama开源家族,在“研究探索”或“快速迭代”阶段对算子灵活性、网络结构可变性的需求依旧很高——这是通用 GPU 仍占据优势的主要原因。
因此,中长期AI训练端大概率将是GPU与ASIC完美并存,而绝非当前GPU一家独家。当AI大厂/机构想要大规模训练“固定/稳定下来的核心结构”时,ASIC 在片上内存/带宽设计上可比通用 GPU 做得更极致,ASIC可能更具性价比;而当AI大模型结构频繁迭代、需要通用并行和快速适配时,英伟达AI GPU依然是不二之选。
DeepSeek低成本范式表明,AI推理完全能够通过算法工程优化以降低推理开销,让大模型得以更便捷、更廉价地进行部署,这也意味着未来AI推理端AI ASIC优势将更加庞大。英伟达通用AI GPU 虽然功能强大,但其功耗、企业购买成本以及算力租用成本在大规模推理算力场景下压力大得多。微软、亚马逊、谷歌以及Meta,无一例外都在联手博通或者Marvell自研AI ASIC芯片,用于海量推理端算力部署。比如谷歌联手博通打造的TPU(Tensor Processing Unit)就是一种最典型的AI ASIC。
摩根士丹利近日发布的研报显示,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,年复合增长率达到34%。不过大摩表示,AI ASIC的崛起并不意味着英伟达AI GPU前景悲观,该机构认为这两种芯片体系将长期共存,为终端需求场景提供结合两者优势的解决方案。此外,大摩通过TCO模型对比了AI ASIC和AI GPU在AI训练和推理任务中的成本效益,结果显示ASIC的初始成本较低,尤其适合预算有限的云服务提供商们。
随着大模型架构逐渐向几种成熟范式收敛(例如标准化的 Transformer 解码器、Diffusion 模型流水线),ASIC可以更容易地吃下主流推理端算力负载。并且某些云服务商或行业巨头会深度耦合软件栈,让 ASIC兼容常见的网络算子,并提供优秀的开发者工具,这将加速 ASIC 推理在常态化/海量化场景中的普及。
展望未来算力前景,英伟达AI GPU可能更多专注在超大规模前沿探索性的训练、变化极快的多模态或新结构快速试验,以及 HPC、图形渲染、可视分析等通用算力。AI ASIC则聚焦于深度学习特定算子/数据流做极致优化,也就是擅长稳定结构推理、批量高通量、高能效比。比如,如果一家云平台的AI工作负载中大量使用针对 CNN/Transformer 中常见算子(比如矩阵乘法、卷积、LayerNorm、Attention等),大多AI ASIC会针对这些算子做深度定制;图像识别(ResNet系列、ViT)、基于Transformer的自动语音识别(Transformer ASR)、Transformer Decoder-only、部分多模态流水线固定化后,都可以基于ASIC进行极致优化。
ASIC通常采用数据流架构 (Dataflow) 或张量处理单元等方式,对矩阵乘法、卷积、激活函数、注意力层等进行高度优化。一旦某些大模型架构在商用场景中趋于稳定,且推理调用量极大,则基于ASIC的专用定制硬件可以将单位能耗与单位成本做到大幅优于通用 GPU(通常可达 2~10 倍不等能效提升)。因此随着推理端越来越聚焦成本与能效,AI ASIC 具备更大规模的配置前景,特别是在神经网络结构逐渐固化的常态化、批量化AI推理任务上。
就像大摩预测的那样,长远来看,两者将和谐共存,中期左右AI ASIC市场份额有望大幅扩张。英伟达通用GPU将聚焦于复杂多变场景与前沿研究,ASIC 聚焦高频稳定、大规模的AI推理负载以及一部分成熟稳定的固化训练流程。
“公司正与大型云计算客户们合作开发定制化的AI芯片,我们目前有三家超大规模云客户,他们已经制定了自己的多代‘AI XPU’路线图,计划在未来三年内以不同速度部署。我们相信,到2027年,他们每家都计划在单一架构上部署百万级XPU集群。”博通CEO陈福阳表示。这里的XPU指代的是“扩展性强”的处理器架构,通常指代是除英伟达AI GPU之外的AI ASIC、FPGA以及其他的定制化AI加速器硬件。
巴克莱银行在一份最新报告中预测,2025年英伟达、博通以及Marvell将成为人工智能半导体领域的领导者,而不是英伟达继续垄断AI芯片市场。巴克莱更是将博通的目标股价从205美元大幅上调至260美元。
华尔街另一大行美国银行(Bank of America)的分析师团队近日在一份报告中表示,2025年芯片股仍有可能是美股表现最亮眼的板块之一,美股芯片板块的“AI芯片三巨头”——即英伟达、博通以及Marvell均位列美国银行的2025年“首选芯片股名单”。
责任编辑:张恒星