中国AI初创公司深度求索(DeepSeek)推理大模型R1的发布在AI社区引发了冲击波,颠覆了人们对实现尖端AI性能所需条件的假设。与OpenAI的o1相比,其成本仅为3%-5%。这种开源模式不仅吸引了开发人员,还挑战了企业重新思考其AI战略。
这对企业AI战略的影响是深远的。随着成本的降低和开放获取,企业现在有了像OpenAI这样昂贵的专有模型的替代品。DeepSeek的发布可以使尖端AI功能的获取民主化,使小型组织能够在AI军备竞赛中有效竞争。
在一组第三方基准测试中,涵盖从复杂问题解决,到数学和编码的准确性方面,DeepSeek模型的表现优于Meta Llama 3.1、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。
转向纯强化学习
DeepSeek-R1偏离了广泛用于训练大型语言模型(LLM)的传统监督微调(SFT)过程。SFT是AI开发的标准步骤,涉及在精心策划的数据集上训练模型,教会它们逐步推理,通常被称为思维链(CoT)。这被认为对提高推理能力至关重要。但DeepSeek通过完全跳过SFT来挑战这一假设,转而选择依赖强化学习(RL)来训练模型。
这一大胆举措迫使DeepSeek-R1开发独立的推理能力,避免了规范性数据集经常引入的脆弱性。虽然出现了一些缺陷,并导致团队在构建模型的最后阶段重新引入了有限数量的SFT,但结果证实了根本性的突破:仅强化学习就可以带来显著的性能提升。
微软AI前沿研究实验室的首席研究员Dimitris Papailiopoulos称,R1最让人惊讶的是它的工程简单性。他说:“DeepSeek旨在获得准确的答案,而不是详细说明每个逻辑步骤,从而在保持高水平效率的同时显著减少计算时间。”
埃默里大学(Emory University)信息系统助理教授Hancheng Cao表示:“这可能是一个真正的均衡突破,对资源有限的研究人员和开发人员来说是件好事,尤其是来自南半球的研究人员。”
得益于开源
DeepSeek在很大程度上使用了开源。DeepSeek最初为其专有聊天机器人开发AI模型,然后将其发布供公众使用。人们对该公司的确切方法知之甚少,但它很快将其模型开源。
社交平台X的用户Silver Spook称:“感谢中国公司Deepseek,他们开发的DeepSeek-R1证明,生成式AI是一个被资本家夸大的巨大骗局,其实际价值不到550万美元。”(注:英伟达工程师Jim Fan称,DeepSeek在两个月内以558万美元的预算训练了其基础模型V3。)
DeepSeek以有限的资源实现有竞争力的结果的能力,突显了独创性和足智多谋。此外,DeepSeek从一开始就非常具有创新性。引入了专家混合系统(MoE)和多头潜在注意力(MhLA)。
DeepSeek-R1之所以带来如此多的惊喜,是因为开源模型背后有着巨大的逻辑和动力。它们的免费成本和延展性是此类模型将在企业中获胜的原因。
对于企业决策者来说,DeepSeek的成功突显了AI领域更广泛的转变:更精简、更高效的开发实践越来越可行。一些组织可能需要重新评估与专有AI提供商的合作关系。
Meta首席AI科学家Yann LeCun称,DeepSeek的成功突显了保持AI模型开源的价值,这样任何人都可以从中受益。这表明开源模式正在超越专有模式。LeCun说:“他们提出了新的想法,并将其建立在其他人的工作之上。因为他们的工作是公开和开源的,每个人都可以从中获利。这就是开放研究和开源的力量。”
社交平台X的用户Niels Rogge称:“有一家名为DeepSeek的中国公司,它基本上做了OpenAI最初打算做的事情。他们开源了一个经过大规模强化学习训练的模型,击败了其他所有人,甚至还发表了一篇详细介绍其过程的论文。”
消费者受益
虽然DeepSeek的创新是突破性的,但它绝不是建立了绝对的市场领先地位。因为它发表了研究成果,其他模型公司将从中学习并适应。Meta和法国开源示范公司Mistral可能会落后,但他们可能只需要几个月的时间就能赶上。
最终,消费者、初创公司和其他用户将赢得最大的胜利,因为DeepSeek的产品将继续将使用这些模型的价格推到接近零的水平。这种快速的商品化可能会给在专有基础设施上投入巨资的领先AI提供商带来挑战,甚至是巨大的痛苦。
社交平台X的用户Shubham Saboo称:“DeepSeek R1 100%开源,比OpenAI o1便宜96.4%,同时提供类似的性能。OpenAI o1每1M输出Token为60美元,而DeepSeek R1每1M输出Token为2.19 美元。拥有200美元ChatGPT订阅的人,请仔细考虑一下。”
正如许多评论家所说,包括Meta的投资者兼前高管Chamath Palihapitiya,这可能意味着OpenAI和其他公司多年的运营支出和资本支出将被浪费。
OpenAI投资回报问题
这一切都引发了人们对OpenAI、微软和其他公司所追求的投资计划的重大质疑。
然而,DeepSeek以极低的成本展示了一种高性能模型,这对这种方法的可持续性提出了挑战,引发了人们对OpenAI为如此巨大的投资带来回报的能力的怀疑。
企业家兼评论员Arnaud Bertrand捕捉到了这种动态,将DeepSeek节俭、分散的创新,与OpenAI等其他开发商对集中、资源密集型基础设施的依赖,进行了对比。
Bertrand称,世界意识到以DeepSeek为代表的开发商在技术和创新方面已经赶上了OpenAI等传统开发商,在某些领域甚至超过了他们。
位于多伦多的技术顾问Reuven Cohen自12月下旬以来一直在使用DeepSeek-V3。他说,它可以与OpenAI、谷歌和旧金山初创公司Anthropic的最新系统相媲美,而且使用起来要便宜得多。
Cohen说:“DeepSeek是我省钱的一种方式。这是像我这样的人想要使用的技术。”
责任编辑:刘明亮
作为本次项目的独家保荐人、独家主承销商,广发证券在凯华 ❡材料上市项目申报、受理至过会期间,全程积极提供支持与协助,助 ♎力企业与当地各级管理机构实现深入对接,对企业上市进程的推进起 ⚡到123彩票app下载快吧重要作用 ⏳,从项目受理到过会,仅用时4个月零3天,高效完成审 ☾核工作。发行阶段,广发证券通过精准路演与高效沟通,战略性引入 ⌛公募基金参与战配,为项目的成功发行奠定了基础。
此外 ☻,ARRK持有的金融股Coinbase和科技股Twilio(仓位近7%),今年以来股价下跌了80%以上。
本报记者 彭孙遹 【编辑:彭孙遹 】