智通财经了解到,在美东时间周一晚些时候,全球最顶级AI科技公司OpenAI的掌舵者——即首席执行官萨姆·奥尔特曼(Sam Altman)在社交媒体X的一篇最新帖子中,他对于以“极低训练/推理成本+超高性能”为核心特征,在短短几日内闻名全球的DeepSeek R1大模型可谓“赞不绝口”。奥尔特曼在帖子中可谓不啬溢美之词,盛赞DeepSeek R1这一性能堪比OpenAI o1同时AI算力成本极低的大模型所带来的史无前例的“AI大模型算力新范式”。
此外,在中国万家团圆的除夕日,DeepSeek可谓彻底杀疯了,DeepSeek正式发布集理解与生成一体的Janus-Pro和JanusFlow系列开源多模态AI模型,参数大小从10亿到70亿不等,给闭源多模态领域带来开源图像生成的震撼。有机构投资者表示,DeepSeek证明了这种“低算力成本范式”不仅能够打造出堪比OpenAI的文本生成AI聊天机器人,还以低成本能够打造出堪比OpenAI DALL-E 3的多模态大模型,这也是为何周一美股盘中(即北京时间午夜),纳指与英伟达等AI芯片股股价进一步大跌的核心逻辑。
OpenAI掌舵者奥尔特曼盛赞DeepSeek!特朗普则认为DeepSeek横空出世为美国AI行业敲响警钟
“这家迅速崛起至全球瞩《手机软件下载977彩票》目的中国人工智能初创公司展现出了一个令世界印象深刻的模式,尤其是他们能够以这样的极低价格提供的AI产品。”奥尔特曼在帖子中写道。奥尔特曼承认DeepSeek位列最强大竞争对手,并表示这一竞争局面“令人振奋”,OpenAI也势必将加快进程,向世人展现一些即将推出的新AI产品。
总部位于杭州的DeepSeek所推出风靡全球的低成本AI大模型,周一可谓全面搅乱全球股市,与其公司同名的人工智能聊天机器人火爆全球似乎颠覆了这样一种假设:更好的人工智能需要更强大的AI计算能力。DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,似乎在告诉Meta、微软以及谷歌等美国科技巨头:你们得好好反思耗费的几百亿美元资金到底用到哪里去了?
但是,OpenAI掌舵者奥尔特曼在帖子中强力反驳了“未来人工智能进步的生产成本将降低”的这一当前最火热的市场观点,称他领导的OpenAI开发团队认为“现在比以往任何时候都更需要更多的AI计算能力来成功实现我们的使命”。
DeepSeek风靡全球似乎引发美国总统特朗普的担忧,美东时间周一,唐纳德·特朗普在佛罗里达州的一场党内年度会议上发表讲话。该会议主题往年聚焦政治内容,出乎意料的是,特朗普竟然也提到了近日爆火海外的中国AI大模型DeepSeek。特朗普在讲话中表示,中国初创公司DeepSeek的技术应该对美国AI公司起到刺激作用,并认为,中国公司开发出更便宜、更强大的人工智能方法是件好事。
特朗普在佛罗里达州表示:“中国公司发布DeepSeek人工智能应该给我们的行业敲响警钟,我们需要专注于竞争以赢得胜利。”“我一直在了解中国和中国的一些公司,特别是有一家公司提出了一种更快、更便宜的人工智能方法,这很好,因为你不必花那么多钱。我认为这是积极的,是一种资产。”“我认为这是积极的,因为美国AI科技公司们可以这样做,我们也可以不用花那么多钱就能得到同样的结果。”特朗普在讲话中表示。
DeepSeek杀疯了! 除夕放出“多模态”这一重磅核弹
全球AI行业刚刚经受R1带来的震撼与恐慌,中国人工智能初创DeepSeek又发布了新的模型,给闭源模型带来开源“多模态”的震撼。美东时间1月27日周一,AI社区Hugging Face显示,DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI大模型,参数大小从10亿到70亿不等,都已可在Hugging Face供全球AI爱好者们下载。DeepSeek表示,Janus-Pro和JanusFlow的代码均基于MIT许可证授权,这意味着它们可以不受限地用于商业用途。
Janus-Pro-7B 在 MMBench 上得分为 79.2,明显优于 DALL-E 3(评分 68.5)和 Stable Diffusion 系列模型,并且超过了前代模型 Janus(69.4)以及其他竞争对手(例如 TokenFlow-XL 13B、MetaMorph等)。通过视觉编码的解耦,Janus-Pro 可以更好地处理图像和文本的跨模态理解,并在视觉问答、图像标注等任务中展现出强劲的竞争力。
Janus-Pro-7B 在GenEval测试中获得 80% 的准确率,超越了包括OpenAI的DALL-E 3(67%)和 Stable Diffusion 3 Medium(74%)在内的所有对比模型,表现非常突出。在DPG-Bench 中,Janus-Pro 获得了84.2的超级得分,显示出其在复杂文本生成图像指令方面的强大执行力,作为对比,DALL-E 3仅为74,相比于 DALL-E 3,Janus-Pro在短提示词生成的稳定性、图像细节的丰富性和生成指令的执行能力上都显示出更强的能力。
JanusFlow则基于极简的架构,将自回归语言模型与 矫正流 (Rectified Flow) 结合。该架构无需复杂的修改,直接通过 LLM 框架进行训练。在文本生图任务中,JanusFlow 支持高质量的图像生成,虽然整体分辨率为 384x384,但图像质量足以满足大多数应用需求。与 DALL-E 3 或其他模型相比,其图像生成稳定性较高,且简化的架构意味着模型的部署和优化更加高效。
JanusFlow 的模型尺寸从1B到7B不等,适应了不同的应用场景。7B大模型的能力接近 Janus-Pro-7B,且在一些简单任务中,1B大模型的版本已经能够满足一般需求,甚至在浏览器中使用 WebGPU 就能直接运行。
更重要的是,相较于OpenAI的DALL-E 3等其他大型 AI 模型,DeepSeek 的多模态模型具有明显的成本优势。无论是在训练算力的需求上,还是在实际部署和使用的成本上,Janus-Pro 和 JanusFlow 都展现出了较高的性价比。比如,开源大模型Janus-Pr,1.5B模型仅用了128颗英伟达A100训练一周,而7B级别大模型也只是翻了个倍,相比之下DALL-E 3需要更大规模且算力等级更高、更昂贵的H100或者H200,DALL-E 3需要成千上万的H100/H200 GPU以及长达数月的训练时间。
DeepSeek是何方神圣? 为何它让AI行业大惊失色? 美国芯片制裁宣告失败?
DeepSeek是一家成立仅一年多的中国人工智能初创公司,在展示了突破性的低成本人工智能大模型后,在硅谷乃至全球引起了人们的惊叹与愕然,以及恐慌情绪。DeepSeek大模型的表现与世界上最强大的AI聊天机器人ChatGPT相当,但成本只是后者的一小部分。
DeepSeek的出现可能与长期以来AI领域的普遍看法形成对比,即行业普遍认为,人工智能的未来发展将需要不断增加的计算能力和能源投入。
临近1月底,全球科技股暴跌,因为围绕DeepSeek创新的炒作愈演愈烈,投资者们也纷纷开始思考:规模低得多的算力所打造出的不输于OpenAI的AI大模型,对该公司位于美国的生成式AI竞争对手以及整个芯片产业链的影响程度。
DeepSeek应用程序与其他AI聊天机器人(如OpenAI的ChatGPT)的重要区别之一在于,它会在对文字提示做出回应之前阐明其推理过程。该公司声称,其R1版本的表现与OpenAI的最新版本相当,并且已经为有兴趣使用该开源AI技术开发聊天机器人的个人授予了许可证。
尽管该公司没有提供详细的细节,但训练和开发DeepSeek大模型的成本似乎只是OpenAI或Meta Platforms旗舰AI产品所需成本的一小部分。该大模型的高效性让投资者们纷纷质疑是否需要投入大量资金从英伟达等芯片公司购买最新、最强大的AI加速器。这也加剧了人们对美国对于中国出口此类先进芯片的限制政策的重新关注——这些限制旨在防止DeepSeek所代表的那种突破,然而DeepSeek证明即使没有H100/H200以及Blackwell,也能够训练出不输于OpenAI的大模型。
华盛顿已禁止向中国出口GPU芯片等高端技术,以阻止中国在人工智能领域的进步,而人工智能是中美科技霸权之争的关键前沿。但DeepSeek的进展表明,中国的人工智能工程师们已经绕过了这些芯片层面的限制,专注于在有限的资源下提高效率。尽管目前尚不清楚DeepSeek能够获得多少先进的英伟达人工智能硬件,但该公司所展示的足以表明,芯片限制并未完全有效地阻碍中国企业在AI领域的进步。
DeepSeek已经证明R1大模型在多个领先的AI大模型基准测试中接近或优于竞争对手OpenAI的大模型,比如用于数学任务的AIME 2024、用于常识知识的MMLU以及用于问答表现的AlpacaEval 2.0。在加州大学伯克利分校主导的排行榜Chatbot Arena上,R1也跻身表现最佳之列。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段,让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。
DeepSeek引领的“低成本算力浪潮”已经令投资者们开始怀疑美国AI大厂们支出的合理性,如果这些科技巨头AI巨额投入仍然无法产生令投资者感到满意的创收与盈利,以及超出市场预期的业绩数据,可能迎来比去年夏季时期规模更大的“科技股抛售浪潮”。
据了解,虽然训练/推理成本相比于GPT家族以及LIama开源大模型骤降,但是DeepSeek大模型的多个性能指标却位于行业顶尖水平。性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero以及在此基础上改进的 DeepSeek-R1,在 2024 年AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的79.2%水平可谓并驾齐驱。DeepSeek-R1在算法类代码场景(Codeforces)以及GPQA、MMLU中的最终得分略低于OpenAI o1,但是在评估AI大模型在解决实际软件工程问题能力的SWE-Bench Verified方面,意外强于o1。
根据市场追踪机构App Figures的数据,截至1月25日,DeepSeek移动应用下载量高达160万次,在澳大利亚、加拿大、中国、新加坡、美国和英国的iPhone应用商店中排名第一。
有业内分析师表示,DeepSeek的成功可能会促使OpenAI和其他美国AI应用供应商们降低定价,以保持其既定的领先地位。事实证明,更高效的模型能够以少得多的支出基础与竞争对手进行竞争,因此DeepSeek横空出世可谓全面引发了人们对Meta和微软等科技巨头巨额支出的质疑——这些公司今年都承诺投入650亿美元或更大规模的资本支出,主要用于人工智能基础设施建设。
目前,世界各地的开发者都在试用DeepSeek的软件,并希望用它来构建各种AI工具,这可能会加快先进人工智能推理模型的采用规模。因此,DeepSeek的云基础设施可能会因其突然的爆火而受到推理端AI算力考验——这也是为什么一些英伟达与博通等AI芯片股多头坚信从长期角度来看AI算力基础设施需求将大得多。1月27日,该AI初创公司曾短暂遭遇了一次重大但短暂的宕机,随着新老用户向其AI聊天机器人发起更多查询,该公司将不得不应对更大规模的查询流量带来的AI推理端算力需求激增。
责任编辑:郭明煜