当前,全球AI社区正在疯狂热议一种新的开源推理模型DeepSeek R1。
该模型由中国AI初创公司DeepSeek开发,该公司声称R1在多个关键基准上与OpenAI的ChatGPT o1相媲美,甚至还有所超越,但成本只是后者的一小部分(有报道称约为3%至5%)。
美国埃默里大学(Emory University)信息系统助理教授Hancheng Cao表示:“这可能是一个真正的均衡突破,对资源有限的研究人员和开发人员来说是件好事,尤其是来自南半球的研究人员。”
考虑到硬件等资源方面的限制,DeepSeek的成功更加引人注目。DeepSeek等初创公司正以优先考虑效率、资源共享和协作的方式进行创新。
DeepSeek前员工、现任美国西北大学(Northwestern University)计算机科学博士生Zihan Wang表示,为了创建R1,DeepSeek不得不重新设计其训练过程,以减轻其GPU的压力。
DeepSeek R1因其处理复杂推理任务的能力而受到研究人员的称赞,特别是在数学和编码方面。该模型采用了一种类似于ChatGPT o1的“思维链”方法,通过逐步处理查询来解决问题。
DeepSeek还发布了六个较小版本的R1,这些版本足够小,可以在笔记本电脑上本地运行。该公司称,其中一个甚至在某些基准测试中表现优于OpenAI的o1-mini。
尽管R1备受关注,但DeepSeek仍然相对不为人知。该公司总部位于中国杭州,由浙江大学信息与电子工程专业校友梁文峰于2023年7月创立。该公司由梁文峰在2015年创立的对冲基金幻方(High-Flyer Quant)孵化。与OpenAI的萨姆·奥特曼(Sam Altman)一样,梁文峰的目标是建立通用人工智能(AGI),即一种可以在一系列任务上与人类匹敌甚至击败人类的AI。
据报道,为了训练其模型,DeepSeek购买了10000多块英伟达GPU,随后又扩大到50000块。与OpenAI、谷歌和Anthropic等领先的AI实验室相比,这明显相形见绌,因为这些实验室每个都有超过50万块GPU。
尽管如此,DeepSeek前员工Zihan Wang表示,他在DeepSeek工作时可以获得丰富的计算资源,并可以自由地进行实验,这对应届毕业生来说是一种少有的奢侈。
梁文峰称,除了硬件方面的限制,公司面临的另一个挑战是,他们的AI工程技术往往效率较低。他说:“我们(大多数中国公司)必须消耗两倍的计算能力才能达到同样的结果。再加上数据效率差距,这可能意味着需要高达四倍的计算力。我们的目标是不断缩小这些差距。”
但DeepSeek找到了在不显著牺牲准确性的情况下,减少内存使用和加速计算的方法。Zihan Wang说:“团队喜欢把硬件挑战变成创新的机会。”
梁文峰本人仍然深度参与DeepSeek的研究过程,与他的团队一起进行实验。王说:“整个团队都有一种协作文化,并致力于核心研究。”
根据中国信息通信研究院(CAICT)去年发布的一份白皮书,全球AI大型语言模型的数量已达到1328个,其中36%来自中国。这使中国成为AI的第二大贡献者。
塔夫茨大学(Tufts University)技术政策助理教授Thomas Qitong Cao表示:“这一代年轻的中国研究人员强烈认同开源文化,因为他们从中受益匪浅。”
卡内基国际和平基金会(Carnegie Endowment for International Peace)的AI研究员马特·希恩(Matt Sheehan)称:“中国公司必须利用有限的计算资源提高效率。将来,我们可能会看到很多与缺乏计算相关的整合。”
事实上,这种情况可能已经开始发生了。两周前,阿里云宣布与李开复创立的北京初创公司“零一万物”合作,合并研究团队,建立“工业大型模型实验室”。
Thomas Qitong Cao说:“AI行业出现某种分工是节能和自然的。AI的快速发展要求中国企业保持敏捷才能生存。”
责任编辑:刘《NBA球探比分直播》明亮