每经记者 高涵 宋欣悦 每经编辑 兰素英
巨量的关注再次“挤崩”DeepSeek。
1月27日11点左右,DeepSeek官网一度显示“DeepSeek网页/API不可用”,截至发稿,功能已恢复。而在昨日(26日),DeepSeek也“崩”了两次。就此,《每日经济新闻》记者联系了DeepSeek客服。客服人员回答称:“稍后再试。”当记者进一步追问是否由于服务器过载导致此次服务中断时,客服人员未给予答复。
与此同时,DeepSeek在海外又一次掀起巨浪。1月27日早间,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。
近期,包括纽约时报、经济学人、华尔街日报等在内的多家英美主流媒体都报道了DeepSeek的研究进展,高度赞扬其模型的强大性能。
当地时间1月23日,一位德国顶尖的人工智能研发人员对《自然》评论说,比起OpenAI公司那些闭源的AI模型,DeepSeek的开源程度“相当优秀”。《纽约时报》引用一位在加拿大从事科技咨询工作的人士的说法称,DeepSee-R1才是他们符合他们需求的工具,因为性价比很高。
然而,DeepSeek背后的团队和领头人却非常低调且神秘,公司创始人梁文锋在网上的公开采访只有寥寥几篇。每经记者尝试联系到DeepSeek的一名员工,他表示,公司规定,不能够对外接受采访。
此外,每经记者加入了DeepSeek的官方交流群。该群的群公告写道,“暂不对外进行项目合作,不提供私有化部署及相关支持服务;DeepSeek将集中研发精力奉上更强的模型,敬请期待!”
每经记者深入探究梁文锋及其DeepSeek团队的核心成员,揭开它如何从一个默默无闻的小公司,一步步崛起成为震动全球AI圈的“东方神秘力量”的背后故事。
创始人梁文锋是浙江大学信息与通信工程专业的硕士,在他带领下的DeepSeek对人才极其看重,不看经验,只看能力。据多位与DeepSeek有过接触的行业人士表述,DeepSeek的优势之处就在于人才密度极高,且多来自于中国本土市场。DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清北等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。
在刚刚成立的一年多时间里,DeepSeek一直不声不响,V2模型的发布成为其破圈的关键。2024年5月发布的DeepSeek V2提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,DeepSeek因此被业内戏称为“AI届拼多多”。此外,因为其低调的作风,DeepSeek又被称“来自东方的神秘力量”。
这之后,DeepSeek也引发了硅谷的恐慌,OpenAI迎来一个最强劲的对手。实际上,DeepSeek背后并是不什么互联网科技大厂,而是来自金融领域的头部量化:幻方量化。
2023年,全球AI热潮爆发,梁文锋也来到了他创业之路的第十个年头。当年5月,38岁的梁文锋宣布要做通用人工智能(AGI)。同年7月,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)成立,专注于AI大模型的研究与开发。梁文锋也成为量化投资者投身AI创业的“第一人”。梁文锋是幻方量化的实际控制人,天眼查信息显示,他在DeepSeek最终受益的股份比例超80%。
1985年,梁文锋出生于广东湛江的一个五线城市。其具体的童年成长轨迹已不可考,从公开信息唯一可知的是,梁文锋有在采访中提到过自己的父亲是一名小学老师。
2002年,17岁的梁文锋凭借优异成绩考入浙江大学电子信息工程专业。2007年,22岁的梁文锋又考上了浙江大学信息与通信工程专业硕士,师从项志宇,主要做机器视觉研究。
2008年,在浙大读书期间,23岁的梁文锋与同学一起组团队开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。
2010年6月,25岁的梁文锋从浙江大学信息与通信工程专业硕士毕业,其毕业论文题目为《一种鲁棒的PTZ摄像机目标跟踪算法》。
毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方量化。
他主导的幻方量化在2016年首次上线AI策略,并于2017年实现投资策略全面AI化,成为量化投资领域的创新先锋。幻方量化成立仅6年,管理规模曾达到千亿,被称为“量化四大天王”之一。它也是国内唯一公开宣称有拥有万张英伟达A100显卡的企业,其算力储备量就算是在一众互联网公司科技公司里,也豪不逊色。
在此前接受媒体采访时,梁文锋表示,幻方量化进入AI领域并非偶然,而是源于对AI的深厚兴趣与坚定信念。早在浙江大学攻读AI时,梁文锋就坚信“AI一定会改变世界”,尽管当时这一观点并不被广泛认同。
梁文锋强调,幻方量化进入AI领域并非为了复刻ChatGPT,而是希望通过研究和探索,解开AGI的更多未知之谜。他们将从语言大模型入手,逐步拓展到视觉等领域,致力于打造真正人类级别的AI。
梁文锋告诉媒体,“我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。”
时至今日,梁文锋的日常依旧是看论文、写代码、参与小组讨论,是少有的能堪比一线研究员能力的公司掌舵者。一位AI创业者在社交媒体上爆料称,他去年问过DeepSeek团队的一名成员:“为什么你们的AI表现这么好?”那位成员回答:“因为我们的CEO自己读论文、写代码、招募人才。”
便宜!开源!好用!
凭借集齐这三大优势的AI大模型,DeepSeek一飞冲天,成为了全球AI圈热议的对象。
据多位与DeepSeek有过接触的行业人士表述,DeepSeek的优势之处就在于人才密度极高,且多来自于中国本土市场。另一位与DeepSeek有过接触的行业人士称,“DeepSeek给出的薪酬待遇非常具有竞争力,这让其一直对人才有很强的吸引力”。
在接受媒体采访时,梁文锋认为,如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。“不一定是做过这件事的人才能做这件事。我们招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。”
这一原则贯穿到了DeepSeek的团队组成中,最大的特点就是年轻。应届生、在读生,特别是来自清北的应届生在其中非常活跃。
DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
梁文锋曾说过,“V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”
让DeepSeek破圈的V2模型最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新,两人都刚从学校出来没几年。高华佐非常低调,目前只知道是北大物理系毕业;曾旺丁来自北京邮电大学,研究生导师是北京邮电大学人工智能与网络搜索教研中心主任张洪刚。
DeepSeek大模型的另一大突破,是通过一种名为GRPO的算法,创新训练方法,大大降低了成本。
核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院,加入DeepSeek团队之后,参与了多个重要项目的研发,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
GRPO算法创新的另一重要贡献者是朱琪豪,是北《手机赌足球》京大学计算机学院2024届的博士毕业生,专注于深度代码
他的同学代达劢则在更早的时候加入这个团队,参与了DeepSeek大模型从V1到V3每一代的研发,已经是元老级研发人员,也在学生时代获得多项论文奖。
负责DeepSeek大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入DeepSeek之前,他曾在英伟达公司实习。
DeepSeek团队中其他核心人员还包括:Peiyi Wang(北大博士生)、王炳宣(清华博士生)、吴作凡(中山大学博士生)、任之洲(中山大学博士生)、周雨杨(中山大学博士生)和罗翔煜(中山大学博士生)等。
这些一边搞研发一边写论文的年轻人,也一次又一次带给梁文锋惊喜。
责任编辑:张恒星