丁香天婷五月天综合网,六月婷婷缴清综合在线,一区二区亚洲

　　3月10日，字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET，旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群，累计节省数百万GPU小时资源。随着DeepSeek等公司开源热潮兴起，更多大模型玩家也纷纷跟进，以扩大市场份额、构建生态系统并提升品牌形象。

　　每经记者杨昕怡每经实习编辑余婷婷

　　训练大模型的成本之高一直是行业痛点，各路玩家都在思考如何用技术创新把成本“打”下来。

　　3月10日，字节跳动豆包大模型团队发布了针对MoE（混合专家模型）架构的通信优化系统COMET，该方案通过细粒度计算-通信重叠技术，助力大模型训练优化。据豆包大模型团队介绍，COMET已实际应用于万卡级生产集群，累计节省了数百万GPU（图形处理器）小时资源。此外，COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合，实现协同优化。

　　“在万卡集群上做测试的这个经验，国内很少能有。”一位头部大模型算法工程师在接受《每日经济新闻》记者采访时表示，“目前很可能只有字节有这一经验，而且还分享出来了。虽然现在国内大部分公司都没有万卡，但随着行业往后发展，这一技术和先行经验是很重要的。”

　　可以看到的是，自DeepSeek的开源模型R1在全球范围内“爆红”以来，国内更多大模型玩家以更高的频率进行着技术开源。对此，北京市社会科学院副研究员王鹏向《每日经济新闻》记者表示，大模型公司选择优秀技术开源，对于扩大市场份额、吸引合作伙伴构建生态、提升公司的品牌形象和知名度等方面均有帮助。

　　MoE训练效率提升1.71倍，字节开源COMET技术

　　3月1日，DeepSeek在知乎发布了“开源周”后的“彩蛋”，首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。

　　DeepSeek通过MoE架构的创新让激活参数比大幅下降，使得同等效果的大模型所需的算力明显下降。“671B的模型，《爱博体育官网登录》在处理每个问题时，被调用激活的专家模型参数仅约37B，算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。

　　而豆包团队注意到，MoE架构的稀疏特性导致计算和通信间的依赖动态且复杂，其分布式训练仍面临着跨设备通信开销巨大的成本挑战。

　　3月10日，豆包大模型团队发布了针对MoE模型的通信优化系统COMET。据介绍，COMET具体通过共享张量依赖解析机制，将共享张量沿Token维度或隐层维度切割，使通信与计算的最小单元对齐；同时通过动态负载分配算法，根据输入规模和硬件环境实时调整线程块分配，消除跨设备通信带来的等待延迟。

　　一位豆包大模型的技术人员告诉《每日经济新闻》记者，COMET和DeepSeek的DualPipe（双向并行流水线技术）都用于降低MoE的通信开销，但方法不同。记者了解到，DualPipe通过创新的双向流水线并行技术，大幅提高模型的训练效率。

　　豆包大模型团队称，COMET这一创新在大规模MoE模型上可达到单层1.96倍加速，端到端平均1.71倍效率提升。目前，COMET已实际应用于万卡级生产集群，助力MoE模型高效训练，并已累计节省了数百万GPU小时资源。

　　“用100张卡测试的波动可能很少，因为（显卡）出问题的概率较小，但1万张卡的波动就会大很多。”一位头部大模型算法工程师向《每日经济新闻》记者表示，此次字节将这一成果开源，为整个行业提供了不可多得的万卡集群实验经验，“国内有1万张卡的企业也就几家。”此外，豆包大模型还表示，COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合，实现协同优化。

　　《每日经济新闻》记者2月11日从豆包大模型团队了解到，团队已经提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2-6倍，推理成本最高可降低83%。

　　争夺“源神”，为何AI玩家接二连三开源最新技术？

　　从在全球范围内引起热议的DeepSeek-R1到开源周的“大放送”，DeepSeek因持续开源核心技术被业内称为“源神”。基于DeepSeek的动作，国内大模型厂商纷纷跟进并加速了开源行动。

　　2月18日，阶跃星辰首次开源其Step系列基座模型。该模型分别是目前全球范围内参数量最大的开源视频生成模型阶跃Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。MiniMax也在1月15日发布并开源新一代01系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

　　除了头部的AI初创公司外，重投大模型的多家互联网巨头也在紧跟开源这股热潮，其中阿里一直是坚定的“开源派”。3月3日，开源社区Hugging Face最新榜单显示，开源仅6天的阿里万相大模型已反超DeepSeek-R1，登顶模型热榜、空间榜两大榜单，成为近期全球开源社区最受欢迎的大模型。3月6日凌晨，阿里再度抛出新的开源成果。阿里云通义千问官微宣布发布并开源最新的推理模型QwQ-32B。据介绍，这是一款拥有320亿参数的模型，其性能可与具备6710亿参数（其中370亿被激活）的DeepSeek-R1媲美。

　　“开源优秀技术可以获得更多声量，也可以吸引更多企业、开发者进行二次开发，有助于生态构建。”一位豆包大模型的技术人员向《每日经济新闻》记者表示。

　　同样，王鹏也认为，开源模式能促进技术发展、创新，既可帮助大模型公司扩大其在全球AI市场的影响力和份额，也可以吸引到更多参与者加入到生态系统的共建中，从而降低自身研发成本。

　　不过，也有不同的声音，大模型公司选择开源模式究竟是为了名还是利？“如果开源的技术比闭源的更好用，免费的技术比收费的更好用，那么谁还用闭源和收费的？”工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示，“实际上是以DeepSeek为代表的开源应用，在性能上追平了竞争对手。这导致很多大模型选择了开源的路径来应对。开源对于企业来说，并不能创造利润，但能带来用户，互联网流量为王，利润次之。”

责任编辑：何松琳

亚洲国产日韩不卡综合,内射在线Chinese,日韩综合一卡二卡三卡死四卡 ,国产精品久久午夜夜伦鲁鲁

给大家科普一下爱博体育官网登录

非农数据提振美债市场体现美联储大幅降息的可能性为50%

港誉智慧城市服务：非上市永久可换股证券取消第十六次分派付款

“金九银十”提振经济预期！A50ETF华宝（159596）半日成交额突破2700万

汇丰控股拟发行永久后偿或有可转换证券

387.55万亿元！前8个月期市累计成交额同比增长3.68%

未来两三年目标如何实现？今世缘：缺的不是钱而是人

期市开盘：菜粕涨超2% 沪锌跌近2%

*ST恒立：聘任龚俊宇、张东华为副总裁

短期房源暴跌83%后爱彼迎敦促纽约放宽短期租赁法规

沃尔沃汽车将于本月底交付首批EX90纯电SUV

高盛：下调中远海能目标价至10.6港元料原油油轮供应将持续紧张至2027年

银行零售业务集体“失速”