来源:财联社
就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
除夕凌晨钟声敲响前不久,DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B模型。这俩模型是对去年10月发布的Janus模型的升级。
(Janus与Janus Pro 7B生成图像的对比,来源:技术报告)
15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,Janus Pro采用MIT许可证,在商用方面没有限制。
据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。
虽然DALL-E 3是Open《微信加拿大看奖》AI在2023年发布的一款“老模型”,同时Janus Pro目前只能分析和生成规格较小的图像(384 x 384)。DeepSeek在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。
技术报告显示,在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeek VL2并增加了大约9000万个样本。
作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。
公司也在报告中,给出了更多图像生成的案例。
(来源:技术报告)
(财联社 史正丞)
责任编辑:李桐
2021年初以来金银比走势异常,主因交易全球经济衰退风 ⛻险微信加拿大看奖预期,存在预期差修复空间。长期来看,金银比变化的趋势与全球 ✨经济增长呈现出典型的负相关。虽然在2021年2月-2022年6月,全球PMI基本保持在54以上高景气度区间,但金银比持续 ♏以较陡峭斜率走高中枢从64陆续抬升至84水平。主要原因还是交 ♍易流动性收紧负反馈下 ➥,市场对于美国经济衰退、欧洲能源危机爆发 ♑的担忧预期 ❤。当前预期差有较大修复空间。一是欧洲能源储备保持高 ♍位,能源危机风险降低 ♈。二是及紧缩斜率最陡峭的时间已过。
在新的情况下,需考虑我们现有推动的中国版的监管沙盒的试 ⛳点,如何进一步的优化 ❢,如何进一步的提升,把它作为一项可持续科 ⛅学有效的制度安排,同时借鉴FCA发起的“全球金融创新网络”的 ⌚机制,我们也可以主动搭建或者积极参与跨境的监管商和合作与协调 ⛽机制,这些都是值得关注的方向。
本报记者 张纯 【编辑:陆楷 】