DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品

发布日期: 2025-02-28

  就正在华尔街周一危急评估“DeepSeek风暴”之际,这家中邦公司再度甩出新品:正在图像天生基准测试中超越OpenAI“文生图”模子DALL-E 3的众模态大模子Janus-Pro,同样也是开源的。

  年夜凌晨钟声敲响前不久,DeepSeek工程师们正在“抱抱脸”平台上传了Janus Pro 7B和1.5B模子。这俩模子是对客岁10月宣布的Janus模子的升级。

  15亿和70亿的参数目,意味着这两个模子具备正在消费级电脑上当地运转的潜力。与R1一律,Janus Pro采用MIT许可证,正在商用方面没有局限。

  据DeepSeek先容,Janus-Pro是一个簇新的自回归框架,同一了众模态领会和天生。通过将视觉编码判袂为“领会”和“天生”两条旅途,同时仍采用简单的Transformer架构举行照料,处理了以往手腕的部分性。这种判袂不光缓解了视觉编码器正在领会和天生中的脚色冲突,还提拔了框架的乖巧性。

  固然DALL-E 3是OpenAI正在2023年宣布的一款“老模子”,同时Janus Pro目前只可领悟和天生规格较小的图像(384 x 384)。DeepSeek正在如许紧凑的模子尺寸中已经外现了令人印象深远的功能。

  本领讲演显示,正在视觉天生方面,Janus-Pro通过增添7200万张高质地合成图像,使得正在同一预锻炼阶段真正数据与合成数据的比例抵达1:1,告竣“更具视觉吸引力和安谧性的图像输出”。正在众模态领会的锻炼数据方面,新模子参考了DeepSeek VL2并扩张了大约9000万个样本。

  动作一个众模态模子,Janus-Pro不光能够“文生图”,同样也能对图片举行描摹,识别地标景点(比方杭州的西湖),识别图像中的文字,并能对图片中的常识(比方下图中的“猫和老鼠”蛋糕)举行先容。