开云体育

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro开云体育:左脑识图右脑画图!

2025-12-29
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!继把大模型价格打到地板价后,他们最新开源的多模态模型更狠——不仅看得懂《清明上河图》的细节,还能照着你的描述生图。

  这个多模态模型就是他们悄悄开源的“双脑”视觉模型Janus-Pro,被称为“左脑能当福尔摩斯解密图片,右脑能当画家挥毫泼墨。”的模型。

  目前该模型未上线 Deepseek 官网,但我们可以通过 ComfyUI 来使用它。并且,还能结合 Flux 工作流使用!

  接下来,我将通过这篇文章来教你如何在 ComfyUI 中使用 Janus-Pro 模型。

  一句话总结,Janus-Pro 是 DeepSeek 公司开发的一款“能看懂图片又能画图”的多模态模型。

  接下来,就让我们看看如何在 ComfyUI 中部署 Janus-Pro,以及测试它在 ComfyUI 工作流中生图的可行性。

  Janus-Pro-1B(小模型):10 亿参数,擅长快速生成简单图片/文字回答,最低显存要求 8GB。

  Janus-Pro-7B(大模型):70 亿参数,擅长高精度复杂图像生成/推理,最低显存要求 24GB。

  切记,需要在“Files and Versions”中下载列表中的所有文件。

  第一步,打开 ComfyUI 根目录,找到 Models 文件夹,新建文件夹并命名“Janus-pro”。

  第二步,进入“Janus-pro”文件中,再次新建文件夹,并按照你需要安装的模型版本命名文件夹。

  安装节点组和模型后,我们就可以启动 ComfyUI 搭建 Janus-Pro 工作流了。

  可以在节点库中搜索“Janus”找到节点组,共 3 个节点,分别是模型加载、图像理解和图像生成。

  先搭建图像理解工作流。连接方式也比较简单,除了 Janus 节点组中的模型加载和图像理解节点外,还需调用“图像加载”和“展示文本”节点,如图所示:

  操作方式为,选择“Janus-Pro-7B”模型,上传图像,并在图像理解节点中输入提示词:“请详细描述这张图片。”

  “这张图片展示了一位年轻女性,她站在户外,背景是模糊的绿色植物和阳光。她的长发自然地散落在肩上,头发颜色为深棕色或黑色。她穿着一件带有花卉图案的露肩上衣,上衣的颜色主要是白色,并点缀着红色和绿色的花朵。她的表情温柔,目光直视镜头,嘴唇涂有鲜艳的红色口红。整体画面给人一种清新自然的感觉,光线柔和,营造出一种宁静的氛围。”

  调用图像生成节点,连接模型加载节点和预览/保存图像节点。这个工作流的功能类似于文生图,只不过大模型是 Janus-Pro-1B/7B。

  这就是 Deepseek 团队发布的 Janus 多模态模型,从上面的案例演示你或许也能看出,该模型也只是在图像识别方面会比较优秀,而这个模型的能力,早在其他大语言模型上实现,比如 Kimi 的视觉思考模型(现已经整合)。

  而在未来,Deepseek 肯定会在官网上线这一模型,压力又给到了国内的 AI 六小龙们......

  那既然文生图效果不行,在 ComfyUI 中,使用 Janus-Pro 模型只剩下图像理解工作流了。

  可以这样做,让 Janus 模型生成 AI 绘画提示词,而生图模型用 Flux 模型即可优劣互补。

  先加载一套 Flux 文生图工作流,注意需要安装 Flux 对应的节点模型。

  在文生图工作流上,可以添加一个“Lora 堆”节点,方便后续 lora 模型的调用。

  具体操作:将“Clip 文本编码器”的提示词框转换为输入连接点,并与图像理解工作流的“展示文本”连接。

  上传一张图片(如图中的哪吒),在 Janus 图像理解工作流中输入指令:

  “根据图片内容帮助我生成 Stablediffusion 所需要的 Prompt。注意,你只需要输出 Prompt,并且需要是英文。”

  一个小男孩带着顽皮的笑容,穿着红色和金色的衣服,被火焰包围。他手里拿着一根末端有一个火球的棍子,眼睛兴奋得睁得大大的。背景是深色和火红色的漩涡混合,给人一种动态运动和能量的感觉。”

  缺点是自由度比较低,无法修改提示词,而用 Janus 模型+Flux 模型同时运行,会对电脑的显存要求比较高。

  那么,我们可以用第二种方式,将 Janus 和 Flux 拆分,形成两套工作流。

  Janus 图像理解工作流,负责提示词生成,然后我们手动筛选优化提示词。

  在 Janus 工作流中输入提示词:“请详细描述图片内容,然后为我生成 StableDiffusion 所需要的提示词。”

  Flux 文生图工作流,负责图像生成,手动输入 Janus 模型生成的提示词。

  而为了更加方便我们用提示词创作,可以在 Flux 工作流中增加一个翻译节点。

  并且 Janus 工作流可以替代以往我们在 Kimi、Claude 等 AI 聊天软件中反推提示词的步骤。

  “长发的女性,蓝色头发,头戴尖角发饰,鳞片状的服装,手臂和身体上的鳞片设计,巨大的龙,蓝色和紫色的鳞片,红色的眼睛,神秘的幻想背景,模糊的树木,天空,神秘,幻想。”

  “一位身穿华丽服饰的女性角色,她拥有长长的蓝色头发,头戴装饰有尖角的发饰。她的服装以蓝色和紫色为主,带有鳞片状的纹理,与她手臂和身体上的鳞片设计相呼应。她正与一条巨大的龙互动,龙的鳞片同样是蓝色和紫色的,眼睛发出红色的光芒。背景中可以看到一些模糊的树木和天空,整体氛围充满了神秘和幻想色彩。”

  注意!!两套工作流是单独运行处理的,所以在运行其中一个工作流时,需要将另一个工作流隐藏(全选工作流,按 Ctrl+B)

  但你会发现,Janus 只是将画面的人物动作描述的较为详细,对风格,细节的描述则很少。

  所以,如果直接使用 Janus 反推的提示词,生成的结果较为一般,这时,还是需要我们手动补充,或者是借助 ComfyUI 中其他提示词节点。

  经过对 Janus 模型的测试,可以得出结论:“Janus 在 comfyUI 中的图像应用并不理想,而且所消耗的电脑资源比较大,虽然图像理解的能力还不错,但并未与其他 AI 聊天应用有比较明显的差距。”

  所以,如果在 ComfyUI 中需要使用图像反推节点,我更愿意推荐“Florence 2”或“WD-14 反推提示词”等节点组。

  但是,认真思考下,如果是 Janus 模型与 DeepseekR1 模型相互结合呢?

  Janus 模型识别图像内容,R1 模型在思考推理前先联网检索网上优质的提示词,最后按照用户下达的指令,写出提示词而 Janus 模型部署在 Deepseek 中也只是时间问题。

  这意味着,写图像提示词的难度还会降低,甚至是不需要你动脑子想,DeepseekR1 直接给你写出 N 种提示词方案。而你,只需要发送图片给它,用老板的语气给他下达指令......

  如果你想要学习更多 AI 绘画技巧,可以加入我主理的《优设AI 俱乐部》,俱乐部内沉淀有 2000+优质 AI 学习资料,AI 提示词、AI 工具库、AI 商业设计案例、研究报告......

  优设是国内专业设计师平台,2012年创办至今,作为行业风向标,我们13年来专注于设计师创作者的学习成长交流。 通过优设网、优优教程网、优创网分别沉淀优质内容。是一家集齐媒体、内容、服务的多元化平台。MCN矩阵@优设AIGC 在微博、微信、小红书、抖音、B站布局,全网粉丝过千万。

  本网站所有数据及文档均受《著作权法》及相关法律法规保护,任何组织及个人不得侵权,违者我司将依法追究侵权责任,情节严重者将报警处理,特此声明。 优设网法律顾问:刘杰律师

搜索