deepseek 开源：统一的多模态理解和生成模型 | 开源日报 No.516

deepseek 开源：统一的多模态理解和生成模型 | 开源日报 No.516

Janus 是一个开源的统一多模态理解和生成模型系列，支持多模态数据的理解与生成，提升文本到图像的指令跟随能力。它采用解耦视觉编码，增强了框架的灵活性和有效性。Janus-Pro 和 JanusFlow 提供了更先进的功能，显著提升视觉生成质量，成为下一代统一多模态模型的有力候选。

containers/ramalama

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-ramalama

ramalama 是一个旨在通过使用 OCI 容器使与 AI 的工作变得简单无趣的工具。

支持本地管理和服务 AI 模型，简化用户操作。
自动检测系统 GPU 支持，并在没有 GPU 时回退到 CPU。
使用 Podman 或 Docker 拉取适合的 OCI 镜像，无需配置主机系统。
通过简单命令启动聊天机器人或 REST API 服务，提升效率。
支持多种 AI 模型注册表类型，可以灵活选择传输方式。

jef/streetmerchant

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-streetmerchant

streetmerchant 是一个世界上最简单、功能最强大的库存检查工具。

持续监控库存，全天候运行，寻找您想要的商品。
一旦有货，可以自动添加到购物车并打开浏览器进行结账。
提供多平台和设备的通知，让您在不在电脑旁时也能安心。

deepseek-ai/Janus

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-Janus

Janus 是一个统一的多模态理解和生成模型系列。

支持多模态数据的理解与生成，提升了文本到图像的指令跟随能力。
采用解耦视觉编码的方法，提高了框架灵活性和有效性。
Janus-Pro 和 JanusFlow 提供更先进的功能，显著改善视觉生成质量。
简单高效，是下一代统一多模态模型的重要候选。

bytedance/UI-TARS

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-UI-TARS

UI-TARS 是一个下一代本地 GUI 代理模型，旨在通过人类般的感知、推理和行动能力无缝与图形用户界面（GUI）进行交互。

综合的 GUI 理解：处理多模态输入（文本、图像、交互），构建对界面的连贯理解。
实时互动：持续监控动态 GUIs，并准确响应实时变化。
统一动作空间：跨平台标准化动作定义（桌面、移动和网页）。
系统 1 与系统 2 推理结合：快速直观反应与深思熟虑的高层规划相结合，适用于复杂任务。
短期和长期记忆支持：捕捉任务特定上下文并保留历史互动以改善决策。

bytedance/UI-TARS-desktop

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-UI-TARS-desktop

UI-TARS-desktop 是一个基于 UI-TARS（视觉语言模型）的图形用户界面代理应用程序，允许用户通过自然语言控制计算机。

通过视觉语言模型实现自然语言控制
支持截图和视觉识别
精确的鼠标和键盘控制
跨平台支持（Windows/MacOS）
实时反馈和状态显示