containers/ramalama
ramalama 是一个旨在通过使用 OCI 容器使与 AI 的工作变得简单无趣的工具。
- 支持本地管理和服务 AI 模型,简化用户操作。
- 自动检测系统 GPU 支持,并在没有 GPU 时回退到 CPU。
- 使用 Podman 或 Docker 拉取适合的 OCI 镜像,无需配置主机系统。
- 通过简单命令启动聊天机器人或 REST API 服务,提升效率。
- 支持多种 AI 模型注册表类型,可以灵活选择传输方式。
jef/streetmerchant
streetmerchant 是一个世界上最简单、功能最强大的库存检查工具。
- 持续监控库存,全天候运行,寻找您想要的商品。
- 一旦有货,可以自动添加到购物车并打开浏览器进行结账。
- 提供多平台和设备的通知,让您在不在电脑旁时也能安心。
deepseek-ai/Janus
Janus 是一个统一的多模态理解和生成模型系列。
- 支持多模态数据的理解与生成,提升了文本到图像的指令跟随能力。
- 采用解耦视觉编码的方法,提高了框架灵活性和有效性。
- Janus-Pro 和 JanusFlow 提供更先进的功能,显著改善视觉生成质量。
- 简单高效,是下一代统一多模态模型的重要候选。
bytedance/UI-TARS
UI-TARS 是一个下一代本地 GUI 代理模型,旨在通过人类般的感知、推理和行动能力无缝与图形用户界面(GUI)进行交互。
- 综合的 GUI 理解:处理多模态输入(文本、图像、交互),构建对界面的连贯理解。
- 实时互动:持续监控动态 GUIs,并准确响应实时变化。
- 统一动作空间:跨平台标准化动作定义(桌面、移动和网页)。
- 系统 1 与系统 2 推理结合:快速直观反应与深思熟虑的高层规划相结合,适用于复杂任务。
- 短期和长期记忆支持:捕捉任务特定上下文并保留历史互动以改善决策。
bytedance/UI-TARS-desktop
UI-TARS-desktop 是一个基于 UI-TARS(视觉语言模型)的图形用户界面代理应用程序,允许用户通过自然语言控制计算机。
- 通过视觉语言模型实现自然语言控制
- 支持截图和视觉识别
- 精确的鼠标和键盘控制
- 跨平台支持(Windows/MacOS)
- 实时反馈和状态显示