Featured image of post 智能代理训练的开源解决方案:无须奖励函数,轻松应对多步任务 | 开源日报 No.694

智能代理训练的开源解决方案:无须奖励函数,轻松应对多步任务 | 开源日报 No.694

ART 是一个基于 GRPO 算法的强化学习框架,核心创新是采用 RULER 技术通过大语言模型自动评估代理轨迹,无需手工设计奖励函数。支持多种主流 LLM,提供模块化架构和云端部署能力,集成训练监控工具,平衡了开箱即用与灵活定制。

ikawrakow/ik_llama.cpp

Github Repo Stars License: `MIT` Language: `Unknown`

cover

ik_llama.cpp 是 llama.cpp 的一个分支,专注于提升 CPU 和混合 GPU/CPU 推理性能,并引入了多种先进的量化技术。

  • 支持多款最新模型,如 LLaMA-3、Qwen3、GLM-4 等
  • 引入多种新型量化方法(如 Trellis quants、IQK 系列等),并提供跨平台实现(CUDA、Metal、Neon)
  • 优化了量化性能,提升 CPU 提示处理速度和 CUDA 上的推理效率
  • 支持 Bitnet 网络和改进的 DeepSeek 性能,包括 MLA 和 FlashMLA 技术
  • 实现融合专家网络操作及张量覆盖,以优化混合 GPU/CPU 推理过程
  • 增强 RPC 功能及 Web UI 界面支持,方便管理提示缓存与采样器配置
  • 兼容 Android 平台,通过 termux 环境运行稳定

OpenPipe/ART

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-ART

ART 是一个开源的强化学习框架,旨在通过 GRPO 算法训练多步任务代理以应对现实世界问题。

  • 采用 RULER(相对通用 LLM 引导奖励)技术,无需手工设计奖励函数,通过大语言模型自动评分代理轨迹,实现零样本奖励评估。
  • 支持 Qwen2.5、Qwen3、Llama、Kimi 等多种大型语言模型,提升代理训练效率和性能。
  • 提供模块化客户端与服务器架构,可灵活部署于本地或云端 GPU 环境,实现远程或本地训练。
  • 集成 W&B、Langfuse 和 OpenPipe 等平台,方便监控与调试强化学习过程。
  • 配置智能默认参数,同时支持自定义设置,以兼顾易用性和高效稳定的训练体验。

yoheinakajima/mindgraph

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-mindgraph

mindgraph 是一个用于生成和查询不断扩展的知识图谱的概念验证原型,专注于自然语言交互。

  • 实体管理:在内存图中存储实体,支持对人员、组织及其关系进行快速访问和 CRUD 操作。
  • 集成触发器:通过 HTTP 请求触发自定义集成功能,使 CRM 能够与外部系统互动或执行额外处理。
  • 搜索能力:可以使用自定义查询参数轻松搜索实体及其关系。
  • AI 准备性:设计时考虑了 AI 集成,便于智能数据处理和决策制定。
  • 提供一系列 RESTful API 端点以支持各种操作,如创建、检索、更新和删除实体。

G-U-N/AnimateLCM

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-AnimateLCM

AnimateLCM 是一个高效的个性化风格视频生成工具,无需个性化视频数据即可实现计算效率优化。

  • 支持快速文本到视频、控制到视频、图像到视频和长时间的视频生成。
  • 采用解耦学习范式,显著提升训练效率。
  • 提供多种模型,包括 Animate-LCM-T2V 和 AnimateLCM-I2V,以满足不同的动画需求。
  • 能够在仅 4 次推理步骤内生成高质量动画。

ton-community/tact-challenge

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

tact-challenge 是一个由 TON 基金会主办的智能合约编程挑战项目,旨在通过一系列任务测试参与者的编程能力。

  • 包含多个任务,如计数器合约、代理合约、去中心化交易所合约等。
  • 每个任务要求提供符合描述的智能合约代码,并进行可测试性标记。
  • 评分机制基于通过测试情况和“气体消耗”得分,最高可获得 6 分。
  • 提交解决方案需创建私有 GitHub 仓库并遵循特定注册流程,以确保安全性与隐私。
  • 比赛获胜者将获得以 Toncoin 为单位的奖励,这是 TON 区块链原生加密货币。
Licensed under CC BY-NC-SA 4.0