Featured image of post 实时语音活动检测系统:高性能低延迟多平台多语言 | 开源日报 No.669

实时语音活动检测系统:高性能低延迟多平台多语言 | 开源日报 No.669

ten-vad 是一个高性能、轻量级的实时语音活动检测系统,支持多平台和语言,在准确率、延迟和资源消耗方面优于同类产品,适合企业级和嵌入式应用。

TEN-framework/ten-turn-detection

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-ten-turn-detection

ten-turn-detection 是一个用于全双工对话通信的智能换言检测模型。

  • 基于 Qwen2.5-7B 变换器语言模型,具备深度语义理解能力,能够精准识别对话中的自然换言时机
  • 支持中英文多语言环境,实现跨语言的自然交流管理
  • 将用户文本分为完成发言、等待和未完成三种状态,有效避免尴尬打断并保持流畅对话节奏
  • 提供公开的中英双语测试数据集,用于评估和优化换言检测性能
  • 在多个公开测试指标上表现优异,超越其他开源解决方案

TEN-framework/ten-vad

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-ten-vad

ten-vad 是一个由 TEN 开发的实时语音活动检测(VAD)系统,专为企业级应用设计,具备低延迟、高性能和轻量化特点。

  • 高性能:在多个公开数据集和真实场景中表现优于 WebRTC VAD 和 Silero VAD,准确率更高且结果稳定可靠。
  • 低计算复杂度与内存占用:相比同类产品资源消耗更少,更适合嵌入式及边缘设备使用。
  • 快速响应能力:架构优化实现了快速的语音活动检测,有效降低对话系统中的端到端响应时间和转折检测延迟。
  • 多平台多语言支持:提供 Python、C、JavaScript 等多种编程语言接口,并支持 Linux、Windows、macOS 以及移动平台如 Android 和 iOS。
  • 丰富生态体系配套:作为 TEN 综合生态的一部分,可与其他模块如 TURN 检测等无缝协作,实现多模态交互体验。

ed-donner/agents

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-agents

agents 是一个完整的自主智能体(Agentic AI)工程课程仓库,旨在帮助学习者在 6 周内使用 OpenAI Agents SDK、CrewAI、LangGraph、AutoGen 和 MCP 等工具编码并部署自主 AI 智能体。

  • 提供系统化的 6 周学习计划,涵盖从基础到高级的 Agent 开发技能
  • 支持多平台环境搭建(Windows/Mac/Linux),配备详细安装指导
  • 集成多个前沿工具和框架,如 OpenAI Agents SDK 与 CrewAI,实现高效开发体验
  • 包含丰富的视频资源、指南及故障排查笔记本,助力学习过程顺利进行
  • 涉及 API 调用管理与成本控制建议,兼顾实用性与经济性

TEN-framework/ten-framework

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-ten-framework

ten-framework 是一个开源的多模态实时对话语音 AI 代理框架。

  • 支持构建具备语音、视觉和虚拟形象交互能力的智能对话代理
  • 提供低代码/无代码 TMAN Designer 工具,方便创建和管理语音代理工作流
  • 集成丰富的免费 AI 头像资源,实现实时虚拟形象展示
  • 与 MCP 服务器无缝连接,增强大语言模型(LLM)功能,实现实时语音交流
  • 支持硬件设备(如 Espressif ESP32-S3 Korvo V3)上的实时通信部署
  • 内置 Google Gemini 多模态 API 支持视觉与屏幕共享检测等高级功能
  • 兼容其他主流 LLM 平台,提升跨平台互动体验
  • 包含 StoryTeller 图像生成扩展,实现即时图像创作与展示

github-copilot-resources/copilot-metrics-viewer

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-copilot-metrics-viewer

copilot-metrics-viewer 是一个可视化工具,用于展示通过 Copilot Business Metrics API 提供的 GitHub Copilot 相关指标。

  • 显示与 GitHub Copilot 相关的多种指标图表,便于理解和分析其影响及采用情况。
  • 包含接受率、总建议数、总接受数等关键指标,帮助用户评估工具的有效性。
  • 提供语言分解分析,包括前五种编程语言的使用情况和接受率。
  • 展示 Copilot 聊天互动数据,如累计交互次数和活跃用户数量,以了解用户参与度。
  • 分析座位使用情况,包括已分配但未使用以及过去七天内无活动座位的信息。
Licensed under CC BY-NC-SA 4.0