Featured image of post 端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

MiniCPM-o 是一款开源的端侧多模态大语言模型,支持图像、视频、文本和音频输入,具备高质量的文本和语音输出。最新版本 MiniCPM-o 2.6 拥有 8 亿参数,性能与 GPT-4o 相当,具备双语实时对话、情感和风格控制等功能,具备强大的 OCR、视频理解和多语言支持,适用于多种终端设备。该模型在开源社区中被认为是性能卓越的多模态模型之一。

OpenBMB/MiniCPM-o

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-MiniCPM-o

MiniCPM-o 是一款针对视觉、语音和多模态直播的端侧多模态大语言模型(MLLM),具备强大的性能。

  • 支持图像、视频、文本和音频输入,提供高质量的文本和语音输出。
  • 最新版本 MiniCPM-o 2.6 拥有 8 亿参数,与 GPT-4o 在视觉、语音及多模态直播方面表现相当。
  • 提供双语实时对话功能,并支持情感/速度/风格控制等趣味特性。
  • 强大的 OCR 能力、多语言支持以及视频理解能力,适用于 iPad 等终端设备。
  • 在开源社区中被认为是最通用且性能卓越的模型之一。

KoljaB/RealtimeSTT

Github Repo Stars License: `MIT` Language: `Unknown`

cover

RealtimeSTT 是一个强大、高效、低延迟的语音转文本库,具有先进的语音活动检测、唤醒词激活和即时转录功能。

  • 语音活动检测:自动识别何时开始和停止说话。
  • 实时转录:将语音实时转换为文本。
  • 唤醒词激活:在检测到指定唤醒词后可以启动。
  • 易于使用的接口,适合实时应用程序。
  • 支持多种现代技术栈,如 WebRTCVAD 和 Faster_Whisper。

skills/copilot-codespaces-vscode

Github Repo Stars License: `MIT` Language: `Unknown`

cover

copilot-codespaces-vscode 是一个利用 GitHub Copilot 和 VS Code 提供 AI 驱动的代码建议的开发工具。

  • 提供自动补全风格的代码建议,提升编码效率。
  • 分析编辑文件及相关文件上下文,提供智能化建议。
  • 适用于开发人员、DevOps 工程师、软件开发经理和测试人员等多种角色。
  • 支持在 Codespace 中安装并使用 Copilot,提高项目协作能力。
  • 完成课程可在一小时内掌握如何生成 JavaScript 文件中的代码与注释。

module-federation/core

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-core

core 是一个允许开发者在多个 JavaScript 应用程序之间共享代码和资源的模块联邦概念。

  • 提供“模块联邦 2.0”的能力,增强了 Webpack 5 内置的模块联邦功能
  • 支持动态类型提示、清单、联合运行时和运行时插件系统
  • 适合用于大型 Web 应用中的微前端架构
  • 能够将单体应用拆分为微前端架构
  • 最大限度地重用模块之间的公共依赖项

Chainlit/chainlit

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-chainlit

Chainlit 是一个开源的异步 Python 框架,旨在帮助开发者快速构建可扩展的对话式人工智能应用。

  • 快速构建生产就绪的对话式 AI 应用
  • 支持 ChatGPT 类似应用、嵌入式聊天机器人和软件助手
  • 兼容 Slack 和 Discord 平台
  • 可定制前端,打造个性化体验
  • 提供 API 接口以便集成其他服务
  • 多模态聊天与思维链可视化功能
  • 数据持久性与人类反馈机制
Licensed under CC BY-NC-SA 4.0