Featured image of post 纯 JavaScript 实现的 OCR 库:支持超过 100 种语言 | 开源日报 No.715

纯 JavaScript 实现的 OCR 库:支持超过 100 种语言 | 开源日报 No.715

tesseract.js 是一个基于 JavaScript 的光学字符识别 (OCR) 库,支持超过 100 种语言,能够从图像和视频中提取文本。它使用 WebAssembly 封装了 Tesseract OCR 引擎,适用于浏览器和 Node.js,安装简便,且通过 CDN 或 npm/yarn 轻松获取,显著减小了文件大小,提升了运行速度和内存效率。

Featured image of post 自主搜索超强推理:面向信息检索的智能网页代理 | 开源日报 No.714

自主搜索超强推理:面向信息检索的智能网页代理 | 开源日报 No.714

WebAgent 是阿里巴巴 Tongyi Lab 开发的智能网页代理系统,包含 WebWalker、WebDancer 和 WebSailor 三大核心模型,专注于复杂信息检索任务。其核心优势在于 WebSailor 的强大推理能力、创新的数据合成与高难度问答基准训练,WebDancer 结合 ReAct 框架与多阶段训练提升泛化能力。系统支持多代理协作与大规模数据,能自动化执行长时间多步骤信息获取,且在多项基准测试中表现优异,显著缩小与商业闭源系统的差距。

Featured image of post 开源视频会议平台:支持安卓、iOS、Web 端 | 开源日报 No.713

开源视频会议平台:支持安卓、iOS、Web 端 | 开源日报 No.713

Jitsi Meet 是一个开源的视频会议平台,支持独立使用或嵌入网页,提供安全、简单、可扩展的视频会议解决方案,兼容主流浏览器和移动设备,具备高清音视频、互动功能、内置聊天、投票和虚拟背景设置,支持自建实例和企业级云服务,方便集成和管理。

Featured image of post 自托管 AI 桌面代理:自然语言命令计算机执行任务 | 开源日报 No.712

自托管 AI 桌面代理:自然语言命令计算机执行任务 | 开源日报 No.712

Bytebot 是一个自托管的 AI 桌面代理,运行在容器化的 Linux 环境中,能够通过自然语言命令自动执行计算机任务。它提供完整的虚拟桌面,支持多种应用,文件管理,文档处理,密码管理,实时桌面视图,任务控制的 REST API 和网页界面,便于用户监控和干预任务执行。该项目的核心在于实现复杂的自动化工作流,提升用户的工作效率。

Featured image of post 目标导向型项目管理系统:无限子任务与依赖关系管理 | 开源日报 No.711

目标导向型项目管理系统:无限子任务与依赖关系管理 | 开源日报 No.711

Leantime 是一个开源项目管理系统,专为非项目经理设计,关注多动症、孤独症和阅读障碍用户的需求。它提供简洁的界面和丰富的功能,包括任务管理、项目仪表盘、知识库维护和多语言支持。系统支持无限子任务、依赖关系管理和企业级功能,如风险分析和时间跟踪,且可通过插件和 API 扩展,支持多种身份验证和文件存储选项。

Featured image of post AWS MCP:无缝集成 AWS 服务 | 开源日报 No.708

AWS MCP:无缝集成 AWS 服务 | 开源日报 No.708

MCP 是一个专为 AWS 服务设计的开源 MCP 服务器,基于 Model Context Protocol 标准,旨在实现大型语言模型应用与外部数据源的无缝集成。它提供实时访问 AWS 文档和最佳实践,支持多种 MCP 客户端,优化云原生开发和基础设施管理,且可在容器环境中灵活部署。

Featured image of post 加速大语言模型推理: 降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

加速大语言模型推理: 降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

LMCache 是一个开源的关键值缓存优化系统,旨在提升大语言模型服务的性能并降低 GPU 资源消耗。它支持跨 GPU、CPU DRAM 和本地磁盘的多层级存储,能够高效复用任意非前缀文本块的 KV 缓存,并提供点对点缓存共享机制以提升分布式推理的效率。LMCache 与 vLLM 生态系统深度集成,能够在 RAG 和多轮对话中实现 3~10 倍的延迟优化。