Featured image of post 高效文档提取利器 :84 语种 OCR 识别 | 开源日报 No.558

高效文档提取利器 :84 语种 OCR 识别 | 开源日报 No.558

MinerU 是一个高效、多功能的开源数据提取工具,支持从 PDF、网页和电子书等多种格式中提取高质量数据。其核心功能包括强大的表格识别、多语言 OCR 支持 (84 种语言)、优化内存使用以降低硬件要求,并提供快速部署和在线演示。该项目旨在解决从各种文档中高效、准确地提取数据的问题。

satnaing/shadcn-admin

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-shadcn-admin

shadcn-admin 是一个基于 Shadcn 和 Vite 构建的管理仪表板用户界面。

  • 支持亮/暗模式
  • 响应式设计
  • 可访问性强
  • 内置侧边栏组件
  • 全球搜索命令功能
  • 超过 10 个页面
  • 额外自定义组件

opendatalab/MinerU

Github Repo Stars License: `AGPL-3.0` Language: `Unknown`

demo-picture-of-MinerU

MinerU 是一个一站式开源高质量数据提取工具,支持 PDF、网页和多格式电子书的提取。 该项目解决了从各种文档中高效准确地提取数据的问题。

  • 支持多种文件格式,包括 PDF、网页和电子书。
  • 提供强大的表格识别功能,提升数据解析的准确性。
  • 多语言 OCR 支持,可检测和识别 84 种语言。
  • 优化内存使用,大幅降低硬件要求,提高性能表现。
  • 便于快速部署,并提供在线演示以展示功能。

open-telemetry/opentelemetry-cpp

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

cover

opentelemetry-cpp 是一个用于 C++ 的 OpenTelemetry 客户端。

  • 支持日志、指标和追踪三种信号,项目状态稳定。
  • 兼容多种 C++ 标准,包括 C++14、C++17 和 C++2
  • 在多个 x86-64 平台上进行构建和测试,如 Ubuntu、macOS 和 Windows Server。
  • 提供简单的入门指南和参考文档,便于用户快速上手。

zed-industries/extensions

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

extensions 是 Zed 编辑器的扩展集合。

  • 提供多种可用的扩展,增强编辑器功能
  • 包含开发和发布扩展的文档指导
  • 收集用户对主题和语言的需求建议
  • 标记为“需要基础设施”的问题表示当前无法开发相关扩展

bricks-cloud/BricksLLM

Github Repo Stars License: `MIT` Language: `Unknown`

cover

BricksLLM 是一个企业级的 API 网关,帮助用户监控和施加每个 API 密钥的成本或速率限制,并提供细粒度的访问控制和监控。

  • 支持 OpenAI、Azure OpenAI、Anthropic 和 vLLM 等多种 LLM
  • 提供 PII 检测与屏蔽功能
  • 实现请求速率限制与成本控制
  • 具备请求分析及缓存机制,提高 LLM 的可靠性
  • 支持按用户或组织跟踪 LLM 使用情况
  • 提供自定义部署选项及集成支持
Licensed under CC BY-NC-SA 4.0