Featured image of post 赋能 RAG:把文档转换成 Markdown/JSON | 开源日报 No.421

赋能 RAG:把文档转换成 Markdown/JSON | 开源日报 No.421

Docling 是一个用于快速解析文档并导出为所需格式的工具。 它解决了将多种文档格式转换为 Markdown 和 JSON 的需求,使得处理和利用文档变得更加高效。

DS4SD/docling

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-docling

Docling 是一个用于快速解析文档并导出为所需格式的工具。 它解决了将多种文档格式转换为 Markdown 和 JSON 的需求,使得处理和利用文档变得更加高效。

  • 支持读取多种流行的文档格式(PDF、DOCX、PPTX、图像、HTML 等)并导出为 Markdown 和 JSON
  • 具备先进的 PDF 理解能力,包括页面布局、阅读顺序及表格结构
  • 提供统一且表达丰富的 DoclingDocument 表示格式
  • 能够提取元数据,如标题、作者及语言等信息
  • 与 LlamaIndex 与 LangChain 无缝集成,适用于强大的 RAG/QA 应用程序
  • 支持扫描 PDF 文件的 OCR 功能
  • 简单便捷的命令行界面

OthersideAI/self-operating-computer

Github Repo Stars License: `MIT` Language: `Unknown`

cover

self-operating-computer 是一个框架,旨在使多模态模型能够操作计算机。 该程序解决了让机器通过模拟人类操作员的输入和输出,以实现特定目标的问题。

  • 兼容性:设计用于各种多模态模型。
  • 集成:目前与 GPT-4o、Gemini Pro Vision、Claude 3 和 LLaVa 集成。
  • 支持未来计划:将支持更多模型。
  • 持续开发中:正在开发更准确点击位置预测的 Agent-1-Vision 模型,并即将提供 API 访问权限。

dreamgaussian/dreamgaussian

Github Repo Stars License: `MIT` Language: `Unknown`

cover

dreamgaussian 是一个用于高效 3D 内容创建的生成高斯点云实现。 该项目解决了将 2D 图像或文本转换为 3D 模型的复杂问题,提供了一种简便的方法来生成和可视化三维内容。

  • 支持从图像到 3D 模型和从文本到 3D 模型的转换
  • 提供 GUI 模式以方便训练过程中的可视化
  • 兼容多种深度学习框架与工具,易于安装与使用
  • 能够导出多种格式(如 OBJ、GLB)以满足不同需求
  • 包含对 CLIP 相似性评估功能,有助于提高生成质量

Uniswap/v4-core

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

v4-core 是 Uniswap v4 的核心智能合约,提供可扩展和可定制的流动性池。 该项目解决了创建和执行流动性池操作(如交换和提供流动性)的复杂问题。

  • 提供自动化市场制造商协议
  • 支持灵活的池状态管理与操作
  • 允许在解锁后进行多种交易动作,如交换、修改流动性等
  • 可通过钩子合约实现自定义回调逻辑

THUDM/VisualGLM-6B

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-VisualGLM-6B

VisualGLM-6B 是一个开源的多模态对话语言模型,支持图像、中文和英文。

  • 基于 ChatGLM-6B 构建,具有 62 亿参数;
  • 图像部分通过 BLIP2-Qformer 训练构建视觉模型与语言模型之间的桥梁,总参数为 78 亿;
  • 使用 CogView 数据集进行预训练,在微调阶段在长视觉问答数据上训练以生成符合人类偏好的答案;
  • 基于 SwissArmyTransformer 库训练,提供了用户习惯接口和基于 sat 的接口;
  • 支持消费级显卡上本地部署(INT4 量化级别下最低只需 6.3G 显存)。
Licensed under CC BY-NC-SA 4.0