Featured image of post AI 文档转换利器:PDF/图像一键生成网页表单 | 开源日报 No.661

AI 文档转换利器:PDF/图像一键生成网页表单 | 开源日报 No.661

form-extractor-prototype 是一个基于 AI 的文档表单转换工具,能够自动从 PDF/图像中提取表单结构并生成符合 GOV.UK 标准的网页表单,支持 Claude 3 和 OpenAI 处理,输出结构化 JSON 数据。

home-assistant/home-assistant.io

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

home-assistant.io 是 Home Assistant 用户文档的官方网站源码项目。

  • 提供完整的用户文档支持,帮助用户了解和使用 Home Assistant。
  • 支持本地预览网站内容,方便开发者调试和查看修改效果。
  • 具备加速网站生成的工具,通过隔离不相关博客文章提升构建速度。
  • 包含详细的贡献指南及拉取请求流程说明,便于维护和更新文档。

likejazz/llama3.np

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-llama3.np

llama3.np 是一个纯 NumPy 实现的 Llama 3 模型。

  • 采用纯 NumPy 实现,便于理解和使用。
  • 提供了与 Andrej Karpathy 训练的 stories15M 模型相符的准确实现。
  • 支持简单易用的命令行接口,方便用户进行文本生成。
  • 可作为学术研究中的引用资源,促进对该项目的认识。

AdityaNG/kan-gpt

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-kan-gpt

kan-gpt 是基于 Kolmogorov-Arnold 网络 (KANs) 的生成预训练变换器 (GPT) 的 PyTorch 实现,用于语言建模。

  • 使用 PyTorch 框架,便于深度学习开发。
  • 支持多种数据集的下载和使用,包括 Tiny Shakespeare 和 WebText。
  • 提供示例代码,方便用户快速上手模型训练与文本生成。
  • KAN-GPT 在性能上优于传统 MLP-GPT 模型,显示出更好的效果。

timpaul/form-extractor-prototype

Github Repo Stars License: `MIT` Language: `Unknown`

cover

form-extractor-prototype 是一个从文档表单生成网页表单的工具原型。

  • 从 PDF 或图像中提取表单结构
  • 支持使用 Claude 3 LLM 或 OpenAI LLM 进行处理
  • 将提取的结构以 JSON 格式表示,遵循 GOV.UK Forms 的模式
  • 生成符合 GOV.UK 风格的多页网页表单
  • 能够识别常见问题类型,如姓名、地址和日期等
  • 可处理手绘形式,并区分问题、提示和字段文本

diia-open-source/android-diia

Github Repo Stars License: `EUPL-1.2` Language: `Unknown`

cover

android-diia 是乌克兰数字化转型部开发的旗舰产品 Diia 的开源应用程序,旨在为公民提供访问数字文件和政府服务的平台。

  • 提供便捷的在线政务服务,减少排队和文书工作。
  • 促进国家、公司与社区之间建立长期关系。
  • 强调开放性、高效性和人性化设计。
  • 支持 Android 及华为设备的构建与部署。
Licensed under CC BY-NC-SA 4.0