allenai/olmocr
olmocr 是一个用于将 PDF 文档线性化以便于训练语言模型的工具包。
- 提供自然文本解析的提示策略,利用 ChatGPT 4o 进行高效处理。
- 包含评估工具,可对不同管道版本进行并排比较。
- 支持按语言过滤和 SEO 垃圾邮件移除功能。
- 提供针对 Qwen2-VL 和 Molmo-O 的微调代码。
- 能够通过微调模型处理数百万个 PDF 文件,并使用 Sglang 实现推理功能。
- 可视化从 PDF 创建的 Dolma 文档,方便查看结果。
NirDiamant/GenAI_Agents
GenAI_Agents 是一个提供各种生成性人工智能代理技术的教程和实现的综合资源库,旨在帮助用户构建智能、互动的 AI 系统。
- 从初学者到高级水平学习构建 GenAI 代理
- 探索多种代理架构和应用
- 提供逐步教程和全面文档
- 实用且可直接使用的代理实现
- 定期更新最新的 GenAI 进展
- 鼓励社区分享自己的代理创作
polymorphicshade/Tubular
Tubular 是 NewPipe 的一个分支,实现了 SponsorBlock 和 ReturnYouTubeDislike。 该项目的主要功能、关键特性、核心优势包括:
- 实现了 SponsorBlock 和 ReturnYouTubeDislike
- 可以持久化自定义的 SponsorBlock 片段在数据库中
- 添加了 SponsorBlock 的“独家访问”/“赞助视频”功能
- 增加了 SponsorBlock 的章节功能
- 添加点击诱导内容移除器
- 支持关键字/正则表达式过滤器
- 支持使用 YouTube 登录 cookie 导入订阅频道
- 使用 YouTube 登录 cookie 提供算法结果
- 支持离线播放 YouTube 视频
KaisenAmin/c_std
c_std 是一个用 C 语言重新实现 C++ 标准库功能的项目。
- 提供与 C++ 标准库相似的数据结构和算法管理工具
- 包含多个模块,如数组、链表、队列、栈等,支持动态大小容器
- 旨在为 C 开发者提供更好的数据结构管理和特性使用体验
- 强调在保持 C 语言生态系统内的便利性,同时丰富 C 语言的功能
d3/d3
D3 是一个用于数据可视化的开源 JavaScript 库,支持 SVG、Canvas 和 HTML。
- 提供灵活的低级别 API,便于创建动态的数据驱动图形
- 支持多种标准网页技术,使得与其他工具兼容性强
- 拥有丰富的文档和示例资源,方便用户学习和使用
- 在过去十多年中推动了许多创新且获奖的可视化项目