OmniParser 是一个开源的屏幕解析工具,旨在为基于视觉的 GUI 代理提供支持,能够将用户界面截图解析为结构化元素,增强 GPT-4V 生成界面交互的能力,支持多种大型语言模型,提供细粒度的图标检测和交互预测,尤其在 Windows Agent Arena 中表现突出,受到广泛欢迎。
OCRmyPDF 是一个开源工具,旨在为扫描的 PDF 文件添加可搜索的 OCR 文本层,支持生成 PDF/A 文件,保持图像分辨率,优化文件大小,并可在多个 CPU 核心上并行处理,使用 Tesseract OCR 引擎支持多语言识别,确保用户数据的私密性。
Onlook 是一个开源设计工具,允许用户在实时的 React 应用中进行设计,支持与 TailwindCSS 集成,提供实时编辑、项目聊天功能、快速定位代码的右键功能,旨在提升设计与代码的无缝协作。
ImageToolbox 是一款功能强大的开源图像处理应用,支持批量处理和 230 多种滤镜,提供裁剪、背景擦除、EXIF 数据编辑等基本工具,能够将图片转换为 PDF,适合摄影师和开发者使用,界面简洁,功能丰富。
asdf 是一个可扩展的版本管理工具,支持多种编程语言的运行时版本管理,提供统一的命令行工具和全局配置,允许每个项目使用独立的版本配置文件,支持现有配置文件的迁移,自动切换运行时版本,并具备简单的插件系统和多种 shell 的补全功能。
Lucide 是一个开源的图标工具包,源自 Feather Icons,提供超过 1000 个矢量图标,旨在简化设计师和开发者在项目中整合图标的过程。它提供多种官方软件包,完全免费,适用于商业和个人用途,采用 ISC 许可证。
browser-use 是一个开源工具,旨在使网站能够被 AI 代理访问,支持自动化操作,提供即用型托管版本,支持多种任务执行,用户可通过简单的 Python 代码快速启动,且附有丰富的示例和演示,便于理解和使用。
Janus 是一个开源的统一多模态理解和生成模型系列,支持多模态数据的理解与生成,提升文本到图像的指令跟随能力。它采用解耦视觉编码,增强了框架的灵活性和有效性。Janus-Pro 和 JanusFlow 提供了更先进的功能,显著提升视觉生成质量,成为下一代统一多模态模型的有力候选。
Cheerio 是一个高效、灵活的库,用于解析和操作 HTML 和 XML,支持 jQuery 的核心子集,简化 DOM 操作,解析和渲染速度快,能够使用不同的解析器,适用于浏览器和服务器环境,使用 MIT 许可证,拥有 28.8k 颗星。
awesome-cloudflare 是一个精选的资源列表,专为独立开发者设计,汇集了多种基于 Cloudflare 的开源工具和实用功能,如图床和临时邮箱,旨在提高开发效率和降低成本,且持续更新以提供最新资源。