Featured image of post 2 分钟构建网页爬虫:0 基础轻松完成! | 开源日报 No.426

2 分钟构建网页爬虫:0 基础轻松完成! | 开源日报 No.426

maxun 是一个免费的开源无代码网页数据提取平台。 该项目解决了用户在没有编程知识的情况下,快速构建自定义机器人以自动化数据抓取的问题。

getmaxun/maxun

Github Repo Stars License: `AGPL-3.0` Language: `Unknown`

demo-picture-of-maxun

maxun 是一个免费的开源无代码网页数据提取平台。 该项目解决了用户在没有编程知识的情况下,快速构建自定义机器人以自动化数据抓取的问题。

  • 支持快速训练机器人,仅需 2 分钟即可开始自动抓取网页。
  • 提供多种数据捕获方式,包括列表、文本和截图。
  • 适合各种网站的数据提取需求,如电商产品信息等。
  • 开源且可自托管,用户可以根据需要进行定制。

chronark/highstorm

Github Repo Stars License: `AGPL-3.0` Language: `Unknown`

cover

highstorm 是一个开源事件监控工具。 该项目旨在提供高效的事件监控解决方案,以便用户能够轻松管理和分析其应用程序中的事件数据。

  • 支持多种第三方服务集成,如数据库和身份验证
  • 提供详细的安装和配置指南,易于上手
  • 具备时间序列数据库支持,适合处理动态数据

huggingface/alignment-handbook

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-alignment-handbook

alignment-handbook 是一个提供稳健配方的项目,用于将语言模型与人类和 AI 偏好对齐。

  • 提供了一系列稳健的训练配方,涵盖整个流程
  • 支持继续预训练、有监督微调、以及与 DPO 和 ORPO 对齐的有监督微调
  • 提供了复制 Zephyr 7B 等模型的配方
  • 包含脚本来训练和评估模型,并支持分布式训练全模型权重
  • 正在编写指南,解释 DPO 等方法如何工作,并分享实践中收集人类偏好时所学到的经验。

idurar/idurar-erp-crm

Github Repo Stars License: `AGPL-3.0` Language: `Unknown`

demo-picture-of-idurar-erp-crm

idurar-erp-crm 是一款基于先进的 MERN 栈(Node.js / Express.js / MongoDb / React.js)构建的开源 ERP/CRM 会计发票软件。 该程序解决了企业在管理发票、客户和支付等方面的复杂性问题。

  • 提供全面的发票管理、支付管理和报价管理功能
  • 支持客户信息管理,提升用户体验
  • 基于 Ant Design 框架,界面友好且易于使用
  • 完全开源,可用于个人或商业用途,无需费用
  • 自托管企业版本可用,便于灵活部署

Codium-ai/pr-agent

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

demo-picture-of-pr-agent

pr-agent 是一个基于人工智能的工具,用于自动化拉取请求的分析、反馈和建议。 该程序旨在高效地审查和处理拉取请求,提供 AI 驱动的反馈与建议。

  • 提供自动化的代码审核和问题识别
  • 支持多种接口运行,包括 CLI 和 PR 评论
  • 能够根据 Jira 或 GitHub 票据增强 PR 反馈
  • 自动记录接受的代码建议,便于历史跟踪与学习
  • 允许用户自定义标签生成以满足项目需求
Licensed under CC BY-NC-SA 4.0