Featured image of post 下一代爬虫框架:高效灵活、功能强大 | 开源日报 No.444

下一代爬虫框架:高效灵活、功能强大 | 开源日报 No.444

探索 Katana,一个功能强大的下一代爬虫框架,具备快速爬取、JavaScript 解析、自动表单填写等多种强大功能,支持多种输入输出格式,助你轻松应对各种网页数据抓取需求!

projectdiscovery/katana

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-katana

katana 是一个下一代的爬虫和蜘蛛框架。

  • 快速且完全可配置的网页爬取
  • 标准模式和无头模式支持
  • 支持 JavaScript 解析/爬取
  • 可定制的自动表单填写功能
  • 范围控制 - 预配置字段/正则表达式支持
  • 可定制输出 - 预配置字段选项
  • 输入方式多样化 - 支持标准输入、URL 和列表
  • 输出格式灵活 - 支持标准输出、文件和 JSON 格式

timescale/pgai

Github Repo Stars License: `PostgreSQL` Language: `Unknown`

demo-picture-of-pgai

pgai 是一个套件工具,可以更轻松地在 PostgreSQL 中开发 RAG、语义搜索和其他 AI 应用程序。

  • 可以直接在 PostgreSQL 中开发 RAG、语义搜索和其他 AI 应用程序
  • 简化了构建搜索、Retrieval Augmented Generation(RAG)等 AI 应用程序的过程
  • 支持从数据生成嵌入式向量并进行检索
  • 可以执行高性能、成本效益的 ANN 搜索任务
  • 支持 LLMs 进行数据处理任务,如分类、摘要和数据丰富化

dittofeed/dittofeed

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-dittofeed

dittofeed 是一个开源的客户参与平台,可以自动化跨电子邮件、短信、移动推送、WhatsApp、Slack 等渠道发送交易和营销信息 。

  • 通过 Segment, Reverse ETL 或 Dittofeed API 连接用户数据 ️
  • 创建高度可定制的用户分段,支持多种操作符
  • 使用 HTML, MJML 或 Markdown 设计消息模板 ‍
  • 通过强大且易于使用的 GUI 界面自动化用户旅程 ️
  • 集成主要 ESP 如 Sendgrid 和 Amazon SES
  • 从仪表板跟踪并分析消息性能

frappe/frappe_docker

Github Repo Stars License: `MIT` Language: `Unknown`

cover

frappe_docker 是用于 Frappe 框架和 ERPNext 的生产和开发环境的 Docker 镜像。

  • 提供便捷的容器化解决方案,简化 Frappe 和 ERPNext 的部署过程。
  • 支持快速启动开发或生产环境,只需简单的命令即可运行。
  • 包含详细文档,帮助用户了解设置、操作及故障排除步骤。
  • 允许自定义镜像和应用,以满足特定需求。
  • 适用于 Linux 和 macOS 系统,提高了跨平台兼容性。

huggingface/text-embeddings-inference

Github Repo Stars License: `Apache-2.0` Language: `Unknown`

cover

text-embeddings-inference 是一个快速的文本嵌入模型推理解决方案。

  • 支持多种流行的文本嵌入和序列分类模型
  • 无需模型图编译步骤,简化部署流程
  • 针对 Mac 本地执行提供 Metal 支持
  • 小型 Docker 镜像和快速启动时间,实现真正的无服务器架构
  • 基于令牌的动态批处理,提高推理效率
  • 优化了使用 Flash Attention、Candle 和 cuBLASLt 进行推理的变换器代码
  • 生产就绪,支持分布式追踪与 Prometheus 指标
Licensed under CC BY-NC-SA 4.0