Featured image of post 基于人工智能的网络爬虫:让数据唾手可得 | 开源日报 No.274

基于人工智能的网络爬虫:让数据唾手可得 | 开源日报 No.274

Scrapegraph-ai 是一个基于人工智能的 Python 网络爬虫库。 它使用 LLM 和直接图逻辑来创建用于网站、文档和 XML 文件的爬取流水线。只需指定要提取的信息,该库就会为您完成!

microsoft/vscode

Github Repo Stars License: Language:

demo-picture-of-vscode

vscode 是一个开源的代码编辑器。 该项目主要功能和核心优势包括:

  • 提供全面的代码编辑、导航和理解支持
  • 轻量级调试
  • 丰富的可扩展性模型
  • 与现有工具轻量级集成

delta-io/delta

Github Repo Stars License: Language:

demo-picture-of-delta

delta 是一个开源存储框架,可以构建具有包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎以及 Scala、Java、Rust、Ruby 和 Python 的 API 的 Lakehouse 架构。 主要功能和优势包括:

  • 支持多种计算引擎
  • 提供多种编程语言的 API
  • 兼容性强,保证向后兼容性
  • 有详细的文档和快速入门指南

VinciGit00/Scrapegraph-ai

Github Repo Stars License: Language:

demo-picture-of-Scrapegraph-ai

Scrapegraph-ai 是一个基于人工智能的 Python 网络爬虫库。 它使用 LLM 和直接图逻辑来创建用于网站、文档和 XML 文件的爬取流水线。只需指定要提取的信息,该库就会为您完成!

  • 可以从网站上提取信息
  • 支持 Ollama 模型
  • 支持 Docker 容器模型
  • 支持 OpenAI 模型
  • 支持 Groq 查询 通过 ScrapeGraphAI 类可以方便地从网站中提取信息,并且支持多种不同类型的模型和配置。

OpenBMB/MiniCPM-V

Github Repo Stars License: Language:

demo-picture-of-MiniCPM-V

MiniCPM-V 是一个高效的端侧多模态大模型,具有强大的 OCR 和理解能力。

  • 提供领先性能和高效部署
  • 接受图像和文本输入,并输出高质量文本
  • 支持 180 万像素任意长宽比图像输入
  • 实现了领先的 OCR 能力,接近 Gemini Pro 水平
  • 通过 RLHF 对齐解决幻觉问题

KenneyNL/Adobe-Alternatives

Github Repo Stars License: Language:

cover

Adobe Alternatives,提供 Adobe 软件的替代方案列表,由社区收集并完善。该项目包含了多个免费或开源软件,并标注了其是否需要付费、单次购买还是订阅等信息。

  • 提供 Photoshop、Illustrator、Animate 等多种 Adobe 软件的替代品
  • 包括摄影处理、绘画创作和像素艺术等领域
  • 收录大量免费或开源软件以及部分商业产品
Licensed under CC BY-NC-SA 4.0