Featured image of post 解放双手:借助 AI 完成浏览器自动化! | 开源日报 No.313

解放双手:借助 AI 完成浏览器自动化! | 开源日报 No.313

skyvern 是使用 LLMs 和计算机视觉自动化基于浏览器的工作流程。

python/cpython

Github Repo Stars License: Language:

cover

cpython 是 Python 编程语言的官方实现。 该项目的主要功能、关键特性、核心优势包括:

  • 提供了 Python 编程语言的官方实现版本
  • 可在多个平台上构建和运行
  • 提供详细的文档和开发指南,方便开发者参与贡献
  • 支持各种构建选项和配置,并提供了相关的构建说明文档

NVIDIA/NeMo

Github Repo Stars License: Language:

cover

NeMo 是一个可扩展的生成式 AI 框架,专为研究大型语言模型、多模态和语音 AI(自动语音识别和文本到语音)的研究人员和开发人员构建。 NeMo 的主要功能、关键特性和核心优势包括:

  • 支持大型语言模型和多模态
  • 提供预训练模型和优化增强
  • 支持混合专家和强化学习
  • 可在任何云和本地环境中进行开发和扩展
  • 可以加速语音识别的准确性和速度

deepseek-ai/DeepSeek-V2

Github Repo Stars License: Language:

demo-picture-of-DeepSeek-V2

DeepSeek-V2 是一个强大、经济高效的专家混合语言模型。 该项目主要功能、关键特性和核心优势包括:

  • 拥有 236B 总参数,其中每个标记激活了 21B
  • 相较于 DeepSeek 67B,DeepSeek-V2 在提升性能的同时节省了 42.5% 的训练成本,并将最大生成吞吐量提升至 5.76 倍
  • 在多种基准测试和开放式生成评估中表现出显著性能
  • 提供模型下载、评估结果、模型架构以及 API 平台等信息

DataTalksClub/llm-zoomcamp

Github Repo Stars License: Language:

demo-picture-of-llm-zoomcamp

llm-zoomcamp 是一个关于构建能够回答有关知识库问题的 AI 机器人的免费在线课程。

  • 10 周学习如何构建能够回答有关知识库问题的 AI 机器人
  • 覆盖 LLMs 和 RAG 等主题
  • 不需要先前接触过人工智能或机器学习
  • 提供预备课程研讨会、视频和代码资源
  • 计划涵盖 LLMs 和 RAG 介绍、自托管 LLMs、向量数据库与检索技术等内容

Skyvern-AI/skyvern

Github Repo Stars License: Language:

demo-picture-of-skyvern

skyvern 是使用 LLMs 和计算机视觉自动化基于浏览器的工作流程。

  • 提供简单的 API 端点,完全自动化手动工作流程
  • 添加了计算机视觉和 LLMs 来解析实时视口中的项目,并与之交互
  • 可以在从未见过的网站上操作,无需定制代码
  • 抵抗网站布局更改,没有预先确定的 XPaths 或其他选择器系统正在寻找导航时
  • 利用 LLMs 推理交互以确保覆盖复杂情况
Licensed under CC BY-NC-SA 4.0