Featured image of post 从零到一:Python 爬虫百科全书 | 开源日报 No.343

从零到一:Python 爬虫百科全书 | 开源日报 No.343

学习 Python 爬虫的完整教程系列项目,涵盖多种爬取技术和工具,支持多线程多进程和分布式爬取,还有实战案例和源代码示例展示。通过这个项目,你可以系统地学习并实践 Python 中的网络数据采集技术。

PlatformLab/NanoLog

Github Repo Stars License: Language:

demo-picture-of-NanoLog

NanoLog 是一个极其高性能的 C++ 纳秒级日志系统,提供类似 printf 的简单 API。

  • 实现了每秒超过 8000 万条日志记录,在中位延迟仅略高于 7 纳秒。
  • 在编译时提取静态日志信息,只在运行时热路径记录动态组件,并将格式化工作推迟到离线处理阶段,从而实现了出色的性能表现。
  • 可以通过编译生成的二进制文件来输出动态日志数据,需要经过额外解压程序才能产生完整、可读的 ASCII 日志。

OpenCTI-Platform/opencti

Github Repo Stars License: Language:

demo-picture-of-opencti

opencti 是一个开源平台,允许组织管理其网络威胁情报知识和可观察数据。

  • 使用基于 STIX2 标准的知识架构对数据进行结构化。
  • 包括 GraphQL API 和面向用户体验的前端。
  • 可与其他工具和应用集成,如 MISP、TheHive、MITRE ATT&CK 等。
  • 提供功能丰富的工具,帮助用户资本化技术信息和非技术信息,并将每个信息片段链接到其主要来源。

wistbean/learn_python3_spider

Github Repo Stars License: Language:

cover

learn_python3_spider 是一个 python 爬虫教程系列项目,旨在从零开始教授学习 Python 爬虫的全过程,涵盖浏览器抓包、各种爬虫模块使用、IP 代理、验证码识别、数据库操作等内容。 该项目的主要功能和优势包括:

  • 提供完整的 Python 爬虫教程系列
  • 涵盖多种爬取技术和工具如 requests, beautifulSoup, selenium, scrapy 等
  • 支持多线程多进程爬取以及分布式爬取
  • 包含实战案例和源代码示例展示 通过这个项目,用户可以系统地学习并实践 Python 中的网络数据采集技术。

LLaVA-VL/LLaVA-NeXT

Github Repo Stars License: Language:

demo-picture-of-LLaVA-NeXT

LLaVA-NeXT 是一个开源的大型多模态模型。

  • 提供强大而全面的多模态功能
  • 在单图像、多图像和视频任务上表现出色
  • 提供详尽文档、脚本以及高质量数据集
  • 支持各种架构选择并具有较低 GPU 内存需求

IdentityServer/IdentityServer4

Github Repo Stars License: Language:

demo-picture-of-IdentityServer4

IdentityServer4 是一个用于 ASP.NET Core 的 OpenID Connect 和 OAuth 2.0 框架。

  • 提供 OpenID Connect 和 OAuth 2.0 框架
  • 支持基于令牌的身份验证
  • 实现单点登录功能
  • 控制 API 访问权限
Licensed under CC BY-NC-SA 4.0