# SpiderKing **Repository Path**: yang-yi-li/SpiderKing ## Basic Information - **Project Name**: SpiderKing - **Description**: 🕷️蜘蛛王🕸️ - **Primary Language**: TypeScript - **License**: Apache-2.0 - **Default Branch**: SpiderKing - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2024-03-24 - **Last Updated**: 2024-03-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: SpiderKing, Crawlee, playwright, puppeteer ## README

Crawlee
🕷️ 蜘蛛王 🕸️ [![蜘蛛王](https://img.shields.io/badge/SpiderKing-v1.0.0-white.svg?style=flat&colorA=c99634&colorB=c99634&logo=spyderide&logoColor=ffffff)](https://gitee.com/Anonymous-Programmers/SpiderKing/) [![Crawlee](https://img.shields.io/badge/Crawlee-v3.8.2-white.svg?style=flat&colorA=f87d1d&colorB=f87d1d&logo=alltrails&logoColor=ffffff)](https://crawlee.dev/) [![Playwright](https://img.shields.io/badge/Playwright-v1.42.1-white.svg?style=flat&colorA=45ba4b&colorB=45ba4b&logo=Playwright&logoColor=ffffff)](https://playwright.dev/) [![Puppeteer](https://img.shields.io/badge/Puppeteer-v22.6.1-white.svg?style=flat&colorA=01d8a2&colorB=01d8a2&logo=Puppeteer&logoColor=ffffff)](https://pptr.dev/) [![佚名程序员](https://img.shields.io/badge/佚名程序员-white?style=flat&logo=github-sponsors)](https://yangyili.com/)

一个用于 Node.js 的网页抓取和浏览器自动化库,用于快速构建可靠的抓取工具。
## 🛠 特点 - 用于 **HTTP 和无头浏览器** 爬行的单一接口 - 要抓取的 URL 的持久 **队列**(广度和深度优先) - 表格数据和文件的可插拔 **存储** - 利用可用系统资源自动 **扩展** - 集成 **代理轮换** 和会话管理 - 使用 **钩子** 可定制生命周期 - **CLI** 来引导您的项目 - 可配置的 **路由**, **错误处理** 和 **重试** - **Dockerfiles** 准备部署 - 使用泛型用 **TypeScript** 编写 ### 👾 HTTP 爬取 - 零配置 **HTTP2 支持**,即使对于代理也是如此 - 自动生成类似 **浏览器的标题** - **浏览器 TLS** 指纹的复制 - 集成快速 **HTML 解析器**。 Cheerio 和 JSDOM - 是的,您也可以抓取 **JSON API** ### 💻 真实的浏览器爬行 - JavaScript **渲染** 和 **屏幕截图** - **无头** 和 **有头** 支持 - 零配置生成 **类人指纹** - 自动 **浏览器管理** - 使用具有相同界面的 **Playwright** 和 **Puppeteer** - **Chrome**, **Firefox**, **Webkit** 等 ## 参考网址 1. [Crawlee 官网](https://crawlee.dev/) 2. [puppeteer 官网](https://pptr.dev/) 3. [puppeteer 中文网](https://pptr.nodejs.cn/) 4. [Playwright 官网](https://playwright.dev/) 5. [Playwright 中文网](https://playwright.nodejs.cn/) 6. [Web 开发技术](https://developer.mozilla.org/zh-CN/docs/Web) 7. [Chalk 终端字符串样式](https://github.com/chalk/chalk) 8. [Progress 终端进度条](https://www.npmjs.com/package/progress) 9. [Inquirer 交互式命令行](https://github.com/SBoudrias/Inquirer.js)