# SpiderKing
**Repository Path**: yang-yi-li/SpiderKing
## Basic Information
- **Project Name**: SpiderKing
- **Description**: 🕷️蜘蛛王🕸️
- **Primary Language**: TypeScript
- **License**: Apache-2.0
- **Default Branch**: SpiderKing
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 1
- **Forks**: 0
- **Created**: 2024-03-24
- **Last Updated**: 2024-03-28
## Categories & Tags
**Categories**: Uncategorized
**Tags**: SpiderKing, Crawlee, playwright, puppeteer
## README
🕷️ 蜘蛛王 🕸️
[](https://gitee.com/Anonymous-Programmers/SpiderKing/)
[](https://crawlee.dev/)
[](https://playwright.dev/)
[](https://pptr.dev/)
[](https://yangyili.com/)
一个用于 Node.js 的网页抓取和浏览器自动化库,用于快速构建可靠的抓取工具。
## 🛠 特点
- 用于 **HTTP 和无头浏览器** 爬行的单一接口
- 要抓取的 URL 的持久 **队列**(广度和深度优先)
- 表格数据和文件的可插拔 **存储**
- 利用可用系统资源自动 **扩展**
- 集成 **代理轮换** 和会话管理
- 使用 **钩子** 可定制生命周期
- **CLI** 来引导您的项目
- 可配置的 **路由**, **错误处理** 和 **重试**
- **Dockerfiles** 准备部署
- 使用泛型用 **TypeScript** 编写
### 👾 HTTP 爬取
- 零配置 **HTTP2 支持**,即使对于代理也是如此
- 自动生成类似 **浏览器的标题**
- **浏览器 TLS** 指纹的复制
- 集成快速 **HTML 解析器**。 Cheerio 和 JSDOM
- 是的,您也可以抓取 **JSON API**
### 💻 真实的浏览器爬行
- JavaScript **渲染** 和 **屏幕截图**
- **无头** 和 **有头** 支持
- 零配置生成 **类人指纹**
- 自动 **浏览器管理**
- 使用具有相同界面的 **Playwright** 和 **Puppeteer**
- **Chrome**, **Firefox**, **Webkit** 等
## 参考网址
1. [Crawlee 官网](https://crawlee.dev/)
2. [puppeteer 官网](https://pptr.dev/)
3. [puppeteer 中文网](https://pptr.nodejs.cn/)
4. [Playwright 官网](https://playwright.dev/)
5. [Playwright 中文网](https://playwright.nodejs.cn/)
6. [Web 开发技术](https://developer.mozilla.org/zh-CN/docs/Web)
7. [Chalk 终端字符串样式](https://github.com/chalk/chalk)
8. [Progress 终端进度条](https://www.npmjs.com/package/progress)
9. [Inquirer 交互式命令行](https://github.com/SBoudrias/Inquirer.js)