# web_crawler

**Repository Path**: os-technology/web_crawler

## Basic Information

- **Project Name**: web_crawler
- **Description**: 网络爬虫，记录网络获取信息及信息共享
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2020-02-06
- **Last Updated**: 2024-10-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# web_crawler

#### 介绍
网络爬虫，记录网络获取信息及信息共享

### 待处理

#### teleplay 模块

* m3u8包 pack2，pack3尚未完成编写与测试
* HtmlGainUtil类，新增jsoup登录互殴网页信息


# 链接：
[使用Jsoup模拟登录网站并精确抓取数据](https://blog.csdn.net/tanwenfang/article/details/87372724)
[JAVA使用jsoup技术实现网站URL解析爬取|爬取网站登陆后页面动态数据](https://blog.csdn.net/liqi_q/article/details/53031963)

[利用Java的Jsoup模拟登录网站，爬取数据](https://blog.csdn.net/weixin_44729898/article/details/105529013)

[Java技术Jsoup爬取数据手动登录](https://blog.csdn.net/weixin_41537467/article/details/106250951)

[java爬虫（四）利用Jsoup获取需要登陆的网站中的内容（无验证码的登录）](https://www.cnblogs.com/StarZhai/p/14117590.html)

[[Jsoup] 使用HtmlUnit + Jsoup解析js动态生成的网页](https://blog.csdn.net/dietime1943/article/details/79035779)

[bluetata
/
crawler-jsoup-maven
](https://github.com/bluetata/crawler-jsoup-maven)