# blog-crawl-admin **Repository Path**: xucux/blog-crawl-admin ## Basic Information - **Project Name**: blog-crawl-admin - **Description**: 🕷博客爬虫管理项目 - **Primary Language**: JavaScript - **License**: AGPL-3.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2021-09-05 - **Last Updated**: 2025-07-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: SpringBoot, Selenium, Jsoup ## README

BlogCrawlAdmin

博客爬虫管理
`BlogCrawlAdmin`(博客爬虫管理) 是一个后台爬取文章管理项目😜,基于[Pear-Admin](https://gitee.com/pear-admin/Pear-Admin-Layui)框架开发。主要用于爬取某渠道文章,并统一解析成MD,管理爬取的文章;本项目不包含分布式采集、重爬、代理、多线程等逻辑,需要者自行开发。 本项目仅供学习使用,禁止用于任何非法用途! ## 1️⃣技术框架 ``` SpringBoot:springboot全家桶 SpringSecurity:安全组件 Thymeleaf:模板引擎 TkMybatis:orm层 Druid:数据源连接池和监控 Sharding-Jdbc:分库分表 MySQL:数据存储 Redis:分布式存储 Quartz:定时任务框架 Lucene:搜索引擎 Jsoup:解析Document Websocket:集成web-socket Selenium:自动化测试工具 LayUI:前端框架 ``` **模块`spider`目录** [在WebIDE中打开项目](https://github1s.com/xu-ux/blog-crawl-admin) ```shell . |-- controller # 视图层 |-- domain # 实体模型 |-- enums # 枚举 |-- http # http工具 |-- manager # 业务层 |-- mapper # ORM |-- pojo # 传输实体 |-- service # 服务层 `-- util # 工具 ``` **目前可以Copy的文章渠道有:** ~~CSDN~~ ~~掘金~~ ~~博客园~~ ~~INFOQ~~(动态) ~~微信公众号文章~~(动态) ~~简书~~ ~~思否~~ ...... ## 2️⃣效果展示 爬虫内容管理界面: ![image-20210812164506507](images.assets/image-20210812164506507.png) 提交爬取的文章地址: ![image-20210812164555974](images.assets/image-20210812164555974.png) 得到文章: ![image-20210812164930515](images.assets/image-20210812164930515.png) 文章实际效果: ![show20210812213510](images.assets/image-show20210812213510.gif) 根据CSDN收藏夹地址新增多篇文章 ![image-20210812174128708](images.assets/image-20210812174128708.png) 效果展示: ![image-20210812174435908](images.assets/image-20210812174435908.png) 通过lucene搜索引擎搜索: ![image-20210902112810915](images.assets/image-20210902112810915.png) **其他功能** 实时日志: ![image-20210812172114256](images.assets/image-20210812172114256.png) ## 3️⃣快速启动 ### 3.1 准备 1. 克隆工程 2. 使用IDEA打开 3. 导入sql文件`blog-crawl.sql`至指定库中(请使用utf8mb4) 4. 修改相关配置 ### 3.2 修改配置 **1.修改编译环境为jdk1.8** ![image-20210813134225000](images.assets/image-20210813134225000.png) ![image-20210813134209041](images.assets/image-20210813134209041.png) **2.修改数据源和Redis** 修改`application-dev.yml`文件中的数据库连接地址和账号密码: ```yaml ds0: type: com.alibaba.druid.pool.DruidDataSource url: #YourMySqlConnectUrl username: #YourMySqlUserName password: #YourMySqlPassword ``` 修改`redis`连接账号和密码: ```yaml spring: redis: # 主 机 地 址 host: #YourRedisHost # 端 口 port: #YourRedisPort # 认 证 password: #YourRedisPassword # 选 择 数 据 库 database: 0 #ChoseDB ``` **3.修改oss** **如果有需要将图片转存至阿里云oss的需求(默认只存本地)** 请修改`common-config.yml` ```yaml ########### oss配置 aliyunOss: ...... publicBucketName: x***v #修改为阿里云账号的存储桶名称 accessKeyId: L********************x #修改为阿里云账号的accessKey accessKeySecret: e********************u #修改为阿里云账号的accessKeySecret ########### 系统开关 appSwitch: uploadOss: true # 修改是否将图片上传给阿里云为true,默认false ``` **4.设置`selenium`** 若要爬取更多渠道文章,需要先配置好`selenium`,下载好对应`chrome`版本的`driver`放入`resources/driver/`下 >chromedriver各版本下载地址: >https://chromedriver.storage.googleapis.com/index.html ### 3.3 启动问题 #### 3.3.1. 需关闭MySQL的ONLY_FULL_GROUP_BY 推荐文章:https://blog.csdn.net/qq_34637782/article/details/101029487 ## 4️⃣发布声明 请勿将`BlogCrawlAdmin`应用到任何可能会违反法律规定和道德约束的工作中,请友善使用`BlogCrawlAdmin`,遵守相关协议,不要将`BlogCrawlAdmin`用于任何非法用途。如您选择使用`BlogCrawlAdmin`即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。