# 爬取某小说榜单爬虫及可视化分析

**Repository Path**: huang_jia_son/duoduo

## Basic Information

- **Project Name**: 爬取某小说榜单爬虫及可视化分析
- **Description**: GUI界面+python爬虫+数据清洗与处理+pyecharts可视化展示
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 48
- **Forks**: 3
- **Created**: 2021-05-13
- **Last Updated**: 2025-08-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Python, pyecharts

## README

# 爬取某小说榜单爬虫及可视化分析

#### 介绍
    GUI界面+python爬虫+数据清洗与处理+pyecharts可视化展示

#### 软件架构
    （1）通过tkinter制作GUI界面，通过按钮触发爬虫事件，数据分析事件。

    （2）爬虫提取数据，并通过机器学习算法进行相关的计算求和，以及数据清洗和断句。

    （3）点击数据分析按钮自动跳转超链接，html页面中包括热门小说类型统计图，热点分析图（词云图），热门小说状态扇形图，作者字数天梯榜，字数-排名分析散点图



#### 环境说明

    计算机系统版本：Window10

    python版本：Python3.7.6

    编辑器：PyCharm2020.1.3


#### 代码说明
（1）爬虫网站选取

    确定要爬取的网站，通过“F12”查看前端源代码，分析爬取信息的可行性，然后找到需要爬取的标签，内容分别为"序号", "类型", "小说名称", "更新章节", "状态", "字数", "作者", "更新时间"。

（2）爬虫方法getList（）编写

    首先通过etree.HTML获得网站源码，然后通过xpath方法通过途径查找想要爬取的标签文本。然后将它们通过遍历添加到一个数组中，并且返回数组，同时将他们写入bangdan.csv文件当中。

（3）GUI界面设计

    通过tkinter库设计窗体，依次添加容器和需要的组件。

（4）数据清洗及处理

    通过机器学习算法，例如Pandas库，对文件中的数据进行处理，如求和以及分组等。

（5）数据可视化

    将处理以后的数据通过pyecharts工具生成直观可视的图表，我们可能从中得到我们想要的信息。

#### 相关截图

（1）GUI页面

![输入图片说明](https://images.gitee.com/uploads/images/2021/0513/174003_7a693a22_7353121.png "图片1.png")

（2）点击“更新榜单”，开始爬取数据

 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0513/174013_d5f847a9_7353121.png "图片2.png")

（3）爬取数据结束，显示榜单全部数据

![输入图片说明](https://images.gitee.com/uploads/images/2021/0513/174020_67a0057e_7353121.png "图片3.png")

（4）点击数据分析按钮，显示生成的可视化图表页面

![输入图片说明](https://images.gitee.com/uploads/images/2021/0513/174028_d0153cd0_7353121.png "图片4.png")