# 2020泰迪杯C题

**Repository Path**: sherlson/teddy_cup_C_2020

## Basic Information

- **Project Name**: 2020泰迪杯C题
- **Description**: 泰迪杯 C 题代码，包含题目、当时的参赛论文和代码。
- **Primary Language**: Python
- **License**: BSD-3-Clause
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 3
- **Created**: 2021-05-21
- **Last Updated**: 2021-06-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 2020泰迪杯C题

## 介绍

本仓库包含：

1. 泰迪杯 C 题代码
2. 中间数据和模型
4. 包含题目
5. 当时的参赛论文

## 文件介绍

![文件介绍](D:\桌面\2020泰迪杯 C 题\文件介绍.png)

####  原始数据

![image-20210504111800259](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504111800259.png)

如果需要读取数据集，则首先需要安装 joblib 库（不能用 pickle），然后：

```python
import joblib
X = joblib.load(path)
```


####  代码

![image-20210504111933025](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504111933025.png)

下面将按**运行顺序**，介绍各个代码：

1. data_preprocessing.py ：对应第一问的数据预处理
2. model_selection.py： 对应机器学习方法，用于最合适参数和最佳模型的筛选
3. deep_learning.py： 对应第一问的多层感知器方法
4. data_prepro_q2.py ：对应第二问，用于分词、卡方检验
5. finding_hot_spot.py：对应第二问的热点话题提取。
6. similarity_calcu.py：计算相关性，对应第三问的评分


####  中间数据和模型

![image-20210504112345857](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504112345857.png)

其中，要想使用上述词向量模型，首先要安装 pyhanlp，然后将 word2vec.txt 放在 pyhanlp/static/data/test 文件夹中，若没有 test，则可以自己创建一个。


当然，代码中有训练模型、创建模型。所以，这个不用管也没关系，只要你按顺序执行，下载好相关的第三方库就可以了。


#  论文

这个论文文件是我参加第八届泰迪杯 C 题的论文，获得什么奖，大家猜。。。


不过，这篇论文说是参赛论文，不如说是教学论文，教学意义大一些，所以大家即便不是参加比赛的，也可以看一看。