# 2020泰迪杯C题 **Repository Path**: sherlson/teddy_cup_C_2020 ## Basic Information - **Project Name**: 2020泰迪杯C题 - **Description**: 泰迪杯 C 题代码,包含题目、当时的参赛论文和代码。 - **Primary Language**: Python - **License**: BSD-3-Clause - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2021-05-21 - **Last Updated**: 2021-06-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 2020泰迪杯C题 ## 介绍 本仓库包含: 1. 泰迪杯 C 题代码 2. 中间数据和模型 4. 包含题目 5. 当时的参赛论文 ## 文件介绍 ![文件介绍](D:\桌面\2020泰迪杯 C 题\文件介绍.png) #### 原始数据 ![image-20210504111800259](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504111800259.png) 如果需要读取数据集,则首先需要安装 joblib 库(不能用 pickle),然后: ```python import joblib X = joblib.load(path) ``` #### 代码 ![image-20210504111933025](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504111933025.png) 下面将按**运行顺序**,介绍各个代码: 1. data_preprocessing.py :对应第一问的数据预处理 2. model_selection.py: 对应机器学习方法,用于最合适参数和最佳模型的筛选 3. deep_learning.py: 对应第一问的多层感知器方法 4. data_prepro_q2.py :对应第二问,用于分词、卡方检验 5. finding_hot_spot.py:对应第二问的热点话题提取。 6. similarity_calcu.py:计算相关性,对应第三问的评分 #### 中间数据和模型 ![image-20210504112345857](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210504112345857.png) 其中,要想使用上述词向量模型,首先要安装 pyhanlp,然后将 word2vec.txt 放在 pyhanlp/static/data/test 文件夹中,若没有 test,则可以自己创建一个。 当然,代码中有训练模型、创建模型。所以,这个不用管也没关系,只要你按顺序执行,下载好相关的第三方库就可以了。 # 论文 这个论文文件是我参加第八届泰迪杯 C 题的论文,获得什么奖,大家猜。。。 不过,这篇论文说是参赛论文,不如说是教学论文,教学意义大一些,所以大家即便不是参加比赛的,也可以看一看。