# 简单小型搜索引擎 **Repository Path**: UnbalancedCat/Scratch_Search_Engine ## Basic Information - **Project Name**: 简单小型搜索引擎 - **Description**: 算法课设,根据爬虫文件建立简单小型搜索引擎,基本功能已完成,暂停维护 - **Primary Language**: C++ - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-05-31 - **Last Updated**: 2024-04-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: Cpp, Algorithm ## README # 简单小型搜索引擎 ### 介绍 #### 算法设计与分析课设 以 C++ 语言为主实现的简单小型搜索引擎,实现了数据的搜集、分析、索引、查询的功能。其中涉及的诸如排序等算法相关内容,均为自行实现,项目中不涉及 STL 算法(如 sort)或其他算法主体功能相关的库函数。 状态:基本功能已完成,暂停维护。 English README Unfinished ### 在本地运行本项目 #### 运行环境: 本次项目使用 Windows 10, Windows 11 平台,Visual Studio 2022 IDE 和 Windows系统命令行进行编写与测试。使用 ISO C++14 标准,Python 版本为 3.10。本项目未在其他平台或语言标准、版本下测试,若使用其他平台或语言标准、版本,无法保证程序正常运行。 #### 使用项目附带的 `news.csv` 文件: 打开 `简单小型搜索引擎.sln` ,通过 Visual Studio 2022 ,选择 Release 模式进行运行即可。 #### 使用项目附带爬虫爬取`news.csv` 文件: 进入 `人民日报英文爬虫` 文件夹中,打开 `start_spider.sh` 即可开始爬虫,生成文件名为 `news.csv` 。修改 `new.csv` 的字符集改为 ANSI,手动剔除文件内非 ASCII 字符。复制替换 `简单小型搜索引擎` 文件夹下的 `news.csv` 文件。 **请注意**:由于使用 Python scrapy 爬取的 news.csv 文件使用 Unicode 字符集,其中包含诸多本项目无法处理的非 ANSI 字符。因此当前版本的项目中使用的 news.csv 为经过手动格式转换使用替换功能剔除 Unicode 字符。若使用含有非 ANSI 字符集字符的文件,程序可能会出现不可预知的问题。