# TXT文本语料数据清洗(Text corpus data cleaning) **Repository Path**: adetion/text-corpus-data-cleaning ## Basic Information - **Project Name**: TXT文本语料数据清洗(Text corpus data cleaning) - **Description**: 一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。 - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 4 - **Forks**: 4 - **Created**: 2022-10-13 - **Last Updated**: 2023-09-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: 文本文件, 数据清洗, txt ## README # 文本语料数据清洗 Text corpus data cleaning # # 一行代码完成 TXT语料文本 “初步”清洗 #### 介绍 一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。 ![run.py运行图示](%E6%88%AA%E5%B1%8F2022-10-13%20%E4%B8%8B%E5%8D%883.40.55.png) #### 软件架构 1. run.py 一行代码完成 TXT语料文本 “初步”数据清洗 2. txt_merge.py 自动合并TXT语料文件,"自定义"数据清洗 #### 数据清洗效果展示 ![数据清洗效果图2](%E6%88%AA%E5%B1%8F2022-10-13%20%E4%B8%8B%E5%8D%884.18.37.png) ![数据清洗效果图1](%E6%88%AA%E5%B1%8F2022-10-13%20%E4%B8%8B%E5%8D%883.45.11.png) #### 使用说明 1. 推荐使用PyCharm,代码依赖的库文件较为方便导入 2. 测试环境:macOS Catalina 版本 10.15.7 / Python3.8.10 3. 其他说明:暂未在Windows系统下测试,如有BUG,请联系作者 #### 参与贡献 暂时本人