# Data Labeling 数据标注 **Repository Path**: jin-feng-qu/y9-label ## Basic Information - **Project Name**: Data Labeling 数据标注 - **Description**: 数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构筑基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注是一个完全开源的项目,无商业版,但是需要依赖开源的数字底座进行人员岗位管控。各类词库结果会定期在本平台公开。 - **Primary Language**: Java - **License**: GPL-3.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 50 - **Created**: 2024-08-13 - **Last Updated**: 2024-08-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

logo

star logo

## 简介 数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构筑基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注是一个完全开源的项目,无商业版,但是需要依赖开源的数字底座进行人员岗位管控。数据标注的各类词库结果会定期在本平台中公开。 ## 源码目录 ``` vue -- 前端工程 ├── y9vue-tokenizer -- 数据标注前端工程 webapp -- 系统模块 ├── risenet-y9boot-webapp-tokenizer -- 数据标注后端工程 ``` ## 数据标注功能架构图
## 数据标注应用架构图
## 产品特点 ### 高效标注 针对文章和文本,数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。 ### 全局算法校准 在多组同时标注的情况下,数据标注会汇聚全部的标注结果,从而减少重复标注的工作量。通过全局校准的方法,标注人员可以看到全局当前对于文章的自动标注结果,从而只需要对结果纠偏即可。 ### 行业词库 针对数据标注的结果,本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果,从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。 ## 功能描述 | 序 号 | 特 点  名 称 | 特点描述 | |--------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------| | 1 | 添加文章 |通过本地导入或者批量导入的方式添加文章,同时可以根据文章类型进行必要的分类。| | 2 | 文章筛选 |根据文章类型和顺序编号进行筛选。| | 3 | 导出分词 |支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。| | 4 | 标注结果 |通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果,而非单人单文章的标注结果。| | 5 | 标注操作 |支持以快捷键、右键、组合键等方式确认标注,同时支持在页面或者快捷键的方式删除已经标注的词汇。| | 6 | 标注状态 |包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态,可以根据状态、序号、文章分类进行筛选。| | 7 | 标注验证 |利用分词器和已具备的全局综合分词能力进行一次标注验证,检查是否有遗漏的标注语料,也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。| | 8 | 标注日志 |在单个文章中查看已经完成的标注操作日志。| ## 词库内容 本项目当前正在标注的文章为全国公开政务文章,截止日期为2024年8月1日,共计35742篇,平均每篇字数约为6000字。 词库生成的结果以txt形式保存,每一行代表一个新的分词,词性为中文名词。 词库中已包含多类主流分词词典:国家政治、地理信息、自然科学、应用科学、社会科学、经济金融、法律法规、农林牧渔、医学医药、体育文化等。 ## 后端技术选型 | 序号 | 依赖 | 版本 | 官网 | |----|-----------------|---------|--------------------------------------------------------------------------------------------------------------------| | 1 | Spring Boot | 2.7.10 | 官网 | | 2 | SpringDataJPA | 2.7.10 | 官网 | | 3 | nacos | 2.2.1 | 官网 | | 4 | druid | 1.2.16 | 官网 | | 5 | Jackson | 2.13.5 | 官网 | | 6 | javers | 6.13.0 | 官网 | | 7 | lombok | 1.18.26 | 官网 | | 8 | logback | 1.2.11 | 官网 | ## 前端技术选型 | 序号 | 依赖 | 版本 | 官网 | |----|--------------|---------|------------------------------------------------------------------------| | 1 | vue | 3.3.2 | 官网 | | 2 | vite2 | 2.9.13 | 官网 | | 3 | vue-router | 4.0.13 | 官网 | | 4 | pinia | 2.0.11 | 官网 | | 5 | axios | 0.24.0 | 官网 | | 6 | typescript | 4.5.4 | 官网 | | 7 | core-js | 3.20.1 | 官网 | | 8 | element-plus | 2.2.29 | 官网 | | 9 | sass | 1.58.0 | 官网 | | 10 | animate.css | 4.1.1 | 官网 | | 11 | vxe-table | 4.3.5 | 官网 | | 12 | echarts | 5.3.2 | 官网 | | 13 | svgo | 1.3.2 | 官网 | | 14 | lodash | 4.17.21 | 官网 | ## 中间件选型 | 序号 | 工具 | 版本 | 官网 | |----|------------------|------|---------------------------------------------------------------------------| | 1 | JDK | 11 | 官网 | | 2 | Tomcat | 9.0+ | 官网 | ## 数据库选型 | 序号 | 工具 | 版本 | 官网 | |----|---------------|------------|---------------------------------------------------------------------------| | 1 | elasticsearch | 7.9+ | 官网 | ## 信创兼容适配 | **序号** | 类型 | 对象 | |:-------|------|--------------------| | 1 | 浏览器 | 奇安信、火狐、谷歌、360等 | | 2 | 插件 | 金山、永中、数科、福昕等 | | 3 | 中间件 | 东方通、金蝶、宝兰德等 | | 4 | 数据库 | 人大金仓、达梦、高斯等 | | 5 | 操作系统 | 统信、麒麟、中科方德等 | | 6 | 芯片 | ARM体系、MIPS体系、X86体系 | ## 数据标注截图
## 同构开源项目 | 序 号 | 项 目 名 称  | 项目介绍 | 地 址 | |:---------|------------------------------|------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------| | 1 | 数字底座 | 数字底座是一款面向大型政府、企业数字化转型,基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式,具备微服务、多租户、容器化和国产化,支持用户利用代码生成器快速构建自己的业务应用,同时可关联诸多成熟且好用的内部生态应用。 | [码云地址](https://gitee.com/risesoft-y9/y9-core) | | 2 | 工作流引擎 | 工作流引擎对内提供单位/机关流程管理规则和内部业务流程的数字化落地实践;对外提供自动化地第三方业务驱动、接口接入和算法单元驱动能力;工作流引擎在提供底层驱动引擎的同时对全局透明监控、安全防御和国产化特色功能进行充分考虑,是内部流程管理和业务算法驱动的不二之选。 | [码云地址](https://gitee.com/risesoft-y9/y9-flowable) | | 3 | 数据流引擎 | 数据流引擎是一款面向数据集成、数据同步、数据交换、数据共享、任务配置、任务调度的底层数据驱动引擎。数据流引擎采用管执分离、多流层、插件库等体系应对大规模数据任务、数据高频上报、数据高频采集、异构数据兼容的实际数据问题。 | [码云地址](https://gitee.com/risesoft-y9/y9-dataflow) | ## 赞助与支持 ### 中关村软件和信息服务产业创新联盟 官网:https://www.zgcsa.net ### 北京有生博大软件股份有限公司 官网:https://www.risesoft.net/ ### 统一标识代码注册管理中心 官网:https://www.idcode.org.cn/ > 数字底座已经全面接入统一标识码(MA码),具体使用说明请查看:https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode > ### 中国城市发展研究会 官网:https://www.china-cfh.com/ ## 咨询与合作 联系人:曲经理 微信号:qq349416828 备注:开源咨询-姓名
联系人:有生博大-咨询热线 座机号:010-86393151