
## 产品特点
### 高效标注
针对文章和文本,数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。
### 全局算法校准
在多组同时标注的情况下,数据标注会汇聚全部的标注结果,从而减少重复标注的工作量。通过全局校准的方法,标注人员可以看到全局当前对于文章的自动标注结果,从而只需要对结果纠偏即可。
### 行业词库
针对数据标注的结果,本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果,从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。
## 功能描述
| 序 号 | 特 点 名 称 | 特点描述 |
|--------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 添加文章 |通过本地导入或者批量导入的方式添加文章,同时可以根据文章类型进行必要的分类。|
| 2 | 文章筛选 |根据文章类型和顺序编号进行筛选。|
| 3 | 导出分词 |支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。|
| 4 | 标注结果 |通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果,而非单人单文章的标注结果。|
| 5 | 标注操作 |支持以快捷键、右键、组合键等方式确认标注,同时支持在页面或者快捷键的方式删除已经标注的词汇。|
| 6 | 标注状态 |包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态,可以根据状态、序号、文章分类进行筛选。|
| 7 | 标注验证 |利用分词器和已具备的全局综合分词能力进行一次标注验证,检查是否有遗漏的标注语料,也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。|
| 8 | 标注日志 |在单个文章中查看已经完成的标注操作日志。|
## 词库内容
本项目当前正在标注的文章为全国公开政务文章,截止日期为2024年8月1日,共计35742篇,平均每篇字数约为6000字。
词库生成的结果以txt形式保存,每一行代表一个新的分词,词性为中文名词。
词库中已包含多类主流分词词典:国家政治、地理信息、自然科学、应用科学、社会科学、经济金融、法律法规、农林牧渔、医学医药、体育文化等。
## 后端技术选型
| 序号 | 依赖 | 版本 | 官网 |
|----|-----------------|---------|--------------------------------------------------------------------------------------------------------------------|
| 1 | Spring Boot | 2.7.10 |
官网 |
| 2 | SpringDataJPA | 2.7.10 |
官网 |
| 3 | nacos | 2.2.1 |
官网 |
| 4 | druid | 1.2.16 |
官网 |
| 5 | Jackson | 2.13.5 |
官网 |
| 6 | javers | 6.13.0 |
官网 |
| 7 | lombok | 1.18.26 |
官网 |
| 8 | logback | 1.2.11 |
官网 |
## 前端技术选型
| 序号 | 依赖 | 版本 | 官网 |
|----|--------------|---------|------------------------------------------------------------------------|
| 1 | vue | 3.3.2 |
官网 |
| 2 | vite2 | 2.9.13 |
官网 |
| 3 | vue-router | 4.0.13 |
官网 |
| 4 | pinia | 2.0.11 |
官网 |
| 5 | axios | 0.24.0 |
官网 |
| 6 | typescript | 4.5.4 |
官网 |
| 7 | core-js | 3.20.1 |
官网 |
| 8 | element-plus | 2.2.29 |
官网 |
| 9 | sass | 1.58.0 |
官网 |
| 10 | animate.css | 4.1.1 |
官网 |
| 11 | vxe-table | 4.3.5 |
官网 |
| 12 | echarts | 5.3.2 |
官网 |
| 13 | svgo | 1.3.2 |
官网 |
| 14 | lodash | 4.17.21 |
官网 |
## 中间件选型
| 序号 | 工具 | 版本 | 官网 |
|----|------------------|------|---------------------------------------------------------------------------|
| 1 | JDK | 11 |
官网 |
| 2 | Tomcat | 9.0+ |
官网 |
## 数据库选型
| 序号 | 工具 | 版本 | 官网 |
|----|---------------|------------|---------------------------------------------------------------------------|
| 1 | elasticsearch | 7.9+ |
官网 |
## 信创兼容适配
| **序号** | 类型 | 对象 |
|:-------|------|--------------------|
| 1 | 浏览器 | 奇安信、火狐、谷歌、360等 |
| 2 | 插件 | 金山、永中、数科、福昕等 |
| 3 | 中间件 | 东方通、金蝶、宝兰德等 |
| 4 | 数据库 | 人大金仓、达梦、高斯等 |
| 5 | 操作系统 | 统信、麒麟、中科方德等 |
| 6 | 芯片 | ARM体系、MIPS体系、X86体系 |
## 数据标注截图

## 同构开源项目
| 序 号 | 项 目 名 称 | 项目介绍 | 地 址 |
|:---------|------------------------------|------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|
| 1 | 数字底座 | 数字底座是一款面向大型政府、企业数字化转型,基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式,具备微服务、多租户、容器化和国产化,支持用户利用代码生成器快速构建自己的业务应用,同时可关联诸多成熟且好用的内部生态应用。 | [码云地址](https://gitee.com/risesoft-y9/y9-core) |
| 2 | 工作流引擎 | 工作流引擎对内提供单位/机关流程管理规则和内部业务流程的数字化落地实践;对外提供自动化地第三方业务驱动、接口接入和算法单元驱动能力;工作流引擎在提供底层驱动引擎的同时对全局透明监控、安全防御和国产化特色功能进行充分考虑,是内部流程管理和业务算法驱动的不二之选。 | [码云地址](https://gitee.com/risesoft-y9/y9-flowable) |
| 3 | 数据流引擎 | 数据流引擎是一款面向数据集成、数据同步、数据交换、数据共享、任务配置、任务调度的底层数据驱动引擎。数据流引擎采用管执分离、多流层、插件库等体系应对大规模数据任务、数据高频上报、数据高频采集、异构数据兼容的实际数据问题。 | [码云地址](https://gitee.com/risesoft-y9/y9-dataflow) |
## 赞助与支持
### 中关村软件和信息服务产业创新联盟
官网:
https://www.zgcsa.net
### 北京有生博大软件股份有限公司
官网:
https://www.risesoft.net/
### 统一标识代码注册管理中心
官网:
https://www.idcode.org.cn/
>
数字底座已经全面接入统一标识码(MA码),具体使用说明请查看:
https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode
>
### 中国城市发展研究会
官网:
https://www.china-cfh.com/
## 咨询与合作
联系人:曲经理
微信号:qq349416828
备注:开源咨询-姓名

联系人:有生博大-咨询热线
座机号:010-86393151