# 2019-CCF-BDCI-OCR-MCZJ-fake_data_generator

**Repository Path**: xiaomimi3456/k_2019_CCF_BDCI_OCR_MCZJ_fake_data_generator

## Basic Information

- **Project Name**: 2019-CCF-BDCI-OCR-MCZJ-fake_data_generator
- **Description**: 这个一个身份证识别比赛冠军的工程，其中使用到了orc，gan等技术。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2020-07-28
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 整体介绍
  赛题背景:https://www.datafountain.cn/competitions/346 
  
  我们的队名是:鹏脱单攻略队  后面改为"天晨破晓"
  
  团队成绩:2019CCF-BDCI大赛  最佳创新探索奖 "基于OCR的身份证要素提取"单赛题冠军
  
  
# 文件介绍
  chusai_fuyinwuxiao:包含"复印无效"字样水印训练数据的伪造方法介绍和复现说明
  
  rematch_jinzhifuyin:包含"禁止复印"字样水印训练数据的伪造方法介绍和复现说明
  
  word_recognize_train_data:包含文字识别模型大规模数据伪造去水印和小规模(训练集去水印)的数据的制造方法和复现过程说明
  
  Train_DataSet_final:初赛和复赛的处理之后的训练集,主要用作伪造的水印数据的背景
  
  word_recognize_train_data:文字识别所需的训练集制作方法和复现说明
  

# 注
  每个文件的功能见该文件里面的readme

  考虑到项目体积,源数据只传入了少量样本图片,

  生成数据的时间可能会比较漫长 ~~~ 如果条件允许,可以改为多进程实现,在本地我们都是30个核同时跑,但是比赛服务器核比较少实现多进程遇到过问题,所以全部改为了单进程.

  比赛过程代码改动次数较多,没有留意保留每一份代码,代码重现有些地方全凭回忆.整理任务较重,没有过多时间一一复现核实,复现过程可能与描述有一定出入,如有问题,还麻烦联系我们,感谢