# 2019-CCF-BDCI-OCR-MCZJ-fake_data_generator **Repository Path**: xiaomimi3456/k_2019_CCF_BDCI_OCR_MCZJ_fake_data_generator ## Basic Information - **Project Name**: 2019-CCF-BDCI-OCR-MCZJ-fake_data_generator - **Description**: 这个一个身份证识别比赛冠军的工程,其中使用到了orc,gan等技术。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2020-07-28 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 整体介绍 赛题背景:https://www.datafountain.cn/competitions/346 我们的队名是:鹏脱单攻略队 后面改为"天晨破晓" 团队成绩:2019CCF-BDCI大赛 最佳创新探索奖 "基于OCR的身份证要素提取"单赛题冠军 # 文件介绍 chusai_fuyinwuxiao:包含"复印无效"字样水印训练数据的伪造方法介绍和复现说明 rematch_jinzhifuyin:包含"禁止复印"字样水印训练数据的伪造方法介绍和复现说明 word_recognize_train_data:包含文字识别模型大规模数据伪造去水印和小规模(训练集去水印)的数据的制造方法和复现过程说明 Train_DataSet_final:初赛和复赛的处理之后的训练集,主要用作伪造的水印数据的背景 word_recognize_train_data:文字识别所需的训练集制作方法和复现说明 # 注 每个文件的功能见该文件里面的readme 考虑到项目体积,源数据只传入了少量样本图片, 生成数据的时间可能会比较漫长 ~~~ 如果条件允许,可以改为多进程实现,在本地我们都是30个核同时跑,但是比赛服务器核比较少实现多进程遇到过问题,所以全部改为了单进程. 比赛过程代码改动次数较多,没有留意保留每一份代码,代码重现有些地方全凭回忆.整理任务较重,没有过多时间一一复现核实,复现过程可能与描述有一定出入,如有问题,还麻烦联系我们,感谢