# ChineseEHRBert

**Repository Path**: Karen4tree/ChineseEHRBert

## Basic Information

- **Project Name**: ChineseEHRBert
- **Description**: A Chinese EHR Bert Pretrained Model.
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-11-26
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# ChineseEHRBert
中文电子病历Bert预训练模型


[English Version](./README.md)

# cleaner
cleaner可以将文件清理为预训练bert需要的格式。将原文件按标点符号切割为行。

## 用法
```
cd ./cleaner/
python parser.py [-h] [--input INPUT] [--output OUTPUT] [-s] [--log LOG]
```
- --input: 输入文件夹
- --output: 输出文件夹
- -s: 输出是否是单个文件
- --log: log频率

# train
进行预训练之前需要先生成tfrecord文件。因为需要训练的文本可能很大，脚本会先进行切分。

## 用法
切分和生成tfrecord
```
cd ./train/
python make_pretrain_bert.py [-h] [-f FILE_PATH] [-s SPLIT_LINE]
                             [-p SPLIT_PATH] [-o OUTPUT_PATH] [-l MAX_LENGTH]
                             [-b BERT_BASE_DIR]
```
- -f: 清理完的输入文件夹
- -s: 分割行数, 默认=500000
- -p: 分割文件保存位置
- -o: .tfrecord文件保存位置
- -l: 句子最长字数
- -b: bert文件夹（需要从google下载）

**pretrain128.sh**和**pretrain512.sh**的参数需要根据需要自行修改。
```
sh pretrain128.sh
sh pretrain512.sh
```

# test
一行测试中文NLP任务!两个NER任务，一个RE任务，一个QA任务，一个句子相似性判断任务。具体说明见**./test/readme.md**。
```
cd ./test/
sh run_test.sh
```
包含了如下任务[CCKS2019NER](https://www.biendata.com/competition/CCKS2019_1/), [cMedQA2](https://github.com/zhangsheng93/cMedQA2), [Tianchi\_NER](https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.12281978.0.0.75926bacsx0LyL&dataId=22288), [Tianchi\_RE](https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.12281978.0.0.75926bacsx0LyL&dataId=22288), [ncov2019_sim](https://tianchi.aliyun.com/competition/entrance/231776/introduction)。

# Results
结果包括用Google训练的中文Bert和用ChineseEhrBert分别fine-tune之后的结果。结果正在准备中。

# Citation

# Author
- [袁正](https://github.com/GanjinZero)
- 赵芃
- 俞辰
- [俞声](http://www.stat.tsinghua.edu.cn/teambuilder/faculty/yusheng/)