升级paddlehub2.0后序列标注任务显存翻倍问题：

[<b>源自github用户suntao2015005848</b>](https://github.com/PaddlePaddle/PaddleHub/issues/1531): 
目前的环境是：
python 3.7.5
cuda10.1
cudnn7.6.5
paddlepaddle gpu 2.1.0.post101
paddlenlp 2.0.1

碰到一个问题，之前的paddlehub我用的是1.8.5的，一个序列标的任务启动后显存占用大概是2g，后面升级到paddlehub 是2.0.4，但是同样的一个序列标注任务启动后显存竟然达到了8个G。翻了大概4倍。

这个问题困扰良久，希望解惑。

这是预测代码
```
import paddlehub as hub
from paddlehub.module.module import moduleinfo, serving
import logging

import paddle

# 加载模型的路径参数

LOAD_CHECKPOINT = '/home/suntao_test/v2_nlp_es003/nlp_mod_003/best_model/model.pdparams'
label_list = ['B-BG', 'I-BG', 'B-QT', 'I-QT', 'B-JY', 'I-JY', 'B-QK', 'I-QK', 'B-SY', 'I-SY', 'B-JHL', 'I-JHL', 'B-RF', 'I-RF', 'B-JX', 'I-JX', 'B-CS', 'I-CS', 'B-GS', 'I-GS', 'B-ZY', 'I-ZY', 'B-SZ', 'I-SZ', 'B-WZ', 'I-WZ', 'B-F', 'I-F', 'B-JD', 'I-JD', 'O']

label_map = {idx: label for idx, label in enumerate(label_list)}
split_char = ' '
max_seq_len = 256

@moduleinfo(name="nlp_zjgjz",
            version="2.0.0",
            summary="危险驾驶罪案件关键字抽取",
            author="sun_tao",
            author_email="http://eastsoft.com.cn",
            type="nlp/es003")
class ESNLPMOD(hub.Module):
    logging.basicConfig(level=logging.INFO)
    logging.info('开始加载模型')
    model = hub.Module(
        name='ernie',
        task='token-cls',
        load_checkpoint=LOAD_CHECKPOINT,
        label_map=label_map
    )
    def parse_chunk_labels(self, text, labels):
        res = ""
        p_res = ""
        labels = labels[1:len(text) + 1]

lastIsO = True
        for tObj, lObj in zip(text, labels):
            p_res += "{}--{}||".format(tObj, lObj)
            if lObj == "O":
                lastIsO = True
                continue
            if lObj.startswith('B-'):
                lastIsO = False
                res += '*--*' + lObj.split('-')[1] + '\\' + tObj
            elif lObj.startswith('I-'):
                if lastIsO:
                    lastIsO = False
                    res += '*--*' + lObj.split('-')[1] + '\\' + tObj
                else:
                    res += tObj

res = res.split('*--*')
        res = [item for item in res if item != ""]
        return res

def predict(self, texts, use_gpu):
        paddle.disable_static()
        data = [
            [split_char.join(text)] for text in texts
        ]
        results = self.model.predict(data, max_seq_len=max_seq_len, batch_size=16, use_gpu=use_gpu)
        return results

@serving
    def serving_method(self, data, use_gpu=False):
        finalres = []
        results = self.predict(data, use_gpu)
        for idx, text in enumerate(data):
            labels = results[idx]
            finalres.append(self.parse_chunk_labels(text, labels))
        return finalres

res = ESNLPMOD()

```
这是训练代码：
```
import paddlehub as hub
from paddlehub.datasets.base_nlp_dataset import SeqLabelingDataset
from paddlehub.module.module import moduleinfo
import logging

import paddle

# 检查模型存放位置的从参数
CHECKPOINT_DIR = '/home/suntao_test/v2_nlp_es002'

# 存放数据的路径
BASE_DATA_PATH = '/home/suntao_test/v2_nlp_es002/data'

label_list = ['B-YH', 'I-YH', 'B-BG', 'I-BG', 'B-FZR', 'I-FZR', 'B-BJ', 'I-BJ', 'B-ET', 'I-ET', 'B-ZJ', 'I-ZJ', 'B-SBJ',
              'I-SBJ', 'B-SET', 'I-SET', 'B-SZJ', 'I-SZJ', 'B-SSF', 'I-SSF', 'B-XYK', 'I-XYK', 'B-KH', 'I-KH', 'B-FY',
              'I-FY', 'B-QST', 'I-QST', 'B-KT', 'I-KT', 'O']
label_map = {idx: label for idx, label in enumerate(label_list)}
split_char = ' '
max_seq_len = 512

class MyDataset(SeqLabelingDataset):
    # 数据集存放目录

# 数据文件使用的分隔符
    def __init__(self, tokenizer, max_seq_len: int = 128, mode: str = 'train'):
        if mode == 'train':
            data_file = 'train.txt'
        elif mode == 'test':
            data_file = 'test.txt'
        else:
            data_file = 'dev.txt'
        super().__init__(
            base_path=BASE_DATA_PATH,
            tokenizer=tokenizer,
            max_seq_len=max_seq_len,
            mode=mode,
            data_file=data_file,
            label_file=None,
            label_list=label_list,
            split_char=split_char,
            is_file_with_header=True)

@moduleinfo(name="NLP_ES002",
            version="2.0.0",
            summary="",
            author="",
            author_email="",
            type="nlp/es002")
class ESNLPMOD(hub.Module):
    def __init__(self):
            logging.info('训练准备阶段')
            self.model = hub.Module(
                name='ernie',
                task='token-cls',
                label_map=label_map
            )
            tokenizer = self.model.get_tokenizer()
            # 获取数据集
            train_dataset = MyDataset(tokenizer=tokenizer, max_seq_len=max_seq_len, mode='train')
            dev_dataset = MyDataset(tokenizer=tokenizer, max_seq_len=max_seq_len, mode='dev')
            test_dataset = MyDataset(tokenizer=tokenizer, max_seq_len=max_seq_len, mode='test')
            # 优化器的选择和参数配置
            optimizer = paddle.optimizer.Adam(learning_rate=5e-5, parameters=self.model.parameters())
            # fine-tune任务的执行者
            trainer = hub.Trainer(self.model, optimizer, checkpoint_dir=CHECKPOINT_DIR,
                                  use_gpu=True)
            # 配置训练参数，启动训练，并指定验证集
            trainer.train(train_dataset, epochs=15, batch_size=16, eval_dataset=dev_dataset, save_interval=3)
            # 在测试集上评估当前训练模型W
            trainer.evaluate(test_dataset, batch_size=16)

if __name__ == '__main__':
    ESNLPMOD()
```

PaddlePaddle/PaddleHub

内容风险标识

评论 (5)

PaddlePaddle/PaddleHub .gitee-modal { width: 500px !important; }

内容风险标识