# PP-UIE-0.5B **Repository Path**: zhangtt123/PP-UIE-0.5B ## Basic Information - **Project Name**: PP-UIE-0.5B - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-23 - **Last Updated**: 2025-06-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README --- license: Apache License 2.0 --- # 通用信息抽取大模型 PP-UIE **目录** - [1. 模型简介](#模型简介) - [2. 开箱即用](#开箱即用) - [2.1 实体抽取](#实体抽取) - [2.2 关系抽取](#关系抽取) - [2.3 模型选择](#模型选择) - [2.4 更多配置](#更多配置) - [3. 训练定制](#训练定制) - [3.1 代码结构](#代码结构) - [3.2 数据标注](#数据标注) - [3.3 模型微调](#模型微调) - [3.4 定制模型一键预测](#定制模型一键预测) - [3.5 实验指标](#实验指标) ## 1. 模型简介通用信息抽取大模型（PP-UIE）是 PaddleNLP 团队基于开源模型和高质量数据集构建的通用信息抽取大模型， PaddleNLP 基于百度 UIE 的建模思路，通过大模型的能力来训练并开源了一款面向中、英文通用信息抽取的大模型。支持统一训练信息抽取任务包括命名实体识别（NER），关系抽取（RE）和事件抽取（EE）。模型共包含0.5B、1.5B、7B 和14B 共4个版本，以适配不同场景下信息抽取任务使用。在多个数据集（包含 Boson、CLUENER、CCIR2021等常见数据）相比其他通用信息抽取大模型在 ACC 和 F1 指标上有大幅度提升。 ## 2. 开箱即用 ```paddlenlp.Taskflow```提供通用信息抽取等能力，可抽取多种类型的信息，包括但不限于命名实体识别（如人名、地名、机构名等）、关系（如电影的导演、歌曲的发行时间等）、事件（如某路口发生车祸、某地发生地震等）等信息。用户可以使用自然语言自定义抽取目标，无需训练即可统一抽取输入文本中的对应信息。**实现开箱即用，并满足各类信息抽取需求** #### 2.1 实体抽取命名实体识别（Named Entity Recognition，简称 NER），是指识别文本中具有特定意义的实体。在开放域信息抽取中，抽取的类别没有限制，用户可以自己定义。 - 例如抽取的目标实体类型是"时间"、"选手"和"赛事名称", schema 构造如下： ```text ['时间', '选手', '赛事名称'] ``` Git命令下载模型： ```bash git lfs install git clone http://git.aistudio.baidu.com/PaddleNLP/PP-UIE-0.5B.git ``` 调用示例： ```python from pprint import pprint from paddlenlp import Taskflow schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction ie = Taskflow('information_extraction', schema= ['时间', '选手', '赛事名称'], schema_lang="zh", batch_size=1, model='paddlenlp/PP-UIE-0.5B', precision='float16') pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！")) # Better print results using pprint # 输出 [{'时间': [{'text': '2月8日上午'}], '赛事名称': [{'text': '北京冬奥会自由式滑雪女子大跳台决赛'}], '选手': [{'text': '谷爱凌'}]}] ``` #### 2.2 关系抽取关系抽取（Relation Extraction，简称 RE），是指从文本中识别实体并抽取实体之间的语义关系，进而获取三元组信息，即<主体，谓语，客体>。 - 例如以"竞赛名称"作为抽取主体，抽取关系类型为"主办方"、"承办方"和"时间", schema 构造如下： ```text { '竞赛名称': [ '主办方', '承办方', '时间' ] } ``` 调用示例： ```python schema = {'竞赛名称': ['主办方', '承办方', '时间']} # Define the schema for relation extraction ie.set_schema(schema) # Reset schema pprint(ie('2022年语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办，百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办，已连续举办4届，成为全球最热门的中文NLP赛事之一。')) # 输出 [{'竞赛名称': [{'relations': {'主办方': [{'text': '中国中文信息学会,中国计算机学会'}], '时间': [{'text': '2022年'}], '承办方': [{'text': '百度公司,中国中文信息学会评测工作委员会,中国计算机学会自然语言处理专委会'}]}, 'text': '语言与智能技术竞赛'}]}] ``` #### 2.3 模型选择 - 多模型选择，满足精度、速度要求 | 模型 | 结构 | 语言 | | :---: | :--------: | :--------: | | `paddlenlp/PP-UIE-0.5B` | 24-layers, 896-hidden, 14-heads | 中、英文 | | `paddlenlp/PP-UIE-1.5B` | 28-layers, 1536-hidden, 12-heads | 中、英文 | | `paddlenlp/PP-UIE-7B` | 28-layers, 3584-hidden, 28-heads | 中、英文 | | `paddlenlp/PP-UIE-14B` | 48-layers, 5120-hidden, 40-heads | 中、英文 | #### 2.4 更多配置 ```python >>> from paddlenlp import Taskflow >>> ie = Taskflow('information_extraction', schema = {'竞赛名称': ['主办方', '承办方', '时间']}, schema_lang="zh", batch_size=1, model='paddlenlp/PP-UIE-0.5B', precision='float16') ``` * `schema`：定义任务抽取目标，可参考开箱即用中不同任务的调用示例进行配置。 * `schema_lang`：设置 schema 的语言，默认为`zh`, 可选有`zh`和`en`。因为中英 schema 的构造有所不同，因此需要指定 schema 的语言。 * `batch_size`：批处理大小，请结合机器情况进行调整，默认为1。 * `model`：选择任务使用的模型，可选有`paddlenlp/PP-UIE-0.5B`, `paddlenlp/PP-UIE-1.5B`, `paddlenlp/PP-UIE-7B`, `paddlenlp/PP-UIE-14B`。 * `precision`：选择模型精度，默认为`float16`，可选有`float16`、`bfloat16`和`float32`和。如果选择`float16`，在 GPU 硬件环境下，请先确保机器正确安装 NVIDIA 相关驱动和基础软件，**确保 CUDA>=11.2，cuDNN>=8.1.1**，初次使用需按照提示安装相关依赖。其次，需要确保 GPU 设备的 CUDA 计算能力（CUDA Compute Capability）大于7.0，典型的设备包括 V100、T4、A10、A100、GTX 20系列和30系列显卡等。如果选择`bfloat16`，能有效加速处理大模型和批量数据，尤其与混合精度结合使用时性能表现更优。但需确保硬件和软件环境支持该精度。支持 `bfloat16`的硬件包括 NVIDIA A100 和 H800 GPU，同时需要确保使用 CUDA>=11.2、cuDNN>=8.1.1 等软件环境。更多关于 CUDA Compute Capability 和精度支持情况请参考 NVIDIA 文档：[GPU 硬件与支持精度对照表](https://docs.nvidia.com/deeplearning/tensorrt/archives/tensorrt-840-ea/support-matrix/index.html#hardware-precision-matrix)。除此之外，也可通过以下代码快速调用模型并进行推理 ```python from paddlenlp.transformers import AutoModelForCausalLM from paddlenlp.transformers import AutoTokenizer from paddlenlp.generation import GenerationConfig from paddlenlp.trl import llm_utils model_id = "paddlenlp/PP-UIE-0.5B" model = AutoModelForCausalLM.from_pretrained(model_id, use_flash_attention=False) model.eval() tokenizer = AutoTokenizer.from_pretrained(model_id, padding_side="left") generation_config = GenerationConfig.from_pretrained(model_id) template = """ 你是一个阅读理解专家，请提取所给句子与问题，提取实体。请注意，如果存在实体，则一定在原句中逐字出现，请输出对应实体的原文，不要进行额外修改；如果无法提取，请输出“无相应实体”。 **句子开始** {sentence} **句子结束** **问题开始** {prompt} **问题结束** **回答开始** """ sentences = [ "2月12日，哈尔滨亚冬会花样滑冰女子个人滑短节目比赛中，中国选手朱易第一个登场且表现出色，拿到62.90分，创职业生涯短节目最高分。", "2月12日，在哈尔滨亚冬会越野滑雪男子4×7.5公里接力决赛中，由李明林、次仁占堆、宝林、王强组成的中国队夺得金牌。", "2月13日，在哈尔滨亚冬会冬季两项女子4×6公里接力比赛中，由唐佳琳、文颖、褚源蒙和孟繁棋组成的中国队夺得金牌。", "中国地震台网正式测定：5月16日06时08分在云南临沧市凤庆县(北纬24.34度，东经99.98度)发生3.5级地震，震源深度10千米。", "《告别了》是孙耀威在专辑爱的故事里面的歌曲。", ] prompts = [ "时间, 选手, 赛事名称", "时间, 选手, 赛事名称", "时间, 选手, 赛事名称", "地震强度, 时间, 震中位置, 震源深度", "歌曲名称, 歌手, 所属专辑", ] inputs = [template.format(sentence=sentence, prompt=prompt) for sentence, prompt in zip(sentences, prompts)] inputs = [tokenizer.apply_chat_template(sentence, tokenize=False) for sentence in inputs] input_features = tokenizer( inputs, max_length=512, return_position_ids=False, truncation=True, truncation_side="left", padding=True, return_tensors="pd", add_special_tokens=False, ) outputs = model.generate( **input_features, max_new_tokens=200, bos_token_id=tokenizer.bos_token_id, eos_token_id=llm_utils.get_eos_token_id(tokenizer, generation_config), pad_token_id=tokenizer.pad_token_id, decode_strategy="greedy_search", temperature=1.0, top_k=1, top_p=1.0, repetition_penalty=1.0, ) def get_clean_entity(text): ind1 = text.find("\n **回答结束**\n\n") if ind1 != -1: pred = text[:ind1] else: pred = text return pred results = tokenizer.batch_decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False) results = [get_clean_entity(result) for result in results] for sentence, prompt, result in zip(sentences, prompts, results): print("-" * 50) print(f"Sentence: {sentence}") print(f"Prompt: {prompt}") print(f"Result: {result}") ``` ## 3. 训练定制对于简单的抽取目标可以直接使用 ```paddlenlp.Taskflow```实现零样本（zero-shot）抽取，对于细分场景我们推荐使用轻定制功能（标注少量数据进行模型微调）以进一步提升效果。下面通过`报销工单信息抽取`的例子展示如何通过几十条训练数据进行 PP-UIE 模型微调。 #### 3.1 代码结构 ```shell . ├── utils.py # 数据处理工具 ├── doccano.py # 数据标注脚本 ├── doccano.md # 数据标注文档 └── README.md ``` #### 3.2 数据标注我们推荐使用数据标注平台[doccano](https://github.com/doccano/doccano) 进行数据标注，本示例也打通了从标注到训练的通道，即 doccano 导出数据后可通过[doccano.py](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/application/information_extraction/doccano.py)脚本轻松将数据转换为输入模型时需要的形式，实现无缝衔接。标注方法的详细介绍请参考[doccano 数据标注指南](doccano.md)。原始数据示例： ```text 深大到双龙28块钱4月24号交通费 ``` 抽取的目标(schema)为： ```python schema = ['出发地', '目的地', '费用', '时间'] ``` 标注步骤如下： - 在 doccano 平台上，创建一个类型为``序列标注``的标注项目。 - 定义实体标签类别，上例中需要定义的实体标签有``出发地``、``目的地``、``费用``和``时间``。 - 使用以上定义的标签开始标注数据，下面展示了一个 doccano 标注示例：

- 标注完成后，在 doccano 平台上导出文件，并将其重命名为``doccano_ext.json``后，放入``./data``目录下。 - 这里我们提供预先标注好的文件[doccano_ext.json](https://bj.bcebos.com/paddlenlp/datasets/uie/doccano_ext.json)，可直接下载并放入`./data`目录。执行以下脚本进行数据转换，执行后会在`./data`目录下生成训练/验证/测试集文件。 ```shell python doccano.py \ --doccano_file ./data/doccano_ext.json \ --save_dir ./data \ --splits 0.8 0.1 0.1 \ --schema_lang ch ``` 可配置参数说明： - ``doccano_file``: 从 doccano 导出的数据标注文件。 - ``save_dir``: 训练数据的保存目录，默认存储在``data``目录下。 - ``negative_ratio``: 最大负例比例，该参数只对抽取类型任务有效，适当构造负例可提升模型效果。负例数量和实际的标签数量有关，最大负例数量 = negative_ratio * 正例数量。 - ``splits``: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照``8:1:1``的比例将数据划分为训练集、验证集和测试集。 - ``task_type``: 选择任务类型，目前只有信息抽取`ie`这一种任务。 - ``is_shuffle``: 是否对数据集进行随机打散，默认为 False。 - ``seed``: 随机种子，默认为1000. - ``schema_lang``: 选择 schema 的语言，可选有`ch`和`en`。默认为`ch`，英文数据集请选择`en`。备注： - 默认情况下 doccano.py 脚本会按照比例将数据划分为 train/dev/test 数据集 - 每次执行 doccano.py 脚本，将会覆盖已有的同名数据文件 - 在模型训练阶段我们推荐构造一些负例以提升模型效果，在数据转换阶段我们内置了这一功能。可通过`negative_ratio`控制自动构造的负样本比例；负样本数量 = negative_ratio * 正样本数量。 - 对于从 doccano 导出的文件，默认文件中的每条数据都是经过人工正确标注的。 #### 3.3 模型微调推荐使用 [大模型精调](../../docs/finetune.md) 对模型进行微调。只需输入模型、数据集等就可以高效快速地进行微调和模型压缩等任务，可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能，并且针对训练过程的通用训练配置做了封装，比如：优化器、学习率调度等。使用下面的命令，使用 `paddlenlp/PP-UIE-0.5B` 作为预训练模型进行模型微调，将微调后的模型保存至指定路径中。如果在 GPU 环境中使用，可以指定 gpus 参数进行多卡训练： ```shell # 返回 PaddleNLP/llm 目录 python -u -m paddle.distributed.launch --gpus "0,1" run_finetune.py ./config/qwen/sft_argument.json ``` `sft_argument.json` 的参考配置如下： ```shell { "model_name_or_path": "paddlenlp/PP-UIE-0.5B", "dataset_name_or_path": "./application/information_extraction/data", "output_dir": "./checkpoints/ie_ckpts", "per_device_train_batch_size": 1, "gradient_accumulation_steps": 1, "per_device_eval_batch_size": 1, "eval_accumulation_steps":8, "num_train_epochs": 3, "learning_rate": 3e-05, "warmup_steps": 30, "logging_steps": 1, "evaluation_strategy": "epoch", "save_strategy": "epoch", "src_length": 1024, "max_length": 2048, "fp16": true, "fp16_opt_level": "O2", "do_train": true, "do_eval": true, "disable_tqdm": true, "load_best_model_at_end": true, "eval_with_do_generation": false, "metric_for_best_model": "accuracy", "recompute": false, "save_total_limit": 1, "tensor_parallel_degree": 1, "pipeline_parallel_degree": 1, "sharding": "stage2", "zero_padding": false, "unified_checkpoint": true, "use_flash_attention": false } ``` 更多 `sft_argument.json` 配置文件说明，请参考[大模型精调](../../docs/finetune.md) #### 3.4 定制模型一键预测使用 PaddleNLP 的高性能 predictor 进行快速推理 - 内置全环节融合算子策略 - 支持 Weight Only INT8及 INT4推理，支持权重、激活、Cache KV 进行 INT8、FP8量化的推理 - 支持动态图推理和静态图推理两种方式在推理之前，推荐编译安装 PaddleNLP 大模型高性能自定义推理算子。使用这些高性能算子，可以大幅提升大模型推理速度。详细的安装教程请参考[大模型高性能推理算子安装教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/csrc/README.md) 安装完之后，可按照下列指令，进行高性能推理。 ```shell # PaddleNLP/llm目录下 python predict/predictor.py \ --model_name_or_path ./checkpoints/ie_ckpts \ --dtype float16 \ --data_file ./application/information_extraction/data/test.json \ --output_file ./output.json \ --src_length 512 \ --max_length 1024 \ --batch_size 4 \ --inference_model 1 \ --quant_type weight_only_int8 ``` 可配置参数说明： - ``model_name_or_path``: 必需，预训练模型名称或者本地的模型路径，用于热启模型和分词器，默认为 None。 - ``src_length``: 模型输入上下文最大 token 长度，默认为1024。 - ``max_length``: 模型输入（上下文+生成内容）的最大 token 长度, 默认为2048。 - ``inference_model``: 是否使用 Inference Model 推理，默认值为 False。Inference Model 内置动态插入和全环节算子融合策略，开启后性能更优。**如果没有编译安装 PaddleNLP 大模型高性能自定义推理算子，只能设置为False** - ``quant_type``: 是否使用量化推理，默认值为 None。可选的数值有weight_only_int8、weight_only_int4、a8w8和a8w8_fp8。**如果没有编译安装 PaddleNLP 大模型高性能自定义推理算子，只能设置为None** 更多关于 `predictor.py` 的配置参数说明，请参考[大模型推理教程](../../docs/predict/inference.md) #### 3.5 实验指标我们在通用测试集和医疗、新闻、对话与金融等垂类测试集上进行了实验：

模型名称	数据集名称	CMeEE-V2	Boson	CLUENER	CCIR2021-NER	任务对话2018-NER	银行借贷2021-NER	SKE2019	Avg
	数据集领域	医疗领域	通用领域	通用领域	新闻领域	对话领域	金融领域	金融领域
PP-UIE-0.5B	F1(0-shot)	0.479	0.638	0.593	0.773	0.723	0.361	0.782	0.621
PP-UIE-1.5B	F1(0-shot)	0.485	0.688	0.61	0.799	0.768	0.444	0.803	0.657
	F1(5-shot)	0.52	0.694	0.625	0.812	0.812	0.466	0.801	0.676
PP-UIE-7B	F1(0-shot)	0.521	0.696	0.615	0.826	0.807	0.434	0.812	0.673
	F1(5-shot)	0.527	0.705	0.626	0.826	0.861	0.483	0.801	0.69
PP-UIE-14B	F1(0-shot)	0.556	0.712	0.637	0.841	0.843	0.488	0.832	0.701
	F1(5-shot)	0.588	0.729	0.67	0.837	0.865	0.576	0.832	0.728

0-shot 表示无训练数据直接通过模型进行预测，5-shot 表示预测时使用五个数据样例作为提示。**实验表明 PP-UIE 在垂类场景可以通过少量数据（few-shot）进一步提升效果**。同时，我们测试了PP-UI系列模型在不同数据集，分别在纯动态图、开启融合算子（infernce_model = True）和win8(开启Int8量化)在batch size为[1，2，4，8，16，32，64]时的运行速度（Tokens Per Second）和预测精度（F1）。 **PP-UIE-0.5B**

模型名称			数据集名称	CMeEE-V2	Boson	CLUENER	CCIR2021-NER	任务对话2018-NER	银行借贷2021-NER	SKE2019
		batch size	数据集领域	医疗领域	通用领域	通用领域	新闻领域	对话领域	金融领域	金融领域
PP-UIE-0.5B	动态图	1	F1	0.508	0.623	0.593	0.784	0.723	0.332	0.787
			TPS	30.269	30.515	30.403	30.901	29.922	30.823	30.662
		2	F1	0.504	0.617	0.591	0.78	0.721	0.337	0.785
			TPS	56.906	56.696	57.726	56.205	58.576	56.472	57.674
		4	F1	0.494	0.609	0.591	0.774	0.721	0.335	0.784
			TPS	109.094	109.307	107.597	106.739	106.243	107.37	108.95
		8	F1	0.482	0.607	0.587	0.765	0.712	0.333	0.784
			TPS	199.777	199.373	199.513	201.492	200.301	197.366	198.628
		16	F1	0.461	0.594	0.588	0.75	0.718	0.332	0.771
			TPS	342.747	338.052	333.88	339.824	325.661	319.512	339.599
		32	F1	0.425	0.584	0.587	0.725	0.714	0.33	0.751
			TPS	500.259	495.871	478.906	508.637	483.591	480.621	504.758
		64	F1	0.36	0.564	0.585	0.685	0.713	0.317	0.738
			TPS	714.742	701.403	661.534	705.949	668.907	671.853	718.122
	fuse_mt	1	F1	0.497	0.618	0.585	0.78	0.72	0.326	0.784
			TPS	88.024	71.534	78.178	63.195	51.87	48.631	56.048
		2	F1	0.495	0.617	0.591	0.781	0.721	0.327	0.78
			TPS	188.091	157.388	140.698	146.544	111.774	102.06	133.236
		4	F1	0.495	0.609	0.594	0.781	0.715	0.332	0.784
			TPS	395.09	318.009	294.731	298.858	220.825	207.682	304.236
		8	F1	0.497	0.619	0.592	0.78	0.719	0.321	0.787
			TPS	784.377	695.807	587.066	612.309	456.107	428.209	538.053
		16	F1	0.493	0.625	0.585	0.775	0.724	0.319	0.789
			TPS	1456.824	1260.593	1092.222	1189.585	895.154	822.057	1134.441
		32	F1	0.495	0.621	0.591	0.778	0.721	0.321	0.788
			TPS	2619.044	2241.112	1957.307	2130.925	1668.488	1533.073	2311.613
		64	F1	0.496	0.613	0.587	0.781	0.719	0.322	0.788
			TPS	4279.335	3571.327	2775.013	3692.86	2709.238	2724.1	3918.789
	WINT8	1	F1	0.5	0.619	0.589	0.774	0.71	0.333	0.787
			TPS	102.626	82.016	65.701	67.226	53.328	53.327	57.867
		2	F1	0.502	0.613	0.585	0.779	0.72	0.331	0.789
			TPS	199.294	169.8	142.026	147.443	111.743	102.999	121.712
		4	F1	0.499	0.628	0.591	0.777	0.714	0.327	0.788
			TPS	390.208	340.839	299.54	299.343	256.566	268.026	258.988
		8	F1	0.502	0.622	0.588	0.779	0.712	0.323	0.784
			TPS	821.311	713.367	597.427	656.373	439.528	466.009	532.473
		16	F1	0.499	0.621	0.587	0.779	0.72	0.327	0.784
			TPS	1547.189	1335.012	1194.904	1289.993	875.995	936.525	1052.361
		32	F1	0.501	0.619	0.593	0.781	0.721	0.318	0.788
			TPS	2981.043	2176.571	2193.828	2260.412	1517.517	1516.653	1937.827
		64	F1	0.499	0.623	0.589	0.778	0.722	0.339	0.785
			TPS	5288.722	3643.228	2646.107	3674.814	2748.316	2478.676	3510.926

**PP-UIE-1.5B**

模型名称			数据集名称	CMeEE-V2	Boson	CLUENER	CCIR2021-NER	任务对话2018-NER	银行借贷2021-NER	SKE2019
		batch size	数据集领域	医疗领域	通用领域	通用领域	新闻领域	对话领域	金融领域	金融领域
PP-UIE-1.5B	动态图	1	F1	0.52	0.695	0.626	0.818	0.766	0.456	0.8
			TPS	26.47	26.141	25.449	25.612	25.37	26.084	25.999
		2	F1	0.509	0.69	0.626	0.814	0.764	0.46	0.799
			TPS	48.545	48.5	47.851	47.639	47.627	46.602	48.196
		4	F1	0.492	0.689	0.624	0.81	0.765	0.456	0.795
			TPS	91.653	91.684	91.34	91.48	91.156	89.752	90.967
		8	F1	0.468	0.676	0.626	0.8	0.763	0.458	0.791
			TPS	169.458	169.043	165.25	170.523	169.804	164.427	171.739
		16	F1	0.428	0.664	0.626	0.785	0.763	0.456	0.78
			TPS	296.315	292.382	290.317	295.588	281.144	281.313	295.661
		32	F1	0.379	0.632	0.625	0.755	0.763	0.452	0.758
			TPS	481.643	476.989	458.55	477.239	464.775	451.335	487.228
		64	F1	0.328	0.576	0.625	0.707	0.761	0.451	0.72
			TPS	689.837	682.329	606.592	663.469	645.239	636.379	660.386
	fuse_mt	1	F1	0.509	0.681	0.621	0.813	0.765	0.454	0.798
			TPS	83.865	68.819	78.828	61.905	55.432	56.596	57.138
		2	F1	0.511	0.686	0.625	0.811	0.768	0.439	0.799
			TPS	182.739	150.276	131.843	150.973	107.681	99.068	138.105
		4	F1	0.509	0.686	0.618	0.811	0.769	0.448	0.799
			TPS	389.224	316.024	274.555	276.531	236.939	204.266	300.587
		8	F1	0.509	0.682	0.619	0.812	0.762	0.45	0.798
			TPS	751.196	627.038	554.42	583.324	435.373	412.652	618.796
		16	F1	0.504	0.683	0.618	0.815	0.763	0.443	0.798
			TPS	1367.616	1139.204	1023.104	1079.171	859.398	789.85	1224.739
		32	F1	0.51	0.687	0.615	0.812	0.763	0.448	0.8
			TPS	2346.183	1862.637	1721.626	1873.001	1446.156	1358.769	2174.648
		64	F1	0.505	0.686	0.612	0.811	0.764	0.45	0.799
			TPS	3435.418	2807.375	2642.186	2862.773	2201.76	2086.964	3377.49
	WINT8	1	F1	0.516	0.685	0.63	0.81	0.776	0.451	0.795
			TPS	74.782	68.263	58.323	64.345	50.213	47.894	48.872
		2	F1	0.515	0.689	0.626	0.809	0.765	0.44	0.793
			TPS	197.449	151.655	139.386	140.525	116.931	97.83	131.507
		4	F1	0.515	0.692	0.622	0.809	0.769	0.443	0.797
			TPS	356.658	291.106	267.558	272.57	207.656	198.878	251.976
		8	F1	0.515	0.684	0.623	0.812	0.762	0.442	0.798
			TPS	709.983	575.773	522.708	543.154	431.868	429.064	518.811
		16	F1	0.515	0.682	0.618	0.814	0.772	0.453	0.799
			TPS	1318.79	1031.525	935.156	983.182	765.36	714.785	1065.399
		32	F1	0.515	0.69	0.629	0.811	0.762	0.448	0.798
			TPS	2366.751	1744.833	1543	1757.031	1264.179	1177.245	1816.415
		64	F1	0.515	0.681	0.622	0.811	0.764	0.444	0.797
			TPS	3799.326	2567.648	2265.59	2650.271	1906.524	1761.032	3083.406

**PP-UIE-7B**

模型名称			数据集名称	CMeEE-V2	Boson	CLUENER	CCIR2021-NER	任务对话2018-NER	银行借贷2021-NER	SKE2019
		batch size	数据集领域	医疗领域	通用领域	通用领域	新闻领域	对话领域	金融领域	金融领域
PP-UIE-7B	动态图	1	F1	0.528	0.703	0.615	0.827	0.786	0.431	0.813
			TPS	24.971	24.263	24.935	24.201	24.43	24.59	24.579
		2	F1	0.524	0.702	0.615	0.827	0.786	0.433	0.812
			TPS	47.833	46.968	47.388	48.066	47.8	47.521	48.033
		4	F1	0.519	0.704	0.616	0.827	0.784	0.433	0.813
			TPS	88.69	87.364	87.516	88.941	89.231	90.045	90.196
		8	F1	0.514	0.704	0.615	0.826	0.785	0.433	0.813
			TPS	169.087	161.141	162.046	164.154	164.776	153.411	161.853
		16	F1	0.501	0.703	0.614	0.826	0.785	0.432	0.813
			TPS	288.043	268.144	264.288	270.323	260.654	252.396	270.884
		32	F1	0.479	0.703	0.615	0.823	0.784	0.432	0.12
			TPS	439.281	400.6	385.3381	406.698	379.117	366.518	399.546
		64	F1	0.441	0.702	0.614	0.816	0.783	0.432	0.808
			TPS	613.321	593.829	515.7	574.011	504.845	506.382	556.177
	fuse_mt	1	F1	0.517	0.702	0.623	0.823	0.788	0.423	0.811
			TPS	51.74	47.895	41.021	43.369	37.08	37.437	41.661
		2	F1	0.516	0.699	0.613	0.82	0.788	0.427	0.812
			TPS	105.843	97.718	84.915	89.266	74.252	66.249	80.974
		4	F1	0.514	0.696	0.609	0.823	0.783	0.434	0.808
			TPS	216.985	189.58	180.078	187.1	146.36	131.028	172.963
		8	F1	0.518	0.701	0.618	0.821	0.787	0.428	0.809
			TPS	391.686	355.544	334.309	349.757	291.318	249.223	348.771
		16	F1	0.515	0.695	0.611	0.823	0.788	0.426	0.809
			TPS	736.629	642.235	568.576	628.74	489.87	458.587	610.345
		32	F1	0.514	0.701	0.609	0.826	0.782	0.423	0.812
			TPS	1230.591	1050.501	927.891	1001.303	781.299	734.324	1055.442
		64	F1	0.517	0.697	0.613	0.823	0.788	0.424	0.81
			TPS	1819.105	1579.228	1336.426	1514.931	1161.161	1121.559	1594.559
	WINT8	1	F1	0.535	0.699	0.623	0.824	0.782	0.444	0.812
			TPS	65.298	46.819	40.873	43.83	35.281	32.287	35.705
		2	F1	0.522	0.7	0.61	0.824	0.78	0.418	0.812
			TPS	127.689	90.929	78.174	85.999	67.124	59.175	82.49
		4	F1	0.525	0.695	0.614	0.826	0.779	0.425	0.81
			TPS	234.016	193.467	165.158	179.821	141.483	129.085	158.411
		8	F1	0.522	0.696	0.618	0.824	0.781	0.431	0.811
			TPS	497.447	372.414	319.802	334.657	274.958	236.714	341.587
		16	F1	0.522	0.703	0.613	0.824	0.776	0.429	0.812
			TPS	897.135	695.732	604.092	635.239	478.883	423.663	596.289
		32	F1	0.522	0.703	0.615	0.827	0.784	0.427	0.812
			TPS	1468.647	1049.653	890.938	1017.609	816.842	708.418	992.633
		64	F1	0.526	0.702	0.62	0.822	0.786	0.423	0.809
			TPS	2152.035	1432.949	1237.672	1477.637	1066.383	954.065	1503.071

**PP-UIE-14B**

模型名称			数据集名称	CMeEE-V2	Boson	CLUENER	CCIR2021-NER	任务对话2018-NER	银行借贷2021-NER	SKE2019
		batch size	数据集领域	医疗领域	通用领域	通用领域	新闻领域	对话领域	金融领域	金融领域
PP-UIE-14B	动态图	1	F1	0.532	0.715	0.637	0.844	0.826	0.49	0.828
			TPS	14.685	14.837	14.751	14.698	14.329	14.212	14.261
		2	F1	0.53	0.713	0.637	0.843	0.827	0.489	0.828
			TPS	29.062	29.146	28.734	29.245	29.56	29.205	28.972
		4	F1	0.526	0.711	0.637	0.843	0.826	0.488	0.829
			TPS	55.025	54.938	54.633	54.532	55.626	53.934	54.969
		8	F1	0.52	0.708	0.636	0.842	0.827	0.489	0.828
			TPS	102.478	99.568	99.376	100.461	100.831	95.64	98.418
		16	F1	0.51	0.706	0.635	0.841	0.825	0.489	0.827
			TPS	185.198	171.829	170.281	174.586	164.299	152.416	178.834
		32	F1	0.49	0.711	0.634	0.836	0.822	0.489	0.827
			TPS	309.815	268.985	267.216	285.568	253.737	227.749	293.794
		64	F1	0.449	0.712	0.633	0.832	0.822	0.488	0.826
			TPS	459.762	428.323	376.201	427.951	343.526	355.367	459.668
	fuse_mt	1	F1	0.523	0.706	0.637	0.839	0.822	0.484	0.829
			TPS	34.494	31.347	29.996	30.977	28.478	25.846	29.052
		2	F1	0.519	0.708	0.631	0.84	0.827	0.48	0.826
			TPS	67.869	62.088	61.321	60.017	54.291	50.911	57.019
		4	F1	0.522	0.701	0.638	0.84	0.823	0.476	0.826
			TPS	131.164	122.297	112.31	115.559	103.088	96.69	110.686
		8	F1	0.52	0.708	0.63	0.842	0.825	0.478	0.827
			TPS	245.615	229.256	215.212	220.401	196.891	175.141	210.526
		16	F1	0.518	0.714	0.634	0.842	0.82	0.477	0.827
			TPS	440.587	399.806	368.995	375.22	329.55	303.739	364.359
	WINT8	1	F1	0.524	0.712	0.634	0.842	0.825	0.477	0.827
			TPS	41.234	38.762	34.777	35.233	34.728	30.871	32.129
		2	F1	0.525	0.706	0.633	0.842	0.82	0.478	0.826
			TPS	80.323	73.722	63.893	64.988	87.728	58.289	67.826
		4	F1	0.524	0.708	0.637	0.844	0.824	0.478	0.826
			TPS	162.169	141.365	127.283	130.367	120.714	112.827	132.525
		8	F1	0.525	0.701	0.63	0.842	0.818	0.477	0.826
			TPS	332.437	281.661	238.875	266.18	209.635	175.688	267.373
		16	F1	0.524	0.712	0.634	0.843	0.821	0.487	0.828
			TPS	545.886	472.752	391.256	424.774	353.743	288.442	420.256
		32	F1	0.524	0.707	0.635	0.841	0.819	0.478	0.823
			TPS	787.417	640.262	545.588	602.611	460.068	424.596	607.832
		64	F1	0.526	0.707	0.637	0.839	0.831	0.481	0.827
			TPS	1261.826	941.326	794.079	894.79	658.474	639.901	924.28

**以上实验均在单卡A100 80G运行**