数据增强

什么是数据增强

平台支持对文本数据集进行数据增强。
当在实践中无法收集到数目庞大的高质量数据时，可以通过数据增强策略，对数据本身进行一定程度的扰动和扩充，从而产生"新"数据。在训练时会通过学习大量的"新"数据，提高模型的泛化能力。

注意文本数据增强功能仅支持增强未发布的非空数据集。

登录到千帆大模型操作台，在左侧功能列数据处理中选择数据增强，选择数据增强，进入数据增强的主任务界面。

在数据处理-数据增强页面中，选择“创建任务”。

1）基本信息填写：

处理前数据集：存放增强前的源数据，至少存在10条标注数据。

处理后数据集：存放增强后的数据。

注意：泛文本无标注数据不支持增强操作。

2）增强配置填写：

选择服务：当前支持选择预置的ERNIE-Bot服务和ERNIE-Bot-turbo服务，并且将根据此服务进行计费；

选择应用：选择包含服务的应用，在应用的框架下进行增强操作；

参数配置：如上图，支持指令生成的依赖样本库数、生成样本数和过滤相似度阈值调整等操作。

以上配置完成后，点击“确定”即可开启自监督式的增强任务。相关费用计算逻辑可查看价格文档。

您可以返回任务列表页，查看已经创建的数据增强任务，如果任务在“进行中”，可查看进度或手动“停止任务”；对于已中止的任务也可以“重新启动”。
当任务状态为“已完成”时，则表示数据增强任务已运行完毕，数据集发布后可用于SFT。

详情

选择操作列的“详情”按钮，即可查看创建任务的详细信息和增强配置。

质量过滤

选择操作列的“质量过滤”按钮，即可指定或批量进行文本过滤。

其中，增强质量指标如下：

一般（0～25）、良好（25～50）、优质（50～75）、最佳（75～100），你可按照此指标自定义查看或过滤增强后的数据，数据过滤之后将无法找回。

删除

进行中的增强任务不可删除，任务一旦删除将不可恢复。