数据分析

数据分析是大模型平台面向大模型文本数据的分析，包括数据的领域类型/任务类型的分布统计和初步质量检查。帮助您更好地理解数据，为模型训练提供更准确的基础数据。

数据分析是构建高性能、高质量和全面适用性的大型语言模型的关键步骤之一。它有助于确保模型在广泛应用中表现出色，并且符合道德和法律规定，同时减少潜在的问题和挑战。

创建任务

1.在主任务界面，需要您选择创建任务：

数据集选择：当前千帆大模型平台支持对文本数据进行数据分析，您选择的数据集需为平台发布的非空文本数据集。

分析方法：分布统计文本数据的涉及的领域类型和任务类型等；质量检查则对字重复率、困惑度、特殊字符率等进行统计检查。

2.以上内容完成后，点击“确定”，即可进入数据分析阶段。

当数据分析任务的状态变为“已完成”时，您可以对任务的分析结果进行详情查看和删除操作。

注意：针对未发布的数据集，新增导入的数据不纳入本次数据分析任务，数据集以创建任务时的状态为准，删除数据也不影响已经生成的分布统计结果。

选择任务操作列的“详情”按钮，即可查看选择分析方式的输出结果。

分布统计：查看自动分析的领域类型和任务类型，并且您可以对筛选出的数据集进行查看和删除。需注意：数据集发布后，不可在此界面删除。一旦删除数据，将不可恢复。

质量检查：输出数据分析任务的词目数、字重复率、特殊字符率等内容，如下所示：

注意：未发布的数据新增数据不再纳入质量检查分析范围，但是删除数据后，质量检查将无法查看数据内容。

您可以在完成数据分析任务后，在操作列“删除”此操作，任务一旦删除，将不可恢复。