数据集是模型训练与评测的基础,百炼模型数据功能可以帮助您高效地创建和管理数据集。
模型数据实现了对您业务空间下所有大模型相关数据集的统一管理。这些数据集可分为训练集(用于模型调优简介)和评测集(用于简介)两类。 类型 说明 训练集 用于对大模型进行调优,通过在特定任务的数据集上进行有监督训练,使大模型学会解决特定问题和区分相关特征之间的细微差异,从而显著提升其在特定任务上的准确性和效率。 目前支持SFT、DPO和CPT训练集,详见下方说明。 评测集 用于评测大模型的泛化能力,即评估经过调优后的大模型在未见过的数据集上的表现如何。 目前支持文本生成评测集,详见下方说明。 训练集 评测集 SFT-文本生成 SFT-图片理解 DPO-文本生成 CPT-文本生成 是一种多轮对话的训练数据,用户消息(用户输入)和助手消息(模型期望输出)一一对应,用于文本生成类模型的调优。 SFT-文本生成 ChatML(Chat Markup Language,是一种描述对话的标记语言)格式训练数据,支持多轮对话和多种角色设置,一行训练数据展开后结构如下: system/user/assistant 区别请参见消息类型。 对于CPT来说,数据集最少需要一千万Token优质预训练数据;对于 SFT 来说,训练集最少需要上千条优质微调数据;对于 DPO 来说,训练集一般需要上百条人类偏好数据。如果模型调优后的模型评测结果不佳,最简单的改进方法是收集更多数据进行训练。 如果您缺乏数据,建议构建智能体应用,使用知识库索引来增强模型能力。当然在很多复杂的业务场景,可以综合采用模型调优和知识库检索结合的技术方案。 以客服场景为例,可以借助模型调优解决客服回答的语气、表达习惯、自我认知等问题,场景涉及的专业知识可以结合知识库,动态引入到模型上下文中。 百炼推荐您可以先构建 RAG 应用试运行,在收集到足够的应用数据后再通过模型调优继续提升模型表现。 您可以采用以下策略扩充训练集: 让大模型模拟生成特定业务/场景的相关内容,辅助您生成更多用于调优数据。(生成模型建议选取表现优异、规模更大的模型) 使用百炼的数据处理功能,对您的数据集进行数据清洗、数据增强。 通过应用场景收集、网络爬虫、社交媒体和在线论坛、公开数据集、合作伙伴与行业资源、用户贡献等各种方式,人工获取更多数据。 模型调优有不同场景,针对具体业务场景时,专业性更重要;而针对问答场景时通用性更重要。您需要根据模型负责的业务模块或使用场景进行数据用例设计。因此训练效果好坏并不是仅取决于数据量,更需要考虑针对场景的专业性和多样性。 这里以智能 AI 对话场景为例,介绍一个专业、多样的训练集应该包含的各种业务场景: 具体业务 多样化场景/业务 电商客服 活动推送、售前咨询、售中引导、售后服务、售后回访、投诉处理等。 金融服务 贷款咨询、投资理财顾问、信用卡服务、银行账户管理等。 在线医疗 病症咨询、挂号预约、就诊须知、药品信息查询、健康小建议等。 AI 秘书 IT 信息、行政信息、HR 信息、员工福利解答、公司日历查询等。 旅游出行助手 旅行规划、出入境指南、旅行保险咨询、目的地风土人情介绍等。 企业法律顾问 合同审核、知识产权保护、合规性检查、劳动法律答疑、跨境交易咨询、个案法律分析等。 还请特别注意的是各个场景/业务的数据数量应相对均衡,数据比例符合实际场景比例,避免某一类数据过多导致模型偏向于学习该类特征,影响模型的泛化能力。 本段落指导您如何在百炼控制台上创建一个数据集。 访问数据集列表,单击新增数据集。 输入数据集名称,并选择需要创建的数据集类型。 训练集 评测集 数据集类型选择SFT-文本生成、SFT-图片理解、DPO-文本生成,或CPT-文本生成。 立即发布,选择否或是。选择否仅创建数据集,状态为草稿;选择是则会创建并发布数据集。 发布状态 说明 草稿 数据集支持在线编辑,可用于数据清洗或增强(例如进行数据清洗和数据增强),但无法用于模型调优和模型评测(模型调优或评测前需发布数据集)。 发布 存储位置,选择平台存储(暂不支持其它)。 导入方式,选择本地上传(暂不支持其它)。 数据导入,单击 单击确认,新创建的数据集(版本V1)将出现在数据集列表中,并开始导入数据。单击 导入状态 说明 导入中 在请求高峰时段,该过程可能需要较长时间,请耐心等待,期间无需您介入操作。 导入成功 表示数据集已成功创建。 导入失败 表示数据集创建失败。 操作 说明 管理数据集版本 您可以为数据集创建多个独立编辑的版本。在数据集列表页面,单击数据集右侧的 ,左侧数据版本导航树会显示当前数据集的所有版本。 新增版本:单击新增版本,数据集版本号自动递增。 数据继承,选择继承数据或新建数据。 单击确定,左侧数据版本导航树中出现新版本。 删除版本:在左侧数据版本导航树中选择相应版本,然后单击页面右上角的删除。 查看数据集 在数据集列表页面,单击数据集名称右侧的 ,可查看该数据集的基本信息(例如数据集类型、数据集创建时间等)、所有版本和数据。 查找数据集 在数据集列表页面的搜索框中输入数据集名称后,单击 编辑数据集(草稿) 在数据集列表页面,发布状态为草稿的数据集,单击 进入数据集详情页后,可进行新增、编辑、导入(批量新增)、复制、删除和下载数据操作。 导出数据集 在数据集列表页面,单击数据集名称右侧的导出,可下载该数据集的最新版本到本地。暂不支持设置导出文件格式。 训练集:SFT-文本生成(导出为jsonl格式)、SFT-图片理解(导出为zip格式)、DPO-文本生成(导出为jsonl格式)以及CPT-文本生成(导出为jsonl格式)。 评测集:文本生成(导出为xlsx格式)。 发布数据集 在数据集列表页面,单击数据集名称右侧的发布(当数据集最新版本的发布状态为草稿可用),可发布该数据集的最新版本。发布后,该版本可用于模型调优或模型评测。 删除数据集 如果您不再需要某个数据集,请在数据集列表页面单击该数据集右侧的删除,以彻底删除此数据集。删除数据集后,该数据集将不再可用且不可恢复,请谨慎操作。 模型数据功能和数据集存储空间均免费。 百炼模型数据目前尚未提供可用的API。支持的数据集
{"messages": [
{"role": "system", "content": "<系统输入1>"},
{"role": "user", "content": "<用户输入1>"},
{"role": "assistant", "content": "<模型期望输出1>"},
{"role": "user", "content": "<用户输入2>"},
{"role": "assistant", "content": "<模型期望输出2>"}
...
...
... ]}
不支持OpenAI 的
name
、weight
参数,所有的 assistant 输出都会被训练。数据集构建技巧
训练集的规模要求
您可以在准备训练集的同时,准备一份与训练集数据不重叠的评测集,用来评测调优后模型的效果。
训练数据的多样性与均衡性
创建数据集
百炼目前对数据集的创建数量没有限制,导入的数据量也没有上限。
CPT-文本生成训练集不支持草稿状态,只能立即发布。
使用百炼提供的免费存储空间。目前百炼对导入的数据量没有设置上限。
图标选择并上传文件。您上传的训练数据必须与给出的数据示例结构一致,否则会导致导入失败。
您可以参考百炼提供的数据模板,将示例数据替换为您的训练数据,然后直接上传。
百炼不支持创建空训练集。
system/user/assistant 区别请参见消息类型。
SFT-文本生成和DPO-文本生成训练集支持同时上传多个文件。百炼会整合并统一导入训练集。
图标,查看最新导入状态。
管理数据集
继承数据:新版本将保留继承版本的所有数据,数据集类型保持不变,方便您在继承版本的基础上进行修改。请注意,CPT-文本生成训练集不支持该模式。
新建数据:新版本内容为空,数据集类型保持不变,方便您重新导入数据。
版本删除后将不再可用且不可恢复,请谨慎操作。
CPT-文本生成训练集不支持查看。
图标在业务空间下查找数据集,支持模糊搜索,支持按数据集类型筛选结果。
复制操作会生成一条与原数据完全相同的副本,方便您在副本的基础上进行修改。
如需导出数据集的指定版本,请先查看该数据集,然后在左侧数据版本导航树中选择相应版本,再单击页面右上角的导出。
百炼不支持导出空数据集。
如需发布数据集的指定版本,请先查看该数据集,然后在左侧数据版本导航树中选择相应版本,再单击页面右上角的发布。
数据集发布后将无法再转为草稿状态进行编辑。如需编辑,请为该数据集新增一个版本。
百炼不支持发布空数据集。
如需删除数据集的指定版本,请先查看该数据集,然后在左侧数据版本导航树中选择相应版本,再单击页面右上角的删除。
计费说明
API参考
下一步