前置要求
1、若从开源社区导入数据集(则需确保集群节点可以公网访问开源社区,如集群节点绑定eip或者配置公网类型nat网关)
2、在导入私有模型前,请确保集群已安装 cstor-csi 插件。
| 要求 | 操作说明 |
|---|---|
| 插件 | 如何安装上述插件?
|
操作步骤
可以在创建数据集或创建版本的时候进行数据集的导入,导入方式分三种:开源社区、本地上传、自定义。
一、开源社区
从魔乐社区导入数据集
1、在魔乐社区官网复制需要导入的数据集名称
2、进行数据集导入配置,选择开源社区类型导入方式,社区名称选择魔乐社区,开源数据集粘贴刚复制的数据集名称,若为私有数据集,则需要填写访问Token(从个人中心-访问令牌获取)
3、当数据集导入状态为导入成功,即可进行数据集使用
从魔搭导入数据集
1、在魔搭社区官网复制需要导入的数据集名称
2、进行数据集导入配置,选择开源社区类型导入方式,社区名称选择ModelScope,开源数据集粘贴刚复制的数据集名称,若为私有数据集,则需要填写访问Token
3、当数据集导入状态为导入成功,即可进行数据集使用
从Hugging Face导入数据集
1、在 Hugging Face复制需要导入的数据集名称
2、进行数据集导入配置,选择开源社区类型导入方式,社区名称选择Hugging Face,开源数据集粘贴刚复制的数据集名称,若为私有数据集,则需要填写访问Token
3、当数据集导入状态为导入成功,即可进行数据集使用
二、本地上传
1、将本地数据集使用tar - czvf 命令打包,文件名需为dataset.tar.gz。
2、点击虚线矩形框处,选择需要上传的数据集压缩文件 dataset.tar.gz,当进度条为100%,即上传成功,然后点击提交按钮。
3、当数据集导入状态为导入成功,即可进行数据集使用
三、自定义
自定义数据集即纳管数据集,支持将已有数据(对象存储或并行文件)进行纳管。
对象存储纳管
选择对象存储Bucket,并填写需要纳管的具体文件存储路径,点击提交按钮即可
并行文件纳管
选择并行文件存储实例,并填写需要纳管的具体文件存储路径,点击提交按钮即可