活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 一键部署Llama3大模型学习机 0代码一键部署,预装最新主流大模型Llama3与StableDiffusion
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      查看所有产品

      数据治理中心 DataArts Studio

      数据治理中心 DataArts Studio

        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 权限管理
        • 权限列表
        • 约束与限制
        • 数据治理中心DataArts Studio与其他服务的关系
        • 计费说明
        • 资源节点
        • 产品规格
        • 产品价格
        • 计费模式
        • 购买
        • 变更
        • 续订
        • 退订
        • 准备工作
        • 准备工作简介
        • 创建DataArts Studio实例
        • 创建DataArts Studio基础包
        • (可选)创建DataArts Studio增量包
        • 访问DataArts Studio实例控制台
        • 管理工作空间
        • 创建并管理工作空间
        • (可选)修改作业日志存储路径
        • 授权用户使用DataArts Studio
        • 创建IAM用户并授予DataArts Studio权限
        • (可选)自定义工作空间角色
        • 添加工作空间成员和角色
        • (可选)获取认证信息
        • 用户指南
        • 使用DataArts Studio前的准备
        • 管理控制台
        • 创建数据连接
        • 资源迁移
        • 使用教程
        • 新建MRS Hive连接
        • 新建DWS连接
        • 新建MySQL连接
        • DataArts Studio支持的数据源
        • 数据集成
        • 数据集成概述
        • 约束与限制
        • 支持的数据源
        • 管理集群
        • 创建CDM集群
        • 解绑/绑定集群的EIP
        • 重启集群
        • 删除集群
        • 下载集群日志
        • 查看集群基本信息/修改集群配置
        • 监控指标
        • 支持的监控指标
        • 设置告警规则
        • 查看监控指标
        • 管理连接
        • 新建连接
        • 管理驱动
        • 管理Agent
        • 管理集群配置
        • 配置常见关系数据库连接
        • 配置分库连接
        • 配置MySQL数据库连接
        • 配置Oracle数据库连接
        • 配置DLI连接
        • 配置Hive连接
        • 配置HBase连接
        • 配置HDFS连接
        • 配置OBS连接
        • 配置FTP/SFTP连接
        • 配置Redis/DCS连接
        • 配置DDS连接
        • 配置CloudTable连接
        • 配置CloudTable OpenTSDB连接
        • 配置MongoDB连接
        • 配置Cassandra连接
        • 配置Kafka连接
        • 配置DMS Kafka连接
        • 配置Elasticsearch/云搜索服务(CSS)连接
        • 管理作业
        • 新建表/文件迁移作业
        • 新建整库迁移作业
        • 配置作业源端参数
        • 配置OBS源端参数
        • 配置HDFS源端参数
        • 配置HBase/CloudTable源端参数
        • 配置Hive源端参数
        • 配置DLI源端参数
        • 配置FTP/SFTP源端参数
        • 配置HTTP源端参数
        • 配置常见关系数据库源端参数
        • 配置MySQL源端参数
        • 配置Oracle源端参数
        • 配置分库源端参数
        • 配置MongoDB/DDS源端参数
        • 配置Redis源端参数
        • 配置Kafka/DMS Kafka源端参数
        • 配置Elasticsearch或云搜索服务源端参数
        • 配置OpenTSDB源端参数
        • 配置作业目的端参数
        • 配置OBS目的端参数
        • 配置HDFS目的端参数
        • 配置HBase/CloudTable目的端参数
        • 配置Hive目的端参数
        • 配置常见关系数据库目的端参数
        • 配置DWS目的端参数
        • 配置DDS目的端参数
        • 配置DCS目的端参数
        • 配置云搜索服务目的端参数
        • 配置DLI目的端参数
        • 配置OpenTSDB目的端参数
        • 配置定时任务
        • 作业配置管理
        • 管理单个作业
        • 批量管理作业
        • 审计
        • 支持云审计的关键操作
        • 如何查看审计日志
        • 使用教程
        • 创建MRS Hive连接器
        • 创建MySQL连接器
        • MySQL数据迁移到MRS Hive分区表
        • MySQL数据迁移到OBS
        • MySQL数据迁移到DWS
        • MySQL整库迁移到RDS服务
        • Oracle数据迁移到云搜索服务
        • Oracle数据迁移到DWS
        • OBS数据迁移到云搜索服务
        • OBS数据迁移到DLI服务
        • MRS HDFS数据迁移到OBS
        • Elasticsearch整库迁移到云搜索服务
        • DDS数据迁移到DWS
        • 进阶实践
        • 增量迁移原理介绍
        • 文件增量迁移
        • 关系数据库增量迁移
        • 时间宏变量使用解析
        • HBase/CloudTable增量迁移
        • 事务模式迁移
        • 迁移文件时加解密
        • MD5校验文件一致性
        • 字段转换
        • 指定文件名迁移
        • 正则表达式分隔半结构化文本
        • 记录数据迁移入库时间
        • 文件格式介绍
        • 数据架构
        • 数据架构概述
        • 数据架构使用流程
        • 准备工作
        • 添加审核人
        • 管理配置中心
        • 数据调研
        • 流程设计
        • 主题设计
        • 标准设计
        • 新建码表
        • 新建数据标准
        • 模型设计
        • 关系建模
        • 逻辑模型设计
        • 物理模型设计
        • 维度建模
        • 新建维度
        • 管理维度表
        • 新建事实表
        • 指标设计
        • 业务指标
        • 技术指标
        • 新建原子指标
        • 新建衍生指标
        • 新建复合指标
        • 新建时间限定
        • 数据集市建设
        • 新建汇总表
        • 通用操作
        • 逆向数据库(关系建模)
        • 逆向数据库(维度建模)
        • 导入导出表
        • 关联质量规则
        • 查看表
        • 批量修改主题/目录/流程
        • 审核中心
        • 使用教程
        • 数据架构示例
        • 数据开发
        • 数据开发概述
        • 数据管理
        • 数据管理流程
        • 新建数据连接
        • 新建数据库
        • (可选)新建数据库模式
        • 新建数据表
        • 脚本开发
        • 脚本开发流程
        • 新建脚本
        • 开发脚本
        • 开发SQL脚本
        • 开发Shell脚本
        • 开发Python脚本
        • 提交版本并解锁
        • (可选)管理脚本
        • 复制脚本
        • 复制名称与重命名脚本
        • 移动脚本/脚本目录
        • 导出导入脚本
        • 查看脚本引用
        • 删除脚本
        • 迁移脚本责任人
        • 批量解锁
        • 作业开发
        • 作业开发流程
        • 新建作业
        • 开发作业
        • 调度作业
        • 提交版本并解锁
        • (可选)管理作业
        • 复制作业
        • 复制名称和重命名作业
        • 移动作业/作业目录
        • 导出导入作业
        • 删除作业
        • 迁移作业责任人
        • 批量解锁
        • 解决方案
        • 运行历史
        • 运维调度
        • 运维概览
        • 作业监控
        • 批作业监控
        • 实时作业监控
        • 实例监控
        • 补数据监控
        • 通知管理
        • 管理通知
        • 通知周期概览
        • 备份管理
        • 配置管理
        • 配置
        • 配置环境变量
        • 配置OBS桶
        • 管理作业标签
        • 配置委托
        • 配置默认项
        • 管理资源
        • 节点参考
        • 节点概述
        • 节点数据血缘
        • 方案概述
        • 配置数据血缘
        • 查看数据血缘
        • CDM Job
        • Rest Client
        • Import GES
        • MRS Kafka
        • Kafka Client
        • ROMA FDI Job
        • DLI Flink Job
        • DLI SQL
        • DLI Spark
        • DWS SQL
        • MRS Spark SQL
        • MRS Hive SQL
        • MRS Presto SQL
        • MRS Spark
        • MRS Spark Python
        • MRS Flink Job
        • MRS MapReduce
        • CSS
        • Shell
        • RDS SQL
        • ETL Job
        • Python
        • Create OBS
        • Delete OBS
        • OBS Manager
        • Open/Close Resource
        • Data Quality Monitor
        • Sub Job
        • For Each
        • Dummy
        • EL表达式参考
        • 表达式概述
        • 基础操作符
        • 日期和时间模式
        • Env内嵌对象
        • Job内嵌对象
        • StringUtil内嵌对象
        • DateUtil内嵌对象
        • JSONUtil内嵌对象
        • Loop内嵌对象
        • OBSUtil内嵌对象
        • 表达式使用示例
        • 使用教程
        • 作业依赖详解
        • IF条件判断教程
        • 获取Rest Client算子返回值教程
        • For Each算子使用介绍
        • 开发一个Python脚本
        • 开发一个DWS SQL作业
        • 开发一个Hive SQL作业
        • 开发一个DLI Spark作业
        • 开发一个MRS Flink作业
        • 开发一个MRS Spark Python作业
        • 数据质量
        • 业务指标监控
        • 业务指标监控概述
        • 新建指标
        • 新建规则
        • 新建业务场景
        • 查看业务场景实例
        • 数据质量监控
        • 数据质量监控概述
        • 新建规则模板
        • 新建质量作业
        • 新建对账作业
        • 查看规则实例
        • 查看质量报告
        • 使用教程
        • 新建一个业务场景
        • 新建一个质量作业
        • 新建一个作业对账实例
        • 数据目录
        • 数据地图
        • 简介
        • 资产总览
        • 数据目录
        • 标签管理
        • 数据权限
        • 数据权限简介
        • 数据目录权限
        • 数据表权限
        • 审批中心
        • 数据安全(待下线)
        • 数据安全简介
        • 数据密级
        • 数据分类
        • 脱敏策略
        • 元数据采集
        • 元数据简介
        • 任务管理
        • 任务监控
        • 使用教程
        • 开发一个增量元数据采集任务
        • 通过数据地图查看数据血缘关系
        • 方案概述
        • 配置数据血缘
        • 查看数据血缘
        • 数据服务
        • 数据服务概览
        • 规格说明
        • 开发API
        • 准备工作
        • 创建专享版集群
        • 新建审核人
        • 创建API
        • 配置模式生成API
        • 脚本模式生成API
        • 注册API
        • 调试API
        • 发布API
        • 管理API
        • 设置API可见
        • 停用/恢复API
        • 下线/删除API
        • 复制API
        • 全量导出/导出/导入API
        • 流量控制
        • 调用API
        • 审核中心操作说明
        • 常见问题
        • 计费类
        • 购买类
        • 操作类
        • 管理中心
        • 数据集成
        • 数据架构
        • 数据开发
        • 数据质量
        • 数据目录
        • 数据服务
        • 相关协议
        • 数据治理中心 DataArts Studio产品服务协议
        • 数据治理中心 DataArts Studio产品服务等级协议
        • 文档下载
        • 数据治理中心 DataArts Studio用户操作指南
        • 数据治理中心 DataArts Studio故障排除
          无相关产品

          本页目录

          帮助中心 数据治理中心 DataArts Studio 用户指南 数据集成 管理作业 新建表/文件迁移作业
          新建表/文件迁移作业
          更新时间 2023-07-18 16:35:59
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2023-07-18 16:35:59
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章节主要介绍新建表/文件迁移作业。

          操作场景

          CDM可以实现在同构、异构数据源之间进行表或文件级别的数据迁移,支持表/文件迁移的数据源请参见支持的数据源中表/文件迁移支持的数据源类型。

          约束限制

          • 记录脏数据功能依赖于OBS服务。
          • 作业导入时,JSON文件大小不超过1MB。

          前提条件

          • 已新建连接。
          • CDM集群与待迁移数据源可以正常通信。

          操作步骤

          1.进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理”。

          2.选择“表/文件迁移 > 新建作业”,进入作业配置界面。

          详见下图:新建表/文件迁移的作业

          image.png

          3.选择源连接、目的连接:

          • 作业名称:用户自定义任务名称,名称由中文、数字、字母、中划线、下划线、点号,且首字符不能是中划线或点号组成,长度必须在1到240个字符之间,例如“oracle2obs_t”。
          • 源连接名称:选择待迁移数据的数据源,作业运行时将从此端复制导出数据。
          • 目的连接名称:选择将数据迁移到哪个数据源,作业运行时会将数据导入此端。

          4.选择源连接后,配置作业参数。

          每种数据源对应的作业参数不一样,其它类型数据源的作业参数请根据下表选择。

          源端作业参数说明

          源端类型 说明 参数配置
          OBS 支持以CSV、JSON或二进制格式抽取数据,其中二进制方式不解析文件内容,性能快,适合文件迁移。 参见配置OBS源端参数。
          MRS HDFs
          FusionInsight HDFS
          Apache HDFS
          支持以CSV、Parquet或二进制格式抽取HDFS数据,支持多种压缩格式。 参见配置HDFS源端参数。
          MRS HBase
          FusionInsight HBase
          Apache HBase
          CloudTable
          支持从MRS、FusionInsight HD、开源Apache Hadoop的HBase,或CloudTable服务导出数据,用户需要知道HBase表的所有列族和字段名。 参见配置HBase/CloudTable源端参数。
          MRS Hive
          FusionInsight Hive
          Apache Hive
          支持从Hive导出数据,使用JDBC接口抽取数据。 Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。 参见配置Hive源端参数。
          DLI 支持从DLI导出数据。 参见配置DLI源端参数。
          FTP
          SFTP
          支持以CSV、JSON或二进制格式抽取FTP/SFTP的数据。 参见配置FTP/SFTP源端参数。
          HTTP 用于读取一个公网HTTP/HTTPS URL的文件,包括第三方对象存储的公共读取场景和网盘场景。 当前只支持从HTTP URL导出数据,不支持导入。 参见配置HTTP源端参数。
          数据仓库DWS
          云数据库MySQL
          云数据库SQL Server
          云数据库PostgreSQL
          支持从云端的数据库服务导出数据。 从这些数据源导出数据时,CDM使用JDBC接口抽取数据,源端作业参数相同,详细请
          参见配置作业源端参数文档中的 配置常见关系数据库源端参数。
          FusionInsight LibrA 支持从FusionInsight LibrA导出数据。 从这些数据源导出数据时,CDM使用JDBC接口抽取数据,源端作业参数相同,详细请
          参见配置作业源端参数文档中的 配置常见关系数据库源端参数。
          MySQL
          PostgreSQL
          Oracle
          Microsoft SQL Server
          SAP HANA
          MYCAT
          分库
          这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 从这些数据源导出数据时,CDM使用JDBC接口抽取数据,源端作业参数相同,详细请
          参见配置作业源端参数文档中的 配置常见关系数据库源端参数。
          MongoDB
          文档数据库服务(DDS)
          支持从MongoDB或DDS导出数据。 参见配置MongoDB/DDS源端参数。
          Redis 支持从开源Redis导出数据。 参见配置Redis源端参数。
          Apache Kafka
          DMS Kafka
          MRS Kafka
          仅支持导出数据到云搜索服务。 参见配置Kafka/DMS Kafka源端参数。
          云搜索服务
          Elasticsearch
          支持从云搜索服务或Elasticsearch导出数据。 参见配置Elasticsearch或云搜索服务源端参数。

          5.配置目的端作业参数,根据目的端数据类型配置对应的参数,具体下表所示。

          目的端作业参数说明

          目的端类型 说明 参数配置
          OBS 支持使用CSV或二进制格式批量传输大量文件到OBS。 参见配置OBS源端参数。
          MRS HDFS 导入数据到HDFS时,支持设置压缩格式。 参见配置HDFS源端参数。
          MRS HBase CloudTable 支持导入数据到HBase,创建新HBase表时支持设置压缩算法。 参见配置HBase/CloudTable源端参数。
          MRS Hive 支持快速导入数据到MRS的Hive。 参见配置Hive源端参数。
          数据湖探索(DLI) 支持导入数据到DLI服务。 参见配置DLI目的端参数。
          数据仓库DWS
          云数据库MySQL
          云数据库SQL Server
          云数据库PostgreSQL
          支持导入数据到云端的数据库服务。 使用JDBC接口导入数据,参见配置常见关系数据库目的端参数。
          文档数据库服务(DDS) 支持导入数据到DDS,不支持导入到本地MongoDB。 参见配置DDS目的端参数。
          分布式缓存服务(DCS) 支持导入数据到DCS,支持“String”或“Hashmap”两种值存储方式。不支持导入数据到本地Redis。 参见配置DCS目的端参数。
          云搜索服务(CSS) 支持导入数据到云搜索服务。 参见配置云搜索服务目的端参数。

          6.作业参数配置完成后,单击“下一步”进入字段映射的操作页面。

          如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。

          其他场景下,CDM会自动匹配源端和目的端数据表字段,需用户检查字段映射关系和时间格式是否正确,例如:源字段类型是否可以转换为目的字段类型。

          1111111.png

          说明

          • 如果字段映射关系不正确,用户可以通过拖拽字段来调整映射关系。
          • 如果在字段映射界面,CDM通过获取样值的方式无法获得所有列(例如从HBase/CloudTable/MongoDB导出数据时,CDM有较大概率无法获得所有列),则可以单击3.png后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。
          • 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列:
          • 有主键可以使用主键作为分布列。

          (1)多个数据段联合做主键的场景,建议设置所有主键作为分布列。

          (2)在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。

          7.CDM支持字段内容转换,如果需要可单击操作列下121.png,进入转换器列表界面,再单击“新建转换器”。

          图 新建转换器

          image.png

          CDM支持以下转换器:

          • 脱敏:隐藏字符串中的关键数据。

          例如要将“12345678910”转换为“123****8910”,则参数配置如下:

          −“起始保留长度”为“3”。

          −“结尾保留长度”为“4”。

          −“替换字符”为“*”。

          • 去前后空格:自动删除字符串前后的空值。
          • 字符串反转:自动反转字符串,例如将“ABC”转换为“CBA”。
          • 字符串替换:将选定的字符串替换。
          • 表达式转换:使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换。
          • 去换行:将字段中的换行符(\n、\r、\r\n)删除。

          8.单击“下一步”配置任务参数,单击“显示高级属性”展开可选参数。

          详见下图:任务参数

          image.png

          各参数说明如下表所示。

          任务配置参数

          参数 说明 取值样例
          作业失败重试 如果作业执行失败,可选择自动重试三次或者不重试。
          建议仅对文件类作业或启用了导入阶段表的数据库作业配置自动重试,避免自动重试重复写入数据导致数据不一致。
          说明
          如果通过DataArts Studio数据开发使用参数传递并调度CDM迁移作业时,不能在CDM迁移作业中配置“作业失败重试”参数,如有需要请在数据开发中的CDM节点配置“失败重试”参数。
          不重试
          作业分组 选择作业的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 DEFAULT
          是否定时执行 如果选择“是”,可以配置作业自动启动的时间、重复周期和有效期,具体请参见配置定时任务。
          说明
          如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了定时任务,则两种调度均会生效。为了业务运行逻辑统一和避免调度冲突,推荐您启用数据开发调度即可,无需配置CDM定时任务。
          否
          抽取并发数 设置同时执行的抽取任务数。并发抽取数取值范围为1-300,若配置过大,则以队列的形式进行排队。
          CDM迁移作业的抽取并发量,与集群规格和表大小有关。
          按集群规格建议每1CUs(1CUs=1核4G)配置为4。
          表每行数据大小为1MB以下的可以多并发抽取,超过1MB的建议单线程抽取数据。
          说明
          迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。
          单作业的抽取并发数,受到作业“配置管理”中所配置的“最大抽取并发数”影响。“最大抽取并发数”配置的是抽取并发总数。
          1
          加载(写入)并发数 加载(写入)时并发执行的Loader数量。
          仅当HBase或Hive作为目的数据源时该参数才显示。
          3
          分片重试次数 每个分片执行失败时的重试次数,为0表示不重试。 0
          是否写入脏数据 选择是否记录脏数据,默认不记录脏数据。
          CDM中脏数据指的是数据格式非法的数据。当源数据中存在脏数据时,建议您打开此配置。否则可能导致迁移作业失败。
          是
          脏数据写入连接 当“是否写入脏数据”为“是”才显示该参数。
          脏数据要写入的连接,目前只支持写入到OBS连接。
          obs_link
          OBS桶 当“脏数据写入连接”为OBS类型的连接时,才显示该参数。
          写入脏数据的OBS桶的名称。
          dirtydata
          脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。
          OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。
          用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。
          /user/dirtydir
          单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。
          单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。
          0
          开启限速 设置限速可以保护源端读取压力,速率代表CDM传输速率,而非网卡流量。 是
          单并发速率上限(Mb/s) 开启限速情况下设置的单并发速率上限值。 20

          9.单击“保存”,或者“保存并运行”回到作业管理界面,可查看作业状态。

          说明

          作业状态有New,Pending,Booting,Running,Failed,Succeeded。

          其中“Pending”表示正在等待系统调度该作业,“Booting”表示正在分析待迁移的数据。

          上一篇 :  管理作业
          下一篇 :  新建整库迁移作业
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

           文本反馈
          搜索
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明