爆款云主机低至25.83元/年
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 云聚517 · 好价翼起拼 NEW 爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      费用中心_相关内容
      • 通知周期概览
        本章节主要介绍通知管理的通知周期概览。 操作场景 用户可以按照天/周/月为调度周期配置通知任务,向相关人员发送通知。让相关人员可以定期跟踪作业的调度情况(作业调度成功数量,作业调度失败异常数量以及作业失败详情)。 约束限制 该功能依赖于OBS服务。 前提条件 已开通消息通知服务并配置主题,为主题添加订阅。 已提交作业,且作业不是“未启动”状态 已开通对象存储服务,并在OBS中创建文件夹。 配置通知 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“运维调度 > 通知管理”。 3. 在页面右侧的“周期概览”页签,单击“通知配置”,弹出“通知配置”页面,配置如下表所示的参数。 通知参数 参数 是否必选 说明 通知名称 是 设置发送的通知名称。 调度周期 是 选择通知发送的调度周期,可以设置为按“天”、“周”或“月”发送。 说明 按天发送,通知记录为以发送时间往前推24小时时间段的数据;按周发送,通知记录为往前推七天时间段的数据;按月发送,通知记录为往前推30天时间段的数据 选择时间 是 设置通知发送的具体日期。 当调度周期为周时,可设置为一周中星期一至星期日的某一天或某几天。 当调度周期为月时,可设置为一月中每月1号至每月31号的某一天或某几天。 具体时间 是 设置通知发送的具体时间点,可以精确设置到小时和分钟。 选择概览通知的主题 是 单击下拉选项,设置通知发送的主题。 选择OBS桶 是 单击“OBS”设置通知记录数据存储的位置。 开关 是 是否开启通知,默认开启。 4. 单击“确定”。 5. 通知配置完成后,您可以在通知的“操作”列进行如下操作。 单击“编辑”,打开“通知配置”页面,可以重新编辑通知。编辑完成后选择“确定”,保存修改。 单击“记录”,打开“查看记录”页面,可以查看作业的调度情况。 单击“删除”,打开“删除通知”页面,选择“确定”,删除通知。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        运维调度
        通知管理
        通知周期概览
      • 运行历史
        本章节主要介绍数据开发的运行历史。 运行历史功能可支持查看脚本、作业和节点的一周(7天)内用户的运行记录。 前提条件 运行历史功能依赖于OBS桶,若要使用该功能,必须先配置OBS桶。请参考配置OBS桶进行配置。 脚本运行历史 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在左侧目录上方,单击运行历史图标,显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“脚本”,展示历史7天的脚本运行记录。 5. 单击某一条运行记录,可查看当时的脚本信息和运行结果。 作业运行历史 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在左侧目录上方,单击运行历史图标,显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“作业”,展示历史7天的作业运行记录。 5. 单击某一条运行记录,可查看当时的作业信息和日志信息。 说明 如果该作业当时只有部分节点执行测试,则运行历史只展示参与测试运行的节点信息和日志信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        运行历史
      • 配置常见关系数据库目的端参数
        参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 基本参数 自动创表 只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作: 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 先删除后创建:CDM先删除“表名”参数中指定的表,然后再重新创建该表。 不自动创建 基本参数 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 table 基本参数 导入开始前 导入数据前,选择是否清除目的表的数据: 不清除:写入数据前不清除目标表中数据,数据追加写入。 清除全部数据:写入数据前会清除目标表中数据。 清除部分数据:需要配置“where条件”参数,CDM根据条件选择性删除目标表的数据。 清除部分数据 基本参数 where条件 “导入开始前”参数选择为“清除部分数据”时配置,配置后导入前根据where条件删除目的表的数据。 age > 18 and age < 60 基本参数 约束冲突处理 当迁移数据出现冲突时的处理方式。 insert into:当存在主键、唯一性索引冲突时,数据无法写入并将以脏数据的形式存在。 replace into:当存在主键、唯一性索引冲突时,会先删除原有行、再插入新行,替换原有行的所有字段。 on duplicate key update,当存在主键、唯一性索引冲突时,目的表中约束冲突的行除开唯一约束列的其他数据列将被更新。 insert into 基本参数 loader线程数 每个loader内部启动的线程数,可以提升写入并发数。 说明 不支持“约束冲突处理”策略为“replace into”或“on duplicate key update”的并发场景。 1 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态。 默认为“否”,CDM直接将数据导入到目的表。这种情况下如果作业执行失败,已经导入到目标表中的数据不会自动回滚。 说明 如果“导入开始前”选择“清除部分数据”或“清除全部数据”,CDM的事务模式不会回滚已经删除的数据。 否 高级参数 扩大字符字段长度 选择自动创表时,迁移过程中可将字符类型的字段长度扩大为原来的3倍,再写入到目的表中。如果源端数据库与目的端数据库字符编码不一样,但目的表字符类型字段与源表一样,在迁移数据时,可能会有出现长度不足的错误。 说明 当启动该功能时,也会导致部分字段消耗用户相应的3倍存储空间。 否 高级参数 使用非空约束 当选择自动创建目的表时,如果选择使用非空约束,则目的表字段的是否非空约束,与原表具有相应非空约束的字段保持一致。 是 高级参数 导入前准备语句 执行任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句。 create temp table 高级参数 导入后完成语句 执行任务之后执行的SQL语句,目前仅允许执行一条SQL语句。 merge into
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置常见关系数据库目的端参数
      • 如何查看审计日志
        本章节主要介绍如何查看审计日志。 操作场景 在您开启了云审计服务后,系统开始记录CDM的相关操作,云审计服务的管理控制台保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 1.登录管理控制台。 2.单击“服务列表”,选择“管理与部署 > 云审计服务”,进入云审计服务信息页面。 3.单击左侧导航树的“事件列表”,进入事件列表信息页面。 事件列表支持通过筛选来查询对应的操作事件。 4.在需要查看的事件左侧,单击事件名称左边的箭头,展开该记录的详细信息。 5.在需要查看的记录右侧,单击“查看事件”,弹窗中显示了该操作事件结构的详细信息。 更多关于云审计的信息,请参见《云审计服务用户指南》。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        审计
        如何查看审计日志
      • MySQL数据迁移到OBS
        本章节主要介绍MySQL数据迁移到OBS。 操作场景 CDM支持表到OBS的迁移,本章节以MySQL>OBS为例,介绍如何通过CDM将表数据迁移到OBS中。流程如下: 1.创建CDM集群并绑定EIP 2.创建MySQL连接 3.创建OBS连接 4创建迁移作业 前提条件 已获取OBS的访问域名、端口,以及AK、SK。 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。 用户已参考管理驱动,上传了MySQL数据库驱动。 创建CDM集群并绑定EIP 1.参考创建CDM集群,创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 2.CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 说明 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建MySQL连接 1.在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面。 2.选择“MySQL”后单击“下一步”,配置MySQL连接的参数。 单击“显示高级属性”可查看更多可选参数,具体请参见 配置常见关系数据库连接。这里保持默认,必填参数如下表“MySQL连接参数”所示。 参数名 说明 取值样例 名称 输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin 密码 用户的密码。 使用本地API 使用数据库本地API加速(系统会尝试启用MySQL数据库的localinfile系统变量)。 是 使用Agent 是否选择通过Agent从源端提取数据。 是 localinfile字符集 mysql通过localinfile导入数据时,可配置编码格式。 utf8 驱动版本 适配mysql的驱动。 Agent 单击“选择”,选择连接Agent中已创建的Agent。 单次请求行数 指定每次请求获取的行数。 1000 单次提交行数 支持通过agent从源端提取数据 1000 连接属性 自定义连接属性。 useCompressiontrue 引用符号 连接引用表名或列名时的分隔符号。默认为空。 ' 单次写入行数 指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。 100 3.单击“保存”回到连接管理界面。 说明 如果保存时出错,一般是由于MySQL数据库的安全设置问题,需要设置允许CDM集群的EIP访问MySQL数据库。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        MySQL数据迁移到OBS
      • 配置FTP/SFTP源端参数
        本章节主要介绍配置FTP/SFTP源端参数。 作业中源连接为配置FTP/SFTP连接时,源端作业参数如下表所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“l"分隔,也可以自定义文件分隔符。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 /ftp/a.csvl/ftp/b.txt 基本参数 文件格式 指CDM以哪种格式解析数据,可选择以下格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 CSV格式 基本参数 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 基本参数 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性 换行符 文件中的换行符,默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时,才有该参数。 n 高级属性 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 高级属性 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 高级属性 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 高级属性 正则表达式 分隔字段的正则表达式。 ^(d.d) (w ) [(.)] ([w.] ) (w.). 高级属性 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。 是 高级属性 编码类型 文件编码类型,例如:“UTF8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 UTF8 高级属性 压缩格式 当“文件格式”为“CSV格式”或“JSON格式”时该参数才显示。选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 高级属性 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则则保持原样传输。当输入或为空时,所有文件都会被解压。 高级属性 源文件处理方式 作业执行成功后对源端文件的处理方式: 不处理。 重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。 删除:作业执行成功后将源文件删除。 不处理 高级属性 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 是 高级属性 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 高级属性 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 高级属性 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为 。 高级属性 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。 无 高级属性 目录过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 input,out 高级属性 文件过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 .csv 高级属性 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 高级属性 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))}表示:只迁移最近90天内的文件。 20190701 00:00:00 高级属性 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示:只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性 加密方式 如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法: 无:不解密,直接导出。 AES256GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES256GCM(NoPadding)。该参数在目的端为加密,在源端为解密。 AES256GCM 高级属性 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 高级属性 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性 初始化向量 “加密方式”选择“AES256GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致。 .md5
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置FTP/SFTP源端参数
      • 下载集群日志
        本章节主要介绍下载集群日志。 操作场景 本章节指导用户获取集群的日志。集群的日志可用于查看作业运行记录,定位作业失败原因等。 前提条件 已创建CDM集群。 操作步骤 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 下载日志”,选择下载日志类型。下载日志类型详见下图 3.确认后,即可下载日志到本地。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        下载集群日志
      • 提交版本并解锁
        版本详情查看 用户可以在版本列表中看到已经提交过的版本信息。 操作如下: 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,双击作业名称,进入作业开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,找到需要查看详情的版本单击“查看”即可。 点击查看,将会打开一个新窗口,展示出该版本的作业定义。查看窗口仅用于展示某个版本的作业属性,不可修改任何作业属性。 详见下图:版本详情查看 版本对比 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,双击作业名称,进入作业开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,勾选需要对比的版本单击“版本对比”即可。 若只勾选一个版本,则比较选中的版本和开发态的作业属性Json。若勾选两个版本,则比较两个版本的作业属性Json。 详见下图:对比版本操作界面
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        提交版本并解锁
      • 重启集群
        本章节主要介绍重启集群。 操作场景 在进行某些配置修改(如关闭用户隔离等)后,需要重启集群才能生效。此时您需要进行集群重启操作。 前提条件 已创建CDM集群。 重启集群 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 重启”,进入重启集群确认界面。重启集群详见下图 3.您可以选择重启CDM服务进程或重启集群VM,选择完成并点击确认后即可完成集群重启操作。 重启CDM服务进程:只重启CDM服务的进程,不会重启集群虚拟机。 重启集群VM:业务进程会中断,并重启集群的虚拟机。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        重启集群
      • 新建作业
        本章节主要介绍作业开发的新建作业。 作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。开发作业前请先新建作业。 前提条件 作业在每工作空间的最大配额为10000,请确保当前作业的数量未达到最大配额。 新建目录(可选) 如果已存在可用的目录,可以不用新建目录。 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,右键单击目录名称,选择“新建目录”。 4. 在弹出的“新建目录”页面,配置如下表所示的参数。 作业目录参数 参数 说明 目录名称 作业目录的名称,只能包含英文字母、数字、中文字符、“”、“”,且长度为1~64个字符。 选择目录 选择该作业目录的父级目录,父级目录默认为根目录。 5. 单击“确定”,新建目录。 新建作业 默认作业的最大配额是10000,请确保当前作业的数量未达到最大配额。 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 新建作业的方式有如下两种: a.在“作业开发”界面中,单击“新建作业”。 详见下图:新建作业(方式一) b.在作业目录中,右键单击目录名称,选择“新建作业”。 详见下图:新建作业(方式二) 4. 在弹出的“新建作业”页面,配置如下表所示的参数。 作业参数 参数 说明 作业名称 自定义作业的名称,只能包含英文字母、数字、中文、“”、“”、“.”,且长度为1~128个字符。 作业类型 选择作业的类型。 批处理作业:按调度计划定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。批处理作业可以配置作业级别的调度任务,即以作业为一整体进行调度,具体请参见调度作业章节中的“配置作业调度任务(批处理作业)”。 实时处理作业:处理实时的连续数据,主要用于实时性要求高的场景。实时作业是由一个或多个节点组成的业务关系,每个节点可单独被配置调度策略,而且节点启动的任务可以永不下线。在实时作业里,带箭头的连线仅代表业务上的关系,而非任务执行流程,更不是数据流。实时处理作业可以配置节点级别的调度任务,即每一个节点可以独立调度,具体请参见调度作业章节中的 配置节点调度任务(实时作业)。 创建方式 选择作业的创建方式。 创建空作业:创建一个空的作业。 基于模板创建:使用数据开发模块提供的模板来创建。 选择目录 选择作业所属的目录,默认为根目录。 责任人 填写该作业的责任人。 作业优先级 选择作业的优先级,提供高、中、低三个等级。 委托配置 配置委托后,作业执行过程中,以委托的身份与其他服务交互。若该工作空间已配置过委托,参见配置委托章节中的“配置工作空间级委托”,则新建的作业默认使用该工作空间级委托。您也可参见配置委托章节中的“配置作业级委托”,修改为作业级委托。 说明 作业级委托优先于工作空间级委托。 日志路径 选择作业日志的OBS存储路径。日志默认存储在以dlflog{Projectid}命名的桶中。 说明 若您想自定义存储路径,请选择您已在OBS服务侧创建的桶。 请确保您已具备该参数所指定的OBS路径的读、写权限,否则系统将无法正常写日志或显示日志。 5. 单击“确定”,创建作业。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        新建作业
      • 批量解锁
        本章节主要介绍(可选)管理脚本的批量解锁。 数据开发模块提供了批量解锁脚本的功能,您可参照本节内容对锁定的脚本进行批量解锁。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 单击脚本目录中的,选择“显示复选框”。 详见下图:显示脚本复选框 4. 勾选需要解锁的脚本,单击 > 批量解锁。弹出“解锁成功”提示。 详见下图:批量解锁
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        批量解锁
      • 迁移脚本责任人
        本章节主要介绍(可选)管理脚本的 迁移脚本责任人。 数据开发模块提供了迁移脚本责任人的功能,您可以将责任人A的所有脚本一键迁移到责任人B名下。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录顶部,单击,选择“责任人配置”。 4. 分别设置“当前责任人”和“目标责任人”,单击“迁移”。 5. 提示迁移成功后,单击“关闭”。 相关操作 您还可以根据脚本责任人筛选脚本,在脚本目录上方的搜索框输入责任人,单击放大镜图标,如下图所示。 根据脚本责任人筛选脚本
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        迁移脚本责任人
      • 复制脚本
        本章节主要介(可选)管理脚本的复制脚本。 本章节主要介绍如何复制一个脚本。 前提条件 已完成脚本开发。如何开发脚本,请参见开发脚本。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要要复制的脚本,右键单击脚本名称,选择“拷贝另存为”。 4. 在弹出的“另存为”页面,配置如下表所示的参数。 脚本目录参数 参数 说明 脚本名称 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 说明 复制后的脚本名称不能和原脚本名称相同。 选择目录 选择该脚本目录的父级目录,父级目录默认为根目录。 5. 单击“确定”,复制脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        复制脚本
      • 移动脚本/脚本目录
        参数 说明 选择目录 选择脚本或脚本目录要移动到的目录,父级目录默认为根目录。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        移动脚本/脚本目录
      • 开发Python脚本
        本章节主要介绍开发脚本的开发Python脚本。 对Python脚本进行在线开发、调试和执行,开发完成的脚本也可以在作业中执行(请参见开发作业)。 前提条件 已新增Python脚本,请参见新建脚本。 已新建主机连接,该主机配有用于执行Python脚本的环境。新建主机连接请参见下表。 当前用户已锁定该脚本,否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定,详情参见下方编辑锁定功能。 约束限制 Python脚本暂不支持脚本参数及作业参数。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中,双击脚本名称,进入脚本开发页面。 4. 在编辑器上方,配置执行Python脚本的主机连接。 5. 在编辑器中编辑Python语句。为了方便脚本开发,数据开发模块提供了如下能力: − 脚本编辑器支持使用如下快捷键,以提升脚本开发效率。 Ctrl + /:注释或解除注释光标所在行或代码块 Ctrl + S:保存 Ctrl + Z:撤销 Ctrl + Y:重做 Ctrl + F:查找 Ctrl + Shift + R:替换 Ctrl + X:剪切,光标未选中时剪切一行 Alt + 鼠标拖动:列模式编辑,修改一整块内容 Ctrl + 鼠标点选:多列模式编辑,多行缩进 Shift + Ctrl + K:删除当前行 Ctrl + →或Ctrl + ←:向右或向左按单词移动光标 Ctrl + Home或Ctrl + End:移至当前文件的最前或最后 Home或End:移至当前行最前或最后 Ctrl + Shift + L:鼠标双击相同的字符串后,为所有相同的字符串添加光标,实现批量修改 − 支持设置脚本责任人 单击编辑器右侧的“脚本基本信息”,可设置脚本的责任人和描述信息。 6. 在编辑器上方,单击“运行”。Python语句运行完成后,在编辑器下方可以查看脚本的执行历史和执行结果。 说明 对于执行结果支持如下操作: 重命名:可通过双击执行结果页签的名称进行重命名,也可通过右键单击执行结果页签的名称,单击“重命名”。重命名不能超过16个字符。 可通过右键单击执行结果页签的名称关闭当前页签、关闭左侧页签、关闭右侧页签、关闭其它页签、关闭所有页签。 7. 在编辑器上方,单击,保存脚本。 如果脚本是新建且未保存过的,请配置如下表所示的参数。 保存脚本 参数 是否必选 说明 脚本名称 是 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 描述 否 脚本的描述信息。 选择目录 是 选择脚本所属的目录,默认为根目录。 说明 如果脚本未保存,重新打开脚本时,可以从本地缓存中恢复脚本内容。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        开发脚本
        开发Python脚本
      • 提交版本并解锁
        前提条件 已完成脚本开发任务。 提交版本并解锁 “提交”会将当前开发态的最新脚本保存并提交为版本,并覆盖之前的脚本版本。为了便于后续其他开发者对此脚本进行修改,建议您在“提交”后通过“解锁”解除该脚本锁定。 1.登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2.在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3.在脚本目录中,双击已开发完成的脚本名称,进入脚本开发页面。 4.在脚本编辑器上方单击“提交”,提交版本描述内容长度最多为128个字符,并勾选是否在下个调度周期使用新版本,不勾选则无法点击确认。 详见下图:提交 5.“提交”后在脚本编辑器上方单击“解锁”,解除锁定,便于后续其他开发者对此脚本进行修改更新。 详见下图:解锁 版本回滚 提交版本后,可以在版本列表中看到已经提交过的版本信息(当前最多保存最近10条版本信息)。点击“回滚”,可以回退到任意一个已提交的版本。 回滚内容包括: DLI:数据连接、数据库、资源队列、脚本内容。 DWS:数据连接、数据库、脚本内容。 HIVE:数据连接、数据库、资源队列、脚本内容。 SPARK:数据连接、数据库、脚本内容。 SHELL:主机连接、参数、交互式参数、脚本内容。 RDS:数据连接、数据库、脚本内容。 PRESTO:数据连接、模式、脚本内容。 PYTHON:主机连接、参数、交互式参数、脚本内容。 FLINK:脚本内容。 操作如下: 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中,双击脚本名称,进入脚本开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,找到需要回滚的版本单击“回滚”即可。 如果当前有开发态的编辑内容没有提交,将会被覆盖。回滚之后需要重新提交才能生效,调度默认使用最新提交的版本进行调度。 详见下图:版本回滚
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        提交版本并解锁
      • 复制名称与重命名脚本
        本章节主要介绍(可选)管理脚本的复制名称与重命名脚本。 您可以通过复制名称功能复制当前脚本名称,通过重命名功能修改当前脚本名称。 前提条件 已完成脚本开发。如何开发脚本,请参见开发脚本。 复制名称 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要复制名称的脚本,右键单击脚本名称,选择“复制名称”,即可复制名称到剪贴板。 重命名脚本 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要重命名的脚本,右键单击脚本名称,选择“重命名”。 说明 已经打开了的脚本文件不支持重命名。 4. 在弹出的“重命名脚本名称”页面,配置新脚本名称。 详见下图:重命名脚本名称 重命名脚本参数 参数 说明 脚本名称 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 5. 单击“确定”,重命名脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        复制名称与重命名脚本
      • (可选)新建数据库模式
        本章节主要介绍数据管理的(可选)新建数据库模式。 DWS数据连接创建完成后,用户可以在右侧区域中管理DWS数据连接的数据库模式。 前提条件 已新建DWS数据连接,请参见 新建数据连接。 已新建DWS数据库,请参见 新建数据库。 新建数据库模式 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 3. 在左侧菜单选择,单击DWS数据连接名称,选择需配置的数据库,展开目录层级至“schemas”,右键单击“schemas”,选择“新建模式”。 4. 在弹出的“新建模式”页面,配置如下表所示的参数。 新建模式 参数 是否必选 说明 模式名称 是 数据库模式的名称。 描述 否 数据库模式的描述信息。 5. 单击“确定”,新建数据库模式。 修改数据库模式 1. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 2. 在左侧菜单选择,单击数据连接名称,选择数据库,目录层级展开至需要修改的数据库模式,右键单击数据库模式名称,选择“修改”。 3. 在弹出的“修改模式”页面,修改数据库模式的描述信息。 4. 单击“确定”,保存修改。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        数据管理
        (可选)新建数据库模式
      • 查看表
        本章节主要介绍查看表操作。 对于关系模型中的表,您可以查看模型视图、表详情、关系图、预览SQL以及发布历史。 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 1.在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 2.在关系模型树中选择所需要模型,展开模型树,选择一个对象。 3.关系模型页面默认显示为列表视图,单击列表右上方的“模型视图”按钮,切换为模型视图,如下图所示。单击“列表视图”则可以重新切换回列表视图。 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。 查看表详情以及预览SQL 1.在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 2.在模型总览中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选中一个主题,右侧的列表中将显示该主题下所有的表。 3.在表的列表中,找到需要查看详情以及预览SQL的表,在表所在行,单击“更多 > 预览SQL”可以预览SQL或复制SQL。完成预览后单击“确定”返回关系模型的列表页面。 4.在表的列表中,单击表名称进入表详情页面,可以查看表的详情、关系图、发布历史和审核历史。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据架构
        通用操作
        查看表
      • 新建复合指标
        编辑复合指标 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 3. 根据实际需要修改配置参数。参数说明请参见上表。 4. 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 5. 如果试运行成功,单击“发布”,提交发布审核。 6. 在弹出框中单击“确认提交”,提交审核。 发布复合指标 当您新建或编辑复合指标后,需要发布复合指标,才能使其生效。如果复合指标处于待发布、已发布或待下线状态,则无法发布。 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,勾选需要发布的复合指标,单击“发布”按钮,弹出“批量发布”对话框。 3. 确认无误后,单击“确认提交”,提交审核。 查看发布历史 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,找到需要查看的复合指标,单击“更多 > 发布历史”,将显示“发布历史”页面。 3. 在“发布历史”中,您可以查看复合指标的发布历史和版本对比信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据架构
        指标设计
        技术指标
        新建复合指标
      • 正则表达式分隔半结构化文本
        列号 样值 1 20180111 08:50:59,001 2 INFO 3 org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251) 4 Adding jars to current classloader from property: org.apache.sqoop.classpath.extra
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        正则表达式分隔半结构化文本
      • 文件增量迁移
        本章节主要介绍文件增量迁移。 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 1.增量导出指定目录的文件 −适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量迁移方式,只追加写入文件,不会更新或删除已存在的记录。 −关键配置:文件/路径过滤器+定时执行作业。 −前提条件:源端目录或文件名带有时间字段。 2.增量导出指定时间以后的文件 −适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间晚于指定的时间,CDM才迁移该文件。 −关键配置:时间过滤+定时执行作业。 −前提条件:无。 文件/路径过滤器 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。 参数原理:“过滤类型”选择“通配符”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。 配置样例: 例如源端文件名带有时间字段“20171015 20:25:26”,这个时刻生成的文件为“/opt/data/file20171015202526.data”,则在创建作业时,参数配置如下: a.过滤类型:选择“通配符”。 b.文件过滤器:配置为“ ${dateformat(yyyyMMdd,1,DAY)} ” (这是CDM支持的日期宏变量格式,详见 时间宏变量使用解析)。 c.配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        增量迁移原理介绍
        文件增量迁移
      • 字段转换
        本章节主要介绍字段转换。 在创建表/文件迁移作业的字段映射界面,可新建字段转换器,如下图示。 图 新建字段转换器 说明 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 CDM可以在迁移过程中对字段进行转换,目前支持以下字段转换器: 脱敏 去前后空格 字符串反转 字符串替换 去换行 表达式转换 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“1238910”,则配置如下: “起始保留长度”为“3”。 “结尾保留长度”为“4”。 “替换字符”为“”。 详见下图:字段脱敏 去前后空格 自动去字符串前后的空值,不需要配置参数。 字符串反转 自动反转字符串,例如将“ABC”转换为“CBA”,不需要配置参数。 字符串替换 替换字符串,需要用户配置被替换的对象,以及替换后的值。 去换行 将字段中的换行符(n、r、rn)删除。 表达式转换 使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数,浮点数,字符串,常量true、false和null。 表达式支持以下两个环境变量: value:当前字段值。 row:当前行,数组类型。 表达式支持以下工具类: StringUtils:字符串处理类,参考Java SDK代码的包结构“org.apache.commons.lang.StringUtils”。 DateUtils:日期工具类。 CommonUtils:公共工具类。 NumberUtils:字符串转数值类。 HttpsUtils:读取网络文件类。 应用举例: 1. 如果当前字段为字符串类型,将字符串全部转换为小写,例如将“aBC”转换为“abc”。 表达式:StringUtils.lowerCase(value) 2. 将当前字段的字符串全部转为大写。 表达式:StringUtils.upperCase(value) 3. 如果当前字段值为“yyyyMMdd”格式的日期字符串,需要截取年,例如字段值为“20171201”,转换后为“2017”。 表达式:StringUtils.substringBefore(value,"") 4. 如果当前字段值为数值类型,转换后值为当前值的两倍。 表达式:value2 5. 如果当前字段值为“true”,转换后为“Y”,其它值则转换后为“N”。 表达式:value"true"?"Y":"N" 6. 如果当前字段值为字符串类型,当为空时,转换为“Default”,否则不转换。 表达式:empty value? "Default":value 7. 如果想将日期字段格式从“2018/01/05 15:15:05”转换为“20180105 15:15:05”。 表达式:DateUtils.format(DateUtils.parseDate(value,"yyyy/MM/dd HH:mm:ss"),"yyyyMMdd HH:mm:ss") 8. 获取一个36位的UUID(Universally Unique Identifier,通用唯一识别码)。 表达式:CommonUtils.randomUUID() 9. 如果当前字段值为字符串类型,将首字母转换为大写,例如将“cat”转换为“Cat”。 表达式:StringUtils.capitalize(value) 10. 如果当前字段值为字符串类型,将首字母转换为小写,例如将“Cat”转换为“cat”。 表达式:StringUtils.uncapitalize(value) 11. 如果当前字段值为字符串类型,使用空格填充为指定长度,并且将字符串居中,当字符串长度不小于指定长度时不转换,例如将“ab”转换为长度为4的“ab”。 表达式:StringUtils.center(value,4) 12. 删除字符串末尾的一个换行符(包括“n”、“r”或者“rn”),例如将“abcrnrn”转换为“abcrn”。 表达式:StringUtils.chomp(value) 13. 如果字符串中包含指定的字符串,则返回布尔值true,否则返回false。例如“abc”中包含“a”,则返回true。 表达式:StringUtils.contains(value,"a") 14. 如果字符串中包含指定字符串的任一字符,则返回布尔值true,否则返回false。例如“zzabyycdxx”中包含“z”或“a”任意一个,则返回true。 表达式:StringUtils.containsAny("value","za") 15. 如果字符串中不包含指定的所有字符,则返回布尔值true,包含任意一个字符则返回false。例如“abz”中包含“xyz”里的任意一个字符,则返回false。 表达式:StringUtils.containsNone(value,"xyz") 16. 如果当前字符串只包含指定字符串中的字符,则返回布尔值true,包含任意一个其它字符则返回false。例如“abab”只包含“abc”中的字符,则返回true。 表达式:StringUtils.containsOnly(value,"abc") 17. 如果字符串为空或null,则转换为指定的字符串,否则不转换。例如将空字符转换为null。 表达式:StringUtils.defaultIfEmpty(value,null) 18. 如果字符串以指定的后缀结尾(包括大小写),则返回布尔值true,否则返回false。例如“abcdef”后缀不为null,则返回false。 表达式:StringUtils.endsWith(value,null) 19. 如果字符串和指定的字符串完全一样(包括大小写),则返回布尔值true,否则返回false。例如比较字符串“abc”和“ABC”,则返回false。 表达式:StringUtils.equals(value,"ABC") 20. 从字符串中获取指定字符串的第一个索引,没有则返回整数1。例如从“aabaabaa”中获取“ab”的第一个索引1。 表达式:StringUtils.indexOf(value,"ab") 21. 从字符串中获取指定字符串的最后一个索引,没有则返回整数1。例如从“aFkyk”中获取“k”的最后一个索引4。 表达式:StringUtils.lastIndexOf(value,"k") 22. 从字符串中指定的位置往后查找,获取指定字符串的第一个索引,没有则转换为“1”。例如“aabaabaa”中索引3的后面,第一个“b”的索引是5。 表达式:StringUtils.indexOf(value,"b",3) 23. 从字符串获取指定字符串中任一字符的第一个索引,没有则返回整数1。例如从“zzabyycdxx”中获取“z”或“a”的第一个索引0。 表达式:StringUtils.indexOfAny(value,"za") 24. 如果字符串仅包含Unicode字符,返回布尔值true,否则返回false。例如“ab2c”中包含非Unicode字符,返回false。 表达式:StringUtils.isAlpha(value) 25. 如果字符串仅包含Unicode字符或数字,返回布尔值true,否则返回false。例如“ab2c”中仅包含Unicode字符和数字,返回true。 表达式:StringUtils.isAlphanumeric(value) 26. 如果字符串仅包含Unicode字符、数字或空格,返回布尔值true,否则返回false。例如“ab2c”中仅包含Unicode字符和数字,返回true。 表达式:StringUtils.isAlphanumericSpace(value) 27. 如果字符串仅包含Unicode字符或空格,返回布尔值true,否则返回false。例如“ab2c”中包含Unicode字符和数字,返回false。 表达式:StringUtils.isAlphaSpace(value) 28. 如果字符串仅包含ASCII可打印字符,返回布尔值true,否则返回false。例如“!abc~”返回true。 表达式:StringUtils.isAsciiPrintable(value) 29. 如果字符串为空或null,返回布尔值true,否则返回false。 表达式:StringUtils.isEmpty(value) 30. 如果字符串中仅包含Unicode数字,返回布尔值true,否则返回false。 表达式:StringUtils.isNumeric(value) 31. 获取字符串最左端的指定长度的字符,例如获取“abc”最左端的2位字符“ab”。 表达式:StringUtils.left(value,2) 32. 获取字符串最右端的指定长度的字符,例如获取“abc”最右端的2位字符“bc”。 表达式:StringUtils.right(value,2) 33. 将指定字符串拼接至当前字符串的左侧,需同时指定拼接后的字符串长度,如果当前字符串长度不小于指定长度,则不转换。例如将“yz”拼接到“bat”左侧,拼接后长度为8,则转换后为“yzyzybat”。 表达式:StringUtils.leftPad(value,8,"yz") 34. 将指定字符串拼接至当前字符串的右侧,需同时指定拼接后的字符串长度,如果当前字符串长度不小于指定长度,则不转换。例如将“yz”拼接到“bat”右侧,拼接后长度为8,则转换后为“batyzyzy”。 表达式:StringUtils.rightPad(value,8,"yz") 35. 如果当前字段为字符串类型,获取当前字符串的长度,如果该字符串为null,则返回0。 表达式:StringUtils.length(value) 36. 如果当前字段为字符串类型,删除其中所有的指定字符串,例如从“queued”中删除“ue”,转换后为“qd”。 表达式:StringUtils.remove(value,"ue") 37. 如果当前字段为字符串类型,移除当前字段末尾指定的子字符串。指定的子字符串若不在当前字段的末尾,则不转换,例如移除当前字段“www.ctyun.cn”后的“.cn”。 表达式:StringUtils.removeEnd(value,".cn") 38. 如果当前字段为字符串类型,移除当前字段开头指定的子字符串。指定的子字符串若不在当前字段的开头,则不转换,例如移除当前字段“www.ctyun.cn”前的“www.”。 表达式:StringUtils.removeStart(value,"www.") 39. 如果当前字段为字符串类型,替换当前字段中所有的指定字符串,例如将“aba”中的“a”用“z”替换,转换后为“zbz”。 表达式:StringUtils.replace(value,"a","z") 40. 如果当前字段为字符串类型,一次替换字符串中的多个字符,例如将字符串“hello”中的“h”用“j”替换,“o”用“y”替换,转换后为“jelly”。 表达式:StringUtils.replaceChars(value,"ho","jy") 41. 如果字符串以指定的前缀开头(区分大小写),则返回布尔值true,否则返回false,例如当前字符串“abcdef”以“abc”开头,则返回true。 表达式:StringUtils.startsWith(value,"abc") 42. 如果当前字段为字符串类型,去除字段中所有指定的字符,例如去除“abcyx”中所有的“x”、“y”和“z”,转换后为“abc”。 表达式:StringUtils.strip(value,"xyz") 43. 如果当前字段为字符串类型,去除字段末尾所有指定的字符,例如去除当前字段末尾的所有空格。 表达式:StringUtils.stripEnd(value,null) 44. 如果当前字段为字符串类型,去除字段开头所有指定的字符,例如去除当前字段开头的所有空格。 表达式:StringUtils.stripStart(value,null) 45. 如果当前字段为字符串类型,获取字符串指定位置后(不包括指定位置的字符)的子字符串,指定位置如果为负数,则从末尾往前计算位置。例如获取“abcde”第2个字符后的字符串,则转换后为“cde”。 表达式:StringUtils.substring(value,2) 46. 如果当前字段为字符串类型,获取字符串指定区间的子字符串,区间位置如果为负数,则从末尾往前计算位置。例如获取“abcde”第2个字符后、第5个字符前的字符串,则转换后为“cd”。 表达式:StringUtils.substring(value,2,5) 47. 如果当前字段为字符串类型,获取当前字段里第一个指定字符后的子字符串。例如获取“abcba”中第一个“b”之后的子字符串,转换后为“cba”。 表达式:StringUtils.substringAfter(value,"b") 48. 如果当前字段为字符串类型,获取当前字段里最后一个指定字符后的子字符串。例如获取“abcba”中最后一个“b”之后的子字符串,转换后为“a”。 表达式:StringUtils.substringAfterLast(value,"b") 49. 如果当前字段为字符串类型,获取当前字段里第一个指定字符前的子字符串。例如获取“abcba”中第一个“b”之前的子字符串,转换后为“a”。 表达式:StringUtils.substringBefore(value,"b") 50. 如果当前字段为字符串类型,获取当前字段里最后一个指定字符前的子字符串。例如获取“abcba”中最后一个“b”之前的子字符串,转换后为“abc”。 表达式:StringUtils.substringBeforeLast(value,"b") 51. 如果当前字段为字符串类型,获取嵌套在指定字符串之间的子字符串,没有匹配的则返回null。例如获取“tagabctag”中“tag”之间的子字符串,转换后为“abc”。 表达式:StringUtils.substringBetween(value,"tag") 52. 如果当前字段为字符串类型,删除当前字符串两端的控制字符(char≤32),例如删除字符串前后的空格。 表达式:StringUtils.trim(value) 53. 将当前字符串转换为字节,如果转换失败,则返回0。 表达式:NumberUtils.toByte(value) 54. 将当前字符串转换为字节,如果转换失败,则返回指定值,例如指定值配置为1。 表达式:NumberUtils.toByte(value,1) 55. 将当前字符串转换为Double数值,如果转换失败,则返回0.0d。 表达式:NumberUtils.toDouble(value) 56. 将当前字符串转换为Double数值,如果转换失败,则返回指定值,例如指定值配置为1.1d。 表达式:NumberUtils.toDouble(value,1.1d) 57. 将当前字符串转换为Float数值,如果转换失败,则返回0.0f。 表达式:NumberUtils.toFloat(value) 58. 将当前字符串转换为Float数值,如果转换失败,则返回指定值,例如配置指定值为1.1f。 表达式:NumberUtils.toFloat(value,1.1f) 59. 将当前字符串转换为Int数值,如果转换失败,则返回0。 表达式:NumberUtils.toInt(value) 60. 将当前字符串转换为Int数值,如果转换失败,则返回指定值,例如配置指定值为1。 表达式:NumberUtils.toInt(value,1) 61. 将字符串转换为Long数值,如果转换失败,则返回0。 表达式:NumberUtils.toLong(value) 62. 将当前字符串转换为Long数值,如果转换失败,则返回指定值,例如配置指定值为1L。 表达式:NumberUtils.toLong(value,1L) 63. 将字符串转换为Short数值,如果转换失败,则返回0。 表达式:NumberUtils.toShort(value) 64. 将当前字符串转换为Short数值,如果转换失败,则返回指定值,例如配置指定值为1。 表达式:NumberUtils.toShort(value,1) 65. 将当前IP字符串转换为Long数值,例如将“10.78.124.0”转换为LONG数值是“172915712”。 表达式:CommonUtils.ipToLong(value) 66. 从网络读取一个IP与物理地址映射文件,并存放到Map集合,这里的URL是IP与地址映射文件存放地址,例如“ 表达式:HttpsUtils.downloadMap("url") 67. 将IP与地址映射对象缓存起来并指定一个key值用于检索,例如“ipList”。 表达式:CommonUtils.setCache("ipList",HttpsUtils.downloadMap("url")) 68. 取出缓存的IP与地址映射对象。 表达式:CommonUtils.getCache("ipList") 69. 判断是否有IP与地址映射缓存。 表达式:CommonUtils.cacheExists("ipList") 70. 根据指定的偏移类型(month/day/hour/minute/second)及偏移量(正数表示增加,负数表示减少),将指定格式的时间转换为一个新时间,例如将“20190521 12:00:00”增加8个小时。 表达式:DateUtils.getCurrentTimeByZone("yyyyMMdd HH:mm:ss",value, "hour", 8)
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        字段转换
      • DDS数据迁移到DWS
        参数名 说明 取值样例 名称 输入便于记忆和区分的连接名称。 dwslink 数据库服务器 DWS数据库的IP地址或域名。 192.168.0.3 端口 DWS数据库的端口。 8000 数据库名称 DWS数据库的名称。 dbdemo 用户名 拥有DWS数据库的读、写和删除权限的用户。 dbadmin 密码 用户的密码。 使用Agent 是否选择通过Agent从源端提取数据。 是 Agent 单击“选择”,选择
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        DDS数据迁移到DWS
      • 时间宏变量使用解析
        时间变量宏定义具体展示 假设当前时间为“20171016 09:00:00”,时间变量宏定义具体如下表“时间变量宏定义具体展示”所示。 宏变量 含义 实际显示效果 ${dateformat(yyyyMMdd)} 以yyyyMMdd格式返回当前时间。 20171016 ${dateformat(yyyy/MM/dd)} 以yyyy/MM/dd格式返回当前时间。 2017/10/16 ${dateformat(yyyyMMdd HH:mm:ss)} 以yyyyMMdd HH:mm:ss格式返回当前时间。 20171016 09:00:00 ${dateformat(yyyyMMdd HH:mm:ss, 1, DAY)} 以yyyyMMdd HH:mm:ss格式返回时间,时间为当前时间的前一天。 20171015 09:00:00 ${timestamp()} 返回当前时间的时间戳,即1970年1月1日(00:00:00 GMT)到当前时间的毫秒数。 1508115600000 ${timestamp(10, MINUTE)} 返回当前时间点10分钟前的时间戳。 1508115000000 ${timestamp(dateformat(yyyyMMdd))} 返回今天0点的时间戳。 1508083200000 ${timestamp(dateformat(yyyyMMdd,1,DAY))} 返回昨天0点的时间戳。 1507996800000 ${timestamp(dateformat(yyyyMMddHH))} 返回当前整小时的时间戳。 1508115600000 路径和表名的时间宏变量 如下图“源表名和写入目录配置为时间宏变量所示”,如果将: 源端的“表名”配置为“CDM/${dateformat(yyyyMMdd)}”。 目的端的“写入目录”配置为“/opt/ttxx/${timestamp()}”。 经过宏定义转换,这个作业表示:将Oracle数据库的“SQOOP.CDM20171016”表中数据,迁移到HDFS的“/opt/ttxx/1508115701746”目录中。 图 目前也支持一个表名或路径名中有多个宏定义变量,例如“/opt/ttxx/ {dateformat(yyyyMMdd)}/ {timestamp()}”,经过转换后为“/opt/ttxx/20171016/1508115701746”。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        增量迁移原理介绍
        时间宏变量使用解析
      • 迁移文件时加解密
        本章节主要介绍迁移文件时加解密。 在迁移文件到文件系统时,CDM支持对文件加解密,目前支持以下加密方式: AES256GCM加密 KMS加密 AES256GCM加密 目前只支持AES256GCM(NoPadding)。该加密算法在目的端为加密,在源端为解密,支持的源端与目的端数据源如下。 源端支持的数据源:OBS、FTP、SFTP、HDFS(使用二进制格式传输时支持)、HTTP(适用于OBS共享文件的下载场景)。 目的端支持的数据源:OBS、FTP、SFTP、HDFS(使用二进制格式传输时支持)。 下面分别以OBS导出加密文件时解密、导入文件到OBS时加密为例,介绍AES256GCM加解密的使用方法。其它数据源的使用方法一样。 源端配置解密 创建从OBS导出文件的CDM作业时,源端数据源选择OBS后,在“源端作业配置”的“高级属性”中,配置如下参数。 a.加密方式:选择“AES256GCM”。 b.数据加密密钥:这里的密钥必须与加密时配置的密钥一致,否则解密出来的数据会错误,且系统不会提示异常。 c.初始化向量:这里的初始化向量必须与加密时配置的初始化向量一致,否则解密出来的数据会错误,且系统不会提示异常。 这样CDM从OBS导出加密过的文件时,写入目的端的文件便是解密后的明文文件。 目的端配置加密 创建CDM导入文件到OBS的作业时,目的端数据源选择OBS后,在“目的端作业配置”的“高级属性”中,配置如下参数。 a.加密方式:选择“AES256GCM”。 b.数据加密密钥:用户自定义密钥,密钥由长度64的十六进制数组成,不区分大小写但必须64位,例如“DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B”。 c.初始化向量:用户自定义初始化向量,初始化向量由长度32的十六进制数组成,不区分大小写但必须32位,例如“5C91687BA886EDCD12ACBC3FF19A3C3F”。 这样在CDM导入文件到OBS时,目的端OBS上的文件便是经过AES256GCM算法加密后的文件。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        迁移文件时加解密
      • OBS数据迁移到DLI服务
        创建OBS连接 1.单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面。 详见下图:选择连接器类型 2.连接器类型选择“对象存储服务(OBS)”后,单击“下一步”配置OBS连接参数。 名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。 3.单击“保存”回到连接管理界面。 创建迁移作业 1.选择“表/文件迁移 > 新建作业”,开始创建从OBS迁移数据到DLI的任务,如下图“创建OBS到DLI的迁移任务”所示。 作业名称:用户自定义作业名称。 源连接名称:选择创建OBS连接中的“obslink”。 −桶名:待迁移数据所属的桶。 −源目录或文件:待迁移数据的具体路径。 −文件格式:传输文件到数据表时,这里选择“CSV格式”或“JSON格式”。 −高级属性里的可选参数保持默认,详细说明请参见 配置OBS源端参数。 目的连接名称:选择创建DLI连接中的“dlilink”。 −资源队列:选择目的表所属的资源队列。 −数据库名称:写入数据的数据库名称。 −表名:写入数据的目的表。CDM暂不支持在DLI中自动创表,这里的表需要先在DLI中创建好,且该表的字段类型和格式,建议与待迁移数据的字段类型、格式保持一致。 −导入前清空数据:导入数据前,选择是否清空目的表中的数据,这里保持默认“否”。 2.单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容。 3.单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,请参见 配置定时任务。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 作业运行完是否删除:这里保持默认值“不删除”。 4.单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。 5.作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        OBS数据迁移到DLI服务
      • 关系数据库增量迁移
        本章节主要介绍关系数据库增量迁移。 CDM支持对关系型数据库进行增量迁移,全量迁移完成之后,可以增量迁移指定时间段内的数据(例如每天晚上0点导出前一天新增的数据)。 增量迁移指定时间段内的数据 −适用场景:源端为关系型数据库,目的端没有要求。 −关键配置:Where子句+定时执行作业。 −前提条件:数据表中有时间日期字段或时间戳字段。 关系数据库增量迁移方式,只对数据表追加写入,不会更新或删除已存在的记录。 Where子句 参数位置:在创建表/文件迁移作业时,如果源端为关系型数据库,那么在源端作业参数的高级属性下面可以看到“Where子句”参数。 参数原理:通过“Where子句”参数可以配置一个SQL语句(例如:age > 18 and age < 60),CDM只导出该SQL语句指定的数据;不配置时导出整表。 Where子句支持配置为时间宏变量使用解析,当数据表中有时间日期字段或时间戳字段时,配合定时执行作业,能够实现抽取指定日期的数据。 配置样例: 假设数据库表中存在表示时间的列DS,类型为“varchar(30)”,插入的时间格式类似于“2017xxxx”,如下图所示,参数配置如下: 图 表数据 a.Where子句:配置为 DS'${dateformat(yyyyMMdd,1,DAY)}' 。 b.配置定时任务:重复周期为1天,每天的凌晨0点自动执行作业。 这样就可以每天0点导出前一天产生的所有数据。Where子句支持配置多种 时间宏变量使用解析,结合CDM定时任务的重复周期:分钟、小时、天、周、月,可以实现自动导出任意指定日期内的数据。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        增量迁移原理介绍
        关系数据库增量迁移
      • MySQL数据迁移到MRS Hive分区表
        参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 mrslink Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 127.0.0.1 认证类型 访问MRS的认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 SIMPLE Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE3X 用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。 说明 如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Managerviewer的角色权限才能在CDM创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。 如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manageradministrator或Systemadministrator权限,才能在CDM创建连接。 仅具备Managertenant或Managerauditor权限,无法创建连接。 cdm 密码 访问MRS Manager的用户密码。 OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否 运行模式 “HIVE3X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。 说明 STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 EMBEDDED 检查Hive JDBC连通性 是否需要测试Hive JDBC连通性。 否 是否使用集群配置 用户可以在“连接管理”处创建集群配置,用于简化Hadoop连接参数配置。 否 属性配置 其他Hive客户端配置属性。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        MySQL数据迁移到MRS Hive分区表
      • 作业配置管理
        CDM集群规格 vCPUs/内存 抽取并发数参考配置 cdm.large 8核16GB 16 cdm.xlarge 16核32GB 32 cdm.4xlarge 64核128GB 128
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        作业配置管理
      • 配置DLI目的端参数
        本章节主要介绍配置DLI目的端参数。 作业中目的连接为配置DLI连接,即将数据导入到数据湖探索服务(DLI)时,目的端作业参数如下表所示。 说明 使用CDM服务迁移数据到DLI时,当前用户需要先开通OBS读取权限。 表 DLI作为目的端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。 dli 表名 写入数据的表名。 cardetail 导入前清空数据 选择导入前是否清空目的表的数据。 如果设置为是,任务启动前会清除目标表中数据。 否 清空数据方式 导入前清空数据,如果设置为true时,呈现此参数。 TRUNCATE:删除标准数据。 INSERTOVERWRITE:新增数据插入,同主键数据覆盖。 TRUNCATE 分区 “导入前清空数据”设置为“是”时,呈现此参数。 填写分区信息后,表示清空该分区的数据。 year2020,locationsun
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置DLI目的端参数
      • 支持云审计的关键操作
        本章节主要介绍支持云审计的关键操作。 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录云数据迁移相关的操作事件,便于日后的查询、审计和回溯。 表 云审计服务支持的CDM操作列表 操作名称 资源类型 事件名称 创建集群 cluster createCluster 删除集群 cluster deleteCluster 修改集群配置 cluster modifyCluster 开机 cluster startCluster 重启 cluster startStopCluster 导入作业 cluster clusterImportJob 绑定弹性IP cluster bindEip 解绑弹性IP cluster unbindEip 创建连接 link createLink 修改连接 link modifyLink 删除连接 link deleteLink 创建任务 job createJob 修改任务 job modifyJob 删除任务 job deleteJob 启动任务 job startJob 停止任务 job stopJob
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        审计
        支持云审计的关键操作
      • 1
      • ...
      • 167
      • 168
      • 169
      • 170
      • 171
      • ...
      • 174
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      云聚517 · 好价翼起拼

      爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      企业出海解决方案

      助力您的业务扬帆出海,通达全球!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      产品推荐

      物理机 DPS

      多活容灾服务 MDR

      GPU云主机

      弹性高性能计算 E-HPC

      AI Store

      公共算力服务

      Token服务

      一站式智算服务平台

      知识库问答

      推荐文档

      解决方案

      分析指标历史数据并导出监控报告

      迁移准备

      系统

      实例管理

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 息壤智算平台
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号