费用中心_费用中心文档介绍内容-天翼云

通知周期概览
本章节主要介绍通知管理的通知周期概览。操作场景用户可以按照天/周/月为调度周期配置通知任务，向相关人员发送通知。让相关人员可以定期跟踪作业的调度情况（作业调度成功数量，作业调度失败异常数量以及作业失败详情）。约束限制该功能依赖于OBS服务。前提条件已开通消息通知服务并配置主题，为主题添加订阅。已提交作业，且作业不是“未启动”状态已开通对象存储服务，并在OBS中创建文件夹。配置通知 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“运维调度 > 通知管理”。 3. 在页面右侧的“周期概览”页签，单击“通知配置”，弹出“通知配置”页面，配置如下表所示的参数。通知参数参数是否必选说明通知名称是设置发送的通知名称。调度周期是选择通知发送的调度周期，可以设置为按“天”、“周”或“月”发送。说明按天发送，通知记录为以发送时间往前推24小时时间段的数据；按周发送，通知记录为往前推七天时间段的数据；按月发送，通知记录为往前推30天时间段的数据选择时间是设置通知发送的具体日期。当调度周期为周时，可设置为一周中星期一至星期日的某一天或某几天。当调度周期为月时，可设置为一月中每月1号至每月31号的某一天或某几天。具体时间是设置通知发送的具体时间点，可以精确设置到小时和分钟。选择概览通知的主题是单击下拉选项，设置通知发送的主题。选择OBS桶是单击“OBS”设置通知记录数据存储的位置。开关是是否开启通知，默认开启。 4. 单击“确定”。 5. 通知配置完成后，您可以在通知的“操作”列进行如下操作。单击“编辑”，打开“通知配置”页面，可以重新编辑通知。编辑完成后选择“确定”，保存修改。单击“记录”，打开“查看记录”页面，可以查看作业的调度情况。单击“删除”，打开“删除通知”页面，选择“确定”，删除通知。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
运维调度
通知管理
通知周期概览
运行历史
本章节主要介绍数据开发的运行历史。运行历史功能可支持查看脚本、作业和节点的一周（7天）内用户的运行记录。前提条件运行历史功能依赖于OBS桶，若要使用该功能，必须先配置OBS桶。请参考配置OBS桶进行配置。脚本运行历史 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在左侧目录上方，单击运行历史图标，显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“脚本”，展示历史7天的脚本运行记录。 5. 单击某一条运行记录，可查看当时的脚本信息和运行结果。作业运行历史 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在左侧目录上方，单击运行历史图标，显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“作业”，展示历史7天的作业运行记录。 5. 单击某一条运行记录，可查看当时的作业信息和日志信息。说明如果该作业当时只有部分节点执行测试，则运行历史只展示参与测试运行的节点信息和日志信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
运行历史
配置常见关系数据库目的端参数
参数类型参数名说明取值样例基本参数模式或表空间待写入数据的数据库名称，支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 基本参数自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。先删除后创建：CDM先删除“表名”参数中指定的表，然后再重新创建该表。不自动创建基本参数表名写入数据的目标表名，单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 table 基本参数导入开始前导入数据前，选择是否清除目的表的数据：不清除：写入数据前不清除目标表中数据，数据追加写入。清除全部数据：写入数据前会清除目标表中数据。清除部分数据：需要配置“where条件”参数，CDM根据条件选择性删除目标表的数据。清除部分数据基本参数 where条件 “导入开始前”参数选择为“清除部分数据”时配置，配置后导入前根据where条件删除目的表的数据。 age > 18 and age < 60 基本参数约束冲突处理当迁移数据出现冲突时的处理方式。 insert into：当存在主键、唯一性索引冲突时，数据无法写入并将以脏数据的形式存在。 replace into：当存在主键、唯一性索引冲突时，会先删除原有行、再插入新行，替换原有行的所有字段。 on duplicate key update，当存在主键、唯一性索引冲突时，目的表中约束冲突的行除开唯一约束列的其他数据列将被更新。 insert into 基本参数 loader线程数每个loader内部启动的线程数，可以提升写入并发数。说明不支持“约束冲突处理”策略为“replace into”或“on duplicate key update”的并发场景。 1 高级参数先导入阶段表如果选择“是”，则启用事务模式迁移，CDM会自动创建临时表，先将数据导入到该临时表，导入成功后再通过数据库的事务模式将数据迁移到目标表中，导入失败则将目的表回滚到作业开始之前的状态。默认为“否”，CDM直接将数据导入到目的表。这种情况下如果作业执行失败，已经导入到目标表中的数据不会自动回滚。说明如果“导入开始前”选择“清除部分数据”或“清除全部数据”，CDM的事务模式不会回滚已经删除的数据。否高级参数扩大字符字段长度选择自动创表时，迁移过程中可将字符类型的字段长度扩大为原来的3倍，再写入到目的表中。如果源端数据库与目的端数据库字符编码不一样，但目的表字符类型字段与源表一样，在迁移数据时，可能会有出现长度不足的错误。说明当启动该功能时，也会导致部分字段消耗用户相应的3倍存储空间。否高级参数使用非空约束当选择自动创建目的表时，如果选择使用非空约束，则目的表字段的是否非空约束，与原表具有相应非空约束的字段保持一致。是高级参数导入前准备语句执行任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句。 create temp table 高级参数导入后完成语句执行任务之后执行的SQL语句，目前仅允许执行一条SQL语句。 merge into

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业目的端参数
配置常见关系数据库目的端参数
如何查看审计日志
本章节主要介绍如何查看审计日志。操作场景在您开启了云审计服务后，系统开始记录CDM的相关操作，云审计服务的管理控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。操作步骤 1.登录管理控制台。 2.单击“服务列表”，选择“管理与部署 > 云审计服务”，进入云审计服务信息页面。 3.单击左侧导航树的“事件列表”，进入事件列表信息页面。事件列表支持通过筛选来查询对应的操作事件。 4.在需要查看的事件左侧，单击事件名称左边的箭头，展开该记录的详细信息。 5.在需要查看的记录右侧，单击“查看事件”，弹窗中显示了该操作事件结构的详细信息。更多关于云审计的信息，请参见《云审计服务用户指南》。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
审计
如何查看审计日志
MySQL数据迁移到OBS
本章节主要介绍MySQL数据迁移到OBS。操作场景 CDM支持表到OBS的迁移，本章节以MySQL>OBS为例，介绍如何通过CDM将表数据迁移到OBS中。流程如下： 1.创建CDM集群并绑定EIP 2.创建MySQL连接 3.创建OBS连接 4创建迁移作业前提条件已获取OBS的访问域名、端口，以及AK、SK。已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码，且该用户拥有MySQL数据库的读写权限。用户已参考管理驱动，上传了MySQL数据库驱动。创建CDM集群并绑定EIP 1.参考创建CDM集群，创建CDM集群。关键配置如下： CDM集群的规格，按待迁移的数据量选择，一般选择cdm.medium即可，满足大部分迁移场景。 2.CDM集群创建完成后，选择集群操作列的“绑定弹性IP”，CDM通过EIP访问MySQL。说明如果用户对本地数据源的访问通道做了SSL加密，则CDM无法通过弹性IP连接数据源。创建MySQL连接 1.在CDM集群管理界面，单击集群后的“作业管理”，选择“连接管理 > 新建连接”，进入连接器类型的选择界面。 2.选择“MySQL”后单击“下一步”，配置MySQL连接的参数。单击“显示高级属性”可查看更多可选参数，具体请参见配置常见关系数据库连接。这里保持默认，必填参数如下表“MySQL连接参数”所示。参数名说明取值样例名称输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名拥有MySQL数据库的读、写和删除权限的用户。 admin 密码用户的密码。使用本地API 使用数据库本地API加速（系统会尝试启用MySQL数据库的localinfile系统变量）。是使用Agent 是否选择通过Agent从源端提取数据。是 localinfile字符集 mysql通过localinfile导入数据时，可配置编码格式。 utf8 驱动版本适配mysql的驱动。 Agent 单击“选择”，选择连接Agent中已创建的Agent。单次请求行数指定每次请求获取的行数。 1000 单次提交行数支持通过agent从源端提取数据 1000 连接属性自定义连接属性。 useCompressiontrue 引用符号连接引用表名或列名时的分隔符号。默认为空。 ' 单次写入行数指定单次批量写入的行数，当写入行数累计到单次批量提交行数时提交一次，该值应当小于单次提交行数。 100 3.单击“保存”回到连接管理界面。说明如果保存时出错，一般是由于MySQL数据库的安全设置问题，需要设置允许CDM集群的EIP访问MySQL数据库。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
使用教程
MySQL数据迁移到OBS
配置FTP/SFTP源端参数
本章节主要介绍配置FTP/SFTP源端参数。作业中源连接为配置FTP/SFTP连接时，源端作业参数如下表所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表 FTP/SFTP作为源端时的作业参数参数类型参数名说明取值样例基本参数源目录或文件待迁移数据的目录或单个文件路径。文件路径支持输入多个文件（最多50个），默认以“l"分隔，也可以自定义文件分隔符。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 /ftp/a.csvl/ftp/b.txt 基本参数文件格式指CDM以哪种格式解析数据，可选择以下格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式：以JSON格式解析源文件，一般都是用于迁移文件到数据表的场景。 CSV格式基本参数 JSON类型当“文件格式”选择为“JSON格式”时，才有该参数。JSON文件中存储的JSON对象的类型，可以选择“JSON对象”或“JSON数组”。 JSON对象基本参数记录节点当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时，才有该参数。对该JSON节点下的数据进行解析，如果该节点对应的数据为JSON数组，那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性换行符文件中的换行符，默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时，才有该参数。 n 高级属性字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 高级属性使用包围符选择“是”时，包围符内的字段分隔符会被视为字符串值的一部分，目前CDM默认的包围符为："。否高级属性使用正则表达式分隔字段选择是否使用正则表达式分隔字段，当选择“是”时，“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时，才有该参数。是高级属性正则表达式分隔字段的正则表达式。 ^(d.d) (w ) [(.)] ([w.] ) (w.). 高级属性首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的第一行数据作为标题行，不写入目的端的表。是高级属性编码类型文件编码类型，例如：“UTF8”或“GBK”。只有文本文件可以设置编码类型，当“文件格式”选择为“二进制格式”时，该参数值无效。 UTF8 高级属性压缩格式当“文件格式”为“CSV格式”或“JSON格式”时该参数才显示。选择对应压缩格式的源文件：无：表示传输所有格式的文件。 GZIP：表示只传输GZIP格式的文件。 ZIP：表示只传输ZIP格式的文件。 TAR.GZ：表示只传输TAR.GZ格式的文件。无高级属性压缩文件后缀压缩格式非无时，显示该参数。该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则则保持原样传输。当输入或为空时，所有文件都会被解压。高级属性源文件处理方式作业执行成功后对源端文件的处理方式：不处理。重命名：作业执行成功后将源文件重命名，添加用户名和时间戳的后缀。删除：作业执行成功后将源文件删除。不处理高级属性启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。是高级属性标识文件名选择开启作业标识文件的功能时，需要指定启动作业的标识文件名。指定文件后，只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 高级属性等待时间选择开启作业标识文件的功能时，如果源路径下不存在启动作业的标识文件，作业挂机等待的时长，当超时后任务会失败。等待时间设置为0时，当源端路径下不存在标识文件，任务会立即失败。单位：秒。 10 高级属性文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径，CDM使用这里配置的文件分隔符来区分各个文件，默认为。高级属性过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。无高级属性目录过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。 input,out 高级属性文件过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录下的文件，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。 .csv 高级属性时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是高级属性起始时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间大于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))}表示：只迁移最近90天内的文件。 20190701 00:00:00 高级属性终止时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示：只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性加密方式如果源端数据是被加密过的，则CDM支持解密后再导出。这里选择是否对源端数据解密，以及选择解密算法：无：不解密，直接导出。 AES256GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES256GCM（NoPadding）。该参数在目的端为加密，在源端为解密。 AES256GCM 高级属性忽略不存在原路径/文件如果将其设为是，那么作业在源路径不存在的情况下也能成功执行。否高级属性数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数，密钥由长度64的十六进制数组成，且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性初始化向量 “加密方式”选择“AES256GCM”时显示该参数，初始化向量由长度32的十六进制数组成，且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致。 .md5

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业源端参数
配置FTP/SFTP源端参数
下载集群日志
本章节主要介绍下载集群日志。操作场景本章节指导用户获取集群的日志。集群的日志可用于查看作业运行记录，定位作业失败原因等。前提条件已创建CDM集群。操作步骤 1.登录CDM管理控制台。单击左侧导航上的“集群管理”，进入集群管理界面。集群列表详见下图说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 下载日志”，选择下载日志类型。下载日志类型详见下图 3.确认后，即可下载日志到本地。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理集群
下载集群日志
提交版本并解锁
版本详情查看用户可以在版本列表中看到已经提交过的版本信息。操作如下： 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，双击作业名称，进入作业开发页面。 4. 在页面右侧单击“版本”，查看版本提交记录，找到需要查看详情的版本单击“查看”即可。点击查看，将会打开一个新窗口，展示出该版本的作业定义。查看窗口仅用于展示某个版本的作业属性，不可修改任何作业属性。详见下图：版本详情查看版本对比 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，双击作业名称，进入作业开发页面。 4. 在页面右侧单击“版本”，查看版本提交记录，勾选需要对比的版本单击“版本对比”即可。若只勾选一个版本，则比较选中的版本和开发态的作业属性Json。若勾选两个版本，则比较两个版本的作业属性Json。详见下图：对比版本操作界面

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
作业开发
提交版本并解锁
重启集群
本章节主要介绍重启集群。操作场景在进行某些配置修改（如关闭用户隔离等）后，需要重启集群才能生效。此时您需要进行集群重启操作。前提条件已创建CDM集群。重启集群 1.登录CDM管理控制台。单击左侧导航上的“集群管理”，进入集群管理界面。集群列表详见下图说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 重启”，进入重启集群确认界面。重启集群详见下图 3.您可以选择重启CDM服务进程或重启集群VM，选择完成并点击确认后即可完成集群重启操作。重启CDM服务进程：只重启CDM服务的进程，不会重启集群虚拟机。重启集群VM：业务进程会中断，并重启集群的虚拟机。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理集群
重启集群
新建作业
本章节主要介绍作业开发的新建作业。作业由一个或多个节点组成，共同执行以完成对数据的一系列操作。开发作业前请先新建作业。前提条件作业在每工作空间的最大配额为10000，请确保当前作业的数量未达到最大配额。新建目录（可选）如果已存在可用的目录，可以不用新建目录。 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，右键单击目录名称，选择“新建目录”。 4. 在弹出的“新建目录”页面，配置如下表所示的参数。作业目录参数参数说明目录名称作业目录的名称，只能包含英文字母、数字、中文字符、“”、“”，且长度为1~64个字符。选择目录选择该作业目录的父级目录，父级目录默认为根目录。 5. 单击“确定”，新建目录。新建作业默认作业的最大配额是10000，请确保当前作业的数量未达到最大配额。 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 新建作业的方式有如下两种： a.在“作业开发”界面中，单击“新建作业”。详见下图：新建作业（方式一） b.在作业目录中，右键单击目录名称，选择“新建作业”。详见下图：新建作业（方式二） 4. 在弹出的“新建作业”页面，配置如下表所示的参数。作业参数参数说明作业名称自定义作业的名称，只能包含英文字母、数字、中文、“”、“”、“.”，且长度为1～128个字符。作业类型选择作业的类型。批处理作业：按调度计划定期处理批量数据，主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线，以流水线作为一个整体被调度。被调度触发后，任务执行一段时间必须结束，即任务不能无限时间持续运行。批处理作业可以配置作业级别的调度任务，即以作业为一整体进行调度，具体请参见调度作业章节中的“配置作业调度任务（批处理作业）”。实时处理作业：处理实时的连续数据，主要用于实时性要求高的场景。实时作业是由一个或多个节点组成的业务关系，每个节点可单独被配置调度策略，而且节点启动的任务可以永不下线。在实时作业里，带箭头的连线仅代表业务上的关系，而非任务执行流程，更不是数据流。实时处理作业可以配置节点级别的调度任务，即每一个节点可以独立调度，具体请参见调度作业章节中的配置节点调度任务（实时作业）。创建方式选择作业的创建方式。创建空作业：创建一个空的作业。基于模板创建：使用数据开发模块提供的模板来创建。选择目录选择作业所属的目录，默认为根目录。责任人填写该作业的责任人。作业优先级选择作业的优先级，提供高、中、低三个等级。委托配置配置委托后，作业执行过程中，以委托的身份与其他服务交互。若该工作空间已配置过委托，参见配置委托章节中的“配置工作空间级委托”，则新建的作业默认使用该工作空间级委托。您也可参见配置委托章节中的“配置作业级委托”，修改为作业级委托。说明作业级委托优先于工作空间级委托。日志路径选择作业日志的OBS存储路径。日志默认存储在以dlflog{Projectid}命名的桶中。说明若您想自定义存储路径，请选择您已在OBS服务侧创建的桶。请确保您已具备该参数所指定的OBS路径的读、写权限，否则系统将无法正常写日志或显示日志。 5. 单击“确定”，创建作业。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
作业开发
新建作业
批量解锁
本章节主要介绍（可选）管理脚本的批量解锁。数据开发模块提供了批量解锁脚本的功能，您可参照本节内容对锁定的脚本进行批量解锁。操作步骤 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 单击脚本目录中的，选择“显示复选框”。详见下图：显示脚本复选框 4. 勾选需要解锁的脚本，单击 > 批量解锁。弹出“解锁成功”提示。详见下图：批量解锁

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
（可选）管理脚本
批量解锁
迁移脚本责任人
本章节主要介绍（可选）管理脚本的迁移脚本责任人。数据开发模块提供了迁移脚本责任人的功能，您可以将责任人A的所有脚本一键迁移到责任人B名下。操作步骤 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录顶部，单击，选择“责任人配置”。 4. 分别设置“当前责任人”和“目标责任人”，单击“迁移”。 5. 提示迁移成功后，单击“关闭”。相关操作您还可以根据脚本责任人筛选脚本，在脚本目录上方的搜索框输入责任人，单击放大镜图标，如下图所示。根据脚本责任人筛选脚本

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
（可选）管理脚本
迁移脚本责任人
复制脚本
本章节主要介（可选）管理脚本的复制脚本。本章节主要介绍如何复制一个脚本。前提条件已完成脚本开发。如何开发脚本，请参见开发脚本。操作步骤 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要要复制的脚本，右键单击脚本名称，选择“拷贝另存为”。 4. 在弹出的“另存为”页面，配置如下表所示的参数。脚本目录参数参数说明脚本名称脚本的名称，只能包含字符：英文字母、数字、中文、中划线、下划线和点号，且长度小于等于128个字符。说明复制后的脚本名称不能和原脚本名称相同。选择目录选择该脚本目录的父级目录，父级目录默认为根目录。 5. 单击“确定”，复制脚本。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
（可选）管理脚本
复制脚本
移动脚本/脚本目录
参数说明选择目录选择脚本或脚本目录要移动到的目录，父级目录默认为根目录。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
（可选）管理脚本
移动脚本/脚本目录
开发Python脚本
本章节主要介绍开发脚本的开发Python脚本。对Python脚本进行在线开发、调试和执行，开发完成的脚本也可以在作业中执行（请参见开发作业）。前提条件已新增Python脚本，请参见新建脚本。已新建主机连接，该主机配有用于执行Python脚本的环境。新建主机连接请参见下表。当前用户已锁定该脚本，否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定，详情参见下方编辑锁定功能。约束限制 Python脚本暂不支持脚本参数及作业参数。操作步骤 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录中，双击脚本名称，进入脚本开发页面。 4. 在编辑器上方，配置执行Python脚本的主机连接。 5. 在编辑器中编辑Python语句。为了方便脚本开发，数据开发模块提供了如下能力： − 脚本编辑器支持使用如下快捷键，以提升脚本开发效率。 Ctrl + /：注释或解除注释光标所在行或代码块 Ctrl + S：保存 Ctrl + Z：撤销 Ctrl + Y：重做 Ctrl + F：查找 Ctrl + Shift + R：替换 Ctrl + X：剪切，光标未选中时剪切一行 Alt + 鼠标拖动：列模式编辑，修改一整块内容 Ctrl + 鼠标点选：多列模式编辑，多行缩进 Shift + Ctrl + K：删除当前行 Ctrl + →或Ctrl + ←：向右或向左按单词移动光标 Ctrl + Home或Ctrl + End：移至当前文件的最前或最后 Home或End：移至当前行最前或最后 Ctrl + Shift + L：鼠标双击相同的字符串后，为所有相同的字符串添加光标，实现批量修改 − 支持设置脚本责任人单击编辑器右侧的“脚本基本信息”，可设置脚本的责任人和描述信息。 6. 在编辑器上方，单击“运行”。Python语句运行完成后，在编辑器下方可以查看脚本的执行历史和执行结果。说明对于执行结果支持如下操作：重命名：可通过双击执行结果页签的名称进行重命名，也可通过右键单击执行结果页签的名称，单击“重命名”。重命名不能超过16个字符。可通过右键单击执行结果页签的名称关闭当前页签、关闭左侧页签、关闭右侧页签、关闭其它页签、关闭所有页签。 7. 在编辑器上方，单击，保存脚本。如果脚本是新建且未保存过的，请配置如下表所示的参数。保存脚本参数是否必选说明脚本名称是脚本的名称，只能包含字符：英文字母、数字、中文、中划线、下划线和点号，且长度小于等于128个字符。描述否脚本的描述信息。选择目录是选择脚本所属的目录，默认为根目录。说明如果脚本未保存，重新打开脚本时，可以从本地缓存中恢复脚本内容。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
开发脚本
开发Python脚本
提交版本并解锁
前提条件已完成脚本开发任务。提交版本并解锁 “提交”会将当前开发态的最新脚本保存并提交为版本，并覆盖之前的脚本版本。为了便于后续其他开发者对此脚本进行修改，建议您在“提交”后通过“解锁”解除该脚本锁定。 1.登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2.在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3.在脚本目录中，双击已开发完成的脚本名称，进入脚本开发页面。 4.在脚本编辑器上方单击“提交”，提交版本描述内容长度最多为128个字符，并勾选是否在下个调度周期使用新版本，不勾选则无法点击确认。详见下图：提交 5.“提交”后在脚本编辑器上方单击“解锁”，解除锁定，便于后续其他开发者对此脚本进行修改更新。详见下图：解锁版本回滚提交版本后，可以在版本列表中看到已经提交过的版本信息（当前最多保存最近10条版本信息）。点击“回滚”，可以回退到任意一个已提交的版本。回滚内容包括： DLI：数据连接、数据库、资源队列、脚本内容。 DWS：数据连接、数据库、脚本内容。 HIVE：数据连接、数据库、资源队列、脚本内容。 SPARK：数据连接、数据库、脚本内容。 SHELL：主机连接、参数、交互式参数、脚本内容。 RDS：数据连接、数据库、脚本内容。 PRESTO：数据连接、模式、脚本内容。 PYTHON：主机连接、参数、交互式参数、脚本内容。 FLINK：脚本内容。操作如下： 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录中，双击脚本名称，进入脚本开发页面。 4. 在页面右侧单击“版本”，查看版本提交记录，找到需要回滚的版本单击“回滚”即可。如果当前有开发态的编辑内容没有提交，将会被覆盖。回滚之后需要重新提交才能生效，调度默认使用最新提交的版本进行调度。详见下图：版本回滚

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
提交版本并解锁
复制名称与重命名脚本
本章节主要介绍（可选）管理脚本的复制名称与重命名脚本。您可以通过复制名称功能复制当前脚本名称，通过重命名功能修改当前脚本名称。前提条件已完成脚本开发。如何开发脚本，请参见开发脚本。复制名称 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要复制名称的脚本，右键单击脚本名称，选择“复制名称”，即可复制名称到剪贴板。重命名脚本 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要重命名的脚本，右键单击脚本名称，选择“重命名”。说明已经打开了的脚本文件不支持重命名。 4. 在弹出的“重命名脚本名称”页面，配置新脚本名称。详见下图：重命名脚本名称重命名脚本参数参数说明脚本名称脚本的名称，只能包含字符：英文字母、数字、中文、中划线、下划线和点号，且长度小于等于128个字符。 5. 单击“确定”，重命名脚本。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
脚本开发
（可选）管理脚本
复制名称与重命名脚本
（可选）新建数据库模式
本章节主要介绍数据管理的（可选）新建数据库模式。 DWS数据连接创建完成后，用户可以在右侧区域中管理DWS数据连接的数据库模式。前提条件已新建DWS数据连接，请参见新建数据连接。已新建DWS数据库，请参见新建数据库。新建数据库模式 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 3. 在左侧菜单选择，单击DWS数据连接名称，选择需配置的数据库，展开目录层级至“schemas”，右键单击“schemas”，选择“新建模式”。 4. 在弹出的“新建模式”页面，配置如下表所示的参数。新建模式参数是否必选说明模式名称是数据库模式的名称。描述否数据库模式的描述信息。 5. 单击“确定”，新建数据库模式。修改数据库模式 1. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 2. 在左侧菜单选择，单击数据连接名称，选择数据库，目录层级展开至需要修改的数据库模式，右键单击数据库模式名称，选择“修改”。 3. 在弹出的“修改模式”页面，修改数据库模式的描述信息。 4. 单击“确定”，保存修改。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
数据管理
（可选）新建数据库模式
查看表
本章节主要介绍查看表操作。对于关系模型中的表，您可以查看模型视图、表详情、关系图、预览SQL以及发布历史。查看模型视图当您在关系模型中完成表的新建后，就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图，您可以切换为模型视图进行查看。 1.在DataArts Studio数据架构控制台，单击左侧导航栏的“关系建模”进入关系建模页面。 2.在关系模型树中选择所需要模型，展开模型树，选择一个对象。 3.关系模型页面默认显示为列表视图，单击列表右上方的“模型视图”按钮，切换为模型视图，如下图所示。单击“列表视图”则可以重新切换回列表视图。在模型视图中支持以下功能：双击表名，可显示表的详情信息。单击左上角的“导出图片”按钮，可以将模型视图导出成图片。在右上角的搜索框中输入表名，可以快速找到的所要查看的表。功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。查看表详情以及预览SQL 1.在DataArts Studio数据架构控制台，单击左侧导航栏的“关系建模”进入关系建模页面。 2.在模型总览中，找到所需要的逻辑模型，单击模型卡片进入，在主题目录中选中一个主题，右侧的列表中将显示该主题下所有的表。 3.在表的列表中，找到需要查看详情以及预览SQL的表，在表所在行，单击“更多 > 预览SQL”可以预览SQL或复制SQL。完成预览后单击“确定”返回关系模型的列表页面。 4.在表的列表中，单击表名称进入表详情页面，可以查看表的详情、关系图、发布历史和审核历史。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据架构
通用操作
查看表
新建复合指标
编辑复合指标 1. 在数据架构控制台，单击左侧导航树的“技术指标”，然后选择“复合指标”页签，进入复合指标页面。 2. 在复合指标列表中，找到需要编辑的复合指标，单击“编辑”，进入“编辑复合指标”页面。 3. 根据实际需要修改配置参数。参数说明请参见上表。 4. 在页面下方，单击“试运行”按钮，然后在弹出框中单击“试运行”按钮，测试所设置的复合指标是否可以正常运行。如果试运行失败，请根据错误提示定位错误原因，将配置修改正确后，再单击“试运行”按钮进行重试。 5. 如果试运行成功，单击“发布”，提交发布审核。 6. 在弹出框中单击“确认提交”，提交审核。发布复合指标当您新建或编辑复合指标后，需要发布复合指标，才能使其生效。如果复合指标处于待发布、已发布或待下线状态，则无法发布。 1. 在数据架构控制台，单击左侧导航树的“技术指标”，然后选择“复合指标”页签，进入复合指标页面。 2. 在复合指标列表中，勾选需要发布的复合指标，单击“发布”按钮，弹出“批量发布”对话框。 3. 确认无误后，单击“确认提交”，提交审核。查看发布历史 1. 在数据架构控制台，单击左侧导航树的“技术指标”，然后选择“复合指标”页签，进入复合指标页面。 2. 在复合指标列表中，找到需要查看的复合指标，单击“更多 > 发布历史”，将显示“发布历史”页面。 3. 在“发布历史”中，您可以查看复合指标的发布历史和版本对比信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据架构
指标设计
技术指标
新建复合指标
正则表达式分隔半结构化文本
列号样值 1 20180111 08:50:59,001 2 INFO 3 org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251) 4 Adding jars to current classloader from property: org.apache.sqoop.classpath.extra

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
正则表达式分隔半结构化文本
文件增量迁移
本章节主要介绍文件增量迁移。 CDM支持对文件类数据源进行增量迁移，全量迁移完成之后，第二次运行作业时可以导出全部新增的文件，或者只导出特定的目录/文件。目前CDM支持以下文件增量迁移方式： 1.增量导出指定目录的文件 −适用场景：源端数据源为文件类型（OBS/HDFS/FTP/SFTP）。这种增量迁移方式，只追加写入文件，不会更新或删除已存在的记录。 −关键配置：文件/路径过滤器+定时执行作业。 −前提条件：源端目录或文件名带有时间字段。 2.增量导出指定时间以后的文件 −适用场景：源端数据源为文件类型（OBS/HDFS/FTP/SFTP）。这里的指定时间，是指文件的修改时间，当文件的修改时间晚于指定的时间，CDM才迁移该文件。 −关键配置：时间过滤+定时执行作业。 −前提条件：无。文件/路径过滤器参数位置：在创建表/文件迁移作业时，如果源端数据源为文件类型，那么源端作业参数的高级属性中可以看到“过滤类型”参数，该参数可选择：通配符或正则表达式。参数原理：“过滤类型”选择“通配符”时，CDM就可以通过用户配置的通配符过滤文件或路径，CDM只迁移满足指定条件的文件或路径。配置样例：例如源端文件名带有时间字段“20171015 20:25:26”，这个时刻生成的文件为“/opt/data/file20171015202526.data”，则在创建作业时，参数配置如下： a.过滤类型：选择“通配符”。 b.文件过滤器：配置为“ ${dateformat(yyyyMMdd,1,DAY)} ” （这是CDM支持的日期宏变量格式，详见时间宏变量使用解析）。 c.配置作业定时自动执行，“重复周期”为1天。这样每天就可以把昨天生成的文件都导入到目的端目录，实现增量同步。文件增量迁移场景下，“路径过滤器”的使用方法同“文件过滤器”一样，需要路径名称里带有时间字段，这样可以定期增量同步指定目录下的所有文件。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
增量迁移原理介绍
文件增量迁移
字段转换
本章节主要介绍字段转换。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图示。图新建字段转换器说明当使用二进制格式进行文件到文件的迁移时，没有字段映射这一步。 CDM可以在迁移过程中对字段进行转换，目前支持以下字段转换器：脱敏去前后空格字符串反转字符串替换去换行表达式转换脱敏隐藏字符串中的关键信息，例如要将“12345678910”转换为“1238910”，则配置如下： “起始保留长度”为“3”。 “结尾保留长度”为“4”。 “替换字符”为“”。详见下图：字段脱敏去前后空格自动去字符串前后的空值，不需要配置参数。字符串反转自动反转字符串，例如将“ABC”转换为“CBA”，不需要配置参数。字符串替换替换字符串，需要用户配置被替换的对象，以及替换后的值。去换行将字段中的换行符（n、r、rn）删除。表达式转换使用JSP表达式语言（Expression Language）对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数，浮点数，字符串，常量true、false和null。表达式支持以下两个环境变量： value：当前字段值。 row：当前行，数组类型。表达式支持以下工具类： StringUtils：字符串处理类，参考Java SDK代码的包结构“org.apache.commons.lang.StringUtils”。 DateUtils：日期工具类。 CommonUtils：公共工具类。 NumberUtils：字符串转数值类。 HttpsUtils：读取网络文件类。应用举例： 1. 如果当前字段为字符串类型，将字符串全部转换为小写，例如将“aBC”转换为“abc”。表达式：StringUtils.lowerCase(value) 2. 将当前字段的字符串全部转为大写。表达式：StringUtils.upperCase(value) 3. 如果当前字段值为“yyyyMMdd”格式的日期字符串，需要截取年，例如字段值为“20171201”，转换后为“2017”。表达式：StringUtils.substringBefore(value,"") 4. 如果当前字段值为数值类型，转换后值为当前值的两倍。表达式：value2 5. 如果当前字段值为“true”，转换后为“Y”，其它值则转换后为“N”。表达式：value"true"?"Y":"N" 6. 如果当前字段值为字符串类型，当为空时，转换为“Default”，否则不转换。表达式：empty value? "Default":value 7. 如果想将日期字段格式从“2018/01/05 15:15:05”转换为“20180105 15:15:05”。表达式：DateUtils.format(DateUtils.parseDate(value,"yyyy/MM/dd HH:mm:ss"),"yyyyMMdd HH:mm:ss") 8. 获取一个36位的UUID（Universally Unique Identifier，通用唯一识别码）。表达式：CommonUtils.randomUUID() 9. 如果当前字段值为字符串类型，将首字母转换为大写，例如将“cat”转换为“Cat”。表达式：StringUtils.capitalize(value) 10. 如果当前字段值为字符串类型，将首字母转换为小写，例如将“Cat”转换为“cat”。表达式：StringUtils.uncapitalize(value) 11. 如果当前字段值为字符串类型，使用空格填充为指定长度，并且将字符串居中，当字符串长度不小于指定长度时不转换，例如将“ab”转换为长度为4的“ab”。表达式：StringUtils.center(value,4) 12. 删除字符串末尾的一个换行符（包括“n”、“r”或者“rn”），例如将“abcrnrn”转换为“abcrn”。表达式：StringUtils.chomp(value) 13. 如果字符串中包含指定的字符串，则返回布尔值true，否则返回false。例如“abc”中包含“a”，则返回true。表达式：StringUtils.contains(value,"a") 14. 如果字符串中包含指定字符串的任一字符，则返回布尔值true，否则返回false。例如“zzabyycdxx”中包含“z”或“a”任意一个，则返回true。表达式：StringUtils.containsAny("value","za") 15. 如果字符串中不包含指定的所有字符，则返回布尔值true，包含任意一个字符则返回false。例如“abz”中包含“xyz”里的任意一个字符，则返回false。表达式：StringUtils.containsNone(value,"xyz") 16. 如果当前字符串只包含指定字符串中的字符，则返回布尔值true，包含任意一个其它字符则返回false。例如“abab”只包含“abc”中的字符，则返回true。表达式：StringUtils.containsOnly(value,"abc") 17. 如果字符串为空或null，则转换为指定的字符串，否则不转换。例如将空字符转换为null。表达式：StringUtils.defaultIfEmpty(value,null) 18. 如果字符串以指定的后缀结尾（包括大小写），则返回布尔值true，否则返回false。例如“abcdef”后缀不为null，则返回false。表达式：StringUtils.endsWith(value,null) 19. 如果字符串和指定的字符串完全一样（包括大小写），则返回布尔值true，否则返回false。例如比较字符串“abc”和“ABC”，则返回false。表达式：StringUtils.equals(value,"ABC") 20. 从字符串中获取指定字符串的第一个索引，没有则返回整数1。例如从“aabaabaa”中获取“ab”的第一个索引1。表达式：StringUtils.indexOf(value,"ab") 21. 从字符串中获取指定字符串的最后一个索引，没有则返回整数1。例如从“aFkyk”中获取“k”的最后一个索引4。表达式：StringUtils.lastIndexOf(value,"k") 22. 从字符串中指定的位置往后查找，获取指定字符串的第一个索引，没有则转换为“1”。例如“aabaabaa”中索引3的后面，第一个“b”的索引是5。表达式：StringUtils.indexOf(value,"b",3) 23. 从字符串获取指定字符串中任一字符的第一个索引，没有则返回整数1。例如从“zzabyycdxx”中获取“z”或“a”的第一个索引0。表达式：StringUtils.indexOfAny(value,"za") 24. 如果字符串仅包含Unicode字符，返回布尔值true，否则返回false。例如“ab2c”中包含非Unicode字符，返回false。表达式：StringUtils.isAlpha(value) 25. 如果字符串仅包含Unicode字符或数字，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumeric(value) 26. 如果字符串仅包含Unicode字符、数字或空格，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumericSpace(value) 27. 如果字符串仅包含Unicode字符或空格，返回布尔值true，否则返回false。例如“ab2c”中包含Unicode字符和数字，返回false。表达式：StringUtils.isAlphaSpace(value) 28. 如果字符串仅包含ASCII可打印字符，返回布尔值true，否则返回false。例如“!abc~”返回true。表达式：StringUtils.isAsciiPrintable(value) 29. 如果字符串为空或null，返回布尔值true，否则返回false。表达式：StringUtils.isEmpty(value) 30. 如果字符串中仅包含Unicode数字，返回布尔值true，否则返回false。表达式：StringUtils.isNumeric(value) 31. 获取字符串最左端的指定长度的字符，例如获取“abc”最左端的2位字符“ab”。表达式：StringUtils.left(value,2) 32. 获取字符串最右端的指定长度的字符，例如获取“abc”最右端的2位字符“bc”。表达式：StringUtils.right(value,2) 33. 将指定字符串拼接至当前字符串的左侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”左侧，拼接后长度为8，则转换后为“yzyzybat”。表达式：StringUtils.leftPad(value,8,"yz") 34. 将指定字符串拼接至当前字符串的右侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”右侧，拼接后长度为8，则转换后为“batyzyzy”。表达式：StringUtils.rightPad(value,8,"yz") 35. 如果当前字段为字符串类型，获取当前字符串的长度，如果该字符串为null，则返回0。表达式：StringUtils.length(value) 36. 如果当前字段为字符串类型，删除其中所有的指定字符串，例如从“queued”中删除“ue”，转换后为“qd”。表达式：StringUtils.remove(value,"ue") 37. 如果当前字段为字符串类型，移除当前字段末尾指定的子字符串。指定的子字符串若不在当前字段的末尾，则不转换，例如移除当前字段“www.ctyun.cn”后的“.cn”。表达式：StringUtils.removeEnd(value,".cn") 38. 如果当前字段为字符串类型，移除当前字段开头指定的子字符串。指定的子字符串若不在当前字段的开头，则不转换，例如移除当前字段“www.ctyun.cn”前的“www.”。表达式：StringUtils.removeStart(value,"www.") 39. 如果当前字段为字符串类型，替换当前字段中所有的指定字符串，例如将“aba”中的“a”用“z”替换，转换后为“zbz”。表达式：StringUtils.replace(value,"a","z") 40. 如果当前字段为字符串类型，一次替换字符串中的多个字符，例如将字符串“hello”中的“h”用“j”替换，“o”用“y”替换，转换后为“jelly”。表达式：StringUtils.replaceChars(value,"ho","jy") 41. 如果字符串以指定的前缀开头（区分大小写），则返回布尔值true，否则返回false，例如当前字符串“abcdef”以“abc”开头，则返回true。表达式：StringUtils.startsWith(value,"abc") 42. 如果当前字段为字符串类型，去除字段中所有指定的字符，例如去除“abcyx”中所有的“x”、“y”和“z”，转换后为“abc”。表达式：StringUtils.strip(value,"xyz") 43. 如果当前字段为字符串类型，去除字段末尾所有指定的字符，例如去除当前字段末尾的所有空格。表达式：StringUtils.stripEnd(value,null) 44. 如果当前字段为字符串类型，去除字段开头所有指定的字符，例如去除当前字段开头的所有空格。表达式：StringUtils.stripStart(value,null) 45. 如果当前字段为字符串类型，获取字符串指定位置后（不包括指定位置的字符）的子字符串，指定位置如果为负数，则从末尾往前计算位置。例如获取“abcde”第2个字符后的字符串，则转换后为“cde”。表达式：StringUtils.substring(value,2) 46. 如果当前字段为字符串类型，获取字符串指定区间的子字符串，区间位置如果为负数，则从末尾往前计算位置。例如获取“abcde”第2个字符后、第5个字符前的字符串，则转换后为“cd”。表达式：StringUtils.substring(value,2,5) 47. 如果当前字段为字符串类型，获取当前字段里第一个指定字符后的子字符串。例如获取“abcba”中第一个“b”之后的子字符串，转换后为“cba”。表达式：StringUtils.substringAfter(value,"b") 48. 如果当前字段为字符串类型，获取当前字段里最后一个指定字符后的子字符串。例如获取“abcba”中最后一个“b”之后的子字符串，转换后为“a”。表达式：StringUtils.substringAfterLast(value,"b") 49. 如果当前字段为字符串类型，获取当前字段里第一个指定字符前的子字符串。例如获取“abcba”中第一个“b”之前的子字符串，转换后为“a”。表达式：StringUtils.substringBefore(value,"b") 50. 如果当前字段为字符串类型，获取当前字段里最后一个指定字符前的子字符串。例如获取“abcba”中最后一个“b”之前的子字符串，转换后为“abc”。表达式：StringUtils.substringBeforeLast(value,"b") 51. 如果当前字段为字符串类型，获取嵌套在指定字符串之间的子字符串，没有匹配的则返回null。例如获取“tagabctag”中“tag”之间的子字符串，转换后为“abc”。表达式：StringUtils.substringBetween(value,"tag") 52. 如果当前字段为字符串类型，删除当前字符串两端的控制字符（char≤32），例如删除字符串前后的空格。表达式：StringUtils.trim(value) 53. 将当前字符串转换为字节，如果转换失败，则返回0。表达式：NumberUtils.toByte(value) 54. 将当前字符串转换为字节，如果转换失败，则返回指定值，例如指定值配置为1。表达式：NumberUtils.toByte(value,1) 55. 将当前字符串转换为Double数值，如果转换失败，则返回0.0d。表达式：NumberUtils.toDouble(value) 56. 将当前字符串转换为Double数值，如果转换失败，则返回指定值，例如指定值配置为1.1d。表达式：NumberUtils.toDouble(value,1.1d) 57. 将当前字符串转换为Float数值，如果转换失败，则返回0.0f。表达式：NumberUtils.toFloat(value) 58. 将当前字符串转换为Float数值，如果转换失败，则返回指定值，例如配置指定值为1.1f。表达式：NumberUtils.toFloat(value,1.1f) 59. 将当前字符串转换为Int数值，如果转换失败，则返回0。表达式：NumberUtils.toInt(value) 60. 将当前字符串转换为Int数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toInt(value,1) 61. 将字符串转换为Long数值，如果转换失败，则返回0。表达式：NumberUtils.toLong(value) 62. 将当前字符串转换为Long数值，如果转换失败，则返回指定值，例如配置指定值为1L。表达式：NumberUtils.toLong(value,1L) 63. 将字符串转换为Short数值，如果转换失败，则返回0。表达式：NumberUtils.toShort(value) 64. 将当前字符串转换为Short数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toShort(value,1) 65. 将当前IP字符串转换为Long数值，例如将“10.78.124.0”转换为LONG数值是“172915712”。表达式：CommonUtils.ipToLong(value) 66. 从网络读取一个IP与物理地址映射文件，并存放到Map集合，这里的URL是IP与地址映射文件存放地址，例如“ 表达式：HttpsUtils.downloadMap("url") 67. 将IP与地址映射对象缓存起来并指定一个key值用于检索，例如“ipList”。表达式：CommonUtils.setCache("ipList",HttpsUtils.downloadMap("url")) 68. 取出缓存的IP与地址映射对象。表达式：CommonUtils.getCache("ipList") 69. 判断是否有IP与地址映射缓存。表达式：CommonUtils.cacheExists("ipList") 70. 根据指定的偏移类型（month/day/hour/minute/second）及偏移量（正数表示增加，负数表示减少），将指定格式的时间转换为一个新时间，例如将“20190521 12:00:00”增加8个小时。表达式：DateUtils.getCurrentTimeByZone("yyyyMMdd HH:mm:ss",value, "hour", 8)

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
字段转换
DDS数据迁移到DWS
参数名说明取值样例名称输入便于记忆和区分的连接名称。 dwslink 数据库服务器 DWS数据库的IP地址或域名。 192.168.0.3 端口 DWS数据库的端口。 8000 数据库名称 DWS数据库的名称。 dbdemo 用户名拥有DWS数据库的读、写和删除权限的用户。 dbadmin 密码用户的密码。使用Agent 是否选择通过Agent从源端提取数据。是 Agent 单击“选择”，选择

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
使用教程
DDS数据迁移到DWS
时间宏变量使用解析
时间变量宏定义具体展示假设当前时间为“20171016 09:00:00”，时间变量宏定义具体如下表“时间变量宏定义具体展示”所示。宏变量含义实际显示效果 ${dateformat(yyyyMMdd)} 以yyyyMMdd格式返回当前时间。 20171016 ${dateformat(yyyy/MM/dd)} 以yyyy/MM/dd格式返回当前时间。 2017/10/16 ${dateformat(yyyyMMdd HH:mm:ss)} 以yyyyMMdd HH:mm:ss格式返回当前时间。 20171016 09:00:00 ${dateformat(yyyyMMdd HH:mm:ss, 1, DAY)} 以yyyyMMdd HH:mm:ss格式返回时间，时间为当前时间的前一天。 20171015 09:00:00 ${timestamp()} 返回当前时间的时间戳，即1970年1月1日（00:00:00 GMT）到当前时间的毫秒数。 1508115600000 ${timestamp(10, MINUTE)} 返回当前时间点10分钟前的时间戳。 1508115000000 ${timestamp(dateformat(yyyyMMdd))} 返回今天0点的时间戳。 1508083200000 ${timestamp(dateformat(yyyyMMdd,1,DAY))} 返回昨天0点的时间戳。 1507996800000 ${timestamp(dateformat(yyyyMMddHH))} 返回当前整小时的时间戳。 1508115600000 路径和表名的时间宏变量如下图“源表名和写入目录配置为时间宏变量所示”，如果将：源端的“表名”配置为“CDM/${dateformat(yyyyMMdd)}”。目的端的“写入目录”配置为“/opt/ttxx/${timestamp()}”。经过宏定义转换，这个作业表示：将Oracle数据库的“SQOOP.CDM20171016”表中数据，迁移到HDFS的“/opt/ttxx/1508115701746”目录中。图目前也支持一个表名或路径名中有多个宏定义变量，例如“/opt/ttxx/ {dateformat(yyyyMMdd)}/ {timestamp()}”，经过转换后为“/opt/ttxx/20171016/1508115701746”。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
增量迁移原理介绍
时间宏变量使用解析
迁移文件时加解密
本章节主要介绍迁移文件时加解密。在迁移文件到文件系统时，CDM支持对文件加解密，目前支持以下加密方式： AES256GCM加密 KMS加密 AES256GCM加密目前只支持AES256GCM（NoPadding）。该加密算法在目的端为加密，在源端为解密，支持的源端与目的端数据源如下。源端支持的数据源：OBS、FTP、SFTP、HDFS（使用二进制格式传输时支持）、HTTP（适用于OBS共享文件的下载场景）。目的端支持的数据源：OBS、FTP、SFTP、HDFS（使用二进制格式传输时支持）。下面分别以OBS导出加密文件时解密、导入文件到OBS时加密为例，介绍AES256GCM加解密的使用方法。其它数据源的使用方法一样。源端配置解密创建从OBS导出文件的CDM作业时，源端数据源选择OBS后，在“源端作业配置”的“高级属性”中，配置如下参数。 a.加密方式：选择“AES256GCM”。 b.数据加密密钥：这里的密钥必须与加密时配置的密钥一致，否则解密出来的数据会错误，且系统不会提示异常。 c.初始化向量：这里的初始化向量必须与加密时配置的初始化向量一致，否则解密出来的数据会错误，且系统不会提示异常。这样CDM从OBS导出加密过的文件时，写入目的端的文件便是解密后的明文文件。目的端配置加密创建CDM导入文件到OBS的作业时，目的端数据源选择OBS后，在“目的端作业配置”的“高级属性”中，配置如下参数。 a.加密方式：选择“AES256GCM”。 b.数据加密密钥：用户自定义密钥，密钥由长度64的十六进制数组成，不区分大小写但必须64位，例如“DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B”。 c.初始化向量：用户自定义初始化向量，初始化向量由长度32的十六进制数组成，不区分大小写但必须32位，例如“5C91687BA886EDCD12ACBC3FF19A3C3F”。这样在CDM导入文件到OBS时，目的端OBS上的文件便是经过AES256GCM算法加密后的文件。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
迁移文件时加解密
OBS数据迁移到DLI服务
创建OBS连接 1.单击CDM集群后的“作业管理”，进入作业管理界面，再选择“连接管理 > 新建连接”，进入选择连接器类型的界面。详见下图：选择连接器类型 2.连接器类型选择“对象存储服务（OBS）”后，单击“下一步”配置OBS连接参数。名称：用户自定义连接名称，例如“obslink”。 OBS服务器、端口：配置为OBS实际的地址信息。访问标识（AK）、密钥（SK）：登录OBS的AK、SK。 3.单击“保存”回到连接管理界面。创建迁移作业 1.选择“表/文件迁移 > 新建作业”，开始创建从OBS迁移数据到DLI的任务，如下图“创建OBS到DLI的迁移任务”所示。作业名称：用户自定义作业名称。源连接名称：选择创建OBS连接中的“obslink”。 −桶名：待迁移数据所属的桶。 −源目录或文件：待迁移数据的具体路径。 −文件格式：传输文件到数据表时，这里选择“CSV格式”或“JSON格式”。 −高级属性里的可选参数保持默认，详细说明请参见配置OBS源端参数。目的连接名称：选择创建DLI连接中的“dlilink”。 −资源队列：选择目的表所属的资源队列。 −数据库名称：写入数据的数据库名称。 −表名：写入数据的目的表。CDM暂不支持在DLI中自动创表，这里的表需要先在DLI中创建好，且该表的字段类型和格式，建议与待迁移数据的字段类型、格式保持一致。 −导入前清空数据：导入数据前，选择是否清空目的表中的数据，这里保持默认“否”。 2.单击“下一步”进入字段映射界面，CDM会自动匹配源和目的字段。如果字段映射顺序不匹配，可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容。 3.单击“下一步”配置任务参数，一般情况下全部保持默认即可。该步骤用户可以配置如下可选功能：作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。作业运行完是否删除：这里保持默认值“不删除”。 4.单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。 5.作业执行成功后，单击作业操作列的“历史记录”，可查看该作业的历史执行记录、读取和写入的统计数据。在历史记录界面单击“日志”，可查看作业的日志信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
使用教程
OBS数据迁移到DLI服务
关系数据库增量迁移
本章节主要介绍关系数据库增量迁移。 CDM支持对关系型数据库进行增量迁移，全量迁移完成之后，可以增量迁移指定时间段内的数据（例如每天晚上0点导出前一天新增的数据）。增量迁移指定时间段内的数据 −适用场景：源端为关系型数据库，目的端没有要求。 −关键配置：Where子句+定时执行作业。 −前提条件：数据表中有时间日期字段或时间戳字段。关系数据库增量迁移方式，只对数据表追加写入，不会更新或删除已存在的记录。 Where子句参数位置：在创建表/文件迁移作业时，如果源端为关系型数据库，那么在源端作业参数的高级属性下面可以看到“Where子句”参数。参数原理：通过“Where子句”参数可以配置一个SQL语句（例如：age > 18 and age < 60），CDM只导出该SQL语句指定的数据；不配置时导出整表。 Where子句支持配置为时间宏变量使用解析，当数据表中有时间日期字段或时间戳字段时，配合定时执行作业，能够实现抽取指定日期的数据。配置样例：假设数据库表中存在表示时间的列DS，类型为“varchar(30)”，插入的时间格式类似于“2017xxxx”，如下图所示，参数配置如下：图表数据 a.Where子句：配置为 DS'${dateformat(yyyyMMdd,1,DAY)}' 。 b.配置定时任务：重复周期为1天，每天的凌晨0点自动执行作业。这样就可以每天0点导出前一天产生的所有数据。Where子句支持配置多种时间宏变量使用解析，结合CDM定时任务的重复周期：分钟、小时、天、周、月，可以实现自动导出任意指定日期内的数据。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
增量迁移原理介绍
关系数据库增量迁移
MySQL数据迁移到MRS Hive分区表
参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mrslink Manager IP MRS Manager的浮动IP地址，可以单击输入框后的“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。 127.0.0.1 认证类型访问MRS的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 SIMPLE Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE3X 用户名选择KERBEROS鉴权时，需要配置MRS Manager的用户名和密码。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Managerviewer的角色权限才能在CDM创建连接；如果需要对应组件的进行库、表、数据的操作，还需要添加对应组件的用户组权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manageradministrator或Systemadministrator权限，才能在CDM创建连接。仅具备Managertenant或Managerauditor权限，无法创建连接。 cdm 密码访问MRS Manager的用户密码。 OBS支持需服务端支持OBS存储。在创建Hive表时，您可以指定将表存储在OBS中。否运行模式 “HIVE3X”版本支持该参数。支持以下模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式或者配置不同的Agent。说明 STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 EMBEDDED 检查Hive JDBC连通性是否需要测试Hive JDBC连通性。否是否使用集群配置用户可以在“连接管理”处创建集群配置，用于简化Hadoop连接参数配置。否属性配置其他Hive客户端配置属性。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
使用教程
MySQL数据迁移到MRS Hive分区表
作业配置管理
CDM集群规格 vCPUs/内存抽取并发数参考配置 cdm.large 8核16GB 16 cdm.xlarge 16核32GB 32 cdm.4xlarge 64核128GB 128

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
作业配置管理
配置DLI目的端参数
本章节主要介绍配置DLI目的端参数。作业中目的连接为配置DLI连接，即将数据导入到数据湖探索服务（DLI）时，目的端作业参数如下表所示。说明使用CDM服务迁移数据到DLI时，当前用户需要先开通OBS读取权限。表 DLI作为目的端时的作业参数参数名说明取值样例资源队列选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用，您需要在DLI中新建SQL队列。 cdm 数据库名称写入数据的数据库名称。 dli 表名写入数据的表名。 cardetail 导入前清空数据选择导入前是否清空目的表的数据。如果设置为是，任务启动前会清除目标表中数据。否清空数据方式导入前清空数据，如果设置为true时，呈现此参数。 TRUNCATE：删除标准数据。 INSERTOVERWRITE：新增数据插入，同主键数据覆盖。 TRUNCATE 分区 “导入前清空数据”设置为“是”时，呈现此参数。填写分区信息后，表示清空该分区的数据。 year2020,locationsun

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业目的端参数
配置DLI目的端参数
支持云审计的关键操作
本章节主要介绍支持云审计的关键操作。云审计服务（Cloud Trace Service，简称CTS）为用户提供了云账户下资源的操作记录，可以帮您记录云数据迁移相关的操作事件，便于日后的查询、审计和回溯。表云审计服务支持的CDM操作列表操作名称资源类型事件名称创建集群 cluster createCluster 删除集群 cluster deleteCluster 修改集群配置 cluster modifyCluster 开机 cluster startCluster 重启 cluster startStopCluster 导入作业 cluster clusterImportJob 绑定弹性IP cluster bindEip 解绑弹性IP cluster unbindEip 创建连接 link createLink 修改连接 link modifyLink 删除连接 link deleteLink 创建任务 job createJob 修改任务 job modifyJob 删除任务 job deleteJob 启动任务 job startJob 停止任务 job stopJob

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
审计
支持云审计的关键操作

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

物理机 DPS

多活容灾服务 MDR

GPU云主机

弹性高性能计算 E-HPC

AI Store

公共算力服务

Token服务

一站式智算服务平台

知识库问答

推荐文档

解决方案

分析指标历史数据并导出监控报告

迁移准备

系统

实例管理