费用中心_费用中心文档介绍内容-天翼云

Job内嵌对象
{JSONUtil.path(Job.getRunningData("DLIINSERTDATA"),"jobIds[2]")}。 String getInsertJobId(String nodeName) 返回指定DLI SQL或Transform Load节点第一个DLI Insert SQL语句的作业ID，不指定参数nodeName时，获取前面一个节点第一个DLI Insert SQL语句的作业ID，如果无法获取到作业ID，返回null值。举例获取作业中节点名称为test的输出，EL表达式如下： {Job.getNodeOutput("test")}

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
EL表达式参考
Job内嵌对象
数据管理流程
本章节主要介绍数据管理的数据管理流程功能。数据管理功能可以协助用户快速建立数据模型，为后续的脚本和作业开发提供数据实体。通过数据管理，您可以：支持管理DWS、MRS Hive等多种数据湖。支持可视化和DDL方式管理数据库表。说明如果您在使用数据开发前，已参考数据管理的使用流程如下： 1. 创建数据连接，连接相关数据湖底座服务。具体请参见新建数据连接。 2. 基于相应服务，新建数据库。具体请参见新建数据库。 3. 如果是DWS连接，则需要新建数据库模式；否则直接新建数据表。具体请参见（可选）新建数据库模式。 4. 新建数据表。具体请参见新建数据表。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
数据管理
数据管理流程
Open/Close Resource
参数是否必选说明节点状态轮询时间（秒）是设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。失败策略是节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
Open/Close Resource
Python
本章节主要介绍如何通过Python节点执行Python语句。功能通过Python节点执行Python语句。使用Python节点前，需确认对应主机连接的主机配有用于执行Python脚本的环境。说明 Python节点暂不支持脚本参数和作业参数。参数用户可以参考下表配置Python节点的参数。属性参数参数是否必选说明 Python或脚本是可以选择Python语句或Python脚本。 Python语句单击“Python语句”参数下的文本框，在“Python语句”页面输入需要执行的Python语句。 Python脚本在“脚本路径”参数后选择需要执行的脚本。如果脚本未创建，请参考新建脚本和开发Python脚本先创建和开发脚本。说明若选择Python语句方式，数据开发模块将无法解析您输入Python语句中携带的参数。主机连接是选择执行Python语句的主机。需确认该主机配有用于执行Python脚本的环境。节点名称是节点名称，只能包含英文字母、数字、中文字符、中划线、下划线、/、<>和点号，且长度小于等于128个字符。高级参数参数是否必选说明节点状态轮询时间（秒）是设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。失败策略是节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
Python
MRS Spark Python
参数是否必选说明节点名称是节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。 MRS集群名是选择支持spark python的mrs集群。MRS只有特定版本支持spark python的集群，请先测试运行，保证集群支持。如需新建集群，请参考以下方法：单击，进入“集群列表”页面新建MRS集群。前往MRS管理控制台进行新建。如何新建集群，请参见《作业名称是 MRS作业名称，只能包含英文字母、数字、“”，且长度为1~64个字符。说明作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则，将导致提交MRS作业失败。参数是输入MRS的执行程序参数，多个参数间使用Enter键分隔。属性否输入keyvalue格式的参数，多个参数间使用Enter键分割。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
MRS Spark Python
MRS Flink Job
本章节主要介绍节点参考的MRS Flink Job。功能通过MRS Flink节点实现在MRS中执行预先定义的Flink作业。参数用户可参考下表配置MRS Flink节点的参数。属性参数参数是否必选说明节点名称是节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“ ”等各类特殊字符，长度为1～128个字符。 MRS集群名是选择MRS集群。如需新建集群，请参考以下方法：单击，进入“集群列表”页面新建MRS集群。前往MRS管理控制台进行新建。 Flink作业名称是 MRS作业名称，只能包含英文字母、数字、“”，且长度为1~64个字符。说明作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则，将导致提交MRS作业失败。 Flink作业资源包是选择Jar包。在选择Jar包之前，您需要先将Jar包上传至OBS桶中，并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中，具体操作请参考管理资源章节中的“新建资源”。 Flink作业执行参数否 Flink作业执行的程序关键参数，该参数由用户程序内的函数指定。多个参数间使用空格隔开。运行程序参数否为本次执行的作业配置相关优化参数（例如线程、内存、CPU核数等），用于优化资源使用效率，提升作业的执行性能。说明若集群为MRS 1.8.7版本或MRS 2.0.1之后版本，需要配置此参数。 MRS Flink作业的运行程序参数，请参见《MapReduce服务用户指南》的“管理集群>作业管理>运行Flink作业”章节。输入数据路径否选择输入数据所在的路径。输出数据路径否选择输出数据存储的路径。高级参数参数是否必选说明节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。失败策略是节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
MRS Flink Job
MRS Spark
参数是否必选说明节点名称是节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。 MRS集群名是选择MRS集群。如需新建集群，请参考以下方法：单击，进入“集群列表”页面新建MRS集群。前往MRS管理控制台进行新建。 Spark作业名称是 MRS作业名称，只能包含英文字母、数字、“”，且长度为1~64个字符。说明作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则，将导致提交MRS作业失败。 Jar包资源是选择Jar包。在选择Jar包之前，您需要先将Jar包上传至OBS桶中，并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中，具体操作请参考 Jar包参数否 Jar包的参数。运行程序参数否为本次执行的作业配置相关优化参数（例如线程、内存、CPU核数等），用于优化资源使用效率，提升作业的执行性能。说明若集群为MRS 1.8.7版本或MRS 2.0.1之后版本，需要配置此参数。MRS Spark作业的运行程序参数，请参见《输入数据路径否选择输入数据所在的路径。输出数据路径否选择输出数据存储的路径。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
MRS Spark
MRS Presto SQL
参数说明输入新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。确定单击“确认”，保存节点输入功能的参数配置。取消单击“取消”，取消节点输入功能的参数配置。编辑单击，修改节点输入功能的参数配置，修改完成后，请保存。删除单击，删除节点输入功能的参数配置。查看表详情单击，查看节点输入血缘关系创建数据表的详细信息。输出新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。确定单击“确认”，保存节点输出功能的参数配置。取消单击“取消”，取消节点输出功能的参数配置。编辑单击，修改节点输出功能的参数配置，修改完成后，请保存。删除单击，删除节点输出功能的参数配置。查看表详情单击，查看节点输出血缘关系创建数据表的详细信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
MRS Presto SQL
新建衍生指标
本章节主要介绍新建衍生指标。衍生指标是原子指标通过添加限定、维度卷积而成，限定、维度均来源于原子指标中的属性。发布衍生指标时，会自动生成一张汇总表，可在“汇总表自动汇聚”下查看。衍生指标原子指标+统计维度+时间限定+通用限定。原子指标：明确统计口径，即计算逻辑。统计维度：用于观察和分析业务数据的视角，支撑对数据进行汇聚、钻取、切片分析，用于SQL中的GROUP BY条件。时间限定：时间限定是时间条件限制的标准化定义。通用限定：统计的业务范围，筛选出符合业务规则的记录（类似于SQL中where后面的条件，不包括时间区间）。前提条件在新建衍生指标之前，请先确认原子指标已经新建并通过审核。如果衍生指标将使用统计维度或时间限定，请先确认维度或时间限定已经新建并通过审核。新建衍生指标并发布 1. 在DataArts Studio控制台首页，选择实例，点击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。 2. 在数据架构控制台，单击左侧导航树中的“技术指标”，选择“衍生指标”页签进入衍生指标页面。 3. 在左侧的主题目录中选中一个主题，然后单击“新建”按钮，开始新建衍生指标。 4. 在新建衍生指标页面，根据页面提示配置参数。下图为新建衍生指标参数说明参数名称说明数据表在下拉列表中选择即可。所属主题显示所属的主题信息。原子指标选择原子指标。统计维度在下拉列表中，选择一个或多个维度。此处只能选择原子指标所关联的事实表中的属性。时间限定在下拉框中选择所需要的时间限定，并选择关联的字段。系统预置了一些时间限定，如果不能满足需求，请参考新建时间限定进行创建。通用限定如需设置通用限定，可以单击“新建”按钮新建一个或多个通用限定。如图所示，在新建通用限定区域，通过以下配置新建一个通用限定。限定名称：指定通用限定的名称。添加条件(且)：单击该下拉框，选择“且条件”或者“或条件”可以添加相应的条件，然后在字段下拉框中选择一个字段，并根据页面提示设置条件。您可以添加多个条件。在某个条件后面单击删除按钮，可以将该条件删除。添加公式(且)：单击该下拉框，选择“且公式”或者“或公式”可以添加相应的公式，然后再单击“编辑公式”按钮，在弹出对话框中选择所需要的“函数”和“字段”，并设置“表达式”。在某个公式后面单击删除按钮，可以将该公式删除。告警配置由衍生指标和表达式组成，表达式由告警参数和逻辑运算符组成。在指标运行时，系统将计算出告警条件表达式的结果，并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警，结果为假则不触发质量告警。描述描述信息。支持的长度为0~600个字符。 5. 参数配置完成后，单击“预览”，可以查看该衍生指标的相关信息，并定义名称、编码、数据类型、告警条件和描述等信息。下表为预览衍生指标参数说明参数名称说明名称系统已根据原子指标、统计维度、时间限定等参数自动生成，您也可以自定义。编码系统已根据原子指标、统计维度、时间限定等参数编码自动生成，您也可以自定义。数据类型系统已根据原子指标的数据类型自动生成，您也可以自定义。告警条件告警条件表达式由告警参数和逻辑运算符组成。在指标运行时，系统将计算出告警条件表达式的结果，并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警，结果为假则不触发质量告警。描述描述信息。支持的长度为0~600个字符。 6. 在页面下方，单击“试运行”按钮，然后在弹出框中单击“试运行”按钮，测试所设置的衍生指标是否可以正常运行。如果试运行失败，请根据错误提示定位错误原因，将配置修改正确后，再单击“试运行”按钮进行重试。 7. 如果试运行成功，单击“发布”，提交发布审核。 8. 在弹出框中单击“确认提交”，提交审核。 9. （可选）参考步骤2~步骤8，完成其他衍生指标的发布。 10. 等待审核人员审核。审核通过后，衍生指标创建完成。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据架构
指标设计
技术指标
新建衍生指标
MRS Spark SQL
本章节主要介绍节点参考的MRS Spark SQL。功能通过MRS Spark SQL节点实现在MRS中执行预先定义的SparkSQL语句。参数用户可参考下表配置MRS Spark SQL节点的参数。属性参数参数是否必选说明 SQL脚本是选择需要执行的脚本。如果脚本未创建，请参考新建脚本和开发SQL脚本先创建和开发脚本。数据连接是默认选择SQL脚本中设置的数据连接，支持修改。数据库是默认选择SQL脚本中设置的数据库，支持修改。脚本参数否关联的SQL脚本如果使用了参数，此处显示参数名称，请在参数名称后的输入框配置参数值。参数值支持使用表达式概述。若关联的SQL脚本，脚本参数发生变化，可单击刷新按钮同步。运行程序参数否为本次执行的作业配置相关优化参数（例如线程、内存、CPU核数等），用于优化资源使用效率，提升作业的执行性能说明若集群为MRS 1.8.7版本或MRS 2.0.1之后版本，需要配置此参数。MRS SparkSQL作业的运行程序参数，请参见《MapReduce用户指南》中的“管理现有集群 > 作业管理 >运行SparkSql作业”。节点名称是默认显示为SQL脚本的名称，支持修改。节点名称只能由字母、数字、中划线和下划线组成，并且长度为1～64个字符。说明节点名称不得包含中文字符、超出长度限制等。如果节点名称不符合规则，将导致提交MRS作业失败。高级参数参数是否必选说明节点状态轮询时间（秒）是设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。失败策略是节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。血缘关系参数说明输入新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。确定单击“确认”，保存节点输入功能的参数配置。取消单击“取消”，取消节点输入功能的参数配置。编辑单击，修改节点输入功能的参数配置，修改完成后，请保存。删除单击，删除节点输入功能的参数配置。查看表详情单击，查看节点输入血缘关系创建数据表的详细信息。输出新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。确定单击“确认”，保存节点输出功能的参数配置。取消单击“取消”，取消节点输出功能的参数配置。编辑单击，修改节点输出功能的参数配置，修改完成后，请保存。删除单击，删除节点输出功能的参数配置。查看表详情单击，查看节点输出血缘关系创建数据表的详细信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
MRS Spark SQL
DLI SQL
参数是否必选说明 SQL或脚本是可以选择SQL语句或SQL脚本。 SQL语句单击“SQL语句”参数下的文本框，在“SQL语句”页面输入需要执行的SQL语句。 SQL脚本在“SQL脚本”参数后选择需要执行的脚本。如果脚本未创建，请参考新建脚本和开发SQL脚本先创建和开发脚本。说明若选择SQL语句方式，数据开发模块将无法解析您输入SQL语句中携带的参数。数据库名称是默认选择SQL脚本中设置的数据库，支持修改。 DLI环境变量否环境变量配置项需要以"dli.sql."或"spark.sql."开头。环境变量的key为dli.sql.shuffle.partitions或dli.sql.autoBroadcastJoinThreshold时，不能包含><符号。如果作业和脚本中同时配置了同名的参数，作业中配置的值会覆盖脚本中的值。队列名称是默认选择SQL脚本中设置的DLI队列，支持修改。如需新建资源队列，请参考以下方法：单击，进入DLI的“队列管理”页面新建资源队列。前往DLI管理控制台进行新建。脚本参数否关联的SQL脚本如果使用了参数，此处显示参数名称，请在参数名称后的输入框配置参数值。参数值支持使用刷新按钮同步。节点名称是默认显示为SQL脚本的名称，支持修改。规则如下：节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。是否记录脏数据是单击选择节点是否记录脏数据。是：记录脏数据否：不记录脏数据

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
DLI SQL
DLI Flink Job
参数是否必选说明作业类型是选择“Flink SQL作业”。用户采用编写SQL语句来启动作业。脚本路径是选择需要执行的Flink SQL脚本。如果脚本未创建，请参考 DLI队列是默认选择“共享队列”，用户也可以选择自定义的独享队列。说明当子用户在创建作业时，子用户只能选择已经被分配的队列。 CUs 是一个CU是1核4G的资源配置。并发数是并发数是指同时运行Flink SQL作业的任务数。说明并发数不能大于计算单元（CUs1）的4倍。 UDF Jar 否当作业所属集群选择独享集群时，该参数有效。在选择UDF Jar之前，您需要将UDF Jar包上传至OBS桶中，并在“资源管理”页面中新建资源，具体操作请参考异常自动启动否设置是否启动异常自动重启功能，当作业异常时将自动重启并恢复作业。作业名称是填写DLI Flink作业的名称，只能包含英文字母、数字、“”，且长度为1~64个字符。默认与节点的名称一致。作业名称添加工作空间前缀否设置是否为创建的作业名称添加工作空间前缀。节点名称是节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
DLI Flink Job
Import GES
参数是否必选说明节点名称是节点名称，可以包含中文、英文字母、数字、“”、“”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。图名称是可以直接选择需要导入的图，也支持手动输入图名称。如需新建GES图，请前往GES管理控制台进行新建。元数据是可以直接选择对应的元数据，也支持手动输入元数据的OBS路径。边数据集是可以直接选择对应的边数据集，也支持手动输入边数据集的OBS路径。点数据集否可以直接选择对应的点数据集，也支持手动输入点数据集的OBS路径。若不选择，则以边数据集中的点作为点数据集来源。边处理是边处理支持如下几种方式：允许重复边不允许重复，忽略之后的重复边不允许重复，覆盖之前的重复边离线导入否是否离线导入，取值为是或者f否，默认取否。是：表示离线导入，导入速度较快，但导入过程中图处于锁定状态，不可读不可写。否：表示在线导入，相对离线导入，在线导入速度略慢，但导入过程中图并未锁定，可读不可写。重复边忽略Label 否重复边的定义，是否忽略Label。取值为是或者否，默认取是。是：表示重复边定义不包含Label，即用<源点，终点>标记一条边，不包含Label。否：表示重复边定义包含Label，即用<源点，终点，Label>标记一条边。日志存储路径否用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
Import GES
CDM Job
参数是否必选说明节点状态轮询时间（秒）是设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。如果调度CDM迁移作业时使用了参数传递，不能在CDM迁移作业中配置“作业失败重试”参数，推荐在此处配置即可。失败策略是节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
节点参考
CDM Job
配置HDFS目的端参数
参数名说明取值样例写入目录写入数据到HDFS服务器的目录。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 /user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。 CSV格式重复文件处理方式只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务停止任务压缩格式写入文件后，选择对文件的压缩格式。支持以下压缩格式： NONE：不压缩。 DEFLATE：压缩为DEFLATE格式。 GZIP：压缩为GZIP格式。 BZIP2：压缩为BZIP2格式。 LZ4：压缩为LZ4格式。 SNAPPY：压缩为SNAPPY格式。 SNAPPY 换行符文件中的换行符，默认自动识别“n”、“r”或“rn”。“文件格式”为“二进制格式”时该参数值无效。 n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否写入到临时文件将二进制文件先写入到临时文件（临时文件以“.tmp”作为后缀），迁移成功后，再进行rename或move操作，在目的端恢复文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 自定义目录层次支持用户自定义文件的目录层次。例如：【表名】/【年】/【月】/【日】/【数据文件名】. csv 目录层次指定文件的目录层次，支持时间宏（时间格式为yyyy/MM/dd）。不填默认为不带层次目录。例如：${dateformat(yyyy/MM/dd, 1, DAY)} 加密方式 “文件格式”选择“二进制格式”时，该参数才显示。选择是否对写入的数据进行加密：无：不加密，直接写入数据。 AES256GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES256GCM（NoPadding）。该参数在目的端为加密，在源端为解密。 AES256GCM 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数，密钥由长度64的十六进制数组成。请您牢记这里配置的“数据加密密钥”，解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 “加密方式”选择“AES256GCM”时显示该参数，初始化向量由长度32的十六进制数组成。请您牢记这里配置的“初始化向量”，解密时的初始化向量与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业目的端参数
配置HDFS目的端参数
MD5校验文件一致性
本章节主要介绍MD5校验文件一致性。 CDM数据迁移以抽取写入模式进行，CDM首先从源端抽取数据，然后将数据写入到目的端。在迁移文件到OBS时，迁移模式如下图所示。图迁移文件到OBS 在这个过程中，CDM支持使用MD5检验文件一致性。抽取时 −该功能支持源端为OBS、HDFS、FTP、SFTP、HTTP。可校验CDM抽取的文件，是否与源文件一致。 −该功能由源端作业参数“MD5文件名后缀”控制（“文件格式”为“二进制格式”时生效），配置为源端文件系统中的MD5文件名后缀。 −当源端数据文件同一目录下有对应后缀的保存md5值的文件，例如build.sh和build.sh.md5在同一目录下。若配置了“MD5文件名后缀”，则只迁移有MD5值的文件至目的端，没有MD5值或者MD5不匹配的数据文件将迁移失败，MD5文件自身不被迁移。 −若未配置“MD5文件名后缀”，则迁移所有文件。写入时 −该功能目前只支持目的端为OBS。可校验写入OBS的文件，是否与CDM抽取的文件一致。 −该功能由目的端作业参数“校验MD5值”控制，读取文件后写入OBS时，通过HTTP Header将MD5值提供给OBS做写入校验，并将校验结果写入OBS桶（该桶可以不是存储迁移文件的桶）。如果源端没有MD5文件则不校验。说明迁移文件到文件系统时，目前只支持校验CDM抽取的文件是否与源文件一致（即只校验抽取的数据）。迁移文件到OBS时，支持抽取和写入文件时都校验。如果选择使用MD5校验，则无法

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
MD5校验文件一致性
指定文件名迁移
本章节主要介绍指定文件名迁移。从FTP/SFTP/OBS导出文件时，CDM支持指定文件名迁移，用户可以单次迁移多个指定的文件（最多50个），导出的多个文件只能写到目的端的同一个目录。在创建表/文件迁移作业时，如果源端数据源为FTP/SFTP/OBS，CDM源端的作业参数“源目录或文件”支持输入多个文件名（最多50个），文件名之间默认使用“”分隔，您也可以自定义文件分隔符，从而实现文件列表迁移。说明 1.迁移文件或对象时支持文件级增量迁移（通过配置跳过重复文件实现），但不支持断点续传。例如要迁移3个文件，第2个文件迁移到一半时由于网络原因失败，再次启动迁移任务时，会跳过第1个文件，从第2个文件开始重新传，但不能从第2个文件失败的位置重新传。 2.文件迁移时，单个任务支持千万数量的文件，如果待迁移目录下文件过多，建议拆分到不同目录并创建多个任务。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
进阶实践
指定文件名迁移
配置Elasticsearch或云搜索服务源端参数
参数名说明取值样例索引 Elasticsearch的索引，类似关系数据库中的数据库名称。索引名称只能全部小写，不能有大写。 index 类型 Elasticsearch的类型，类似关系数据库中的表名称。类型名称只能全部小写，不能有大写。 type 拆分nested类型字段可选参数，选择是否将nested字段的json内容拆分，例如：将“a:{ b:{ c:1, d:{ e:2, f:3 } } }”拆成三个字段“a.b.c”、“a.b.d.e”、“a.b.d.f”。否过滤条件可选参数，CDM只迁移满足过滤条件的数据。当前仅支持通过Elasticsearch的query string（即q语法）方式对源数据进行过滤。q语法使用方式介绍如下： − 精确匹配时，直接使用 column : data 格式进行匹配过滤。其中column表示字段名，data表示查询条件，例如“lastname:Smith”。另外，如果查询条件data为带空格的字符串，则需要用双引号包围。如果不指定column，则会对所有字段以data进行匹配。 − 多条查询条件时，可通过连接词组合多个查询条件，格式为column1 :data1 ANDcolumn2:data2。其中，中间的连接词必须用全大写，可以为“AND”、“OR”或“NOT”，且连接词前后要有空格。例如：“lastname:Smith AND lastname:John”。 − 范围匹配时，可以直接使用条件表达式的方式进行过滤，格式为 column :> data 。其中，操作符支持“>”、“>”、“<”或“<”。例如：“time:>1636905600000 AND time:1637078400000”。也可以配合时间宏变量使用，如“createTime:{timestamp(dateformat(yyyyMMdd,1,DAY))} AND createTime:<{timestamp(dateformat(yyyyMMdd))}”。 − 范围匹配时，也支持使用范围区间语法的方式进行过滤，格式为 column :{data1TOdata2} 。其中，{”、“}”代表不包含该值，“[”、“]”代表包含该值，TO必须大写且前后要有空格，代表所有。例如：“time:{1636992000000 TO ]”,表示过滤time字段中大于1636992000000的所有数据。也可以配合时间宏变量使用，如“createTime:[{timestamp(dateformat(yyyyMMdd,1,DAY))} TO{timestamp(dateformat(yyyyMMdd))}}”。暂不支持通过Elasticsearch的query DSL（即DSL语法，Domain Sepcified Language）查询方式对源数据进行过滤。 lastname:Smith 抽取元字段表示是否抽取索引的元字段，目前只支持（index、type、id、score）例如：index、type、id、score 是

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业源端参数
配置Elasticsearch或云搜索服务源端参数
配置默认项
本章节主要介绍如何配置默认项。使用场景当某参数被多个作业调用时，可将此参数提取出来作为默认配置项，无需每个作业都配置该参数。配置周期调度依赖的作业失败后，当前作业处理策略是根据配置的默认策略来执行，配置默认策略操作如下。 1.在数据开发主界面的左侧导航栏，选择“配置管理 > 配置”。 2.单击“默认项设置”，可设置周期调度配置项。说明策略支持如下三种，系统默认配置为“终止执行”。挂起：当被依赖的作业执行失败后，当前作业会挂起。继续执行：当被依赖的作业执行失败后，当前作业会继续执行。终止执行：当被依赖的作业执行失败后，当前作业会终止执行。 3.单击“保存”，对设置的配置项进行保存。配置多IF策略节点执行依赖多个IF条件的处理策略，配置默认策略操作如下。 1.在数据开发主界面的左侧导航栏，选择“配置管理 > 配置”。 2.单击“默认项设置”，可设置多IF策略配置项。说明策略支持如下两种，系统默认策略为“逻辑或”。逻辑或：表示多个IF判断条件只要任意一个满足条件则执行。逻辑与：表示多个IF判断条件需要所有条件满足时才执行。具体使用方法请参见IF条件判断教程章节中的“多IF条件下当前节点的执行策略”。 3.单击“保存”，对设置的配置项进行保存。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
配置管理
配置
配置默认项
配置HDFS源端参数
参数类型参数名说明取值样例基本参数源连接名称由用户下拉选择即可。 hdfstocdm 基本参数源目录或文件 “列表文件”选择为“否”时，才有该参数。待迁移数据的目录或单个文件路径。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 /user/cdm/ 基本参数文件格式传输数据时所用的文件格式，可选择以下文件格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 Parquet格式：以Parquet格式解析源文件，用于HDFS数据导到表的场景。 CSV格式基本参数列表文件当“文件格式”选择为“二进制格式”时，才有该参数。打开列表文件功能时，支持读取OBS桶中文件（如txt文件）的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径（不支持目录），文件内容示例如下： /mrs/jobproperties/application16348916046210014/job.properties /mrs/jobproperties/application16348916046210029/job.properties 是基本参数列表文件源连接当“列表文件”选择为“是”时，才有该参数。可选择列表文件所在的OBS连接。 OBStestlink 基本参数列表文件OBS桶当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶名。 01 基本参数列表文件或目录当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 /0521/Lists.txt 高级属性换行符文件中的换行符，默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时，才有该参数。 n 高级属性字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 高级属性首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的第一行数据作为标题行，不写入目的端的表。否高级属性源文件处理方式作业执行成功后对源端文件的处理方式：不处理。重命名：作业执行成功后将源文件重命名，添加用户名和时间戳的后缀。删除：作业执行成功后将源文件删除。不处理高级属性启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。 ok.txt 高级属性过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。高级属性路径过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。 input 高级属性文件过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录下的文件，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。 .csv 高级属性时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是高级属性起始时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间大于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))} 表示：只迁移最近90天内的文件。 20190701 00:00:00 高级属性终止时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示：只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性创建快照如果选择“是”，CDM读取HDFS系统上的文件时，会先对待迁移的源目录创建快照（不允许对单个文件创建快照），然后CDM迁移快照中的数据。需要HDFS系统的管理员权限才可以创建快照，CDM作业完成后，快照会被删除。否高级属性加密方式 “文件格式”选择“二进制格式”时，该参数才显示。如果源端数据是被加密过的，则CDM支持解密后再导出。这里选择是否对源端数据解密，以及选择解密算法：无：不解密，直接导出。 AES256GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES256GCM（NoPadding）。该参数在目的端为加密，在源端为解密。 AES256GCM 高级属性数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数，密钥由长度64的十六进制数组成，且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性初始化向量 “加密方式”选择“AES256GCM”时显示该参数，初始化向量由长度32的十六进制数组成，且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致。 .md5

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业源端参数
配置HDFS源端参数
补数据监控
本章节主要介绍运维调度的补数据监控。在数据开发模块控制台的左侧导航栏，选择“运维调度 > 补数据监控”，进入补数据的任务监控页面。用户可以在补数据监控主页，查看补数据的任务状态、业务日期、并行周期数、补数据作业名称，以及停止运行中的任务。在补数据监控主页，单击补数据名称，进入补数据监控详情页面。在此页面，用户可以查看补数据的任务执行情况，以及手动干预实例和节点的执行（如需了解更多，请参见批作业监控章节中的补数据）。说明支持计划时间，开始时间，结束时间的排序，注意三者之间，同一时间只有其中一个当前排序有效。排序按钮点击顺序为：点击1下为升序，点击2下为降序，点击3下取消排序。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
运维调度
补数据监控
管理作业标签
本章节主要介绍配置的管理作业标签。作业标签用于给相同或用途类似的作业打上标签，便于管理作业，并根据标签查询作业。参考本节操作，您可管理作业标签，执行新增、修改和查询操作。配置方法 1.登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2.在数据开发主界面的左侧导航栏，选择“配置管理 > 配置”。 3.选择“作业标签”，在“作业标签管理”页面，单击“新建”，配置作业名称，确认后完成新建。说明作业标签最多支持创建100个。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
配置管理
配置
管理作业标签
通知周期概览
本章节主要介绍通知管理的通知周期概览。操作场景用户可以按照天/周/月为调度周期配置通知任务，向相关人员发送通知。让相关人员可以定期跟踪作业的调度情况（作业调度成功数量，作业调度失败异常数量以及作业失败详情）。约束限制该功能依赖于OBS服务。前提条件已开通消息通知服务并配置主题，为主题添加订阅。已提交作业，且作业不是“未启动”状态已开通对象存储服务，并在OBS中创建文件夹。配置通知 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“运维调度 > 通知管理”。 3. 在页面右侧的“周期概览”页签，单击“通知配置”，弹出“通知配置”页面，配置如下表所示的参数。通知参数参数是否必选说明通知名称是设置发送的通知名称。调度周期是选择通知发送的调度周期，可以设置为按“天”、“周”或“月”发送。说明按天发送，通知记录为以发送时间往前推24小时时间段的数据；按周发送，通知记录为往前推七天时间段的数据；按月发送，通知记录为往前推30天时间段的数据选择时间是设置通知发送的具体日期。当调度周期为周时，可设置为一周中星期一至星期日的某一天或某几天。当调度周期为月时，可设置为一月中每月1号至每月31号的某一天或某几天。具体时间是设置通知发送的具体时间点，可以精确设置到小时和分钟。选择概览通知的主题是单击下拉选项，设置通知发送的主题。选择OBS桶是单击“OBS”设置通知记录数据存储的位置。开关是是否开启通知，默认开启。 4. 单击“确定”。 5. 通知配置完成后，您可以在通知的“操作”列进行如下操作。单击“编辑”，打开“通知配置”页面，可以重新编辑通知。编辑完成后选择“确定”，保存修改。单击“记录”，打开“查看记录”页面，可以查看作业的调度情况。单击“删除”，打开“删除通知”页面，选择“确定”，删除通知。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
运维调度
通知管理
通知周期概览
运行历史
本章节主要介绍数据开发的运行历史。运行历史功能可支持查看脚本、作业和节点的一周（7天）内用户的运行记录。前提条件运行历史功能依赖于OBS桶，若要使用该功能，必须先配置OBS桶。请参考配置OBS桶进行配置。脚本运行历史 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 脚本开发”。 3. 在左侧目录上方，单击运行历史图标，显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“脚本”，展示历史7天的脚本运行记录。 5. 单击某一条运行记录，可查看当时的脚本信息和运行结果。作业运行历史 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在左侧目录上方，单击运行历史图标，显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“作业”，展示历史7天的作业运行记录。 5. 单击某一条运行记录，可查看当时的作业信息和日志信息。说明如果该作业当时只有部分节点执行测试，则运行历史只展示参与测试运行的节点信息和日志信息。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
运行历史
配置常见关系数据库目的端参数
参数类型参数名说明取值样例基本参数模式或表空间待写入数据的数据库名称，支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 基本参数自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。先删除后创建：CDM先删除“表名”参数中指定的表，然后再重新创建该表。不自动创建基本参数表名写入数据的目标表名，单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 table 基本参数导入开始前导入数据前，选择是否清除目的表的数据：不清除：写入数据前不清除目标表中数据，数据追加写入。清除全部数据：写入数据前会清除目标表中数据。清除部分数据：需要配置“where条件”参数，CDM根据条件选择性删除目标表的数据。清除部分数据基本参数 where条件 “导入开始前”参数选择为“清除部分数据”时配置，配置后导入前根据where条件删除目的表的数据。 age > 18 and age < 60 基本参数约束冲突处理当迁移数据出现冲突时的处理方式。 insert into：当存在主键、唯一性索引冲突时，数据无法写入并将以脏数据的形式存在。 replace into：当存在主键、唯一性索引冲突时，会先删除原有行、再插入新行，替换原有行的所有字段。 on duplicate key update，当存在主键、唯一性索引冲突时，目的表中约束冲突的行除开唯一约束列的其他数据列将被更新。 insert into 基本参数 loader线程数每个loader内部启动的线程数，可以提升写入并发数。说明不支持“约束冲突处理”策略为“replace into”或“on duplicate key update”的并发场景。 1 高级参数先导入阶段表如果选择“是”，则启用事务模式迁移，CDM会自动创建临时表，先将数据导入到该临时表，导入成功后再通过数据库的事务模式将数据迁移到目标表中，导入失败则将目的表回滚到作业开始之前的状态。默认为“否”，CDM直接将数据导入到目的表。这种情况下如果作业执行失败，已经导入到目标表中的数据不会自动回滚。说明如果“导入开始前”选择“清除部分数据”或“清除全部数据”，CDM的事务模式不会回滚已经删除的数据。否高级参数扩大字符字段长度选择自动创表时，迁移过程中可将字符类型的字段长度扩大为原来的3倍，再写入到目的表中。如果源端数据库与目的端数据库字符编码不一样，但目的表字符类型字段与源表一样，在迁移数据时，可能会有出现长度不足的错误。说明当启动该功能时，也会导致部分字段消耗用户相应的3倍存储空间。否高级参数使用非空约束当选择自动创建目的表时，如果选择使用非空约束，则目的表字段的是否非空约束，与原表具有相应非空约束的字段保持一致。是高级参数导入前准备语句执行任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句。 create temp table 高级参数导入后完成语句执行任务之后执行的SQL语句，目前仅允许执行一条SQL语句。 merge into

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业目的端参数
配置常见关系数据库目的端参数
如何查看审计日志
本章节主要介绍如何查看审计日志。操作场景在您开启了云审计服务后，系统开始记录CDM的相关操作，云审计服务的管理控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。操作步骤 1.登录管理控制台。 2.单击“服务列表”，选择“管理与部署 > 云审计服务”，进入云审计服务信息页面。 3.单击左侧导航树的“事件列表”，进入事件列表信息页面。事件列表支持通过筛选来查询对应的操作事件。 4.在需要查看的事件左侧，单击事件名称左边的箭头，展开该记录的详细信息。 5.在需要查看的记录右侧，单击“查看事件”，弹窗中显示了该操作事件结构的详细信息。更多关于云审计的信息，请参见《云审计服务用户指南》。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
审计
如何查看审计日志
MySQL数据迁移到OBS
本章节主要介绍MySQL数据迁移到OBS。操作场景 CDM支持表到OBS的迁移，本章节以MySQL>OBS为例，介绍如何通过CDM将表数据迁移到OBS中。流程如下： 1.创建CDM集群并绑定EIP 2.创建MySQL连接 3.创建OBS连接 4创建迁移作业前提条件已获取OBS的访问域名、端口，以及AK、SK。已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码，且该用户拥有MySQL数据库的读写权限。用户已参考管理驱动，上传了MySQL数据库驱动。创建CDM集群并绑定EIP 1.参考创建CDM集群，创建CDM集群。关键配置如下： CDM集群的规格，按待迁移的数据量选择，一般选择cdm.medium即可，满足大部分迁移场景。 2.CDM集群创建完成后，选择集群操作列的“绑定弹性IP”，CDM通过EIP访问MySQL。说明如果用户对本地数据源的访问通道做了SSL加密，则CDM无法通过弹性IP连接数据源。创建MySQL连接 1.在CDM集群管理界面，单击集群后的“作业管理”，选择“连接管理 > 新建连接”，进入连接器类型的选择界面。 2.选择“MySQL”后单击“下一步”，配置MySQL连接的参数。单击“显示高级属性”可查看更多可选参数，具体请参见配置常见关系数据库连接。这里保持默认，必填参数如下表“MySQL连接参数”所示。参数名说明取值样例名称输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名拥有MySQL数据库的读、写和删除权限的用户。 admin 密码用户的密码。使用本地API 使用数据库本地API加速（系统会尝试启用MySQL数据库的localinfile系统变量）。是使用Agent 是否选择通过Agent从源端提取数据。是 localinfile字符集 mysql通过localinfile导入数据时，可配置编码格式。 utf8 驱动版本适配mysql的驱动。 Agent 单击“选择”，选择连接Agent中已创建的Agent。单次请求行数指定每次请求获取的行数。 1000 单次提交行数支持通过agent从源端提取数据 1000 连接属性自定义连接属性。 useCompressiontrue 引用符号连接引用表名或列名时的分隔符号。默认为空。 ' 单次写入行数指定单次批量写入的行数，当写入行数累计到单次批量提交行数时提交一次，该值应当小于单次提交行数。 100 3.单击“保存”回到连接管理界面。说明如果保存时出错，一般是由于MySQL数据库的安全设置问题，需要设置允许CDM集群的EIP访问MySQL数据库。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
使用教程
MySQL数据迁移到OBS
配置FTP/SFTP源端参数
本章节主要介绍配置FTP/SFTP源端参数。作业中源连接为配置FTP/SFTP连接时，源端作业参数如下表所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表 FTP/SFTP作为源端时的作业参数参数类型参数名说明取值样例基本参数源目录或文件待迁移数据的目录或单个文件路径。文件路径支持输入多个文件（最多50个），默认以“l"分隔，也可以自定义文件分隔符。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据。 /ftp/a.csvl/ftp/b.txt 基本参数文件格式指CDM以哪种格式解析数据，可选择以下格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式：以JSON格式解析源文件，一般都是用于迁移文件到数据表的场景。 CSV格式基本参数 JSON类型当“文件格式”选择为“JSON格式”时，才有该参数。JSON文件中存储的JSON对象的类型，可以选择“JSON对象”或“JSON数组”。 JSON对象基本参数记录节点当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时，才有该参数。对该JSON节点下的数据进行解析，如果该节点对应的数据为JSON数组，那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性换行符文件中的换行符，默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时，才有该参数。 n 高级属性字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 高级属性使用包围符选择“是”时，包围符内的字段分隔符会被视为字符串值的一部分，目前CDM默认的包围符为："。否高级属性使用正则表达式分隔字段选择是否使用正则表达式分隔字段，当选择“是”时，“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时，才有该参数。是高级属性正则表达式分隔字段的正则表达式。 ^(d.d) (w ) [(.)] ([w.] ) (w.). 高级属性首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的第一行数据作为标题行，不写入目的端的表。是高级属性编码类型文件编码类型，例如：“UTF8”或“GBK”。只有文本文件可以设置编码类型，当“文件格式”选择为“二进制格式”时，该参数值无效。 UTF8 高级属性压缩格式当“文件格式”为“CSV格式”或“JSON格式”时该参数才显示。选择对应压缩格式的源文件：无：表示传输所有格式的文件。 GZIP：表示只传输GZIP格式的文件。 ZIP：表示只传输ZIP格式的文件。 TAR.GZ：表示只传输TAR.GZ格式的文件。无高级属性压缩文件后缀压缩格式非无时，显示该参数。该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则则保持原样传输。当输入或为空时，所有文件都会被解压。高级属性源文件处理方式作业执行成功后对源端文件的处理方式：不处理。重命名：作业执行成功后将源文件重命名，添加用户名和时间戳的后缀。删除：作业执行成功后将源文件删除。不处理高级属性启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。是高级属性标识文件名选择开启作业标识文件的功能时，需要指定启动作业的标识文件名。指定文件后，只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 高级属性等待时间选择开启作业标识文件的功能时，如果源路径下不存在启动作业的标识文件，作业挂机等待的时长，当超时后任务会失败。等待时间设置为0时，当源端路径下不存在标识文件，任务会立即失败。单位：秒。 10 高级属性文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径，CDM使用这里配置的文件分隔符来区分各个文件，默认为。高级属性过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。无高级属性目录过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。 input,out 高级属性文件过滤器 “过滤类型”选择“通配符”时，用通配符过滤目录下的文件，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。 .csv 高级属性时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是高级属性起始时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间大于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))}表示：只迁移最近90天内的文件。 20190701 00:00:00 高级属性终止时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyyMMdd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示：只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性加密方式如果源端数据是被加密过的，则CDM支持解密后再导出。这里选择是否对源端数据解密，以及选择解密算法：无：不解密，直接导出。 AES256GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES256GCM（NoPadding）。该参数在目的端为加密，在源端为解密。 AES256GCM 高级属性忽略不存在原路径/文件如果将其设为是，那么作业在源路径不存在的情况下也能成功执行。否高级属性数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数，密钥由长度64的十六进制数组成，且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性初始化向量 “加密方式”选择“AES256GCM”时显示该参数，初始化向量由长度32的十六进制数组成，且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致。 .md5

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理作业
配置作业源端参数
配置FTP/SFTP源端参数
下载集群日志
本章节主要介绍下载集群日志。操作场景本章节指导用户获取集群的日志。集群的日志可用于查看作业运行记录，定位作业失败原因等。前提条件已创建CDM集群。操作步骤 1.登录CDM管理控制台。单击左侧导航上的“集群管理”，进入集群管理界面。集群列表详见下图说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 下载日志”，选择下载日志类型。下载日志类型详见下图 3.确认后，即可下载日志到本地。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理集群
下载集群日志
提交版本并解锁
版本详情查看用户可以在版本列表中看到已经提交过的版本信息。操作如下： 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，双击作业名称，进入作业开发页面。 4. 在页面右侧单击“版本”，查看版本提交记录，找到需要查看详情的版本单击“查看”即可。点击查看，将会打开一个新窗口，展示出该版本的作业定义。查看窗口仅用于展示某个版本的作业属性，不可修改任何作业属性。详见下图：版本详情查看版本对比 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，双击作业名称，进入作业开发页面。 4. 在页面右侧单击“版本”，查看版本提交记录，勾选需要对比的版本单击“版本对比”即可。若只勾选一个版本，则比较选中的版本和开发态的作业属性Json。若勾选两个版本，则比较两个版本的作业属性Json。详见下图：对比版本操作界面

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
作业开发
提交版本并解锁
重启集群
本章节主要介绍重启集群。操作场景在进行某些配置修改（如关闭用户隔离等）后，需要重启集群才能生效。此时您需要进行集群重启操作。前提条件已创建CDM集群。重启集群 1.登录CDM管理控制台。单击左侧导航上的“集群管理”，进入集群管理界面。集群列表详见下图说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 重启”，进入重启集群确认界面。重启集群详见下图 3.您可以选择重启CDM服务进程或重启集群VM，选择完成并点击确认后即可完成集群重启操作。重启CDM服务进程：只重启CDM服务的进程，不会重启集群虚拟机。重启集群VM：业务进程会中断，并重启集群的虚拟机。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据集成
管理集群
重启集群
新建作业
本章节主要介绍作业开发的新建作业。作业由一个或多个节点组成，共同执行以完成对数据的一系列操作。开发作业前请先新建作业。前提条件作业在每工作空间的最大配额为10000，请确保当前作业的数量未达到最大配额。新建目录（可选）如果已存在可用的目录，可以不用新建目录。 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 在作业目录中，右键单击目录名称，选择“新建目录”。 4. 在弹出的“新建目录”页面，配置如下表所示的参数。作业目录参数参数说明目录名称作业目录的名称，只能包含英文字母、数字、中文字符、“”、“”，且长度为1~64个字符。选择目录选择该作业目录的父级目录，父级目录默认为根目录。 5. 单击“确定”，新建目录。新建作业默认作业的最大配额是10000，请确保当前作业的数量未达到最大配额。 1. 登录DataArts Studio控制台。选择实例，点击“进入控制台”，选择对应工作空间的“数据开发”模块，进入数据开发页面。详见下图：选择数据开发 2. 在数据开发主界面的左侧导航栏，选择“数据开发 > 作业开发”。 3. 新建作业的方式有如下两种： a.在“作业开发”界面中，单击“新建作业”。详见下图：新建作业（方式一） b.在作业目录中，右键单击目录名称，选择“新建作业”。详见下图：新建作业（方式二） 4. 在弹出的“新建作业”页面，配置如下表所示的参数。作业参数参数说明作业名称自定义作业的名称，只能包含英文字母、数字、中文、“”、“”、“.”，且长度为1～128个字符。作业类型选择作业的类型。批处理作业：按调度计划定期处理批量数据，主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线，以流水线作为一个整体被调度。被调度触发后，任务执行一段时间必须结束，即任务不能无限时间持续运行。批处理作业可以配置作业级别的调度任务，即以作业为一整体进行调度，具体请参见调度作业章节中的“配置作业调度任务（批处理作业）”。实时处理作业：处理实时的连续数据，主要用于实时性要求高的场景。实时作业是由一个或多个节点组成的业务关系，每个节点可单独被配置调度策略，而且节点启动的任务可以永不下线。在实时作业里，带箭头的连线仅代表业务上的关系，而非任务执行流程，更不是数据流。实时处理作业可以配置节点级别的调度任务，即每一个节点可以独立调度，具体请参见调度作业章节中的配置节点调度任务（实时作业）。创建方式选择作业的创建方式。创建空作业：创建一个空的作业。基于模板创建：使用数据开发模块提供的模板来创建。选择目录选择作业所属的目录，默认为根目录。责任人填写该作业的责任人。作业优先级选择作业的优先级，提供高、中、低三个等级。委托配置配置委托后，作业执行过程中，以委托的身份与其他服务交互。若该工作空间已配置过委托，参见配置委托章节中的“配置工作空间级委托”，则新建的作业默认使用该工作空间级委托。您也可参见配置委托章节中的“配置作业级委托”，修改为作业级委托。说明作业级委托优先于工作空间级委托。日志路径选择作业日志的OBS存储路径。日志默认存储在以dlflog{Projectid}命名的桶中。说明若您想自定义存储路径，请选择您已在OBS服务侧创建的桶。请确保您已具备该参数所指定的OBS路径的读、写权限，否则系统将无法正常写日志或显示日志。 5. 单击“确定”，创建作业。

来自：
帮助文档
数据治理中心 DataArts Studio
用户指南
数据开发
作业开发
新建作业

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

GPU云主机

镜像服务 IMS

轻量型云主机

弹性伸缩服务 AS

弹性高性能计算 E-HPC

天翼云CTyunOS系统

训推服务

公共算力服务

Token服务

推荐文档

购买License

篡改告警

客户端下载

成员权限

创建只读实例

普通连接