活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      费用中心_相关内容
      • 数据质量监控概述
        功能 说明 总览 默认首页是总览页面,显示了数据表的报警和阻塞情况。 主要包括以下几部分内容: 所选周期内的作业数、实例数、异常表数,以及各种实例运行状态的分布和变化趋势情况。 当天告警分类统计、当天数据表告警统计、最近7天规则告警分类趋势的统计和最近7天规则数量的趋势。 规则模板 质量规则模板是数据质量的核心功能,是配置规则的主要入口。它主要管理规则配置(内置模板和自定义模板)的相关功能。 质量作业 质量作业可将规则模板或自定义规则应用到表中,进行数据质量监控。 对账作业 对账作业可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 运维管理 运维管理用于查看规则运行状态,处理运维问题。 质量报告 系统根据作业的结果,会自动生成质量报告。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据质量
        数据质量监控
        数据质量监控概述
      • 新建业务场景
        本章节主要介绍新建业务场景的操作。 管理所有业务场景,场景定义了规则间的逻辑关系,使用目录维护业务场景。 前提条件 在DataArts Studio控制台的“实例 > 进入控制台 > 空间管理 > 数据质量 > 业务指标监控 > 业务场景管理”页面创建归属目录。基于规则创建业务场景,需要选择业务场景归属目录,请参见下图创建归属目录。 导航栏按键说明 序号 说明 1 新建目录。 2 刷新目录。 3 选择全部,单击右键,可新建目录、重命名目录和删除目录。 新建业务场景 1.在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据质量”模块,进入数据质量页面。 详见下图:选择数据质量 2.选择“业务指标监控 > 业务场景管理”。 3.单击“新建”,在弹出的对话框中,参见下表配置相关参数,新建场景。 配置周期调度参数 参数名 说明 基本配置 业务场景名称 业务场景的名称,只能包含中文、英文字母、数字、“”,且长度为1~64个字符。 描述 为更好的识别业务场景 ,此处加以描述信息。描述信息长度不能超过256个字符。 所属目录 业务场景的存储目录,可选择已创建的目录。目录创建请参见上图“新建业务场景的归属目录”。 业务级别 支持提示、一般、严重和致命四种业务级别,业务级别决定发出通知消息的模板样式。 规则组配置 定义规则组 规则组包含一个或者多个规则,规则间是逻辑表达式。 定义规则A 支持从下拉框中选择已定义的规则。 单击,可插入多条规则。 订阅配置 通知状态 通过单击或来关闭或开启通知开关。 通知类型 包含如下类型: 触发告警 运行成功 选择主题 选择消息通知的主题。 4.单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式,周期调度的相关参数配置请参见下表。 配置周期调度参数 参数名 说明 生效日期 调度任务的生效时间段。 调度周期 选择调度任务的执行周期,并配置相关参数。 分钟 小时 天 周 间隔时间 调度任务的间隔时间。 调度时间 设置调度任务的起始时间和结束时间。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据质量
        业务指标监控
        新建业务场景
      • 开发一个MRS Flink作业
        本章节主要介绍DataArts Studio的开发一个MRS Flink作业流程。 本章节介绍如何在数据开发模块上进行MRS Spark Flink作业开发。通过MRS Flink作业实现统计单词的个数。 前提条件 具有OBS相关路径的访问权限。 已开通MapReduce服务MRS,并创建MRS集群。 数据准备 下载Flink作业资源包"wordcount.jar"。 准备数据文件“in.txt”,内容为一段英文单词。 操作步骤 1. 将作业资源包和数据文件传入OBS桶中。 说明 本例中,WordCount.jar文件上传路径为:lkjtest/WordCount.jar;word.txt 文件上传路径为:lkjtest/input/word.txt。 2. 创建一个数据开发模块空作业,作业名称为“jobMRSFlink”。 新建作业 3. 进入到作业开发页面,拖动“MRS Flink”节点到画布中并单击,配置节点的属性。 配置MRS Flink节点属性 参数设置说明: Flink作业名称 wordcount MRS集群名称 选择一个MRS集群 运行程序参数 c org.apache.flink.streaming.examples.wordcount.WordCount Flink作业资源包 wordcount 输入数据路径 obs://dlfregion1/lkjtest/input/word.txt 输出数据路径 obs://dlfregion1/lkjtest/output.txt 其中: obs://dlfregion1/lkjtest/input/word.txt为wordcount.jar的传入参数路径,可以把需要统计的单词写到里面; obs://dlfregion1/lkjtest/output.txt为输出参数文件的路径(如已存在output.txt文件,会报错)。 4. 单击“测试运行”,执行该MRS Flink作业。 5. 待测试完成,执行“提交”。 6. 在“作业监控”界面,查看作业执行结果。 7. 查看OBS桶中返回的记录。(没设置返回可跳过)
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        使用教程
        开发一个MRS Flink作业
      • 获取Rest Client算子返回值教程
        本章节主要介绍DataArts Studio的获取Rest Client算子返回值操作。 Rest Client算子可以执行RESTful请求。 本教程主要介绍如何获取Rest Client的返回值,包含以下两个使用场景举例。 通过“响应消息体解析为传递参数定义”获取返回值。 通过EL表达式获取返回值。 通过“响应消息体解析为传递参数定义”获取返回值 如下图所示,第一个Rest Client调用了MRS服务查询集群列表的API,下图为API返回值的JSON消息体。 使用场景:需要获取集群列表中第一个集群的cluster Id,然后作为参数传递给后面的节点使用。 关键配置:在第一个Rest Client的“响应消息体解析为传递参数定义”配置中,配置clusterIdclusters[0].clusterId,后续的Rest Client节点就可以用${clusterId}的方式引用到集群列表中的第一个集群的cluster Id。 Rest Clien作业样例1 JSON消息体 通过EL表达式获取返回值 Rest Client算子可与EL表达式相配合,根据具体的场景选择不同的EL表达式来实现更丰富的用法。您可以参考本教程,根据您的实际业务需要,开发您自己的作业。EL表达式用法可参考表达式概述。 如下图所示,Rest Client调用了MRS服务查询集群列表的API,然后执行Kafka Client发送消息。 使用场景:Kafka Client发送字符串消息,消息内容为集群列表中第一个集群的cluster Id。 关键配置:在Kafka Client中使用如下EL表达式获取Rest API返回消息体中的特定字段:
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        使用教程
        获取Rest Client算子返回值教程
      • 查看脚本引用
        本章节主要介绍(可选)管理脚本的查看脚本引用。 当用户需要查看某个脚本或者某个文件夹下的所有脚本被引用的情况时,可以参考如下操作查看引用。 前提条件 已完成脚本开发。如何开发脚本,请参见开发脚本。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 如要查看某个脚本引用情况,右键单击待查看的脚本,选择“查看引用”,弹出“引用列表”窗口。 如要查看文件夹下的所有脚本引用情况,右键单击待查看的文件夹,选择“查看引用”,弹出“查看引用”窗口。 4. 在弹出的窗口,可以查看该脚本或该文件夹下所有脚本被引用的情况。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        查看脚本引用
      • 事务模式迁移
        本章节主要介绍事务模式迁移。 CDM的事务模式迁移,是指当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 参数位置:创建表/文件迁移的作业时,如果目的端为关系型数据库,在目的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中;导入失败则将目的表回滚到作业开始之前的状态。 详见下图:事务模式迁移 说明 如果“导入开始前”选择“清除部分数据”或“清除全部数据”,CDM的事务模式不会回滚已经删除的数据。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        事务模式迁移
      • Env内嵌对象
        本章节主要介绍DataArts Studio的Env内嵌对象功能。 Env内嵌对象提供了获取环境变量值的方法。 方法 方法说明 方法 描述 String get(String name) 获取指定名称环境变量值。 举例 获取环境变量名称为test的参数值,EL表达式如下: {Env.get("test")}
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        EL表达式参考
        Env内嵌对象
      • 日期和时间模式
        本章节主要介绍DataArts Studio的日期和时间模式操作。 EL表达式中的日期和时间可以按用户指定的格式进行显示,日期和时间格式由日期和时间模式字符串指定。日期和时间模式字符串由A到Z、a到z的非引号字母组成,字母的含义如下表所示。 字母含义 字母 描述 示例 G 纪元标记 AD y 年 2001 M 年中的月份 July 或 07 d 月份中的日期 10 h 12小时制(1~12)的小时 12 H 24小时制(0~23)的小时 22 m 分钟数 30 s 秒数 55 S 毫秒数 234 E 星期几 Mon、Tue、Wed、Thu、Fri、Sat或Sun D 年中的日期 360 F 月份中第几周周几 2(second Wed. in July) w 年中的第几周 40 W 月份中的第几周 1 a A.M./P.M.标记 PM k 24小时制(1~24)的小时 24 K 12小时制(0~11)的小时 10 z 时区 Eastern Standard Time ' 文字定界符 无示例 " 单引号 无示例 举例 获取作业计划调度时间的前一天日期,EL表达式如下: {DateUtil.format(DateUtil.addDays(Job.planTime,1),"yyyyMMdd")}
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        EL表达式参考
        日期和时间模式
      • Shell
        参数 是否必选 说明 Shell或脚本 是 可以选择Shell语句或Shell脚本。 Shell语句 单击“Shell语句”参数下的文本框,在“Shell语句”页面输入需要执行的Shell语句。 Shell脚本 在“脚本路径”参数后选择需要执行的脚本。如果脚本未创建,请参考新建脚本和开发Shell脚本先创建和开发脚本。 说明 若选择Shell语句方式,数据开发模块将无法解析您输入Shell语句中携带的参数。 主机连接 是 选择执行Shell脚本的主机。 参数 否 填写执行Shell脚本时,向脚本传递的参数,参数之间使用空格分隔,例如:a b c。此处的“参数”需要在Shell脚本中引用,否则配置无效。 交互式输入 否 填写交互式参数,即执行Shell脚本的过程中,需要用户输入的交互式信息(例如密码)。交互式参数之间以回车符分隔,Shell脚本根据交互情况按顺序读取参数值。 节点名称 是 节点名称,只能包含英文字母、数字、中文字符、中划线、下划线、/、<>和点号,且长度小于等于128个字符。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        节点参考
        Shell
      • MRS Hive SQL
        参数 是否必选 说明 SQL脚本 是 选择需要执行的脚本。如果脚本未创建,请参考 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 脚本参数 否 关联的SQL脚本如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。参数值支持使用表达式概述。若关联的SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能 说明 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。MRS SparkSQL作业的运行程序参数,请参见《 节点名称 是 默认显示为SQL脚本的名称,支持修改。节点名称只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 说明 节点名称不得包含中文字符、超出长度限制等。如果节点名称不符合规则,将导致提交MRS作业失败。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        节点参考
        MRS Hive SQL
      • 记录数据迁移入库时间
        本章节主要介绍记录数据迁移入库时间。 CDM在创建表/文件迁移的作业,支持连接器源端为关系型数据库时,在表字段映射中使用时间宏变量增加入库时间字段,用以记录关系型数据库的入库时间等用途。 前提条件 已创建连接器源端为关系型数据库,以及目的端数据连接。 创建表/文件迁移作业 1.在创建表/文件迁移作业时,选择已创建的源端连接器、目的端连接器。 图 配置作业 2.单击“下一步”,进入“字段映射”配置页面后,单击源字段图标。 图 配置字段映射 3.选择“自定义字段”页签,填写字段名称及字段值后单击“确认”按钮,例如: 名称:InputTime。 值:${timestamp()},更多时间宏变量请参见下表。 图 添加字段 表 时间变量宏定义具体展示 宏变量 含义 实际显示效果 ${dateformat(yyyyMMdd)} 以yyyyMMdd格式返回当前时间。 20171016 ${dateformat(yyyy/MM/dd)} 以yyyy/MM/dd格式返回当前时间。 2017/10/16 ${dateformat(yyyyMMdd HH:mm:ss)} 以yyyyMMdd HH:mm:ss格式返回当前时间。 20171016 09:00:00 ${dateformat(yyyyMMdd HH:mm:ss, 1, DAY)} 以yyyyMMdd HH:mm:ss格式返回时间,时间为当前时间的前一天。 20171015 09:00:00 ${timestamp()} 返回当前时间的时间戳,即1970年1月1日(00:00:00 GMT)到当前时间的毫秒数。 1508115600000 ${timestamp(10, MINUTE)} 返回当前时间点10分钟前的时间戳。 1508115000000 ${timestamp(dateformat(yyyyMMdd))} 返回今天0点的时间戳。 1508083200000 ${timestamp(dateformat(yyyyMMdd,1,DAY))} 返回昨天0点的时间戳。 1507996800000 ${timestamp(dateformat(yyyyMMddHH))} 返回当前整小时的时间戳。 1508115600000 说明 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。 这里“添加字段”中“自定义字段”的功能,要求源端连接器为JDBC连接器、HBase连接器、MongoDB连接器、ElasticSearch连接器、Kafka连接器,或者目的端为HBase连接器。 4.单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 作业运行完是否删除:这里保持默认值“不删除”。 5.单击“保存并运行”,回到作业管理的表/文件迁移界面,在作业管理界面可查看作业执行进度和结果。 6.作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        记录数据迁移入库时间
      • 方案概述
        本章节主要介绍节点数据血缘的方案概述。 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征: 归属性 :一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 多源性 :同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性 :数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 详见下图:数据血缘关系示例 DataArts Studio数据血缘实现方案 数据血缘的产生: 在DataArts Studio平台,自动分析血缘是通过在数据开发模块中配置数据处理迁移类型的节点产生的,当前支持采集节点静态配置产生的血缘和部分节点实例上的血缘。详情请参见 配置数据血缘章节中的 自动分析血缘。 另外,DataArts Studio平台还支持手动配置血缘方式,当用户手动配置血缘时,自动分析血缘将不生效。详情请参见 配置数据血缘章节中的 手动配置血缘。 数据血缘的展示: 当数据开发模块中的作业已完成血缘关系配置后,启动作业调度,并在数据目录模块进行元数据采集任务,则可以在数据目录模块可视化查看数据血缘关系。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        节点参考
        节点数据血缘
        方案概述
      • 配置DLI源端参数
        本章节主要介绍配置DLI源端参数。 作业中源连接为配置DLI连接时,源端作业参数如下表所示。 表 DLI作为源端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。 dli 表名 写入数据的表名。 cardetail 分区 导入前清空数据,如果设置为true时,呈现此参数。 表示分区信息。 year2020,locationsun
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置DLI源端参数
      • 配置MongoDB/DDS源端参数
        参数名 说明 取值样例 数据库名称 选择待迁移的数据库。 mongodb 集合名称 相当于关系数据库的表名。单击输入框后面的按钮可进入选择集合名的界面,用户也可以直接输入集合名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的帐号是否有元数据查询的权限。 COLLECTION 查询筛选 创建用于匹配文档的筛选条件,CDM只迁移符合条件的数据。例如: 1. 按表达式对象筛选:例如{'lastname': 'Smith'},表示查找所有“lastname”属性值为“Smith”的文档。 2. 按参数选项筛选:例如{ x : "john" }, { z : 1 },表示查找xjohn的所有z字段。 3. 按条件筛选:例如{ "field" : {gt: 5 } },表示查找field字段中大于5的值。 4. 按时间宏筛选:例如 {"ts":{gte:ISODate("${dateformat(yyyyMMdd'T'HH:mm:ss.SSS'Z',1,HOUR)}")}},表示查找ts字段中大于 时间宏转换后的值。 {'lastname': 'Smith'}
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置MongoDB/DDS源端参数
      • 创建MRS Hive连接器
        参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 mrslink Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 127.0.0.1 认证类型 访问MRS的认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 SIMPLE Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE3X 用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。 说明 如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Managerviewer的角色权限才能在CDM创建连接;如果需要对MRS组件的库、表、列进行操作,还需要参考MRS文档添加对应组件的库、表、列操作权限。 如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manageradministrator或Systemadministrator权限,才能在CDM创建连接。 仅具备Managertenant或Managerauditor权限,无法创建连接。 cdm 密码 访问MRS Manager的用户密码。 OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否 运行模式 “HIVE3X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 说明 STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 EMBEDDED 检查Hive JDBC连通性 是否需要测试Hive JDBC连通性。 否 是否使用集群配置 用户可以在“连接管理”处创建集群配置,用于简化Hadoop连接参数配置。 否 属性配置 其他Hive客户端配置属性。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        创建MRS Hive连接器
      • OBS数据迁移到云搜索服务
        创建OBS连接 1.单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面。 详见下图:选择连接器类型 2.连接器类型选择“对象存储服务(OBS)”后,单击“下一步”配置OBS连接参数。 名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。 3.单击“保存”回到连接管理界面。 创建迁移作业 1.选择“表/文件迁移 > 新建作业”,开始创建从OBS导出数据到云搜索服务的任务。 详见下图:创建OBS到云搜索服务的迁移任务 作业名称:用户自定义便于记忆、区分的任务名称。 源端作业配置 −源连接名称:选择创建OBS连接中的“obslink”。 −桶名:待迁移数据的桶。 −源目录或文件:待迁移数据的路径,也可以迁移桶下的所有目录、文件。 −文件格式:迁移文件到数据表时,文件格式选择“CSV格式”。 −高级属性里的可选参数一般情况下保持默认既可,详细说明请参见 配置OBS源端参数。 目的端作业配置 −目的连接名称:选择创建云搜索服务连接中的“csslink”。 −索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云上搜索服务中创建。 −类型:待写入数据的Elasticsearch类型,可输入新的类型,CDM支持在目的端自动创建类型。 −高级属性里的可选参数一般情况下保持默认既可,详细说明请参见 配置云搜索服务目的端参数。 2.单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如下图“云搜索服务的字段映射”所示。 如果字段映射顺序不匹配,可通过拖拽字段调整。 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容。 3.单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,请参见 配置定时任务。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 作业运行完是否删除:这里保持默认值“不删除”。 4.单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。 5.作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        OBS数据迁移到云搜索服务
      • 配置云搜索服务目的端参数
        参数名 说明 取值样例 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。 index 类型 待写入数据的Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。 type 管道ID 需要先在kibana中创建管道ID,这里才可以选择,该参数用于数据传到Elasticsearch后,通过Elasticsearch的数据转换pipeline进行数据格式变换。 pipelineid 定时创索引 对于持续写入数据到Elasticsearch的流式作业,CDM支持在Elasticsearch中定时创建新索引并写入数据,方便用户后期删除过期的数据。支持按以下周期创建新索引: 每小时:每小时整点创建新索引,新索引的命名格式为“索引名+年+月+日+小时”,例如“index2018121709”。 每天:每天零点零分创建新索引,新索引的命名格式为“索引名+年+月+日”,例如“index20181217”。 每周:每周周一的零点零分创建新索引,新索引的命名格式为“索引名+年+周”,例如“index201842”。 每月:每月一号零点零分创建新索引,新索引的命名格式为“索引名+年+月”,例如“index201812”。 不创建:选择此项表示不创建定时索引。 从文件类抽取数据时,必须配置单个抽取(“抽取并发数”参数配置为1),否则该参数无效。 每小时
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置云搜索服务目的端参数
      • 删除作业
        本章节主要介绍(可选)管理作业的删除作业。 当用户不需要使用某个作业时,可以参考如下操作删除该作业,以减少作业的配额占用。 说明 作业删除后,将无法恢复,请确保删除作业后,不影响业务。 普通删除 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,右键单击作业名称,选择“删除”。 4. 在弹出的“删除作业”页面,单击“确定”,删除作业。 批量删除 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录顶部,单击,选择“显示复选框”,在作业目录前出现复选框。 4. 选择需要删除的作业,再次单击,选择“删除作业”。 5. 在弹出的“删除作业”页面,单击“确定”,批量删除作业。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        (可选)管理作业
        删除作业
      • 批量解锁
        本章节主要介绍(可选)管理作业的批量解锁。 数据开发模块提供了批量解锁作业的功能,您可参照本节内容对锁定的作业进行批量解锁。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 单击作业目录中的,选择“显示复选框”。 详见下图:显示作业复选框 4. 勾选需要解锁的作业,单击 > 批量解锁。弹出“解锁成功”提示。 详见下图:批量解锁
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        (可选)管理作业
        批量解锁
      • 移动作业/作业目录
        参数 说明 选择目录 选择作业或作业文件夹要移动到的目录,父级目录默认为根目录。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        (可选)管理作业
        移动作业/作业目录
      • 导出导入脚本
        本章节主要介绍(可选)管理脚本的导出导入脚本。 导出脚本 您可以在脚本目录中导出一个或多个脚本文件,导出的为开发态最新的已保存内容。 1. 单击脚本目录中的,选择“显示复选框”。 详见下图:显示脚本复选框 2. 勾选需要导出的脚本,单击 > 导出脚本。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。 详见下图:选择并导出脚本 导入脚本 导入脚本功能依赖于OBS服务,如无OBS服务,可从本地导入。 您可以在脚本目录中导入一个或多个脚本文件。导入会覆盖开发态的内容,并自动提交一个新版本。 1. 单击作业目录中的 > 导入脚本,选择已上传至OBS的脚本文件,以及重名处理策略。 说明 在硬锁策略下,如果锁在其他人手中,重名策略选择了覆盖,则会覆盖失败。软硬锁策略请参考 详见下图:导入脚本 2. 单击“下一步”,根据提示导入脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        导出导入脚本
      • 脚本开发流程
        本章节主要介绍脚本开发的脚本开发流程。 脚本开发功能提供如下能力: 提供在线脚本编辑器,支持进行SQL、Shell、Python等脚本在线代码开发和调测。 支持导入和导出脚本。 支持使用变量和函数。 提供编辑锁定能力,支持多人协同开发场景。 支持脚本的版本管理能力。 脚本开发的使用流程如下: 脚本开发流程 1. 新建脚本:新建相应类型的脚本。具体请参见新建脚本。 2. 开发脚本:基于新建的脚本,进行脚本的在线开发、调试和执行。具体请参见开发脚本。 3. 提交版本并解锁:脚本开发完成后,您需要提交版本并解锁,提交版本并解锁后才能正式地被作业调度运行,便于其他开发者修改。具体请参见提交版本并解锁。 4. (可选)管理脚本:脚本开发完成后,您可以根据需要,进行脚本管理。具体请参见(可选)管理脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        脚本开发流程
      • 删除集群
        本章节主要介绍删除集群。 操作场景 当您确认不再使用当前集群后,可以删除当前CDM集群。 删除CDM集群后集群以及数据都销毁且无法恢复,请您谨慎操作! 删除集群前,请您确认如下注意事项: 待删除集群确认已不再使用,且其中的连接和作业数据您已通过批量管理作业章节中的 导出作业功能 进行备份。 前提条件 已创建CDM集群。 删除集群 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。 集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 删除”,进入删除集群确认界面。 删除集群详见下图 3.点击“确认”,即开始删除CDM集群。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        删除集群
      • 数据架构概述
        我的待办 显示“我的申请”和“待我审核”的数量。 单击每一项上面统计数量将分别跳转到“我的申请”和“待我审核”页面。 资产概览 显示数据架构中所有对象的总量。 单击每个对象名称后的统计数量将跳转的该对象的管理页面。 快捷入口 显示数据架构数据治理方法的整体流程。单击流程下的具体操作,可以跳转到对应的界面。 数据架构流程 显示数据架构流程以及与DataArts Studio其他模块间的交互关系。关于数据架构流程的详细描述,请参见 数据架构使用流程。 将鼠标移至流程图上的对象名称之上,页面上将显示对象的描述信息。 对于DataArts Studio已支持的对象,单击对象名称,可跳转至该对象的管理页面。 数据架构信息架构 信息架构是以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。在数据架构的“信息架构”页面,可以查看和管理所有的表,包括业务表、维度表、事实表、汇总表等资源。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面,查看“信息架构”。 在信息架构页面,可以执行以下操作: 搜索 在“信息架构”列表右上方,单击“高级搜索”,设置表名、类型、数据源等筛选条件,然后单击“搜索”可以查找指定的表,单击“表名称”,可以进入表的详情页面,查看表的详细信息。 新建 单击“新建”,可以新建业务表逻辑模型、业务表物理模型、维度表、事实表和汇总表。创建的过程可以参见逻辑模型设计、物理模型设计、新建维度、新建事实表、新建汇总表。 导入 单击“更多 > 导入”,当前仅支持导入业务表。下载表导入模板,填写模板后,先添加再上传,上传成功后,然后单击“关闭”。有关导入业务表的更多信息,请参见导入导出表。 导出 单击“更多 > 导出”,可以导出业务表物理模型或DDL。有关导出的更多信息,请参见导入导出表章节中的“导出表或DDL”。 同步 单击“更多 > 同步”,可以同步表到数据目录,作为技术资产;同步逻辑模型到数据目录,作为业务资产。 修改主题 单击“更多 > 修改主题”,可以将选中的表更改到其它主题。 删除 单击“更多 > 删除”,可以删除数据表,其中待发布,已发布和待下线状态的数据表不可被删除。且数据被引用的数据表不可被删除。 下线 单击“更多 > 下线”,可以下线已发布且不带下展的数据表。数据被引用的数据表不支持下线。 说明 “带下展”,指待发布后又重新编辑的数据。 发布 单击“发布”,可发布数据表。待发布、待下线、已发布(不带下展)状态的数据表不支持发布。 关联质量规则 单击“关联质量规则”,配置下图所示的相关参数,完成质量规则的关联。有关关联质量规则的更多信息,您也可以参考关联质量规则。 生成异常数据:勾选此项,表示异常数据将按照配置的参数存储到规定的库中。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据架构
        数据架构概述
      • HBase/CloudTable增量迁移
        本章节主要介绍HBase/CloudTable增量迁移。 使用CDM导出HBase(包括MRS HBase、FusionInsight HBase、Apache HBase)或者表格存储服务(CloudTable)的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现HBase/CloudTable的增量迁移。 在创建CDM表/文件迁移的作业,源连接选择为HBase连接或CloudTable连接时,高级属性的可选参数中可以配置时间区间。 详见下图:HBase时间区间 起始时间(包含该值),格式为“yyyyMMdd HH:mm:ss”,表示只抽取该时间及以后的数据。 终止时间(不包含该值),格式为“yyyyMMdd HH:mm:ss”,表示只抽取该时间以前的数据。 这2个参数支持配置为 时间宏变量使用解析,例如: 起始时间配置为 ${dateformat(yyyyMMdd HH:mm:ss, 1, DAY)} 时,表示只导出昨天以后的数据。 终止时间配置为 ${dateformat(yyyyMMdd HH:mm:ss)} 时,表示只导出当前时间以前的数据。 这2个参数同时配置后,CDM就只导出前一天内的数据,再将该作业配置为每天0点执行一次,就可以增量同步每天新生成的数据。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        增量迁移原理介绍
        HBase/CloudTable增量迁移
      • 配置DCS目的端参数
        参数名 说明 取值样例 Redis键前缀 键的前缀,类似关系型数据库的表名。 TABLE 值存储类型 仅支持以下数据格式: STRING:不带列名,如“值1,值2”形式。 HASH:带列名,如“列名1值1,列名2值2”的形式。 STRING 键分隔符 用来分隔关系型数据库的表和列名。 值分隔符 以STRING方式存储时,列之间的分隔符。 ;
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置DCS目的端参数
      • 配置Oracle源端参数
        本章节主要介绍配置Oracle源端参数。 作业中源连接为配置Oracle数据库连接,源端作业参数如下表所示。 表 Oracle作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明 SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如select from table a; select from table b。 不支持with语句。 不支持注释 ,比如"",“/”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table l into outfile select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的帐号是否有元数据查询的权限。 说明 该参数支持配置通配符(),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如: 表示导出所有以“SCHEMA”开头的数据库。 表示导出所有以“SCHEMA”结尾的数据库。 表示数据库名称中只要有“SCHEMA”字符串,就全部导出。 SCHEMAE 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的帐号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 说明 表名支持配置通配符(),实现导出以某一前缀开头或者以某一后缀结尾的所有表(要求表中的字段个数和类型都一样)。 例如: 表示导出所有以“table”开头的表。 表示导出所有以“table”结尾的表。 表示表名中只要有“table”字符串,就全部导出。 table 高级属性 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明 抽取分区字段支持CHAR、VARCHAR、LONGVARCHAR、TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 当选择CHAR、VARCHAR、LONGVARCHAR抽取分区字段类型时,字段值不支持ASCII字符代码表之外的字符,不支持中文字符。 id Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据。 DS'${dateformat(yyyyMMdd,1,DAY)}' 分区字段是否允许空值 是否允许分区字段包含空值。 是 按表分区抽取 从Oracle导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的Oracle表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dbatabpartitions 和dbatabsubpartitions 的SELECT权限。 否 表分区 输入需要迁移数据的Oracle表分区,多个分区以&分隔,不填则迁移所有分区。 如果有子分区,以“分区.子分区”的格式填写,例如“P2.SUBP1”。 P0&P1&P2.SUBP1&P2.SUBP3 作业拆分字段 使用该字段将作业拆分为多个子作业并发执行。 拆分字段最小值 表示抽取数据时“作业拆分字段”的最小值。 拆分字段最大值 表示抽取数据时“作业拆分字段”的最大值。 子作业个数 根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 说明 Oracle作为源端时,如果未配置“抽取分区字段”或者“按表分区抽取”这2个参数,CDM自动使用ROWID进行数据分区。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置Oracle源端参数
      • 配置Kafka/DMS Kafka源端参数
        本章节主要介绍配置Kafka/DMS Kafka源端参数。 作业中源连接为配置Kafka连接或配置DMS Kafka连接时,源端作业参数如下表所示。 表 Kafka作为源端时的作业参数 参数 说明 取值样例 Topics 支持单个或多个topic。 est1,est2 偏移量参数 从Kafka拉取数据时的初始偏移量: 最新:最大偏移量,即拉取最新的数据。 最早:最小偏移量,即拉取最早的数据。 已提交:拉取已提交的数据。 时间范围:拉取时间范围内的数据。 最新 是否持久运行 用户自定义是否永久运行。 是 消费组ID 用户指定消费组ID。 如果是从DMS Kafka导出数据,专享版请任意输入,标准版请输入有效的消费组ID。 sumergroup 数据格式 解析数据时使用的格式: 二进制格式:适用于文件迁移场景,不解析数据内容原样传输。 CSV格式:以CSV格式解析源数据。 l JSON:以JSON格式解析源数据。 CDC(DRSJSON):以DRSJSON格式解析源数据。 二进制格式 字段分隔符 默认为空格,使用Tab键作为分隔符请输入“t”。 , 最大消息数/poll 可选参数,每次向Kafka请求数据限制最大请求记录数。 100 最大时间间隔/poll 可选参数,向Kafka请求数据的最大时间间隔。 100
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置Kafka/DMS Kafka源端参数
      • 配置分库源端参数
        参数类型 参数名 说明 取值样例 基本参数 模式或表空间 表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,分库连接时此处默认展示对应第一个后端连接的表空间。用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的帐号是否有元数据查询的权限。 说明 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 SCHEMAE 基本参数 表名 表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的帐号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 说明 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 table 高级属性 Where子句 表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据。 DS'${dateformat(yyyyMMdd,1,DAY)}'
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置分库源端参数
      • 配置OBS源端参数
        本章节主要介绍配置OBS源端参数。 作业中源连接为配置OBS连接时,源端作业参数如下表所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表 源端为OBS时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 待迁移数据所在的桶名。 BUCKET2 基本参数 源目录或文件 “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“l”分隔,也可以自定义文件分隔符。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 FROM/example.csv 基本参数 文件格式 文件格式指CDM以哪种格式解析数据,可选择以下格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 CSV格式 基本参数 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),例如直接写为如下内容: /052101/DAY20211110.data /052101/DAY20211111.data 是 基本参数 列表文件源连接 当“列表文件”选择为“是”时,才有该参数。可选择列表文件所在的OBS连接。 OBStestlink 基本参数 列表文件OBS桶 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶名。 01 基本参数 列表文件或目录 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 此处建议选择为文件的绝对路径。当选择为目录时,也支持迁移子目录中的文件,但如果目录下文件量过大,可能会导致集群内存不足。 /0521/Lists.txt 基本参数 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 基本参数 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性 换行符 文件中的换行符,默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时,才有该参数。 n 高级属性 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 高级属性 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 高级属性 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 高级属性 正则表达式 分隔字段的正则表达式。 ^(d.d) (w ) [(. )] ([w.] ) (w.). 高级属性 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。 否 高级属性 编码类型 文件编码类型,例如:“UTF8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 GBK 高级属性 压缩格式 当“文件格式”为“CSV格式”或“JSON格式”时该参数才显示。选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 高级属性 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则则保持原样传输。当输入或为空时,所有文件都会被解压。 高级属性 源文件处理方式 作业执行成功后对源端文件的处理方式: 不处理。 重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。 删除:作业执行成功后将源文件删除。 不处理 高级属性 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 否 高级属性 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 高级属性 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 高级属性 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为 。 高级属性 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。 通配符 高级属性 目录过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 input 高级属性 文件过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 .csv, .txt 高级属性 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 高级属性 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))} 表示:只迁移最近90天内的文件。 20190601 00:00:00 高级属性 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示:只迁移修改时间为当前时间以前的文件。 20190701 00:00:00 高级属性 加密方式 如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法: 无:不解密,直接导出。 AES256GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES256GCM(NoPadding)。该参数在目的端为加密,在源端为解密。 AES256GCM 高级属性 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 高级属性 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性 初始化向量 “加密方式”选择“AES256GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致。 .md5 说明 1.迁移文件或对象时支持文件级增量迁移(通过配置跳过重复文件实现),但不支持断点续传。 例如要迁移3个文件,第2个文件迁移到一半时由于网络原因失败,再次启动迁移任务时,会跳过第1个文件,从第2个文件开始重新传,但不能从第2个文件失败的位置重新传。 2.文件迁移时,单个任务支持千万数量的文件,如果待迁移目录下文件过多,建议拆分到不同目录并创建多个任务。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置OBS源端参数
      • 解绑/绑定集群的EIP
        本章节主要介绍解绑/绑定集群的EIP。 操作场景 CDM集群创建完成后,支持解绑或绑定EIP。 如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云主机共享弹性IP访问Internet。 EIP的异常通知,需要先在IAM控制台创建对应Region的VPC策略委托才能生效。也可以在CDM集群管理界面选择“弹性IP检测授权 > 创建委托”来创建。 说明 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 前提条件 已创建CDM集群。 已拥有EIP配额,才能绑定EIP。 操作步骤 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.对相应需要操作的集群可以进行绑定EIP或解绑EIP的操作。 绑定EIP:单击集群操作列中的“绑定弹性IP”,进入EIP选择界面。 解绑EIP:选择“更多 > 解绑弹性IP”。 3.单击“确定”绑定或解绑EIP。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        解绑/绑定集群的EIP
      • 企业主体变更
        本文主要讲述了企业主体变更注意事项及操作流程。 企业主体变更是指变更前与变更后的企业不是同一主体,资源与资金的归属主体发生了变更。 注意事项 实名认证变更生效(审批通过)之前,原实名认证信息仍然有效。 实名认证变更开始到变更生效(审批通过)期间,产生的欠费和新购的资源归属于变更后的主体。 实名认证变更开始到审批驳回期间,产生的欠费和新购的资源归属于原实名认证主体。 同一证件最多可认证5个天翼云账号,如果变更后的证件已经实名过5个天翼云账号(含已注销账号),则无法继续变更。 企业帐号变更企业主体,需要填写实名认证变更申请表并加盖双方企业公章,同时需根据页面提示上传已认证的材料和新认证的材料。 操作步骤 1、登录天翼云官网,点击“我的已实名认证”快速进入实名认证页面。 2、选择“变更企业主体”。 3、阅读实名认证变更影响,并点击确认。 4、根据页面提示,填写变更后的企业信息。 5、根据页面提示,上传变更前已实名认证的材料和新认证的材料。 说明 变更申请表模板为word文件格式,上传的附件格式不支持word,上传请转为图片格式。 企业主体变更申请表 6、勾选协议并点击“提交“,进入审核页面。 说明 变更后的认证信息将在13个工作日内审核完成,请耐心等待审核结果,审核成功,变更即可生效。
        来自:
        帮助文档
        账号中心
        操作指南
        实名认证
        企业实名认证变更
        企业主体变更
      • 1
      • 2
      • ...
      • 158
      • 159
      • 160
      • 161
      • 162
      • 163
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      GPU云主机

      镜像服务 IMS

      轻量型云主机

      训推服务

      公共算力服务

      模型推理服务

      科研助手

      智算一体机

      人脸检测

      推荐文档

      配置采样率

      重置管理员密码

      文档下载

      查看云间高速

      新手有礼

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号