活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      费用中心_相关内容
      • 配置HDFS目的端参数
        参数名 说明 取值样例 写入目录 写入数据到HDFS服务器的目录。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 /user/output 文件格式 写入后的文件格式,可选择以下文件格式: CSV格式:按CSV格式写入,适用于数据表到文件的迁移。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式,适用于文件到文件的迁移。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,此处的“文件格式”只能选择与源端的文件格式一致。 CSV格式 重复文件处理方式 只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复,可选择如下处理方式: 替换重复文件 跳过重复文件 停止任务 停止任务 压缩格式 写入文件后,选择对文件的压缩格式。支持以下压缩格式: NONE:不压缩。 DEFLATE:压缩为DEFLATE格式。 GZIP:压缩为GZIP格式。 BZIP2:压缩为BZIP2格式。 LZ4:压缩为LZ4格式。 SNAPPY:压缩为SNAPPY格式。 SNAPPY 换行符 文件中的换行符,默认自动识别“n”、“r”或“rn”。“文件格式”为“二进制格式”时该参数值无效。 n 字段分隔符 文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 使用包围符 “文件格式”为“CSV格式”,才有该参数,用于将数据库的表迁移到文件系统的场景。 选择“是”时,如果源端数据表中的某一个字段内容包含字段分隔符或换行符,写入目的端时CDM会使用双引号(")作为包围符将该字段内容括起来,作为一个整体存储,避免其中的字段分隔符误将一个字段分隔成两个,或者换行符误将字段换行。例如:数据库中某字段为hello,world,使用包围符后,导出到CSV文件的时候数据为"hello,world"。 否 首行为标题行 在迁移表到CSV文件时,CDM默认是不迁移表的标题行,如果该参数选择“是”,CDM在才会将表的标题行数据写入文件。 否 写入到临时文件 将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。 否 作业成功标识文件 当作业执行成功时,会在写入目录下生成一个标识文件,文件名由用户指定。不指定时默认关闭该功能。 finish.txt 自定义目录层次 支持用户自定义文件的目录层次。例如:【表名】/【年】/【月】/【日】/【数据文件名】. csv 目录层次 指定文件的目录层次,支持时间宏(时间格式为yyyy/MM/dd)。不填默认为不带层次目录。例如:${dateformat(yyyy/MM/dd, 1, DAY)} 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。 选择是否对写入的数据进行加密: 无:不加密,直接写入数据。 AES256GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES256GCM(NoPadding)。该参数在目的端为加密,在源端为解密。 AES256GCM 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数,密钥由长度64的十六进制数组成。 请您牢记这里配置的“数据加密密钥”,解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 “加密方式”选择“AES256GCM”时显示该参数,初始化向量由长度32的十六进制数组成。 请您牢记这里配置的“初始化向量”,解密时的初始化向量与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置HDFS目的端参数
      • MD5校验文件一致性
        本章节主要介绍MD5校验文件一致性。 CDM数据迁移以抽取写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。在迁移文件到OBS时,迁移模式如下图所示。 图 迁移文件到OBS 在这个过程中,CDM支持使用MD5检验文件一致性。 抽取时 −该功能支持源端为OBS、HDFS、FTP、SFTP、HTTP。可校验CDM抽取的文件,是否与源文件一致。 −该功能由源端作业参数“MD5文件名后缀”控制(“文件格式”为“二进制格式”时生效),配置为源端文件系统中的MD5文件名后缀。 −当源端数据文件同一目录下有对应后缀的保存md5值的文件,例如build.sh和build.sh.md5在同一目录下。若配置了“MD5文件名后缀”,则只迁移有MD5值的文件至目的端,没有MD5值或者MD5不匹配的数据文件将迁移失败,MD5文件自身不被迁移。 −若未配置“MD5文件名后缀”,则迁移所有文件。 写入时 −该功能目前只支持目的端为OBS。可校验写入OBS的文件,是否与CDM抽取的文件一致。 −该功能由目的端作业参数“校验MD5值”控制,读取文件后写入OBS时,通过HTTP Header将MD5值提供给OBS做写入校验,并将校验结果写入OBS桶(该桶可以不是存储迁移文件的桶)。如果源端没有MD5文件则不校验。 说明 迁移文件到文件系统时,目前只支持校验CDM抽取的文件是否与源文件一致(即只校验抽取的数据)。 迁移文件到OBS时,支持抽取和写入文件时都校验。 如果选择使用MD5校验,则无法
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        MD5校验文件一致性
      • 指定文件名迁移
        本章节主要介绍指定文件名迁移。 从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个),文件名之间默认使用“”分隔,您也可以自定义文件分隔符,从而实现文件列表迁移。 说明 1.迁移文件或对象时支持文件级增量迁移(通过配置跳过重复文件实现),但不支持断点续传。 例如要迁移3个文件,第2个文件迁移到一半时由于网络原因失败,再次启动迁移任务时,会跳过第1个文件,从第2个文件开始重新传,但不能从第2个文件失败的位置重新传。 2.文件迁移时,单个任务支持千万数量的文件,如果待迁移目录下文件过多,建议拆分到不同目录并创建多个任务。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        指定文件名迁移
      • 配置Elasticsearch或云搜索服务源端参数
        参数名 说明 取值样例 索引 Elasticsearch的索引,类似关系数据库中的数据库名称。索引名称只能全部小写,不能有大写。 index 类型 Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。 type 拆分nested类型字段 可选参数,选择是否将nested字段的json内容拆分,例如:将“a:{ b:{ c:1, d:{ e:2, f:3 } } }”拆成三个字段“a.b.c”、“a.b.d.e”、“a.b.d.f”。 否 过滤条件 可选参数,CDM只迁移满足过滤条件的数据。 当前仅支持通过Elasticsearch的query string(即q语法)方式对源数据进行过滤。q语法使用方式介绍如下: − 精确匹配时,直接使用 column : data 格式进行匹配过滤。其中column表示字段名,data表示查询条件,例如“lastname:Smith”。 另外,如果查询条件data为带空格的字符串,则需要用双引号包围。如果不指定column,则会对所有字段以data进行匹配。 − 多条查询条件时,可通过连接词组合多个查询条件,格式为column1 :data1 ANDcolumn2:data2。其中,中间的连接词必须用全大写,可以为“AND”、“OR”或“NOT”,且连接词前后要有空格。 例如:“lastname:Smith AND lastname:John”。 − 范围匹配时,可以直接使用条件表达式的方式进行过滤,格式为 column :> data 。其中,操作符支持“>”、“>”、“<”或“<”。 例如:“time:>1636905600000 AND time:1637078400000”。也可以配合时间宏变量使用,如“createTime:{timestamp(dateformat(yyyyMMdd,1,DAY))} AND createTime:<{timestamp(dateformat(yyyyMMdd))}”。 − 范围匹配时,也支持使用范围区间语法的方式进行过滤,格式为 column :{data1TOdata2} 。其中,{”、“}”代表不包含该值,“[”、“]”代表包含该值,TO必须大写且前后要有空格,代表所有。 例如:“time:{1636992000000 TO ]”,表示过滤time字段中大于1636992000000的所有数据。也可以配合时间宏变量使用,如“createTime:[{timestamp(dateformat(yyyyMMdd,1,DAY))} TO{timestamp(dateformat(yyyyMMdd))}}”。 暂不支持通过Elasticsearch的query DSL(即DSL语法,Domain Sepcified Language)查询方式对源数据进行过滤。 lastname:Smith 抽取元字段 表示是否抽取索引的元字段,目前只支持(index、type、id、score)例如:index、type、id、score 是
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置Elasticsearch或云搜索服务源端参数
      • 配置默认项
        本章节主要介绍如何配置默认项。 使用场景 当某参数被多个作业调用时,可将此参数提取出来作为默认配置项,无需每个作业都配置该参数。 配置周期调度 依赖的作业失败后,当前作业处理策略是根据配置的默认策略来执行,配置默认策略操作如下。 1.在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 2.单击“默认项设置”,可设置周期调度配置项。 说明 策略支持如下三种,系统默认配置为“终止执行”。 挂起:当被依赖的作业执行失败后,当前作业会挂起。 继续执行:当被依赖的作业执行失败后,当前作业会继续执行。 终止执行:当被依赖的作业执行失败后,当前作业会终止执行。 3.单击“保存”,对设置的配置项进行保存。 配置多IF策略 节点执行依赖多个IF条件的处理策略,配置默认策略操作如下。 1.在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 2.单击“默认项设置”,可设置多IF策略配置项。 说明 策略支持如下两种,系统默认策略为“逻辑或”。 逻辑或:表示多个IF判断条件只要任意一个满足条件则执行。 逻辑与:表示多个IF判断条件需要所有条件满足时才执行。 具体使用方法请参见IF条件判断教程章节中的“多IF条件下当前节点的执行策略”。 3.单击“保存”,对设置的配置项进行保存。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        配置管理
        配置
        配置默认项
      • 配置HDFS源端参数
        参数类型 参数名 说明 取值样例 基本参数 源连接名称 由用户下拉选择即可。 hdfstocdm 基本参数 源目录或文件 “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 /user/cdm/ 基本参数 文件格式 传输数据时所用的文件格式,可选择以下文件格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 Parquet格式:以Parquet格式解析源文件,用于HDFS数据导到表的场景。 CSV格式 基本参数 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),文件内容示例如下: /mrs/jobproperties/application16348916046210014/job.properties /mrs/jobproperties/application16348916046210029/job.properties 是 基本参数 列表文件源连接 当“列表文件”选择为“是”时,才有该参数。可选择列表文件所在的OBS连接。 OBStestlink 基本参数 列表文件OBS桶 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶名。 01 基本参数 列表文件或目录 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 /0521/Lists.txt 高级属性 换行符 文件中的换行符,默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时,才有该参数。 n 高级属性 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 高级属性 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。 否 高级属性 源文件处理方式 作业执行成功后对源端文件的处理方式: 不处理。 重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。 删除:作业执行成功后将源文件删除。 不处理 高级属性 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 ok.txt 高级属性 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。 高级属性 路径过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 input 高级属性 文件过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 .csv 高级属性 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 高级属性 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))} 表示:只迁移最近90天内的文件。 20190701 00:00:00 高级属性 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示:只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性 创建快照 如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。 需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。 否 高级属性 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。 如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法: 无:不解密,直接导出。 AES256GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES256GCM(NoPadding)。该参数在目的端为加密,在源端为解密。 AES256GCM 高级属性 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性 初始化向量 “加密方式”选择“AES256GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致。 .md5
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置HDFS源端参数
      • 补数据监控
        本章节主要介绍运维调度的补数据监控。 在数据开发模块控制台的左侧导航栏,选择“运维调度 > 补数据监控”,进入补数据的任务监控页面。 用户可以在补数据监控主页,查看补数据的任务状态、业务日期、并行周期数、补数据作业名称,以及停止运行中的任务。 在补数据监控主页,单击补数据名称,进入补数据监控详情页面。在此页面,用户可以查看补数据的任务执行情况,以及手动干预实例和节点的执行(如需了解更多,请参见批作业监控章节中的 补数据 )。 说明 支持计划时间,开始时间,结束时间的排序,注意三者之间,同一时间只有其中一个当前排序有效。 排序按钮点击顺序为:点击1下为升序,点击2下为降序,点击3下取消排序。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        运维调度
        补数据监控
      • 管理作业标签
        本章节主要介绍配置的管理作业标签。 作业标签用于给相同或用途类似的作业打上标签,便于管理作业,并根据标签查询作业。参考本节操作,您可管理作业标签,执行新增、修改和查询操作。 配置方法 1.登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2.在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 3.选择“作业标签”,在“作业标签管理”页面,单击“新建”,配置作业名称,确认后完成新建。 说明 作业标签最多支持创建100个。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        配置管理
        配置
        管理作业标签
      • 通知周期概览
        本章节主要介绍通知管理的通知周期概览。 操作场景 用户可以按照天/周/月为调度周期配置通知任务,向相关人员发送通知。让相关人员可以定期跟踪作业的调度情况(作业调度成功数量,作业调度失败异常数量以及作业失败详情)。 约束限制 该功能依赖于OBS服务。 前提条件 已开通消息通知服务并配置主题,为主题添加订阅。 已提交作业,且作业不是“未启动”状态 已开通对象存储服务,并在OBS中创建文件夹。 配置通知 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“运维调度 > 通知管理”。 3. 在页面右侧的“周期概览”页签,单击“通知配置”,弹出“通知配置”页面,配置如下表所示的参数。 通知参数 参数 是否必选 说明 通知名称 是 设置发送的通知名称。 调度周期 是 选择通知发送的调度周期,可以设置为按“天”、“周”或“月”发送。 说明 按天发送,通知记录为以发送时间往前推24小时时间段的数据;按周发送,通知记录为往前推七天时间段的数据;按月发送,通知记录为往前推30天时间段的数据 选择时间 是 设置通知发送的具体日期。 当调度周期为周时,可设置为一周中星期一至星期日的某一天或某几天。 当调度周期为月时,可设置为一月中每月1号至每月31号的某一天或某几天。 具体时间 是 设置通知发送的具体时间点,可以精确设置到小时和分钟。 选择概览通知的主题 是 单击下拉选项,设置通知发送的主题。 选择OBS桶 是 单击“OBS”设置通知记录数据存储的位置。 开关 是 是否开启通知,默认开启。 4. 单击“确定”。 5. 通知配置完成后,您可以在通知的“操作”列进行如下操作。 单击“编辑”,打开“通知配置”页面,可以重新编辑通知。编辑完成后选择“确定”,保存修改。 单击“记录”,打开“查看记录”页面,可以查看作业的调度情况。 单击“删除”,打开“删除通知”页面,选择“确定”,删除通知。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        运维调度
        通知管理
        通知周期概览
      • 运行历史
        本章节主要介绍数据开发的运行历史。 运行历史功能可支持查看脚本、作业和节点的一周(7天)内用户的运行记录。 前提条件 运行历史功能依赖于OBS桶,若要使用该功能,必须先配置OBS桶。请参考配置OBS桶进行配置。 脚本运行历史 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在左侧目录上方,单击运行历史图标,显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“脚本”,展示历史7天的脚本运行记录。 5. 单击某一条运行记录,可查看当时的脚本信息和运行结果。 作业运行历史 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在左侧目录上方,单击运行历史图标,显示该登录用户历史7天的脚本、作业的运行记录。 4. 在过滤框中选择“作业”,展示历史7天的作业运行记录。 5. 单击某一条运行记录,可查看当时的作业信息和日志信息。 说明 如果该作业当时只有部分节点执行测试,则运行历史只展示参与测试运行的节点信息和日志信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        运行历史
      • 配置常见关系数据库目的端参数
        参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 基本参数 自动创表 只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作: 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 先删除后创建:CDM先删除“表名”参数中指定的表,然后再重新创建该表。 不自动创建 基本参数 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 table 基本参数 导入开始前 导入数据前,选择是否清除目的表的数据: 不清除:写入数据前不清除目标表中数据,数据追加写入。 清除全部数据:写入数据前会清除目标表中数据。 清除部分数据:需要配置“where条件”参数,CDM根据条件选择性删除目标表的数据。 清除部分数据 基本参数 where条件 “导入开始前”参数选择为“清除部分数据”时配置,配置后导入前根据where条件删除目的表的数据。 age > 18 and age < 60 基本参数 约束冲突处理 当迁移数据出现冲突时的处理方式。 insert into:当存在主键、唯一性索引冲突时,数据无法写入并将以脏数据的形式存在。 replace into:当存在主键、唯一性索引冲突时,会先删除原有行、再插入新行,替换原有行的所有字段。 on duplicate key update,当存在主键、唯一性索引冲突时,目的表中约束冲突的行除开唯一约束列的其他数据列将被更新。 insert into 基本参数 loader线程数 每个loader内部启动的线程数,可以提升写入并发数。 说明 不支持“约束冲突处理”策略为“replace into”或“on duplicate key update”的并发场景。 1 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态。 默认为“否”,CDM直接将数据导入到目的表。这种情况下如果作业执行失败,已经导入到目标表中的数据不会自动回滚。 说明 如果“导入开始前”选择“清除部分数据”或“清除全部数据”,CDM的事务模式不会回滚已经删除的数据。 否 高级参数 扩大字符字段长度 选择自动创表时,迁移过程中可将字符类型的字段长度扩大为原来的3倍,再写入到目的表中。如果源端数据库与目的端数据库字符编码不一样,但目的表字符类型字段与源表一样,在迁移数据时,可能会有出现长度不足的错误。 说明 当启动该功能时,也会导致部分字段消耗用户相应的3倍存储空间。 否 高级参数 使用非空约束 当选择自动创建目的表时,如果选择使用非空约束,则目的表字段的是否非空约束,与原表具有相应非空约束的字段保持一致。 是 高级参数 导入前准备语句 执行任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句。 create temp table 高级参数 导入后完成语句 执行任务之后执行的SQL语句,目前仅允许执行一条SQL语句。 merge into
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业目的端参数
        配置常见关系数据库目的端参数
      • 如何查看审计日志
        本章节主要介绍如何查看审计日志。 操作场景 在您开启了云审计服务后,系统开始记录CDM的相关操作,云审计服务的管理控制台保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 1.登录管理控制台。 2.单击“服务列表”,选择“管理与部署 > 云审计服务”,进入云审计服务信息页面。 3.单击左侧导航树的“事件列表”,进入事件列表信息页面。 事件列表支持通过筛选来查询对应的操作事件。 4.在需要查看的事件左侧,单击事件名称左边的箭头,展开该记录的详细信息。 5.在需要查看的记录右侧,单击“查看事件”,弹窗中显示了该操作事件结构的详细信息。 更多关于云审计的信息,请参见《云审计服务用户指南》。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        审计
        如何查看审计日志
      • MySQL数据迁移到OBS
        本章节主要介绍MySQL数据迁移到OBS。 操作场景 CDM支持表到OBS的迁移,本章节以MySQL>OBS为例,介绍如何通过CDM将表数据迁移到OBS中。流程如下: 1.创建CDM集群并绑定EIP 2.创建MySQL连接 3.创建OBS连接 4创建迁移作业 前提条件 已获取OBS的访问域名、端口,以及AK、SK。 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。 用户已参考管理驱动,上传了MySQL数据库驱动。 创建CDM集群并绑定EIP 1.参考创建CDM集群,创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 2.CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 说明 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建MySQL连接 1.在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面。 2.选择“MySQL”后单击“下一步”,配置MySQL连接的参数。 单击“显示高级属性”可查看更多可选参数,具体请参见 配置常见关系数据库连接。这里保持默认,必填参数如下表“MySQL连接参数”所示。 参数名 说明 取值样例 名称 输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin 密码 用户的密码。 使用本地API 使用数据库本地API加速(系统会尝试启用MySQL数据库的localinfile系统变量)。 是 使用Agent 是否选择通过Agent从源端提取数据。 是 localinfile字符集 mysql通过localinfile导入数据时,可配置编码格式。 utf8 驱动版本 适配mysql的驱动。 Agent 单击“选择”,选择连接Agent中已创建的Agent。 单次请求行数 指定每次请求获取的行数。 1000 单次提交行数 支持通过agent从源端提取数据 1000 连接属性 自定义连接属性。 useCompressiontrue 引用符号 连接引用表名或列名时的分隔符号。默认为空。 ' 单次写入行数 指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。 100 3.单击“保存”回到连接管理界面。 说明 如果保存时出错,一般是由于MySQL数据库的安全设置问题,需要设置允许CDM集群的EIP访问MySQL数据库。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        MySQL数据迁移到OBS
      • 配置FTP/SFTP源端参数
        本章节主要介绍配置FTP/SFTP源端参数。 作业中源连接为配置FTP/SFTP连接时,源端作业参数如下表所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“l"分隔,也可以自定义文件分隔符。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。 /ftp/a.csvl/ftp/b.txt 基本参数 文件格式 指CDM以哪种格式解析数据,可选择以下格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 CSV格式 基本参数 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 基本参数 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性 换行符 文件中的换行符,默认自动识别“n”、“r”或“rn”。当“文件格式”选择为“CSV格式”时,才有该参数。 n 高级属性 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 高级属性 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 高级属性 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 高级属性 正则表达式 分隔字段的正则表达式。 ^(d.d) (w ) [(.)] ([w.] ) (w.). 高级属性 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。 是 高级属性 编码类型 文件编码类型,例如:“UTF8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 UTF8 高级属性 压缩格式 当“文件格式”为“CSV格式”或“JSON格式”时该参数才显示。选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 高级属性 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则则保持原样传输。当输入或为空时,所有文件都会被解压。 高级属性 源文件处理方式 作业执行成功后对源端文件的处理方式: 不处理。 重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。 删除:作业执行成功后将源文件删除。 不处理 高级属性 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 是 高级属性 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 高级属性 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 高级属性 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为 。 高级属性 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。 无 高级属性 目录过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 input,out 高级属性 文件过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 .csv 高级属性 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 高级属性 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss,90,DAY))}表示:只迁移最近90天内的文件。 20190701 00:00:00 高级属性 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyyMMdd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyyMMdd HH:mm:ss))} 表示:只迁移修改时间为当前时间以前的文件。 20190730 00:00:00 高级属性 加密方式 如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法: 无:不解密,直接导出。 AES256GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES256GCM(NoPadding)。该参数在目的端为加密,在源端为解密。 AES256GCM 高级属性 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 高级属性 数据加密密钥 “加密方式”选择“AES256GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 高级属性 初始化向量 “加密方式”选择“AES256GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F 高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致。 .md5
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理作业
        配置作业源端参数
        配置FTP/SFTP源端参数
      • 下载集群日志
        本章节主要介绍下载集群日志。 操作场景 本章节指导用户获取集群的日志。集群的日志可用于查看作业运行记录,定位作业失败原因等。 前提条件 已创建CDM集群。 操作步骤 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 下载日志”,选择下载日志类型。下载日志类型详见下图 3.确认后,即可下载日志到本地。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        下载集群日志
      • 提交版本并解锁
        版本详情查看 用户可以在版本列表中看到已经提交过的版本信息。 操作如下: 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,双击作业名称,进入作业开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,找到需要查看详情的版本单击“查看”即可。 点击查看,将会打开一个新窗口,展示出该版本的作业定义。查看窗口仅用于展示某个版本的作业属性,不可修改任何作业属性。 详见下图:版本详情查看 版本对比 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,双击作业名称,进入作业开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,勾选需要对比的版本单击“版本对比”即可。 若只勾选一个版本,则比较选中的版本和开发态的作业属性Json。若勾选两个版本,则比较两个版本的作业属性Json。 详见下图:对比版本操作界面
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        提交版本并解锁
      • 重启集群
        本章节主要介绍重启集群。 操作场景 在进行某些配置修改(如关闭用户隔离等)后,需要重启集群才能生效。此时您需要进行集群重启操作。 前提条件 已创建CDM集群。 重启集群 1.登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。集群列表详见下图 说明 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 2.选择集群操作列中的“更多 > 重启”,进入重启集群确认界面。重启集群详见下图 3.您可以选择重启CDM服务进程或重启集群VM,选择完成并点击确认后即可完成集群重启操作。 重启CDM服务进程:只重启CDM服务的进程,不会重启集群虚拟机。 重启集群VM:业务进程会中断,并重启集群的虚拟机。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        管理集群
        重启集群
      • 新建作业
        本章节主要介绍作业开发的新建作业。 作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。开发作业前请先新建作业。 前提条件 作业在每工作空间的最大配额为10000,请确保当前作业的数量未达到最大配额。 新建目录(可选) 如果已存在可用的目录,可以不用新建目录。 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 在作业目录中,右键单击目录名称,选择“新建目录”。 4. 在弹出的“新建目录”页面,配置如下表所示的参数。 作业目录参数 参数 说明 目录名称 作业目录的名称,只能包含英文字母、数字、中文字符、“”、“”,且长度为1~64个字符。 选择目录 选择该作业目录的父级目录,父级目录默认为根目录。 5. 单击“确定”,新建目录。 新建作业 默认作业的最大配额是10000,请确保当前作业的数量未达到最大配额。 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 3. 新建作业的方式有如下两种: a.在“作业开发”界面中,单击“新建作业”。 详见下图:新建作业(方式一) b.在作业目录中,右键单击目录名称,选择“新建作业”。 详见下图:新建作业(方式二) 4. 在弹出的“新建作业”页面,配置如下表所示的参数。 作业参数 参数 说明 作业名称 自定义作业的名称,只能包含英文字母、数字、中文、“”、“”、“.”,且长度为1~128个字符。 作业类型 选择作业的类型。 批处理作业:按调度计划定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。批处理作业可以配置作业级别的调度任务,即以作业为一整体进行调度,具体请参见调度作业章节中的“配置作业调度任务(批处理作业)”。 实时处理作业:处理实时的连续数据,主要用于实时性要求高的场景。实时作业是由一个或多个节点组成的业务关系,每个节点可单独被配置调度策略,而且节点启动的任务可以永不下线。在实时作业里,带箭头的连线仅代表业务上的关系,而非任务执行流程,更不是数据流。实时处理作业可以配置节点级别的调度任务,即每一个节点可以独立调度,具体请参见调度作业章节中的 配置节点调度任务(实时作业)。 创建方式 选择作业的创建方式。 创建空作业:创建一个空的作业。 基于模板创建:使用数据开发模块提供的模板来创建。 选择目录 选择作业所属的目录,默认为根目录。 责任人 填写该作业的责任人。 作业优先级 选择作业的优先级,提供高、中、低三个等级。 委托配置 配置委托后,作业执行过程中,以委托的身份与其他服务交互。若该工作空间已配置过委托,参见配置委托章节中的“配置工作空间级委托”,则新建的作业默认使用该工作空间级委托。您也可参见配置委托章节中的“配置作业级委托”,修改为作业级委托。 说明 作业级委托优先于工作空间级委托。 日志路径 选择作业日志的OBS存储路径。日志默认存储在以dlflog{Projectid}命名的桶中。 说明 若您想自定义存储路径,请选择您已在OBS服务侧创建的桶。 请确保您已具备该参数所指定的OBS路径的读、写权限,否则系统将无法正常写日志或显示日志。 5. 单击“确定”,创建作业。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        作业开发
        新建作业
      • 批量解锁
        本章节主要介绍(可选)管理脚本的批量解锁。 数据开发模块提供了批量解锁脚本的功能,您可参照本节内容对锁定的脚本进行批量解锁。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 单击脚本目录中的,选择“显示复选框”。 详见下图:显示脚本复选框 4. 勾选需要解锁的脚本,单击 > 批量解锁。弹出“解锁成功”提示。 详见下图:批量解锁
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        批量解锁
      • 迁移脚本责任人
        本章节主要介绍(可选)管理脚本的 迁移脚本责任人。 数据开发模块提供了迁移脚本责任人的功能,您可以将责任人A的所有脚本一键迁移到责任人B名下。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录顶部,单击,选择“责任人配置”。 4. 分别设置“当前责任人”和“目标责任人”,单击“迁移”。 5. 提示迁移成功后,单击“关闭”。 相关操作 您还可以根据脚本责任人筛选脚本,在脚本目录上方的搜索框输入责任人,单击放大镜图标,如下图所示。 根据脚本责任人筛选脚本
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        迁移脚本责任人
      • 复制脚本
        本章节主要介(可选)管理脚本的复制脚本。 本章节主要介绍如何复制一个脚本。 前提条件 已完成脚本开发。如何开发脚本,请参见开发脚本。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要要复制的脚本,右键单击脚本名称,选择“拷贝另存为”。 4. 在弹出的“另存为”页面,配置如下表所示的参数。 脚本目录参数 参数 说明 脚本名称 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 说明 复制后的脚本名称不能和原脚本名称相同。 选择目录 选择该脚本目录的父级目录,父级目录默认为根目录。 5. 单击“确定”,复制脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        复制脚本
      • 移动脚本/脚本目录
        参数 说明 选择目录 选择脚本或脚本目录要移动到的目录,父级目录默认为根目录。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        移动脚本/脚本目录
      • 开发Python脚本
        本章节主要介绍开发脚本的开发Python脚本。 对Python脚本进行在线开发、调试和执行,开发完成的脚本也可以在作业中执行(请参见开发作业)。 前提条件 已新增Python脚本,请参见新建脚本。 已新建主机连接,该主机配有用于执行Python脚本的环境。新建主机连接请参见下表。 当前用户已锁定该脚本,否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定,详情参见下方编辑锁定功能。 约束限制 Python脚本暂不支持脚本参数及作业参数。 操作步骤 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中,双击脚本名称,进入脚本开发页面。 4. 在编辑器上方,配置执行Python脚本的主机连接。 5. 在编辑器中编辑Python语句。为了方便脚本开发,数据开发模块提供了如下能力: − 脚本编辑器支持使用如下快捷键,以提升脚本开发效率。 Ctrl + /:注释或解除注释光标所在行或代码块 Ctrl + S:保存 Ctrl + Z:撤销 Ctrl + Y:重做 Ctrl + F:查找 Ctrl + Shift + R:替换 Ctrl + X:剪切,光标未选中时剪切一行 Alt + 鼠标拖动:列模式编辑,修改一整块内容 Ctrl + 鼠标点选:多列模式编辑,多行缩进 Shift + Ctrl + K:删除当前行 Ctrl + →或Ctrl + ←:向右或向左按单词移动光标 Ctrl + Home或Ctrl + End:移至当前文件的最前或最后 Home或End:移至当前行最前或最后 Ctrl + Shift + L:鼠标双击相同的字符串后,为所有相同的字符串添加光标,实现批量修改 − 支持设置脚本责任人 单击编辑器右侧的“脚本基本信息”,可设置脚本的责任人和描述信息。 6. 在编辑器上方,单击“运行”。Python语句运行完成后,在编辑器下方可以查看脚本的执行历史和执行结果。 说明 对于执行结果支持如下操作: 重命名:可通过双击执行结果页签的名称进行重命名,也可通过右键单击执行结果页签的名称,单击“重命名”。重命名不能超过16个字符。 可通过右键单击执行结果页签的名称关闭当前页签、关闭左侧页签、关闭右侧页签、关闭其它页签、关闭所有页签。 7. 在编辑器上方,单击,保存脚本。 如果脚本是新建且未保存过的,请配置如下表所示的参数。 保存脚本 参数 是否必选 说明 脚本名称 是 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 描述 否 脚本的描述信息。 选择目录 是 选择脚本所属的目录,默认为根目录。 说明 如果脚本未保存,重新打开脚本时,可以从本地缓存中恢复脚本内容。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        开发脚本
        开发Python脚本
      • 提交版本并解锁
        前提条件 已完成脚本开发任务。 提交版本并解锁 “提交”会将当前开发态的最新脚本保存并提交为版本,并覆盖之前的脚本版本。为了便于后续其他开发者对此脚本进行修改,建议您在“提交”后通过“解锁”解除该脚本锁定。 1.登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2.在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3.在脚本目录中,双击已开发完成的脚本名称,进入脚本开发页面。 4.在脚本编辑器上方单击“提交”,提交版本描述内容长度最多为128个字符,并勾选是否在下个调度周期使用新版本,不勾选则无法点击确认。 详见下图:提交 5.“提交”后在脚本编辑器上方单击“解锁”,解除锁定,便于后续其他开发者对此脚本进行修改更新。 详见下图:解锁 版本回滚 提交版本后,可以在版本列表中看到已经提交过的版本信息(当前最多保存最近10条版本信息)。点击“回滚”,可以回退到任意一个已提交的版本。 回滚内容包括: DLI:数据连接、数据库、资源队列、脚本内容。 DWS:数据连接、数据库、脚本内容。 HIVE:数据连接、数据库、资源队列、脚本内容。 SPARK:数据连接、数据库、脚本内容。 SHELL:主机连接、参数、交互式参数、脚本内容。 RDS:数据连接、数据库、脚本内容。 PRESTO:数据连接、模式、脚本内容。 PYTHON:主机连接、参数、交互式参数、脚本内容。 FLINK:脚本内容。 操作如下: 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中,双击脚本名称,进入脚本开发页面。 4. 在页面右侧单击“版本”,查看版本提交记录,找到需要回滚的版本单击“回滚”即可。 如果当前有开发态的编辑内容没有提交,将会被覆盖。回滚之后需要重新提交才能生效,调度默认使用最新提交的版本进行调度。 详见下图:版本回滚
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        提交版本并解锁
      • 复制名称与重命名脚本
        本章节主要介绍(可选)管理脚本的复制名称与重命名脚本。 您可以通过复制名称功能复制当前脚本名称,通过重命名功能修改当前脚本名称。 前提条件 已完成脚本开发。如何开发脚本,请参见开发脚本。 复制名称 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要复制名称的脚本,右键单击脚本名称,选择“复制名称”,即可复制名称到剪贴板。 重命名脚本 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 3. 在脚本目录中选择需要重命名的脚本,右键单击脚本名称,选择“重命名”。 说明 已经打开了的脚本文件不支持重命名。 4. 在弹出的“重命名脚本名称”页面,配置新脚本名称。 详见下图:重命名脚本名称 重命名脚本参数 参数 说明 脚本名称 脚本的名称,只能包含字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。 5. 单击“确定”,重命名脚本。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        脚本开发
        (可选)管理脚本
        复制名称与重命名脚本
      • (可选)新建数据库模式
        本章节主要介绍数据管理的(可选)新建数据库模式。 DWS数据连接创建完成后,用户可以在右侧区域中管理DWS数据连接的数据库模式。 前提条件 已新建DWS数据连接,请参见 新建数据连接。 已新建DWS数据库,请参见 新建数据库。 新建数据库模式 1. 登录DataArts Studio控制台。选择实例,点击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。 详见下图:选择数据开发 2. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 3. 在左侧菜单选择,单击DWS数据连接名称,选择需配置的数据库,展开目录层级至“schemas”,右键单击“schemas”,选择“新建模式”。 4. 在弹出的“新建模式”页面,配置如下表所示的参数。 新建模式 参数 是否必选 说明 模式名称 是 数据库模式的名称。 描述 否 数据库模式的描述信息。 5. 单击“确定”,新建数据库模式。 修改数据库模式 1. 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”或“数据开发 > 作业开发”。 2. 在左侧菜单选择,单击数据连接名称,选择数据库,目录层级展开至需要修改的数据库模式,右键单击数据库模式名称,选择“修改”。 3. 在弹出的“修改模式”页面,修改数据库模式的描述信息。 4. 单击“确定”,保存修改。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据开发
        数据管理
        (可选)新建数据库模式
      • 查看表
        本章节主要介绍查看表操作。 对于关系模型中的表,您可以查看模型视图、表详情、关系图、预览SQL以及发布历史。 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 1.在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 2.在关系模型树中选择所需要模型,展开模型树,选择一个对象。 3.关系模型页面默认显示为列表视图,单击列表右上方的“模型视图”按钮,切换为模型视图,如下图所示。单击“列表视图”则可以重新切换回列表视图。 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。 查看表详情以及预览SQL 1.在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 2.在模型总览中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选中一个主题,右侧的列表中将显示该主题下所有的表。 3.在表的列表中,找到需要查看详情以及预览SQL的表,在表所在行,单击“更多 > 预览SQL”可以预览SQL或复制SQL。完成预览后单击“确定”返回关系模型的列表页面。 4.在表的列表中,单击表名称进入表详情页面,可以查看表的详情、关系图、发布历史和审核历史。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据架构
        通用操作
        查看表
      • 新建复合指标
        编辑复合指标 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 3. 根据实际需要修改配置参数。参数说明请参见上表。 4. 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 5. 如果试运行成功,单击“发布”,提交发布审核。 6. 在弹出框中单击“确认提交”,提交审核。 发布复合指标 当您新建或编辑复合指标后,需要发布复合指标,才能使其生效。如果复合指标处于待发布、已发布或待下线状态,则无法发布。 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,勾选需要发布的复合指标,单击“发布”按钮,弹出“批量发布”对话框。 3. 确认无误后,单击“确认提交”,提交审核。 查看发布历史 1. 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 2. 在复合指标列表中,找到需要查看的复合指标,单击“更多 > 发布历史”,将显示“发布历史”页面。 3. 在“发布历史”中,您可以查看复合指标的发布历史和版本对比信息。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据架构
        指标设计
        技术指标
        新建复合指标
      • 正则表达式分隔半结构化文本
        列号 样值 1 20180111 08:50:59,001 2 INFO 3 org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251) 4 Adding jars to current classloader from property: org.apache.sqoop.classpath.extra
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        正则表达式分隔半结构化文本
      • 文件增量迁移
        本章节主要介绍文件增量迁移。 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 1.增量导出指定目录的文件 −适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量迁移方式,只追加写入文件,不会更新或删除已存在的记录。 −关键配置:文件/路径过滤器+定时执行作业。 −前提条件:源端目录或文件名带有时间字段。 2.增量导出指定时间以后的文件 −适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间晚于指定的时间,CDM才迁移该文件。 −关键配置:时间过滤+定时执行作业。 −前提条件:无。 文件/路径过滤器 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。 参数原理:“过滤类型”选择“通配符”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。 配置样例: 例如源端文件名带有时间字段“20171015 20:25:26”,这个时刻生成的文件为“/opt/data/file20171015202526.data”,则在创建作业时,参数配置如下: a.过滤类型:选择“通配符”。 b.文件过滤器:配置为“ ${dateformat(yyyyMMdd,1,DAY)} ” (这是CDM支持的日期宏变量格式,详见 时间宏变量使用解析)。 c.配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        增量迁移原理介绍
        文件增量迁移
      • 字段转换
        本章节主要介绍字段转换。 在创建表/文件迁移作业的字段映射界面,可新建字段转换器,如下图示。 图 新建字段转换器 说明 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 CDM可以在迁移过程中对字段进行转换,目前支持以下字段转换器: 脱敏 去前后空格 字符串反转 字符串替换 去换行 表达式转换 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“1238910”,则配置如下: “起始保留长度”为“3”。 “结尾保留长度”为“4”。 “替换字符”为“”。 详见下图:字段脱敏 去前后空格 自动去字符串前后的空值,不需要配置参数。 字符串反转 自动反转字符串,例如将“ABC”转换为“CBA”,不需要配置参数。 字符串替换 替换字符串,需要用户配置被替换的对象,以及替换后的值。 去换行 将字段中的换行符(n、r、rn)删除。 表达式转换 使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数,浮点数,字符串,常量true、false和null。 表达式支持以下两个环境变量: value:当前字段值。 row:当前行,数组类型。 表达式支持以下工具类: StringUtils:字符串处理类,参考Java SDK代码的包结构“org.apache.commons.lang.StringUtils”。 DateUtils:日期工具类。 CommonUtils:公共工具类。 NumberUtils:字符串转数值类。 HttpsUtils:读取网络文件类。 应用举例: 1. 如果当前字段为字符串类型,将字符串全部转换为小写,例如将“aBC”转换为“abc”。 表达式:StringUtils.lowerCase(value) 2. 将当前字段的字符串全部转为大写。 表达式:StringUtils.upperCase(value) 3. 如果当前字段值为“yyyyMMdd”格式的日期字符串,需要截取年,例如字段值为“20171201”,转换后为“2017”。 表达式:StringUtils.substringBefore(value,"") 4. 如果当前字段值为数值类型,转换后值为当前值的两倍。 表达式:value2 5. 如果当前字段值为“true”,转换后为“Y”,其它值则转换后为“N”。 表达式:value"true"?"Y":"N" 6. 如果当前字段值为字符串类型,当为空时,转换为“Default”,否则不转换。 表达式:empty value? "Default":value 7. 如果想将日期字段格式从“2018/01/05 15:15:05”转换为“20180105 15:15:05”。 表达式:DateUtils.format(DateUtils.parseDate(value,"yyyy/MM/dd HH:mm:ss"),"yyyyMMdd HH:mm:ss") 8. 获取一个36位的UUID(Universally Unique Identifier,通用唯一识别码)。 表达式:CommonUtils.randomUUID() 9. 如果当前字段值为字符串类型,将首字母转换为大写,例如将“cat”转换为“Cat”。 表达式:StringUtils.capitalize(value) 10. 如果当前字段值为字符串类型,将首字母转换为小写,例如将“Cat”转换为“cat”。 表达式:StringUtils.uncapitalize(value) 11. 如果当前字段值为字符串类型,使用空格填充为指定长度,并且将字符串居中,当字符串长度不小于指定长度时不转换,例如将“ab”转换为长度为4的“ab”。 表达式:StringUtils.center(value,4) 12. 删除字符串末尾的一个换行符(包括“n”、“r”或者“rn”),例如将“abcrnrn”转换为“abcrn”。 表达式:StringUtils.chomp(value) 13. 如果字符串中包含指定的字符串,则返回布尔值true,否则返回false。例如“abc”中包含“a”,则返回true。 表达式:StringUtils.contains(value,"a") 14. 如果字符串中包含指定字符串的任一字符,则返回布尔值true,否则返回false。例如“zzabyycdxx”中包含“z”或“a”任意一个,则返回true。 表达式:StringUtils.containsAny("value","za") 15. 如果字符串中不包含指定的所有字符,则返回布尔值true,包含任意一个字符则返回false。例如“abz”中包含“xyz”里的任意一个字符,则返回false。 表达式:StringUtils.containsNone(value,"xyz") 16. 如果当前字符串只包含指定字符串中的字符,则返回布尔值true,包含任意一个其它字符则返回false。例如“abab”只包含“abc”中的字符,则返回true。 表达式:StringUtils.containsOnly(value,"abc") 17. 如果字符串为空或null,则转换为指定的字符串,否则不转换。例如将空字符转换为null。 表达式:StringUtils.defaultIfEmpty(value,null) 18. 如果字符串以指定的后缀结尾(包括大小写),则返回布尔值true,否则返回false。例如“abcdef”后缀不为null,则返回false。 表达式:StringUtils.endsWith(value,null) 19. 如果字符串和指定的字符串完全一样(包括大小写),则返回布尔值true,否则返回false。例如比较字符串“abc”和“ABC”,则返回false。 表达式:StringUtils.equals(value,"ABC") 20. 从字符串中获取指定字符串的第一个索引,没有则返回整数1。例如从“aabaabaa”中获取“ab”的第一个索引1。 表达式:StringUtils.indexOf(value,"ab") 21. 从字符串中获取指定字符串的最后一个索引,没有则返回整数1。例如从“aFkyk”中获取“k”的最后一个索引4。 表达式:StringUtils.lastIndexOf(value,"k") 22. 从字符串中指定的位置往后查找,获取指定字符串的第一个索引,没有则转换为“1”。例如“aabaabaa”中索引3的后面,第一个“b”的索引是5。 表达式:StringUtils.indexOf(value,"b",3) 23. 从字符串获取指定字符串中任一字符的第一个索引,没有则返回整数1。例如从“zzabyycdxx”中获取“z”或“a”的第一个索引0。 表达式:StringUtils.indexOfAny(value,"za") 24. 如果字符串仅包含Unicode字符,返回布尔值true,否则返回false。例如“ab2c”中包含非Unicode字符,返回false。 表达式:StringUtils.isAlpha(value) 25. 如果字符串仅包含Unicode字符或数字,返回布尔值true,否则返回false。例如“ab2c”中仅包含Unicode字符和数字,返回true。 表达式:StringUtils.isAlphanumeric(value) 26. 如果字符串仅包含Unicode字符、数字或空格,返回布尔值true,否则返回false。例如“ab2c”中仅包含Unicode字符和数字,返回true。 表达式:StringUtils.isAlphanumericSpace(value) 27. 如果字符串仅包含Unicode字符或空格,返回布尔值true,否则返回false。例如“ab2c”中包含Unicode字符和数字,返回false。 表达式:StringUtils.isAlphaSpace(value) 28. 如果字符串仅包含ASCII可打印字符,返回布尔值true,否则返回false。例如“!abc~”返回true。 表达式:StringUtils.isAsciiPrintable(value) 29. 如果字符串为空或null,返回布尔值true,否则返回false。 表达式:StringUtils.isEmpty(value) 30. 如果字符串中仅包含Unicode数字,返回布尔值true,否则返回false。 表达式:StringUtils.isNumeric(value) 31. 获取字符串最左端的指定长度的字符,例如获取“abc”最左端的2位字符“ab”。 表达式:StringUtils.left(value,2) 32. 获取字符串最右端的指定长度的字符,例如获取“abc”最右端的2位字符“bc”。 表达式:StringUtils.right(value,2) 33. 将指定字符串拼接至当前字符串的左侧,需同时指定拼接后的字符串长度,如果当前字符串长度不小于指定长度,则不转换。例如将“yz”拼接到“bat”左侧,拼接后长度为8,则转换后为“yzyzybat”。 表达式:StringUtils.leftPad(value,8,"yz") 34. 将指定字符串拼接至当前字符串的右侧,需同时指定拼接后的字符串长度,如果当前字符串长度不小于指定长度,则不转换。例如将“yz”拼接到“bat”右侧,拼接后长度为8,则转换后为“batyzyzy”。 表达式:StringUtils.rightPad(value,8,"yz") 35. 如果当前字段为字符串类型,获取当前字符串的长度,如果该字符串为null,则返回0。 表达式:StringUtils.length(value) 36. 如果当前字段为字符串类型,删除其中所有的指定字符串,例如从“queued”中删除“ue”,转换后为“qd”。 表达式:StringUtils.remove(value,"ue") 37. 如果当前字段为字符串类型,移除当前字段末尾指定的子字符串。指定的子字符串若不在当前字段的末尾,则不转换,例如移除当前字段“www.ctyun.cn”后的“.cn”。 表达式:StringUtils.removeEnd(value,".cn") 38. 如果当前字段为字符串类型,移除当前字段开头指定的子字符串。指定的子字符串若不在当前字段的开头,则不转换,例如移除当前字段“www.ctyun.cn”前的“www.”。 表达式:StringUtils.removeStart(value,"www.") 39. 如果当前字段为字符串类型,替换当前字段中所有的指定字符串,例如将“aba”中的“a”用“z”替换,转换后为“zbz”。 表达式:StringUtils.replace(value,"a","z") 40. 如果当前字段为字符串类型,一次替换字符串中的多个字符,例如将字符串“hello”中的“h”用“j”替换,“o”用“y”替换,转换后为“jelly”。 表达式:StringUtils.replaceChars(value,"ho","jy") 41. 如果字符串以指定的前缀开头(区分大小写),则返回布尔值true,否则返回false,例如当前字符串“abcdef”以“abc”开头,则返回true。 表达式:StringUtils.startsWith(value,"abc") 42. 如果当前字段为字符串类型,去除字段中所有指定的字符,例如去除“abcyx”中所有的“x”、“y”和“z”,转换后为“abc”。 表达式:StringUtils.strip(value,"xyz") 43. 如果当前字段为字符串类型,去除字段末尾所有指定的字符,例如去除当前字段末尾的所有空格。 表达式:StringUtils.stripEnd(value,null) 44. 如果当前字段为字符串类型,去除字段开头所有指定的字符,例如去除当前字段开头的所有空格。 表达式:StringUtils.stripStart(value,null) 45. 如果当前字段为字符串类型,获取字符串指定位置后(不包括指定位置的字符)的子字符串,指定位置如果为负数,则从末尾往前计算位置。例如获取“abcde”第2个字符后的字符串,则转换后为“cde”。 表达式:StringUtils.substring(value,2) 46. 如果当前字段为字符串类型,获取字符串指定区间的子字符串,区间位置如果为负数,则从末尾往前计算位置。例如获取“abcde”第2个字符后、第5个字符前的字符串,则转换后为“cd”。 表达式:StringUtils.substring(value,2,5) 47. 如果当前字段为字符串类型,获取当前字段里第一个指定字符后的子字符串。例如获取“abcba”中第一个“b”之后的子字符串,转换后为“cba”。 表达式:StringUtils.substringAfter(value,"b") 48. 如果当前字段为字符串类型,获取当前字段里最后一个指定字符后的子字符串。例如获取“abcba”中最后一个“b”之后的子字符串,转换后为“a”。 表达式:StringUtils.substringAfterLast(value,"b") 49. 如果当前字段为字符串类型,获取当前字段里第一个指定字符前的子字符串。例如获取“abcba”中第一个“b”之前的子字符串,转换后为“a”。 表达式:StringUtils.substringBefore(value,"b") 50. 如果当前字段为字符串类型,获取当前字段里最后一个指定字符前的子字符串。例如获取“abcba”中最后一个“b”之前的子字符串,转换后为“abc”。 表达式:StringUtils.substringBeforeLast(value,"b") 51. 如果当前字段为字符串类型,获取嵌套在指定字符串之间的子字符串,没有匹配的则返回null。例如获取“tagabctag”中“tag”之间的子字符串,转换后为“abc”。 表达式:StringUtils.substringBetween(value,"tag") 52. 如果当前字段为字符串类型,删除当前字符串两端的控制字符(char≤32),例如删除字符串前后的空格。 表达式:StringUtils.trim(value) 53. 将当前字符串转换为字节,如果转换失败,则返回0。 表达式:NumberUtils.toByte(value) 54. 将当前字符串转换为字节,如果转换失败,则返回指定值,例如指定值配置为1。 表达式:NumberUtils.toByte(value,1) 55. 将当前字符串转换为Double数值,如果转换失败,则返回0.0d。 表达式:NumberUtils.toDouble(value) 56. 将当前字符串转换为Double数值,如果转换失败,则返回指定值,例如指定值配置为1.1d。 表达式:NumberUtils.toDouble(value,1.1d) 57. 将当前字符串转换为Float数值,如果转换失败,则返回0.0f。 表达式:NumberUtils.toFloat(value) 58. 将当前字符串转换为Float数值,如果转换失败,则返回指定值,例如配置指定值为1.1f。 表达式:NumberUtils.toFloat(value,1.1f) 59. 将当前字符串转换为Int数值,如果转换失败,则返回0。 表达式:NumberUtils.toInt(value) 60. 将当前字符串转换为Int数值,如果转换失败,则返回指定值,例如配置指定值为1。 表达式:NumberUtils.toInt(value,1) 61. 将字符串转换为Long数值,如果转换失败,则返回0。 表达式:NumberUtils.toLong(value) 62. 将当前字符串转换为Long数值,如果转换失败,则返回指定值,例如配置指定值为1L。 表达式:NumberUtils.toLong(value,1L) 63. 将字符串转换为Short数值,如果转换失败,则返回0。 表达式:NumberUtils.toShort(value) 64. 将当前字符串转换为Short数值,如果转换失败,则返回指定值,例如配置指定值为1。 表达式:NumberUtils.toShort(value,1) 65. 将当前IP字符串转换为Long数值,例如将“10.78.124.0”转换为LONG数值是“172915712”。 表达式:CommonUtils.ipToLong(value) 66. 从网络读取一个IP与物理地址映射文件,并存放到Map集合,这里的URL是IP与地址映射文件存放地址,例如“ 表达式:HttpsUtils.downloadMap("url") 67. 将IP与地址映射对象缓存起来并指定一个key值用于检索,例如“ipList”。 表达式:CommonUtils.setCache("ipList",HttpsUtils.downloadMap("url")) 68. 取出缓存的IP与地址映射对象。 表达式:CommonUtils.getCache("ipList") 69. 判断是否有IP与地址映射缓存。 表达式:CommonUtils.cacheExists("ipList") 70. 根据指定的偏移类型(month/day/hour/minute/second)及偏移量(正数表示增加,负数表示减少),将指定格式的时间转换为一个新时间,例如将“20190521 12:00:00”增加8个小时。 表达式:DateUtils.getCurrentTimeByZone("yyyyMMdd HH:mm:ss",value, "hour", 8)
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        进阶实践
        字段转换
      • DDS数据迁移到DWS
        参数名 说明 取值样例 名称 输入便于记忆和区分的连接名称。 dwslink 数据库服务器 DWS数据库的IP地址或域名。 192.168.0.3 端口 DWS数据库的端口。 8000 数据库名称 DWS数据库的名称。 dbdemo 用户名 拥有DWS数据库的读、写和删除权限的用户。 dbadmin 密码 用户的密码。 使用Agent 是否选择通过Agent从源端提取数据。 是 Agent 单击“选择”,选择
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        数据集成
        使用教程
        DDS数据迁移到DWS
      • 1
      • ...
      • 156
      • 157
      • 158
      • 159
      • 160
      • ...
      • 164
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      物理机 DPS

      镜像服务 IMS

      轻量型云主机

      弹性伸缩服务 AS

      天翼云CTyunOS系统

      AI Store

      公共算力服务

      应用托管

      科研助手

      推荐文档

      导出数据

      只读实例简介

      产品功能

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号