前提条件
已拥有数据集成角色权限
完成来源数据源以及目标源源数据源的接入工作。
完成对来源数据源以及目标数据源的元数据采集。
使用限制
来源数据源以及目标数据源完成授权。
来源数据表以及目标数据表完成授权。
来源数据表以及目标数据表完成建模。
使用说明
整库同步任务采用引导式配置方式,一共分为以下5个步骤:
1.新建整库同步任务
2.定义来源端与目标端
3.配置资源队列
4.配置目标表映射
5.调度信息配置
配置过程
第一步:新建整库同步任务
在整库同步任务管理页面,点击新建任务按钮,新建任务。
在弹出的弹窗中,输入任务的基础信息
第二步:定义来源端与目标端
来源端配置
整库同步来源端有两种数据表同步方式
全表同步
全表同步表示将所选的来源库中的所有表同步至目标库中
部分表同步
部分表同步表示将来源库中的部分表同步至目标库中,用户可自行选择需要同步的数据表。
来源配置还包括编码、并发度、每次抽取数据量等。
目标端配置
目标端选择需要存放数据表的数据源,并支持配置写入方式为覆盖或追加。支持压缩格式配置与并发度配置。
第三步:配置资源队列
资源配置中选择对应的yarn资源、生产队列、测试队列信息,点击“下一步”,进入到字段映射配置中。
第四步:配置目标表映射
当目标库中存在与所选数据表名称相同的物理表时,系统会自动匹配并建立字段映射关系。
若目标库中不存在与所选数据表名称相同的物理表,用户可以进行异名数据表映射并手动建立字段映射关系。
若目标库中不存在数据表,则需先通过数据建模功能建立数据模型与物化物理表。
第五步:调度信息配置
在任务页面右侧悬浮球中,可以进行调度配置。
调度配置分为以下几个部分:
基本信息
任务名称:默认与任务英文名保持一致,不可更改。
优先级:分为极高、高、中、极低等5个优先级,可根据实际情况配置,默认为中。
运维负责人:可指定该任务的运维负责人。
调度信息
实例化规则:分为1:1及1:N两种情况:
1:1:指一个任务生成1个运行实例。
1:N:指一个任务生成N个运行实例。
生效时间:指当前任务开始生效的时间,默认时间为当天00:00。
失效时间:指该周期任务执行到什么时间失效,默认为2999-12-31.
执行周期:指该周期任务的周期类型,分为月、日、小时、分钟,本案例中配置为日周期任务。
执行时间:指任务实例开始运行的具体时间。根据不同的执行周期,具有不同的含义及填写内容:
若执行周期为月:执行时间配置项为每月X号X时X分,如每月1日12时00分运行实例。
若执行周期为日:执行时间配置项为每日X时X分,如每日00时00分运行实例。
若执行周期为小时:执行时间配置项为每小时X分起,如每小时5分起运行实例,注意此处的范围为0~59.
若执行周期为分钟:执行时间配置项为每分钟X秒起,如每分钟5秒起运行实例,注意此处的范围为0~59.
crontab表达式:由上述执行周期与执行时间配置组合出的表达式,不可编辑。
最近执行时间:指预计该任务上线后,各实例运行的时间,不可编辑。
任务信息
标识该任务属于何种业务,每个业务模块默认,不可编辑,用户无需关心此项配置。
运行信息
运行约束:用于定义同一任务中不同实例的依赖情况,默认为并行启动。
自依赖:当前的周期实例的执行,必须要等到上个周期实例执行成功后才能开始执行。
并行启动:任务的多个周期实例,可以一起运行,相互之间没有依赖关系。
串行启动:当前的周期实例的执行,只需要上一个周期实例是运行结束状态即可(不管成功与否)。
实例生成:用于定义任务实例的生成时间,默认为次日生成。
当天生成:任务上线后,实例当天就开始生成。
次日生成:任务上线后,实例第二天才开始生成。
调度集群组:需选择用于调度的调度集群组,默认为default集群组。若有其他集群组也可选择。
业务时间偏移:对于数据的账期偏移量。偏移量的值为0至负数。如当前日期为2025年1月15日,以下对一些数值进行说明:
业务时间偏移填写0:表示该任务采集的是数据日期为当日的数据,即任务实例运行时,采集数据时间为2025年1月15日的数据。
业务时间偏移填写-1:表示该任务采集的是数据日期为前一日的数据,即任务实例运行时,采集数据时间为2025年1月14日的数据。
业务时间偏移填写-2:表示该任务采集的是数据日期为前两日的数据,即任务实例运行时,采集数据时间为2025年1月13日的数据。
依此类推。
此处需注意,增量同步中,若增量条件也配置了时间相关的变量,此时增量条件中的时间变量受到业务偏移量的影响。
以本案例为例,增量条件中配置了时间变量${batchNo?calDate(0,'D')},若业务偏移填写为-1,则增量条件中表示为采集前一天的数据。若业务偏移填写为0,则增量条件中表示为采集当天的数据。
重试次数:指当任务实例失败后,需要自动重试的次数。
重试时间间隔:指当任务实例失败后,每次自动重试的时间间隔。
任务超时时长:可设置定义任务超时的时长。默认为7200秒。
任务依赖信息
依赖列表:指不同任务间的依赖关系配置列表。
调度参数信息
程序参数:用于扩展额外的配置项,以k-v的形式进行录入,如有特殊情况需要可以添加配置项,无额外需求可不配置此项。