新建任务入口
在任务配置页面,单击新增任务 ,选择离线同步模板进行离线同步任务配置。
填写基本信息
基本信息 | 说明 |
---|---|
任务名称 | 数据接入任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~128个字符。 |
任务分组 | 任务所属分组。 |
描述 | 对任务的说明。 |
配置数据来源与去向
完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。
数据来源
基本信息 | 说明 |
---|---|
数据源类型 | 必填项,选择数据源类型 |
数据源名称 | 必填项,选择数据源名称 |
数据库 | 必填项,内容为所选数据源配置的数据库 |
表 | 必填项,所选数据库的已有数据表 |
读取模式 | 必填项,每次同步任务时读取全量数据还是仅读取上次同步后的增量数据 |
过滤条件 | 非必填项,按列设置过滤规则,可添加一或多组条件,条件默认为AND关系 |
完成数据来源的配置后,可以在下方配置数据去向的数据源,以及需要写入的表信息等。
数据去向
此处以Doris为例:
基本信息 | 说明 |
---|---|
数据源类型 | 必填项,选择数据源类型 |
数据源名称 | 必填项,选择数据源名称 |
库选择 | 必填项,选择数据库 |
表选择 | 必填项,选择数据表 |
导入方式 | Doris默认导入方式为Stream load,说明如下:Stream load: 流式导入数据(本地文件及内存数据),允许用户通过Http访问的方式将CSV格式或JSON格式的数据批量地导入Doris;JDBC: 通过INSERT方式导入数据 |
配置字段映射
在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持同名映射 、同行映射以及自定义映射。
来源表字段信息 | 说明 |
---|---|
同名映射 | 根据字段名称建立映射关系,首次显示字段时,默认采取同名映射。无法映射的部分,目标表字段按照表中字段顺序依次填入选择框中,来源表字段处保留选择框为空,用户可自行匹配字段。 |
同行映射 | 来源表字段和目标表字段均按照表中的字段顺序填入选择框中。显示的行数量以来源表和目标表中字段数量少的为准。 |
取消映射 | 取消映射后,用户可自行选择源表字段来对应目标表字段。 |
运行配置
确认同步任务配置参数,用户可使用默认参数或修改对应参数。
任务配置 | 说明 |
---|---|
执行队列 | 执行同步任务的队列名称 |
TaskSlot并发数 | taskmanager.numberOfTaskSlots |
jobmanager内存配置 | jobmanager.memory.process.size |
jobmanager flink内存配置 | jobmanager.memory.flink.size |
taskmanager内存配置 | taskmanager.memory,process.size |
taskmanager flink内存配置 | taskmanager.memory.flink.size |
状态保存点 | statesavepoints.dir |
状态检查点 | state.checkpoints. dir |