活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      大数据管理平台 DataWings

      大数据管理平台 DataWings

        • 产品动态
        • 产品介绍
        • 产品定义
        • 产品优势
        • 应用场景
        • 核心能力
        • 计费说明
        • 产品规格
        • 计费模式
        • 公测申请
        • 续订/退订
        • 快速入门
        • 客户控制台
        • 创建集群
        • 引擎配置
        • 创建数据源
        • 添加库表HDFS权限
        • 用户指南
        • 首页
        • 数据源
        • 数据源概述
        • 数据源管理
        • 数据建模
        • 数据建模概述
        • 建模首页
        • 数据标准
        • 命名词典
        • 字段标准
        • 标准值域
        • 度量单位
        • 规范管理
        • 标准配置
        • 数仓规划
        • 业务分类
        • 数仓分层
        • 规划配置
        • 数仓要素
        • 数据指标
        • 原子指标
        • 业务限定
        • 统计周期
        • 维度
        • 派生指标
        • 复合指标
        • 规范建模
        • 维度建模
        • 可视化建模
        • 可视化建模概述
        • 新建接入表
        • 新建维度表
        • 新建事实表
        • 新建汇总表
        • 新建应用表
        • 新建其他表
        • 导入方式建模
        • 管理表模型
        • 查看表详情
        • 逆向建模
        • 数据集成
        • 数据集成概述
        • 集成集群管理
        • 资源组
        • 集群注册
        • 同步任务
        • 任务创建
        • 任务管理
        • 数据处理
        • 数据开发
        • 项目管理
        • 工作流开发
        • 工作流模板
        • 工作流发布
        • 数据开发节点介绍
        • SparkSQL节点
        • 数据质量节点
        • 通用处理节点
        • 任务依赖节点
        • 任务调度
        • 调度大屏
        • 任务运维
        • 资源组监控
        • 基线管理
        • 即席查询
        • 用户空间
        • 数据库
        • 配置中心
        • 数据治理
        • 数据调研
        • 数据质量
        • 数据质量概述
        • 数据质量大屏
        • 规则管理
        • 数据质量规则列表
        • 创建数据质量规则
        • 试运行质量规则
        • 模板管理
        • 实例管理
        • 抑制管理
        • 质检报告
        • 数据质量分析
        • 数据治理360
        • 数据治理360概述
        • 开启使用
        • 健康诊断
        • 治理项问题
        • 治理项配置
        • 健康指南
        • 白名单
        • 数据地图
        • 数据地图概述
        • 数据发现
        • 地图配置
        • 资产首页
        • 数据总览
        • 数据检索
        • 我的数据
        • 元数据管理
        • 数据服务
        • 数据服务概述
        • 服务开发
        • 服务管理
        • 服务监控
        • 服务配置
        • 运维中心
        • 告警管理
        • 通道及对象管理
        • 告警实例
        • 值班表
        • 资源运维
        • 监控规则管理
        • 操作日志
        • 系统管理
        • 权限管理
        • 角色管理
        • 用户管理
        • 集群管理
        • 集群注册
        • 引擎管理
        • 流程中心
        • 我的申请
        • 我的审批
        • 我的导入
        • 权限申请
        • 消息中心
        • 最佳实践
        • 获取翼MapReduce数据湖集群信息
        • 电商行业数据建模实践
        • 常见问题
        • 常见产品问题
        • 购买类
        • 计费类
        • 文档下载
        • 大数据管理平台 DataWings用户手册
        • 视频专区
        • 相关协议
        • 大数据管理平台 DataWings公测服务协议
        • API参考
        • API
        • 2024-11-05 版本
        • 获取所有数据源的信息
        • 获取数据源插件和类型列表
        • 获取所有数据库的信息
          无相关产品

          本页目录

          帮助中心大数据管理平台 DataWings用户指南数据集成同步任务任务创建
          任务创建
          更新时间 2025-02-28 14:03:16
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-02-28 14:03:16
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          任务创建功能用于创建离线或实时的数据同步任务,将数据从来源数据源同步到目标数据源中。

          前提条件

          • 已购买开通翼MapReduce产品。
          • 已配置资源组。
          • 已完成集群注册。
          • 已在 数据源管理新增来源和目标数据源。

          进入页面

          • 单击左上方的图标image.png,选择全部产品 > 数据集成 >同步任务> 任务管理。

          新建任务入口

          在任务管理页面,选择来源、目标、任务引擎、任务类型,点击“开始创建”按钮进行同步任务配置。

          image.png

          新建离线同步任务

          1.填写基本信息

          image.png

          基本信息 说明
          任务名称 必填项,数据同步任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。
          任务分组 必填项,选择任务所属分组。
          任务描述 可选项,对任务的说明。

          2.选择数据来源

          完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。

          此处以MySQL为例:

          image.png

          基本信息 说明
          来源数据源 必填项,选择数据源名称。
          来源数据库 必填项,选择数据库名称。
          来源表名 必填项,选择所选数据库的已有数据表。
          来源数据筛选条件 可选项,添加筛选条件过滤数据来源中需要同步的数据。
          一次从结果集中提取的结果行数 必填项,一次性批量提交的记录数大小,默认2000行。该值可以极大减少数据同步系统与 Hive 的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程 OOM 异常。

          2.选择数据去向

          完成数据来源的配置后,可以在下方配置数据去向的数据源,以及需要写入的表信息等。

          此处以Hive为例:

          image.png

          基本信息 说明
          目标数据源 必填项,选择数据源名称。
          目标数据库 必填项,选择数据库名称。
          目标表名 必填项,选择所选数据库下的数据表。
          写入模式 必填项,支持追加和覆盖模式。
          追加模式是指在数据同步过程中,新数据添加到目标数据库中,不会修改或删除任何现有的数据。这种模式适用于那些需要保留所有历史数据的场景,例如日志数据等。
          覆盖模式是指在数据同步过程中,新数据会替换目标数据库中的现有数据。在执行时会先清空(TRUNCATE)表数据,再写入新数据。这种模式适用于关注最新数据的场景,例如实时数据更新等。

          3.配置字段映射

          在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持同名映射、同行映射以及自定义映射。

          image.png

          字段映射 说明
          同名映射 根据字段名称建立映射关系,首次显示字段时,默认采取同名映射。无法映射的部分,目标表字段按照表中字段顺序依次填入选择框中,来源表字段处保留选择框为空,您可自行匹配字段。
          同行映射 来源表字段和目标表字段均按照表中的字段顺序填入选择框中。
          取消映射 取消映射后,您可自行选择源表字段来对应目标表字段。

          4.填写运行配置

          任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。

          image.png

          说明

          提高任务并行度可以增加任务的并发执行程度,从而提高资源利用率和吞吐量。任务并行度影响集群资源的分配,设置越高对应资源消耗也越多。默认值为1,取值范围为1~50。

          5.选择高级配置

          选择是否开启数据对账功能。数据对账根据数据行数校验数据来源和目标的数据一致性。离线任务在数据同步执行成功后执行数据对账任务。若同步任务执行失败,则不会执行数据对账任务。

          配置任务的调度策略。支持手动执行、周期执行或设置cron表达式调度离线任务。

          image.png

          6.填写Flink运行配置和启动配置

          image.png

          Flink配置 说明
          执行队列 yarn.application.queue,用于指定数据集成任务在yarn的执行队列。
          Task Slot并发数 taskmanager.numberOfTaskSlots,可用于执行并行任务的资源单元。用于任务分配、负载均衡以及容错和高可用性的实现。Task Slot并发数是静态的概念,是指taskmanager具有的并发执行能力。
          Jobmanager内存配置 jobmanager.memory.process.size,jobmanager进程总内存。
          Taskmanager内存配置 taskmanager.memory.process.size,taskmanager进程总内存。
          Checkpoint间隔 Checkpoint 间隔是指在运行过程中,每隔多长时间触发一次 Checkpoint。Checkpoint 会占用一定的计算资源和存储资源,合理的 Checkpoint 间隔可以确保在发生故障时,能够快速恢复同步任务。如果对性能要求较高,可以适当增加 Checkpoint 的间隔时间。
          最大重启次数 最大重启次数是指在任务失败时,尝试重启的最大次数。
          其他配置 其他Flink运行配置,多个配置以逗号,分隔。
          Checkpoint 实时同步任务建议开启。开启 Checkpoint ,支持从指定 Checkpoint 恢复同步状态。

          新建实时同步任务

          1. 填写基本信息

          image.png

          基本信息 说明
          任务名称 必填项,数据同步任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。
          任务分组 必填项,选择任务所属分组。
          任务描述 对任务的说明。

          2.选择数据来源

          完成基本信息填写后,首先需要在数据来源侧配置实时同步任务的读取端数据源,以及需要同步的表等信息。

          此处以MySQL为例:

          image.png

          基本信息 说明
          来源数据源 必填项,选择数据源名称。
          来源数据库 必填项,选择数据库名称。
          同步类型 必填项,支持整库、多表、单表和正则表达式。
          整库:选择指定数据库同步数据。
          多表:选择指定的表同步数据。
          单表:选择单表同步数据。
          正则表达式:输入正则表达式匹配多个表同步数据。
          其他参数 可选项,自定义参数。

          3.选择数据去向

          完成数据来源的配置后,可以在下方选择数据去向的数据源。

          此处以Hudi为例:

          image.png

          基本信息 说明
          目标数据源 必填项,选择数据源名称。
          目标数据库 必填项,选择数据库名称。
          目标表名 必填项,选择所选数据库下的数据表。
          其他参数 可选项,自定义参数。

          4.填写运行配置

          任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。

          image.png

          说明

          提高任务并行度可以增加任务的并发执行程度,从而提高资源利用率和吞吐量。任务并行度影响集群资源的分配,设置越高对应资源消耗也越多。默认值为1,取值范围为1~50。

          5.选择高级配置

          选择是否开启数据对账功能。数据对账用于校验数据来源和目标的数据一致性。实时任务可设置调度周期执行数据对账任务。对账任务会占用同步资源,不建议设置调度过于频繁,可按天级别设置对账任务。

          image.png

          6.填写Flink运行配置和启动配置

          image.png

          Flink配置 说明
          执行队列 yarn.application.queue,用于指定数据集成任务在yarn的执行队列。
          Task Slot并发数 taskmanager.numberOfTaskSlots,可用于执行并行任务的资源单元。用于任务分配、负载均衡以及容错和高可用性的实现。Task Slot并发数是静态的概念,是指taskmanager具有的并发执行能力。
          Jobmanager内存配置 jobmanager.memory.process.size,jobmanager进程总内存。
          Taskmanager内存配置 taskmanager.memory.process.size,taskmanager进程总内存。
          Checkpoint间隔 Checkpoint 间隔是指在运行过程中,每隔多长时间触发一次 Checkpoint。Checkpoint 会占用一定的计算资源和存储资源,合理的 Checkpoint 间隔可以确保在发生故障时,能够快速恢复同步任务。如果对性能要求较高,可以适当增加 Checkpoint 的间隔时间。
          最大重启次数 最大重启次数是指在任务失败时,尝试重启的最大次数。
          其他配置 其他Flink运行配置,多个配置以逗号,分隔。
          Checkpoint 实时同步任务建议开启。开启 Checkpoint ,支持从指定 Checkpoint 恢复同步状态。
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  同步任务
          下一篇 :  任务管理
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明