爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      datax之job task channel taskgroup 详解

      首页 知识中心 其他 文章详情页

      datax之job task channel taskgroup 详解

      2024-09-25 10:14:09 阅读次数:429

      channel,datax

      JobContainer 是什么?

      jobContainer 是许多job的组合体,比如我有个任务是同时读取mysql和oracle的表然后写导hdfs的。此时mysqlreader+oraclereader打包起来就是一个container。但是实际来说我们都是只有一种reader的。

      job是什么?

      简单的理解就是我要 mysql->hdfs这这任务就是一个job

      task是什么?

      task是job的更细层次划分,比如mysql id 1->100w 共计100w条数据

      我把 mysql->hdfs 这个job划分为10个task

      mysql 1-10w ->hdfs

      mysql 10-20w->hdfs

      。。。。

      mysql 90w-100->hdfs

      这十个任务每个任务就是一个task。

      taskgroup 是什么?

      顾名思义就是将几个task划分为一个小组进行管理。几个呢?5个。可以在datax_home/conf/core.json调整。

      datax之job task channel taskgroup 详解

       datax之job task channel taskgroup 详解

      channel是什么?

      channel可以理解为在部分的job 种可以控制 taskgroup的数量。可以控制并发数

      例如mysql postgresql oracle 这种 task的数量=channel数*5+1,

      datax之job task channel taskgroup 详解

      但是hdfsreader这种 设置channel数多少也不起作用。

      下面是源码的学习和分析。

      JobContainer.java

      datax之job task channel taskgroup 详解

       这里是将一个job切分为多个任务,这里我还是举例,oraclereader->oraclewriter channel=10

      注意我们之前配置的json只是job的config。

      doReaderSplit的返回值就是task的config,taskconfig和jobconfig的不同有,里面加个标记 类似reader=oracle,然后job的sql是 select * from t  ,taskconfig是 select * from t where  xx<id<xx

      sliceConfig.set(CommonConstant.LOAD_BALANCE_RESOURCE_MARK, DataBaseType.parseIpFromJdbcUrl(jdbcUrl));

      dowriterSplit的返回值就是writerTaskConfig,其实就是jobconfig。

      备注:我这里全都是简化的比喻,有的人写多个oraclewriter和多个oraclereader,然后table里有多个表,由于情况比较多我就不举例了,只说最常用的情况。

        List<Configuration> contentConfig = mergeReaderAndWriterTaskConfigs(
                      readerTaskConfigs, writerTaskConfigs, transformerList);

      这里还有个transformerList 怎么说?我查了参数没有 暂且看作0

      那么此时readerTaskConfigs.size=51, writerTaskConfigs.size=51

      这个merge方法的作用就是把readerTaskConfig和writerTaskConfigs 组装起来,成为了一个完整的taskconfig,同时还给task编号1 ,2,3,4....51.

      举个简单例子

      datax之job task channel taskgroup 详解

      就是将这个job复制了51份,每一份reader的查询内容不一样,将where切分为了51份。

              this.configuration.set(CoreConstant.DATAX_JOB_CONTENT, contentConfig);

       最后this.configuration是jobConfguration,将contentConfig(51个taskConfig)set到jobContent里, 至此 JobContainer的start方法中的 split就完了。

      然后重点是schedule方法,怎么分配这51个任务好好工作?

      private void schedule() {
              /**
               * 这里的全局speed和每个channel的速度设置为B/s
               */
              //按照说明 这里=5
              int channelsPerTaskGroup = this.configuration.getInt(
                      CoreConstant.DATAX_CORE_CONTAINER_TASKGROUP_CHANNEL, 5);
              //这个获取的json里的job.content 的个数,由于split里已经set了51个task 这里=51
              int taskNumber = this.configuration.getList(
                      CoreConstant.DATAX_JOB_CONTENT).size();
              //needChannelNumber=10 taskNumber=51 所以这里=10
              this.needChannelNumber = Math.min(this.needChannelNumber, taskNumber);
              PerfTrace.getInstance().setChannelNumber(needChannelNumber);
      
              /**
               * 通过获取配置信息得到每个taskGroup需要运行哪些tasks任务
               */
              //这里就是计算taskGroup有多少个task 其实就是(int) Math.ceil(1.0 * 10/ 5)=2;
              //其实这里面真鸡儿的复杂,写这个方法的人考虑到不同的reader,比如mysql的task1和oracle的task1总不能放到一个group里把。所以简单的来看就是 channels/ 5 向上取整。
              //然后将task组装放到了taskGroup里,此时就是2个group 一个有25个task 一个有26个task
              //同时还将channel数也拆分了 每个group 有5个channel
              List<Configuration> taskGroupConfigs = JobAssignUtil.assignFairly(this.configuration,
                      this.needChannelNumber, channelsPerTaskGroup);
      
              ("Scheduler starts [{}] taskGroups.", taskGroupConfigs.size());
      
              ExecuteMode executeMode = null;
              AbstractScheduler scheduler;
              try {
              	executeMode = ExecuteMode.STANDALONE;
                  scheduler = initStandaloneScheduler(this.configuration);
      
                  //设置 executeMode
                  for (Configuration taskGroupConfig : taskGroupConfigs) {
                      taskGroupConfig.set(CoreConstant.DATAX_CORE_CONTAINER_JOB_MODE, executeMode.getValue());
                  }
      
                  if (executeMode == ExecuteMode.LOCAL || executeMode == ExecuteMode.DISTRIBUTE) {
                      if (this.jobId <= 0) {
                          throw DataXException.asDataXException(FrameworkErrorCode.RUNTIME_ERROR,
                                  "在[ local | distribute ]模式下必须设置jobId,并且其值 > 0 .");
                      }
                  }
      
                  ("Running by {} Mode.", executeMode);
      
                  this.startTransferTimeStamp = System.currentTimeMillis();
      
                  scheduler.schedule(taskGroupConfigs);
      
                  this.endTransferTimeStamp = System.currentTimeMillis();
              } catch (Exception e) {
                  LOG.error("运行scheduler 模式[{}]出错.", executeMode);
                  this.endTransferTimeStamp = System.currentTimeMillis();
                  throw DataXException.asDataXException(
                          FrameworkErrorCode.RUNTIME_ERROR, e);
              }
      
              /**
               * 检查任务执行情况
               */
              this.checkLimit();
          }

      datax之job task channel taskgroup 详解

      可以看到打印的日志和我的备注一样。 

      此时这一步schedule就完了,然后就是执行。

      继续查看

      datax之job task channel taskgroup 详解

      datax之job task channel taskgroup 详解 

       注意看此时是根据taskgroup为单位开始任务的

      datax之job task channel taskgroup 详解

       后面就很清楚了。就是开启线程池提交任务,然后就是监控任务。

      那么我们任务实际的速度肯定和线程的个数有关,此时就开启了两个线程。

      但是转眼一想不对啊 原先1个线程->2个线程,那任务不会提升那么明显。

      接着看TaskGroupContainer的start 方法由于较长。截取关键的

      datax之job task channel taskgroup 详解

       判断正在运行的任务是否是小与channel数的,如果小于channel数,则让任务运行。这里的channel数因为在划分到taskgroup那个阶段也拆分了。所以每个taskGroup为5个channel。

      那么我们从头梳理一下

      1个job 2个taskGroup 10个channel 51个task。

      实际上是将task划分到两个group管理,group1里可以同行运行5个task,group2里可以同时运行5个task,那么并发数量就是channel。

      怎么验证的这个并发数?很简单继续看日志

      datax之job task channel taskgroup 详解

       可以看到最开始就是5个start,然后就是1个end,紧接着一个又开始start。

      只要有一个end 立马就有start,那么taskGroup[0]就是5个并发,和我们拆想的一样。

      看datax的githu的介绍

      datax之job task channel taskgroup 详解

      核心模块介绍:

      1. DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
      2. DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
      3. 切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
      4. 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
      5. DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0

      DataX调度流程:

      举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:

      1. DataXJob根据分库分表切分成了100个Task。
      2. 根据20个并发,DataX计算共需要分配4个TaskGroup。
      3. 4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

      根据上面的例子就是我说的 100个task  20个并发就是20个channel   20/5=4个taskgroup

      每个taskgroup内的task 100/4=25

      但是能够同时运行的任务是 20个channel =20个并发。

      由此 我们得到什么结论?

      datax之job task channel taskgroup 详解

      这个参数就是代表了taskGroup的并发度。

      那么此时我有一个疑问了?

      1个taskGroup 管理50个任务 10个并发度

      和切分后 2个taskGroup 分别管理25个任务和5个并发度,这两种有什么区别嘛?

      说实话我是没有看出区别,但是datax这么设计应该还是有它的原因的。

      未完待续。。后面使用过程中如果想到了再补充

      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.csdn.net/cclovezbf/article/details/124688977,作者:cclovezbf,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:vue课程72 侦听器-用法总结

      下一篇:linux内核邮件订阅方式

      相关文章

      2025-03-31 08:56:45

      laravel5.5 laravel echo实现实时应用(私信)

      laravel5.5 laravel echo实现实时应用(私信)

      2025-03-31 08:56:45
      channel , user , 源码
      2025-02-21 08:55:20

      【verbs】ibv_create_comp_channel()

      【verbs】ibv_create_comp_channel()

      2025-02-21 08:55:20
      channel , CQ , event
      2024-12-05 08:49:57

      Linux源码阅读笔记13-进程通信组件上

      Linux源码阅读笔记13-进程通信组件上

      2024-12-05 08:49:57
      channel , data , private , read , 初始化 , 机制 , 设备
      2024-09-25 10:13:34

      datax之channel学习

      datax之channel学习

      2024-09-25 10:13:34
      channel , datax
      2024-05-24 07:47:12

      jcasbin redis watcher 一些修改

      jcasbin redis watcher 一些修改

      2024-05-24 07:47:12
      channel , redis
      2024-05-21 07:53:51

      circus 架构

      circus 架构

      2024-05-21 07:53:51
      channel
      2024-05-20 09:39:36

      Nchan 实时消息 安全配置

      Nchan 实时消息 安全配置

      2024-05-20 09:39:36
      channel , group
      2023-08-04 08:44:32

      datax报错:java.sql.SQLException: ORA-01445: 无法从不带保留关键字的表的联接视图中选择 ROWID 或采样

      datax报错:java.sql.SQLException: ORA-01445: 无法从不带保留关键字的表的联接视图中选择 ROWID 或采样

      2023-08-04 08:44:32
      datax , table , view
      2023-08-02 05:54:57

      datax导数->hdfsReader到postgresql数据丢失?

      datax导数->hdfsReader到postgresql数据丢失?

      2023-08-02 05:54:57
      datax , postgresql
      2023-08-01 08:54:12

      hdfswriter优化之提高写速度

      一般来说我们的数据都是mysql->hive tpg->hive orcle->hive 之前的文章介绍过优化读的速度

      2023-08-01 08:54:12
      datax
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5235025

      查看更多

      最新文章

      【verbs】ibv_create_comp_channel()

      2025-02-21 08:55:20

      datax之channel学习

      2024-09-25 10:13:34

      circus 架构

      2024-05-21 07:53:51

      datax报错:java.sql.SQLException: ORA-01445: 无法从不带保留关键字的表的联接视图中选择 ROWID 或采样

      2023-08-04 08:44:32

      hdfswriter优化之提高写速度

      2023-08-01 08:54:12

      go channel管道详解

      2023-04-25 10:22:50

      查看更多

      热门文章

      go channel管道详解

      2023-04-25 10:22:50

      datax报错:java.sql.SQLException: ORA-01445: 无法从不带保留关键字的表的联接视图中选择 ROWID 或采样

      2023-08-04 08:44:32

      hdfswriter优化之提高写速度

      2023-08-01 08:54:12

      datax之channel学习

      2024-09-25 10:13:34

      circus 架构

      2024-05-21 07:53:51

      【verbs】ibv_create_comp_channel()

      2025-02-21 08:55:20

      查看更多

      热门标签

      linux java python javascript 数组 前端 docker Linux vue 函数 shell git 节点 容器 示例
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      【verbs】ibv_create_comp_channel()

      datax之channel学习

      circus 架构

      go channel管道详解

      datax报错:java.sql.SQLException: ORA-01445: 无法从不带保留关键字的表的联接视图中选择 ROWID 或采样

      hdfswriter优化之提高写速度

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号