活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 一键部署Llama3大模型学习机 0代码一键部署,预装最新主流大模型Llama3与StableDiffusion
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 产品能力
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      查看所有产品

      数据治理中心 DataArts Studio

      数据治理中心 DataArts Studio

        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 权限管理
        • 权限列表
        • 约束与限制
        • 数据治理中心DataArts Studio与其他服务的关系
        • 计费说明
        • 资源节点
        • 产品规格
        • 产品价格
        • 计费模式
        • 购买
        • 变更
        • 续订
        • 退订
        • 准备工作
        • 准备工作简介
        • 创建DataArts Studio实例
        • 创建DataArts Studio基础包
        • (可选)创建DataArts Studio增量包
        • 访问DataArts Studio实例控制台
        • 管理工作空间
        • 创建并管理工作空间
        • (可选)修改作业日志存储路径
        • 授权用户使用DataArts Studio
        • 创建IAM用户并授予DataArts Studio权限
        • (可选)自定义工作空间角色
        • 添加工作空间成员和角色
        • (可选)获取认证信息
        • 用户指南
        • 使用DataArts Studio前的准备
        • 管理控制台
        • 创建数据连接
        • 资源迁移
        • 使用教程
        • 新建MRS Hive连接
        • 新建DWS连接
        • 新建MySQL连接
        • DataArts Studio支持的数据源
        • 数据集成
        • 数据集成概述
        • 约束与限制
        • 支持的数据源
        • 管理集群
        • 创建CDM集群
        • 解绑/绑定集群的EIP
        • 重启集群
        • 删除集群
        • 下载集群日志
        • 查看集群基本信息/修改集群配置
        • 监控指标
        • 支持的监控指标
        • 设置告警规则
        • 查看监控指标
        • 管理连接
        • 新建连接
        • 管理驱动
        • 管理Agent
        • 管理集群配置
        • 配置常见关系数据库连接
        • 配置分库连接
        • 配置MySQL数据库连接
        • 配置Oracle数据库连接
        • 配置DLI连接
        • 配置Hive连接
        • 配置HBase连接
        • 配置HDFS连接
        • 配置OBS连接
        • 配置FTP/SFTP连接
        • 配置Redis/DCS连接
        • 配置DDS连接
        • 配置CloudTable连接
        • 配置CloudTable OpenTSDB连接
        • 配置MongoDB连接
        • 配置Cassandra连接
        • 配置Kafka连接
        • 配置DMS Kafka连接
        • 配置Elasticsearch/云搜索服务(CSS)连接
        • 管理作业
        • 新建表/文件迁移作业
        • 新建整库迁移作业
        • 配置作业源端参数
        • 配置OBS源端参数
        • 配置HDFS源端参数
        • 配置HBase/CloudTable源端参数
        • 配置Hive源端参数
        • 配置DLI源端参数
        • 配置FTP/SFTP源端参数
        • 配置HTTP源端参数
        • 配置常见关系数据库源端参数
        • 配置MySQL源端参数
        • 配置Oracle源端参数
        • 配置分库源端参数
        • 配置MongoDB/DDS源端参数
        • 配置Redis源端参数
        • 配置Kafka/DMS Kafka源端参数
        • 配置Elasticsearch或云搜索服务源端参数
        • 配置OpenTSDB源端参数
        • 配置作业目的端参数
        • 配置OBS目的端参数
        • 配置HDFS目的端参数
        • 配置HBase/CloudTable目的端参数
        • 配置Hive目的端参数
        • 配置常见关系数据库目的端参数
        • 配置DWS目的端参数
        • 配置DDS目的端参数
        • 配置DCS目的端参数
        • 配置云搜索服务目的端参数
        • 配置DLI目的端参数
        • 配置OpenTSDB目的端参数
        • 配置定时任务
        • 作业配置管理
        • 管理单个作业
        • 批量管理作业
        • 审计
        • 支持云审计的关键操作
        • 如何查看审计日志
        • 使用教程
        • 创建MRS Hive连接器
        • 创建MySQL连接器
        • MySQL数据迁移到MRS Hive分区表
        • MySQL数据迁移到OBS
        • MySQL数据迁移到DWS
        • MySQL整库迁移到RDS服务
        • Oracle数据迁移到云搜索服务
        • Oracle数据迁移到DWS
        • OBS数据迁移到云搜索服务
        • OBS数据迁移到DLI服务
        • MRS HDFS数据迁移到OBS
        • Elasticsearch整库迁移到云搜索服务
        • DDS数据迁移到DWS
        • 进阶实践
        • 增量迁移原理介绍
        • 文件增量迁移
        • 关系数据库增量迁移
        • 时间宏变量使用解析
        • HBase/CloudTable增量迁移
        • 事务模式迁移
        • 迁移文件时加解密
        • MD5校验文件一致性
        • 字段转换
        • 指定文件名迁移
        • 正则表达式分隔半结构化文本
        • 记录数据迁移入库时间
        • 文件格式介绍
        • 数据架构
        • 数据架构概述
        • 数据架构使用流程
        • 准备工作
        • 添加审核人
        • 管理配置中心
        • 数据调研
        • 流程设计
        • 主题设计
        • 标准设计
        • 新建码表
        • 新建数据标准
        • 模型设计
        • 关系建模
        • 逻辑模型设计
        • 物理模型设计
        • 维度建模
        • 新建维度
        • 管理维度表
        • 新建事实表
        • 指标设计
        • 业务指标
        • 技术指标
        • 新建原子指标
        • 新建衍生指标
        • 新建复合指标
        • 新建时间限定
        • 数据集市建设
        • 新建汇总表
        • 通用操作
        • 逆向数据库(关系建模)
        • 逆向数据库(维度建模)
        • 导入导出表
        • 关联质量规则
        • 查看表
        • 批量修改主题/目录/流程
        • 审核中心
        • 使用教程
        • 数据架构示例
        • 数据开发
        • 数据开发概述
        • 数据管理
        • 数据管理流程
        • 新建数据连接
        • 新建数据库
        • (可选)新建数据库模式
        • 新建数据表
        • 脚本开发
        • 脚本开发流程
        • 新建脚本
        • 开发脚本
        • 开发SQL脚本
        • 开发Shell脚本
        • 开发Python脚本
        • 提交版本并解锁
        • (可选)管理脚本
        • 复制脚本
        • 复制名称与重命名脚本
        • 移动脚本/脚本目录
        • 导出导入脚本
        • 查看脚本引用
        • 删除脚本
        • 迁移脚本责任人
        • 批量解锁
        • 作业开发
        • 作业开发流程
        • 新建作业
        • 开发作业
        • 调度作业
        • 提交版本并解锁
        • (可选)管理作业
        • 复制作业
        • 复制名称和重命名作业
        • 移动作业/作业目录
        • 导出导入作业
        • 删除作业
        • 迁移作业责任人
        • 批量解锁
        • 解决方案
        • 运行历史
        • 运维调度
        • 运维概览
        • 作业监控
        • 批作业监控
        • 实时作业监控
        • 实例监控
        • 补数据监控
        • 通知管理
        • 管理通知
        • 通知周期概览
        • 备份管理
        • 配置管理
        • 配置
        • 配置环境变量
        • 配置OBS桶
        • 管理作业标签
        • 配置委托
        • 配置默认项
        • 管理资源
        • 节点参考
        • 节点概述
        • 节点数据血缘
        • 方案概述
        • 配置数据血缘
        • 查看数据血缘
        • CDM Job
        • Rest Client
        • Import GES
        • MRS Kafka
        • Kafka Client
        • ROMA FDI Job
        • DLI Flink Job
        • DLI SQL
        • DLI Spark
        • DWS SQL
        • MRS Spark SQL
        • MRS Hive SQL
        • MRS Presto SQL
        • MRS Spark
        • MRS Spark Python
        • MRS Flink Job
        • MRS MapReduce
        • CSS
        • Shell
        • RDS SQL
        • ETL Job
        • Python
        • Create OBS
        • Delete OBS
        • OBS Manager
        • Open/Close Resource
        • Data Quality Monitor
        • Sub Job
        • For Each
        • Dummy
        • EL表达式参考
        • 表达式概述
        • 基础操作符
        • 日期和时间模式
        • Env内嵌对象
        • Job内嵌对象
        • StringUtil内嵌对象
        • DateUtil内嵌对象
        • JSONUtil内嵌对象
        • Loop内嵌对象
        • OBSUtil内嵌对象
        • 表达式使用示例
        • 使用教程
        • 作业依赖详解
        • IF条件判断教程
        • 获取Rest Client算子返回值教程
        • For Each算子使用介绍
        • 开发一个Python脚本
        • 开发一个DWS SQL作业
        • 开发一个Hive SQL作业
        • 开发一个DLI Spark作业
        • 开发一个MRS Flink作业
        • 开发一个MRS Spark Python作业
        • 数据质量
        • 业务指标监控
        • 业务指标监控概述
        • 新建指标
        • 新建规则
        • 新建业务场景
        • 查看业务场景实例
        • 数据质量监控
        • 数据质量监控概述
        • 新建规则模板
        • 新建质量作业
        • 新建对账作业
        • 查看规则实例
        • 查看质量报告
        • 使用教程
        • 新建一个业务场景
        • 新建一个质量作业
        • 新建一个作业对账实例
        • 数据目录
        • 数据地图
        • 简介
        • 资产总览
        • 数据目录
        • 标签管理
        • 数据权限
        • 数据权限简介
        • 数据目录权限
        • 数据表权限
        • 审批中心
        • 数据安全(待下线)
        • 数据安全简介
        • 数据密级
        • 数据分类
        • 脱敏策略
        • 元数据采集
        • 元数据简介
        • 任务管理
        • 任务监控
        • 使用教程
        • 开发一个增量元数据采集任务
        • 通过数据地图查看数据血缘关系
        • 方案概述
        • 配置数据血缘
        • 查看数据血缘
        • 数据服务
        • 数据服务概览
        • 规格说明
        • 开发API
        • 准备工作
        • 创建专享版集群
        • 新建审核人
        • 创建API
        • 配置模式生成API
        • 脚本模式生成API
        • 注册API
        • 调试API
        • 发布API
        • 管理API
        • 设置API可见
        • 停用/恢复API
        • 下线/删除API
        • 复制API
        • 全量导出/导出/导入API
        • 流量控制
        • 调用API
        • 审核中心操作说明
        • 常见问题
        • 计费类
        • 购买类
        • 操作类
        • 管理中心
        • 数据集成
        • 数据架构
        • 数据开发
        • 数据质量
        • 数据目录
        • 数据服务
        • 相关协议
        • 数据治理中心 DataArts Studio产品服务协议
        • 数据治理中心 DataArts Studio产品服务等级协议
        • 文档下载
        • 数据治理中心 DataArts Studio用户操作指南
        • 数据治理中心 DataArts Studio故障排除
          无相关产品

          本页目录

          帮助中心 数据治理中心 DataArts Studio 用户指南 数据集成 使用教程 MySQL数据迁移到MRS Hive分区表
          MySQL数据迁移到MRS Hive分区表
          更新时间 2023-08-17 15:55:33
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2023-08-17 15:55:33
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章节主要介绍MySQL数据迁移到MRS Hive分区表。

          MapReduce服务(MapReduce Service,简称MRS)提供企业级大数据集群云服务,里面包含HDFS、Hive、Spark等组件,适用于企业海量数据分析。

          其中Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。

          Hive的分区使用HDFS的子目录功能实现,每一个子目录包含了分区对应的列名和每一列的值。当分区很多时,会有很多HDFS子目录,如果不依赖工具,将外部数据加载到Hive表各分区不是一件容易的事情。云数据迁移服务(CDM)可以请轻松将外部数据源(关系数据库、对象存储服务、文件系统服务等)加载到Hive分区表。

          下面使用CDM将MySQL数据导入到MRS Hive分区表为例进行介绍。

          操作场景

          假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如下图“MySQL表字段”所示。

          image.png

          使用CDM将MySQL中的表trip_data导入到MRS Hive分区表,流程如下:

          1.在MRS Hive上创建Hive分区表

          2.创建CDM集群并绑定EIP

          3.创建MySQL连接

          4.创建Hive连接

          5.创建迁移作业

          前提条件

          • 已经创建MRS。
          • 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。
          • 已参考 管理驱动,上传了MySQL数据库驱动。

          在MRS Hive上创建Hive分区表

          在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下:

          create table trip_data(TripID int,Duration int,StartDate,timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int);
          
          说明

          Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。

          创建CDM集群并绑定EIP

          1. 参考创建CDM集群,创建CDM集群。

          关键配置如下:

          • CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
          • CDM集群所在VPC、子网、安全组,选择与MRS集群所在的网络一致。
          1. CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。

          详见下图: 集群列表

          image.png

          说明

          如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。

          创建MySQL连接

          1. 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面。
          2. 选择“MySQL”后单击“下一步”,配置MySQL连接的参数。

          单击“显示高级属性”可查看更多可选参数,具体请参见 配置常见关系数据库连接。这里保持默认,必填参数如下表“MySQL连接参数”所示。

          参数名 说明 取值样例
          名称 输入便于记忆和区分的连接名称。 mysqllink
          数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110
          端口 MySQL数据库的端口。 3306
          数据库名称 MySQL数据库的名称。 sqoop
          用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin
          密码 用户的密码。 -
          使用本地API 使用数据库本地API加速(系统会尝试启用MySQL数据库的local_infile系统变量)。 是
          使用Agent 是否选择通过Agent从源端提取数据。 是
          local_infile字符集 mysql通过local_infile导入数据时,可配置编码格式。 utf8
          驱动版本 适配mysql的驱动。 -
          Agent 单击“选择”,选择连接Agent中已创建的Agent。 -
          单次请求行数 指定每次请求获取的行数。 1000
          单次提交行数 支持通过agent从源端提取数据 1000
          连接属性 自定义连接属性。 useCompression=true
          引用符号 连接引用表名或列名时的分隔符号。默认为空。 '
          单次写入行数 指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。 100
          1. 单击“保存”回到连接管理界面。
          说明

          如果保存时出错,一般是由于MySQL数据库的安全设置问题,需要设置允许CDM集群的EIP访问MySQL数据库。

          创建Hive连接

          1. 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面。
          2. 连接器类型选择“MRS Hive”后单击“下一步”配置Hive连接参数,如下图“创建MRS Hive连接”所示。

          image.png

          各参数说明如下表“MRS Hive连接参数”所示,需要您根据实际情况配置。

          参数名 说明 取值样例
          名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 mrs-link
          Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 127.0.0.1
          认证类型 访问MRS的认证类型:
          SIMPLE:非安全模式选择Simple鉴权。
          KERBEROS:安全模式选择Kerberos鉴权。
          SIMPLE
          Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE_3_X
          用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。
          如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
          说明
          如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。
          如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manager_administrator或System_administrator权限,才能在CDM创建连接。
          仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
          cdm
          密码 访问MRS Manager的用户密码。 -
          OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否
          运行模式 “HIVE_3_X”版本支持该参数。支持以下模式:
          EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
          STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
          说明
          STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
          EMBEDDED
          检查Hive JDBC连通性 是否需要测试Hive JDBC连通性。 否
          是否使用集群配置 用户可以在“连接管理”处创建集群配置,用于简化Hadoop连接参数配置。 否
          属性配置 其他Hive客户端配置属性。 -
          1. 单击“保存”回到连接管理界面。

          创建迁移作业

          1. 选择“表/文件迁移 > 新建作业”,开始创建数据迁移任务,如下图“创建MySQL到Hive的迁移任务”所示。

          image.png

          说明

          “导入前清空数据”选“是”,这样每次导入前,会将之前已经导入到Hive表的数据清空。

          1. 作业参数配置完成后,单击“下一步”,进入字段映射界面,如下图“Hive字段映射”所示。

          映射MySQL表和Hive表字段,Hive表比MySQL表多三个字段y、ym、ymd,即是Hive的分区字段。由于没有源表字段直接对应,需要配置表达式从源表的StartDate字段抽取。

          image.png

          1. 单击 image.png进入转换器列表界面,再选择“新建转换器 > 表达式转换”,如下图“配置表达式”所示。

          y、ym、ymd字段的表达式分别配置如下:

          DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyy")

          DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyyMM")

          DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyyMMdd")

          image.png

          说明

          CDM的表达式已经预置常用字符串、日期、数值等类型的字段内容转换。

          1. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。

          该步骤用户可以配置如下可选功能:

          • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
          • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
          • 是否定时执行:如果需要配置作业定时自动执行,请参见 配置定时任务。这里保持默认值“否”。
          • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
          • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
          • 作业运行完是否删除:这里保持默认值“不删除”。
          1. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
          2. 作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。

          在历史记录界面单击“日志”,可查看作业的日志信息。

          上一篇 :  创建MySQL连接器
          下一篇 :  MySQL数据迁移到OBS
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

           文本反馈
          搜索
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明