MySQL数据迁移到MRS Hive分区表 创建迁移作业 1. 选择“表/文件迁移 > 新建作业”,开始创建数据迁移任务,如下图“创建MySQL到Hive的迁移任务”所示。 说明 “导入前清空数据”选“是”,这样每次导入前,会将之前已经导入到Hive表的数据清空。 2. 作业参数配置完成后,单击“下一步”,进入字段映射界面,如下图“Hive字段映射”所示。 映射MySQL表和Hive表字段,Hive表比MySQL表多三个字段y、ym、ymd,即是Hive的分区字段。由于没有源表字段直接对应,需要配置表达式从源表的StartDate字段抽取。 3. 单击 进入转换器列表界面,再选择“新建转换器 > 表达式转换”,如下图“配置表达式”所示。 y、ym、ymd字段的表达式分别配置如下: DateUtils.format(DateUtils.parseDate(row[2],"yyyyMMdd HH:mm:ss.SSS"),"yyyy") DateUtils.format(DateUtils.parseDate(row[2],"yyyyMMdd HH:mm:ss.SSS"),"yyyyMM") DateUtils.format(DateUtils.parseDate(row[2],"yyyyMMdd HH:mm:ss.SSS"),"yyyyMMdd") 说明 CDM的表达式已经预置常用字符串、日期、数值等类型的字段内容转换。 4. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,请参见 配置定时任务。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 作业运行完是否删除:这里保持默认值“不删除”。 5. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。 6. 作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。