活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      数据湖探索

      数据湖探索

        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 与其他产品的关系
        • 术语解释
        • 计费说明
        • 资源节点
        • 产品规格
        • 产品价格
        • 计费模式
        • 购买
        • 续订
        • 退订
        • 快速入门
        • 注册天翼云账号
        • 创建并提交Spark SQL作业
        • 使用TPC-H样例模板开发并提交Spark SQL作业
        • 创建并提交Spark Jar作业
        • 用户指南
        • 概述
        • DLI控制台总览
        • SQL编辑器
        • 作业管理
        • SQL作业管理
        • Flink作业管理
        • Flink作业管理概述
        • Flink作业权限管理
        • 准备Flink作业数据
        • 创建Flink SQL作业
        • 创建Flink Jar作业
        • 调试Flink作业
        • 操作Flink作业
        • Flink作业详情
        • 开启Flink作业动态扩缩容
        • Spark作业管理
        • Spark作业管理概述
        • 创建Spark作业
        • 设置作业优先级
        • 队列管理
        • 队列管理概述
        • 队列权限管理
        • 创建队列
        • 删除队列
        • 修改队列网段
        • 队列弹性扩缩容
        • 弹性扩缩容定时任务
        • 测试地址联通性
        • 创建消息通知主题
        • 弹性资源池
        • 使用前必读
        • 弹性资源池概述
        • 使用场景一:创建弹性资源池并运行作业
        • 使用场景二:配置弹性资源池队列扩缩容策略
        • 弹性资源池基本操作
        • 创建弹性资源池
        • 弹性资源池权限管理
        • 弹性资源池添加队列
        • 弹性资源池关联队列
        • 弹性资源池队列管理
        • 弹性资源池CU设置
        • 弹性资源池规格变更
        • 查看弹性资源池扩缩容历史
        • 数据管理
        • 库表管理
        • 库表管理概述
        • 数据库权限管理
        • 表权限管理
        • 创建数据库和表
        • 删除数据库和表
        • 修改数据库和表所有者
        • 导入数据
        • 将DLI数据导出至OBS
        • 查看元数据
        • 预览数据
        • 程序包管理
        • 程序包管理概述
        • 程序包组和程序包权限管理
        • 创建程序包
        • 删除程序包
        • 修改所有者
        • 内置依赖包
        • 作业模板
        • SQL模板管理
        • Flink模板管理
        • Spark模板管理
        • 附录
        • SQL模板下TPC-H样例数据说明
        • 增强型跨源连接
        • 增强型跨源连接概述
        • 跨源分析开发方式
        • 创建增强型跨源连接
        • 删除增强型跨源连接
        • 修改主机信息
        • 绑定/解绑队列
        • 添加路由
        • 删除路由
        • 增强型跨源连接权限管理
        • 跨源认证
        • 跨源认证概述
        • 创建CSS类型跨源认证
        • 创建Kerberos跨源认证
        • 创建Kafka_SSL类型跨源认证
        • 创建Password类型跨源认证
        • 跨源认证权限管理
        • 全局配置
        • 全局变量
        • 全局变量权限管理
        • 服务授权
        • 权限管理
        • 权限管理概述
        • 创建IAM用户并授权使用DLI
        • DLI自定义策略
        • DLI资源
        • DLI请求条件
        • 常用操作与系统权限关系
        • 其他常用操作
        • 导入数据至DLI表的方式
        • 数据湖探索监控指标说明及查看指导
        • 云审计服务支持的DLI操作列表说明
        • 配额管理
        • 常见问题
        • 计费类
        • 购买类
        • 使用咨询
        • 作业管理
        • 隐私安全
        • 操作类
        • Flink作业相关问题
        • 使用咨询
        • Flink SQL作业相关问题
        • Flink Jar作业相关问题
        • 性能调优
        • 运维指导
        • SQL作业相关问题
        • 使用咨询
        • 作业开发
        • 作业运维报错
        • 运维指导
        • Spark作业相关问题
        • 使用咨询
        • 作业开发
        • 作业运维报错
        • 运维指导
        • 配额相关问题
        • 授权相关问题
        • 使用咨询
        • 运维指导
        • 队列相关问题
        • 使用咨询
        • 运维指导
        • 跨源连接相关问题
        • 跨源连接问题
        • 跨源分析问题
        • 跨源连接运维报错
        • 相关协议
        • 数据湖探索产品服务协议
        • 文档下载
        • 数据湖探索服务用户操作手册
        • 数据湖探索SQL语法参考
        • 数据湖探索开发指南
        • 数据湖探索故障排除
          无相关产品

          本页目录

          帮助中心数据湖探索常见问题操作类SQL作业相关问题运维指导
          运维指导
          更新时间 2023-11-30 00:54:53
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2023-11-30 00:54:53
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章节主要介绍SQL作业相关问题中有关运维指导的问题。

          SQL作业运行慢如何定位

          作业运行慢可以通过以下步骤进行排查处理。

          可能原因1:FullGC原因导致作业运行慢

          判断当前作业运行慢是否是FullGC导致:

          1.登录DLI控制台,单击“作业管理 > SQL作业”。

          2.在SQL作业页面,在对应作业的“操作”列,单击“更多 > 归档日志”。

          3.在OBS目录下,获取归档日志文件夹,详细如下。

          −Spark SQL作业:

          查看带有“driver”或者为“container_ xxx _000001”的日志文件夹则为需要查看的Driver日志目录。

          −Spark Jar作业:

          Spark Jar作业的归档日志文件夹以“batch”开头。

          4.进入归档日志文件目录,在归档日志文件目录下,下载“gc.log.*”日志。

          5.打开已下载的“gc.log.*”日志,搜索“Full GC”关键字,查看日志中是否有时间连续,并且频繁出现“Full GC”的日志信息。

          FullGC问题原因定位和解决:

          原因1 小文件过多 :当一个表中的小文件过多时,可能会造成Driver内存FullGC。

          1.登录DLI控制台,选择SQL编辑器,在SQL编辑器页面选择问题作业的队列和数据库。

          2.执行以下语句,查看作业中表的文件数量。“ 表名 ”替换为具体问题作业中的表名称。

          select count(distinct fn)  FROM 
          (select input_file_name() as fn from 表名) a
          

          3.如果小文件过多,则可以参考SQL作业相关问题章节“作业开发-如何合并小文件”来进行处理。

          原因2 广播表 :广播也可能会造成Driver内存的FullGC。

          1. 登录DLI控制台,单击“作业管理 > SQL作业”。
          2. 在SQL作业页面,在对应作业所在行,单击按钮,查看作业详情,获取作业ID。
          3. 在对应作业的“操作”列,单击“Spark UI”,进入“Spark UI”页面。
          4. 在“Spark UI”页面,在上方菜单栏选择“SQL”。参考下图,根据作业ID,单击Description中的超链接。
          5. 查看对应作业的DAG图,判断是否有BroadcastNestedLoopJoin节点。

          作业的DAG图。

          图134 作业的DAG图。png

          1. 如果存在广播,则参考下方“SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中”处理。

          可能原因2:数据倾斜

          判断当前作业运行慢是否是数据倾斜导致

          1.登录DLI控制台,单击“作业管理 > SQL作业”。

          2.在SQL作业页面,在对应作业所在行,单击按钮,查看作业详情信息,获取作业ID。

          3.在对应作业的“操作”列,单击“Spark UI”,进入到Spark UI页面。

          4.在“Spark UI”页面,在上方菜单栏选择“Jobs”。参考下图,根据作业ID,单击链接。

          在“Spark UI”页面,在上方菜单栏选择“Jobs”png

          5.根据Active Stage可以看到当前正在运行的Stage运行情况,单击Description中的超链接。

          根据Active Stage可以看到png

          6.在Stage中,可以看到每一个Task开始运行时间“Launch Time”,以及Task运行耗时时间“Duration”。

          7.单击“Duration”,可以根据耗时进行排序,排查是否存在单个Task耗时过长导致整体作业时间变长问题。

          参考下图可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。

          数据倾斜示例图

          图135 数据倾斜示例图png

          数据倾斜原因和解决

          Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。

          1.对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:

          lefttbl表和righttbl表进行join关联,其中lefttbl表的num为连接条件的key值。则可以对lefttbl.num进行group by和count统计。

          SELECT * FROM lefttbl a LEFT join righttbl b on a.num = b.int2; 
          SELECT count(1) as count,num from lefttbl  group by lefttbl.num ORDER BY count desc;
          

          2.考虑在对应key值上添加concat(cast(round(rand() *999999999)as string)随机数进行打散。

          3.如果确实因为单个key值倾斜严重且不可对key值拼接随机值打散,则参考上方"配置AE参数解决数据倾斜"处理。

          查看DLI SQL日志

          场景概述

          日常运维时需要查看DLI SQL日志。

          操作步骤

          1.在DataArts Studio控制台获取DataArts Studio执行DLI作业的job id。

          查找job id

          图136 查找job idpng

          2.在DLI控制台,选择“作业管理”>“SQL作业”。

          3.在SQL作业管理页面,输入对应的job id,找到对应的作业。

          4.在“操作”列中,单击“更多”>“归档日志”>“下载日志到本地”。

          5.在所下载的日志中搜索对应jobId,即可查看具体的执行日志。

          查看DLI的执行SQL记录

          场景概述

          执行SQL作业过程中需要查看对应的记录。

          操作步骤

          1.登录DLI管理控制台。

          2.在左侧导航栏单击“作业管理”>“SQL作业”进入SQL作业管理页面。

          3.输入作业ID或者执行的语句可以筛选所要查看的作业。

          配置AE参数解决数据倾斜

          场景概述

          如果观察到SQL执行时间较长,可进入SparkUI查看对应SQL的执行状态。

          如果观察到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。

          数据倾斜样例

          图137 数据倾斜样例png

          操作步骤

          1.登录数据湖探索管理控制台,选择“SQL作业”,在要修改的作业所在行的“操作”列,单击“编辑”进入SQL编辑器界面。

          2.在SQL编辑器界面,单击“设置”,在“配置项”尝试添加以下几个Spark参数进行解决。

          参数项如下,冒号前是配置项,冒号后是配置项的值。

          spark.sql.enableToString:false 
          spark.sql.adaptive.join.enabled:true 
          spark.sql.adaptive.enabled:true 
          spark.sql.adaptive.skewedJoin.enabled:true 
          spark.sql.adaptive.enableToString:false 
          spark.sql.adaptive.skewedPartitionMaxSplits:10
          
          说明

          spark.sql.adaptive.skewedPartitionMaxSplits表示倾斜拆分力度,可不加,默认为5,最大为10。

          3.单击“执行”重新运行作业,查看优化效果。

          DLI控制台中无法查询到对应表

          问题现象

          已知存在某DLI表,但在DLI页面查询不到该表。

          问题根因

          已有表但是查询不到时,大概率是因为当前登录的用户没有对该表的查询和操作权限。

          解决措施

          联系创建该表的用户,让该用户给需要操作该表的其他用户赋予查询和操作的权限。赋权操作如下:

          1.使用创建表的用户账号登录到DLI管理控制台,选择“数据管理 > 库表管理”。

          2.单击对应的数据库名称,进入到表管理界面。在对应表的“操作”列,单击“权限管理”,进入到表权限管理界面。

          3.单击“授权”,授权对象选择“用户授权”,用户名选择需要授权的用户名,勾选对应需要操作的权限。如“查询表”、“插入”等根据需要勾选。

          4.单击“确定”完成权限授权。

          5.授权完成后,再使用已授权的用户登录DLI控制台,查看是否能正常查询到对应表。

          OBS表压缩率较高

          当Parquet/Orc格式的OBS表对应的文件压缩率较高时(跟文本相比,超过5倍压缩率),建议在提交导入数据到DLI表作业时,在submit-job请求体conf字段中配置“dli.sql.files.maxPartitionBytes=33554432”,该配置项默认值为128MB,将其配置成32MB,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。

          如何避免字符码不一致导致的乱码

          DLI只支持UTF-8文本格式。

          执行创建表和导入操作时,用户的数据需要是以UTF-8编码。

          删除表后再重新创建同名的表,需要对操作该表的用户和项目重新赋权

          问题场景

          A用户通过SQL作业在某数据库下创建了表testTable,并且授权testTable给B用户插入和删除表数据的权限。后续A用户删除了表testTable,并重新创建了同名的表testTable,如果希望B用户继续保留插入和删除表testTable数据的权限,则需要重新对该表进行权限赋予。

          问题根因

          删除表后再重建同名的表,该场景下表权限不会自动继承,需要重新对需要操作该该表的用户或项目进行赋权操作。

          解决方案

          表删除再创建后,需要重新对需要操作该表的用户或项目进行赋权操作。具体操作如下:

          1.在管理控制台左侧,单击“数据管理”>“库表管理”。

          2.单击需要设置权限的表所在的数据库名,进入该数据库的“表管理”页面。

          3.单击所选表“操作”栏中的“权限管理”,将显示该表对应的权限信息。

          4.单击表权限管理页面右上角的“授权”按钮。

          5.在弹出的“授权”对话框中选择相应的权限。

          6.单击“确定”,完成表权限设置。

          DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败

          问题现象

          DLI分区内表导入了CSV文件数据,导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段,导致查询不到表数据。

          问题根因

          DLI分区内表在导入数据时,如果文件数据没有包含分区字段,则系统会默认指定分区值“ HIVE_DEFAULT_PARTITION ”,当前Spark判断分区为空时,则会直接返回null,不返回具体的数据。

          解决方案

          1.登录DLI管理控制台,在“SQL编辑器”中,单击“设置”。

          2.在参数设置中,添加参数“spark.sql.forcePartitionPredicatesOnPartitionedTable.enabled”,值设置为“false”。

          3.上述步骤参数设置完成后,则可以进行全表查询,不用查询表的时候要包含分区字段。

          创建OBS外表,因为OBS文件中的某字段存在回车换行符导致表字段数据错误

          问题现象

          创建OBS外表,因为指定的OBS文件内容中某字段包含回车换行符导致表字段数据错误。

          例如,当前创建的OBS外表语句为:

          CREATE TABLE test06 (name string, id int, no string) USING csv OPTIONS (path "obs://dli-test-001/test.csv");
          

          test.csv文件内容如下:

          Jordon,88,"aa 
          bb"
          

          因为最后一个字段的aa和bb之间存在回车换行。创建OBS外表后,查询test06表数据内容显示如下:

          name    id    classno 
          Jordon    88    aa 
          bb"    null    null
          

          解决方案

          创建OBS外表时,通过multiLine=true来指定列数据包含回车换行符。针对举例的建表语句,可以通过如下示例解决:

          CREATE TABLE test06 (name string, id int, no string) USING csv OPTIONS (path "obs://dli-test-001/test.csv",multiLine=true);
          

          SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中

          问题现象

          SQL作业中存在join操作,作业提交后状态一直是运行中,没有结果返回。

          问题根因

          Spark SQL作业存在join小表操作时,会触发自动广播所有executor,使得join快速完成。但同时该操作会增加executor的内存消耗,如果executor内存不够时,导致作业运行失败。

          解决措施

          1.排查执行的SQL中是否有使用“/*+ BROADCAST(u) */”强制做broadcastjoin。如果有,则需要去掉该标识。

          2.设置spark.sql.autoBroadcastJoinThreshold=-1,具体操作如下:

          a.登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。

          b.单击“设置”,在参数设置中选择“spark.sql.autoBroadcastJoinThreshold”参数,其值设置为“-1”。

          c.重新单击“执行”,运行该作业,观察作业运行结果。

          join表时没有添加on条件,造成笛卡尔积查询,导致队列资源爆满,作业运行失败

          问题现象

          运行的SQL语句中存在join表,但是join没有添加on条件,多表关联造成笛卡尔积查询,最终导致队列资源占满,该队列上的作业运行失败。

          例如,如下问题SQL语句,存在三个表的left join,并且没有指定on条件,造成笛卡尔积查询。

          select  
               case  
                  when to_char(from_unixtime(fs.special_start_time), 'yyyy-mm-dd') < '2018-10-12' and row_number() over(partition by fg.goods_no order by fs.special_start_time asc) = 1 then 1 
                  when to_char(from_unixtime(fs.special_start_time), 'yyyy-mm-dd') >= '2018-10-12' and fge.is_new = 1 then 1  
                  else 0 end as is_new 
          from testdb.table1 fg  
          left join testdb.table2 fs 
          left join testdb.table3  fge 
          where to_char(from_unixtime(fs.special_start_time), 'yyyymmdd') = substr('20220601',1,8)
          

          解决措施

          在使用join进行多表关联查询时,不管表数据量大小,join时都需要指定on条件来减少多表关联的数据量,从而减轻队列的负荷,提升查询效率。

          例如,问题现象中的问题语句可以根据业务场景,在join时通过指定on条件来进行优化,这样会极大减少关联查询的结果集,提升查询效率。

          select  
               case  
                  when to_char(from_unixtime(fs.special_start_time), 'yyyy-mm-dd') < '2018-10-12' and row_number() over(partition by fg.goods_no order by fs.special_start_time asc) = 1 then 1 
                  when to_char(from_unixtime(fs.special_start_time), 'yyyy-mm-dd') >= '2018-10-12' and fge.is_new = 1 then 1  
                  else 0 end as is_new 
          from testdb.table1 fg  
          left join testdb.table2 fs on fg.col1 = fs.col2 
          left join testdb.table3  fge on fg.col3 = fge.col4 
          where to_char(from_unixtime(fs.special_start_time), 'yyyymmdd') = substr('20220601',1,8)
          

          手动在OBS表的分区目录下添加了数据,但是无法查询到该部分数据

          问题现象

          手动在OBS表的分区目录下上传了分区数据,但是在SQL编辑器中查询该表新增的分区数据时却查询不到。

          解决方案

          手动添加分区数据后,需要刷新OBS表的元数据信息。具体操作如下:

          MSCK REPAIR TABLE  table_name ;
          

          执行完上述命令后,再执行对应OBS分区表的数据查询即可。

          为什么insert overwrite覆盖分区表数据的时候,覆盖了全量数据?

          如果需要动态覆盖DataSource表指定分区数据,需要先配置参数:dli.sql.dynamicPartitionOverwrite.enabled=true,再通过“insert overwrite”语句实现,“dli.sql.dynamicPartitionOverwrite.enabled”默认值为“false”。

          为什么SQL作业一直处于“提交中”?

          SQL作业一直在提交中,有以下几种可能:

          • 刚购买DLI队列后,第一次进行SQL作业的提交。需要等待5~10分钟,待后台拉起集群后,即可提交成功。
          • 若刚刚对队列进行网段修改,立即进行SQL作业的提交。需要等待5~10分钟,待后台重建集群后,即可提交成功。
          • 按需队列,已空闲状态(超过1个小时)。后台资源已经释放。此时进行SQL作业的提交。需要等待5~10分钟,待后台重新拉起集群后,即可提交成功。

          跨源连接RDS表中create_date字段类型是datetime,为什么dli中查出来的是时间戳呢?

          Spark中没有datetime数据类型,其使用的是TIMESTAMP类型。

          您可以通过函数进行转换。

          例如:

          select cast(create_date as string), * from

          table where create_date>'2221-12-01 00:00:00';

          SQL作业执行完成后,修改表名导致datasize修改失败怎么办?

          如果执行SQL后立即修改了表名,可能会导致表的数据大小结果不正确。

          如需修改表名,建议在SQL作业执行完成后,间隔5分钟再修改表名。

          从DLI导入数据到OBS,为什么数据量出现差异?

          问题现象

          使用DLI插入数据到OBS临时表文件,数据量有差异。

          根因分析

          出现该问题可能原因如下:

          • 作业执行过程中,读取数据量错误。
          • 验证数据量的方式不正确。

          通常在执行插入数据操作后,如需确认插入数据量是否正确,建议通过查询语句进行查询。

          如果OBS对存入的文件数量有要求,可以在插入语句后加入“DISTRIBUTE BY number”。例如,在插入语句后添加“DISTRIBUTE BY 1”,可以将多个task生成的多个文件汇总为一个文件。

          操作步骤

          1.在管理控制台检查对应SQL作业详情中的“结果条数”是否正确。 检查发现读取的数据量是正确的。

          2.确认客户验证数据量的方式是否正确。客户验证的方式如下:

          a.通过OBS下载数据文件。

          b.通过文本编辑器打开数据文件,发现数据量缺失。

          根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。

          通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。

          因此,该问题为验证方式不正确造成。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  作业运维报错
          下一篇 :  Spark作业相关问题
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明