运维指导 访问FlinkUI/SparkUI页面无法正常显示怎么办? 问题现象 访问FlinkUI/SparkUI页面无法正常显示,打开页面返回信息不全。 根因分析 根据分析发现队列为按需队列,运行作业的时候会重新创建集群,大概需要10分钟左右才能完成集群创建。在集群创建完成之前,访问FlinkUI会导致缓存空的projectID,从而导致无法访问。出现该问题可能原因是由于集群未创建。 解决方案 建议将队列更换为专属队列,空闲状态下集群不会被释放。或者提交作业等一段时间之后在查看FlinkUI。 Jobmanager与Taskmanager心跳超时,导致Flink作业异常怎么办? 问题现象 Jobmanager与Taskmanager心跳超时,导致Flink作业异常。 异常信息 根因分析 1.检查网络是否发生闪断,分析集群负载是否很高。 2.如果频繁出现Full GC, 建议排查代码,确认是否有内存泄漏。 Full GC 处理步骤 如果频繁Full GC, 建议排查代码,是否有内存泄漏。 增加单TM所占的资源。 联系技术支持,修改集群心跳配置参数。 Flink jobmanager日志一直报Timeout expired while fetching topic metadata怎么办? 1.首先测试地址连通性。 2.若果网络不可达,需要先配置网络连通。确保DLI 队列与外部数据源的网络连接性正常。