节点启动或停止失败类问题 节点启动超时问题 问题描述 控制台页面上显示节点为停止/异常状态,手动或自动启动失败。 为避免因系统卡顿、节点异常等原因,导致节点长时间处理启动等待状态问题,系统新增了全局参数NODEMAXSTARTWAITTIMES控制节点启动超时时间,默认为60秒。当节点重启、重做备机、添加备节点等操作时,如果启动时需要应用的WAL日志较多,启动时间可能会超过60秒,此时节点会收到Center Master下发的停止命令,节点启动60秒后日志会打印 received fast shutdown request,节点启动失败。 可能影响 DN主节点启动失败,会导致访问到该DN的节点SQL报错,实例部分不可用; CN主节点启动失败,会导致流入该节点的SQL语句报错,流入其它CN主节点的DDL语句报错; CN/DN备节点失败失败,如果开启同步复制,同步复制节点数量不足且未启用退化策略时,会导致DDL、DML语句卡住; CN/DN备节点失败失败,可能会导致无可用备节点,主节点再次异常会导致实例不可用,有数据丢失风险。 解决步骤 1. 控制台页面进入“系统信息”“基本信息”页面,切换至“参数配置”TAB页,查找并修改参数NODEMAXSTARTWAITTIMES; 2. 重新发起节点启动任务,或等待节点自动拉起。 pghba.conf文件内容错误导致启动失败问题 问题描述 节点启动失败,日志显示报错could not load pghba.conf,如: CST,"YB171020",,,17102,coord(0,0),,65a34d68.42ce,coord(0,0),3,,20240114 10:56:40 CST,,0,FATAL,XX000,"could not load pghba.conf",,,,,,,,,,"" 20240114 10:56:43.566 CST,"YB171020",,,17102,coord(0,0),,65a34d68.42ce,coord(0,0),4,,20240114 10:56:40 CST,,0,LOG,00000,"database system is shut down",,,,,,,,,,"" 而前一行会提示错误位置和错误原因,如: LOG,F0000,"invalid IP mask ""md5"": 未知的名称或服务",,,,,"line 24 of configuration file ""/data/xxx/....../pghba.conf""",,,,,"" 或 LOG,F0000,"invalid connection type""host1""",,,,,"line 11 of configuration file""/data/xxx/......./pghba.conf""",,,,"" 这里第一个错误显示第24行ip地址后的mask格式错误;第二个错误显示第11行连接类型host1错误,枚举类型中不包含host1。