节点启动或停止失败类问题 问题描述 节点启动失败,启动日志(在Agent目录logs/clslog下对应节点的日志pgctl.startxxx.log)显示报错: data directory xxx has group or world access,如: 20240115 11:28:22.874 CST 1389,coord(0,0) 0FATAL: data directory "/data/xxx/.../data/dn001" has group or world access 20240115 11:28:22.874 CST 1389,coord(0,0) 0DETAIL: Permissions should be urwx (0700). 可能影响 DN主节点启动失败,会导致访问到该DN的节点SQL报错,实例部分不可用; CN主节点启动失败,会导致流入该节点的SQL语句报错,流入其它CN主节点的DDL语句报错; CN/DN备节点失败失败,如果开启同步复制,同步复制节点数量不足且未启用退化策略时,会导致DDL、DML语句卡住; CN/DN备节点失败失败,可能会导致无可用备节点,主节点再次异常会导致实例不可用,有数据丢失风险。 解决步骤 1. 用teledbx用户查看节点目录权限 ls lrt xxx(节点目录),应为700,示例如下 > drwx 24 teledbx teledbx 4096 Jan 15 11:33 dn001 > 如果不是700,则需要改为700(只改节点目录,不能带R递归修改子目录或文件) > chmod 700 dn001 2. 重新发起节点启动任务,或等待节点自动拉起。 > 这里特别说明:节点data目录特别要求为700,需要特别注意。另外,对节点的bin目录、data目录做好权限管理,一定不能随意修改他们的目录或上级目录的属主、权限,否则可能会导致节点启动失败、运行异常。 节点停止失败问题