约束与限制 本章节主要介绍数据治理中心的约束与限制。 浏览器限制 您需要使用支持的浏览器版本登录DataArts Studio。 表1 浏览器兼容性 浏览器版本 建议版本 建议操作系统 备注 Google Chrome 115,114,113 Windows 10 分辨率最佳可视范围为最小1366768px,最大为19201080px。其中19201080px为最佳显示分辨率,界面自适应为最优显示。 使用限制 使用DataArts Studio前,您需要认真阅读并了解以下使用限制。 表2 DataArts Studio使用限制一览表 组件 约束限制 公共 DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。 每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时,再次创建实例会失败。 DataArts Studio各组件对不同数据源的支持程度不一,您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见“DataArts Studio用户指南 > 管理中心 > DataArts Studio支持的数据源”。 管理中心 由于管理中心的限制,数据治理各组件(如数据架构、数据质量、数据目录等)暂不支持包含中文和“.”字符的库表名。 建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群,避免双方使用同一集群,导致业务高峰期时资源抢占引起业务不可用。 CDM集群作为管理中心数据连接Agent时,单集群无法连接多个MRS安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 单工作空间允许创建的数据连接个数最多200个。 管理中心相关开放API并发限制为100qps。 数据集成 CDM作业支持自动备份和恢复,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见用户指南中“数据集成 > 管理作业 > 作业配置管理”章节。 CDM作业本身无配额限制,但建议作业数不超过CDM集群的vCPU核数2,否则作业运行性能可能会受到一定影响。 数据集成CDM集群为单集群部署,集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业,并选择两个CDM集群以提升可靠性。详情请参见用户指南中“数据开发 > 节点参考 > CDM Job”章节。 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 在驱动更新场景下,上传驱动后必须在CDM集群列表中重启集群才能更新生效。 单作业的抽取并发数取值范围为1300,集群的总抽取并发数取值范围为11000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。 关于数据集成中的更多约束限制,请参考用户指南中“数据集成> 约束与限制”章节。 数据开发 数据开发脚本、作业等资产支持备份管理,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见用户指南中“数据开发 > 运维调度 > 备份管理”章节。 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。 上传资源时,如果资源位置为HDFS,则只支持MRS Spark,MRS Flink Job,MRS MapReduce节点使用该资源。 单工作空间允许创建的脚本个数最多1万个,脚本目录最多5000个,目录层级最多为10层。 单工作空间允许创建的作业个数最多1万个,作业目录最多5000个,目录层级最多为10层。 RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、DLI SQL脚本执行结果页面展示最多1千条,且数据量少于3MB。超过1千条数据可以使用转储功能,转储最多支持1万条。 实例监控、补数据监控只能展示最近6个月的数据。 通知记录只能展示最近30天的数据。 下载中心的下载记录会每7天做老化处理,老化时下载中心记录和已转储的OBS数据会同时被删除。 数据架构 数据架构当前支持关系建模和维度建模(仅支持星形模型)这两种建模方式。 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。 码表和数据标准的根目录下禁止直接创建码表和数据标准。 单工作空间中创建各类对象的配额如下: l主题5000个。 l数据标准目录500条,个数20000个。 l业务指标100000个。 l原子指标、衍生指标、复合指标各5000条。 配置中心中各类对象的自定义项配额如下: l主题自定义项10条。 l表自定义项30条。 l属性自定义项10条。 l业务指标自定义项50条。 数据质量 数据质量作业执行时长依赖数据引擎,如果底层数据引擎资源不足,可能会导致运行速度变慢。 单个数据质量作业最多可以配置50条规则,如有需要可拆分为多个质量作业。 单个数据连接上的质量作业关联SQL的并发数默认为1000,如果超出则等待排队执行。可配置范围101000。 单Region内的质量作业关联SQL的并发数为10000,如果超出则等待排队执行。 业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示,告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。 数据质量监控模块总览中的变化趋势支持按照30天展示,质量告警分类趋势和规则数量趋势支持按照7天展示。 质量报告采用T+1日定时批量生成,质量报告数据保留90天。 导出质量报告至OBS,会将质量报告导出到工作空间中配置的作业日志OBS路径中,导出记录保留3个月。 数据目录 单工作空间中元数据采集任务最多创建100个。 元数据采集任务通过执行引擎相关的DDL SQL获取,不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务,另外调度时间和频次也需要根据业务需要进行合理设置,避免对引擎造成较大的访问和连接压力,设置建议如下: l若业务对元数据时效性要求为1天,则设置调度周期max(1天,单次采集周期时间),其他情况同理。 l若业务压力集中在白天,则设置调度时间在夜间,其他情况同理,选择数据源压力最小的时间段。 数据血缘的产生依赖于数据开发中调度运行的作业,测试运行的作业不会产生血缘。 元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。 数据服务 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。 DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。 数据服务专享版集群创建后暂不支持修改规格或升级版本。 DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额(默认为5000)和当前实例下集群的API规格总和共同决定,取较小的作为限制。例如,某DataArts Studio实例下的数据服务专享版API总分配配额为5000,已分别创建了API规格为500和2000的两个集群,则当前实例下支持创建的专享版API最大数量为2500。 单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额(通过编辑工作空间信息分配)和当前空间下集群的API规格总和共同决定,取较小的作为限制。例如,某工作空间下的数据服务专享版API已分配配额为800,当前工作空间下已创建了API规格为500的两个集群,则当前工作空间下支持创建的专享版API最大数量为800。 单工作空间下支持创建的应用数量为1000。 单工作空间下支持创建的流控策略数量为500。 数据服务支持跟踪并保存事件。对于每个事件,数据服务会报告事件发生日期、说明、时间源(某个集群)等信息,事件保存时长为30天。 数据服务专享版日志信息仅查询集群最近100条访问记录,均分至集群全部所属节点中获取。 总览中的调用趋势、发布趋势、调用比率 top5、调用时间 top5和调用次数 top5支持按照近12小时、近1天、近7天和近30天展示,总调用数为前7天数据总和(不含当天)。