运维管理-HUDI监控配置
基本参数配置:
| 
 参数名  | 
 默认值  | 
 参数描述  | 
 支持版本  | 
| 
 hoodie.metrics.on  | 
 FALSE  | 
 是否打开/关闭监控指标报告  | 
 >=0.5.0  | 
| 
 hoodie.metrics.reporter.type  | 
 GRAPHITE  | 
 监控指标报告类型,支持类型:GRAPHITE, INMEMORY, JMX, DATADOG, CONSOLE, PROMETHEUS_PUSHGATEWAY, PROMETHEUS, CLOUDWATCH  | 
 >=0.5.0  | 
| 
 hoodie.metricscompaction.log.blocks.on  | 
 FALSE  | 
 打开/关闭带有压缩提交的日志块的指标报告。  | 
 >=0.14.0  | 
使用Prometheus报告Hudi监控指标,指标包括提交、清理、回滚等方面。
| 
 参数名  | 
 默认值  | 
 参数描述  | 
 支持版本  | 
| 
 hoodie.metrics.prometheus.port  | 
 9090  | 
 prometheus服务端口号  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.delete.on.shutdown  | 
 TRUE  | 
 作业关闭时是否删除pushgateway信息  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.host  | 
 localhost  | 
 prometheus推送网关主机名  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.job.name  | 
 
  | 
 推送至网关的作业名称  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.port  | 
 9091  | 
 prometheus推送网关端口号  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.random.job.name.suffix  | 
 TRUE  | 
 pushgateway名称是否需要加随机后缀  | 
 >=0.6.0  | 
| 
 hoodie.metrics.pushgateway.report.labels  | 
 
  | 
 发送到pushgateway的监控指标的标签。标签可以用逗号分隔  | 
 >=0.14.0  | 
| 
 hoodie.metrics.pushgateway.report.period.seconds  | 
 30  | 
 报告间隔(s)  | 
 >=0.6.0  | 
运维管理-HUDI清理服务
HUDI采用MVCC设计会保留文件多个版本,为防止保留文件过多,提供了CLEAN服务对旧版本文件进行清理
主要参数介绍:
| 
 参数名  | 
 默认值  | 
 参数描述  | 
| 
 hoodie.clean.automatic  | 
 TRUE  | 
 每次提交后都会立即调用CLEAN服务,以删除较旧的文件切片。建议启用此功能,以确保元数据和数据存储的增长受到限制。  | 
| 
 hoodie.clean.max.commits  | 
 1  | 
 最后一次清理操作之后、尝试安排新的清理之前的提交次数。  | 
| 
 hoodie.clean.trigger.strategy  | 
 NUM_COMMITS  | 
 控制何时安排清理。 NUM_COMMITS(默认):每 N 次提交触发一次清洁服务,由 hoodie.clean.max.commits 确定。  | 
| 
 hoodie.cleaner.fileversions.retained  | 
 3  | 
 清理期间每个文件组中保留的最小文件切片数。  | 
| 
 hoodie.cleaner.hours.retained  | 
 24  | 
 需要保留提交的小时数。与为清理服务保留的提交数量相比,此配置提供了更灵活的选项。设置此属性可确保清理所有文件(但文件组中的最新文件除外),这些文件对应于提交时间早于配置的保留小时数的提交。  | 
| 
 hoodie.cleaner.incremental.mode  | 
 TRUE  | 
 启用后,自上次清洁服务运行以来,每次清洁服务运行的计划都是根据时间线中的事件增量计算的。这比获取每个计划的完整表的列表(即使使用元数据表)要高效得多。  | 
| 
 hoodie.cleaner.parallelism  | 
 200  | 
 控制清理服务并发数  | 
| 
 hoodie.cleaner.policy  | 
 KEEP_LATEST_COMMITS  | 
 org.apache.hudi.common.model.HoodieCleaningPolicy:要使用的清洁策略。最多可以设置其中一项,否则使用 KEEP_LATEST_COMMITS 清理策略, KEEP_LATEST_FILE_VERSIONS、KEEP_LATEST_COMMITS、KEEP_LATEST_BY_HOURS  | 
| 
 hoodie.cleaner.policy.failed.writes  | 
 EAGER  | 
 控制如何清理失败写入的策略。EAGER(默认):每次写入操作后清除失败的写入。 LAZY:清理服务运行时,心跳超时后清理写入失败。启用多写入器时需要此策略。 NEVER:从不清除失败的写入。  | 
| 
 hoodie.clean.async  | 
 FALSE  | 
 异步启用CLEAN服务  | 
| 
 hoodie.cleaner.commits.retained  | 
 10  | 
 保留的提交数量,这将保留 num_of_commits * time_ Between_commits (预定)。这也直接转化为表支持增量查询的数据保留量。  | 
运维管理-HUDI归档服务