开发者
天翼云开发者社区
共 9 条
  • 1
前往

spark执行查询任务性能调优--资源&并行度

文档介绍了通过调节资源、并行度来实现spark性能提升。

什么是离散制造

本文介绍 ERP 管理软件领域的离散制造概念。

HUDI运维管理

HUDI运维包括HUDI CLEAN、ARCHIVE等服务

数据治理之数据质量评估维度及方法

文中从数据治理的关注点,评估维度,校验方法及监控规则几个维度,介绍数据治理,在保证数据质量的目标下,开展治理工作

离线数仓优化简述

本文简述的离线数仓的优化层面和优化手段,包含业务层面、模型层面、系统层面、代码层面、任务层面5个层面的优化手段,基本覆盖离线数仓的全部优化项。

数据治理之构建数据资产目录

现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升业务效率和优化决策。在组织中实施数据资产目录是一项战略举措,可以带来巨大的好处,包括改进决策、效率和合规性,以及成为事实来源以及数据起源的数据沿袭。

Hudi Clustering 功能介绍

数据湖的业务场景主要包括数据库、日志和文件的分析。管理数据湖的关键权衡之一是在写吞吐量和查询性能之间进行选择。为了获得更好的写入吞吐量,通常最好将传入数据写入较小的数据文件。这将大大提高并行性并提高写入速度。但是小文件过多会导致对Hadoop集群namenode压力增加,同时会导致数据的聚集性不会太好,经常查询的数据不会放在一起,会一定层度降低查询性能。Hudi Clustering功能基于以上问题,针对性的提出解决方案。

elasticsearch使用python脚本批量导入数据

使用python脚本批量生成数据,然后导入elasticsearch。用于平时测试。

没有更多了
共 9 条
  • 1
前往

spark执行查询任务性能调优--资源&并行度

文档介绍了通过调节资源、并行度来实现spark性能提升。

什么是离散制造

本文介绍 ERP 管理软件领域的离散制造概念。

HUDI运维管理

HUDI运维包括HUDI CLEAN、ARCHIVE等服务

数据治理之数据质量评估维度及方法

文中从数据治理的关注点,评估维度,校验方法及监控规则几个维度,介绍数据治理,在保证数据质量的目标下,开展治理工作

离线数仓优化简述

本文简述的离线数仓的优化层面和优化手段,包含业务层面、模型层面、系统层面、代码层面、任务层面5个层面的优化手段,基本覆盖离线数仓的全部优化项。

数据治理之构建数据资产目录

现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升业务效率和优化决策。在组织中实施数据资产目录是一项战略举措,可以带来巨大的好处,包括改进决策、效率和合规性,以及成为事实来源以及数据起源的数据沿袭。

Hudi Clustering 功能介绍

数据湖的业务场景主要包括数据库、日志和文件的分析。管理数据湖的关键权衡之一是在写吞吐量和查询性能之间进行选择。为了获得更好的写入吞吐量,通常最好将传入数据写入较小的数据文件。这将大大提高并行性并提高写入速度。但是小文件过多会导致对Hadoop集群namenode压力增加,同时会导致数据的聚集性不会太好,经常查询的数据不会放在一起,会一定层度降低查询性能。Hudi Clustering功能基于以上问题,针对性的提出解决方案。

elasticsearch使用python脚本批量导入数据

使用python脚本批量生成数据,然后导入elasticsearch。用于平时测试。

没有更多了