全部
共17篇
大数据
共17篇
无数据
爆款云主机2核2G28.8元/年起!
查看详情
活动
天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
11.11智惠上云月
NEW
爆款云主机2核2G28.8元/年起!更有限时续费优惠,最低3.5折!
免费体验DeepSeek,上天翼云息壤
NEW
新老用户均可免费体验2500万Tokens,限时两周
云上钜惠
HOT
爆款云主机全场特惠,更有万元锦鲤券等你来领!
算力套餐
HOT
让算力触手可及
天翼云AI产品特惠
NEW
人脸识别+文字识别焕新,新用户免费试用
中小企业服务商合作专区
国家云助力中小企业腾飞,高额上云补贴重磅上线
出海产品促销专区
NEW
爆款云主机低至2折,高性价比,不限新老速来抢购!
天翼云电脑专场
HOT
移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
天翼云奖励推广计划
加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
免费试用中心
HOT
多款云产品免费试用,快来开启云上之旅
天翼云用户体验官
NEW
您的洞察,重塑科技边界
息壤智算
领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
智算云(DeepSeek专区)
AI Store
算力市场
模型市场
应用市场
MCP市场
算力互联调度平台
裸金属
定制裸金属
训推服务
模型开发
训练任务
服务部署
模型推理服务
模型广场
体验中心
服务接入
应用托管
应用实例
科研助手
科研智能体
科研服务
开发机
并行计算
大模型
DeepSeek-V3.1
DeepSeek-R1-0528
DeepSeek-V3-0324
Qwen3-235B-A22B
Qwen3-32B
智算一体机
智算一体机
模型适配专家服务
模型适配专家服务
算力服务商
入驻算力服务商
应用商城
天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城
进入云市场
创新解决方案
智云上海应用生态专区
AI应用
泛微合同管理解决方案
泛微数智大脑Xiaoe.AI解决方案
MaxKB知识库解决方案
天翼AI文创
AI服务
昆仑AI训推服务解决方案
国信模型服务解决方案
企业应用
翼电子签约解决方案
翼协同解决方案
翼电签-契约锁解决方案
翼视频云归档解决方案
教育应用
翼电子教室
潜在AI教育解决方案
建站工具
SSL证书
翼定制建站解决方案
翼多端小程序解决方案
办公协同
天翼云企业云盘
安全邮箱
灾备迁移
云管家2.0
资源管理
全栈混合云敏捷版(软件)
全栈混合云敏捷版(一体机)
定价
协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
动态测算产品价格
定价策略
快速了解计费模式
合作伙伴
天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
天翼云生态合作中心
天翼云渠道合作伙伴
天翼云代理渠道合作伙伴
天翼云服务合作伙伴
天翼云集成商交付能力认证
天翼云应用合作伙伴
天翼云云市场合作伙伴
天翼云甄选商城合作伙伴
天翼云技术合作伙伴
天翼云OpenAPI中心
天翼云培训认证
天翼云学堂
天翼云市场商学院
天翼云合作计划
云汇计划
天翼云东升计划
适配中心
东升计划
适配互认证
开发者
开发者相关功能入口汇聚
技术社区
专栏文章
互动问答
技术视频
资源与工具
OpenAPI中心
培训与认证
天翼云学堂
天翼云认证
魔乐社区
魔乐社区
支持与服务
为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
文档中心
新手上云
自助服务
OpenAPI中心
定价
价格计算器
定价策略
基础服务
售前咨询
在线支持
在线支持
工单服务
建议与反馈
用户体验官
服务保障
客户公告
会员中心
增值服务
红心服务
首保服务
客户支持计划
专家技术服务
备案管家
了解天翼云
天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
关于天翼云
智算云
天翼云4.0
新闻资讯
天翼云APP
基础设施
全球基础设施
信任中心
最佳实践
精选案例
超级探访
云杂志
分析师和白皮书
天翼云·创新直播间
市场活动
2025智能云生态大会
2024智算云生态大会
2023云生态大会
2022云生态大会
天翼云中国行
活动
息壤智算
产品
解决方案
应用商城
定价
合作伙伴
开发者
支持与服务
了解天翼云
文档
控制中心
备案
管理中心
活动
查看全部
息壤智算
息壤智算
解决方案
行业解决方案
通用解决方案
最佳实践
应用商城
应用商城
定价
定价
合作伙伴
合作伙伴
开发者
开发者
支持与服务
支持与服务
了解天翼云
了解天翼云
登录
注册
首页
社区专栏
视频
问答
团队
发布文章
消息中心
社区专栏
>
个人专栏
>
hudi
加入个人专栏
订阅
17 文章
2197 阅读
1 订阅
全部
大数据 17
hudi
17 文章
2.197k 阅读
1 订阅
加入个人专栏
订阅
全部
hudi系列-文件系统视图
hudi表的数据一直在演变过程中,存储在文件系统中的数据文件也在不断增加和版本迭代,hudi提供了表级别的文件系统视图(filesystem view)来简单、直观地了解表中的数据分布情况、数据文件的状态和变化,以及数据的版本控制信息
大数据
矛始
2024-11-12
0
11
0
hudi系列-小文件优化
hudi使用mvcc来实现数据的读写一致性和并发控制,基于timeline实现对事务和表服务的管理,会产生大量比较小的数据文件和元数据文件。大量小文件会对存储和查询性能产生不利影响,包括增加文件系统的开销、文件管理的复杂性以及查询性能的下降。对于namenode而言,当整个集群中文件数到了几千万,就已经会变得很不稳定了
大数据
矛始
2024-05-07
0
61
0
hudi系列-append写过程
Append模式每次都生成新的parquet文件,不涉及数据修改、去重
大数据
矛始
2024-05-07
0
27
0
hudi系列-不支持flink计算列
在构建parquet reader的时候需要定位每个查询schema中的列对应数据文件中的位置(用selectIndexs表示
大数据
矛始
2023-12-19
0
46
2
hudi系列-mor表写过程
hudi有很多种写入流程,使用不同的表类型、写类型(WriteOperationType)、索引类型(IndexType),流程上都会有所差异。使用flink流式写MOR表场景比较多,顺道梳理一下这个流程的细节
大数据
矛始
2023-12-19
0
21
0
hudi系列-基于cdc应用与优化
做数据同步受存储引擎和采集工具的限制,经常都是全量定时同步,亦或是以自增ID或时间作为增量的依据进行增量定时同步,无论是哪种,都存在数据延时较大、会重复同步不变的数据、浪费资源等问题。后来刚接触canal时还大感惊奇,基于mysql的binlog可以这么方便实时同步最新数据,然而历史数据的初始化仍然得使用第三方ETL工具来全量同步。直到flink cdc项目诞生,完全解决了前面的痛点。实时技术的发展已经不能满足于数据只能实时采集,还需要实时地进行数据建模和数据分析,即全链路实时。
大数据
矛始
2023-12-19
0
29
0
hudi系列-增量查询ckp超时
增量查询ckp超时
大数据
矛始
2023-12-19
0
17
0
hudi系列-数据写入方式及使用场景
hudi支持多种数据写入方式:insert、bulk_insert、upsert、boostrap,我们可以根据数据本身属性(append-only或upsert)来选择insert和upsert方式,同时也支持对历史数据的高效同步并嫁接到实时流程。
大数据
矛始
2023-06-16
1
180
0
hudi系列-文件布局
hudi的文件布局是能实现增量查询、数据更新等特性的基础,每个hudi表有一个固定的目录,存放元数据(.hoodie)以及数据文件,其中数据文件可以以分区方式进行划分,每个分区有多个数据文件(基础文件和日志文件),这些数据文件在逻辑上被组织为文件组、文件分片
大数据
矛始
2023-05-17
0
159
0
hudi系列-索引机制
hudi的索引机制是为了加速upsert/delete操作,它维护着(分区 + key)-> fileID之间的映射关系,所以可以减少对非必要base文件的合并
大数据
矛始
2023-03-28
0
121
0
hudi系列-流式增量查询
hudi的两大特性:流式查询和支持upsert/delete,hudi的数据变更是基于timeline的,所以时间点(Instant)就成为了实现增量查询的依据。在与flink集成中,当开启了流式读,其实就是一个持续的增量查询的过程,可以通过配置参数read.start-commit和read.end-commit来指定一个无状态的flink job的初始查询范围。
大数据
矛始
2023-02-16
0
106
0
hudi系列-设置合理清理策略
hudi提供三种查询方式:读优化、快照读、增量读,无论是哪种方式,由于hudi的文件组织是有版本的概念(FileGroup,FileSlice),旧版本的文件持续在执行清理,如果被清理的文件正在读取或者即将被读取到,那岂不是很影响使用,所以我们需要设置合理的清理策略保障上层数据处理任务的平稳运行,提高系统的容错性。
大数据
矛始
2022-12-11
0
392
0
hudi系列-changelog的读写
hudi自身支持ChangelogModes#FULL & ChangelogModes#UPSERT 两种模式
大数据
矛始
2022-12-11
0
319
0
hudi系列-文件归档(archive)
hudi会不断生成commit、deltacommit、clean等类型的Instant从而形成活跃时间轴(ActiveTimeline),随着时间增长,时间轴变长,.hoodie元数据目录下的文件不断累积,为了限制元数据文件数量,需要对一些比较久远的元数据文件进行归档,保存到.hoodie/archived目录下,可以称之为归档时间轴(ArchivedTimeline)。
大数据
矛始
2022-12-11
0
231
0
hudi系列-文件压缩(compaction)
压缩(compaction)仅作用于MergeOnRead类型表,MOR表每次增量提交(deltacommit)都会生成若干个日志文件(行存储的avro文件),为了避免读放大以及减少文件数量,需要配置合适的压缩策略将增量的log file合并到base file(parquet)中。
大数据
矛始
2022-12-11
0
326
0
hudi系列-借助hudi优化架构
引入hudi的后整个构架最直观就是变得简单了,可以实现分钟级别的实时数仓,数据统一存储减少一致性的风险
大数据
矛始
2022-12-11
0
27
0
hudi系列-旧文件清理(clean)
hudi采用的是mvcc设计,提供了清理工具cleaner来把旧版本的文件分片删除,默认开启了清理功能,可以防止文件系统的存储空间和文件数量的无限增长。
大数据
矛始
2022-12-10
0
124
0
共 17 条
1
前往
页
全部
hudi系列-文件系统视图
hudi表的数据一直在演变过程中,存储在文件系统中的数据文件也在不断增加和版本迭代,hudi提供了表级别的文件系统视图(filesystem view)来简单、直观地了解表中的数据分布情况、数据文件的状态和变化,以及数据的版本控制信息
大数据
矛始
0
11
0
hudi系列-小文件优化
hudi使用mvcc来实现数据的读写一致性和并发控制,基于timeline实现对事务和表服务的管理,会产生大量比较小的数据文件和元数据文件。大量小文件会对存储和查询性能产生不利影响,包括增加文件系统的开销、文件管理的复杂性以及查询性能的下降。对于namenode而言,当整个集群中文件数到了几千万,就已经会变得很不稳定了
大数据
矛始
0
61
0
hudi系列-append写过程
Append模式每次都生成新的parquet文件,不涉及数据修改、去重
大数据
矛始
0
27
0
hudi系列-不支持flink计算列
在构建parquet reader的时候需要定位每个查询schema中的列对应数据文件中的位置(用selectIndexs表示
大数据
矛始
0
46
2
hudi系列-mor表写过程
hudi有很多种写入流程,使用不同的表类型、写类型(WriteOperationType)、索引类型(IndexType),流程上都会有所差异。使用flink流式写MOR表场景比较多,顺道梳理一下这个流程的细节
大数据
矛始
0
21
0
hudi系列-基于cdc应用与优化
做数据同步受存储引擎和采集工具的限制,经常都是全量定时同步,亦或是以自增ID或时间作为增量的依据进行增量定时同步,无论是哪种,都存在数据延时较大、会重复同步不变的数据、浪费资源等问题。后来刚接触canal时还大感惊奇,基于mysql的binlog可以这么方便实时同步最新数据,然而历史数据的初始化仍然得使用第三方ETL工具来全量同步。直到flink cdc项目诞生,完全解决了前面的痛点。实时技术的发展已经不能满足于数据只能实时采集,还需要实时地进行数据建模和数据分析,即全链路实时。
大数据
矛始
0
29
0
hudi系列-增量查询ckp超时
增量查询ckp超时
大数据
矛始
0
17
0
hudi系列-数据写入方式及使用场景
hudi支持多种数据写入方式:insert、bulk_insert、upsert、boostrap,我们可以根据数据本身属性(append-only或upsert)来选择insert和upsert方式,同时也支持对历史数据的高效同步并嫁接到实时流程。
大数据
矛始
1
180
0
hudi系列-文件布局
hudi的文件布局是能实现增量查询、数据更新等特性的基础,每个hudi表有一个固定的目录,存放元数据(.hoodie)以及数据文件,其中数据文件可以以分区方式进行划分,每个分区有多个数据文件(基础文件和日志文件),这些数据文件在逻辑上被组织为文件组、文件分片
大数据
矛始
0
159
0
hudi系列-索引机制
hudi的索引机制是为了加速upsert/delete操作,它维护着(分区 + key)-> fileID之间的映射关系,所以可以减少对非必要base文件的合并
大数据
矛始
0
121
0
hudi系列-流式增量查询
hudi的两大特性:流式查询和支持upsert/delete,hudi的数据变更是基于timeline的,所以时间点(Instant)就成为了实现增量查询的依据。在与flink集成中,当开启了流式读,其实就是一个持续的增量查询的过程,可以通过配置参数read.start-commit和read.end-commit来指定一个无状态的flink job的初始查询范围。
大数据
矛始
0
106
0
hudi系列-设置合理清理策略
hudi提供三种查询方式:读优化、快照读、增量读,无论是哪种方式,由于hudi的文件组织是有版本的概念(FileGroup,FileSlice),旧版本的文件持续在执行清理,如果被清理的文件正在读取或者即将被读取到,那岂不是很影响使用,所以我们需要设置合理的清理策略保障上层数据处理任务的平稳运行,提高系统的容错性。
大数据
矛始
0
392
0
hudi系列-changelog的读写
hudi自身支持ChangelogModes#FULL & ChangelogModes#UPSERT 两种模式
大数据
矛始
0
319
0
hudi系列-文件归档(archive)
hudi会不断生成commit、deltacommit、clean等类型的Instant从而形成活跃时间轴(ActiveTimeline),随着时间增长,时间轴变长,.hoodie元数据目录下的文件不断累积,为了限制元数据文件数量,需要对一些比较久远的元数据文件进行归档,保存到.hoodie/archived目录下,可以称之为归档时间轴(ArchivedTimeline)。
大数据
矛始
0
231
0
hudi系列-文件压缩(compaction)
压缩(compaction)仅作用于MergeOnRead类型表,MOR表每次增量提交(deltacommit)都会生成若干个日志文件(行存储的avro文件),为了避免读放大以及减少文件数量,需要配置合适的压缩策略将增量的log file合并到base file(parquet)中。
大数据
矛始
0
326
0
hudi系列-借助hudi优化架构
引入hudi的后整个构架最直观就是变得简单了,可以实现分钟级别的实时数仓,数据统一存储减少一致性的风险
大数据
矛始
0
27
0
hudi系列-旧文件清理(clean)
hudi采用的是mvcc设计,提供了清理工具cleaner来把旧版本的文件分片删除,默认开启了清理功能,可以防止文件系统的存储空间和文件数量的无限增长。
大数据
矛始
0
124
0
没有更多了