爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      Flink 算子简介

      首页 知识中心 大数据 文章详情页

      Flink 算子简介

      2024-05-24 07:47:12 阅读次数:49

      flink,大数据,算子

      Source Operator

      Flink的API层级 为流式/批式处理应用程序的开发提供了不同级别的抽象

      • 第一层是最底层的抽象为有状态实时流处理,抽象实现是 Process Function,用于底层处理

      • 第二层抽象是 Core APIs,许多应用程序不需要使用到上述最底层抽象的 API,而是使用 Core APIs 进行开发

        • 例如各种形式的用户自定义转换(transformations)、联接(joins)、聚合(aggregations)、窗口(windows)和状态(state)操作等,此层 API 中处理的数据类型在每种编程语言中都有其对应的类。
      • 第三层抽象是 Table API。 是以表Table为中心的声明式编程API,Table API 使用起来很简洁但是表达能力差

        • 类似数据库中关系模型中的操作,比如 select、project、join、group-by 和 aggregate 等
        • 允许用户在编写应用程序时将 Table API 与 DataStream/DataSet API 混合使用
      • 第四层最顶层抽象是 SQL,这层程序表达式上都类似于 Table API,但是其程序实现都是 SQL 查询表达式

        • SQL 抽象与 Table API 抽象之间的关联是非常紧密的
      • 注意:Table和SQL层变动多,还在持续发展中,大致知道即可,核心是第一和第二层

      Flink 算子简介

      • Flink编程模型

      Flink 算子简介

      Source来源

      • 元素集合

        • env.fromElements
        • env.fromColletion
        • env.fromSequence(start,end);
      • 文件/文件系统

        • env.readTextFile(本地文件);
        • env.readTextFile(HDFS文件);
      • 基于Socket

        • env.socketTextStream(“ip”, 8888)
      • 自定义Source,实现接口自定义数据源,rich相关的api更丰富

        • 并行度为1
          • SourceFunction
          • RichSourceFunction
        • 并行度大于1
          • ParallelSourceFunction
          • RichParallelSourceFunction
      • Connectors与第三方系统进行对接(用于source或者sink都可以)

        • Flink本身提供Connector例如kafka、RabbitMQ、ES等
        • 注意:Flink程序打包一定要将相应的connetor相关类打包进去,不然就会失败
      • Apache Bahir连接器

        • 里面也有kafka、RabbitMQ、ES的连接器更多

      Sink Operator

      • Sink 输出源
        • 预定义
          • print
          • writeAsText (过期)
        • 自定义
          • SinkFunction
          • RichSinkFunction
            • Rich相关的api更丰富,多了Open、Close方法,用于初始化连接等
        • flink官方提供 Bundle Connector
          • kafka、ES 等
        • Apache Bahir
          • kafka、ES、Redis等

      Transformation

      • Map和FlatMap

      • KeyBy

      • filter过滤

      • sum

      • reduce函数

      • sum

      窗口滑动

      • 背景
        • 数据流是一直源源不断产生,业务需要聚合统计使用,比如每10秒统计过去5分钟的点击量、成交额等
        • Windows 就可以将无限的数据流拆分为有限大小的“桶 buckets”,然后程序可以对其窗口内的数据进行计算
        • 窗口认为是Bucket桶,一个窗口段就是一个桶,比如8到9点是一个桶,9到10点是一个桶
      • 分类
        • time Window 时间窗口,即按照一定的时间规则作为窗口统计
          • time-tumbling-window 时间滚动窗口 (用的多)
          • time-sliding-window 时间滑动窗口 (用的多)
          • session WIndow 会话窗口,即一个会话内的数据进行统计,相对少用
        • count Window 数量窗口,即按照一定的数据量作为窗口统计,相对少用

      窗口属性

      • 滑动窗口 Sliding Windows
        • 窗口具有固定大小
        • 窗口数据有重叠
        • 例子:每10s统计一次最近1min内的订单数量

      Flink 算子简介

      滚动窗口 Tumbling Windows

      • 窗口具有固定大小
      • 窗口数据不重叠
      • 例子:每10s统计一次最近10s内的订单数量

      Flink 算子简介

      • 窗口大小size 和 滑动间隔 slide
        • tumbling-window:滚动窗口: size=slide,如:每隔10s统计最近10s的数据
        • sliding-window:滑动窗口: size>slide,如:每隔5s统计最近10s的数据
        • size<slide的时候,如每隔15s统计最近10s的数据,那么中间5s的数据会丢失,所以开发中不用

      Flink的状态State管理

      • 什么是State状态
        • 数据流处理离不开状态管理,比如窗口聚合统计、去重、排序等
        • 是一个Operator的运行的状态/历史值,是维护在内存中
        • 流程:一个算子的子任务接收输入流,获取对应的状态,计算新的结果,然后把结果更新到状态里面

      Flink 算子简介

      • 有状态和无状态介绍

        • 无状态计算: 同个数据进到算子里面多少次,都是一样的输出,比如 filter
        • 有状态计算:需要考虑历史状态,同个输入会有不同的输出,比如sum、reduce聚合操作
      • 状态管理分类

        • ManagedState(用的多)
          • Flink管理,自动存储恢复
          • 细分两类
            • Keyed State 键控状态(用的多)
              • 有KeyBy才用这个,仅限用在KeyStream中,每个key都有state ,是基于KeyedStream上的状态
              • 一般是用richFlatFunction,或者其他richfunction里面,在open()声明周期里面进行初始化
              • ValueState、ListState、MapState等数据结构
            • Operator State 算子状态(用的少,部分source会用)
              • ListState、UnionListState、BroadcastState等数据结构
        • RawState(用的少)
          • 用户自己管理和维护
          • 存储结构:二进制数组
      • State数据结构(状态值可能存在内存、磁盘、DB或者其他分布式存储中)

        • ValueState 简单的存储一个值(ThreadLocal / String)
          • ValueState.value()
          • ValueState.update(T value)
        • ListState 列表
          • ListState.add(T value)
          • ListState.get() //得到一个Iterator
        • MapState 映射类型
          • MapState.get(key)
          • MapState.put(key, value)

      Flink的Checkpoint-SavePoint和端到端(end-to-end)状态一致性

      • 什么是Checkpoint 检查点

        • Flink中所有的Operator的当前State的全局快照
        • 默认情况下 checkpoint 是禁用的
        • Checkpoint是把State数据定时持久化存储,防止丢失
        • 手工调用checkpoint,叫 savepoint,主要是用于flink集群维护升级等
        • 底层使用了Chandy-Lamport 分布式快照算法,保证数据在分布式环境下的一致性
      • 开箱即用,Flink 捆绑了这些检查点存储类型:

        • 作业管理器检查点存储 JobManagerCheckpointStorage
        • 文件系统检查点存储 FileSystemCheckpointStorage
      • Savepoint 与 Checkpoint 的不同之处

        • 类似于传统数据库中的备份与恢复日志之间的差异
        • Checkpoint 的主要目的是为意外失败的作业提供【重启恢复机制】,
        • Checkpoint 的生命周期由 Flink 管理,即 Flink 创建,管理和删除 Checkpoint - 无需用户交互
        • Savepoint 由用户创建,拥有和删除, 主要是【升级 Flink 版本】,调整用户逻辑
        • 除去概念上的差异,Checkpoint 和 Savepoint 的当前实现基本上使用相同的代码并生成相同的格式
      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://linmsen.blog.csdn.net/article/details/119516507,作者:林木森^~^,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:求排列组合数据

      下一篇:容器的数据卷

      相关文章

      2025-04-18 08:02:02

      传统CV算法——边缘检测算法综述

      边缘是不同区域的分界线,是周围(局部)灰度值有显著变化的像素点的集合,有幅值与方向两个属性。这个不是绝对的定义,主要记住边缘是局部特征,以及周围灰度值显著变化产生边缘。

      2025-04-18 08:02:02
      图像 , 梯度 , 检测 , 算子 , 边缘
      2025-04-14 08:45:56

      【Hadoop】YARN多资源队列配置及使用实践

      【Hadoop】YARN多资源队列配置及使用实践

      2025-04-14 08:45:56
      ci , hadoop , mapreduce , yarn , 大数据
      2025-04-01 10:28:07

      传统CV算法——边缘算子与图像金字塔算法介绍

      Sobel算子是一种用于边缘检测的图像梯度算子,它通过计算图像亮度的空间梯度来突出显示图像中的边缘。Sobel算子主要识别图像中亮度变化快的区域,这些区域通常对应于边缘。

      2025-04-01 10:28:07
      图像 , 梯度 , 检测 , 算子 , 边缘 , 金字塔
      2025-03-31 08:49:58

      Selenium Webdriver 3.X源码分析之核心代码common

      Selenium Webdriver 3.X源码分析之核心代码common

      2025-03-31 08:49:58
      java , python , 大数据 , 编程语言
      2025-03-28 07:40:23

      如何使用Dbeaver连接flink

      如何使用Dbeaver连接flink

      2025-03-28 07:40:23
      flink , jdbc , 管理器 , 输入 , 驱动
      2025-03-28 07:40:23

      flink运行报Exception in thread “main“ java.lang.IllegalStateException

      flink运行报Exception in thread “main“ java.lang.IllegalStateException

      2025-03-28 07:40:23
      flink , 依赖 , 客户端 , 导入
      2025-03-28 07:40:23

      如何使用DBeaver连接flink

      如何使用DBeaver连接flink

      2025-03-28 07:40:23
      flink , jdbc , 管理器 , 输入 , 驱动
      2025-03-24 08:47:15

      Python测试开发初稿

      Python测试开发初稿

      2025-03-24 08:47:15
      java , 人工智能 , 大数据 , 编程语言
      2025-03-11 09:36:17

      【算子1】spark(三):spark core:trans算子中value类型的算子使用说明

      【算子1】spark(三):spark core:trans算子中value类型的算子使用说明

      2025-03-11 09:36:17
      value , 分区 , 算子 , 类型
      2025-03-11 09:36:17

      【flink 零】flink技术概览:flink各项技术一览

      【flink 零】flink技术概览:flink各项技术一览

      2025-03-11 09:36:17
      flink , Flink , 内存 , 源码 , 调优
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5221527

      查看更多

      最新文章

      传统CV算法——边缘检测算法综述

      2025-04-18 08:02:02

      传统CV算法——边缘算子与图像金字塔算法介绍

      2025-04-01 10:28:07

      手写归并排序

      2025-01-17 09:14:02

      1到100万以内,如何打印99万个不重复的随机数?

      2025-01-17 09:06:45

      OpenCV从入门到精通——边缘检测算法Canny

      2024-11-06 07:16:52

      sqoop 的安装与常用抽数操作

      2024-09-25 10:14:34

      查看更多

      热门文章

      58如何调出eclipse左边文件栏

      2023-03-13 09:32:12

      java163-同步方法锁

      2023-03-07 10:04:03

      java156-序列化

      2023-03-10 10:21:07

      java162-同步对象锁

      2023-03-10 10:21:07

      大数据Spark “蘑菇云”行动第93课:Hive中的内置函数、UDF、UDAF实战

      2023-05-08 10:01:35

      大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

      2023-05-05 09:59:12

      查看更多

      热门标签

      算法 leetcode python 数据 java 数组 节点 大数据 i++ 链表 golang c++ 排序 django 数据类型
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      传统CV算法——边缘算子与图像金字塔算法介绍

      Vue课程52-v-if和v-show的区别

      大数据篇(五) Spark SQL简介

      elasticsearch分组求平均值

      大数据篇(二) Spark运行环境

      大数据系列之数据质量浅探

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号