Spark Streaming中checkpoint内幕实现彻底解密
源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。
高级 spark 人才的判定:
1 在一家顶级的公司做了多年的spark的开发,而且有成果,领导认可
2 为spark提供了bug的改进修复 spark contributor 而且是spark 多个部分的contributor
3 spark内核基础之上,精通某个子框架 如spark sql spark streaming 或图计算。。。
spark streaming 7×24 小时不间断运行,保持容错。checkpoint完成这种实现,把当前运行的状态
保存在容错的存储系统中,一般是hdfs,checkpoint分两种:
1 元数据 metadata checkpoint
程序的配置,如batch duration
业务逻辑,dstream grapth 怎么对数据进行处理
哪些没有处理的数据,突然挂掉了
2 数据本身data checkpoint
如updatestatebykey 将依赖的链条持久化,变成根RDD,出错了就从checkpoint的地方进行恢复。
看一个spark straming src中自带的example
这里第2个参数是传入一个函数