自适应批作业调度器:为 Flink 批作业自动推导并行度
一、引言 对大部分用户来说,为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业,小的并行度会导致作业运行时间长,故障恢复慢,而不必要的大并行度会导致资源浪费,任务部署和数据 shuffle 开销也会变大。 为了控制批作业的执行时长,算子的并行度应该和其需要处理的数据量成正比。用户需要
Flink 1.15 新功能架构解析:高效稳定的通用增量 Checkpoint
流处理系统最重要的特性是端到端的延迟,端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink,作为流式计算的标杆,其端到端延迟包括容错的快慢主要取决于检查点机制(Checkpointing),所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在
美团 Flink 大作业部署与状态稳定性优化实践
摘要:本篇内容整理自美团数据平台工程师冯斐、王非凡在 Flink Forward Asia 2021 的演讲。主要内容包括: 相关背景 大作业部署优化 Checkpoint 跨机房副本 状态稳定性相关优化 未来规划 https://segmentfault.com/a/119000004145354
kafka
未读
Kafka幂等性原理深入解析
幂等性 在正常情况下,Producer向Broker投递消息,Broker将消息追加写到对应的流(即某一Topic的某一Partition)中,并向Producer返回ACK信号,表示确认收到。 但是Producer和Broker之间的通信总有可能出现异常,如果消息已经写入,但ACK在半途丢失了,P
Hadoop 3.0的新特性
Erasure Coding HDFS数据冗余策略 以及其他: 1.最低要求的Java版本从Java 7增加到Java8 现在,已针对Java 8的运行时版本编译了所有HadoopAR。仍在使用Java7或更低版本的用户必须升级到java8. 2.支持HDFS中的纠删码 纠删码是一种持久存储数据的方
bigdata
未读
几种OLAP引擎简单对比
Kudu VS Clickhouse kudu 2015年9月28号出现第一个测试版本0.5.0,2016年2月26第一个正式版0.7.发布。clickhouse 2018年3月开源正式版出现。两者都是列式存储,都可以针对数据进行实时OLAP
深入解析 Flink 细粒度资源管理
摘要:本文整理自阿里巴巴高级开发工程师郭旸泽 (天凌) 在 Flink Forward Asia 2021 的演讲。主要内容包括: 细粒度资源管理与适用场景 Flink 资源调度框架 基于 SlotSharinGroup 的资源配置接口 动态资源切割机制 资源申请策略 总结与未来展望