字节跳动 Flink 状态查询实践与优化
摘要:本文整理自字节跳动基础架构工程师,Apache Flink Contributor 马越在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括: 背景 State Processor API 介绍 StateMeta Snapshot 机制 State as Da
自适应批作业调度器:为 Flink 批作业自动推导并行度
一、引言 对大部分用户来说,为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业,小的并行度会导致作业运行时间长,故障恢复慢,而不必要的大并行度会导致资源浪费,任务部署和数据 shuffle 开销也会变大。 为了控制批作业的执行时长,算子的并行度应该和其需要处理的数据量成正比。用户需要
Flink 1.15 新功能架构解析:高效稳定的通用增量 Checkpoint
流处理系统最重要的特性是端到端的延迟,端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink,作为流式计算的标杆,其端到端延迟包括容错的快慢主要取决于检查点机制(Checkpointing),所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在
美团 Flink 大作业部署与状态稳定性优化实践
摘要:本篇内容整理自美团数据平台工程师冯斐、王非凡在 Flink Forward Asia 2021 的演讲。主要内容包括: 相关背景 大作业部署优化 Checkpoint 跨机房副本 状态稳定性相关优化 未来规划 https://segmentfault.com/a/119000004145354
Hadoop 3.0的新特性
Erasure Coding HDFS数据冗余策略 以及其他: 1.最低要求的Java版本从Java 7增加到Java8 现在,已针对Java 8的运行时版本编译了所有HadoopAR。仍在使用Java7或更低版本的用户必须升级到java8. 2.支持HDFS中的纠删码 纠删码是一种持久存储数据的方
bigdata
未读
几种OLAP引擎简单对比
Kudu VS Clickhouse kudu 2015年9月28号出现第一个测试版本0.5.0,2016年2月26第一个正式版0.7.发布。clickhouse 2018年3月开源正式版出现。两者都是列式存储,都可以针对数据进行实时OLAP
深入解析 Flink 细粒度资源管理
摘要:本文整理自阿里巴巴高级开发工程师郭旸泽 (天凌) 在 Flink Forward Asia 2021 的演讲。主要内容包括: 细粒度资源管理与适用场景 Flink 资源调度框架 基于 SlotSharinGroup 的资源配置接口 动态资源切割机制 资源申请策略 总结与未来展望
Flink 大规模作业调度性能优化
本文作者洪志龙(柏星)& 朱翥(长耕),分享了如何在 Flink 1.13 版本和 1.14 版本中对 Flink 调度大规模作业的性能进行了优化。主要内容包括: 性能测评结果 基于拓扑结构的优化 优化任务部署 针对 Pipelined Region 构建的优化 随着 Flink 流批一体架构不断演
bigdata
未读
Impala 和 Kudu
来神策数据后,开始接触到Kudu和Impala两个组件,这两者的结合主要是受到 vertica 提出的 wos 和 ros 概念影响,即 写优化(write optimized store)和 读优化 (read optimized store),这一技术架构本质上就是一种数据的混合存储模型: da