分类: flink | 程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

flink 未读

Flink 1.12 和 1.13 的状态后端差异

Flink1.12的状态后端 MemoryStateBackend 内部数据作为对象在java堆空间中存储。checkpoint时，状态快照发送给jobmanager。 //第一个参数是配置最大使用的堆内存大小第二个是是否启用异步快照(默认true) new MemoryStateBackend

state 2023-07-30

bigdataflink 未读

最佳实践｜如何写出简单高效的 Flink SQL？

摘要：本文整理自阿里巴巴高级技术专家、Apache Flink PMC 贺小令，在Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为三个部分： Flink SQL Insight Best Practices Future Works 一、Flink SQL Ins

最佳实践 Flink SQL 2023-05-27

bigdataflink 未读

Apache Flink 1.16 功能解读

摘要：本文整理自阿里云高级开发工程师 Apache Flink Committer、Flink 1.16 Release Manager 黄兴勃（断尘），在 FFA 2022 核心技术专场的分享。本篇内容主要分为四个部分：综述持续领先的流处理更稳定易用高性能的批处理蓬勃发展的生态一、综述

2023-04-09

bigdataflink 未读

字节跳动 Flink 状态查询实践与优化

摘要：本文整理自字节跳动基础架构工程师，Apache Flink Contributor 马越在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括：背景 State Processor API 介绍 StateMeta Snapshot 机制 State as Da

最佳实践 Flink SQL state 2022-08-27

bigdataflink 未读

自适应批作业调度器：为 Flink 批作业自动推导并行度

一、引言对大部分用户来说，为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业，小的并行度会导致作业运行时间长，故障恢复慢，而不必要的大并行度会导致资源浪费，任务部署和数据 shuffle 开销也会变大。为了控制批作业的执行时长，算子的并行度应该和其需要处理的数据量成正比。用户需要

调度 2022-07-24

bigdataflink 未读

Flink 1.15 新功能架构解析：高效稳定的通用增量 Checkpoint

流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink，作为流式计算的标杆，其端到端延迟包括容错的快慢主要取决于检查点机制（Checkpointing），所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在

checkpoint 2022-06-19

bigdataflink 未读

美团 Flink 大作业部署与状态稳定性优化实践

摘要：本篇内容整理自美团数据平台工程师冯斐、王非凡在 Flink Forward Asia 2021 的演讲。主要内容包括：相关背景大作业部署优化 Checkpoint 跨机房副本状态稳定性相关优化未来规划 https://segmentfault.com/a/119000004145354

最佳实践 2022-06-05

bigdataflink 未读

深入解析 Flink 细粒度资源管理

摘要：本文整理自阿里巴巴高级开发工程师郭旸泽 (天凌) 在 Flink Forward Asia 2021 的演讲。主要内容包括：细粒度资源管理与适用场景 Flink 资源调度框架基于 SlotSharinGroup 的资源配置接口动态资源切割机制资源申请策略总结与未来展望

资源管理 2022-03-06

bigdataflink 未读

Flink 大规模作业调度性能优化

本文作者洪志龙（柏星）& 朱翥（长耕），分享了如何在 Flink 1.13 版本和 1.14 版本中对 Flink 调度大规模作业的性能进行了优化。主要内容包括：性能测评结果基于拓扑结构的优化优化任务部署针对 Pipelined Region 构建的优化随着 Flink 流批一体架构不断演

2022-01-29