Flink几篇核心论文
Lightweight Asynchronous Snapshots for Distributed Dataflows Lightweight Asynchronous Snapshots for Distributed Dataflows.pdf Apache Flink™: Stream an
Flink生产环境TOP难题与优化
如何规划生产中的集群大小? 第一步是仔细考虑应用程序的运维指标,以达到所需资源的基线。需要考虑的关键指标是: 每秒记录数和每条记录的大小 已有的不同键(key)的数量和每个键对应的状态大小 状态更新的次数和状态后端的访问模式 最后,一个更实际的问题是与客户之间围绕停机时间、延迟和最大吞吐量的服务级别
Flink 1.13:面向流批一体的运行时与 DataStream API 优化
本文由社区志愿者苗文婷整理,内容来源自阿里巴巴技术专家高赟(云骞) 在 5 月 22 日北京站 Flink Meetup 分享的《面向流批一体的 Flink 运行时与 DataStream API 优化》。文章主要分为 4 个部分: 回顾 Flink 流批一体的设计 介绍针对运行时的优化点 介绍针对
Flink 1.13:State Backend 优化及生产实践分享
一、鸟瞰 Flink 1.13 state-backend 变化 1. State 访问的性能监控 首先,Flink 1.13 中引入了 State 访问的性能监控,即 latency trackig state。
使用 Flink 前需要知道的 10 个『陷阱』
Contentsquare 公司的 Robin 总结了他们将 Spark 任务迁移到 Flink 遇到的 10 个『陷阱』。对于第一次将 Flink 用于生产环境的用户来说,这些经验非常有参考意义。 采用新的框架总是会带来很多惊喜。当你花了几天时间去排查为什么服务运行异常,结果发现只是因为某个功能的
生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题
数据倾斜导致子任务积压 业务背景 一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。 问题描述 给 24个 TaskManager(CP
Flink新增特性 | CDC(Change Data Capture) 原理和实践应用
CDC简介 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等。 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将
Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解
概述 我们都知道namenode是用来存储元数据的,他并不是用来存储真正的数据。 那么他的元数据怎么进行持久化呢! FsImage 文件系统的镜像文件叫fsImage,它包括了文件和块信息的映射,还有文件系统的属性信息。
浅谈Linux cgroup机制与YARN的CPU资源隔离
前言 我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU,以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后,YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup,然后分析一