分类: bigdata | 程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

bigdataflink 未读

Flink几篇核心论文

Lightweight Asynchronous Snapshots for Distributed Dataflows Lightweight Asynchronous Snapshots for Distributed Dataflows.pdf Apache Flink™: Stream an

checkpoint 2021-10-02

bigdataflink 未读

Flink生产环境TOP难题与优化

如何规划生产中的集群大小？第一步是仔细考虑应用程序的运维指标，以达到所需资源的基线。需要考虑的关键指标是：每秒记录数和每条记录的大小已有的不同键（key）的数量和每个键对应的状态大小状态更新的次数和状态后端的访问模式最后，一个更实际的问题是与客户之间围绕停机时间、延迟和最大吞吐量的服务级别

最佳实践 2021-08-15

bigdataflink 未读

Flink 1.13：面向流批一体的运行时与 DataStream API 优化

本文由社区志愿者苗文婷整理，内容来源自阿里巴巴技术专家高赟(云骞) 在 5 月 22 日北京站 Flink Meetup 分享的《面向流批一体的 Flink 运行时与 DataStream API 优化》。文章主要分为 4 个部分：回顾 Flink 流批一体的设计介绍针对运行时的优化点介绍针对

流批一体调度 Shuffle 精确一致性 2021-08-07

bigdataflink 未读

Flink 1.13：State Backend 优化及生产实践分享

一、鸟瞰 Flink 1.13 state-backend 变化 1. State 访问的性能监控首先，Flink 1.13 中引入了 State 访问的性能监控，即 latency trackig state。

state 2021-07-17

bigdataflink 未读

使用 Flink 前需要知道的 10 个『陷阱』

Contentsquare 公司的 Robin 总结了他们将 Spark 任务迁移到 Flink 遇到的 10 个『陷阱』。对于第一次将 Flink 用于生产环境的用户来说，这些经验非常有参考意义。采用新的框架总是会带来很多惊喜。当你花了几天时间去排查为什么服务运行异常，结果发现只是因为某个功能的

2021-03-28

flinkbigdata 未读

生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

数据倾斜导致子任务积压业务背景一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。问题描述给 24个 TaskManager(CP

最佳实践 2021-03-27

bigdataflink 未读

Flink新增特性 | CDC(Change Data Capture) 原理和实践应用

CDC简介 CDC,Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等。用户可以在以下的场景下使用CDC：使用flink sql进行数据同步,可以将

Flink SQL Flink CDC 2020-11-27

bigdatahadoop 未读

Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解

概述我们都知道namenode是用来存储元数据的，他并不是用来存储真正的数据。那么他的元数据怎么进行持久化呢！ FsImage 文件系统的镜像文件叫fsImage，它包括了文件和块信息的映射，还有文件系统的属性信息。

checkpoint SecondaryNmenode NameNode 2020-07-30

bigdatahadoopyarnlinux 未读

浅谈Linux cgroup机制与YARN的CPU资源隔离

前言我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU，以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后，YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup，然后分析一

调度 cgroup 资源管理 2020-07-19