分类: bigdata | 程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

bigdataflink 未读

Flink State 最佳实践

1. State 概念回顾我们先回顾一下到底什么是 state，流式计算的数据往往是转瞬即逝，当然，真实业务场景不可能说所有的数据都是进来之后就走掉，没有任何东西留下来，那么留下来的东西其实就是称之为 state，中文可以翻译成状态。在下面这个图中，我们的所有的原始数据进入用户代码之后再输出到

state 2020-06-30

bigdataflink 未读

在 Flink 中规划 RocksDB 内存容量

Tips：从 Flink 1.10 开始，Flink 自动管理 RocksDB 的内存，详细介绍如下：https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/state/state_backends.html#memory-m

state 2020-05-17

bigdataflink 未读

Flink 原理与实现：如何处理反压问题

流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源

背压 2020-04-30

bigdataflink 未读

Flink DataStream 关联维表

衡量指标总体来讲，关联维表有三个基础的方式：实时数据库查找关联（Per-Record Reference Data Lookup）、预加载维表关联（Pre-Loading of Reference Data）和维表变更日志关联（Reference Data Change Stream），而根据实现

join 维度表 2020-04-26

bigdataflink 未读

Flink 原理与实现：内存管理

如今，大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题： Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存：对象

内存管理 2020-04-05

bigdataflink 未读

轻量级异步屏障快照（ABS）算法解析

Flink的检查点过程正是依赖于Chandy-Lamport算法的“本地化”版本——异步屏障快照（asynchronous barrier snapshotting, ABS）算法。该算法由五位大佬（其中也包含Data Artisans的两位：Stephen Ewen与Kostas Tzoumas）

checkpoint ABS算法 snapshot 2020-03-15

bigdataHive数据存储未读

ORC文件存储格式的深入探究

找到这个关于ORC的文章 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 一、ORC文件格式 ORC的全称是(Optimized Record Columnar)，使用ORC文件格式可以

ORC 2020-01-26

bigdataflink 未读

Flink Checkpoint 问题排查实用指南

在 Flink 中，状态可靠性保证由 Checkpoint 支持，当作业出现 failover 的情况下，Flink 会从最近成功的 Checkpoint 恢复。在实际情况中，我们可能会遇到 Checkpoint 失败，或者 Checkpoint 慢的情况，本文会统一聊一聊 Flink 中 Chec

state checkpoint 2020-01-12

bigdataflink 未读

Flink: Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。本文将首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程，然后介绍在这个过程，Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍 Flink Runtime 层当前正在进

2019-10-27