程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

未读

02-Apache Kafka简介

Apache Kafka简介

2022-01-16

未读

01-Apache Kafka安装和使用

本文主要介绍Kafka的安装和简单使用。

2022-01-15

flink 未读

Flink CheckPoint奇技淫巧 | 原理和在生产中的应用

Flink本身为了保证其高可用的特性，以及保证作用的Exactly Once的快速恢复，进而提供了一套强大的Checkpoint机制。 Checkpoint机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一

checkpoint 2022-01-12

kafka 未读

Kafka 技术文章

Kafka连接器深度解读之错误处理和死信队列 https://mp.weixin.qq.com/s/m4e8NKHoatXi985yKiGKOw

2022-01-08

kafka 未读

Kafka Exactly-Once 之事务性实现

这篇文章主要讲述 Kafka 事务性的实现，这部分的实现要比幂等性的实现复杂一些，幂等性实现是事务性实现的基础，幂等性提供了单会话单 Partition Exactly-Once 语义的实现，正是因为 Idempotent Producer 不提供跨多个 Partition 和跨会话场景下的保证，因

2022-01-02

flink 未读

Flink 网络传输优化技术

http://shiyuquan.cn/archives/flink-shuffleji-zhi-de-chong-gou-yu-you-hua 作为工业级的流计算框架，Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据，所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题

内存管理网络优化 2021-12-31

flink 未读

Flink Back Pressure

1. 什么是 Back Pressure 如果看到任务的背压警告（如 High 级别），这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink

背压 2021-12-31

kafka 未读

Kafka 最佳实践

这是一篇关于 Kafka 实践的文章，内容来自 DataWorks Summit/Hadoop Summit（Hadoop Summit）上的一篇分享，里面讲述了很多关于 Kafka 配置、监控、优化的内容，绝对是在实践中总结出的精华，有很大的借鉴参考意义，本文主要是根据 PPT 的内容进行翻译及适

2021-12-26

flink 未读

Flink Exactly-Once 投递实现浅析

随着近来越来越多的业务迁移到 Flink 上，对 Flink 作业的准确性要求也随之进一步提高，其中最为关键的是如何在不同业务场景下保证 exactly-once 的投递语义。虽然不少实时系统（e.g. 实时计算/消息队列）都宣称支持 exactly-once，exactly-once 投递似乎是一

精确一致性 2021-12-26