程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

bigdataflink 未读

自适应批作业调度器：为 Flink 批作业自动推导并行度

一、引言对大部分用户来说，为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业，小的并行度会导致作业运行时间长，故障恢复慢，而不必要的大并行度会导致资源浪费，任务部署和数据 shuffle 开销也会变大。为了控制批作业的执行时长，算子的并行度应该和其需要处理的数据量成正比。用户需要

调度 2022-07-24

bigdataflink 未读

Flink 1.15 新功能架构解析：高效稳定的通用增量 Checkpoint

流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink，作为流式计算的标杆，其端到端延迟包括容错的快慢主要取决于检查点机制（Checkpointing），所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在

checkpoint 2022-06-19

bigdataflink 未读

美团 Flink 大作业部署与状态稳定性优化实践

摘要：本篇内容整理自美团数据平台工程师冯斐、王非凡在 Flink Forward Asia 2021 的演讲。主要内容包括：相关背景大作业部署优化 Checkpoint 跨机房副本状态稳定性相关优化未来规划 https://segmentfault.com/a/119000004145354

最佳实践 2022-06-05

kafka 未读

Kafka幂等性原理深入解析

幂等性在正常情况下，Producer向Broker投递消息，Broker将消息追加写到对应的流（即某一Topic的某一Partition）中，并向Producer返回ACK信号，表示确认收到。但是Producer和Broker之间的通信总有可能出现异常，如果消息已经写入，但ACK在半途丢失了，P

2022-05-15

bigdatahadoop 未读

Hadoop 3.0的新特性

Erasure Coding HDFS数据冗余策略以及其他： 1.最低要求的Java版本从Java 7增加到Java8 现在，已针对Java 8的运行时版本编译了所有HadoopAR。仍在使用Java7或更低版本的用户必须升级到java8. 2.支持HDFS中的纠删码纠删码是一种持久存储数据的方

2022-05-01

bigdata 未读

几种OLAP引擎简单对比

Kudu VS Clickhouse kudu 2015年9月28号出现第一个测试版本0.5.0，2016年2月26第一个正式版0.7.发布。clickhouse 2018年3月开源正式版出现。两者都是列式存储，都可以针对数据进行实时OLAP

kudu clickhouse impala 2022-03-19

bigdataflink 未读

深入解析 Flink 细粒度资源管理

摘要：本文整理自阿里巴巴高级开发工程师郭旸泽 (天凌) 在 Flink Forward Asia 2021 的演讲。主要内容包括：细粒度资源管理与适用场景 Flink 资源调度框架基于 SlotSharinGroup 的资源配置接口动态资源切割机制资源申请策略总结与未来展望

资源管理 2022-03-06

hadoop 未读

MapReduce之Shuffle过程详述

分析MR中shuffle过程。

MapReduce 2022-02-23

hadoop 未读

HDFS 写文件过程分析

HDFS 2022-02-18