分类: bigdata | 程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

bigdataflink 未读

字节跳动 Flink 状态查询实践与优化

摘要：本文整理自字节跳动基础架构工程师，Apache Flink Contributor 马越在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括：背景 State Processor API 介绍 StateMeta Snapshot 机制 State as Da

bigdataflink 未读

自适应批作业调度器：为 Flink 批作业自动推导并行度

一、引言对大部分用户来说，为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业，小的并行度会导致作业运行时间长，故障恢复慢，而不必要的大并行度会导致资源浪费，任务部署和数据 shuffle 开销也会变大。为了控制批作业的执行时长，算子的并行度应该和其需要处理的数据量成正比。用户需要

调度 2022-07-24

bigdataflink 未读

Flink 1.15 新功能架构解析：高效稳定的通用增量 Checkpoint

流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink，作为流式计算的标杆，其端到端延迟包括容错的快慢主要取决于检查点机制（Checkpointing），所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在

checkpoint 2022-06-19

bigdataflink 未读

美团 Flink 大作业部署与状态稳定性优化实践

摘要：本篇内容整理自美团数据平台工程师冯斐、王非凡在 Flink Forward Asia 2021 的演讲。主要内容包括：相关背景大作业部署优化 Checkpoint 跨机房副本状态稳定性相关优化未来规划 https://segmentfault.com/a/119000004145354

最佳实践 2022-06-05

bigdatahadoop 未读

Hadoop 3.0的新特性

Erasure Coding HDFS数据冗余策略以及其他： 1.最低要求的Java版本从Java 7增加到Java8 现在，已针对Java 8的运行时版本编译了所有HadoopAR。仍在使用Java7或更低版本的用户必须升级到java8. 2.支持HDFS中的纠删码纠删码是一种持久存储数据的方

2022-05-01

bigdata 未读

几种OLAP引擎简单对比

Kudu VS Clickhouse kudu 2015年9月28号出现第一个测试版本0.5.0，2016年2月26第一个正式版0.7.发布。clickhouse 2018年3月开源正式版出现。两者都是列式存储，都可以针对数据进行实时OLAP

kudu clickhouse impala 2022-03-19

bigdataflink 未读

深入解析 Flink 细粒度资源管理

摘要：本文整理自阿里巴巴高级开发工程师郭旸泽 (天凌) 在 Flink Forward Asia 2021 的演讲。主要内容包括：细粒度资源管理与适用场景 Flink 资源调度框架基于 SlotSharinGroup 的资源配置接口动态资源切割机制资源申请策略总结与未来展望

资源管理 2022-03-06

bigdataflink 未读

Flink 大规模作业调度性能优化

本文作者洪志龙（柏星）& 朱翥（长耕），分享了如何在 Flink 1.13 版本和 1.14 版本中对 Flink 调度大规模作业的性能进行了优化。主要内容包括：性能测评结果基于拓扑结构的优化优化任务部署针对 Pipelined Region 构建的优化随着 Flink 流批一体架构不断演

2022-01-29

bigdata 未读

Impala 和 Kudu

来神策数据后，开始接触到Kudu和Impala两个组件，这两者的结合主要是受到 vertica 提出的 wos 和 ros 概念影响，即写优化（write optimized store）和读优化（read optimized store）,这一技术架构本质上就是一种数据的混合存储模型： da

impala kudu 2021-11-28