程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

置顶 bigdataflink 未读

官宣｜Apache Flink 1.19 发布公告

一、Flink SQL 提升源表自定义并行度现在，在 Flink 1.19 中，您可以通过选 scan.parallelism 设置自定义并行度，以调整性能。第一个可用的连接器是 DataGen（ Kafka 连接器即将推出）。下面是一个使用 SQL Client 的示例： -- set par

2024-03-24

置顶 bigdataflink 未读

官宣｜Apache Flink 1.18 发布公告

迈向 Streaming Lakehouse Flink SQL 提升 Flink SQL Gateway 的 JDBC Driver Flink 1.18 版本提供了 Flink SQL Gateway 的 JDBC Driver。因此，您现在可以使用支持 JDBC 的任何 SQL 客户端通过 F

2023-11-12

置顶 bigdataflink 未读

官宣｜Apache Flink 1.17 发布公告

迈向 Streaming Warehouse 为了在流式数仓领域实现更高效的处理，Flink 1.17 对批处理和流处理的性能和语义都进行了实质性的改进。这些增强措施代表了朝着创建一个更高效、更简化的数据仓库，能够实时处理大量数据的目标迈进了一大步。<

2023-03-25

置顶 bigdataflink 未读

官宣｜Apache Flink 1.16 发布公告

Flink 已经是流计算领域的领跑者，流批一体的概念逐渐得到大家的认可，并在越来越多的公司成功落地。之前的流批一体更强调统一的 API 和统一的计算框架。今年，在此基础上，Flink 推出了 Streaming Warehouse[2]，进一步升级了流批一体的概念：真正完成了流批一体的计算和流批一体

2022-12-10

置顶 bigdataflink 未读

官宣｜Apache Flink 1.15 发布公告

Apache Flink 核心概念之一是流 (无界数据) 批 (有界数据) 一体。流批一体极大的降低了流批融合作业的开发复杂度。在过去的几个版本中，Flink 流批一体逐渐成熟，Flink 1.15 版本中流批一体更加完善，后面我们也将继续推动这一方向的进展。目前大数据处理的一个趋势是越来越多的业务

2022-05-15

置顶 bigdataflink 未读

官宣｜Apache Flink 1.14.0 发布公告

新版本在 SQL API、更多连接器支持、Checkpoint 机制、PyFlink 等多个方面带来了大量的新特性与改进。其中一个主要的改进是针对流批一体的使用体验。我们相信，在实践中，对无界的数据流的处理与对有界的批数据的处理是密不可分的，因为很多场景都需要在处理实时数据流的同时处理来自各种数据源

2021-11-13

置顶 flink 未读

Flink Shuffle机制的重构与优化

1. 概述本文讲述的shuffle概念范围如下图虚线框所示，从上游算子产出数据到下游算子消费数据的全部流程，基本可以划分成三个子模块：上游写数据：算子产出的record序列化成buffer数据结构插入到sub partition队列；网络传输：上下游可能调度部署到不同的container中，上

Shuffle 2021-01-03

数据结构未读

跳表的时间复杂度及应用场景

跳表是一种神奇的数据结构，因为几乎所有版本的大学本科教材上都没有跳表这种数据结构，而且神书《算法导论》、《算法第四版》这两本书中也没有介绍跳表。但是跳表插入、删除、查找元素的时间复杂度跟红黑树都是一样量级的，时间复杂度都是O(logn)，而且跳表有一个特性是红黑树无法匹敌的（具体什么特性后面会提到）

跳表 2024-05-30

数据存储未读

深入RocksDB原理

概述 RocksDB是一个高性能、可扩展、嵌入式、持久化、可靠、易用和可定制的键值存储库。它采用LSM树数据结构，支持高吞吐量的写入和快速的范围查询，可被嵌入到应用程序中，实现持久化存储，支持水平扩展，可以在多台服务器上部署，实现集群化存储，具有高度的可靠性和稳定性，易于使用并可以根据需求进行定制和

LSM RocksDB 2024-05-22