程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

Hive 未读

Hive性能调优

Fetch抓取 https://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247493909&idx=1&sn=738d78455b96ea9dc00dfbf1253e0f4e&chksm=fd3eaf80ca4926965ed2f160dbf4

最佳实践 2020-11-29

flink 未读

深入解析 Flink 的算子链机制

Flink 算子链简介笔者在 Flink 社区群里经常能看到类似这样的疑问。这种情况几乎都不是程序有问题，而是因为 Flink 的 operator chain ——即算子链机制导致的，即提交的作业的执行计划中，所有算子的并发实例（即 sub-task ）都因为满足特定条件而串成了整体来执行，自然

Operator Chain 2020-11-28

bigdataflink 未读

Flink新增特性 | CDC(Change Data Capture) 原理和实践应用

CDC简介 CDC,Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等。用户可以在以下的场景下使用CDC：使用flink sql进行数据同步,可以将

Flink SQL Flink CDC 2020-11-27

flink 未读

Flink State实践总结

1、结论从性能和 TTL 两个维度来描述区别。性能 · RocksDB 场景，MapState 比 ValueState 中存 Map 性能高很多。 · 生产环境强烈推荐使用 MapState，不推荐 ValueState 中存大对象 · ValueState 中存大对象很容易使 CPU 打满

state 2020-11-15

flink 未读

双亲委派模型与 Flink 的类加载策略

我们知道，在 JVM 中，一个类加载的过程大致分为加载、链接（验证、准备、解析）、初始化5个阶段。而我们通常提到类的加载，就是指利用类加载器（ClassLoader）通过类的全限定名来获取定义此类的二进制字节码流，进而构造出类的定义。 Flink 作为基于 JVM 的框架，在 flink-conf.

ClassLoader 2020-11-08

flink 未读

Flink RocksDB 状态后端参数调优实践

https://segmentfault.com/a/1190000024522233 截至当前，Flink 作业的状态后端仍然只有 Memory、FileSystem 和 RocksDB 三种可选，且 RocksDB 是状态数据量较大（GB 到 TB 级别）时的唯一选择。RocksDB 的性能发挥

state RocksDB 2020-10-03

Alluxio元数据未读

冷热数据分离 | Alluxio元数据管理策略

一.Alluxio概述 Alluxio（前身Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。 Alluxio项目源自加州大学伯克利分校AMPLab，作为伯克利数据分析堆栈（BDAS）的数据访问层。Alluxio是增长最

2020-09-13

hadoopJava 未读

从B+树到LSM树，及LSM树在HBase中的应用

前言在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge

B+树 LSM HBase 2020-09-06

Java 未读

经典限流方法：漏桶、令牌桶与Guava RateLimiter的实现

高并发的业务系统经常要接受大流量的考验，为了保证系统的响应度和稳定性，往往都需要对有风险的接口实施限流（rate limiting），更高大上的说法则是“流量整形”（traffic shaping）。限流的思想最初来源于计算机网络，有两种经典的方法：漏桶和令牌桶。本文先来稍微研究一下它们。漏桶（L

Guava 令牌桶 2020-08-16