Flink 原理与实现:内存管理
如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题: Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存:对象
轻量级异步屏障快照(ABS)算法解析
Flink的检查点过程正是依赖于Chandy-Lamport算法的“本地化”版本——异步屏障快照(asynchronous barrier snapshotting, ABS)算法。该算法由五位大佬(其中也包含Data Artisans的两位:Stephen Ewen与Kostas Tzoumas)
flink
未读
Flink Transformation
一、Transformations 分类 Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类: DataStream Transformations:进行数据流相关转换操作; Physical pa
DW
未读
了解数据库和数据仓库
一、数据库的诞生背景 互联网已经高速发展了很多年,各大企业都根据自己的业务搭建了自己的门户网站,拥有自己的服务器,以及自己的用户。用户在对企业的服务进行交互访问时,用户给企业反馈的信息去哪里了?比如说我们最常见的注册信息,企业给到我们的资源从哪里来的?比如说最常见的商品列表。其实这些数据都存放在企业
ORC文件存储格式的深入探究
找到这个关于ORC的文章 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 一、ORC文件格式 ORC的全称是(Optimized Record Columnar),使用ORC文件格式可以
Hive 视图和索引
一、视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中
Flink Checkpoint 问题排查实用指南
在 Flink 中,状态可靠性保证由 Checkpoint 支持,当作业出现 failover 的情况下,Flink 会从最近成功的 Checkpoint 恢复。在实际情况中,我们可能会遇到 Checkpoint 失败,或者 Checkpoint 慢的情况,本文会统一聊一聊 Flink 中 Chec
flink
未读
再谈Flink事件时间、水印和迟到数据处理
基于EventTime和WaterMark处理乱序和迟到数据 http://shiyuquan.cn/archives/ji-yu-eventtimehe-watermarkchu-li-luan-xu-he-chi-dao-shu-ju 事件时间与水印 所谓事件时间,就是Flink DataStr