数据湖-Iceberg-源码系列
一、架构设计
Iceberg 官网中是这样定义的:
1 | Apache Iceberg is an open table format for huge analytic datasets |
Iceberg 是大型分析型数据集上的一个开放式表格式。通过该表格式,将下层的存储介质(HDFS、S3、OSS等)、文件格式(Parquet、Avro、ORC等)与上层计算引擎(Flink、Spark、Presto、Hive等)进行解耦。
二、阅读环境准备
引用本站文章
数据湖-Iceberg 源码学习-阅读环境准备
Joker
三、Kernel
3.1. Table Format
引用本站文章
数据湖-Iceberg-源码学习-Kernel-Table Format-设计
Joker
3.2. Table
Iceberg 作为一个开放的 Table format,从设计之初就有一个高度抽象的设计,而 Table 是顶层的核心概念之一。
引用本站文章
数据湖-Iceberg-源码学习-Kernel-Table 设计
Joker
四、API
Iceberg 作为 HDFS 和S3 等存储系统之上的数据组织框架,提供了丰富的 API 接口。
4.1. Catalog
Iceberg 中, Catalog 和 SessionCatalog 用于管理 Iceberg 表和相关元数据。
引用本站文章
数据湖-Iceberg-源码学习-API-Catalog 设计
Joker
4.2. Action
Iceberg 中, ActionsProvider 用于扩展 Iceberg 库,向 Iceberg 表添加自定义的操作和功能。
五、User Interface
5.1. Engines
5.2. 云原生
5.2.1. Kubernetes
引用本站文章
数据湖-Iceberg-源码学习-云原生-Kubernetes
Joker
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Joker!
评论
ValineTwikoo