一、概述

在典型的 Spark SQL 应用场景中,数据的读取、数据表的创建和分析都是必不可少的过程。通常来讲,SparkSQL 查询所面对的数据模型以关系表为主。

如图所示的案例显示了使用 SparkSQL 进行数据分析的一般步骤。

testdemo

二、聚合体系

先了解下 Spark SQL 的聚合体系设计~

三、流程

可以先看看这个~

3.1. 逻辑计划阶段

3.1.1. Parser

3.1.2. Analyzer

Analyzer 模块的区别在于使用 aggregate 相关的规则~

3.1.3. Optimizer

Optimizer 模块的区别在于使用 aggregate 相关的规则~

3.2. 物理计划阶段