1 Spark 简介和入门 1.1 Spark Overview 1.2 Spark Core 1.3 Spark SQL 1.4 Spark Streaming 1.5 Spark MLlib 1.6 分布式 Spark 架构 1.6.1 Standalone 1.6.2 Apache Mesos 1.6.3 Hadoop Yarn 1.6.4 Kubernetes 1.7 小结 2 Kubernetes 简介和入门 2.1 Kubernetes 基础概念 用较少的篇幅介绍 Master/Node/Pod/Label/Deployment/Job/Volume/Namespace/ConfigMap 等基础概念。
概述 Spark 2.3 开始原生支持 K8S,按照Spark 2.4 官网的方法一开始真的没跑起来,K8S Dashboard 又一堆问题,结果我再仔细看看官方指导,发现…
概述 最近在刷刷算法题,看到经典的树搜索的算法,正巧之前记得 Spark RDD 中有一处利用 DFS 来判断 RDD 依赖关系的代码,因此专门拿出来分析一下。 代码 1 2 3 4 5 6
概述 SparkRDMA 是一个 Spark 的高性能的 ShuffleManager 插件,由 Mellanox 开发。 Spark和RDMA RDMA 是一种技术,目前有多种的实现,比如说传统的以太网 RDMA over Covered Ethernet,还有
概述 修改默认序列化方式 Spark 默认使用 Java Serialization 作为序列化方式,但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方
Shuffle Writer Spark 丰富了任务类型,有些任务之间数据流转不需要通过 shuffle,但是有些任务之间还是需要通过 shuffle 来传递数据,比如 wide dependency 的 group by key。 Spark 中需要