Spark-on-Kubernetes-PodTemplate配置

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述本文主要讲 Apache Spark 在 on Kubernetes 的 PodTemplate 的问题，以及也会讲到 Spark Operator 里关于 PodTemplate 的问题，当然也会讲到 Apache Spark 2.2 on Kubernetes 那个 Fork 的版本，感兴趣的同学可以往下看看。之前讲过 Apache

Spark-on-Kubernetes实战目录

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Spark 简介和入门 1.1 Spark Overview 1.2 Spark Core 1.3 Spark SQL 1.4 Spark Streaming 1.5 Spark MLlib 1.6 分布式 Spark 架构 1.6.1 Standalone 1.6.2 Apache Mesos 1.6.3 Hadoop Yarn 1.6.4 Kubernetes 1.7 小结 2 Kubernetes 简介和入门 2.1 Kubernetes 基础概念用较少的篇幅介绍 Master/Node/Pod/Label/Deployment/Job/Volume/Namespace/ConfigMap 等基础概念。

Spark-on-Kubernetes在Mac的Demo

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 Spark 2.3 开始原生支持 K8S，按照Spark 2.4 官网的方法一开始真的没跑起来，K8S Dashboard 又一堆问题，结果我再仔细看看官方指导，发现…

Spark-RDD依赖的深度优先搜索

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述最近在刷刷算法题，看到经典的树搜索的算法，正巧之前记得 Spark RDD 中有一处利用 DFS 来判断 RDD 依赖关系的代码，因此专门拿出来分析一下。代码 1 2 3 4 5 6

Spark-RDMA

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 SparkRDMA 是一个 Spark 的高性能的 ShuffleManager 插件，由 Mellanox 开发。 Spark和RDMA RDMA 是一种技术，目前有多种的实现，比如说传统的以太网 RDMA over Covered Ethernet，还有

Spark-shell配置Kryo序列化

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述修改默认序列化方式 Spark 默认使用 Java Serialization 作为序列化方式，但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方