Spark-on-Kubernetes在Mac的Demo

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 Spark 2.3 开始原生支持 K8S，按照Spark 2.4 官网的方法一开始真的没跑起来，K8S Dashboard 又一堆问题，结果我再仔细看看官方指导，发现…

Spark-RDD依赖的深度优先搜索

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述最近在刷刷算法题，看到经典的树搜索的算法，正巧之前记得 Spark RDD 中有一处利用 DFS 来判断 RDD 依赖关系的代码，因此专门拿出来分析一下。代码 1 2 3 4 5 6

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 SparkRDMA 是一个 Spark 的高性能的 ShuffleManager 插件，由 Mellanox 开发。 Spark和RDMA RDMA 是一种技术，目前有多种的实现，比如说传统的以太网 RDMA over Covered Ethernet，还有

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述修改默认序列化方式 Spark 默认使用 Java Serialization 作为序列化方式，但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

Shuffle Writer Spark 丰富了任务类型，有些任务之间数据流转不需要通过 shuffle，但是有些任务之间还是需要通过 shuffle 来传递数据，比如 wide dependency 的 group by key。 Spark 中需要

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Overview Spark streaming有状态计算（如UV）通常采用DStream.updateStateByKey（实际是PairDStreamFunct