概述 最近在刷刷算法题,看到经典的树搜索的算法,正巧之前记得 Spark RDD 中有一处利用 DFS 来判断 RDD 依赖关系的代码,因此专门拿出来分析一下。 代码 1 2 3 4 5 6
概述 SparkRDMA 是一个 Spark 的高性能的 ShuffleManager 插件,由 Mellanox 开发。 Spark和RDMA RDMA 是一种技术,目前有多种的实现,比如说传统的以太网 RDMA over Covered Ethernet,还有
概述 修改默认序列化方式 Spark 默认使用 Java Serialization 作为序列化方式,但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方
Shuffle Writer Spark 丰富了任务类型,有些任务之间数据流转不需要通过 shuffle,但是有些任务之间还是需要通过 shuffle 来传递数据,比如 wide dependency 的 group by key。 Spark 中需要
1 Overview Spark streaming有状态计算(如UV)通常采用DStream.updateStateByKey(实际是PairDStreamFunct
1 Overview Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark