概述 因为有计划将 K8S 上的 Spark 2.2 升级到更新的版本,关于动态资源扩展,是一个比较关心的问题。 Comparison 先看看目前 Spark 2.4.3 里 KubernetesClusterSchedulerBackend 是怎么写的。 所以说,这部分的工作在是
概述 这个项目是之前的同事推荐看的,周末看了下,写篇文章总结下,本文主要解读一下 README,然后本地跑起来看看,最后分析一下具体实现。 Spa
概述 假设程序中需要对一个接近 3T 的模型文件进行 cache。 代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 object Persona { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName
RDD缓存 Persist 到内存的 RDD,比较多,9T左右,Excutor 一共分配了25T内存。剩下给 Shuffle 的空间不算大了,所以会引起频繁的 GC。 建议: 减少缓
概述 当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指
1 Overview Spark 容器化的前提是需要 Spark 的镜像文件,那么怎么 build 呢?Spark 官方是提供了 Dockerfile 的,并且也提供了脚本工具,可以自行 build 并发布到自己的 Restry 里。 2 Spa