概述 假设程序中需要对一个接近 3T 的模型文件进行 cache。 代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 object Persona { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName
RDD缓存 Persist 到内存的 RDD,比较多,9T左右,Excutor 一共分配了25T内存。剩下给 Shuffle 的空间不算大了,所以会引起频繁的 GC。 建议: 减少缓
概述 当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指
1 Overview Spark 容器化的前提是需要 Spark 的镜像文件,那么怎么 build 呢?Spark 官方是提供了 Dockerfile 的,并且也提供了脚本工具,可以自行 build 并发布到自己的 Restry 里。 2 Spa
概述 最近接手一个项目,惊讶的发现一个运行了一年多的系统,连日志打的都如此不规范,更不用谈什么监控等体系了,可想而知如果线上出现问题的时候,排
概述 Spark中所谓资源单位一般指的是 executors,和 Yarn 中的 Containers 一样,在 Spark On Yarn 模式下,通常使用 –num-executors 来指定 Application 使用的