概述 本文主要是结合 Rook 官方文档 v1.3,以及 Ceph 14.2.9 ,再加上自己的实践经验以及查看 Rook 的源码总结出来的,如果对文章任何内容有疑问,可以先参考一下官方
概述 runpod 是一个 GPU 云厂商,通过 Pod 的形式可以提供 GPU 资源,因为节点都在国外,因此对拉取 Hugging Face 以及其他依赖,速度都非常快,而且上面有不同 GPU 的型号,非常适
概述 程序运行的日志是一个必不可少的东西,包括一些统计日志和程序运行的异常日志。通过日志,我们可以知道程序是不是在正常地运行,如果出现错误,我
概述 目前离线计算的 Spark 任务中,会提供「最小副本数」作为离线计算任务的 Executor 数,如下图。 也就是说,这个 Spark Job 最大的资源数就是500个 Executor,
概述 就像之前写过很多关于 Spark on K8S 的文章,Spark 2.2 是 Fork 出来的版本,虽然经受住了我们部门超大规模的 Spark 计算业务的考验,但是由于 Spark 社区很快就在 2.3 跟
1 Overview Spark 2.2 on K8S 的 Fork 已经废弃近两年了,那时候的几个主力开发也全部转移到 Spark 2.3/2.4 以及即将发布的 3.0 的 on K8S 模块的开发了。 3.0 相对于 2.2 的 Fork 除了关于 Spark App 的管理外