Spark-2.2-on-K8S-Dynamic-Resource-Allocation

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述目前离线计算的 Spark 任务中，会提供「最小副本数」作为离线计算任务的 Executor 数，如下图。也就是说，这个 Spark Job 最大的资源数就是500个 Executor，

Spark-2.2-on-K8S和Kubernetes-v1.14

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述就像之前写过很多关于 Spark on K8S 的文章，Spark 2.2 是 Fork 出来的版本，虽然经受住了我们部门超大规模的 Spark 计算业务的考验，但是由于 Spark 社区很快就在 2.3 跟

Spark-3.0.0-SNAPSHOT-Access-Kerberized-HDFS

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Overview Spark 2.2 on K8S 的 Fork 已经废弃近两年了，那时候的几个主力开发也全部转移到 Spark 2.3/2.4 以及即将发布的 3.0 的 on K8S 模块的开发了。 3.0 相对于 2.2 的 Fork 除了关于 Spark App 的管理外

Spark-Kerberos项目测试

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述测试不同用户写入 HDFS 的情况 1 2 3 4 5 6 7 8 9 10 11 12 [root@master /data/runzhliu/hadoop/bin]# ./hdfs dfs -ls hdfs://sh-spark.hdfs.cr.hdfs.db:9000/ Found 10 items drwxr-xr-x - hadoop supergroup 0 2018-12-03 12:15 hdfs://sh-spark.hdfs.cr.hdfs.db:9000/runzhliu drwxrwxrwx - hadoop supergroup 0 2018-08-13 11:34 hdfs://sh-spark.hdfs.cr.hdfs.db:9000/dslogs drwxrwxrwx - hadoop supergroup 0 2017-10-16 21:42 hdfs://sh-spark.hdfs.cr.hdfs.db:9000/fightingdu drwxrwxrwx - hadoop supergroup 0 2018-08-15 17:18 hdfs://sh-spark.hdfs.cr.hdfs.db:9000/junjiantang drwxrwxrwx - hadoop

Spark-Kubernetes-Example学习

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述学习资料来源于官方文档，感兴趣的同学，可以 clone 下来研究一下。 Spark Example 本文的目标就是利用 Kubernetes 和 Docker 来构建一个可用的 Spark 集群。 Sources Prerequisites 在运行这个 Example 的前提如下

Spark-on-K8S访问Kerberized-HDFS

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 https://databricks.com/session/apache-spark-on-k8s-and-hdfs-security Spark 从2.3开始支持 Native 的 K8S 作为 resourceManager 了，官网内容很多，就不赘述了，这里主要参考2018年的 Spark Submit 一个 Share，来尝试搭建一套做大数据计算时候