/images/avatar.png

runzhliu

Spark-Shuffle过程

Shuffle Writer Spark 丰富了任务类型,有些任务之间数据流转不需要通过 shuffle,但是有些任务之间还是需要通过 shuffle 来传递数据,比如 wide dependency 的 group by key。 Spark 中需要

Spark-with-Kerberized-HDFS

1 Overview 调研基于 Spark 2.2 on K8S,访问 Kerberized HDFS 的方法。其实 Spark 2.3/2.4 的方案应该差别不大。 2 Practice 2.1 Prerequisite Kerberized HDFS: 此处参考 HDFS kerberos 客户端使用,关键是 hdfs.keytab 和 krb5.conf Spark Driver/Executor/Init/Base 镜像 Installed & Runnig Kubernetes Cluster 2.2 Build