概述 修改默认序列化方式 Spark 默认使用 Java Serialization 作为序列化方式,但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方
Shuffle Writer Spark 丰富了任务类型,有些任务之间数据流转不需要通过 shuffle,但是有些任务之间还是需要通过 shuffle 来传递数据,比如 wide dependency 的 group by key。 Spark 中需要
1 Overview Spark streaming有状态计算(如UV)通常采用DStream.updateStateByKey(实际是PairDStreamFunct
1 Overview Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark
概述 Spark Track Server 之前使用的时候一直感觉有时候可以有时候又访问失败,失败情况。 Replay 找出出问题的节点。 错误日志如下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 Overview 调研基于 Spark 2.2 on K8S,访问 Kerberized HDFS 的方法。其实 Spark 2.3/2.4 的方案应该差别不大。 2 Practice 2.1 Prerequisite Kerberized HDFS: 此处参考 HDFS kerberos 客户端使用,关键是 hdfs.keytab 和 krb5.conf Spark Driver/Executor/Init/Base 镜像 Installed & Runnig Kubernetes Cluster 2.2 Build