Spark-Shuffle过程

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

Shuffle Writer Spark 丰富了任务类型，有些任务之间数据流转不需要通过 shuffle，但是有些任务之间还是需要通过 shuffle 来传递数据，比如 wide dependency 的 group by key。 Spark 中需要

Spark-Streaming有状态计算的实际问题StackOverflowError

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Overview Spark streaming有状态计算（如UV）通常采用DStream.updateStateByKey（实际是PairDStreamFunct

Spark-Structured-Streaming编程指南

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Overview Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。您可以以静态数据表示批量计算的方式来表达 streaming computation （流式计算）。 Spark

Spark-Track-Server问题排查

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述 Spark Track Server 之前使用的时候一直感觉有时候可以有时候又访问失败，失败情况。 Replay 找出出问题的节点。错误日志如下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Spark-with-Kerberized-HDFS

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

1 Overview 调研基于 Spark 2.2 on K8S，访问 Kerberized HDFS 的方法。其实 Spark 2.3/2.4 的方案应该差别不大。 2 Practice 2.1 Prerequisite Kerberized HDFS: 此处参考 HDFS kerberos 客户端使用，关键是 hdfs.keytab 和 krb5.conf Spark Driver/Executor/Init/Base 镜像 Installed & Runnig Kubernetes Cluster 2.2 Build

Spark2.4-Dynamic-Resource-Allocation

runzhliu 发布于 2017-02-01, 更新于 2017-02-01, 收录于大数据和机器学习

概述因为有计划将 K8S 上的 Spark 2.2 升级到更新的版本，关于动态资源扩展，是一个比较关心的问题。 Comparison 先看看目前 Spark 2.4.3 里 KubernetesClusterSchedulerBackend 是怎么写的。所以说，这部分的工作在是