概述 本文整理自: https://www.cnblogs.com/haozhengfei/p/5fc4a976a864f33587b094f36b72c7d3.html 正文 Spark 底层 shuffle 的传输方式是使用 netty 传输,netty 在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存
概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术
概述 本文转自: https://blog.csdn.net/Winner941112/article/details/82899277 Spark优化(一): 避免重复RDD 通常来说,我们在开发一个 Spark 作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创
概述 本文是转载的: https://zhuanlan.zhihu.com/p/28893155 Spark 是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信,本文主要介绍不同的 Spark 组件之间是如何通
概述 下面聊几个 SQL 的基础知识。 DML DML(data manipulation language)数据操纵语言,就是我们最经常用到的 SELECT、UPDATE、INSERT
概述 下文主要讲解一下 stdout 和 stderr 的区别。 stdout和stderr的区别 如下一个小例子: 1 2 3 4 5 6 7 8 9 10 11 12 int main(void) { char * err1 = "你遇到的错