/images/avatar.png

runzhliu

Spark入门

概述 Spark 是开源的分布式大规模数据处理通用引擎,具有高吞吐、低延时、通用易扩展、高容错等特点。 1.1 Spark 基础核心概念 Client: Driver: Executor: 负责执行 Driver 分发的 Task 任务。集群

Spark为什么要搞GPU

概述 Spark 本身在数据处理流程里占据非常重要的地位,而在人工智能的战场,传统 Spark 能带来什么呢? 在深度学习里,模型训练一般都被 Tensorflow, PyTorch 等深度学习框架占领了

Spark写ES的性能问题分析

概述 参考资料 https://www.elastic.co/guide/en/elasticsearch/hadoop/current/performance.html https://www.elastic.co/blog/why-am-i-seeing-bulk-rejections-in-my-elasticsearch-cluster 摘抄一段官方文档的描述: Write performance A crucial aspect in improving the write performance is to determine the maximum rate of data that Elasticsearch can ingest comfortably. This depends on many variables (data size, hardware, current load, etc..) but a good rule of thumb is for a bulk request to not take longer than

Spark性能调优之Shuffle调优

概述 本文整理自: https://www.cnblogs.com/haozhengfei/p/5fc4a976a864f33587b094f36b72c7d3.html 正文 Spark 底层 shuffle 的传输方式是使用 netty 传输,netty 在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存