概述 Spark 和 Elasticsearch 是90%大数据工程师的基础技术栈了,前者不用多说了,就是业界的大数据计算框架,后者则是优秀的搜索框架。 推荐系统 业务上这两个框架经常
6 Hadoop Security Guide https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.0/bk_Security_Guide/content/kerberos-overview.html To create secure communication among its various components, HDP uses Kerberos. Kerberos is a third-party authentication mechanism, in which users and services that users wish to access rely on the Kerberos server to authenticate each to the other. This mechanism also supports encrypting all traffic between the user and the service. The Kerberos server itself is known as the Key Distribution Center, or KDC. At
概述 Spark 任务监控分为两个维度,三个模块。 两个维度包括: Spark Operator Spark 应用本身 三个模块包括: Spark Operator 通过Spark Operator部署的Spark3应用 Sp
Kafka分布式的情况下,如何保证消息的顺序 https://www.cnblogs.com/haoxinyue/p/5743775.html Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead log
概述 熟悉 Spark 的用户都知道,Spark 的 Application Jar 以及一些资源文件都需要一个 Submit/Driver/Executor 可达的地址,通常来都会通过 Local 或 HDFS 和 HTTP 服务的方式来提供。以往 TenC 弹性计算 Spark 任
概述 Spark 是开源的分布式大规模数据处理通用引擎,具有高吞吐、低延时、通用易扩展、高容错等特点。 1.1 Spark 基础核心概念 Client: Driver: Executor: 负责执行 Driver 分发的 Task 任务。集群