概述 最近接手一个项目,惊讶的发现一个运行了一年多的系统,连日志打的都如此不规范,更不用谈什么监控等体系了,可想而知如果线上出现问题的时候,排
概述 Spark中所谓资源单位一般指的是 executors,和 Yarn 中的 Containers 一样,在 Spark On Yarn 模式下,通常使用 –num-executors 来指定 Application 使用的
概述 本文整理自: https://zhuanlan.zhihu.com/p/25772054 基本点 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark 是大数据领域中相当火热的计算框架,在大数据分析领域有一
概述 Spark 跟 Hadoop 生态的紧密联系就不用多说了,由于最近在处理一个 Kerberos 相关的问题,所以就好奇看看 Spark 里是怎么操作 Kerberos 认证的,以后如果有需要自己做的话,也可以
概述 Spark 和 Elasticsearch 是90%大数据工程师的基础技术栈了,前者不用多说了,就是业界的大数据计算框架,后者则是优秀的搜索框架。 推荐系统 业务上这两个框架经常
6 Hadoop Security Guide https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.0/bk_Security_Guide/content/kerberos-overview.html To create secure communication among its various components, HDP uses Kerberos. Kerberos is a third-party authentication mechanism, in which users and services that users wish to access rely on the Kerberos server to authenticate each to the other. This mechanism also supports encrypting all traffic between the user and the service. The Kerberos server itself is known as the Key Distribution Center, or KDC. At