概述 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用 Hadoop 必须考虑数据管理的实际情况,元数据
概述 本文主要介绍一下 Atlas 的类型系统。 Atlas Type System Atlas 类型系统,Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为**“类型”**的
概述 Apache Beam 是什么?Apache Beam 是统一的批/流数据处理的编程模型。本文主要是参考官方文档,用 Docker 来快速跑起来一个用 Beam 来构建的 Flink 程序来处理数据的 D
概述 Apache Griffin 是一个应用于分布式数据系统中的开源数据质量解决方案。在 Hadoop, Spark, Storm 等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告
概述 过去十年,Hadoop 生态的各类组件早已成为大数据领域的事实标准,很多公司围绕 Hadoop 生态,构建出自己的大数据处理到机器学习的管道。而 Kubernetes 作为容
概述 Mac 系统要折腾这些东西还是挺麻烦的,为了不麻烦,建议安装个虚拟机玩玩(前提是你的 Mac 配置不能太低,16G 内存还是可以随便玩的) 步骤 https://www.virtualbox.org/wiki/Downloads 基本上安