目录

Hive系列-HSQL转换成MapReduce过程

目录

概述

hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档, 有点小心得分享出来。主要的参考链接 http://tech.meituan.com/hive-sql-to-mapreduce.html http://www.slideshare.net/recruitcojp/internal-hive 注明:本文的图片借用slideshare内容。

hive的整体架构图如下所示,compiler部分负责把HiveSQL转换成MapReduce任务。

/hive%E7%B3%BB%E5%88%97-hsql%E8%BD%AC%E6%8D%A2%E6%88%90mapreduce%E8%BF%87%E7%A8%8B/image_1d3863eah1rq714qs1eqr1kghoq69.png

基本转换步骤 hiveSQL转换成MapReduce的执行计划包括如下几个步骤: HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree(操作树)->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

/hive%E7%B3%BB%E5%88%97-hsql%E8%BD%AC%E6%8D%A2%E6%88%90mapreduce%E8%BF%87%E7%A8%8B/image_1d3863uqq1bmqh86v5f101f43vm.png

SQL Parser:Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象 语法树AST Tree; Semantic Analyzer:遍历AST Tree,抽象出查询的基本组成单元QueryBlock; Logical plan:遍历QueryBlock,翻译为执行操作树OperatorTree; Logical plan optimizer: 逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量; Physical plan:遍历OperatorTree,翻译为MapReduce任务; Logical plan optimizer:物理层优化器进行MapReduce任务的变换,生成最终的执行计划;

step1: SQL Parser 如下图所示, sql语句可以解析为三个部分 AST中第一个部分对应SQL语句中FROM access_log_hbase a JOIN product_hbase p ON (a.prono=p.prono)。 insert overwrite table对应第二部分。 select a.user, a.prono, p.maker, p.price对应第三部分。

/hive%E7%B3%BB%E5%88%97-hsql%E8%BD%AC%E6%8D%A2%E6%88%90mapreduce%E8%BF%87%E7%A8%8B/image_1d3864sm91era1r9a1ng97ot12cb13.png
警告
本文最后更新于 2017年2月1日,文中内容可能已过时,请谨慎参考。