首页 > 技术 > 大数据

大数据培训hive和mapreduce的区别|大数据面试

人阅读 2023-05-19 20:04:01

【大数据培训hive和mapreduce的区别|大数据面试】lot物联网小编为你整理了的相关内容,希望能为你解答。

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive 数据仓库:支持 PB 级别的数据,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

Hive 使用场景:数据汇总、非实时分析、数据挖掘等场景。

Hive 架构: Driver(Compiler 编译器, Optimizer 优化器, Executor 执行器),其中解释器、编译器、优化器完成HQL查询语句的编译、优化以及查询计划的生成。

Hive 查询涉及的组件:Compiler 编译器, Optimizer 优化器, Executor 执行器, MetaStore 元数据。

Hive 内部表管理:由 Hive 进行管理,删除时会删除元数据和真实数据。

Hive 外部表管理:删除时只删除元数据,不删除真实数据。

Hive 数据分区:分区数可以在建表时指定,也可以建表后通过 alter 命令进行调整。

Hive 内置函数:trim----用于去除空字符(去除空格)。

Hive 自定义函数:临时函数只能在当前会话使用,永久函数可以在多个会话使用。

Hive 输入输出:UDF(一行输入一行输出),Hive UDAF(多行输入,一行输出),Hive UDTF(一行输入多行输出)。

Hive 数据存储和计算:数据存储底层由 HDFS 支持,Hive 生成的查询计划会被放到 HDFS中执行,随后由计算引擎MapReduce调用执行。

Hive 数据仓库分层: ods,dwd,dws,ads,没有ST层。

以上内容为【大数据培训hive和mapreduce的区别|大数据面试】的相关内容,更多相关内容关注lot物联网。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com