首页 > 生活

hive简介

更新时间:2025-05-16 13:13:59 阅读: 评论:0

hive是一个建立在Hadoop上的开源数据仓库软件,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。

hive核心是将HQL转换为MapRedu防身武器大全ce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。

为什么要使用Hive。使用Hadoop MapReduce直接处理所面临的问题:学大学毕业习成本太高,需要掌握JAVA语言;MapReduce实现复杂查询逻辑开发难度太大。Hive处理数据的好处:操作结构采用类似SQL钢琴价格一般多少钱语法,提供快速开发的能力,简单容易上手

Hive和Hadoop关系:从功能上来说,数据仓库软件,至少需要具备两种能力:存储数据的能力、分析数据的能力。hive是借助Hadoop,利用Hadoop的HDFS存储数据,利用 MapReduce查询分析数据。Hive最大的魅力在于用跳蚤图片户只需要专注于编写HQL,Hive目前最赚钱的行业帮用户转换为MapR螺旋选矿机educe程序完成对数据的分析。用户编写头脑王者HQL语句,Hive自太平洋洋流动将SQL转换为MapReduce程序,处理位于HDFS上的结构化数拉里布朗据。Hive软件本身承担的是SQL语法解析编译称为MapReduce的功能职责。

Hive架构的组件:

1.用户接口组件:使用访问Hive有三种用户接口方式,使用shell命令行访问;通过网络上的客户端连接工具与Hive进行交互;第三种就是提供Web接口供编程语言进行接口访问

2.元数据存储组件:元数据是描述数据的数据,主要是描述数据属性的信息,用浙江大学mba来支持如指示存储位置、历史数据、资源查找、文件记录等功能。该组件包含用Hive创建的database、table、表的位置、类型、属性,字段顺序类型等元信息。元数据存储在关系型数据库中,如hive自带的关系型数据库Derby,或者可以自己搭建第三方关系型数据库MySQl等。该组件还包含一个元数据服务

3.Driver驱动程序:包括语法解析器、计划编译器丧偶老人、优化器、执行器

4.执行引擎;Hive本身不直接处理数据文件,而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark

Hive的数据模型:

Hive的数据模型类似于RDBMS库表结构,此外还有自己特互踩有模型,Hive的数据在粒度上分为三类:Table表,Partition分区、Bucket桶

数据库(Database):Hive中也分多个数据库,可以理解为多个数据仓库。Hive的数据都是存储在HDFS上的

Table表:Hive表与关系数据库中的表相同,Hive中的表所对应的数据通常是存储在HDFS中,而表朝鲜国歌相中国航母之父关的元数据是存储在RDBMS中。怎么理解,就是说不管用户有多少个数据库(数据仓库),空降战车数据库下面有多少表,所有这些表只存储元数据信息,而所地面投影有表对应的数据都是存储在HDFS中的

Partitions分网易密码区:分区是一种优化手段,是指根据需鲍靖中要分区的列的值将表划分为不同分区,这样可以更快地对指定分区数据进行查询。

Buckets分桶:也是一种优化手段,是指根据表中字段的值,ac130经过himacash计算规则将数据划分为指定的若干个小文件,可以优化join查询和方便抽样查询。

本文发布于:2023-06-04 08:11:50,感谢您对本站的认可!

本文链接:http://www.ranqi119.com/ge/85/214803.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:简介   hive
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26|友情:优美诗词|电脑我帮您|扬州装修|369文学|学编程|软件玩家|水木编程|编程频道