Hive元数据库是用来做什么的,存储哪些信息

2020-11-24 09:41:42 字数 4378 阅读 8298

1楼:

本质上只是用来存储hive中有哪些数据库,哪些表,表的模式,目录,分区,索引以及命名空间。为数据库创建的目录一般在hive数据仓库目录下。

2楼:匿名用户

你要知道hive并不是真正的数据库,它里面创建数据库和数据表都是蓝目录实现的,所以在它的元数据库里存储着它里面建的库和表的所在目录!

mysql存储hive元数据有什么好处

3楼:匿名用户

定义元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。

首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:

(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执**况;(5)衡量数据质量。

在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。

在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:

描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。

此外,元数据在地理界,生命科学界等顶域也有其相应的定义和应用。

元数据(meta data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。

元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件 (pe) 文件或存储在内存中的程序进行描述。将您的**编译为 pe 文件时,便会将元数据插入到该文件的一部分中,而将**转换为 microsoft 中间语言 (msil) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。

当执行**时,运行库将元数据加载到内存中,并引用它来发现有关**的类、成员、继承等信息。

元数据以非特定语言的方式描述在**中定义的每一类型和成员。元数据存储以下信息:

程序集的说明。

标识(名称、版本、区域性、公钥)。

导出的类型。

该程序集所依赖的其他程序集。

运行所需的安全权限。

类型的说明。

名称、可见性、基类和实现的接口。

成员(方法、字段、属性、事件、嵌套的类型)。

属性。修饰类型和成员的其他说明性元素。

hive 的元数据存储在 derby 和 mysql 中有什么区别

4楼:老丁

hive 的元数据存储在rdbms中,一般常用 mysql 和 derby。默认情况下,hive元数据保存在内嵌的 derby 数据库中,只能允许一个会话连接,只适合简单的测试。实际生产环境中不适用,为了支持多用户回话,需要一个独立的元数据库,所以使用 mysql。

总结:1、derby 只支持一个会话连接

2、 mysql 支持多个会话连接,并且可以独立部署

5楼:匿名用户

定义 元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。

hive的元数据存储在derby和mysql 中有什么区别

6楼:魏志刚射手

hive的元数据如果放在derby,一般只能允许1个会话连接;而mysql则没有这个限制;为了共享知识,请点个赞支持下

7楼:得分得分

定义 元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。

hive 元数据是什么

8楼:匿名用户

管理hive的数据,所有的表名,库名,都是存储在元数据中的

拿到hive的元数据库权限能否拿到所有用户的数据?

9楼:云南新华电脑学校

概述一、存储hive版本的元数据表(version)二、hive数据库相关的元数据表(dbs、database_params)

1、dbs

2、database_params

三、hive表和视图相关的元数据表

1、tbls

2、table_params

3、tbl_privs

四、hive文件存储信息相关的元数据表

1、sds

2、sd_params

3、serdes

4、serde_params

五、hive表字段相关的元数据表

1、columns_v2

六、hive表分区相关的元数据表

1、partitions

2、partition_keys

3、partition_key_vals

4、partition_params

七、其他不常用的元数据表

hive的数据存储

10楼:联盟巨猩

首先,hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 hive 中的表,只需要在创建表的时候告诉 hive 数据中的列分隔符和行分隔符,hive 就可以解析数据。

其次,hive 中所有的数据都存储在 hdfs 中,hive 中包含以下数据模型:表(table),外部表(external table),分区(partition),桶(bucket)。

hive 中的 table 和数据库中的 table 在概念上是类似的,每一个 table 在 hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 hdfs 中的路径为:/wh/pvs,其中,wh 是在 hive-site.

xml 中由 $ 指定的数据仓库的目录,所有的 table 数据(不包括 external table)都保存在这个目录中。

partition 对应于数据库中的 partition 列的密集索引,但是 hive 中 partition 的组织方式和数据库中的很不相同。在 hive 中,表中的一个 partition 对应于表下的一个目录,所有的 partition 的数据都存储在对应的目录中。例如:

pvs 表中包含 ds 和 city 两个 partition,则对应于 ds = 20090801, ctry = us 的 hdfs 子目录为:/wh/pvs/ds=20090801/ctry=us;对应于 ds = 20090801, ctry = ca 的 hdfs 子目录为;/wh/pvs/ds=20090801/ctry=ca

buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 hdfs 目录为:/wh/pvs/ds=20090801/ctry=us/part-00000;hash 值为 20 的 hdfs 目录为:

/wh/pvs/ds=20090801/ctry=us/part-00020

external table 指向已经在 hdfs 中存在的数据,可以创建 partition。它和 table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。

table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。 external table 只有一个过程,加载数据和创建表同时完成(create external table ……location),实际数据是存储在 location 后面指定的 hdfs 路径中,并不会移动到数据仓库目录中。

当删除一个 external table 时,仅删除元数据,表中的数据不会真正被删除。