Atlas对Hive的使用
一、Hive元数据初次导入
Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入
1、导入Hive元数据
cp /root/import-hive-cdh.sh /opt/module/atlas/hook-bin/
#执行以下命令 /opt/module/atlas/hook-bin/import-hive-cdh.sh
按提示输入用户名:admin;输入密码:admin
出现如下内容说明元数据导入成功
2、查看Hive元数据
1)搜索hive_table类型的元数据,可已看到Atlas已经拿到了Hive元数据
2)任选一张表查看血缘依赖关系,发现此时并未出现期望的血缘依赖,原因是Atlas是根据Hive所执行的SQL语句获取表与表之间以及字段与字段之间的依赖关系的,例如执行insert into table_a select * from table_b语句,Atlas就能获取table_a与table_b之间的依赖关系。此时并未执行任何SQL语句,故还不能出现血缘依赖关系。
二、Hive元数据增量同步
Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。