共计 4937 个字符,预计需要花费 13 分钟才能阅读完成。
摘要:本文由社区用户 xrfinbj 奉献,次要介绍 Exchange 工具从 Hive 数仓导入数据到 Nebula Graph 的流程及相干的注意事项。
1 背景
公司外部有应用图数据库的场景,外部通过技术选型确定了 Nebula Graph 图数据库,还须要验证 Nebula Graph 数据库在理论业务场景下的查问性能。所以急切的须要导入数据到 Nebula Graph 并验证。在这个过程中发现通过 Exchange 工具从 hive 数仓导入数据到 Nebula Graph 文档不是很全,所以把这个流程中踩到的坑记录下来,回馈社区,防止前人走弯路。
本文次要基于我之前发在论坛的 2 篇帖子:
- exchange 如何导入 hive 数据问题
- exchange 执行从 hive 导入数据报错
2 环境信息
- Nebula Graph 版本:nebula:nightly
- 部署形式(分布式 / 单机 / Docker / DBaaS):Mac 电脑 Docker 部署
-
硬件信息
- 磁盘(SSD / HDD):Mac 电脑 SSD
- CPU、内存信息:16 G
-
数仓环境(Mac 电脑搭建的本地数仓):
- Hive 3.1.2
- Hadoop 3.2.1
- Exchange 工具:https://github.com/vesoft-inc/nebula-java/tree/v1.0/tools/exchange
编译后生成 jar 包
- Spark
spark-2.4.7-bin-hadoop2.7 (conf 目录下配置 Hadoop 3.2.1 对应的 core-site.xml,hdfs-site.xml,hive-site.xml 设置 spark-env.sh)
Scala code runner version 2.13.3 — Copyright 2002-2020, LAMP/EPFL and Lightbend, Inc.
3 配置
1 Nebula Graph DDL
CREATE SPACE test_hive(partition_num=10, replica_factor=1); -- 创立图空间,本示例中假如只须要一个正本
USE test_hive; -- 抉择图空间 test
CREATE TAG tagA(idInt int, idString string, tboolean bool, tdouble double); -- 创立标签 tagA
CREATE TAG tagB(idInt int, idString string, tboolean bool, tdouble double); -- 创立标签 tagB
CREATE EDGE edgeAB(idInt int, idString string, tboolean bool, tdouble double); -- 创立边类型 edgeAB
2 Hive DDL
CREATE TABLE `tagA`(
`id` bigint,
`idInt` int,
`idString` string,
`tboolean` boolean,
`tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into tagA select 1,1,'str1',true,11.11;
insert into tagA select 2,2,"str2",false,22.22;
CREATE TABLE `tagB`(
`id` bigint,
`idInt` int,
`idString` string,
`tboolean` boolean,
`tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into tagB select 3,3,"str 3",true,33.33;
insert into tagB select 4,4,"str 4",false,44.44;
CREATE TABLE `edgeAB`(
`id_source` bigint,
`id_dst` bigint,
`idInt` int,
`idString` string,
`tboolean` boolean,
`tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into edgeAB select 1,3,5,"edge 1",true,55.55;
insert into edgeAB select 2,4,6,"edge 2",false,66.66;
3 我的最新 nebula_application.conf 文件
留神看 exec、fields、nebula.fields、vertex、source、target 字段映射
{
# Spark relation config
spark: {
app: {name: Spark Writer}
driver: {
cores: 1
maxResultSize: 1G
}
cores {max: 4}
}
# Nebula Graph relation config
nebula: {
address:{graph: ["192.168.1.110:3699"]
meta: ["192.168.1.110:45500"]
}
user: user
pswd: password
space: test_hive
connection {
timeout: 3000
retry: 3
}
execution {retry: 3}
error: {
max: 32
output: /tmp/error
}
rate: {
limit: 1024
timeout: 1000
}
}
# Processing tags
tags: [
# Loading from Hive
{
name: tagA
type: {
source: hive
sink: client
}
exec: "select id,idint,idstring,tboolean,tdouble from nebula.taga"
fields: [id,idstring,tboolean,tdouble]
nebula.fields: [idInt,idString,tboolean,tdouble]
vertex: id
batch: 256
partition: 10
}
{
name: tagB
type: {
source: hive
sink: client
}
exec: "select id,idint,idstring,tboolean,tdouble from nebula.tagb"
fields: [id,idstring,tboolean,tdouble]
nebula.fields: [idInt,idString,tboolean,tdouble]
vertex: id
batch: 256
partition: 10
}
]
# Processing edges
edges: [
# Loading from Hive
{
name: edgeAB
type: {
source: hive
sink: client
}
exec: "select id_source,id_dst,idint,idstring,tboolean,tdouble from nebula.edgeab"
fields: [id_source,idstring,tboolean,tdouble]
nebula.fields: [idInt,idString,tboolean,tdouble]
source: id_source
target: id_dst
batch: 256
partition: 10
}
]
}
4 执行导入
4.1 确保 nebula 服务启动
4.2 确保 Hive 表和数据就绪
4.3 执行 spark-sql cli 查看 Hive 表以及数据是否失常以确保 Spark 环境没问题
4.4 所有配置工作就绪后,执行 Spark 命令:
spark-submit --class com.vesoft.nebula.tools.importer.Exchange --master“local[4]”/xxx/exchange-1.0.1.jar -c /xxx/nebula_application.conf -h
4.5 导入胜利后 能够借助 db_dump 工具查看导入数据量 验证正确性
./db_dump --mode=stat --space=xxx --db_path=/home/xxx/data/storage0/nebula --limit 20000000
5 踩坑以及阐明
- 第一个坑就是 spark-submit 命令没有加 -h 参数
- Nebula Graph 中 tagName 是大小写敏感的,tags 的配置中 name 配置的应该是 Nebula Graph 的 tag 名
- Hive 的 int 和 Nebula Graph 的 int 不统一,Hive 外面的 bigint 对应 Nebula Graph 的 int
其余阐明:
- 因为 Nebula Graph 底层存储是 kv,反复插入其实是笼罩,update 操作用 insert 代替性能会高些
- 文档外面不全的中央可能临时只有一边看源码解决,一边去论坛问(开发同学也不容易又要缓和的开发又要答复用户的疑难)
- 导入数据、Compact 以及操作倡议:https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/compact/
-
我曾经验证如下两个场景:
- 用 Spark 2.4 从 Hive 2(Hadoop 2)中导入数据到 Nebula Graph
- 用 Spark 2.4 从 Hive3(Hadoop 3)中导入数据到 Nebula Graph
阐明:Exchange 目前还不反对 Spark 3,编译后运行报错,所以没法验证 Spark 3 环境
还有一些疑难
- nebula_application.conf 文件的参数 batch 和 rate.limit 应该如何设置?参数如何抉择?
- Exchange 工具 Hive 数据导入原理(Spark 这块我也是最近现学现用)
6 Exchange 源码 Debug
Spark Debug 局部参考博客:https://dzone.com/articles/how-to-attach-a-debugger-to-apache-spark
通过 Exchange 源码的学习和 Debug 能加深对 Exchange 原理的了解,同时也能发现一些文档形容不清晰的中央,比方 导入 SST 文件 和 Download and Ingest 只有联合源码看能力发现文档形容不清晰逻辑不谨严的问题。
通过源码 Debug 也能发现一些简略的参数配置问题。
进入正题:
步骤一:
export SPARK_SUBMIT_OPTS=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=4000
步骤二:
spark-submit --class com.vesoft.nebula.tools.importer.Exchange --master“local”/xxx/exchange-1.1.0.jar -c /xxx/nebula_application.conf -h
Listening for transport dt_socket at address: 4000
步骤三:IDEA 配置
步骤四:在 IDEA 外面点击 Debug
7 倡议与感激
感激 vesoft 提供了宇宙性能最强的 Nebula Graph 图数据库,能解决业务中很多理论问题,中途这点痛不算什么(看之前的分享,360 数科他们那个痛才是真痛)。中途遇到的问题都有幸失去社区及时的反馈解答,再次感激
很期待 Exchange 反对 Nebula Graph 2.0
参考资料
- exchange 和 Spark Writer 什么关系?
- Spark Writer 手册
- Spark Writer 手册
喜爱这篇文章?来来来,给咱们的 GitHub 点个 star 表激励啦~~ ????♂️????♀️ [手动跪谢]
交换图数据库技术?交个敌人,Nebula Graph 官网小助手微信:NebulaGraphbot 拉你进交换群~~
举荐浏览
- 在 Spark 数据导入中的一些实际细节
- Neo4j 导入 Nebula Graph 的实现原理与实际