关于数据库:Nebula-Exchange-工具-Hive-数据导入的踩坑之旅

44次阅读

共计 4937 个字符，预计需要花费 13 分钟才能阅读完成。

摘要：本文由社区用户 xrfinbj 奉献，次要介绍 Exchange 工具从 Hive 数仓导入数据到 Nebula Graph 的流程及相干的注意事项。

公司外部有应用图数据库的场景，外部通过技术选型确定了 Nebula Graph 图数据库，还须要验证 Nebula Graph 数据库在理论业务场景下的查问性能。所以急切的须要导入数据到 Nebula Graph 并验证。在这个过程中发现通过 Exchange 工具从 hive 数仓导入数据到 Nebula Graph 文档不是很全，所以把这个流程中踩到的坑记录下来，回馈社区，防止前人走弯路。

本文次要基于我之前发在论坛的 2 篇帖子：

exchange 如何导入 hive 数据问题
exchange 执行从 hive 导入数据报错

Nebula Graph 版本：nebula:nightly
部署形式（分布式 / 单机 / Docker / DBaaS）：Mac 电脑 Docker 部署
硬件信息
- 磁盘（SSD / HDD）：Mac 电脑 SSD
- CPU、内存信息：16 G
数仓环境（Mac 电脑搭建的本地数仓）：
- Hive 3.1.2
- Hadoop 3.2.1
Exchange 工具：https://github.com/vesoft-inc/nebula-java/tree/v1.0/tools/exchange

编译后生成 jar 包

Spark

spark-2.4.7-bin-hadoop2.7 (conf 目录下配置 Hadoop 3.2.1 对应的 core-site.xml，hdfs-site.xml，hive-site.xml 设置 spark-env.sh)
Scala code runner version 2.13.3 — Copyright 2002-2020, LAMP/EPFL and Lightbend, Inc.

CREATE SPACE test_hive(partition_num=10, replica_factor=1); -- 创立图空间，本示例中假如只须要一个正本
USE test_hive; -- 抉择图空间 test
CREATE TAG tagA(idInt int, idString string, tboolean bool, tdouble double); -- 创立标签 tagA
CREATE TAG tagB(idInt int, idString string, tboolean bool, tdouble double); -- 创立标签 tagB
CREATE EDGE edgeAB(idInt int, idString string, tboolean bool, tdouble double); -- 创立边类型 edgeAB

CREATE TABLE `tagA`(                               
   `id` bigint,                                     
   `idInt` int,                            
   `idString` string,                                 
   `tboolean` boolean,                                 
   `tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into tagA select 1,1,'str1',true,11.11;
insert into tagA select 2,2,"str2",false,22.22;

CREATE TABLE `tagB`(                               
   `id` bigint,                                     
   `idInt` int,                            
   `idString` string,                                 
   `tboolean` boolean,                                 
   `tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into tagB select 3,3,"str 3",true,33.33;
insert into tagB select 4,4,"str 4",false,44.44;

CREATE TABLE `edgeAB`(                               
   `id_source` bigint,                                     
   `id_dst` bigint,         
   `idInt` int,                            
   `idString` string,                                 
   `tboolean` boolean,                                 
   `tdouble` double) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n';
insert into edgeAB select 1,3,5,"edge 1",true,55.55;
insert into edgeAB select 2,4,6,"edge 2",false,66.66;

留神看 exec、fields、nebula.fields、vertex、source、target 字段映射

{
  # Spark relation config
  spark: {
    app: {name: Spark Writer}

    driver: {
      cores: 1
      maxResultSize: 1G
    }

    cores {max: 4}
  }

  # Nebula Graph relation config
  nebula: {
    address:{graph: ["192.168.1.110:3699"]
      meta: ["192.168.1.110:45500"]
    }
    user: user
    pswd: password
    space: test_hive

    connection {
      timeout: 3000
      retry: 3
    }

    execution {retry: 3}

    error: {
      max: 32
      output: /tmp/error
    }
    rate: {
      limit: 1024
      timeout: 1000
    }
  }

  # Processing tags
  tags: [
    # Loading from Hive
    {
      name: tagA
      type: {
        source: hive
        sink: client
      }
      exec: "select id,idint,idstring,tboolean,tdouble from nebula.taga"
      fields: [id,idstring,tboolean,tdouble]
      nebula.fields: [idInt,idString,tboolean,tdouble]
      vertex: id
      batch: 256
      partition: 10
    }
    {
      name: tagB
      type: {
        source: hive
        sink: client
      }
      exec: "select id,idint,idstring,tboolean,tdouble from nebula.tagb"
      fields: [id,idstring,tboolean,tdouble]
      nebula.fields: [idInt,idString,tboolean,tdouble]
      vertex: id
      batch: 256
      partition: 10
    }
  ]

  # Processing edges
  edges: [
    # Loading from Hive
    {
      name: edgeAB
      type: {
        source: hive
        sink: client
      }
      exec: "select id_source,id_dst,idint,idstring,tboolean,tdouble from nebula.edgeab"
      fields: [id_source,idstring,tboolean,tdouble]
      nebula.fields: [idInt,idString,tboolean,tdouble]
      source: id_source
      target: id_dst
      batch: 256
      partition: 10
    }
  ]
}

spark-submit --class com.vesoft.nebula.tools.importer.Exchange --master“local[4]”/xxx/exchange-1.0.1.jar -c /xxx/nebula_application.conf -h

./db_dump --mode=stat --space=xxx --db_path=/home/xxx/data/storage0/nebula   --limit 20000000

第一个坑就是 spark-submit 命令没有加 -h 参数
Nebula Graph 中 tagName 是大小写敏感的，tags 的配置中 name 配置的应该是 Nebula Graph 的 tag 名
Hive 的 int 和 Nebula Graph 的 int 不统一，Hive 外面的 bigint 对应 Nebula Graph 的 int

因为 Nebula Graph 底层存储是 kv，反复插入其实是笼罩，update 操作用 insert 代替性能会高些
文档外面不全的中央可能临时只有一边看源码解决，一边去论坛问（开发同学也不容易又要缓和的开发又要答复用户的疑难）
导入数据、Compact 以及操作倡议：https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/compact/
我曾经验证如下两个场景:
- 用 Spark 2.4 从 Hive 2（Hadoop 2）中导入数据到 Nebula Graph
- 用 Spark 2.4 从 Hive3（Hadoop 3）中导入数据到 Nebula Graph

阐明：Exchange 目前还不反对 Spark 3，编译后运行报错，所以没法验证 Spark 3 环境

nebula_application.conf 文件的参数 batch 和 rate.limit 应该如何设置？参数如何抉择？
Exchange 工具 Hive 数据导入原理（Spark 这块我也是最近现学现用）

Spark Debug 局部参考博客：https://dzone.com/articles/how-to-attach-a-debugger-to-apache-spark

通过 Exchange 源码的学习和 Debug 能加深对 Exchange 原理的了解，同时也能发现一些文档形容不清晰的中央，比方导入 SST 文件和 Download and Ingest 只有联合源码看能力发现文档形容不清晰逻辑不谨严的问题。

通过源码 Debug 也能发现一些简略的参数配置问题。

进入正题：

步骤一：

export SPARK_SUBMIT_OPTS=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=4000

步骤二：

spark-submit --class com.vesoft.nebula.tools.importer.Exchange --master“local”/xxx/exchange-1.1.0.jar -c /xxx/nebula_application.conf -h
Listening for transport dt_socket at address: 4000

步骤三：IDEA 配置

步骤四：在 IDEA 外面点击 Debug

感激 vesoft 提供了宇宙性能最强的 Nebula Graph 图数据库，能解决业务中很多理论问题，中途这点痛不算什么（看之前的分享，360 数科他们那个痛才是真痛）。中途遇到的问题都有幸失去社区及时的反馈解答，再次感激

很期待 Exchange 反对 Nebula Graph 2.0

exchange 和 Spark Writer 什么关系？
Spark Writer 手册
Spark Writer 手册

喜爱这篇文章？来来来，给咱们的 GitHub 点个 star 表激励啦~~ ????‍♂️????‍♀️ [手动跪谢]

交换图数据库技术？交个敌人，Nebula Graph 官网小助手微信：NebulaGraphbot 拉你进交换群~~

在 Spark 数据导入中的一些实际细节
Neo4j 导入 Nebula Graph 的实现原理与实际

正文完

数据库

发表至：数据库

2021-01-11

0

关于数据库:零基础入门PolarDBX搭建高可用系统并联动数据大屏

关于数据库:顺丰科技-x-StarRocks双十一实时运单分析实践

关于数据库:案例星环科技×某能源企业数据中台实践

关于数据库:如何彻底搞懂TDengine的fqdn概念这一篇文章就够了

关于java:问题Session的销毁方式到底有哪些

关于数据库:Nebula-Exchange-工具-Hive-数据导入的踩坑之旅

1 背景

2 环境信息

3 配置

1 Nebula Graph DDL

2 Hive DDL

3 我的最新 nebula_application.conf 文件

4 执行导入

4.1 确保 nebula 服务启动

4.2 确保 Hive 表和数据就绪

4.3 执行 spark-sql cli 查看 Hive 表以及数据是否失常以确保 Spark 环境没问题

4.4 所有配置工作就绪后，执行 Spark 命令：

4.5 导入胜利后能够借助 db_dump 工具查看导入数据量验证正确性

5 踩坑以及阐明

其余阐明：

还有一些疑难

6 Exchange 源码 Debug

7 倡议与感激

参考资料

举荐浏览

Just My Socks（注册教程内含优惠码）

关于数据库:Nebula-Exchange-工具-Hive-数据导入的踩坑之旅

1 背景

2 环境信息

3 配置

1 Nebula Graph DDL

2 Hive DDL

3 我的最新 nebula_application.conf 文件

4 执行导入

4.1 确保 nebula 服务启动

4.2 确保 Hive 表和数据就绪

4.3 执行 spark-sql cli 查看 Hive 表以及数据是否失常以确保 Spark 环境没问题

4.4 所有配置工作就绪后，执行 Spark 命令：

4.5 导入胜利后 能够借助 db_dump 工具查看导入数据量 验证正确性

5 踩坑以及阐明

其余阐明：

还有一些疑难

6 Exchange 源码 Debug

7 倡议与感激

参考资料

举荐浏览

Just My Socks（注册教程 内含优惠码）

4.5 导入胜利后能够借助 db_dump 工具查看导入数据量验证正确性

Just My Socks（注册教程内含优惠码）