关于数据挖掘:Gephi功能介绍及网络可视化案例

178次阅读

共计 5047 个字符,预计需要花费 13 分钟才能阅读完成。

社会关系网络可视化畛域:Gephi 的次要性能介绍,开源数据集的可视化实战

一、软件版本及应用畛域简介

1.gephi 是一款开源收费跨平台基于 JVM 的简单网络分析软件,其次要用于各种网络和简单零碎,动静和分层图的交互可视化与探测开源工具。当初最新版本是 0.9.2。

2. 社会网络分析 (Social Network Analysis,SNA) 办法,也称为构造分析法(Structural Analysis),次要用于剖析社会网络的关系构造及其属性。社会网络分析的意义在于,它能够对各种关系进行准确的量化剖析,从而为某种中层实践的构建和实证命题的测验提供量化的工具,甚至能够建设“宏观和宏观”之间的桥梁。

3.Gephi 是一个开放式的图形可视化平台,根本也是市场上公认的当先剖析软件之一,也是最受欢迎的网络可视化剖析软件包之一。使用者不须要具备任何编程常识,就可宽泛应用 Gephi 生产高质量的可视化图表。它还能够解决绝对较大的图形,理论大小取决于根底构造参数,但可能毫无问题地运行多达十万个节点。它能够计算一些常见指标,比方度数,核心性等,兼顾可视化和剖析的弱小工具。

4. 在可视化畛域也存在其余优良的软件,如 NetMiner(免费),Pajek(大型网络解决),Cystocape(生物学畛域),NodeXL(良好的数据收集接口)。

二、性能简介

1. 特点

由内置的疾速的 OpenGL 引擎提供反对,Gephi 可能利用十分大的网络推送信封,可视化网络多达一百万个元素,所有元素都会实时运行,如布局、过滤器;简略易于装置和应用,以可视化为核心的 UI,相似 Photoshop 的图形处理一样;反对模块化扩大 Gephi 及插件开发,该架构构建在 Netbeans 平台之上,能够通过精心编写的 API 轻松扩大或重用。

2. 次要功能模块

(1)图形布局算法
力疏导布局,共 6 种:force atlas;force atlas2、fruchterman reingold、openord、yifan hu、yifan hu 比例;辅助性的、带有编辑和调整性质的布局,共 6 种:noverlap、rotate、扩大、膨胀、标签调整、随机布局。

(2)测度网络算法
次要围绕以下内容:钻研节点的度:度、加权度、PageRank、聚类系数、特征向量核心度、模块化;钻研边的连接性:网络直径、连贯组件;钻研图的整体个性:均匀度、均匀加权度、图密度、均匀门路长度;钻研聚类个性:模块化。

(3)图形外观设置
自定义或依据数据设置节点的大小、节点色彩、边的粗细、边的色彩、节点与边的标签的色彩及大小。在以色彩和大小为指标的编辑中,能够通过两种形式实现:设置为对立的色彩和大小;依据数值设定色彩和大小。

(4)过滤:查问、筛选与分类
过滤器 filters 是通过用户设定的规定对网络中的节点或边进行筛选,从而可能更精准的摸索与剖析网络、过滤界面能够分为三局部:
1)4 个与过滤无关的工具
2)过滤选取分类
3)过滤界面查问工具。

1)四个与过滤无关的工具

四个按钮的性能:革除所有过滤规定;往过滤的节点中写入数据;把过滤出的节点和边挪动到一个新的工作空间。
2)过滤选取工具

① 属性:依据图节点或边的属性进行过滤;

② 动静:依据动态图的个性进行过滤
通过束缚范畴和空值,察看动态图在不同时间段内构造的变动

③ 边:依据边的个性进行过滤;

④ 操作分类:过滤过滤,将多个过滤器以某种逻辑关系联合在一起进行过滤;

⑤ 拓扑:依据图的拓扑构造进行过滤。

5. 数据资料界面设置

数据资料界面最次要的是数据表格面板,数据表格面板提供了丰盛的性能:
节点和边数据展现配置、减少节点和边、搜寻 / 替换、输入输出电子表格、
删除图、删除边、反复数据监测、增加、删除、合并列

每行数据右键菜单上也提供了十分丰盛的性能,如编辑节点、挪动、复制、设置节点大小等等,对数据的操作会同步到对可视化图形的操作中。

三、数据可视化及后果剖析

1. 数据起源

本次可视化我的项目应用的是 Kaggle 网站上社会关系网络可视化中的一个 DataSet,数据源链接:The Marvel Comic Characters Partnerships | Kaggle。

2. 钻研意义及数据集形容

(1)背景
漫威电影宇宙是一个在寰球领有大量粉丝的美国媒体系列。它是一系列超级英雄电影中的一个共享宇宙核心,由漫威工作室独立制作,基于漫威漫画历史上的人物。漫威电影宇宙在情节、背景、演员和角色上都有许多相似之处,并从漫画书中的原始漫威宇宙中吸取灵感。因为漫威电影宇宙中现存的大部分人物在漫威漫画宇宙中都有优先权,漫威遵循了依据人物在原漫画宇宙中的受欢迎水平、影响力和关系来抉择电影宇宙中的人物的模式。
英雄 / 反派的合作伙伴是漫威胜利的外围元素。他们丰盛了故事情节,使情节复杂化,使故事对个别观众更有吸引力。此外,反派和英雄之间的单干也让漫威宇宙的故事线变得不可预测,这也让观众更加兴奋。在这个社交网络中,节点代表连贯节点对的特色和边,示意不同的合作类型。本文旨在剖析反派和英雄之间的人工合作网络,以掂量整个漫威网络的及物性,并确定某些角色是否具备很强的核心性,这将为漫威将来在整体电影世界中增加角色提供见解。

(2)数据集形容
数据集“漫威人物单干 2018”提供了一个由两局部组成的 JSON 文件,一个是“节点”,一个是“链接”类别。依据数据集的原始形容,有 350 个节点和 346 条边(或“链接”)。把这个文件分成两个不同的文件,这个操作容许咱们将节点和边离开到不同的文件中。最初,将它们转换成 CSV 文件格式。
node.csv 蕴含组、id 和大小列。组值包含 0、1、2。0 是英雄群,1 是恶棍群,2 是反英雄群。如果一个角色兼具英雄和反派的特质,那么这个角色就是反英雄。依据 studiobinder.com,反英雄是指那些显著不足英雄品质的角色。有时,他们的行为在道德上是正确的,通常次要是出于本身利益或违反传统道德准则。id 列包含英雄、恶棍和反英雄的名称。大小列跟踪“id”或字符与网络中其余字符的连接数。
edge.csv 蕴含一个源列和一个指标列。该文件列出了 nodes.csv 文件中指定的 id 的连贯。源是 node .csv 中的 id,而指标是它们所连贯的 id。来自 nodes.csv 的大小示意 id 呈现在源列中的次数。

(3)钻研后果用处
①哪些英雄 / 恶棍有最高的分割?
②依据英雄 / 反派之间的分割,能够为将来的电影和漫画倒退提供什么倡议?

3. 数据操作
(1)数据导入
数据的导入次要分为节点导入和边导入,只有边的数据也能够,然而在后续生成的图形中可能会呈现只有节点而无奈显示每个节点代表的对象。

(2)数据处理
采纳 Force Atlas,Hu Yifu Propotionaonal 算法对原始数据进行模仿操作,失去如下后果,能够看到初步可视化后果特色为两头为分割较多的网络和四周分割较少的离散节点。在模仿图像的过程中,能够适当应用相应的辅助算法以生成更直观易懂的图像。能够计算图像的相干指标:最长直径为 21,均匀门路长度为 7.827。

(3)数据可视化出现
①将图中节点依照其度数之和标注色彩,红色为度数最多的节点,能够看到图中的节点大多为蓝色,蓝色的节点度数小于 3。

②将节点依照某种属性进行分类:此处依照其所属的营垒进行分类,0 示意英雄,1 示意恶棍,2 示意反英雄,色彩上别离体现为红色、紫色、绿色。

③将每个节点的标签和节点大小依照其度数进行设置,度数越大,节点越大,最终造成如下图像。

④将每个每个节点的标签标识进去最初呈现如下可视化图像

4. 可视化后果剖析
漫威工作室在进行漫威电影宇宙的相干电影、电视剧创作时,会依据当下的热点角色、演员合约、获利角度等进行综合考量,而该数据集形容的是已有的漫画角色网络关系,其中很多是在上世纪 4、50 年代进行创作的,过后的情节、角色象征决定了其不太可能会呈现在当前的漫威电影宇宙创作中,在进行可视化后果的剖析时,我会联合其余的数据进行综合剖析。

首先对于上述后果进行类别剖析:影响力较大(关系较多)的英雄角色中,Captain-America,Iron-Man 角色的扮演者曾经确定了解除和漫威的合约,故这两个角色不会再呈现漫威电影宇宙中。影响力较大(关系较多)的反派角色中,与英雄角色分割最多的是 Venom,Spider-Man 与 Venom、Venom 与其四周的反派角色在漫威电影宇宙将来的创作中会较多的波及到,且就最近上映的《Venom 1》获得的票房问题和《Venom 2》较高的呼声来看,其仍具备非常巩固的观影人群,利润空间微小;Chameleon 角色在 2019 年的《Spider-Man: Far From Home》中呈现过,是值得再次创作的一个反派角色;Red-Skull 在《Avengers: Endgame》中呈现过,该角色短期内不再具备二次创作的价值。

在漫威倒退历史中呈现过将版权发售给其余影视公司的事件,如下图中的反派角色在 2019 年之前的版权都是在其余影视公司,如福克斯、索尼等,在 2019 年之后才被回购回漫威影视,尽管基于角色冲突、背景抵触等多种因素,其二次创作的难度较大,然而其创作空间很大,在将来的漫威电影宇宙中呈现的概率较大,具备较高的创作价值。

Loki 和 Thor 始终是在漫威电影宇宙中煊赫一时的角色,次要起因是其扮演者本身的魅力及角色驾驭能力,如 Tom Hiddleston 始终负责 Loki 的扮演者,为这一角色积攒了较高的人气,漫威往年新出品连续剧《Loki》,取得了不错的反应,揣测 Loki 在近期的漫威电影宇宙中会频繁呈现。

漫威漫画的边缘角色,即度数较小的节点,位于度数区间 [1,7] 的节点占比 34.87%,占据漫画角色的比重比拟大,占有较大的二次创作空间,然而因为可抉择的范畴较大,不能确定哪个角色的呈现概率较大,但这部分角色为漫威电影宇宙的创作提供了贵重的素材库,即便在主线剧情呈现较大得胜的状况下,也能一直投资创作取得微小的收益。

Giant Component 剖析能够失去如下图像,其代表了传统的漫威漫画角色形象,在短期的漫威剧集中仍将是作为主线剧情或是作为次要的转折点引入更宽敞的角色维度。

四、Gephi 布局算法的简略阐明

1. 实践根底

ForceAtlas2 是 Gephi 的默认布局算法,由 Gephi 团队开发的,作为针对 Gephi 用户的典型网络 (无标度,10 到 10000 个节点) 的全面解决方案,ForceAtlas2 是一种强制导向的布局,相似于用于网络空间化的其余算法,其并没有在实践上获得了提高,而是在尝试整合不同的技术,比方 Barnes Hut 模仿、依赖水平的排斥力以及部分和寰球的适应温度。它是为 Gephi 用户体验而设计的(它是一个间断的算法),能够将解释它蕴含哪些束缚。该算法得益于大量的反馈,并通过其设置提供了许多可能性。

如果开发一种算法是“钻研”,实现它是“工程”,那么 Gephi 的一个总体个性就是,它是基于工程而不是钻研。所以它看起来和 Pajek 这样的软件如此不同。这也是为什么 ForceAtlas2 更重视可用性而不是原创性的起因。

ForceAtlas2 算法的基本原理并不简单。只有它运行,节点就会排挤,而边缘会吸引。这种对简略的谋求来自于对透明度的需要。社会科学家不能应用黑盒,因为任何解决都必须从方法论的角度进行评估。该算法的性能扭转了力或节点的模仿形式,但放弃了这种间断力领导布局的模型: 只有布局在运行,力就会继续施加。ForceAtlas2 是一种强制定向布局: 它模仿一个物理零碎以使网络空间化。节点像带电粒子一样相互排挤,而边缘像弹簧一样吸引它们的节点。这些力量发明了一种静止,并汇聚到一个均衡的状态。这一最终配置将有助于解释数据。

2. 模型阐明

(1)引力模型
ForceAtlas 引力模型算法依赖于一种经典的引力,即节点之间的间隔线性地依赖于它们之间的间隔。

(2)排斥力模型
ForceAtlas2 的一个典型用例是社交网络。这类网络的一个独特特色是存在许多“叶子”(只有一个街坊的节点)。这是因为许多实在数据的幂律度散布。围绕在多数高度连贯节点四周的“树叶”森林是视觉芜杂的次要起源之一。在排挤中思考节点的水平(连贯边的数量),从而缩小这种特定的视觉芜杂。

其理念是将连贯不良的节点拉近与连贯良好的节点的间隔。对此的解决方案是调整斥力,使连贯十分严密的节点和连贯不严密的节点之间的斥力更弱。因而,它们最终会更靠近均衡状态。斥力与两个节点的度加一产生成正比。该系数由设置定义。

正文完
 0