关于图片处理:楠姐技术漫话图计算的那些事-京东云技术团队

2次阅读

共计 3582 个字符,预计需要花费 9 分钟才能阅读完成。

不晓得大家在平时的工作中

有没有据说过“图计算”这个名词

但大家肯定在各工作汇报,技术分享中据说过“智能化”,“人工智能”这样的字眼

而咱们明天要唠的这个图计算

就是人工智能畛域内近几年煊赫一时的前沿宠儿

也是咱们风控反欺诈中罕用的“大杀器”

在理解图计算之前

首先得理解什么是“图”

咱们明天所说的图

其实是用于示意对象之间关联关系的一种数据结构

具备很强的抽象性和灵活性

在构造和语义等方面具备很强的示意能力

正是因为图构造丰盛的表现力

在现实生活中有很多能够示意为“图”的例子

例如社交网络、道路网、金融交易等

研发或者算法相干的小伙伴们都晓得

咱们罕用的机器学习和深度学习算法

大多都是用于解决一些规整、有序,或者结构化的数据

比方矩阵、图片、文本、序列等

且所解决的数据都是被假如是独立同散布的

然而图上的节点都是天然相连

这也就表明节点之间不是独立的

此时,明天咱们要提的图计算就来了

它的外围正是为了将数据建模为图构造

并解决如何将问题解法转化为图构造上的计算问题

当算法工作波及到多个体之间关联剖析时

图计算往往可能使得问题能很天然地示意为一系列对图构造的操作和计算

然而图计算所须要解决的问题多种多样

难以使用一套计算模式解决所有的问题

接下来咱们就来零碎地盘一盘

对于图计算的那些事儿

—★—

比方,借助边是否有方向

图能够分为有向图和无向图

借助边是否有权重

图还能分为有权图和无权图

借助图中的点和边是否具备多种类型

图又能分为同构图和异构图

还有,借助图构造和图信息是否随工夫变动

图能分为动态图和动态图

“度”和“街坊”

是波及图节点的两个重要概念

节点的“度”是指的与之相连的节点个数

如果是有向图,还会辨别“入度”、“出度”

节点的“街坊”则是指与之相连的其余节点

对于图的示意

还有几个根底概念是不得不提的

一个是“邻接矩阵”

用于量化示意节点之间的边关系

还有就是“节点特色”和“边特色”

用于表征节点和边的特有数值属性

无论如许简单的图算法模型

都是基于这些基本概念进行的

提一个对于图的最根本的问题——节点表征问题

就是如何基于以上的图的信息和属性

对图中的节点或者边进行量化示意

在 CV 和 NLP 工作中

咱们会设计 CNN 和 RNN 模块

来建模图像像素点和文本文字表征的信息

在图的表征学习中也是一样的思路

有了正当的节点向量示意

咱们就能够摸索各类上游工作

比方进行节点分类

找出那些领有非凡体现或属性的节点

或者进行社群划分

找出那些汇集性最强、相似性最高的节点汇合

另外,还能够进行链接预测、子图划分等各种上游工作

想借助图计算做什么

齐全取决于你的理论需要

看到这里

就能够祝贺你

你曾经入门图计算了

—★★—

图计算其实并不是新兴的算法

对它进行历史溯源的话

欧拉被认为是人类历史上最平凡的数学家之一

因为他对哥尼斯堡七孔桥问题的形容

图论学科便继而产生

在哥尼斯堡的一个公园里

有七座桥将普雷格尔河中两个岛与河岸连接起来

欧拉于 1736 年钻研并证实了此问题

他把问题归结为“一笔画”问题

并证实一笔画的走法是不可能的

在他的钻研过程中

就把问题中的海洋与桥别离形象为点和边

并造成了一个简略的拓扑图

引出了对于图的根底概念

在那之后,呈现了图论的一个晚期利用——地区渲染(染色)

随着 15—17 世纪大航海时代的到来

以及法国大革命之后民族国家概念的衰亡

世界各国都开始绘制更高精度的地图

而绘图中如何用起码的色彩来保障相邻的两个区域(国家、州、省)

用不同的色彩区别开来的问题就是个经典的图论问题

19 世纪中叶,数学家们以手工计算的形式证实了“五色地图”的问题

而直到整整一个世纪之后的 1976 年

才在计算机的算力的帮忙下初步证实了“四色地图”的可行性

并通过图计算优化后

以四色图取代了五色图

以上地图上色问题是数学中典型的 NP 齐全问题

例如导航、资源调度、搜寻和举荐引擎

然而这些场景所对应的大数据框架及解决方案

在最开始

并没有真正意义上应用原生化的图存储与计算模式

换句话说,人们仍然在用列数据库

甚至文档数据库来解决图论问题

低效低维的工具被用来强行解决简单高维的问题

那么它的用户体验可能很差或者是投入产出比极为蹩脚

最近几年,随着互联网的倒退

常识图谱逐渐深入人心

图计算和图数据库的倒退才开始从新受到重视

近半个世纪,也有很多图计算的算法问世

包含 1956 年呈现的出名 Dijkstra 算法

钻研解决了图的最短门路问题

更简单的各类社区发现算法也应运而生

用于检测社区、客群、嫌疑人之间的关联

就是将图中的每一个顶点都示意成一个低维向量

并使该向量可能尽可能多的保留图的构造和内容信息

并能够作为特色用于后续的学习工作

如节点分类、链接预测等

这些工作针对同构图、异构图、属性图、动态图等不同类型的数据

提出了各式各样的计划

包含经典算法 DeepWalk、LINE、Node2Vec

这些算法的基本思路是基于随机游走生成数据

而后通过训练优化参数

产生概率模型

将经典神经网络模型如 RNN、CNN 等扩大到了图数据上

与图表征学习试图学习出每个点的向量不同

图神经网络的目标其实是学习出聚合函数

所有点通过同一个函数就能够利用部分信息计算出本身的表征

即便是图构造发生变化,甚至是齐全新的图

也能用原来的函数计算出有意义的后果

无关图神经网络,也曾经诞生了一系列经典算法

—★★★—

最初,说些对于图计算的理论利用吧

当下许多大型互联网企业、金融科技公司

其实都离不开图计算技术

Google 创始人 Larry Page 在 20 世纪末创造的 PageRank

这是一种大规模页面、链接排序的算法

能够说,晚期谷歌的核心技术就是一种浅层的并发图计算技术

还有 Facebook,它的技术框架的外围是它的 Social Graph

即敌人关联敌人再关联敌人

由此脸书建设了弱小的社交关系网络

脸书开源了很多货色

然而这个外围的图计算引擎与架构从未开源过

如果你能回忆起 2007-2008 年暴发的世界金融危机

莱曼兄弟公司破产

过后高盛集团能全身而退

背地的实在起因是利用了强有力的图数据库系统——SecDB

而对于所有技术驱动的新型互联网公司

比方 Paypal、易趣和许多咱们国内的金融和电子商务公司

图计算也并不常见

图的外围竞争力能够帮忙他们揭示出数据的外部关联

最近十年以来

随着以深度学习为代表的人工智能技术广泛应用

图学习逐步成为了一个热点话题

也在因果关系、可解释性方面获得了冲破停顿

当初,图学习也已进一步扩大利用

比方广告、金融风控、智能交通、医疗、智慧城市等各个领域

那就最初再说些金融反欺诈中的图计算利用例子

在金融、电商等波及金钱交易的畛域

总是不乏沉闷在其中以谋取非法利益的黑产

比方薅羊毛、刷单、套现、虚伪交易等

相比起个别用户本身偶发的套利行为

那些以团伙为单位在各业务场景下汇集操作作案的黑产团伙

他们的行为会对平台造成更大更重大的经济损失

而图计算正是辨认团伙性案件的良方妙药

通过将万千用户、商户、设施、网络环境等作为节点

将应用、交易等信息作为关联信息建边

即可造成一个覆盖范围极广的异构图

再联合不同的利用背景确定辨认指标

并筛选图计算模型、样本、标签等

即可进行一次有监督学习的图训练

最终在推理阶段对图中的节点或边进行其危险程度的概率输入

那就会有小伙伴说了

风控场景高质量样本标签太少了

问题不大,也有很多图模型可用于无监督学习

比方社群发现,就不须要任何标签信息

即可将关联最严密的节点汇合进行聚类

在咱们的教训里

是辨认黑产团伙最好用的图算法之一

再比方近几年热门的自监督学习、比照学习

利用于图计算畛域则能够对图进行无监督预训练

从图构造、图属性本身的性质登程

为图节点学到具备良好表征能力的向量

可用于上游的各类风控智能模型中

—★★★★—

随着近期 AIGC 大模型的爆火出圈

人工智能又迎来了新一波浪潮

 相比生成式的语言和视觉模型

图计算的确显得冷门一些

但楠姐置信好饭不怕晚

没有发光的日子都是在为发光做筹备

兴许会有一天,图计算也能迎来本人的热搜

—- 写在最初 —-

本篇文章图片构思、创意、整体构造、前期批改,全副版权归京东楠姐所有,素材生成均源自于 Midjourney 以及楠姐原创提醒词生成。楠姐出图不易,且并非完满, 请勿未经容许用于其余场合及目标

本篇文章图片创意均只为了阐明及示意,且带有肯定夸大和风趣元素,切勿对号入座哦~ 如有雷同,纯属巧合~ 无心触犯~

本篇文章文字均依据以下参考文献汇总撰写:

[1]. 马耀,汤继良. 图深度学习 [M]. 电子工业出版社.

[2]. 张长水,唐杰,邱锡鹏 [M]. 图神经网络导论 [M]. 人民邮电出版社.

[3]. 知乎. 图计算倒退简史 [EB/OL].
https://zhuanlan.zhihu.com/p/562893366

[4]. 百度. 大数据的根底——图计算的倒退历程 [EB/OL].
https://baijiahao.baidu.com/s?id=1743913772591545506&wfr=spid…

作者:京东科技 丁楠

内容起源:京东云开发者社区(未经受权请勿转载)

正文完
 0